Sitzung 2b: Themensuche | Daten extrahieren | Forschungsdatenmanagement
raw und processed dataist ein neues, quelloffenes, wissenschaftliches und technisches Publikationssystem
Das Ziel von Quarto ist es, den Prozess der Erstellung und Zusammenarbeit an wissenschaftlichen und technischen Dokumenten deutlich zu verbessern

Dokument metadata
Dokument metadata
Markdown kann mit jedem Editor bearbeitet werden, auch mit den Quelltext- oder visuellen Editoren von RStudio.


Code kann auch mit den Quelltext- oder visuellen Editoren von RStudio bearbeitet werden


Wie groß ist der Gender Gap bei deutschen Menschen auf Wikidata?
Ziel: Wir untersuchen einen Gender Data Gap in einer der größten freien Wissensdatenbanken der Welt, Wikidata.
Für die Analyse mit R nutzen wir zwei Hauptzugänge:
WikidataR.WikipediR oder pageviews.Wikidata speichert Informationen in Triplen (Subjekt - Prädikat - Objekt). Um diese abzufragen, nutzen wir SPARQL.
P21: Geschlecht (Property)Q6581072: Weiblich (Item)Q6581097: Männlich (Item)P31: “Ist ein(e)” (z.B. Q5 - Mensch)# A tibble: 46 × 2
genderLabel count
<chr> <chr>
1 männlich 246365
2 weiblich 78703
3 nichtbinär 46
4 Transfrau 41
5 Transmann 10
6 neutrales Geschlecht 4
7 Intergeschlechtlichkeit 3
8 Agender 3
9 Cisfrau 2
10 Transfeminin 2
# ℹ 36 more rows
plot_wikidata = ggplot(df, aes(x = reorder(gender, count), y = count, fill = gender)) +
geom_col(width = 0.7, show.legend = FALSE) +
coord_flip() +
# Farbpalette
scale_fill_brewer(palette = "Set2") +
# Labels
labs(
title = "Geschlechterverteilung deutscher Personen in Wikidata",
subtitle = "Datenquelle: Wikidata Query Service",
x = "Geschlecht",
y = "Anzahl"
) +
# Minimaler, moderner Theme-Stil
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(face = "bold", size = 18),
plot.subtitle = element_text(size = 12, color = "gray40"),
axis.title = element_text(face = "bold"),
panel.grid.major.y = element_blank(),
panel.grid.minor = element_blank(),
plot.margin = margin(10, 15, 10, 15)
)df_gap = df %>%
select(-genderLabel) %>%
pivot_wider(names_from = gender, values_from = count) %>%
rename(male = männlich,
female =weiblich) %>%
mutate(
absolute_gap = male - female,
ratio_male_female = male / female,
female_share = female / (male + female)
)
df_gap# A tibble: 1 × 5
male female absolute_gap ratio_male_female female_share
<dbl> <dbl> <dbl> <dbl> <dbl>
1 246365 78703 167662 3.13 0.242