Statistiek in de taalwetenschap

Een praktijkgerichte inleiding met R

Author
Affiliation

Ludovic De Cuypere

Ghent University - Vrije Universiteit Brussel

Hoezo, Statistiek?

Als je zegt dat je binnen de opleiding taalkunde een vak statistiek volgt, verwacht je dan aan een fronsende blik en aan de vraag waar dat goed voor is. Het antwoord is nochtans simpel. Om een taal te leren, heb je natuurlijk geen statistiek nodig. Maar om een taal te bestuderen aan de hand van empirisch onderzoek, heb je statistiek nodig om de onderzoeksgegevens te analyseren.

Tegenwoordig bevat elke taalwetenschappelijke studie waarbij men gegevens creëert door experiment of door observationeel onderzoek een grondige statistische data-analyse. De statistiek is voor de taalwetenschapper dan ook een noodzakelijke competentie geworden om tendenzen, patronen, associaties en correlaties te ontdekken, te verifiëren en te falsifiëren. Zonder enige basiskennis statistiek ben gewoon je niet langer in staat om de resultaten van dergelijk taalwetenschappelijk onderzoek kritisch te interpreteren en te evalueren.

Daarnaast is datageletterdheid cruciaal geworden in onze datagedreven maatschappij, waarin we overspoeld worden met data en wetenschappelijk onderzoek, vaak uit secundaire bronnen die de bevindingen niet altijd even accuraat of op z’n minst gekleurd rapporteren. Elke hoogopgeleide burger die de maatschappij op een constructieve en kritische manier vorm wil geven, heeft statistische basisvaardigheden nodig om wetenschappelijke literatuur uit de eerste hand correct te lezen en te interpreteren.

Er bestaan verschillende manieren om statistiek aan te brengen en ook voor dit handboek werden keuzes gemaakt. Men kan beginnen bij de theoretische fundamenten in de probabiliteitsleer en de kansberekening, of men kan kiezen voor een puur praktisch kookboek met veel statistische testen. De eerste weg leidt tot veel kennis maar niet noodzakelijk tot veel kunde, de tweede houdt het gevaar in van een blinde mechanische toepassing van statistische testen zonder inzicht. Dit handboek zoekt een evenwicht tussen beide methodes. De theoretische basis wordt eerder intuïtief uitgelegd. Concepten als cumulatieve proporties, P-waarden, de verdeling van de teststatistiek, alsook de meeste statistische definities en formules worden visueel en verhalend toegelicht.

Een statistische analyse vereist software en in dit handboek gebruiken we ´R´ (R Core Team 2023) en RStudio (RStudio Team 2023). De basis van R wordt aangebracht in de eerste hoofdstukken. Doorheen het handboek wordt alle code uitvoerig en gedetailleerd becommentarieerd.

Alle voorbeelden en datasets komen uit de taalwetenschappelijke praktijk. In het kader van Open Science publiceren wetenschappers hun data en code tegenwoordig in online repositories zoals https://dataverse.no/dataverse/trolling/. We analyseren in dit handboek meerdere gepubliceerde datasets.

Het beoogde doelpubliek zijn studenten en ontluikende onderzoekers in de taalwetenschap. Het handboek biedt een praktijkgerichte inleiding tot de statistische data-analyse die de student in staat moet stellen om de basis van de (frequentistische) statistiek intuïtief en visueel te begrijpen, om de basistesten en -modellen te kunnen uitvoeren, en om de resultaten ervan kritisch te kunnen beoordelen.

De keuze om significantietoetsen aan te leren is enigszins controversieel en sommige data-analisten pleiten er tegenwoordig dan ook voor om de focus te verleggen naar statistische modellering. Ook hier probeert dit handboek een evenwicht te bewaren: je kunt immers niet begrijpen wat er problematisch is aan een “p-waarde”, als je niet weet wat een p-waarde is. Dit handboek benadrukt ook het belang van visualisatie en databeschrijving, wat in essentie ook een vorm van datamodellering is.

Deze inleiding tot de statistiek beoogt de volgende algemene doelstellingen:

  • Categorische en continue data kunnen beschrijven, samenvatten en visualiseren aan de hand van software
  • Enkele basistesten zelfstandig kunnen uitvoeren (t-test, ANOVA, chikwadraattoets, enkelvoudige lineaire regressie)
  • De assumpties voor deze testen appreciëren en kunnen nagaan
  • Bivariate relaties kunnen samenvatten en visualiseren
  • Basis R-code kunnen lezen, schrijven en documenteren
  • Kunnen communiceren met een statisticus

Misschien is de laatste vaardigheid wel de belangrijkste. Wetenschappelijk onderzoek is teamwerk. Dat betekent natuurlijk niet dat je alles zomaar kunt overlaten aan de statisticus. Een correcte statistische data-analyse vereist inzicht in de materie en daarin speelt de taalwetenschapper als inhoudelijk expert een cruciale rol. Een overlapping in de competenties van de (taal)wetenschapper en de statisticus is dan ook cruciaal om een vruchtbare samenwerking tot stand te brengen.

Dit is een eerste inleiding tot de statistiek voor de taalwetenschap. Om een volwaardige taaldata-analist te worden heb je zeker nog meer verdiepende competenties nodig om de complexe modellen te bouwen en te interpreteren die tegenwoordig door toponderzoekers gebruikt worden. Enkele suggesties voor verdere studie komen in de latere hoofdstukken aan bod.

Dit handboek werd geschreven met Quarto (Quarto.org) in RStudio (RStudio Team 2023) en met R (R Core Team 2023), versie 4.2.3. De omslagfiguur werd gemaakt met behulp van het aRtsy package (Derks 2023).