1 Statistiek in de taalwetenschap

Tegenwoordig maken taalwetenschappers gebruik van een heel scala aan empirische experimenten om data te genereren. Met eye-tracking worden oogbewegingen en pupilgrootte geregistreerd en gemeten. Reactietijden op basis van lexicale decisie-experimenten meten hoe snel een woord herkend wordt, wat inzicht geeft in de cognitieve verwerking ervan. Aan de hand van beoordelingstesten (bvb., “forced choice task”, “100-split task”) tracht men te achterhalen welke zinsconstructie voor de taalgebruiker “natuurlijk” klinkt. Enquêtes worden online verspreid via sociale netwerken en genereren met gemak honderden tot duizenden rijen data voor een breed spectrum aan vragen. Taaltesten, psychologische experimenten en psychosociale kenmerken worden online uitgevoerd en leveren binnen de kortste keer een overvloed aan data. De uitspraak van vocalen en consonanten kan men tegenwoordig zeer nauwkeurig meten in frequenties en lengtes. Collocationele patronen, synoniemen en antoniemen worden uit gigantische corpora gehaald met text mining technieken en nadien gebruikt in generatieve AI-toepassingen. Men maakt zelfs hersenscans om de verwerking van taal in het brein te meten. Kortom, ook in de taalwetenschap is meten weten geworden.

De statistiek is een vrij jonge wetenschap, waarvan de grootste vooruitgang geboekt werd in de voorbije vijftig jaar, vooral dankzij ontwikkelingen in de computer en de software. Wat we nu als vrij simpele analyses beschouwen, zoals de regressie-analyse in hoofdstuk 12, nam vroeger dagen in beslag. Nu fitten we complexe modellen in een oogopslag.

Het kan verbazen maar taalwetenschappers hebben de statistische boot eigenlijk niet gemist. Empirische data-analyse werd al vrij vroeg in de sociolinguïstiek gebruik en ook in de stilistiek werd de statistiek al vroeg omarmd (bvb. auteurschapstoekenning). Toch duurde het tot de eeuwwisseling vooraleer de statistiek in brede kringen van de taalkunde doordrong. In een vroege bijdrage over het gebruik van de statistiek in de taalkunde omschrijft Phil Scholfield (1991: 45) de situatie als volgt:

Thirty years ago [= de jaren 1960, LDC] there were few comers of linguistics where statistics was thought relevant. Linguists were then concerned mostly with developing theoretical frameworks in which to describe the various levels of languages - phonology, morphology, syntax, and so forth. Languages themselves were generally approached as monolithic entities, with most attention paid only to their standard forms, and without regard for individual speaker performance. Even where variation was studied (e.g. in dialect geography), empirical data was usually nonquantitative and derived from simple introspection or single informants. Statistics were rarely needed, and it was very much a case of “Those who count, don’t count”.

Wat Scholfield hier wel over het hoofd ziet, is dat het gebruik van de statistiek enkel gepaard kon gaan met de doorbraak van de computer vanaf de jaren 1990 en later met gebruiksvriendelijke software die een statistische data analyse mogelijk maken voor niet-statistici en/of wiskundigen. Het “gemak” waarmee taalwetenschappers tegenwoordig complexe regressiemodellen bouwen, was 20 jaar geleden gewoon ondenkbaar.
Sinds de jaren 2000 merken we bovendien een empirische wending in de taalwetenschap, waarbij er een positieve feedbackloop ontstaan is tussen datagenerend onderzoek en het gebruik van geavanceerde statistische modellen.

Een statistische data-analyse beoogt grosso modo twee doelstellingen. In eerste instantie willen we een weg vinden in een grote hoeveelheid gegevens. Data exploreren en samenvatten, tendenzen herkennen, en mogelijke associaties en correlaties in kaart brengen. Wat was de snelste en traagste reactietijd? Hoeveel procent van de ondervraagde participanten vond zin X ongrammaticaal? Wat was de gemiddelde eerste formant van de geronde voorvocaal? Is t-deletie in het Nederlands geassocieerd met leeftijd?

Een tweede doelstelling van een statistische data analyse is om op basis van een steekproef een besluit te trekken over een populatie (statistische inferentie). Een correcte statistische analyse biedt genuanceerde antwoorden, vaak in grijstinten en kleurschakeringen veeleer dan in zwart-wit. Vergeet en negeer alle uitspraken die beginnen met “Het is wetenschappelijk bewezen dat…”. Pure bewijzen vind je in de logica en de wiskunde, zelden daarbuiten. De statistiek is een wetenschappelijke taal die je in staat stelt om nauwkeurige en genuanceerde besluiten te formuleren en te appreciëren.

Maar laat één ding van bij het begin duidelijk zijn: statistiek is moeilijk! Het gemak waarmee tegenwoordig complexe modellen gefit worden, camoufleren de kennis die nodig is om een statistische analyse op een geïnformeerde manier uit te voeren. Het berekenen van bepaalde waarden of het fitten van geavanceerde modellen is relatief simpel, maar het afwegen van alle voor- en nadelen van alle mogelijke analyses die je zou kunnen uitvoeren is een grotere uitdaging. En hoe meer inzicht je krijgt in de statistiek, hoe meer je zult merken dat er soms meerdere gelijkwaardige antwoorden zijn op dezelfde vraag. Dit leren appreciëren is een zachte waarde die deze inleiding tot de statistische data-analyse je moet bijbrengen.

Een andere uitdaging die gepaard gaat met het aanleren van statistiek is dat er verschillende domeinen samenkomen. De fundamenten van de statistiek liggen in de wiskunde en de probabiliteitsleer. Daarnaast moet je leren werken met statistische software, heb je inzicht nodig in datastructuren en databeheer, en is enige kennis vereist van onderzoeksmethodologie en onderzoeksdesign. Het spreekt voor zich dat het geen sinecure is om dit allemaal zowel in de breedte als in de diepte te beheersen.

Tot slot nog dit. Een doorgedreven kwantificering kan een gebrekkig theoretisch kader nooit goedmaken. In elke wetenschap bestaat er een noodzakelijke wisselwerking tussen theorie(vorming) en empirische toetsing. Een theorie doet uitspraken en voorspellingen over de werkelijkheid en die verwachtingen moet men vervolgens empirisch kunnen toetsen. In deze cursus gaan we niet in op de taaltheoretische onderbouw, maar dat neemt niet weg dat dit kader cruciaal blijft in het taalwetenschappelijk onderzoek. Daarom vind ik het belangrijk om het bovenstaande citaat van Scholfield te nuanceren: “those who don’t count, also count”. Theorievorming blijft immers fundamenteel.

Een korte vooruitblik op de thema’s die verder in dit handboek aan bod komen. De eerste hoofdstukken (2 t/m 5) behandelen de beginselen van de R-taal. We starten met een introductie tot base-R en het datafame-object. Vervolgens maken we een zijsprong naar de tidyverse-aanpak voor datamanipulatie datavisualisatie. In hoofdstuk 6 starten we met het statistisch gedeelte. Eerst maak je kennis met variabelen en univariate samenvattingen en visualisaties. Hoofdstukken 7 en 8 leggen de basis voor de statistische inferentie. De cruciale concepten zijn: kritische waarden, z-scores en cumulatieve proporties, en de steekproevenverdeling. Deze concepten vormen de kern van de statistische testen en modellen die we fitten in de verder hoofdstukken. Hoofdstuk 9 legt uit wat een statistische test is aan de hand van de t-test. Hoofdstuk 10 verlegt de focus naar categorische variabelen, een belangrijk type binnen de taalwetenschap. In Hoofdstuk 11 keren we terug naar continue data en onderzoeken we via de variantie-analyse (ANOVA) het verschil tussen drie of meerdere continue variabelen. Hoofdstuk 12 eindigt het statistisch gedeelte met een inleiding tot het enkelvoudige lineaire regressiemodel.