De VWN gaf een workshop ‘Weerbaarheid tegen cijfers en statistieken’ op 29 oktober 2021 in Seven in Utrecht onder leiding van Hans van Maanen. Hier volgt een kort verslag van die bijeenkomst met 15 aanwezigen.
Notulen door: Paul A.M. van Dongen
Gemiddelde
Hans besprak heel kort het begrip ‘gemiddelde’ (M) en constateerde dat iedereen wist dat 5 het gemiddelde van 1 en 9 is.
Spreiding
In de praktijk variëren allerlei eigenschappen rond een gemiddelde: lichaamslengte, IQ, het aantal blaadjes aan een boomtak, inkomen. De meeste mensen zitten qua lengte rond het landelijk gemiddelde, steeds minder zitten er steeds verder van af. De gemiddelde afwijking van het gemiddelde noemt men ‘standaarddeviatie’ (SD). De SD is een maat voor de spreiding/variatie in de populatie en heeft niet te maken met het aantal metingen of waarnemingen.
Een voorbeeld: voor IQ geldt M = 100 en SD = 15. Een belangrijke vuistregel is, dat 95 % van alle waarden binnen 4 SD van het gemiddelde valt, dus 95 % van de bevolking heeft een IQ tussen 70 en 130. Stel dat de SD = 100, dan zou 95 % tussen −100 en +300 zitten. Maar omdat negatieve IQ’s onmogelijk zijn, verschuift de verdeling naar rechts en zit ruwweg 95 % tussen 0 en 400.
Z-score
De Z-score van een waarneming is de afstand van die waarneming tot het gemiddelde, gedeeld door de standaarddeviatie.
Iemand met een IQ van 115 heeft dus een Z-score van (115 – 15)/15 = 1.
Een Z-score groter dan 2 (of kleiner dan −2) is uitzonderlijk, immers 95 % van de verdeling zit tussen −2 en +2 SD.
Effectgrootte
De effectgrootte is het verschil tussen bijvoorbeeld lichaamslengtes op verschillende leeftijden of de gemiddeldes voor en na een behandeling, gedeeld door hun (gewogen) SD. Effectgrootte wordt vaak uitgedrukt in d, voorgesteld door Jacob Cohen: d = (M1 – M2)/SD. Vuistregels:
• d < 0,3: klein effect, bijvoorbeeld lengteverschil 14- en 15-jarige meisjes;
• d rond 0,5: middelgroot effect, met blote oog zichtbaar, verschil 14 en 16 jaar;
• d > 0,8: groot effect, eigenlijk geen statistiek voor nodig, verschil 13 en 16 jaar.
Het komt nogal eens voor dat een onderzoeker de effectgrootte niet berekent, maar toch meldt dat er een groot effect gevonden is.
Standaardfout
De ‘standaardfout’ (SEM, standard error of the mean) geeft aan hoe nauwkeurig een gemiddelde (of een andere maat) is bepaald. De SEM hangt af van:
• de spreiding in de populatie (SD);
• het aantal metingen (N).
Hoe meer metingen men doet, hoe kleiner de standaardfout wordt dus hoe nauwkeuriger de meting. Voor de SEM geldt: SEM = SD/√N. Als de SD in de populatie niet bekend is, kan men de SD van de steekproefwaarden als schatting gebruiken (SD is immers SEM maal √N) maar dat kost precisie.
•
•
Een voorbeeld. Als in een tabel een SD van de leeftijd van 5,2 jaar wordt gegeven en het aantal proefpersonen 1.000.000, dan is √N = 1000, waardoor SEM = 0,0052 cm.
Let op: de SD in de populatie en de SEM van een steekproef moeten niet verward worden.
Het 95%-betrouwbaarheidsinterval
Het 95%-betrouwbaarheidsinterval is een interval waarvan we 95 procent zeker zijn dat het de gezochte waarde omvat: als we het experiment steeds herhalen, zal gemiddeld 95 procent van de berekende intervallen de werkelijke waarde bevatten. Het wordt berekend via de SEM: het 95%-betrouwbaardheidinterval is 4 standaardfouten breed, exacter: M ± 1,96 SEM. Let op: Als het 95%-BI loopt van bijvoorbeeld 0,1 tot 0,4, is het onjuist om te zeggen dat het 95 procent zeker is dat het interval tussen 0,1 en 0,4 ligt.
p-waarde
In veel onderzoek worden de bevindingen uitgedrukt in een p-waarde. Als men bijvoorbeeld 2 groepen vergelijkt, kan men als ‘nulhypothese’ stellen dat er geen verschil tussen die groepen is. Vervolgens verzamelt men de onderzoeksgegevens. Daarna stelt men de vraag: Hoe groot is de kans om deze gegevens te verkrijgen (of nog extremere) als er geen verschil is, dus als de nulhypothese waar is? Als die kans te klein is om vol te houden dat er geen verschil is, moet ik de nulhypothese verwerpen: er is iets aan de hand. In navolging van Ronald Fisher stelt men bijna altijd de grens op 5 %. Als de p-waarde kleiner dan die grenswaarde is, noemt men de resultaten ‘significant’.
Let op: het is onjuist om te zeggen dat er 5 % kans op toeval is, of dat de p ‘zo klein is dat er haast geen sprake van toeval kan zijn’.
Aanvulling van Hans tijdens correctie: Als het 95%-BI de waarde van de nulhypothese niet omvat, is het resultaat significant. Dus als de nulhypothese was dat er geen verschil is, betekent een 95%-BI van 0,1 tot 0,4 dat p < 0,05. Bij een interval van −0,3 tot +0,8 is het resultaat niet significant.
Power
De ‘power’ van een onderzoek is de kans om een significant resultaat te vinden als een gezocht effect werkelijk bestaat — om een verwacht signaal op te pikken uit de ruis. De power hangt vooral af van de het verwachte effect en het aantal metingen. Vuistregels voor bijvoorbeeld onderzoek met 2 groepen proefpersonen, p < 0,05:
• Voor het aantonen van een effectgrootte van 0,8 heb je 26 proefpersonen per groep nodig;
• Voor een effectgrootte van 0,5 heb je 64 proefpersonen per groep nodig;
• Voor een effectgrootte van 0,2 heb je 393 proefpersonen per groep.
Om een significant resultaat voor een klein effect te bereiken, zijn dus heel veel proefpersonen/-dieren nodig.
Hans gaf nog enkele voorbeelden. Het oorzakelijk verband tussen gebruik van de anticonceptiepil en voorschriften voor antidepressiva hield geen stand.
Vrouwentranen dempen de mannelijke lust (p < 0,02) maar het effect is miniem (en de hypothese weinig plausibel).
Toen de voetballer Clarence Seedorf op 22 juni 1996 op het EK een strafschop miste, waren er op die dag opvallend veel dodelijke hartaanvallen, vergeleken met 5 dagen eerder en later. Maar als over een langere periode gekeken werd, blijkt er niets aan de hand.
Er was ruim tijd voor discussie, waarbij veel stokpaardjes bereden werden – ook door Uw notulist.
Hans eindigde met de aanbeveling: “Vraag een statisticus” en Bart de Haas met een limerick.
Geef een reactie
Je moet ingelogd zijn om een reactie te geven.