Gebruik de Chi-kwadraat toets voor onafhankelijkheid of de Fisher’s exacte toets om te toetsen of er een afhankelijkheid bestaat tussen twee ongepaarde, binaire variabelen.1, 2 In tegenstelling tot de Chi-kwadraat toets voor onafhankelijkheid kan de Fisher’s exacte toets ook bij een laag aantal observaties gebruikt worden, dit wordt bij de assumpties toegelicht.3 De Chi-kwadraat toets voor onafhankelijkheid kan ook gebruikt worden wanneer de twee categorische variabelen meer dan twee categorieën bevatten, maar Fisher’s exacte toets vereist wel dat beide variabelen binair zijn. Deze toetspagina illustreert de toets echter voor twee ongepaarde binaire variabelen.
De studentendecaan van een hogeschool vraagt zich af of het invoeren van het leenstelsel van invloed is op het uitvallen van studenten met een functiebeperking. Daarom onderzoekt hij of er een afhankelijkheid is tussen het wel of niet uitvallen van studenten met een functiebeperking en het wel of niet invoeren van het leenstelsel.
Dit onderzoek vertaalt zich in de volgende combinatie van hypothesen, waarbij de nulhypothese zo geformuleerd is dat er geen effect of verschil is en de alternatieve hypothese zo geformuleerd is dat er wel een effect of verschil is.
H0: Er is geen afhankelijkheid tussen het wel of niet uitvallen van studenten met een functiebeperking en het wel of niet invoeren van het leenstelsel.
HA: Er is een afhankelijkheid tussen het wel of niet uitvallen van studenten met een functiebeperking en het wel of niet invoeren van het leenstelsel.
Voor een valide resultaat moeten de data aan een aantal voorwaarden voldoen voordat de toets uitgevoerd kan worden. De variabelen zijn categorisch (nominaal4 of ordinaal5) en de observaties zijn onafhankelijk van elkaar.
De Chi-kwadraat toets voor onafhankelijkheid heeft een assumptie wat betreft het aantal observaties in een kruistabel. Een kruistabel is een tabel waarin de aantallen observaties worden weergegeven per combinatie van de categorieën van beide variabelen. De kruistabel van de data in de huidige casus is te vinden in Tabel 1.
| geen uitval | uitval | totaal | |
|---|---|---|---|
| geen leenstelsel | 496 | 375 | 871 |
| wel leenstelsel | 394 | 369 | 763 |
| totaal | 890 | 744 | 1634 |
Tabel 1. Geobserveerde aantallen casus uitval met of zonder leenstelsel
De Chi-kwadraat toets voor onafhankelijkheid wordt onbetrouwbaar als er in meer dan 20% van de cellen van de kruistabel een verwacht aantal observaties van 5 of lager is. Gebruik in dat geval Fisher’s exacte toets.6 Het verwacht aantal observaties in een cel is het aantal observaties dat zich in een cel op basis van kansrekening zou moeten bevinden wanneer er geen afhankelijkheid tussen de twee variabelen is. Op basis van de nulhypothese van onafhankelijkheid tussen de variabelen kunnen de verwachte aantallen observaties in elke cel berekend worden. Een voorbeeldberekening van het verwacht aantal observaties voor de cel linksboven (geen leenstelsel; geen uitval) werkt als volgt: vermenigvuldig het totaal aantal studenten in de groep geen leenstelsel (871) met het totaal aantal studenten dat niet uitvalt (890) en deel dit door het totaal aantal studenten (1634).
Alle verwachte aantallen observaties zijn te vinden in Tabel 2. Merk ook op dat de totalen in de rijen en kolommen gelijk zijn aan de totalen in Tabel 1, de kruistabel met de aantallen observaties. Geen van de verwachte aantallen is kleiner of gelijk aan vijf, dus er is voldaan aan de assumptie van groepsgrootte voor de Chi-kwadraat toets voor onafhankelijkheid.
| geen uitval | uitval | totaal | |
|---|---|---|---|
| geen leenstelsel | 474,41 | 396,59 | 871 |
| wel leenstelsel | 415,59 | 347,41 | 763 |
| totaal | 890 | 744 | 1634 |
Tabel 2. Verwachte aantallen casus uitval met of zonder leenstelsel
De p-waarde geeft aan of een (mogelijk) verschil tussen twee groepen statistisch significant is. De grootte van het verschil of effect is echter ook relevant. Een effectmaat is een gestandaardiseerde maat die de grootte van een effect weergeeft, zodat effecten van verschillende onderzoeken met elkaar vergeleken kunnen worden.7 De Chi-kwadraat toets voor onafhankelijkheid heeft als effectmaat Cohen’s w.8 Een indicatie om Cohen’s w te interpreteren is: rond 0,1 is het een klein effect, rond 0,3 is het een gemiddeld effect en rond 0,5 is het een groot effect.9
De odds ratio is een andere effectmaat die voor zowel de Chi-kwadraat toets voor onafhankelijkheid als de Fisher’s exacte toets kan worden gebruikt. Een voorwaarde is echter dat beide variabelen binair zijn. In andere woorden, er moet een 2x2 kruistabel gevormd kunnen worden. Odds is een Engelse term voor de verhouding van twee kansen, bijvoorbeeld de verhouding tussen het aantal studenten dat uitvalt en niet uitvalt. Een odds ratio is de verhouding tussen twee odds, dus de verhouding van de odds van studentenuitval voor de periode met leenstelsel en de periode zonder leenstelsel. De odds ratio geeft dus een interpretatie van het effect van een leenstelsel op het uitvallen van studenten.10
Er is een dataset ingeladen genaamd Uitval_studenten_functiebeperking_leenstelsel. In deze dataset is voor elke student met een functiebeperking aangegeven of ze studeerden voor of na invoering van het leenstelsel en of ze wel of niet uitgevallen zijn.
## Eerste 6 observaties
head(Uitval_studenten_functiebeperking_leenstelsel)
## Studentnummer Periode Uitval
## 1 4000039 Geen leenstelsel Geen uitval
## 2 4000618 Geen leenstelsel Uitval
## 3 4000720 Geen leenstelsel Uitval
## 4 4000859 Geen leenstelsel Geen uitval
## 5 4001662 Geen leenstelsel Geen uitval
## 6 4001817 Geen leenstelsel Uitval
## Laatste 6 observaties
tail(Uitval_studenten_functiebeperking_leenstelsel)
## Studentnummer Periode Uitval
## 1629 4497450 Leenstelsel Uitval
## 1630 4497730 Leenstelsel Uitval
## 1631 4498419 Leenstelsel Uitval
## 1632 4498712 Leenstelsel Uitval
## 1633 4499005 Leenstelsel Geen uitval
## 1634 4499591 Leenstelsel Geen uitval
Een kruistabel geeft de aantallen observaties weer voor de combinaties van de categorieën van de variabelen Periode en Uitval. Maak de kruistabel met de functie table() met als argumenten de variabele Uitval_studenten_functiebeperking_leenstelsel$Periode (voor of na invoering leenstelsel) en Uitval_studenten_functiebeperking_leenstelsel$Uitval (wel of niet uitgevallen).
## Maak een kruistabel
Uitval_studenten_kruistabel <- table(Uitval_studenten_functiebeperking_leenstelsel$Periode, Uitval_studenten_functiebeperking_leenstelsel$Uitval)
## Print de kruistabel
print(Uitval_studenten_kruistabel)
##
## Geen uitval Uitval
## Geen leenstelsel 496 375
## Leenstelsel 394 369
## Print een tabel met proporties, tweede argument 2 zorgt ervoor dat de
## proporties per rij berekend worden
prop.table(Uitval_studenten_kruistabel, 1)
##
## Geen uitval Uitval
## Geen leenstelsel 0.5694604 0.4305396
## Leenstelsel 0.5163827 0.4836173
De kruistabel en bijbehorende tabel met proporties laat zien dat het percentage uitgevallen studenten hoger is na invoering van het leenstelsel (48,36%) dan voor invoering van het leenstelsel (43,05%).
Toets de assumptie dat niet meer dan 20% van de verwachte aantallen observaties gelijk aan of kleiner dan vijf is. Bereken het verwacht aantal observaties met het argument chisq.test()$expected van de functie chisq.test() met als argumenten de variabelen Uitval_studenten_functiebeperking_leenstelsel$Periode (voor of na invoering leenstelsel) en Uitval_studenten_functiebeperking_leenstelsel$Uitval (wel of niet uitgevallen).
chisq.test(Uitval_studenten_functiebeperking_leenstelsel$Periode,
Uitval_studenten_functiebeperking_leenstelsel$Uitval)$expected
##
## Geen uitval Uitval
## Geen leenstelsel 474.4125 396.5875
## Leenstelsel 415.5875 347.4125
Geen van de verwachte aantallen observaties is gelijk aan of kleiner dan vijf, dus de Chi-kwadraat toets voor onafhankelijkheid kan worden uitgevoerd.
De Chi-kwadraat toets voor onafhankelijkheid wordt uitgevoerd om de vraag te beantwoorden of er een afhankelijkheid is tussen het uitvallen van studenten met een functiebeperking en het wel of niet invoeren van het leenstelsel. Gebruik de functie chisq.test() met als argumenten de variabelen Uitval_studenten_functiebeperking_leenstelsel$Periode (voor of na invoering leenstelsel) en Uitval_studenten_functiebeperking_leenstelsel$Uitval (wel of niet uitgevallen).
chisq.test(Uitval_studenten_functiebeperking_leenstelsel$Periode,
Uitval_studenten_functiebeperking_leenstelsel$Uitval)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: Uitval_studenten_functiebeperking_leenstelsel$Periode and Uitval_studenten_functiebeperking_leenstelsel$Uitval
## X-squared = 4.4086, df = 1, p-value = 0.03576
Bereken de effectmaat Cohen’s w vervolgens op basis van de χ2-waarde van de Chi-kwadraat toets voor onafhankelijkheid.
# Sla de teststatistiek op
Chi2_teststatistiek <- chisq.test(Tabel_uitval_functiebeperking)$statistic
# Bereken het totaal aantal observaties als som van de kruistabel
N <- sum(Tabel_uitval_functiebeperking)
# Bereken eta squared
w <- sqrt(Chi2_teststatistiek / N)
# Print de effectgrootte
paste("De effectgrootte is",w)
## [1] "De effectgrootte is 0.0519427149089799"
De Chi-kwadraat toets voor onafhankelijkheid is uitgevoerd om te toetsen of er een afhankelijkheid is tussen het uitvallen van studenten met een functiebeperking en het wel of niet invoeren van het leenstelsel. De nulhypothese dat uitval en invoering van het leenstelsel onafhankelijk zijn kan verworpen worden, χ2 1 = 4,41, p = 0,04, w = 0,05. De propoties per rij in Tabel 3 laten zien dat er relatief meer studenten uitvallen nadat er een leenstelsel is ingevoerd.
| geen uitval | uitval | |
|---|---|---|
| geen leenstelsel | 0,57 | 0,43 |
| wel leenstelsel | 0,52 | 0,48 |
Tabel 3. Proporties wel of niet uitvallen studenten met of zonder leenstelsel berekend per rij.
Fisher’s exacte toets wordt uitgevoerd om de vraag te beantwoorden of er een afhankelijkheid is tussen het uitvallen van studenten met een functiebeperking en het wel of niet invoeren van het leenstelsel. Deze toets is ook betrouwbaar bij een laag aantal observaties. Om de toets te illustreren is een subset van de dataset Uitval_studenten_functiebeperking_leenstelsel ingeladen; de subset heet Fisher_Uitval_studenten_functiebeperking_leenstelsel.
Een kruistabel geeft de aantallen observaties weer voor de combinaties van de categorieën van de variabelen Periode en Uitval. Maak de kruistabel met de functie table() met als argumenten de variabele Fisher_Uitval_studenten_functiebeperking_leenstelsel$Periode (voor of na invoering leenstelsel) en Fisher_Uitval_studenten_functiebeperking_leenstelsel$Uitval (wel of niet uitgevallen).
## Maak een kruistabel
Fisher_Uitval_studenten_kruistabel <- table(Fisher_Uitval_studenten_functiebeperking_leenstelsel$Periode, Fisher_Uitval_studenten_functiebeperking_leenstelsel$Uitval)
## Print de kruistabel
print(Fisher_Uitval_studenten_kruistabel)
##
## Geen uitval Uitval
## Geen leenstelsel 8 3
## Leenstelsel 14 7
## Print een tabel met proporties, tweede argument 2 zorgt ervoor dat de
## proporties per rij berekend worden
prop.table(Fisher_Uitval_studenten_kruistabel, 1)
##
## Geen uitval Uitval
## Geen leenstelsel 0.7272727 0.2727273
## Leenstelsel 0.6666667 0.3333333
De kruistabel en bijbehorende tabel met proporties laat zien dat het percentage uitgevallen studenten hoger is na invoering van het leenstelsel (33,33%) dan voor invoering van het leenstelsel (27,27%).
Toets de assumptie dat niet meer dan 20% van de verwachte aantallen observaties gelijk aan of kleiner dan vijf is. Bereken het verwachte aantal observaties met het argument chisq.test()$expected van de functie chisq.test() met als argumenten de variabelen Fisher_Uitval_studenten_functiebeperking_leenstelsel$Periode (voor of na invoering leenstelsel) en Fisher_Uitval_studenten_functiebeperking_leenstelsel$Uitval (wel of niet uitgevallen).
chisq.test(Fisher_Uitval_studenten_functiebeperking_leenstelsel$Periode,
Fisher_Uitval_studenten_functiebeperking_leenstelsel$Uitval)$expected
## Warning in
## chisq.test(Fisher_Uitval_studenten_functiebeperking_leenstelsel$Periode, : Chi-
## squared approximation may be incorrect
##
## Geen uitval Uitval
## Geen leenstelsel 7.5625 3.4375
## Leenstelsel 14.4375 6.5625
Een van de verwachte aantallen observaties is kleiner dan vijf, dus de Chi-kwadraat toets voor onafhankelijkheid kan niet worden uitgevoerd. Fisher’s exacte toets moet inderdaad gebruikt worden voor deze dataset.
Voer Fisher’s exacte toets uit met de functie fisher.test met als argumenten de variabelen Fisher_Uitval_studenten_functiebeperking_leenstelsel$Periode (voor of na invoering leenstelsel) en Fisher_Uitval_studenten_functiebeperking_leenstelsel$Uitval (wel of niet uitgevallen).
fisher.test(Fisher_Uitval_studenten_functiebeperking_leenstelsel$Periode,
Fisher_Uitval_studenten_functiebeperking_leenstelsel$Uitval)
##
## Fisher's Exact Test for Count Data
##
## data: Fisher_Uitval_studenten_functiebeperking_leenstelsel$Periode and Fisher_Uitval_studenten_functiebeperking_leenstelsel$Uitval
## p-value = 1
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 0.2157919 10.1751326
## sample estimates:
## odds ratio
## 1.321591
Fisher’s exacte toets is uitgevoerd om te toetsen of er een afhankelijkheid is tussen het uitvallen van studenten met een functiebeperking en het wel of niet invoeren van het leenstelsel. De nulhypothese dat uitval en invoering van het leenstelsel onafhankelijk zijn kan niet verworpen worden, p = 1. De proporties per rij in Tabel 4 laten zien dat er relatief meer studenten uitvallen nadat er een leenstelsel is ingevoerd, dit verschil is echter niet significant.
| geen uitval | uitval | |
|---|---|---|
| geen leenstelsel | 0,73 | 0,27 |
| wel leenstelsel | 0,67 | 0,33 |
Tabel 4. Proporties wel of niet uitvallen studenten met of zonder leenstelsel berekend per rij voor dataset Fisher’s exacte toets.
Binaire variabelen: twee elkaar uitsluitende waarden, zoals ja of nee, 0 of 1, aan of uit.↩
Prabhakaran, S. (2016-2017). Statistical Tests. http://r-statistics.co/Statistical-Tests-in-R.html.↩
Van Geloven, N., & Holman, R., (6 mei 2016). Fisher’s exact toets. Wiki Statistiek Academisch Medisch Centrum.↩
Een nominale variabele is een categorische variabele waarbij de categorieën niet geordend kunnen worden. Een voorbeeld is de variabele windstreek (noord, oost, zuid, west) en geslacht (man of vrouw).↩
Een ordinale variabele is een categorische variabele waarbij de categorieën geordend kunnen worden. Een voorbeeld is de variabele beoordeling met de categorieën Onvoldoende, Voldoende, Goed en Uitstekend.↩
Van Geloven, N. (20 augustus 2015). Chi-kwadraat toets. Wiki Statistiek Academisch Medisch Centrum.↩
Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R. London: Sage publications.↩
De effectmaat Cohen’s w wordt voor de Chi-kwadraat toets berekend door de wortel te nemen van de χ2-waarde gedeeld door het totaal aantal observaties, i.e. \(\sqrt{ \frac{\chi^2}{N} }\).↩
Allen, P. & Bennett, K. (2012). SPSS A practical Guide version 20.0. Cengage Learning Australia Pty Limited.↩
Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R. London: Sage publications.↩
In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.↩
In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.↩