Disclaimer: Het peer review proces voor deze toets is nog niet afgerond; daarom is deze pagina nog in concept.

1 Toepassing

Gebruik Cochran’s Q toets om te toetsen of er verschillen zijn op een binaire variabele1 tussen drie of meer herhaalde metingen van één groep of tussen drie of meer gepaarde groepen.2

2 Onderwijscasus

De opleidingsdirecteur van de bacheloropleiding Kunstmatige Intelligentie van een universiteit merkt dat er tijdens het eerste studiejaar veel studenten zijn die niet alle vakken voldoende afsluiten. Hij wil uitvinden in welke onderwijsperiode dit vooral plaatsvindt om te onderzoeken waardoor de studievertraging veroorzaakt wordt. Op deze universiteit bestaat het eerste jaar uit vier onderwijsperiodes. Daarom vraagt hij studieresultaten op van eerstejaars studenten uit het vorige collegejaar die niet zijn uitgevallen gedurende dat jaar. Met deze resultaten wil hij onderzoeken of er een effect is van de onderwijsperiodes op het wel of niet hebben van herkansingen voor de eerstejaars studenten.

Dit onderzoek vertaalt zich in de volgende combinatie van hypothesen, waarbij de nulhypothese zo geformuleerd is dat er geen effect of verschil is en de alternatieve hypothese zo geformuleerd is dat er wel een effect of verschil is.

H0: Er is geen effect van de onderwijsperiode op het wel of niet hebben van herkansingen voor eerstejaars studenten.

HA: Er is een effect van de onderwijsperiode op het wel of niet hebben van herkansingen voor eerstejaars studenten.

3 Assumpties

Om Cochran’s Q toets uit te voeren, moeten de data aan een aantal voorwaarden voldoen. Er dient een categorische afhankelijke variabele te zijn met twee categorieën zonder overlap: elke observatie past slechts in een van beide categorieën. Daarnaast zijn er drie of meer herhaalde metingen van één groep of zijn er drie of meer gepaarde groepen. In beide gevallen zijn de deelnemers3 een willekeurige steekproef van de populatie.4

Cochran’s Q toets is te gebruiken wanneer het product van het aantal deelnemers en het aantal herhaalde metingen groter dan of gelijk aan 24 is.5 Gebruik de exacte versie van Cochran’s Q toets wanneer dit niet het geval is.6

4 Post-hoc toetsen

Cochran’s Q toets toetst of er verschillen zijn tussen een percentage op drie of meer herhaalde metingen. Voer een post-hoc toets uit om te bepalen welke metingen van elkaar verschillen. Gebruik de McNemar toets als post-hoc toets.

Gebruik een correctie voor de p-waarden, omdat er meerdere toetsen tegelijkertijd worden gebruikt. Meerdere toetsen tegelijkertijd uitvoeren verhoogt de kans dat een van de nulhypotheses onterecht wordt verworpen en er bij toeval een verband wordt ontdekt dat er niet is (type I fout). In deze toetspagina wordt de Bonferroni correctie gebruikt. Deze correctie past de p-waarde aan door de p-waarde te vermenigvuldigen met het aantal uitgevoerde toetsen en verlaagt hiermee de kans op een type I fout.7 Een andere uitleg hiervan is dat het significantieniveau gedeeld wordt door het aantal toetsen wat leidt tot een lager significantieniveau en dus een strengere toets. Er zijn ook andere opties voor een correctie op de p-waarden.8

5 De data bekijken

Er is een dataset ingeladen genaamd Herkansingen_kunstmatige_intelligentie. In deze dataset is per onderwijsperiode aangegeven of een student wel of geen herkansingen heeft gemaakt.

## Eerste 6 observaties
head(Herkansingen_kunstmatige_intelligentie)
##     Studentnummer Onderwijsperiode Herkansingen
## 40        4030927                1          nee
## 90        4030927                2          nee
## 140       4030927                3          nee
## 190       4030927                4          nee
## 34        4036999                1          nee
## 84        4036999                2          nee

## Laatste 6 observaties
tail(Herkansingen_kunstmatige_intelligentie)
##     Studentnummer Onderwijsperiode Herkansingen
## 137       4492777                3          nee
## 187       4492777                4           ja
## 6         4494467                1          nee
## 56        4494467                2           ja
## 106       4494467                3           ja
## 156       4494467                4          nee

Een kruistabel geeft weer hoeveel eerstejaars studenten wel of geen herkansingen hebben in de vier onderwijsperiodes. Maak de kruistabel met de functie table() met als argumenten de variabele Herkansingen_kunstmatige_intelligentie$Herkansingen die aangeeft of eerstejaars studenten wel of geen herkansing hebben en de variabele Herkansingen_kunstmatige_intelligentie$Onderwijsperiode die aangeeft in welke onderwijsperiode een observatie is gedaan.

## Maak een kruistabel
Herkansingen_kruistabel <- table(Herkansingen_kunstmatige_intelligentie$Herkansingen, Herkansingen_kunstmatige_intelligentie$Onderwijsperiode)

## Print de kruistabel 
print(Herkansingen_kruistabel)
##      
##        1  2  3  4
##   ja  11 26 15 18
##   nee 39 24 35 32
## Print een tabel met proporties, tweede argument 2 zorgt ervoor dat de 
## proporties per kolom berekend worden
prop.table(Herkansingen_kruistabel, 2)
##      
##          1    2    3    4
##   ja  0.22 0.52 0.30 0.36
##   nee 0.78 0.48 0.70 0.64

De kruistabel en bijbehorende tabel met proporties laten zien dat het aantal eerstejaars studenten dat een herkansing doet in onderwijsperiode 1 (11) relatief laag is en relatief hoog is in onderwijsperiode 2 (26). Onderwijsperiode 3 en 4 (15 en 18) zitten qua aantal herkansende eerstejaars studenten ertussenin.

6 Uitvoering

6.1 Assumptie steekproefgrootte

Een assumptie van Cochran’s Q toets is dat het product van het aantal deelnemers en het aantal herhaalde metingen groter dan of gelijk is aan 24. In deze casus gaat het om het product van het aantal eerstejaars studenten en het aantal onderwijsperiodes. Toets deze assumpties door dit product te berekenen.

# Bereken het aantal eerstejaars studenten
N <- length(unique(Herkansingen_kunstmatige_intelligentie$Studentnummer))

# Bereken het aantal onderwijsperiodes
k <- length(unique(Herkansingen_kunstmatige_intelligentie$Onderwijsperiode))

# Bereken het product van beide
Product <- N * k

# Print het resultaat
print(Product)
## [1] 200

Het product van het aantal eerstejaars studenten en het aantal onderwijsperiodes is 200. Aangezien dit aantal groter dan 24 is, is aan de assumptie wat betreft de steekproefgrootte voldaan.

6.2 Cochran’s Q toets

Voer Cochran’s Q toets uit om te onderzoeken of er effect is van de onderwijsperiodes op het wel of niet hebben van herkansingen van eerstejaars studenten van de bachelor Kunstmatige Intelligentie. Gebruik de functie CochransQTest() met als eerste argument Herkansingen ~ Onderwijsperiode | Studentnummer waarin Herkansingen de afhankelijke variabele is, Onderwijsperiode de variabele is die de verschillende groepen aangeeft en Studentnummer de variabele is die de deelnemers aangeeft. Het tweede argument is de dataset data = Herkansingen_kunstmatige_intelligentie.

CochranQTest(Herkansingen ~ Onderwijsperiode | Studentnummer,
              data = Herkansingen_kunstmatige_intelligentie)
## 
##  Cochran's Q test
## 
## data:  Herkansingen and Onderwijsperiode and Studentnummer
## Q = 10.836, df = 3, p-value = 0.01265
  • Q (3, N = 50) = 10,84, p = 0,013
  • Aantal vrijheidsgraden is gelijk aan aantal herhaalde metingen minus één, in deze casus 4 - 1 = 3
  • De p-waarde is kleiner dan 0,05, dus de H0 wordt verworpen.9
  • Er is een significant effect van de vier onderwijsperiodes op het wel of niet hebben van herkansingen van eerstejaars studenten van de bachelor Kunstmatige Intelligentie

6.3 Post-hoc toets

Voer post-hoc toetsen uit om te onderzoeken tussen welke onderwijsperiodes er verschillen zijn in de verdeling van de eerstejaars studenten die wel of geen herkansingen hebben. Gebruik de McNemar toets als post-hoc toets. Maak eerst een aparte dataset aan voor iedere onderwijsperiode. Gebruik daarna om een McNemar toets uit te voeren de functie exact2x2() van het package exact2x2 met als eerste twee argumenten de herkansingen voor de onderwijsperiodes die vergeleken gaan worden (bijvoorbeeld P1$Herkansingen en P2$Herkansingen) , als derde argument paired = TRUE omdat er een gepaarde vergelijking wordt gemaakt en als vierde argument midp = TRUE omdat de mid p-value methode gebruikt wordt.

Voer de McNemar toets uit voor alle zes de combinaties van onderwijsperiodes. Hiervoor is het nodig om handmatig een correctie uit te voeren voor meerdere toetsen. Voer de Bonferroni correctie uit door het significantieniveau te delen door het aantal uitgevoerde toetsen. Het significatieniveau voor deze post-hoc toetsen wordt dan 0,05 / 6 ≈ 0,008. Vergelijk de p-waarden van de McNemar toetsen daarna met dit significantieniveau.

# Laad het package voor de McNemar toets in
library(exact2x2)

## Maak voor elke onderwijsperiode een aparte dataset
P1 <- Herkansingen_kunstmatige_intelligentie[Herkansingen_kunstmatige_intelligentie$Onderwijsperiode == "1",]
P2 <- Herkansingen_kunstmatige_intelligentie[Herkansingen_kunstmatige_intelligentie$Onderwijsperiode == 2,]
P3 <- Herkansingen_kunstmatige_intelligentie[Herkansingen_kunstmatige_intelligentie$Onderwijsperiode == 3,]
P4 <- Herkansingen_kunstmatige_intelligentie[Herkansingen_kunstmatige_intelligentie$Onderwijsperiode == 4,]

# Voer McNemar toets uit
exact2x2(P1$Herkansingen, P2$Herkansingen, paired = TRUE, midp = TRUE)
## 
##  Exact McNemar test (with central confidence intervals)
## 
## data:  P1$Herkansingen and P2$Herkansingen
## b = 6, c = 21, p-value = 0.005925
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.09435165 0.73185082
## sample estimates:
## odds ratio 
##  0.2857143
exact2x2(P1$Herkansingen, P3$Herkansingen, paired = TRUE, midp = TRUE)
## 
##  Exact McNemar test (with central confidence intervals)
## 
## data:  P1$Herkansingen and P3$Herkansingen
## b = 7, c = 11, p-value = 0.4807
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.2091692 1.7975846
## sample estimates:
## odds ratio 
##  0.6363636
exact2x2(P1$Herkansingen, P4$Herkansingen, paired = TRUE, midp = TRUE)
## 
##  Exact McNemar test (with central confidence intervals)
## 
## data:  P1$Herkansingen and P4$Herkansingen
## b = 6, c = 13, p-value = 0.1671
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.1438515 1.3015043
## sample estimates:
## odds ratio 
##  0.4615385
exact2x2(P2$Herkansingen, P3$Herkansingen, paired = TRUE, midp = TRUE)
## 
##  Exact McNemar test (with central confidence intervals)
## 
## data:  P2$Herkansingen and P3$Herkansingen
## b = 19, c = 8, p-value = 0.05224
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.9927716 6.2713230
## sample estimates:
## odds ratio 
##      2.375
exact2x2(P2$Herkansingen, P4$Herkansingen, paired = TRUE, midp = TRUE)
## 
##  Exact McNemar test (with central confidence intervals)
## 
## data:  P2$Herkansingen and P4$Herkansingen
## b = 16, c = 8, p-value = 0.1516
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.8076004 5.3978591
## sample estimates:
## odds ratio 
##          2
exact2x2(P3$Herkansingen, P4$Herkansingen, paired = TRUE, midp = TRUE)
## 
##  Exact McNemar test (with central confidence intervals)
## 
## data:  P3$Herkansingen and P4$Herkansingen
## b = 8, c = 11, p-value = 0.6476
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.2539522 1.9850938
## sample estimates:
## odds ratio 
##  0.7272727
  • Er is een significant verschil gevonden in de verdeling van eerstejaars studenten wat betreft herkansingen tussen onderwijsperiode 1 en onderwijsperiode 2 (p = 0,006)
  • Er zijn geen significante verschillen gevonden bij de overige vergelijkingen tussen onderwijsperiodes

7 Rapportage

Cochran’s Q toets is uitgevoerd om te onderzoeken of er een effect is van de vier onderwijsperiodes op het wel of niet hebben van herkansingen van eerstejaars studenten van de bachelor Kunstmatige Intelligentie. Het percentage eerstejaars studenten dat een of meerdere herkansingen heeft is per onderwijsperiode weergegeven in Tabel 1. Cochran’s Q toets toont aan dat er een significant effect is van de onderwijsperiodes op het wel of niet hebben van herkansingen, Q (3, N = 50) = 10,84, p = 0,013.

Om te bepalen tussen welke onderwijsperiodes er verschillen zijn, is de McNemar toets als post-hoc toets uitgevoerd met een Benjamini-Hochberg correctie voor meerdere toetsen. Uit de post-hoc toetsen blijkt dat er alleen een significant verschil is tussen onderwijsperiode 1 (22% eerstejaars studenten met herkansingen) en onderwijsperiode 2 (52% eerstejaars studenten met herkansingen) met als gecorrigeerde p-waarde 0,006. Er zijn dus significant meer eerstejaars studenten met een of meerdere herkansingen in periode 2 in vergelijking tot periode 1, maar verder zijn er geen verschillen tussen de onderwijsperiodes.

Periode 1 Periode 2 Periode 3 Periode 4
Herkansingen (%) 22 52 30 36
Geen herkansingen (%) 78 48 70 64

Tabel 1. Het percentage eerstejaars studenten van de bachelor Kunstmatige Intelligentie dat wel of geen herkansingen heeft voor de vakken in de vier onderwijsperiodes.


  1. Binaire variabelen: twee elkaar uitsluitende waarden, zoals ja of nee, 0 of 1, aan of uit.

  2. Allen, P. & Bennett, K. (2012). SPSS A practical Guide version 20.0. Cengage Learning Australia Pty Limited.

  3. Met een deelnemer wordt het object bedoeld dat geobserveerd wordt, bijvoorbeeld een student, een inwoner van Nederland, een opleiding of een organisatie. Met een observatie wordt de waarde bedoeld die de deelnemer heeft voor een bepaalde variabele. Een deelnemer heeft dus meestal een observatie voor meerdere variabelen.

  4. Laerd statistics (2018). Cochran’s Q test using SPSS Statistics. Laerd statistics

  5. Statistics How To (18 juli 2016). Cochran’s Q Test. Statistics How to.

  6. Er is geen package gevonden om de exacte versie van Cochran’s Q toets uit te voeren in R. De exacte versie is echter wel uit te voeren in SPSS.

  7. Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R. London: Sage publications.

  8. Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R. London: Sage publications.

  9. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.