1 Toepassing

Gebruik de Kruskal Wallis toets om te toetsen of de gemiddelde rangnummers1 van de verdelingen van twee of meer groepen van elkaar verschillen.2, 3 De Kruskal Wallis toets kan een alternatief zijn voor de one-way ANOVA.4 De Kruskal Wallis toets hoeft niet te voldoen aan de assumptie van normaliteit van de verdelingen van elke groep. Daarnaast hebben uitbijters bij de Kruskal Wallis toets minder invloed op het eindresultaat dan bij de one-way ANOVA. Daarentegen, als de data wel normaal verdeeld is, heeft de Kruskal Wallis toets minder onderscheidend vermogen5 dan de one-way ANOVA.6 Vandaar dat ondanks de voordelen van de grotere robuustheid er toch minder vaak voor de Kruskal Wallis toets gekozen wordt.

2 Onderwijscasus

De opleidingsdirecteur van de tweejarige Masteropleiding Arbeidsrecht is geïnteresseerd in de afstudeersnelheid van haar studenten. Zij vraagt zich af of er een verschil zit in het type vooropleiding dat de studenten hebben gehaald en de hoeveel studiepunten die de studenten behalen in het eerste jaar. Zij kijkt naar de vier meest gangbare vooropleidingen die de studenten doorlopen voordat ze met de Master Arbeidsrecht beginnen: de Bachelors Fiscaal Recht, Notarieel Recht en Rechtsgeleerdheid en de Premaster.

Dit onderzoek vertaalt zich in de volgende combinatie van hypothesen, waarbij de nulhypothese zo geformuleerd is dat er geen effect of verschil is en de alternatieve hypothese zo geformuleerd is dat er wel een effect of verschil is.

H0: Het gemiddelde rangnummer van de verdeling van het aantal behaalde studiepunten in het eerste jaar van de master Arbeidsrecht is gelijk voor de studenten met als vooropleidingen Bachelor Fiscaal Recht, Notarieel Recht of Rechtsgeleerdheid of de Premaster.

HA: Het gemiddelde rangnummer van de verdeling van het aantal behaalde studiepunten in het eerste jaar van de master Arbeidsrecht is niet gelijk voor de studenten met als vooropleiding Bachelor Fiscaal Recht, Notarieel Recht of Rechtsgeleerdheid of de Premaster.

3 Assumpties

Het meetniveau van de afhankelijke variabele is ordinaal7 of continu.8 In deze toetspagina staat een casus met continue data centraal; een casus met ordinale data met bijbehorende uitwerking is te vinden in de Kruskal Wallis toets II.

4 Post-hoc toets

De Kruskal Wallis toets toetst of twee of meerdere groepen van elkaar verschillen. Een post-hoc toets specificeert of groep significant van een andere groep verschilt. Gebruik de Mann-Whitney U toets als post-hoc toets. Hoewel het minder gebruikelijk is, is Moods’mediaan toets ook een optie als post-hoc toets. Deze toets toetst het verschil tussen de medianen van twee ongepaarde groepen. De Mann-Whitney U toets toetst het verschil tussen de verdelingen van twee ongepaarde groepen.

Gebruik een correctie voor de p-waarden, omdat er meerdere toetsen tegelijkertijd worden gebruikt. Meerdere toetsen tegelijkertijd uitvoeren verhoogt de kans dat een van de nulhypotheses onterecht wordt verworpen en er bij toeval een verband wordt ontdekt dat er niet is (type I fout). In deze toetspagina wordt de Bonferroni correctie gebruikt. Deze correctie past de p-waarde aan door de p-waarde te vermenigvuldigen met het aantal uitgevoerde toetsen en verlaagt hiermee de kans op een type I fout.9 Een andere uitleg hiervan is dat het significantieniveau gedeeld wordt door het aantal toetsen wat leidt tot een lager significantieniveau en dus een strengere toets. Er zijn ook andere opties voor een correctie op de p-waarden.10

5 Effectmaat

De p-waarde geeft aan of het verschil tussen groepen significant is. De grootte van het verschil of effect is echter ook relevant. Een effectmaat is een gestandaardiseerde maat die de grootte van een effect weergeeft, zodat effecten van verschillende onderzoeken met elkaar vergeleken kunnen worden.11

Bij de Kruskal Wallis toets wordt eta-squared (η2) als effectmaat gebruikt.12 De effectmaat eta squared (η2) berekent de proportie van de variantie in de afhankelijke variabele die verklaard wordt door de onafhankelijke variabele. In deze casus berekent het de proportie van de variantie in het aantal studiepunten wat verklaard kan worden door de vooropleiding. Een indicatie om η2 te interpreteren is: rond 0,01 is een klein effect, rond 0,06 is een gemiddeld effect en rond 0,14 is een groot effect.13

6 Uitvoering

Er is een dataset Resultaten_Arbeidsrecht ingeladen met studieresultaten van het eerste jaar van de master Arbeidsrecht per vooropleiding: Fiscaal Recht, Notarieel Recht, Rechtsgeleerdheid en de Premaster.

6.1 De data bekijken

Gebruik head() en tail() om de structuur van de data te bekijken.

## Eerste 6 observaties
head(Resultaten_Arbeidsrecht)
##   Studentnummer   Vooropleiding EC_Jaar1
## 1       3807246       Premaster       42
## 2       3915405       Premaster       36
## 3       3188059   Fiscaal Recht       60
## 4       3098956 Notarieel Recht       48
## 5       3367486   Fiscaal Recht       48
## 6       3590979       Premaster       12

## Laatste 6 observaties
tail(Resultaten_Arbeidsrecht)
##     Studentnummer     Vooropleiding EC_Jaar1
## 295       3442156         Premaster       42
## 296       3757991 Rechtsgeleerdheid       54
## 297       3783610 Rechtsgeleerdheid       36
## 298       3055956     Fiscaal Recht       66
## 299       3041376 Rechtsgeleerdheid        0
## 300       3395844     Fiscaal Recht       60

De dataset bevat gegevens van studenten van verschillende opleidingen. Gebruik unique() om te onderzoeken welke opleidingen er in de data aanwezig zijn.

## Unieke opleidingen
unique(Resultaten_Arbeidsrecht$Vooropleiding)
## [1] Premaster         Fiscaal Recht     Notarieel Recht   Rechtsgeleerdheid
## Levels: Fiscaal Recht Notarieel Recht Premaster Rechtsgeleerdheid

Inspecteer voor het aantal EC per vooropleiding de mediaan, de kwartielen en het aantal observaties. Gebruik de mediaan en kwartielen omdat de beoordelingen waarschijnlijk niet normaal verdeeld zijn. Gebruik hiervoor de functie descr en stby van het package summarytools om de beschrijvende statistieken per groep weer te geven. Voer de gewenste statistieken in met het argument stats = c("q1","med","q3","n.valid").

library(summarytools)

## Mediaan, kwartielen en groepsgroottes
with(Resultaten_Arbeidsrecht, 
     stby(data = EC_Jaar1, 
          list(Vooropleiding), 
          descr, 
          stats = c("q1", "med", "q3", "n.valid")))
## Descriptive Statistics  
## EC_Jaar1 by Vooropleiding  
## Data Frame: Resultaten_Arbeidsrecht  
## N: 71  
## 
##                 Fiscaal Recht   Notarieel Recht   Premaster   Rechtsgeleerdheid
## ------------- --------------- ----------------- ----------- -------------------
##            Q1           30.00             42.00       30.00               18.00
##        Median           54.00             54.00       42.00               36.00
##            Q3           66.00             60.00       54.00               48.00
##       N.Valid           71.00             77.00       81.00               71.00
  • Mediaan Fiscaal Recht is 54, n = 71.
  • Mediaan Notarieel Recht is 54, n = 77.
  • Mediaan Premaster is 42, n = 81.
  • Mediaan Rechtsgeleerdheid is 36, n = 71.

6.2 De data visualiseren

Geef de verdeling van de verschillende vooropleidingen visueel weer met een histogram.14

## Histogram met ggplot
library(ggplot2)

ggplot(Resultaten_Arbeidsrecht,
  aes(x = EC_Jaar1)) +
  geom_histogram(aes(y = ..density..),
                 binwidth = 1,
                 color = "grey30",
                 fill = "#0089CF") +
  facet_wrap(~ Vooropleiding) +
  ylab("Frequentiedichtheid") +
  xlab("Aantal studiepunten jaar 1")

  labs(title = "Beoordelingen")
## $title
## [1] "Beoordelingen"
## 
## attr(,"class")
## [1] "labels"

Allereerst valt op dat de verdeling enigszins discreet is. Aangezien er in deze casus zes studiepunten per vak te verdienen zijn met een totaal van 60 in het eerste jaar, bestaan de histogrammen uit staven waartussen de verschillen zes studiepunten zijn. De verdeling van alle vier de vooropleidingen zijn niet normaal maar scheef verdeeld. Met uitzondering van de vooropleiding Rechtsgeleerdheid ligt de top op 60 studiepunten en is er een staart links daarvan.

6.3 Kruskal Wallis toets

Voer de Kruskal Wallis toets uit om te onderzoeken of er verschillen zijn in het aantal studiepunten in het eerste jaar tussen de studenten van de master Arbeidsrecht met vier verschillende vooropleidingen Gebruik de functie kruskal.test() met als eerste argument de afhankelijke variabele EC_Jaar1 en de variabele die de groep definiëert: Vooropleiding. Het tweede argument is het dataframe Resultaten_Arbeidsrecht.

kruskal.test(EC_Jaar1 ~ Vooropleiding, Resultaten_Arbeidsrecht)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  EC_Jaar1 by Vooropleiding
## Kruskal-Wallis chi-squared = 44.557, df = 3, p-value = 1.149e-09

Bereken de effectmaat η2 vervolgens op basis van de χ2-waarde van de Kruskal-Wallis toets.

# Sla de teststatistiek op
KW_teststatistiek <- kruskal.test(EC_Jaar1 ~ Vooropleiding, Resultaten_Arbeidsrecht)$statistic

# Bereken eta squared
Eta_squared <- KW_teststatistiek / (nrow(Resultaten_Arbeidsrecht) - 1)

# Print de effectgrootte
paste("Eta squared is",Eta_squared)
## [1] "Eta squared is 0.149020082481886"
  • df: het aantal groepen - 1 = 3
  • H = 44,56, df = 3, p < 0,0001, η2 = 0,15 15
  • p-waarde < 0,05, dus de H0 wordt verworpen16
  • Eta squared is 0,15 wat duidt op een gemiddeld tot groot effect

6.4 Post-hoc toets: Mann-Whitney U toets

Gebruik de Mann-Whitney U toets als post-hoc toets om te bepalen welke groepen significant verschillen. Gebruik de functie pairwise.wilcox.test() met als eerste argument de afhankelijke variabele Resultaten_Arbeidsrecht$EC_Jaar1 en als tweede argument de definitie van de groepen Resultaten_Arbeidsrecht$Vooropleiding. Pas de Bonferroni correctie toe met p.adjust.method = "bonferroni". Naast de p-waarde worden bij de Mann-Whitney U toets de gemiddelde rangnummers en de effectmaat r gerapporteerd. Voor meer informatie, zie de toetspagina van de Mann-Whitney U toets.

pairwise.wilcox.test(Resultaten_Arbeidsrecht$EC_Jaar1, Resultaten_Arbeidsrecht$Vooropleiding, p.adjust.method = "bonferroni")
## 
##  Pairwise comparisons using Wilcoxon rank sum test 
## 
## data:  Resultaten_Arbeidsrecht$EC_Jaar1 and Resultaten_Arbeidsrecht$Vooropleiding 
## 
##                   Fiscaal Recht Notarieel Recht Premaster
## Notarieel Recht   1.0000        -               -        
## Premaster         0.0033        0.0114          -        
## Rechtsgeleerdheid 5.7e-07       1.2e-07         0.0217   
## 
## P value adjustment method: bonferroni
posthoc <-pairwise.wilcox.test(Resultaten_Arbeidsrecht$EC_Jaar1, Resultaten_Arbeidsrecht$Vooropleiding, p.adjust.method = "bonferroni")$p.value

De Mann-Whitney U toets gebruikt het gemiddelde rangnummer van twee ongepaarde groepen om de significantie van de toets te bepalen. Met behulp van het gemiddelde rangnummer kan bepaald worden welke groep hogere rangnummers heeft wat een benadering is voor het verschil tussen twee verdelingen.17 In deze casus heeft de vooropleiding met een hoger rangnummer dus over het algemeen studenten met een hoger aantal studiepunten. Bereken en rapporteer daarom het gemiddelde rangnummer.

# Maak een functie om het gemiddelde rangnummer te berekenen voor een vergelijking van twee groepen
Gemiddeld_rangnummer <- function(Vooropleiding_1, Vooropleiding_2){
  
  # Bind alle observaties in een variabele
  Aantal_studiepunten <- c(Vooropleiding_1, Vooropleiding_2)
  
  # Maak een variabele die aangeeft in welke groep de observatie zit
  Groepsindicator <- c(rep(1, length(Vooropleiding_1)), rep(2, length(Vooropleiding_2)))
  
  # Bereken de rangnummers van alle observaties
  Rangschikkingen <- rank(Aantal_studiepunten)
  
  # Bereken het gemiddelde rangnummer voor beide vooropleidingen
  Gemiddeld_rangnummer_Vooropleiding_1 <- mean(Rangschikkingen[Groepsindicator == 1])
  Gemiddeld_rangnummer_Vooropleiding_2 <- mean(Rangschikkingen[Groepsindicator == 2])
  
  # Retourneer beide gemiddelde rangnummers
  return(list(Groep_1 = Gemiddeld_rangnummer_Vooropleiding_1, Groep_2 = Gemiddeld_rangnummer_Vooropleiding_2))
}


# Definieer variabelen die observaties bevatten voor de verschillende vooropleidingen
Studiepunten_Fiscaal_Recht <- Resultaten_Arbeidsrecht$EC_Jaar1[Resultaten_Arbeidsrecht$Vooropleiding == "Fiscaal Recht"]

Studiepunten_Notarieel_Recht <- Resultaten_Arbeidsrecht$EC_Jaar1[Resultaten_Arbeidsrecht$Vooropleiding == "Notarieel Recht"]

Studiepunten_Premaster <- Resultaten_Arbeidsrecht$EC_Jaar1[Resultaten_Arbeidsrecht$Vooropleiding == "Premaster"]

Studiepunten_Rechtsgeleerdheid <- Resultaten_Arbeidsrecht$EC_Jaar1[Resultaten_Arbeidsrecht$Vooropleiding == "Rechtsgeleerdheid"]


# Bereken de gemiddelde rangnummers voor elke vergelijking
Gem_FR_NR <- Gemiddeld_rangnummer(Studiepunten_Fiscaal_Recht, 
                                  Studiepunten_Notarieel_Recht)

Gem_FR_PM <- Gemiddeld_rangnummer(Studiepunten_Fiscaal_Recht, 
                                  Studiepunten_Premaster)

Gem_FR_RG <- Gemiddeld_rangnummer(Studiepunten_Fiscaal_Recht, 
                                  Studiepunten_Rechtsgeleerdheid)

Gem_NR_PM <- Gemiddeld_rangnummer(Studiepunten_Notarieel_Recht, 
                                  Studiepunten_Premaster)

Gem_NR_RG <- Gemiddeld_rangnummer(Studiepunten_Notarieel_Recht,
                                  Studiepunten_Rechtsgeleerdheid)

Gem_PM_RG <- Gemiddeld_rangnummer(Studiepunten_Premaster, 
                                  Studiepunten_Rechtsgeleerdheid)
Vergelijking p-waarde Gemiddeld rangnummer (links) Gemiddeld rangnummer (rechts)
FR vs. NR 1,00 76,94 72,25
FR vs. PM 0,10 89,56 65,06
FR vs. RG < 0,0001 89,82 53,18
NR vs. PM 0,02 91,01 68,56
NR vs. RG < 0,0001 93,34 54,06
PM vs. RG 0,03 86,17 65,47

Tabel 1. Resultaten post-hoc toetsen voor vergelijking Fiscaal Recht (FR), Notarieel Recht (NR), Premaster (PM) en Rechtsgeleerdheid (RG).

Als voorbeeld wordt de bovenste rij van Tabel 1 in woorden uitgelegd. Er is geen significant verschil gevonden tussen Fiscaal Recht (Gemiddeld rangnummer = 76,94, n=71) en Notarieel Recht (Gemiddeld rangnummer = 72,25, n=77), p=1,00.

7 Rapportage

De Kruskal Wallis toets is uitgevoerd om te toetsen of er verschillen zijn tussen de studenten van de Master Arbeidsrecht met als vooropleiding Bachelor Fiscaal Recht, Notarieel Recht of Rechtsgeleerdheid of de Premaster wat betreft de verdeling van het aantal studiepunten dat de studenten in het eerste jaar behalen. Uit de resultaten kan afgelezen worden dat er een significant verschil is tussen de verdelingen van het aantal studiepunten voor de verschillende vooropleidingen, H = 44,56, df = 3 ,p < 0,0001, η2 = 0,15. De resultaten ondersteunen de conclusie dat er een verschil is tussen studenten van de vier verschillende vooropleidingen wat betreft de verdeling van de hoeveelheid studiepunten die studenten behalen tijdens het eerste jaar van de master Arbeidsrecht.

De Mann-Whitney U toets is uitgevoerd als post-hoc toets om te onderzoeken welke vooropleidingen van elkaar verschillen qua aantal studiepunten dat studenten behalen. De Bonferroni correctie is gebruikt om de Type I fout te voorkomen die gepaard gaat met het veelvuldig toetsen. De studenten met Rechtsgeleerdheid als vooropleiding behalen significant minder punten bij de Master Arbeidsrecht, dan de studenten met een andere vooropleiding. Er is ook een significant verschil gevonden tussen de behaalde studiepunten van studenten met de vooropleiding Notarieel Recht en de Premaster, waarbij de studenten van de Premaster minder punten behaalden dan de studenten van Notarieel Recht. Er zijn geen significante verschillen gevonden tussen de vooropleidingen Fiscaal Recht en Notarieel Recht, en Fiscaal Recht en Premaster. De gemiddelde rangnummers en p-waarden van de post-hoc toetsen zijn te vinden in Tabel 1.


  1. Bij de Kruskal Wallis toets en andere nonparametrische toetsen wordt de data eerst gerangschikt zodat elke observatie een rangnummer toegewezen krijgt. Deze rangnummers worden vervolgens gebruikt om de toets uit te voeren.

  2. De toets rangschikt de datapunten van laag naar hoog en geeft elke datapunt een rangnummer. Vervolgens wordt per groep het gemiddelde berekend van de rangnummers. Deze gemiddelden wordt met elkaar vergeleken. Voor meer informatie lees: Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R. London: Sage publications.

  3. Laerd statistics (2018). Kruskal-Wallis H Test using SPSS Statistics. https://statistics.laerd.com/spss-tutorials/kruskal-wallis-h-test-using-spss-statistics.php.

  4. Van Geloven, N. (21 maart 2018). Kruskal Wallis. Wiki Statistiek Academisch Medisch Centrum.

  5. Onderscheidend vermogen, in het Engels power genoemd, is de kans dat de nulhypothese verworpen wordt wanneer de alternatieve hypothese ‘waar’ is.

  6. Universiteit van Amsterdam (7 juli 2014). Kruskal-Wallis Test. UvA Wiki Methodologiewinkel.

  7. Een ordinale variabele is een categorische variabele waarbij de categorieën geordend kunnen worden. Een voorbeeld is de variabele beoordeling met de categorieën Onvoldoende, Voldoende, Goed en Uitstekend.

  8. Van Geloven, N. (21 November 2017). KEUZE TOETS. Wiki Statistiek Academisch Medisch Centrum.

  9. Universiteit van Amsterdam (7 juli 2014). Kruskal-Wallis Test. UvA Wiki Methodologiewinkel.

  10. Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R. London: Sage publications.

  11. Van Geloven, N. (21 maart 2018). Kruskal Wallis. Wiki Statistiek Academisch Medisch Centrum.

  12. De effectmaat η2 wordt voor de Kruskal-Wallis toets berekend door de χ2-waarde te delen door het totaal aantal observaties minus één, i.e. $ $.

  13. Allen, P. & Bennett, K. (2012). SPSS A practical Guide version 20.0. Cengage Learning Australia Pty Limited.

  14. De breedte van de staven van het histogram wordt vaak automatisch bepaald, maar kan handmatig aangepast worden. Aangezien de breedte van de staven bepalend zijn voor de indruk die de visualisatie geeft, is het verstandig om hier goed op te letten.

  15. De test-statistiek H volgt bij benadering de chi-kwadraat verdeling. Onder deze hypothese is H chi-kwadraat, vandaar dat dit in de output uitgedrukt wordt in chi-kwadraat.

  16. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met Type I en Type II fouten.

  17. Field, A. (2013). Discovering statistics using IBM SPSS statistics. Sage.