1 Toepassing

Gebruik de Mann-Whitney U toets om te toetsen of de gemiddelde rangnummers¹ van de verdelingen van twee ongepaarde groepen van elkaar verschillen.² De Mann-Whitney U toets is een alternatief voor de ongepaarde t-toets als de verdelingen niet normaal verdeeld zijn. Alleen als de verdelingen van beide groepen dezelfde vorm hebben, kan de Mann-Whitney U toets ook gebruikt worden om het verschil tussen de medianen van twee groepen te toetsen.³ Gebruik Mood’s mediaan toets om medianen te toetsen bij twee ongepaarde groepen waarvan de verdelingen niet dezelfde vorm hebben.

2 Onderwijscasus

De onderwijsdirecteur van de opleiding Business Administration van een hogeschool vraagt zich af of er verschil is in de studieresultaten van studenten met een Nederlandse vooropleiding en een buitenlandse vooropleiding. Met name in het tweede studiejaar lijken er verschillen op te treden die hij wil begrijpen om mogelijke interventies met zijn docenten te bespreken. Hij vraagt zich af: ‘Verschilt het aantal studiepunten in het tweede studiejaar van studenten met een Nederlandse vooropleiding van het aantal studiepunten in het tweede studiejaar van studenten met een buitenlandse vooropleiding?

Dit onderzoek vertaalt zich in de volgende combinatie van hypothesen, waarbij de nulhypothese zo geformuleerd is dat er geen effect of verschil is en de alternatieve hypothese zo geformuleerd is dat er wel een effect of verschil is.

H₀: Er is geen verschil in het gemiddelde rangnummer van het behaalde aantal studiepunten in het tweede jaar tussen studenten met een buitenlandse vooropleiding en een Nederlandse vooropleiding.

H_A: Er is een verschil in gemiddelde rangnummer van het behaalde aantal studiepunten in het tweede jaar tussen studenten met een buitenlandse vooropleiding en een Nederlandse vooropleiding. Eén van beide verdelingen bevat hogere waarden betreffende het behaalde aantal studiepunten.

3 Assumpties

Het meetniveau van de afhankelijke variabele is ordinaal⁴ of continu.⁵ In deze toetspagina staat een casus met continue data centraal; een casus met ordinale data met bijbehorende uitwerking is te vinden in de Mann-Whitney U toets II.

De Mann-Whitney U toets hoeft - in tegenstelling tot de ongepaarde t-toets - niet te voldoen aan de assumptie van normaliteit. Daarnaast hebben uitbijters minder invloed op het eindresultaat dan bij de ongepaarde t-toets. Daarentegen, als de data wel normaal verdeeld is, heeft de Mann-Whitney U toets minder onderscheidend vermogen⁶ dan de ongepaarde t-toets. Vandaar dat ondanks het voordeel van de grotere robuustheid er toch minder vaak voor de Mann-Whitney U toets gekozen wordt.

3.1 Verdeling steekproeven

De Mann-Whitney U toets schrijft geen assumpties voor over de verdeling van de twee ongepaarde groepen.⁷ In principe toetst de Mann-Whitney U toets een hypothese over het verschil tussen het gemiddelde rangnummer van de verdelingen van twee ongepaarde groepen. De Mann-Whitney U toets maakt een rangschikking van alle observaties van beide groepen samengevoegd en telt vervolgens apart de rangnummers op voor de observaties in beide groepen. Met behulp van de groepsgroottes kan ook het gemiddelde rangnummer van beide groepen berekend worden. Het verschil tussen de gemiddelde rangnummers in beide groepen bepaalt de significantie van de toets.⁸ Daarom kan de Mann-Whitney U toets gezien worden als een toets die het gemiddelde rangnummer van twee groepen vergelijkt.

Als de verdelingen van de groepen niet dezelfde vorm hebben, doet de Mann-Whitney U toets een uitspraak over het verschil tussen verdelingen. Een verschil tussen verdelingen kan meerdere oorzaken hebben. De top of toppen van de verdelingen kunnen verschillend zijn, maar ook de spreiding van de verdeling kan verschillen.⁹ In alle gevallen is er echter een verschil tussen het gemiddelde rangnummer van de verdelingen. In andere woorden, de ene verdeling bevat hogere waarden dan de andere verdeling. Benoem daarom het gemiddelde rangnummer van beide groepen in de rapportage en visualiseer de verdeling van beide groepen om duidelijk te maken op welke manier de verdelingen van elkaar verschillen.

Als de verdelingen van beide ongepaarde groepen echter dezelfde vorm hebben, toetst de Mann-Whitney U toets ook een hypothese over het verschil tussen de medianen. Immers, het enige verschil tussen de verdeling is in dat geval een verschuiving van de verdeling, dus een verandering van de mediaan. In dat geval heeft de Mann-Whitney U toets een hoger onderscheidend vermogen¹⁰ dan Mood’s mediaan toets om medianen te toetsen.¹¹

4 Effectmaat

De p-waarde geeft aan of een (mogelijk) verschil tussen twee groepen significant is. De grootte van het verschil of effect is echter ook relevant. Een effectmaat is een gestandaardiseerde maat die de grootte van een effect weergeeft, zodat effecten van verschillende onderzoeken met elkaar vergeleken kunnen worden.¹²

De Mann-Whitney U toets heeft als effectmaat r. Een indicatie om r te interpreteren is: rond 0,1 is het een klein effect, rond 0,3 is het een gemiddeld effect en rond 0,5 is het een groot effect.¹³ De effectmaat r wordt voor de Mann-Whitney U toets berekend door de z-waarde behorend bij de p-waarde van de toets te delen door de wortel van het aantal observaties, i.e. $\frac{z}{\sqrt{N}}$.¹⁴ Een correlatie tussen twee variabelen wordt vaak ook aangeduid met het symbool r. Beide zijn effectmaten, maar er is verder geen verband tussen de correlatie en de effectmaat van de Wilcoxon signed rank toets.

5 Uitvoering

Er is een dataset Studiepunten_studiejaar2 ingeladen met het aantal studiepunten dat studenten in het tweede jaar halen.

5.1 De data bekijken

Gebruik head() en tail() om de structuur van de data te bekijken.

## Eerste 6 observaties
head(Studiepunten_studiejaar2)
##      Studentnummer Studiepunten Vooropleiding
## 658        3000364            0    Nederlands
## 1020       3000372           57   buitenlands
## 948        3000548           12    Nederlands
## 1453       3000715            0   buitenlands
## 611        3000964           42    Nederlands
## 315        3001081           48    Nederlands
## Eerste 6 observaties
tail(Studiepunten_studiejaar2)
##      Studentnummer Studiepunten Vooropleiding
## 176        3994944           48    Nederlands
## 1442       3995230            6   buitenlands
## 215        3995911           51    Nederlands
## 830        3996339            0    Nederlands
## 1059       3996684           57   buitenlands
## 1047       3997148           66   buitenlands

Bekijk de grootte, de mediaan en de kwantielen van het aantal studiepunten met length() en quantile(). De mediaan en kwantielen worden vaak gebruikt als maat wanneer een verdeling niet symmetrisch is.

Vooropleiding_Nederlands <- Studiepunten_studiejaar2$Vooropleiding == "Nederlands"

length(Studiepunten_studiejaar2$Studiepunten[Vooropleiding_Nederlands])
## [1] 950
quantile(Studiepunten_studiejaar2$Studiepunten[Vooropleiding_Nederlands])
##   0%  25%  50%  75% 100% 
##    0    6   45   57   66

length(Studiepunten_studiejaar2$Studiepunten[!Vooropleiding_Nederlands])
## [1] 550
quantile(Studiepunten_studiejaar2$Studiepunten[!Vooropleiding_Nederlands])
##   0%  25%  50%  75% 100% 
##    0    0   12   48   66

Mediaan studenten Nederlandse vooropleiding: 45, n = 950.
Mediaan studenten buitenlandse vooropleiding: 12, n = 550.

5.2 De data visualiseren

Maak een histogram¹⁵ om de verdeling van het aantal studiepunten in het tweede jaar voor studenten met een Nederlandse en buitenlandse vooropleiding visueel weer te geven.¹⁶

## Histogram met ggplot2
library(ggplot2)

ggplot(Studiepunten_studiejaar2,
  aes(x = Studiepunten)) +
  geom_histogram(aes(y = ..density..),
                 color = "grey30",
                 fill = "#0089CF") +
  facet_wrap(~ Vooropleiding, labeller = labeller(Vooropleiding = c(Nederlands = "Nederlandse vooropleiding", buitenlands = "Buitenlandse vooropleiding"))) +
  ylab("Frequentie") +
  labs(title = "Studiepunten van studenten Business Administration in het tweede jaar")

Beide histogrammen bevatten een grote groep studenten met een laag aantal studiepunten (twaalf of minder). De overige studenten volgen een ietwat scheve verdeling met de top rond de vijftig studiepunten. De verdelingen van beide groepen studenten hebben echter niet dezelfde vorm. De frequentie van het aantal studenten rond de vijftig studiepunten is veel hoger voor de studenten met Nederlandse vooropleiding, terwijl de frequentie van het aantal studenten met twaalf of minder studiepunten juist hoger is voor de studenten met een buitenlandse vooropleiding. De Mann-Whitney U toets kan in dit geval dus niet gebruikt worden om een uitspraak te doen over de significantie van het verschil van de medianen van beide groepen.

5.3 Mann-Whitney U toets

Gebruik wilcox.test() om een Mann-Whitney U toets te doen.¹⁷ Het eerste argument bevat het aantal studiepunten van studenten met een Nederlandse vooropleiding Studiepunten_studiejaar2$Studiepunten[Vooropleiding_Nederlands]; het tweede argument het aantal studiepunten van studenten met een buitenlandse vooropleiding Studiepunten_studiejaar2$Studiepunten[!Vooropleiding_Nederlands]. Voer daarna het argument paired = FALSE in omdat de steekproeven ongepaard zijn, het argument alternative = "two.sided" vanwege de tweezijdige alternatieve hypothese en het argument conf.int = TRUE om een schatting met bijbehorend betrouwbaarheidsinterval te geven voor de mediaan van de verschilscores.¹⁸^,¹⁹

wilcox.test(Studiepunten_studiejaar2$Studiepunten[Vooropleiding_Nederlands],
            Studiepunten_studiejaar2$Studiepunten[!Vooropleiding_Nederlands], 
            paired = FALSE, 
            alternative = "two.sided", 
            conf.int = TRUE)

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  Studiepunten_studiejaar2$Studiepunten[Vooropleiding_Nederlands] and Studiepunten_studiejaar2$Studiepunten[!Vooropleiding_Nederlands]
## W = 336534, p-value < 2.2e-16
## alternative hypothesis: true location shift is not equal to 0
## 95 percent confidence interval:
##   6.000008 11.999980
## sample estimates:
## difference in location 
##               8.999982

Bereken vervolgens de effectmaat r op basis van de p-waarde van de Mann-Whitney U toets.

# Sla de p-waarde op
pwaarde <- wilcox.test(Studiepunten_studiejaar2$Studiepunten[Vooropleiding_Nederlands], 
            Studiepunten_studiejaar2$Studiepunten[!Vooropleiding_Nederlands],
            paired = FALSE,
            alternative = "two.sided",
            conf.int = TRUE)$p.value

# Bereken de effectmaat van de tweezijdige toets
r <- qnorm(pwaarde/2) / sqrt(nrow(Studiepunten_studiejaar2))
# Bereken de effectmaat van de eenzijdige toets
#r <- qnorm(pwaarde) / sqrt(nrow(Studiepunten_studiejaar2))

# Print de effectmaat
paste("De effectmaat is", abs(r))

## [1] "De effectmaat is 0.24187045367178"

Bereken ten slotte het gemiddelde rangnummer van beide groepen. Beoordeel op basis van de gemiddelde rangnummers welke groep hogere waardes bevat.

# Bepaal de index met daarin studenten met een Nederlandse vooropleiding
Vooropleiding_Nederlands <- Studiepunten_studiejaar2$Vooropleiding == "Nederlands"

# Bereken gemiddelde rangnummers
Rangnummer_Nederlandse_vooropleiding <- mean(rank(Studiepunten_studiejaar2$Studiepunten)[Vooropleiding_Nederlands])

Rangnummer_buitenlandse_vooropleiding <- mean(rank(Studiepunten_studiejaar2$Studiepunten)[!Vooropleiding_Nederlands])

# Print gemiddelde rangnummers
Rangnummer_Nederlandse_vooropleiding
## [1] 829.7458
Rangnummer_buitenlandse_vooropleiding
## [1] 613.6209

W = 336534, p = < 0,0001, r = 0,24
p-waarde < 0,05, dus de H₀ wordt verworpen.²⁰
Effectmaat is 0,24, dus een klein tot gemiddeld effect
Het gemiddelde rangnummer is 829,75 (n=950) voor studenten met een Nederlandse vooropleiding en 613,62 (n=550) voor studenten met een buitenlandse vooropleiding. De verdeling van studenten met een Nederlandse vooropleiding bevat dus hogere waarden dan de verdeling van studenten met een buitenlandse vooropleiding.
De mediaan van de verschilscores is 9 met een 95%-betrouwbaarheidsinterval van 6 tot 12. Aangezien de verdelingen niet dezelfde vorm hebben, is de mediaan niet informatief en wordt deze niet opgenomen in de rapportage.

6 Rapportage

De Mann-Whitney U toets is uitgevoerd om te toetsen of het behaalde aantal studiepunten in het tweede jaar van de bachelor Business Administration hetzelfde is voor studenten met buitenlandse vooropleiding als voor studenten met Nederlandse vooropleiding. Uit de resultaten kan afgelezen worden dat er een significant verschil is tussen de verdelingen van het aantal studiepunten van studenten met een buitenlandse vooropleiding en met een Nederlandse vooropleiding, W = 336534, p < 0,0001, r = 0,24. Er is een klein tot gemiddeld effect van het verschil in het land van vooropleiding op het aantal studiepunten. Het gemiddelde rangnummer is 829,75 (n=950) voor studenten met een Nederlandse vooropleiding en 613,62 (n=550) voor studenten met een buitenlandse vooropleiding. Studenten met een Nederlandse vooropleiding lijken dus een hoger aantal studiepunten te halen in het tweede jaar dan studenten met een buitenlandse vooropleiding.

Bij de Mann-Whitney U toets en andere nonparametrische toetsen wordt de data eerst gerangschikt zodat elke observatie een rangnummer toegewezen krijgt. Deze rangnummers worden vervolgens gebruikt om de toets uit te voeren.↩
Van Geloven, N. (13 maart 2018). Mann-Whitney U toets. Wiki Statistiek Academisch Medisch Centrum.↩
Laerd Statistics (2018). Mann-Whitney U Test using SPSS Statistics. https://statistics.laerd.com/spss-tutorials/mann-whitney-u-test-using-spss-statistics.php ↩
Een ordinale variabele is een categorische variabele waarbij de categorieën geordend kunnen worden. Een voorbeeld is de variabele beoordeling met de categorieën Onvoldoende, Voldoende, Goed en Uitstekend.↩
Laerd Statistics (2018). Mann-Whitney U Test using SPSS Statistics. https://statistics.laerd.com/spss-tutorials/mann-whitney-u-test-using-spss-statistics.php ↩
Onderscheidend vermogen, in het Engels power genoemd, is de kans dat de nulhypothese verworpen wordt wanneer de alternatieve hypothese ‘waar’ is.↩
Laerd Statistics (2018). Mann-Whitney U Test using SPSS Statistics. https://statistics.laerd.com/spss-tutorials/mann-whitney-u-test-using-spss-statistics.php ↩
Field, A. (2013). Discovering statistics using IBM SPSS statistics. Sage.↩
Laerd Statistics (2018). Mann-Whitney U Test using SPSS Statistics. https://statistics.laerd.com/spss-tutorials/mann-whitney-u-test-using-spss-statistics.php ↩
Onderscheidend vermogen, in het Engels power genoemd, is de kans dat de nulhypothese verworpen wordt wanneer de alternatieve hypothese ‘waar’ is.↩
Field, A. (2013). Discovering statistics using IBM SPSS statistics. Sage.↩
Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R. London: Sage publications.↩
Allen, P. & Bennett, K. (2012). SPSS A practical Guide version 20.0. Cengage Learning Australia Pty Limited.↩
Allen, P. & Bennett, K. (2012). SPSS A practical Guide version 20.0. Cengage Learning Australia Pty Limited.↩
De breedte van de staven van het histogram wordt vaak automatisch bepaald, maar kan handmatig aangepast worden. Aangezien de breedte van de staven bepalend zijn voor de indruk die de visualisatie geeft, is het verstandig om hier goed op te letten.↩
De breedte van de staven van het histogram worden hier automatisch bepaald, maar kunnen handmatig aangepast worden. Aangezien de breedte van de staven bepalend zijn voor de indruk die de visualisatie geeft, is het verstandig om hier goed op te letten.↩
Voor zowel de Mann-Whitney U toets als de Wilcoxon signed rank toets wordt functie wilcox.test() in R gebruikt. Het verschil is dat de Mann-Whitney U toets wordt uitgevoerd met het argument paired = FALSE en de Wilcoxon signed rank toets bij het argument paired = TRUE, aangezien de eerste toets ongepaarde groepen en de tweede toets gepaarde groepen vergelijkt.↩
De mediaan van de verschilscores kan bij twee ongepaarde steekproeven bijvoorbeeld geschat worden door alle m x n verschilscores te berekenen tussen m observaties uit de ene steekproef en n observaties uit de andere steekproef. De mediaan van deze m x n verschilscores is dan de schatting.↩
Wikipedia (10 maart 2020). Hogdes-Lehmann estimator.https://en.wikipedia.org/wiki/Hodges%E2%80%93Lehmann_estimator ↩
In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.↩

Mann-Whitney U toets