1 Toepassing

Gebruik de tekentoets om de medianen van twee gepaarde groepen te vergelijken.1 Deze toets wordt gebruikt als er niet aan de assumpties is voldaan bij sterkere toetsen zoals de gepaarde t-toets en de Wilcoxon signed rank toets. Als de verdeling van de steekproef bij benadering normaal verdeeld is, dan kan de gepaarde t-toets gebruikt worden om de gemiddelden te vergelijken. Als de verdeling symmetrisch is, kan de Wilcoxon signed rank toets gebruikt worden om de medianen te vergelijken.2 De Wilcoxon signed rank toets heeft in dat geval een hoger onderscheidend vermogen3.

2 Onderwijscasus

De directeur van de Academie Mens & Maatschappij wil bekijken hoe het inkomen van zijn alumni zich ontwikkelt nadat zij zijn afgestudeerd. Hij is nieuwsgierig of het inkomen gedurende deze jaren groeit of juist stagneert voor deze alumni. Deze informatie is interessant om te gebruiken bij voorlichtingsactiviteiten van de Academie. Hij bekijkt het bruto jaarinkomen van de alumni één jaar na afstuderen en vergelijkt het met het bruto jaarinkomen vijf jaar na afstuderen.

Dit onderzoek vertaalt zich in de volgende combinatie van hypothesen, waarbij de nulhypothese zo geformuleerd is dat er geen effect of verschil is en de alternatieve hypothese zo geformuleerd is dat er wel een effect of verschil is.

H0: Er is geen verschil in de medianen van het bruto jaarinkomen van de alumni van de Academie Mens & Maatschappij één jaar na afstuderen en vijf jaar na afstuderen.

HA: Er is een verschil in de medianen van het bruto jaarinkomen van de alumni van de Academie Mens & Maatschappij één jaar na afstuderen en vijf jaar na afstuderen.

3 Assumpties

Het meetniveau van de variabelen is continu.4

4 Uitvoering

Er is data ingeladen met het bruto jaarinkomen van alumni van de Academie Mens & Maatschappij genaamd Alumni_jaarinkomen. De directeur wil een vergelijking maken tussen het inkomen één jaar na afstuderen (meetmoment T1) en vijf jaar na afstuderen (meetmoment T2).

4.1 De data bekijken

Gebruik head() en tail() om de structuur van de data te bekijken.

## Eerste 6 observaties
head(Alumni_jaarinkomens)
##   Studentnummer Meetmoment Inkomen
## 1       3343469         T1   25127
## 2       3836434         T1   27217
## 3       3634330         T1   29363
## 4       3010816         T1   44690
## 5       3570949         T1   25839
## 6       3983531         T1   29467

## Laatste 6 observaties
tail(Alumni_jaarinkomens)
##    Studentnummer Meetmoment Inkomen
## 53       3140183         T2   30786
## 54       3705137         T2   24621
## 55       3434481         T2   30241
## 56       3120294         T2   21424
## 57       3865043         T2   29047
## 58       3862839         T2   31131

Bekijk de grootte en de mediaan van de data met length() en median(). Maak hiervoor twee vectoren met daarin de jaarinkomens op T1 en T2.

Alumni_jaarinkomens_T1 <- Alumni_jaarinkomens$Inkomen[Alumni_jaarinkomens$Meetmoment == "T1"]
Alumni_jaarinkomens_T2 <- Alumni_jaarinkomens$Inkomen[Alumni_jaarinkomens$Meetmoment == "T2"]
length(Alumni_jaarinkomens_T1)
## [1] 29
median(Alumni_jaarinkomens_T1)
## [1] 29212
length(Alumni_jaarinkomens_T2)
## [1] 29
median(Alumni_jaarinkomens_T2)
## [1] 29453
  • Mediaan bruto jaarinkomen op T1: €29212
  • Mediaan bruto jaarinkomen op T2: €29453
  • Aangezien de gegevens gepaard zijn, zijn de groepsgroottes op beide meetmomenten gelijk: nT1 = 29 en nT2 = 29

4.2 De data visualiseren

Maak een histogram5 om de verdeling van de bruto jaarinkomens van de alumni één jaar en vijf jaar na afstuderen visueel weer te geven.

## Histogram met ggplot2
library(ggplot2)

ggplot(Alumni_jaarinkomens,
  aes(x = Inkomen)) +
  geom_histogram(color = "grey30",
                 fill = "#0089CF",
                 binwidth = 2000) +
  facet_wrap(~ Meetmoment, labeller = labeller(Meetmoment = c(T1 = "Een jaar na afstudereren", T2 = "Vijf jaar na afstuderen"))) +
  geom_density(alpha = .2, adjust = 1) +
  ylab("Frequentiedichtheid") +
  labs(title = "Bruto jaarinkomen alumni Mens & Maatschappij")

Op beide meetmomenten is te zien dat de meeste alumni tussen de 0 en €35.000 euro per jaar verdienen en dat een paar alumni hierboven zit. Beide verdelingen hebben één top, maar zijn niet symmetrisch. Bij de inkomens 1 jaar na afstuderen ligt de meerderheid van de observaties links van de top. Bij de inkomens 5 jaar na afstuderen ligt de meerderheid van de observaties juist rechts van de top. Beide verdeling lijken niet echt op elkaar qua vorm en spreiding.

Maak vervolgens een histogram6 van de verschilscores.

# Maak een dataset met de verschilscores
Alumni_verschilscores <- data.frame(Verschilscores = Alumni_jaarinkomens$Inkomen[Alumni_jaarinkomens$Meetmoment == "T2"] - Alumni_jaarinkomens$Inkomen[Alumni_jaarinkomens$Meetmoment == "T1"])

## Maak een histogram met ggplot2
library(ggplot2)

ggplot(Alumni_verschilscores,
  aes(x = Verschilscores)) +
  geom_histogram(color = "grey30",
                 fill = "#0089CF",
                 binwidth = 250) +
  geom_density(alpha = .2, adjust = 1) +
  ylab("Frequentiedichtheid") +
  labs(title = "Verschilscores bruto jaarinkomen alumni Mens & Maatschappij")

De verdeling van de verschilscores bevat voornamelijk positieve waarden en een paar negatieve waarden; de meeste alumni zijn er dus in bruto jaarinkomen op vooruitgegaan. De verdeling lijkt niet geheel symmetrisch te zijn

4.3 Tekentoets

Voer de tekentoets uit om de vraag te beantwoorden of de mediaan van de bruto jaarinkomens van alumni verschillend is voor de inkomens één jaar en vijf jaar na afstuderen. Gebruik om aan te geven dat de twee meetmomenten aan elkaar gepaard zijn het argument paired = TRUE. Toets tweezijdig door het argument alternative = "two.sided" te gebruiken. Gebruik een tweezijdige toets om ook de optie open te houden dat de inkomens 5 jaar na afstuderen lager zijn dan 1 jaar na afstuderen.

library(DescTools)
SignTest(Alumni_jaarinkomens_T2, Alumni_jaarinkomens_T1, alternative = "two.sided")
## 
##  Dependent-samples Sign-Test
## 
## data:  Alumni_jaarinkomens_T2 and Alumni_jaarinkomens_T1
## S = 26, number of differences = 29, p-value = 1.524e-05
## alternative hypothesis: true median difference is not equal to 0
## 97.6 percent confidence interval:
##   549 1469
## sample estimates:
## median of the differences 
##                       929
  • Er is een significant verschil tussen het mediane inkomen vijf jaar en één jaar na afstuderen, S = 26, N = 29, p < 0,0001 7
  • De toetsstatistiek S is het aantal positieve verschillen (inkomen vijf jaar na afstuderen hoger dan één jaar na afstuderen), N is het totaal aantal deelnemers8 (alumni)
  • Van de 29 alumni verdienen 26 alumni meer vijf jaar na afstuderen dan één jaar na afstuderen
  • De geschatte mediaan van de verschilscores is 929 met bijbehorend 96%-betrouwbaarheidsinterval9 van 549 tot 1469.

5 Rapportage

De tekentoets is uitgevoerd om te onderzoeken of er een verschil is tussen het mediane bruto jaarinkomen van de alumni van de Academie Mens & Maatschappij één jaar en vijf jaar na afstuderen. De resultaten van de toets laten zien dat er een significant verschil is tussen beide medianen, S = 26, N = 29, p < 0,0001. De geschatte mediaan van de verschilscores is €929 met bijbehorend 96%-betrouwbaarheidsinterval van €549 tot €1469. Van de 29 alumni verdienen 26 alumni meer vijf jaar na afstuderen. Deze resultaten duiden op een verschil in het mediane bruto jaarinkomen van de alumni van de Academie Mens & Maatschappij waarbij de inkomens vijf jaar na afstuderen hoger lijken te liggen.


  1. Laerd Statistics (2018). Sign Test using SPSS Statistics. https://statistics.laerd.com/spss-tutorials/sign-test-using-spss-statistics.php

  2. Statistics How To (27 mei 2018). One Sample Median Test. Statistics How to.

  3. Onderscheidend vermogen, in het Engels power genoemd, is de kans dat de nulhypothese verworpen wordt wanneer de alternatieve hypothese waar is.

  4. Laerd Statistics (2018). Sign Test using SPSS Statistics. https://statistics.laerd.com/spss-tutorials/sign-test-using-spss-statistics.php

  5. De breedte van de staven van het histogram wordt vaak automatisch bepaald, maar kan handmatig aangepast worden. Aangezien de breedte van de staven bepalend zijn voor de indruk die de visualisatie geeft, is het verstandig om hier goed op te letten.

  6. De breedte van de staven van het histogram wordt vaak automatisch bepaald, maar kan handmatig aangepast worden. Aangezien de breedte van de staven bepalend zijn voor de indruk die de visualisatie geeft, is het verstandig om hier goed op te letten.

  7. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.

  8. Met een deelnemer wordt het object bedoeld dat geobserveerd wordt, bijvoorbeeld een student, een inwoner van Nederland, een opleiding of een organisatie. Met een observatie wordt de waarde bedoeld die de deelnemer heeft voor een bepaalde variabele. Een deelnemer heeft dus meestal een observatie voor meerdere variabelen.

  9. Omdat het betrouwbaarheidsinterval van de mediaan van verschilscores exact berekend wordt, kan het percentage van het betrouwbaarheidsinterval afwijken van 95%. In dit geval is het 96%.