Disclaimer: Het peer review proces voor deze toets is nog niet afgerond; daarom is deze pagina nog in concept.

1 Toepassing

Gebruik de Chi-kwadraat toets voor goodness of fit om te onderzoeken of de geobserveerde frequenties van de categorieën van één categorische variabele met meer dan twee categorieën overeenkomt met de verwachte frequenties van de categorische variabele.1,2 Met deze toets kunnen geobserveerde percentages met bekende of verwachte percentages vergeleken worden. Gebruik de exacte multinomiaaltoets bij een laag aantal observaties, dit wordt bij de assumpties toegelicht.3 De Chi-kwadraat toets voor goodness of fit kan ook gebruikt worden voor een categorische variabele met twee categorieën. Voor de exacte multinomiaaltoets geldt dit ook, maar in dat geval is de toets gelijk aan de exacte binomiaaltoets die te vinden is in bijbehorende toetspagina. De Chi-kwadraat toets voor goodness of fit en de exacte multinomiaaltoets zijn voor zowel nominale4 als ordinale5 variabelen te gebruiken.

2 Onderwijscasus

De opleidingsdirecteur van de bacheloropleiding Maritieme Techniek van een universiteit is geïnteresseerd in de resultaten van het Bindend Studie Advies (BSA) van de studenten die deze opleiding volgen. Zij is met name geïnteresseerd in de mate waarin de resultaten van het BSA overeenkomen met de resultaten van de universiteit. Bij deze universiteit ontvangt 70% van de studenten een positief BSA, 20% een negatief BSA en 10% een uitgesteld BSA aan het einde van het eerste jaar. Als blijkt dat de resultaten van het BSA voor de opleiding Maritieme Techniek afwijken van de resultaten van de gehele universiteit, dan kan dit een signaal voor de opleidingsdirecteur zijn om het eerste jaar van de opleiding anders in te richten.

Dit onderzoek vertaalt zich in de volgende combinatie van hypothesen, waarbij de nulhypothese zo geformuleerd is dat er geen effect of verschil is en de alternatieve hypothese zo geformuleerd is dat er wel een effect of verschil is.

H0: De verdeling van het BSA van de studenten Maritieme Techniek is gelijk aan de verdeling van de gehele universiteit (70% positief BSA, 20% negatief BSA en 10% uitgesteld BSA).

HA: De verdeling van het BSA van de studenten Maritieme Techniek is niet gelijk aan de verdeling van de gehele universiteit (70% positief BSA, 20% negatief BSA en 10% uitgesteld BSA).

3 Assumpties

Om de Chi-kwadraat toets voor goodness of fit en de exacte multinomiaaltoetsuit te voeren, moet de variabele nominaal6 of ordinaal7 zijn.8 In deze casus is de categorische variabele nominaal, bij een ordinale categorische variabele worden de toetsen op dezelfde manier uitgevoerd.

De categorieën van de variabele mogen niet overlappen, wat wil zeggen dat elke observatie slechts in een van de categorieën past. Voor de Chi-kwadraat toets voor goodness of fit mag in niet meer dan 20% van de categorieën van de variabele de verwachte frequentie minder dan vijf zijn. Als dit wel het geval is, gebruik dan de multinomiaaltoets.9

4 Post-hoc toetsen

De Chi-kwadraat toets voor goodness of fit en de exacte multinomiaaltoets worden gebruikt om te onderzoeken of de verdeling van een categorische variabele met meer dan twee categorieën overeenkomt met een verwachte verdeling. Als de verdelingen niet overeenkomen, is de volgende stap om te bepalen voor welke specifieke categorieën er een verschil is. Met behulp van post-hoc toetsen wordt vervolgens bepaald in welke categorieën de verschillen te vinden zijn.

Als post-hoc toets voor de Chi-kwadraat toets voor goodness of fit wordt het gestandaardiseerde residu gebruikt. Dit is het gestandaardiseerde verschil tussen het (geobserveerde) aantal observaties en het verwachte aantal observaties, waarbij gestandaardiseerd betekent dat het een gemiddelde van 0 en standaardafwijking van 1 heeft. Op deze manier kunnen de verschillende residuen met elkaar vergeleken worden, omdat ze dezelfde schaal hebben. Voor elke cel in de kruistabel kan het gestandaardiseerde residu bepaald worden. Vergelijkbaar met z-scores10 zijn deze residuen significant bij een waarde groter dan ± 1,96 wanneer een significantieniveau (α) van 0,05 wordt gehanteerd. Op deze manier kan bepaald worden in welke cellen er afwijkingen van de verwachte frequenties zijn.11

Voor de multinomiaaltoets zijn er geen voorgeschreven post-hoc toetsen. Vergelijk hiervoor de geobserveerde percentages met de percentages die verwacht worden om te onderzoeken in welke categorieën er afwijkingen zijn tussen het geobserveerde en verwachte percentage.

5 De data bekijken

Er is een dataset ingeladen genaamd BSA_Maritieme_techniek. Dit is een dataframe met studentnummers en een nominale variabele die laat zien wat voor BSA de student heeft ontvangen.

## Eerste 6 observaties
head(BSA_Maritieme_techniek)
##   Studentnummer BSA_advies
## 1       4909362   Negatief
## 2       4731799   Positief
## 3       4623196   Negatief
## 4       4720223   Positief
## 5       4468737 Uitgesteld
## 6       4327754   Negatief
## Laatste 6 observaties
tail(BSA_Maritieme_techniek)
##     Studentnummer BSA_advies
## 427       4282306   Positief
## 428       4148293   Positief
## 429       4597667   Positief
## 430       4807985   Negatief
## 431       4789872   Positief
## 432       4495460   Positief

Het is informatief om de frequenties en de percentages van de drie mogelijkheden van het BSA te bepalen voor de studenten Maritieme Techniek.

## Bepaal de frequenties
table(BSA_Maritieme_techniek$BSA_advies)
## 
##   Negatief   Positief Uitgesteld 
##        113        279         40
## Bepaal de percentages
100*prop.table(table(BSA_Maritieme_techniek$BSA_advies))
## 
##   Negatief   Positief Uitgesteld 
##  26.157407  64.583333   9.259259

Het aantal studenten met een positief BSA is 279 (64,58%), met een negatief BSA is 113 (26,16%) en met een uitgesteld BSA is 40 (9,26%). Het lijkt erop dat het percentage studenten met een positief BSA lager is dan het percentage van de gehele universiteit (70%) en dat het percentage studenten met een negatief BSA juist hoger is dan dat van de gehele universiteit (20%). De Chi-kwadraat toets voor goodness of fit of de multinomiaaltoets toetst of dit verschil significant is.

6 Chi-kwadraat toets voor goodness of fit

6.1 Asssumptie verwachte frequenties

De verwachte frequentie mag niet kleiner dan vijf zijn in 20% van de categorieën van de categorische variabele. Aangezien er een variabele met drie categorieën getoetst wordt, mag geen van de drie categorieën dus minder dan vijf als verwachte frequentie hebben. Bereken de verwachte frequentie met het argument chisq.test()$expected van de functie chisq.test(). De argumenten van de functie zijn de tabel met daarin de hoeveelheid studenten voor de drie mogelijkheden van het BSA Tabel_volgorde en een vector die aangeeft wat de verwachte proporties12 zijn voor het aantal studenten met respectievelijk een positief, negatief of uitgesteld BSA p = c(0.7, 0.2, 0.1). Let hierbij goed op dat de volgorde van de BSA mogelijkheden in de tabel overeenkomt met de volgorde van de proporties.

# Maak een tabel met daarin de aantallen studenten per BSA mogelijkheid
Tabel <- table(BSA_Maritieme_techniek$BSA_advies)

# Zet de tabel op volgorde Positief, Negatief, Uitgesteld
Tabel_volgorde <- Tabel[c("Positief", "Negatief", "Uitgesteld")]

# Bereken de verwachte frequenties
chisq.test(Tabel_volgorde, p = c(0.7, 0.2, 0.1))$expected
##   Positief   Negatief Uitgesteld 
##      302.4       86.4       43.2

Geen van de verwachte frequenties is kleiner dan vijf, dus de Chi-kwadraat toets voor goodness of fit kan worden uitgevoerd.

6.2 Uitvoering

Voer de Chi-kwadraat toets voor goodness of fit uit om te onderzoeken of de verdeling van de BSA mogelijkheden van de studenten Maritieme Techniek overeenkomt met de verdeling van de gehele universiteit (70% positief BSA, 20% negatief BSA en 10% uitgesteld BSA).

Gebruik de functie chisq.test() met als argumenten de tabel met daarin de hoeveelheid studenten voor de drie mogelijkheden van het BSA Tabel_volgorde en een vector die aangeeft wat de verwachte proporties13 zijn voor het aantal studenten met respectievelijk een positief, negatief of uitgesteld BSA p = c(0.7, 0.2, 0.1). Let hierbij goed op dat de volgorde van de BSA mogelijkheden in de tabel overeenkomt met de volgorde van de proporties.

# Maak een tabel met daarin de aantallen studenten per BSA mogelijkheid
Tabel <- table(BSA_Maritieme_techniek$BSA_advies)

# Zet de tabel op volgorde Positief, Negatief, Uitgesteld
Tabel_volgorde <- Tabel[c("Positief", "Negatief", "Uitgesteld")]

# Voer de toets uit
chisq.test(Tabel_volgorde, p = c(0.7, 0.2, 0.1))
## 
##  Chi-squared test for given probabilities
## 
## data:  Tabel_volgorde
## X-squared = 10.237, df = 2, p-value = 0.005985
  • χ22 = 10,24, p < 0,001
  • De p-waarde is kleiner dan 0,05, dus de nulhypothese wordt verworpen.14

6.3 Post-hoc toets: gestandaardiseerde residuën

Voer post-hoc toetsen uit om te bepalen voor welke BSA mogelijkheden er verschillen zijn tussen de verdeling van de studenten Maritieme Techniek en de verdeling van de gehele universiteit. Inspecteer hiervoor de Pearson residuen van de Chi-kwadraat toets voor onafhankelijkheid op waarden groter dan 1,96 en kleiner dan -1,96. Let op dat hier nog geen correctie voor meerdere toetsen plaatsvindt.15

# Maak een tabel met daarin de aantallen studenten per BSA mogelijkheid
Tabel <- table(BSA_Maritieme_techniek$BSA_advies)

# Zet de tabel op volgorde Positief, Negatief, Uitgesteld
Tabel_volgorde <- Tabel[c("Positief", "Negatief", "Uitgesteld")]

# Voer de toets uit
Resultaat <- chisq.test(Tabel_volgorde, p = c(0.7, 0.2, 0.1))

# Bekijk de gestandaardiseerde residuën
Resultaat$residuals
## 
##   Positief   Negatief Uitgesteld 
## -1.3456278  2.8617044 -0.4868645

De post-hoc toetsing op basis van de gestandaardiseerde residuën kan als volgt geïnterpreteerd worden:

  • Significant lager aantal observaties bij een positief BSA , z = -1,35
  • Significant hoger aantal observaties bij een negatief BSA , z = 2,86
  • Geen significant verschillend aantal observaties bij een uitgesteld BSA , z = -0,49

6.4 Rapportage

De Chi-kwadraat toets voor goodness of fit is uitgevoerd om te onderzoeken of de verdeling van het BSA van studenten Maritieme Techniek overeenkomt met de verdeling van de gehele universiteit waar deze opleiding onder valt (70% positief BSA, 20% negatief BSA en 10% uitgesteld BSA). De verdeling van het BSA van de instromende studenten Maritieme Techniek is significant verschillend van de verdeling van de gehele universiteit, χ22 = 10,24, p < 0,001.

Uit de post-hoc toetsen blijkt dat het aantal studenten met een positief BSA significant lager is dan het percentage van de gehele universiteit (64,58%, z = -1,35), het aantal studenten met een negatief BSA significant hoger is dan het percentage van de gehele universiteit (26,16%, z = 2,86) en het percentage studenten met een uitgesteld BSA niet significant verschillend is van de gehele universiteit (9,26%, z = -0,49). De resultaten suggereren dat de opleiding Maritieme Technieken qua BSA dus afwijkt van de gehele universiteit waarbij het aantal positieve BSA’s lager en het aantal negatieve BSA’s hoger in vergelijking tot de gehele universiteit.

7 Multinomiaaltoets

7.1 Uitvoering

Voer de multinomiaaltoets uit te onderzoeken of de verdeling van de BSA mogelijkheden van de studenten Maritieme Techniek overeenkomt met de verdeling van de gehele universiteit (70% positief BSA, 20% negatief BSA en 10% uitgesteld BSA). Deze toets is een alternatief voor de Chi-kwadraat toets voor goodness of fit bij een laag aantal observaties. Er is een subset BSA_Maritieme_techniek_steekproef van de dataset BSA_Maritieme_techniek ingeladen met daarin een lager aantal observaties.

Het is informatief om de frequenties en de percentages van de drie mogelijkheden van het BSA te bepalen voor de studenten Maritieme Techniek.

table(BSA_Maritieme_techniek_steekproef$BSA_advies)
## 
##   Negatief   Positief Uitgesteld 
##          4         33          3
100*prop.table(table(BSA_Maritieme_techniek_steekproef$BSA_advies))
## 
##   Negatief   Positief Uitgesteld 
##       10.0       82.5        7.5

Het aantal studenten met een positief BSA is 33 (82,5%), met een negatief BSA is 4 (10%) en met een uitgesteld BSA is 3 (7,5%). Het lijkt erop dat het percentage studenten met een positief BSA hoger is dan het percentage van de gehele universiteit (70%) en dat het percentage studenten met een negatief BSA juist lager is dan dat van de gehele universiteit (20%). De multinomiaaltoets toetst of dit verschil significant is.

Bereken de verwachte frequentie met het argument chisq.test()$expected van de functie chisq.test(). De argumenten van de functie zijn de tabel met daarin de hoeveelheid studenten voor de drie mogelijkheden van het BSA Tabel_volgorde en een vector die aangeeft wat de verwachte proporties16 zijn voor het aantal studenten met respectievelijk een positief, negatief of uitgesteld BSA p = c(0.7, 0.2, 0.1). Let hierbij goed op dat de volgorde van de BSA mogelijkheden in de tabel overeenkomt met de volgorde van de proporties.

# Maak een tabel met daarin de aantallen studenten per BSA mogelijkheid
Tabel <- table(BSA_Maritieme_techniek_steekproef$BSA_advies)

# Zet de tabel op volgorde Positief, Negatief, Uitgesteld
(Tabel_volgorde <- Tabel[c("Positief", "Negatief", "Uitgesteld")])
## 
##   Positief   Negatief Uitgesteld 
##         33          4          3
# Voer de toets uit
chisq.test(Tabel_volgorde, p = c(0.7, 0.2, 0.1))$expected
##   Positief   Negatief Uitgesteld 
##         28          8          4

De verwachte frequentie voor studenten met een uitgesteld BSA is kleiner dan 5. Dit betekent dat er in meer dan 20% van de categorieën een verwachte frequentie van minder dan 5 is en dat er dus niet voldaan is aan de assumptie van verwachte frequenties. Voer daarom de multinomiaaltoets uit.

Voer de multinomiaaltoets uit met de functie multinomial.test() van het package RVAideMemoire met als argument een vector met daarin de hoeveelheid studenten voor de drie mogelijkheden van het BSA Vector_volgorde en een vector die aangeeft wat de verwachte proporties17 zijn voor het aantal studenten met respectievelijk een positief, negatief of uitgesteld BSA p = c(0.7, 0.2, 0.1). Deze functie vereist een vector wat de reden is dat de tabel met de aantallen observaties per categorie omgezet wordt in een vector. Let hierbij goed op dat de volgorde van de BSA mogelijkheden in de tabel overeenkomt met de volgorde van de proporties.

# Laad het package in
library(RVAideMemoire)

# Maak een tabel met daarin de aantallen studenten per BSA mogelijkheid
Tabel <- table(BSA_Maritieme_techniek_steekproef$BSA_advies)

# Zet de tabel op volgorde Positief, Negatief, Uitgesteld
Tabel_volgorde <- Tabel[c("Positief", "Negatief", "Uitgesteld")]

# Zet de tabel om in een vector voor de functie multinomial.test
Vector_volgorde <- as.numeric(Tabel_volgorde)

# Voer de toets uit
multinomial.test(Vector_volgorde, p = c(0.7, 0.2, 0.1))
## 
##  Exact multinomial test
## 
## data:  Vector_volgorde
## p-value = 0.2087
  • p-waarde = 0,21, dus de nulhypothese kan niet worden verworpen.18

7.2 Rapportage

De multinomiaaltoets is uitgevoerd om te onderzoeken of de verdeling van het BSA van studenten Maritieme Techniek overeenkomt met de verdeling van de gehele universiteit waar deze opleiding onder valt (70% positief BSA, 20% negatief BSA en 10% uitgesteld BSA) voor een dataset met een laag aantal observaties. De verdeling van het BSA van de instromende studenten van de universiteit verschilt niet significant van de landelijke verdeling (p = 0,21). Het aantal studenten met een positief BSA is 33 (82,5%), met een negatief BSA is 4 (10%) en met een uitgesteld BSA is 3 (7,5%). De resultaten suggereren dat de opleiding Maritieme Technieken qua BSA niet afwijkt van de gehele universiteit.


  1. Laerd Statistics (2018). Chi-Square Goodness-of-Fit Test in SPSS Statistics. https://statistics.laerd.com/spss-tutorials/chi-square-goodness-of-fit-test-in-spss-statistics.php

  2. Allen, P. & Bennett, K. (2012). SPSS A practical Guide version 20.0. Cengage Learning Australia Pty Limited.

  3. Agresti, A. (2003). Categorical data analysis. Vol. 482, John Wiley & Sons.

  4. Een nominale variabele is een categorische variabele waarbij de categorieën niet geordend kunnen worden. Een voorbeeld is de variabele windstreek (noord, oost, zuid, west) en geslacht (man of vrouw).

  5. Een ordinale variabele is een categorische variabele waarbij de categorieën geordend kunnen worden. Een voorbeeld is de variabele beoordeling met de categorieën Onvoldoende, Voldoende, Goed en Uitstekend.

  6. Een nominale variabele is een categorische variabele waarbij de categorieën niet geordend kunnen worden. Een voorbeeld is de variabele windstreek (noord, oost, zuid, west) en geslacht (man of vrouw).

  7. Een ordinale variabele is een categorische variabele waarbij de categorieën geordend kunnen worden. Een voorbeeld is de variabele beoordeling met de categorieën Onvoldoende, Voldoende, Goed en Uitstekend.

  8. Laerd Statistics (2018). Chi-Square Goodness-of-Fit Test in SPSS Statistics. https://statistics.laerd.com/spss-tutorials/chi-square-goodness-of-fit-test-in-spss-statistics.php

  9. Allen, P. & Bennett, K. (2012). SPSS A practical Guide version 20.0. Cengage Learning Australia Pty Limited.

  10. Een z-score is een maat om aan te geven hoeveel een observatie afwijkt van het gemiddelde. De z-score wordt berekend door het gemiddelde van de observatie af te halen en dit daarna te delen door de standaarddeviatie, i.e. \(\frac{X - \mu}{\sigma}\). In feite geeft een z-score aan hoeveel standaarddeviaties de observatie van het gemiddelde afwijkt.

  11. Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R. London: Sage publications.

  12. Een proportie van een bepaalde categorie is de frequentie van de categorie gedeeld door het totaal aantal observaties. Het kan gezien worden als de kans van een bepaalde categorie en bevat een waarde tussen 0 en 1.

  13. Een proportie van een bepaalde categorie is de frequentie van de categorie gedeeld door het totaal aantal observaties. Het kan gezien worden als de kans van een bepaalde categorie en bevat een waarde tussen 0 en 1.

  14. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.

  15. De waarde 1,96 is een z-score en correspondeert met het significantieniveau 0,05 voor een tweezijdige toets. Om te corrigeren voor meerdere testen kan een ander significantieniveau gekozen worden wat resulteert in een andere z-score om mee te vergelijken. Bij een significantieniveau van 0,01 is de z-score bijvoorbeeld 2,58. De z-score per significantieniveau is te berekenen met abs(qnorm(alfa/2)) waarbij alfa het gewenste significantieniveau is.

  16. Een proportie van een bepaalde categorie is de frequentie van de categorie gedeeld door het totaal aantal observaties. Het kan gezien worden als de kans van een bepaalde categorie en bevat een waarde tussen 0 en 1.

  17. Een proportie van een bepaalde categorie is de frequentie van de categorie gedeeld door het totaal aantal observaties. Het kan gezien worden als de kans van een bepaalde categorie en bevat een waarde tussen 0 en 1.

  18. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.