zaterdag, november 11, 2006


Slechte scores II


In de vorige notitie gebruikte ik de gegevens uit de Keuzegids Hoger Onderwijs om de verschillende WO communicatie-opleidingen te vergelijken op de door Choice onderzochte aspecten. Voor een dergelijke vergelijking moeten echter de Choice gegevens redelijk betrouwbaar zijn. Een belangrijk punt daarvoor, dat ik ook al in de vorige notitie vermelde is de wijze waarop de steekproef getrokken is, de grootte daarvan en de nonresponse. Op basis van de informatie in de Keuzegids bleef dit punt onduidelijk. Anders geformuleerd: kunnen we iets preciezer zijn over de betrouwbaarheid van de Choice-gegevens?

Voor de beantwoording van die vraag maak ik gebruik van de informatie die Choice op dit punt aanbiedt. Deze publicatie van Choice is heel helder en leesbaar. Ik geef hierna een samenvatting.

Het onderzoek waarop de Keuzegids zich baseert, is de Nationale Studenten Enquête (NSE). Dit vragenlijst-onderzoek wordt uitgevoerd in het kader van het project Studie-Keuze-Informatie (SKI) in opdracht van het ministerie van Onderwijs (OCW). In het kader van dit vragenlijst-onderzoek worden in totaal ieder jaar twintigduizend studenten telefonisch ondervraagd teneinde jaarlijks voor 400 verschillende opleidingen studentbeoordelingen te verzamelen. Omdat in de praktijk de scores vrij stabiel zijn, worden niet ieder jaar dezelfde opleidingen onderzocht. Belangrijke opleidingen die veel studenten trekken worden eens in de 2 jaar onderzocht, minder belangrijke opleidingen eens in de drie jaar. In totaal worden op deze manier van 1200 opleidingen gegevens verzameld.

Per opleiding streeft men naar 50 respondenten. Uit het bestand van de IB-groep worden hiertoe 'at random' studenten getrokken. Men gaat door met benaderen tot het beoogde aantal van 50 is bereikt. Het feitelijke afnemen van de vragenlijst gebeurt telefonisch om de nonresponse te minimaliseren. Eventueel wordt daartoe meerdere malen gebeld wanneer de telefoon niet wordt opgenomen (in totaal zo nodig 3 keer). Verwante opleidingen worden steeds in hetzelfde jaar onderzocht om de gegevens goed vergelijkbaar te houden. Verder worden alle telefoongesprekken gevoerd in de periode van begin maart tot eind april. Dit ook weer in verband met de vergelijkbaarheid en omdat op deze manier ook eerstejaars studenten een redelijk gefundeerd oordeel kunnen geven. De nonresponse (daadwerkelijke weigeringen mee te werken wanneer het contact tot stand is gekomen) ligt op deze manier lager dan 15% aldus Choice. Wel ontstaat er uitval doordat het nummer niet klopt of permanent niet bereikbaar is. Ui t onderzoek blijkt echter dat de respondentengroep op alle controleerbare punten een goede afspiegeling vormt van de doelgroep. Alleen buitenlandse studenten worden via het onderzoek niet goed bereikt.

De vragenlijst bestaat in totaal uit 30 deelaspecten (items) waarvan bekend is dat studenten die relevant vinden voor de kwaliteit van de studie. Deze 30 deelaspecten zijn gegroepeerd in 10 aspecten/clusters (schalen dus). De score per vraag is dus steeds gebaseerd op meerdere items (multi-item schalen). De betrouwbaarheid/homogeniteit (coëfficiënt alfa) van deze schalen is onderzocht en bekend en ligt voor 7 van de 10 schalen in de range van .59 tot en met .69. De 3 overige schalen hebben een alfa van: .47, .49 en .55.

Op basis van deze clusters wordt tenslotte een totaalscore berekend d.w.z. het gemiddelde voor de 10 clusters. Hoewel Choice dit niet expliciet vermeldt, moeten de 10 clusters onderling duidelijk positief correleren aangezien de steekproefmarge bij de (gemiddelde) totaalscore slechts de helft bedraagt van die van de clusterscores. De variantie van de steekproeffluctuatie is dus in verhouding nog maar 1/4 en dus met 75% gereduceerd. De steekproeffout voor de totaalscore bedraagt afgerond naar boven 0.1 aldus Choice (niet afgerond: 0.075). (Mijn intuïtieve idee om af te ronden op 1 decimaal was dus volledig terecht.)

In de praktijk kan de totaalscore dus ook 0.1 hoger of lager uitpakken, maar heb je het dan ook wel ongeveer gehad. Natuurlijk is het nu verleidelijk om te redeneren dat je instelling dus in werkelijkheid misschien 0.1 hoger zit, maar voor hetzelfde geld kan dat in werkelijkheid ook 0.1 lager zijn. Omdat het opvijzelen van de totaalscore een langzaam proces is, is dit zichzelf in slaap sussen niet verstandig.

Ook heeft Choice de stabiliteit van de totaalscores onderzocht. In de maximale termijn van 3 jaar voordat het onderzoek herhaald wordt, is de verandering in de totaalscore gemiddeld kleiner dan 0.12. Zodra er in een reeks scores tenminste 0.5 punt verschil zit, is de ranglijst in aanzienlijke mate stabiel, aldus Choice. Bij onderzoek onder PABO's werd een correlatie van 0.85 voor de totaalscore gevonden na een periode van 2 jaar.

Veranderingen die opleidingen doorvoeren op basis van de uitslagen van het onderzoek blijken in het algemeen zelden tot grote verschuivingen te leiden. Kennelijk is het voor instellingen vrij lastig de totaalscore in korte tijd belangrijk te beïnvloeden.

Tenslotte blijkt de totaalscore ook nog duidelijk te correleren met andere vragenlijsten om het oordeel van de studenten over de opleidingen te meten (gerapporteerde correlaties: 0.66, 0.85, 0.95). Ook blijkt de totaalscore te correleren met de uitkomsten van visitaties (r=0.66), wel was het aantal betrokken opleidingen hierbij vrij beperkt (n=13). Ten aanzien van de totaalscore is het Choice-onderzoek dus behoorlijk solide.

Voor de scores op de aspecten is de marge groter. Hier valt uit de door Choice vermelde gegevens af te leiden dat de steekproeffout (afgerond) 0.1 bedraagt. Niet-afgerond bedraagt de steekproeffout 0.10 tot 0.14. Omdat enkele van de vermelde SD's gevaarlijk dicht in de buurt van deze waarden komen, betekent dat dus dat de vergelijking van die aspecten met het gemiddelde nogal onbetrouwbaar kan uitpakken. Speciaal SAMENHANG met een SD van 0.12 lijkt in dit opzicht onbetrouwbaar.

Voor dit probleem lijken er in beginsel 2 oplossingen te bestaan. Allereerst kan men Choice vragen om de resultaten van een significantietoets. Blijkens de informatie van Choice is men bereid zulke gegevens te leveren.

Een tweede oplossing is de referentiegroep in te perken tot de hoogst scorende instellingen. Wil men zich spiegelen aan het gemiddelde (waarin dus ook de laag scorende opleidingen zitten) of neemt men als doel de groep hoog scorende opleidingen. Door op deze manier de referentiegroep extremer te kiezen, worden de verschillen groter waardoor ze betrouwbaarder/eenvoudiger als significant zijn aan te tonen.

Conclusie:
- de totaalscore kan in de praktijk 0.1 hoger of lager uitvallen;
- de beoordelingen van de aspecten in de vorige notitie zijn mogelijk onbetrouwbaar wanneer de gevonden SD in de buurt van de 0.1 komt.