dinsdag, november 14, 2006


Slechte scores III


In Slechte scores I gaf ik twee tabellen gebaseerd op de uitkomsten van Choice/NSE zonder rekening te houden met toevalsfluctuaties omdat ik op dat moment op dat punt geen verdere informatie had. In Slechte scores II zagen we op basis van informatie van Choice dat de standaardfout voor de verschillende aspecten afgerond ongeveer 0.1 bedraagt.

Hiervan uitgaande moet er dus tenminste een verschil van 0.2 zijn met het gemiddelde voordat het verschil niet meer aan toeval kan worden toegeschreven. (Een formele toetsing zou natuurlijk het probleem definitief oplossen, maar in afwachting daarvan, werkt de voorgaande methode vermoedelijk ook redelijk.) Op basis van deze informatie is het nu mogelijk de Choice-uitkomsten zoals vermeld in de Keuzegids Hoger Onderwijs (Taal en Communicatie) opnieuw te interpreteren. Hierbij worden verschillen van kleiner dan 0.2 met het gemiddelde beschouwd als geen verschil dus als '+/-'. Omdat de rij TOTAAL qua meetnauwkeurigheid afwijkt, is die hier weggelaten.

Ik geef eerst de beoordelingen voor de CIW-opleidingen van de letteren-faculteiten.


................ UvT ... VU .... UU ... RU .... RUG
---------------------------------------------------
inhoud .......... + + .. +/- ... +/- ... - - .. - -
keuzeruimte ..... +/- .. +/- ... + ..... + .... +/-
samenhang ....... +/- .. +/- ... - - ... - - .. +/-
werkvormen ...... +/- .. +/- ... + + ... +/- .. +/-
vb. loopbaan .... +/- .. +/- ... +/- ... +/- .. +/-
docenten ........ + + .. +/- ... +/- ... +/- .. +/-
communicatie .... +/- .. +/- ... - - ... +/- .. +/-
studeerbaarheid . + + .. +/- ... - ..... +/- .. - -
gebouwen ........ + + .. +/- ... - - ... - - .. +/-
faciliteiten .... + + .. - ..... + ..... +/- .. +/-
---------------------------------------------------



In de bovenstaande tabel zien we bijvoorbeeld dat de CIW-opleiding van de RUG veel slechter dan gemiddeld scoort op inhoud en op studeerbaarheid. De overige aspecten zijn gemiddeld. De CIW opleiding in Tilburg van de UvT scoort op inhoud en op studeerbaarheid veel beter dan gemiddeld. Ook op docenten, gebouwen en faciliteiten zoals computers scoort deze opleiding veel hoger dan gemiddeld.

Hieronder geef ik de beoordelingen van de CW-opleidingen van de sociale wetenschappen.

................ UT ...... UvA ...... VU ..... RU
--------------------------------------------------
inhoud .......... +/- ..... +/- ..... +/- .... +/-
keuzeruimte ..... + + ..... +/- ..... +/- .... - -
samenhang ....... + + ..... +/- ..... +/- .... +/-
werkvormen ...... +/- ..... +/- ..... +/- .... - -
vb. loopbaan .... + ....... + + ..... +/- .... - -
docenten ........ + + ..... - - ..... +/-..... - -
communicatie .... + ....... + + ..... +/- .... - -
studeerbaarheid . + + ..... +/- ..... +/- .... -
gebouwen ........ + + ..... +/- ..... +/- .... -
faciliteiten .... + + ..... +/- ..... - ...... - -
--------------------------------------------------



In deze tabel zien we o.a. dat de CW-opleiding van de Universiteit Twente op de aspecten keuzeruimte, samenhang, vb. loopbaan, docenten, communicatie, studeerbaarheid, gebouwen en op faciliteiten (veel) beter dan gemiddeld scoort.

Het voordeel van de 2 bovenstaande tabellen is dus dat kleine verschillen die mogelijk het gevolg zijn van toevalsfluctuaties in de steekproeven zijn opgevat als '+/-'. 'Wanneer dus ergens b.v. een '- -' of een '-' staat vermeldt, wijkt de desbetreffende opleiding dus vrij zeker in negatieve richting af van het gemiddelde.



zaterdag, november 11, 2006


Slechte scores II


In de vorige notitie gebruikte ik de gegevens uit de Keuzegids Hoger Onderwijs om de verschillende WO communicatie-opleidingen te vergelijken op de door Choice onderzochte aspecten. Voor een dergelijke vergelijking moeten echter de Choice gegevens redelijk betrouwbaar zijn. Een belangrijk punt daarvoor, dat ik ook al in de vorige notitie vermelde is de wijze waarop de steekproef getrokken is, de grootte daarvan en de nonresponse. Op basis van de informatie in de Keuzegids bleef dit punt onduidelijk. Anders geformuleerd: kunnen we iets preciezer zijn over de betrouwbaarheid van de Choice-gegevens?

Voor de beantwoording van die vraag maak ik gebruik van de informatie die Choice op dit punt aanbiedt. Deze publicatie van Choice is heel helder en leesbaar. Ik geef hierna een samenvatting.

Het onderzoek waarop de Keuzegids zich baseert, is de Nationale Studenten Enquête (NSE). Dit vragenlijst-onderzoek wordt uitgevoerd in het kader van het project Studie-Keuze-Informatie (SKI) in opdracht van het ministerie van Onderwijs (OCW). In het kader van dit vragenlijst-onderzoek worden in totaal ieder jaar twintigduizend studenten telefonisch ondervraagd teneinde jaarlijks voor 400 verschillende opleidingen studentbeoordelingen te verzamelen. Omdat in de praktijk de scores vrij stabiel zijn, worden niet ieder jaar dezelfde opleidingen onderzocht. Belangrijke opleidingen die veel studenten trekken worden eens in de 2 jaar onderzocht, minder belangrijke opleidingen eens in de drie jaar. In totaal worden op deze manier van 1200 opleidingen gegevens verzameld.

Per opleiding streeft men naar 50 respondenten. Uit het bestand van de IB-groep worden hiertoe 'at random' studenten getrokken. Men gaat door met benaderen tot het beoogde aantal van 50 is bereikt. Het feitelijke afnemen van de vragenlijst gebeurt telefonisch om de nonresponse te minimaliseren. Eventueel wordt daartoe meerdere malen gebeld wanneer de telefoon niet wordt opgenomen (in totaal zo nodig 3 keer). Verwante opleidingen worden steeds in hetzelfde jaar onderzocht om de gegevens goed vergelijkbaar te houden. Verder worden alle telefoongesprekken gevoerd in de periode van begin maart tot eind april. Dit ook weer in verband met de vergelijkbaarheid en omdat op deze manier ook eerstejaars studenten een redelijk gefundeerd oordeel kunnen geven. De nonresponse (daadwerkelijke weigeringen mee te werken wanneer het contact tot stand is gekomen) ligt op deze manier lager dan 15% aldus Choice. Wel ontstaat er uitval doordat het nummer niet klopt of permanent niet bereikbaar is. Ui t onderzoek blijkt echter dat de respondentengroep op alle controleerbare punten een goede afspiegeling vormt van de doelgroep. Alleen buitenlandse studenten worden via het onderzoek niet goed bereikt.

De vragenlijst bestaat in totaal uit 30 deelaspecten (items) waarvan bekend is dat studenten die relevant vinden voor de kwaliteit van de studie. Deze 30 deelaspecten zijn gegroepeerd in 10 aspecten/clusters (schalen dus). De score per vraag is dus steeds gebaseerd op meerdere items (multi-item schalen). De betrouwbaarheid/homogeniteit (coëfficiënt alfa) van deze schalen is onderzocht en bekend en ligt voor 7 van de 10 schalen in de range van .59 tot en met .69. De 3 overige schalen hebben een alfa van: .47, .49 en .55.

Op basis van deze clusters wordt tenslotte een totaalscore berekend d.w.z. het gemiddelde voor de 10 clusters. Hoewel Choice dit niet expliciet vermeldt, moeten de 10 clusters onderling duidelijk positief correleren aangezien de steekproefmarge bij de (gemiddelde) totaalscore slechts de helft bedraagt van die van de clusterscores. De variantie van de steekproeffluctuatie is dus in verhouding nog maar 1/4 en dus met 75% gereduceerd. De steekproeffout voor de totaalscore bedraagt afgerond naar boven 0.1 aldus Choice (niet afgerond: 0.075). (Mijn intuïtieve idee om af te ronden op 1 decimaal was dus volledig terecht.)

In de praktijk kan de totaalscore dus ook 0.1 hoger of lager uitpakken, maar heb je het dan ook wel ongeveer gehad. Natuurlijk is het nu verleidelijk om te redeneren dat je instelling dus in werkelijkheid misschien 0.1 hoger zit, maar voor hetzelfde geld kan dat in werkelijkheid ook 0.1 lager zijn. Omdat het opvijzelen van de totaalscore een langzaam proces is, is dit zichzelf in slaap sussen niet verstandig.

Ook heeft Choice de stabiliteit van de totaalscores onderzocht. In de maximale termijn van 3 jaar voordat het onderzoek herhaald wordt, is de verandering in de totaalscore gemiddeld kleiner dan 0.12. Zodra er in een reeks scores tenminste 0.5 punt verschil zit, is de ranglijst in aanzienlijke mate stabiel, aldus Choice. Bij onderzoek onder PABO's werd een correlatie van 0.85 voor de totaalscore gevonden na een periode van 2 jaar.

Veranderingen die opleidingen doorvoeren op basis van de uitslagen van het onderzoek blijken in het algemeen zelden tot grote verschuivingen te leiden. Kennelijk is het voor instellingen vrij lastig de totaalscore in korte tijd belangrijk te beïnvloeden.

Tenslotte blijkt de totaalscore ook nog duidelijk te correleren met andere vragenlijsten om het oordeel van de studenten over de opleidingen te meten (gerapporteerde correlaties: 0.66, 0.85, 0.95). Ook blijkt de totaalscore te correleren met de uitkomsten van visitaties (r=0.66), wel was het aantal betrokken opleidingen hierbij vrij beperkt (n=13). Ten aanzien van de totaalscore is het Choice-onderzoek dus behoorlijk solide.

Voor de scores op de aspecten is de marge groter. Hier valt uit de door Choice vermelde gegevens af te leiden dat de steekproeffout (afgerond) 0.1 bedraagt. Niet-afgerond bedraagt de steekproeffout 0.10 tot 0.14. Omdat enkele van de vermelde SD's gevaarlijk dicht in de buurt van deze waarden komen, betekent dat dus dat de vergelijking van die aspecten met het gemiddelde nogal onbetrouwbaar kan uitpakken. Speciaal SAMENHANG met een SD van 0.12 lijkt in dit opzicht onbetrouwbaar.

Voor dit probleem lijken er in beginsel 2 oplossingen te bestaan. Allereerst kan men Choice vragen om de resultaten van een significantietoets. Blijkens de informatie van Choice is men bereid zulke gegevens te leveren.

Een tweede oplossing is de referentiegroep in te perken tot de hoogst scorende instellingen. Wil men zich spiegelen aan het gemiddelde (waarin dus ook de laag scorende opleidingen zitten) of neemt men als doel de groep hoog scorende opleidingen. Door op deze manier de referentiegroep extremer te kiezen, worden de verschillen groter waardoor ze betrouwbaarder/eenvoudiger als significant zijn aan te tonen.

Conclusie:
- de totaalscore kan in de praktijk 0.1 hoger of lager uitvallen;
- de beoordelingen van de aspecten in de vorige notitie zijn mogelijk onbetrouwbaar wanneer de gevonden SD in de buurt van de 0.1 komt.


dinsdag, november 07, 2006


Slechte scores I


"RUG gaat slechte scores aanpakken" kopt de UK van 12 oktober op de voorpagina. In de Keuzegids Hoger Onderwijs scoort communicatiewetenschappen slecht. "Een laatste plaats kan gewoon niet", zegt de voorzitter van het RUG-bestuur Simon Kuiper. "We zullen het met hen (de betrokken studierichtingen) opnemen en er werk van moeten maken."

In de volgende UK (19 oktober 2006) reageert Kees de Glopper (hoogleraar Nederlandse Taalbeheersing) daarop met een ingezonden brief. Hij vindt het onderzoek waarop de Keuzegids zich baseert in methodologisch opzicht tekortschieten.

Hij merkt o.a. op: "Dat Kuipers deze ranglijstjes zo serieus neemt, is verbazend. Choice, het Leidse Centrum Hoger Onderwijs Informatie dat de enquêtes voor de Keuzegids uitvoert en rapporteert, geeft zelf toe dat zijn rapportcijfers strikt genomen geen vergelijkend oordeel vormen: de meeste studenten kennen immers alleen hun eigen opleiding."

Op dit moment wil ik niet ingaan op de methodologische problemen van het Choice-onderzoek. Mijn grootste probleem is dat onduidelijk blijft, hoe Choice precies aan haar steekproef komt en hoe groot die is.

Maar ook bij onderzoek van de Consumentenbond kun je vaak en terecht de nodige methodologische kanttekeningen plaatsen. Ook daar gebeuren veel onduidelijke dingen waarvan je je als methodoloog afvraagt of het niet beter kan. Maar ondanks al die methodologische bezwaren heeft dat onderzoek wel impact en je kunt er donder op zeggen dat het met dit onderzoek precies zo zal zijn. Want dit onderzoek is er en ligt in de kiosk en de methodologische bezwaren van Kees de Glopper liggen daar niet. En wanneer ze daar wel zouden liggen, is het nog heel erg de vraag of mensen daar echt van onder de indruk zouden zijn. Bij onderzoek is het nu eenmaal zo dat een onderzoek waar wat op aan te merken valt, meestal toch nog informatiever is dan geen onderzoek of als zodanig wordt opgevat.

Er zit ook een communicatiekundige kant aan deze reactie. Binnen de communicatiekunde is men het lang niet altijd met elkaar eens. Maar over één ding zijn de communicatiekundigen het wel behoorlijk eens. Bij crisis-management moet je het probleem nooit ontkennen, maar altijd serieus nemen. Wanneer er allemaal kinderen misselijk worden na het drinken van jouw cola, is er vermoedelijk met jouw cola niets aan de hand en is het fenomeen gewoon verklaarbaar als een vorm van massahysterie. Maar als cola-fabrikant is dat het domste dat je kunt zeggen. Het publiek redeneert: waar rook is, is vuur. Men ziet rook en jij zegt: "Er is niets aan de hand." Dat gelooft dus niemand ook al heb je vermoedelijk volledig gelijk.

Wat je moet doen, is onmiddellijk alle cola terugroepen. Advertenties plaatsen dat het publiek de cola beter terug kan brengen. De teruggeroepen cola laten onderzoeken en daarna in aanwezigheid van de pers vernietigen. Wat er dan bij het publiek blijft hangen, is dat je een colafabrikant bent, die adequaat reageert. Die bezorgd is over de veiligheid van de consument. Op die manier verander je de crisis in een stuk positieve reclame voor jezelf.

In de UK van 2 november 2006 doet emeritus-hoogleraar Wim Hofstee in feite precies deze suggestie. Ook al ben je misschien van plan er helemaal niets aan te doen, wek naar buiten toe in ieder geval de indruk dat je de zaak diepgaand gaat onderzoeken.

In zijn ingezonden brief doet Wim Hofstee ook de aanval op het Choice-onderzoek nog eens dunnetjes over door te stellen dat rangordes psychometrisch onbetrouwbaar zijn. Het zou voldoende zijn om helemaal niets te doen en gewoon te wachten. Door die onbetrouwbaarheid zal de score volgend jaar immers vermoedelijk totaal anders uitvallen. Inderdaad: rangordes kunnen onbetrouwbaar zijn, maar... ze hoeven dat niet altijd te zijn. (Dat hangt namelijk vooral af van de grootte van de verschillen tussen de deelnemers.)

In de Keuzegids Hoger Onderwijs kunnen we bijvoorbeeld lezen dat Toegepaste Communicatie van de Universiteit Twente opnieuw "net als in de voorgaande jaren" als beste uit de bus komt. Wanneer we de eerste keer als toeval beschouwen, is de kans dat dat daarna opnieuw 2x gebeurt in dit geval 1/9x1/9=1/81 of afgerond 1%. Dat is een beetje erg veel toeval. Ook kunnen we lezen in de Keuzegids dat van alle CIW-opleidingen Tilburg "wederom" de beste papieren heeft. Nog meer toeval dus!

In de analyse die ik van de gegevens in de Keuzegids gemaakt heb (zie hieronder) scoort de hoogstscorende opleiding (Enschede UT) voor WO Communicatie op de 10 onderzochte aspecten: 6 keer '++', 3 keer '+' en 1 keer '-'. Opnieuw wat erg veel toeval dus.

De slechtst scorende opleiding (Nijmegen RU Communicatiewetenschap) heeft daarentegen erg veel pech: 6 keer '--', 3 keer '-' en 1 keer '+/-'. Opnieuw dus akelig veel toeval.

In verhouding daarmee doet Groningen RUG (CIW) het nog niet zo slecht: 2 keer '--', 1 keer '-' en 7 keer '+/-'.

Maar het punt waar het mij eigenlijk om gaat, is: kunnen we uit deze gegevens iets leren over de sterke en zwakke punten per opleiding?

De Keuzegids Taal en Communicatie geeft op blz. 56 de gezochte tabel voor 4 opleidingen Communicatiewetenschap (CW) en voor 5 opleidingen Communicatie- en Informatiewetenschappen (CIW). Al deze 9 opleidingen zijn aan instellingen van het WO (universiteiten). De eerste groep opleidingen (de CW-studies) is bij de sociale wetenschappen. De tweede groep (de CIW-studies) is bij de letterenfaculteiten. De eerste groep ziet communicatiekunde vooral als een sociale wetenschap, de tweede groep is geneigd het meer als een kwestie van taal te zien.

De onderzochte opleidingen met daarachter het op 1decimaal afgeronde gemiddelde voor de 10 onderzochte aspecten:
1. Enschede UT (CW) ---------- 7.2
2. Tilburg UvT (CIW) --------- 7.1
3. Amsterdam UvA (CW) -------- 7.1
4. Amsterdam VU (CW) --------- 7.0
5. Amsterdam VU (CIW) -------- 7.0
6. Utrecht UU (CIW) ---------- 7.0
7. Nijmegen RU (CIW) --------- 7.0
8. Groningen RUG (CIW) ------- 6.9
9. Nijmegen RU (CW) ---------- 6.6


Bij het interpreteren van de tabel uit de Keuzegids doet zich het probleem voor dat je een opleiding het beste kunt vergelijken met alle overige opleidingen. Daarvoor moet je echter het gemiddelde hebben dat per aspect verschilt. Dit gemiddelde ontbreekt in de tabel die daardoor moeilijk interpreteerbaar wordt. Ik heb daarom die gemiddelden berekend. Dit leverde de volgende reeks (in de volgorde waarin ze in de tabel van de keuzegids staan). (De kopjes 'keuzeruimte' en 'samenhang' zijn in de oorspronkelijke tabel per ongeluk omgewisseld blijkens een mededeling op blz. 7 van de gids; ik heb ze hier correct weergegeven.)

Gemiddelden per aspect over alle 9 opleidingen met de bijbehorende SD.
---------------------------------------------------
inhoud -------------- 7.10 ------- 0.17*
keuzeruimte --------- 7.14 ------- 0.56
samenhang ----------- 6.92 ------- 0.12*
werkvormen ---------- 6.71 ------- 0.15
vb. loopbaan -------- 6.48 ------- 0.32
docenten ------------ 7.31 ------- 0.17*
communicatie -------- 6.58 ------- 0.34
studeerbaarheid ----- 7.07 ------- 0.21
gebouwen ------------ 6.98 ------- 0.27
faciliteiten -------- 7.36 ------- 0.24

TOTAAL -------------- 6.96 ------- 0.18
---------------------------------------------------

*SD's die in de buurt van de 0.10 komen, leveren mogelijk onbetrouwbare uitkomsten in de hierna volgende beoordelingen. Zie hiervoor de volgende notitie.



Een volgend probleem is dat je een maat moet hebben voor de grootte van een verschil. Gebruikelijk is daarvoor de standaarddeviatie (SD) te gebruiken. Omdat het in dit geval gaat om verschillen tussen onderwijsinstellingen leek het zinvol per aspect van de tabel de SD te berekenen. Gebruikelijk is dan om de afwijking van het gemiddelde uit te drukken (d.w.z. te delen door) de SD. De gevonden afwijkingen van het gemiddelde uitgedrukt in SD's zijn vervolgens volgens onderstaande tabel vertaald in eenvoudig interpreteerbare beoordelingen. Hierbij zijn als grenswaarden genomen 0.40 en 1.00.

afwijking in SD's .... beoordeling ten opzichte van gemiddelde
-------------------------------------------------
tussen -0.40 en +0.40 .... +/- .... gemidddeld
0.40 tot 1.00 ............ + ...... beter
-0.40 tot -1.00 .......... - ...... slechter
+1.00 en hoger ........... + + .... veel beter
-1.00 en lager ........... - - .... veel slechter
--------------------------------------------------


Ik geef eerst de beoordelingen voor de CIW-opleidingenvan de letteren-faculteiten.


................ UvT ... VU .... UU ... RU .... RUG
---------------------------------------------------
inhoud .......... + .... + ..... +/- ... - .... - -
keuzeruimte ..... +/- .. +/- ... + ..... + .... +/-
samenhang ....... + .... - ..... - - ... - - .. +/-
werkvormen ...... - .... +/- ... + + ... + .... +/-
vb. loopbaan .... +/- .. +/- ... +/- ... +/- .. +/-
docenten ........ + + .. +/- ... + ..... +/- .. -
communicatie .... +/- .. +/- ... -/- ... +/- .. +/-
studeerbaarheid . + + .. + ..... - ..... +/- .. - -
gebouwen ........ + + .. +/- ... - - ... - - .. +/-
faciliteiten .... + + .. - ..... + ..... +/- .. +/-
TOTAAL .......... + .... +/- ... +/- ... +/- .. -
--------------------------------------------------
In deze tabel is geen rekening gehouden met afwijkingen door steekproeffluctuaties. Zie daarvoor de notitie Scores III op deze blog hierboven.



In de bovenstaande tabel zien we dat de CIW-opleiding van de RUG veel slechter dan gemiddeld scoort op inhoud en op studeerbaarheid. Verder scoort ze slecht op docenten. De overige aspecten zijn gemiddeld.


Hieronder geef ik de beoordelingen van de CW-opleidingen van de sociale wetenschappen.

................ UT ...... UvA ...... VU ..... RU
---------------------------------------------------
inhoud* ......... - ....... + ....... + ...... -
keuzeruimte ..... + + ..... +/- ..... +/- .... - -
samenhang* ...... + + ..... +/- ..... + ...... +/-
werkvormen ...... + ....... - ....... +/- .... - -
vb. loopbaan .... + ....... + + ..... +/- .... - -
docenten* ....... + + ..... - - ..... +/-..... - -
communicatie .... + ....... + + ..... +/- .... - -
studeerbaarheid . + + ..... +/- ..... + ...... -
gebouwen ........ + + ..... +/- ..... +/- .... -
faciliteiten .... + + ..... +/- ..... - ...... - -
TOTAAL .......... + + ..... + ....... +/- .... -
-------------------------------------------------
In deze tabel is geen rekening gehouden met afwijkingen door steekproeffluctuaties. Zie daarvoor de notitie Scores III op deze blog hierboven.



De Universiteit Twente scoort op alle onderdelen beter of veel beter dan gemiddeld behalve op het punt inhoud. Daar scoort ze slechter op dan gemiddeld.

Samenvattend. Ik zie wel wat problemen op methodologisch gebied met het Choice-onderzoek. Het punt dat me het onduidelijkst is, is de herkomst en de grootte van de steekproef waarop men zich baseert. Maar het idee dat het hele Choice-onderzoek volstrekt onbetrouwbaar zou zijn, lijkt me wat erg sterk gesteld. Wanneer het Choice-onderzoek inderdaad gebaseerd is op een redelijke steekproef biedt het juist interessant vergelijkingsmateriaal dat de betrokken studierichtingen kunnen gebruiken om hun onderwijs gericht te verbeteren.

Kortom: het is zo als Simon Kuiper stelt. Het is tijd om in actie te komen.



maandag, november 06, 2006


Onderzoek Lysan Pot: Foute mannenplaatjes!


Mannen zijn stoer, sterk, groot, machtig, belangrijk, kostwinners, sportief. Vrouwen zijn mooi, zacht, lief, sexy, leuk en ondergeschikt. Tenminste dat leerden we vroeger via de media of dachten we te leren. Het beeld dat de media van vrouwen geven, lijkt veranderd te zijn. We zien meer stoere vrouwen. Maar is het beeld dat de media van mannen geven ook veranderd? Worden mannen mooier, sexier, leuker en liever afgebeeld?

Lysan Pot koos deze vraag als uitgangspunt voor haar masterscriptie communicatie- en informatiewetenschappen (Rijksuniversiteit Groningen, juli 2006): Oerman of metroseksueel. Een onderzoek naar genderstereotypering in visualisaties binnen FHM en Men's Health. Persoonlijk vind ik de vraag van Pot interessant, omdat ik me vaak verbaas over al die grijze, conservatief en voorzichtig geklede, saai-uitziende muizen.

De precieze vraag die Pot probeert te beantwoorden (p. 6), is:
in hoeverre mannen in FHM en Men's Health nog stereotiep (traditioneel dus) worden afgebeeld? Of zijn deze afbeeldingen vrouwelijker geworden?

Om dit te onderzoeken heeft ze 236 afbeeldingen geselecteerd uit 5 nummers van ieder blad. Ze heeft daarvoor alle advertenties en illustraties genomen waarop mannen op een gestileerde (vereenvoudigde en karakteristieke) wijze waren afgebeeld. Afbeeldingen van vrouwen vielen dus buiten de boot. Ook gewone foto's van mannen zijn niet in haar onderzoek betrokken zoals foto's van mannen op straat, snapshots e.d.. De foto's die ze wel selecteerde waren advertenties en redactionele reportages zoals modefoto's en verder 5 covers van Men's Health.

Wat haar onderzoek bijzonder maakt, is dat ze alle gebruikte foto's heeft bijgevoegd in verkleinde vorm en op CD-ROM's. De lezer is dus in beginsel in de gelegenheid haar analyses zelf opnieuw uit te voeren wat haar onderzoek in beginsel belangrijk beter herhaalbaar maakt. Daarnaast geeft ze voor iedere variabele die ze bij de beoordeling gebruikt heeft een zorgvuldige operationalisatie en een scoringstabel. Tenslotte geeft ze ook nog van iedere beoordeelde afbeelding in een bijlage de door haar toegekende beoordelingen/scores. Deze 3 maatregelen maken haar onderzoek in beginsel eenvoudig controleerbaar en repliceerbaar. Iets dat bij veel onderzoek in dit onderzoeksveld vaak te wensen overlaat.

Een groot probleem dat wel in dit onderzoek zit en dat in dit soort onderzoek vaker opduikt, is het ontbreken van een controlegroep. Op een of andere manier is er binnen het veld een soort traditie ontstaan van: een controlegroep, wat is dat? En ook nieuwe, jonge onderzoekers lijken zich dan gemakshalve maar in die achterhaalde routine te schikken.

Mogelijk hebben dit soort methodologische problemen ook iets te maken met het paradigma van waaruit men onderzoek doet. De traditionele benadering in dit veld is sterk gericht op het academisch acceptabele betoog. Wanneer de auteur maar bladzijden lang moeilijk formuleert onder het aanhalen van voldoende bronnen en vervolgens diepzinnige conclusies trekt, is het vaak voldoende. Het andere paradigma is belangrijk anders. Dat beschouwt die conclusie men trekt als een hypothese en wil die hypothese niet op voorhand geloven. Het is dan aan de auteur/onderzoeker om door middel van zijn onderzoek te laten zien dat die hypothese misschien toch waar zou kunnen zijn.

Dit verschil in paradigma verklaart mogelijk ook waarom het bij dit soort onderzoek heel gebruikelijk is dat de onderzoeker zelf alle belangrijke afbeeldingen scoort en vragen over de (interbeoordeelaar-)betrouwbaarheid systematisch negeert. In het kritische paradigma lijkt die zelfscoring en dat negeren van het betrouwbaarheidsprobleem vrijwel ondenkbaar.

In het onderzoek van Pot ontbreekt dus die o zo belangrijke controlegroep. Haar onderzoek heeft dus in beginsel maar 1 variabele (of groep variabelen), nl. of de afbeelding stereotiep is of niet. We kunnen daarom haar foto's niet goed vergelijken met hoe het vroeger was.

Vervolgens gaat Pot ook inderdaad zelf aan het beoordelen en schakelt daarbij geen andere beoordeelaars in. Of andere beoordeelaars tot soortgelijke resultaten zouden komen, weten we dus niet.

Onderzoekers die in het academisch-acceptabel-beweer paradigma zijn opgegroeid, denken vaak dat het met die interbeoordeelaars-betrouwbaarheid wel goed zal zitten. Als onderzoeker die opgegroeid is in het ik-geloof-niets-tenzij-je-het-kunt-aantonen paradigma ben ik op dat punt minder optimistisch. Wanneer wij bij onderzoek een gemiddelde interbeoordeelaars-correlatie vonden van .30 is dat al heel substantieel. Vaak liggen de gevonden correlaties nog drastisch lager. Het idee dat iemand ander dus wel tot ongeveer dezelfde uitkomsten zal komen, zit er vaak naast. Beoordeelaars blijken, mits ze onafhankelijk van elkaar werken, vaak tot (volstrekt) verschillende oordelen te komen.

De hypothese die Pot na de vraagstelling ten tonele voert (p. 7), verdient wel vermelding, maar geen navolging:
De mannelijke codes zijn niet langer alleen gebaseerd op het bestaande stereotype manbeeld. De mannelijke norm verkeert in een crisis en het stereotype beeld is aan het verschuiven. Enerzijds wordt er in visualisaties in magazines nog steeds gebruik gemaakt van stereotyperingen, anderzijds is er een verandering van weergave te verwachten.

Dit is fraai proza, maar wat hier nu precies bedoeld wordt c.q. hoe dit getoetst moet worden, is nogal onduidelijk. Ze bedoelt vermoedelijk dat ze nog wel stereotiepe afbeeldingen van mannen verwacht te vinden, maar daarnaast ook niet-stereotiepe.

Na al die kritische, methodologische bezwaren moet ik ook een aantal positieve opmerkingen maken of herhalen. Allereerst heeft ze een behoorlijk aantal foto's in haar onderzoek betrokken en heeft ze ook aangegeven hoe ze die geselecteerd heeft en heeft ze verder ook de moeite genomen die foto's verkleind bij te voegen. Een volgend positief punt is dat ze de variabelen die ze voor de beoordeling gebruikt, zorgvuldig omschrijft op een operationele manier. In beginsel is het goed mogelijk met de door haar gegeven omschrijvingen het onderzoek te repliceren. Ook kwantificeert ze haar beoordelingen zorgvuldig. Tenslotte heeft ze ook nog eens in een bijlage haar beoordelingen per afbeelding bijgevoegd. In verhouding tot ander onderzoek op dit gebied dat ik doorgenomen heb, vind ik dat belangrijke pluspunten.

Is het nu mogelijk op basis van deze beoordelingen terwijl een controlegroep dus ontbreekt, toch nog iets te zeggen dat enigszins gefundeerd is?

Pot gebruikt een aantal beoordelingsvariabelen:
- relative size (alleen als er ook vrouwen op de afbeelding staan);
- feminine touch;
- situationele context (situatie);
- houding/activiteit;
- blik;
- involvement (betrokkenheid op en bij de situatie);
- function ranking/rol (de functie die men uitoefent);
- thema.

Ik heb de Engelse termen laten staan. De beoordelingsvariabelen zijn aan de literatuur en aan eerder onderzoek ontleend en werden meestal vooral gebruikt om afbeeldingen van vrouwen te analyseren.

Ik zal proberen de verschillende beoordelingsvariabelen kort toe te lichten. Veel van deze begrippen gaan terug op een publicatie van Goffman uit 1979.

Relative size. Hoe groot de man in verhouding tot de vrouw wordt afgebeeld, zegt iets over het statusverschil tussen de seksen. Traditioneel worden mannen groot en vrouwen klein afgebeeld. Een in verhouding klein afgebeelde man duidt dus op een lagere status en dus op een meer vrouwelijke manier van afbeelden.

Feminine touch. Vrouwen kunnen heel subtiel iets aanraken. Afbeeldingen die zoiets tonen, laten dus een vrouwelijke manier van afbeelden zien. Mannen worden juist geacht stevig te pakken of te grijpen.

Situationele context/situatie. Een vrouw wordt traditioneel eerder in de keuken, woonkamer of slaapkamer afgebeeld. Een man eerder buiten of aan het werk.

Houding/activiteit. Vrouwen worden vaker liggend of geknield afgebeeld en stralen daardoor een lagere status uit. Mannen worden (volgens de theorie) vaker rechtopstaand afgebeeld en stralen daardoor meer status uit. Ook iemand die rent, wordt meestal als actiever gezien en straalt daardoor meer status uit. Mannen zouden dus traditioneel vaker rennend worden afgebeeld dan vrouwen.

Blik. Vrouwen worden vaker afgebeeld terwijl ze wegkijken of de ogen gesloten hebben of naar beneden kijken.

Involvement. Vrouwen worden vaak afgebeeld volgens de theorie als mentaal afwezig. Ze nemen als het ware niet actief deel aan de situatie. Mannen zouden traditioneel juist als actief worden afgebeeld.

Function ranking/rol. Door de functie die men kennelijk op de afbeelding uitoefent, wordt iets verteld over de status. Een man zal b.v. eerder als piloot of als gezagvoerder worden afgebeeld. Een vrouw eerder als kinderoppas.

Thema. Deze beoordelings-variabele kon de waarden hebben: schoonheid, erotiek, neutraal, individualisme, prestatie/sport en is gecodeerd respectievelijk als -2, -1, 0, 1, 2. Hierbij worden schoonheid en erotiek vooral gezien als vrouwelijk en laag in status.

De coderingen van de overige variabelen hierboven (dus: thema uitgezonderd) liep van
- naar +. Hierbij was -2 b.v. de meest 'vrouwelijke' categorie en +2 de meest 'mannelijke'. Bij 0 was de foto op de desbetreffende variabele altijd neutraal.

Hoe lastig de beoordeling van een afbeelding kan zijn, zien we op p. 18. Hier zien we een zwart/wit foto van een knappe blondine met een grote glimlach en een stukje blote schouder. In de linkerbovenhoek van de foto zien we nog een stukje van een man die zijn neus tegen de zijkant van het hoofd van de vrouw aandrukt en naar beneden kijkt. De afbeelding is bedoeld als illustratie bij 'licensed withdrawal/involvement' en laat volgens het onderschrift een foto zien van een vrouw die dromerig wegkijkt.

In mijn interpretatie van die foto zie ik echter een knappe vrouw die duidelijk de situatie volledig beheerst en dat ook weet, terwijl de man als een soort domme hond aan haar snuffelt.

Laat ik nu kort proberen weer te geven wat de belangrijkste uitkomsten waren.
- relative size: gem=0.24 (n=50 afbeeldingen met man en vrouw)
- feminine touch: gem=0.03 (n=287 afgebeelde mannen)
- situationele context (situatie): gem=0.17 (n=236 afbeeldingen)
- houding/activiteit: gem=-.16 (287 afgebeelde mannen)
- blik: gem=.31 (287 afgebeelde mannen)
- involvement: gem=0.24 (287 afgebeelde mannen)
- rol: gem=0.08 (287 afgebeelde mannen)
In doorsnee komen alle gemiddelden rond de 0 uit. Geen enkele variabele lijkt dus gemiddeld genomen veel te doen.

Ik vermeld hier die gemiddelden wel, maar in feite heb ik die zelf moeten uitrekenen aan de hand van de afgedrukte tabellen omdat de verslaggeving op dit punt nog al afwijkt van het gebruikelijke.

Op basis van de theorie (van vooral Goffman) zou je verwachten dat afbeeldingen van mannen op deze variabelen vrijwel voortdurend positief zouden moeten scoren. Het gevolg zou dus moeten zijn dat negatieve scores vrijwel niet zouden voorkomen en dat het gemiddelde behoorlijk positief zou moeten uitvallen. Deze veronderstelling wordt door de gegevens volstrekt niet bevestigd. De criteria uit de theorie gaan dus voor deze mannenfoto's volstrekt niet op. Anders geformuleerd: de theorie klopt op dit punt niet (meer).

Je kunt je ook afvragen of er bij sommige beoordelings-variabelen sprake is van stereotiep afbeelden. Dus dat alle mannen op dezelfde traditionele manier worden afgebeeld. Ook dit blijkt in het algemeen niet zo te zijn. De beoordelings-variabelen hebben een behoorlijke spreiding: alle categorieën/scores komen dus meestal voor. Het is dus niet zo dat mannen voortdurend op dezelfde manier worden afgebeeld, afgaande op deze uitkomsten.

Het werken met gemiddelden is bij dit soort variabelen waarbij de codes in feite vaak voor een bepaalde categorie staan, misschien wat erg optimistisch. Je doet alsof het interval-variabelen zijn en dat is wat aanvechtbaar (hoewel er meestal wel een duidelijk rangordening in de scores zit). Ik heb daarom ook een grovere indeling gemaakt waarbij steeds slechts 3 opties waren: in beginsel 'vrouwelijk', neutraal, in beginsel 'mannelijk'. De verschillende 'vrouwelijke' en 'mannelijke' manieren van afbeelden zijn dan dus samengenomen. Ik kwam dan tot de volgende uitkomsten.

Relative size. 50 afbeeldingen met zowel man(nen) als vrouw(en). Bij 19 is de man als groter of belangrijker afgebeeld en bij 9 de vrouw. In 22 afbeeldingen is de beoordeling: neutraal. Dit zijn foto's van mannen in een mannenblad. Mannen zijn fysiek vaak groter dan vrouwen. De stelling van de relative size gaat dus veel vaker niet op (31x), dan wel op (19x). Verder komen er ook een behoorlijk aantal afbeeldingen voor waar de stelling precies omgekeerd opgaat (9x): de vrouw is groter en de man kleiner afgebeeld.

Feminine touch. In totaal 287 mannen. Bij 72 is sprake van een mannelijke manier van grijpen, vastpakken. Bij 63 is sprake van vrouwelijk net aanraken. De stelling van de feminine touch gaat dus overwegend niet op bij deze mannenafbeeldingen. Bij de overige afbeeldingen is er niet sprake van grijpen of aanraken.

Situational context/situatie. In totaal 236 afbeeldingen. De situatie is 24x beoordeeld als vrouwelijk en 65 keer als mannelijk. Mannelijke situaties komen hier dus inderdaad meer voor, maar mogelijk is dat bij vrouwen ook wel het geval. Interessant lijkt dat in de gevallen waarin de situatie duidbaar is, de man 24x in een typisch vrouwelijke omgeving wordt afgebeeld. Ook de stelling van de situational context gaat dus bij dit beeldmateriaal niet altijd op.

Houding/activiteit. In totaal 287 mannen. De man is in 59 gevallen afgebeeld in een mannelijke houding en in 87 gevallen in een vrouwelijke houding. In de overige gevallen is de houding neutraal. De stelling van de houding/activiteit wordt dus op dit beeldmateriaal niet bevestigd.

Blik. In totaal 287 mannen. Hiervan kijken 39 (14%) op een feminiene manier en 151 (53%) kijken op een 'mannelijke' manier. Mogelijk kijken vrouwen ook vaak op een mannelijke manier in de lens. Maar in ieder geval zijn er 14% mannen waarvan de blik als typisch 'vrouwelijk' wordt beoordeeld.

Involvement. In totaal 287 mannen. Hiervan zijn er 34 (12%) beoordeeld als 'vrouwelijk' en 108 (38%) als mannelijk. De meeste mannen werden op dit punt als neutraal beoordeeld.

Rol. Van de 287 mannen wordt de rol door Pot in 119 gevallen beoordeeld als 'vrouwelijk' en in 102 gevallen als 'mannelijk'. Van een typische mannenrol of vrouwenrol is volgens Pot in dit beeldmateriaal dus geen sprake meer.

Thema. Van de 235 afbeeldingen worden er 87 beoordeeld als hebbend een feminien thema. 91 worden beoordeeld als hebbend een mannelijk thema. Erg veel mannenfoto's dus met volgens Pot het 'verkeerde' thema.

Het idee van Goffman indertijd was vooral dat vrouwen in de media op een bepaalde manier worden afgebeeld waaruit in feite hun ondergeschikte status (in verhouding tot de man) zou blijken. Latere onderzoekers hebben daar soms nog enkele manieren/variabelen aan toegevoegd.

Wanneer we nu die criteria van Goffman en latere onderzoekers toepassen op afbeeldingen van mannen, zouden we dus verwachten dat mannen op deze criteria als het ware duidelijk positief scoren. En eigenlijk voldoen alle hier onderzochte criteria (beoordelingsvariabelen) op dit punt niet.

Bij een enkel criterium scoren mannen helemaal verkeerd, namelijk houding/activiteit. Veel meer dan de helft van de mannen wordt in een 'vrouwelijke' houding afgebeeld.

Bij andere criteria scoren mannen ongeveer net zo vaak verkeerd als goed: feminine touch, rol en thema.

Tenslotte zijn er een hele reeks criteria waarop mannen wel vaker goed scoren dan verkeerd, maar waarin verhoudingsgewijs toch nog wel erg veel 'foute' scores voorkomen: relative size, situational context, blik, involvement.

Afgaande dus op de geselecteerde afbeeldingen en op de beoordelingen van Pot zijn of de plaatjes niet meer aangepast aan de theorie of is de theorie niet meer aangepast aan de plaatjes. Of dat komt doordat er veranderingen zijn opgetreden in hoe we mannen afbeelden valt op grond van dit onderzoek helaas niet vast te stellen. Maar dat de huidige mannenplaatjes niet langer goed voldoen aan wat de theorie 'voorschrijft' lijkt vrij duidelijk.

Ondanks de nodige methodologische problemen dus al met al toch een interessant resultaat, lijkt mij.


donderdag, november 02, 2006


Minder kranten in VS -- Meer breedband in Nederland


In de NRC van vandaag (1/11/2006) op p. 21 een kort berichtje: Oplage kranten VS onder druk. De oplagecijfers van de Amerikaanse kranten zijn het afgelopen halfjaar met 2.8% gedaald, de sterkste daling in tenminste 15 jaar. In totaal bedraagt de dagelijkse oplage in de VS een 44 miljoen kranten aldus de studie van het Audit Bureau of Circulations. De Wikipedia vermeldt dat de VS iets meer dan 300 miljoen inwoners heeft. Dat betekent dus 1 krant op ongeveer 7 inwoners (onafgerond: 6.8 inwoners). Nu is het natuurlijk mogelijk dat zo'n krant soms door 2 of 3 mensen gelezen wordt. Maar de overgrote meerderheid leest dus kennelijk geen krant.

In dezelfde krant op dezelfde bladzij een berichtje CBS:breedband internet groeit spectaculair. In Nederland heeft 66% van de huishoudens breedband-internet (ADSL of kabel). In totaal heeft 80% van de Nederlanders volgens het CBS persbericht toegang tot het web en besteden ze daar ook steeds meer tijd aan.

Zelf ontdek ik net, dat ik krantlezen zonder computer maar lastig vind. Steeds wanneer je iets leest dat je wilt nazoeken, is dat machien nodig.

De conclusie lijkt me duidelijk: zonder breedband internet kun je niet meer in de moderne samenleving, zonder krant wel. Aan het laatste deel van die conclusie ben ik zelf nog lang niet toe.