dinsdag, april 18, 2006


Tekstbeoordelingsonderzoek in kort bestek


Inmiddels ben ik bezig met het begeleiden van de tweede scriptie over tekstbeoordeling. Wat kan ik in kort bestek zeggen over tekstbeoordelings-onderzoek?

De kwaliteit van een tekst is in veel communicatiekundige geschriften een belangrijk onderwerp. Een van de basisvragen van de communicatiekunde en ook de taalbeheersing is: hoe schrijf je een goede tekst? Andere soortgelijke vragen zijn: wat zijn de kenmerken van een goede tekst? Hoe kun je een tekst herschrijven zodat die beter wordt?

In de praktijk van het schrijven speelt het kwaliteitscriterium ook een grote rol. Een zin moet anders geformuleerd, want 'dan wordt hij beter'. Als je een dure advertentie zet, gebruik je liever een tekst die optimaal is, dan een die dat net niet is. Maar wat is 'optimaal'? Wanneer is een tekst 'goed'?

Hoe kunnen we vaststellen of een tekst goed is? Dat is een simpele vraag, waarop tot nu toe helaas geen simpel antwoord bestaat.

Een van de dingen die we inmiddels wel denken te weten, is dat het vaststellen van die kwaliteit door een mens moet gebeuren. Voorzover we weten, kan een computer dat (nog) niet. Je hebt mensen nodig die de tekst lezen of gebruiken en zeggen wat ze ervan vinden. Volstrekt formele methoden (b.v. de gemiddelde zinslengte moet kleiner dan 15 woorden zijn) werken in dit opzicht niet goed.

Een volgend ding dat we denken te weten, is dat het vaststellen van die kwaliteit door meerdere mensen moet gebeuren. Je kunt niet volstaan met het oordeel van een enkele lezer. Misschien wel als je zelf iets geschreven hebt, maar niet als we als het ware die kwaliteit wat objectief willen vaststellen. Zo had je schrijvers die als ze een hoofdstuk af hadden, dat hun vrouw lieten lezen. Zo'n methode kan prima werken, maar je moet dan erg afgaan op die ene vrouw. Om de zaak wat repliceerbaar te houden, gebruiken we dus liever een serie lezers.

Kun je teksten objectief beoordelen? Het antwoord op deze vraag moet zijn, dat het misschien nog niet helemaal objectief kan (b.v. door een computer op basis van een formule of iets dergelijks), maar dat we het wel een stuk minder subjectief kunnen maken door groepen mensen als beoordeelaars in te zetten.

Een derde ding dat we denken te weten, is dat die lezers iets van een beoordelingsformulier moeten invullen. Je kunt natuurlijk iedere lezer zelf een stukje over het gelezene laten schrijven. Maar dat worden heel uiteenlopende stukjes die moeilijk samen te vatten en te combineren zijn. Daarom gebruiken we liever een beoordelingsformulier. Op die manier worden de beoordelingen wat meer gestandaardiseerd en beter vergelijkbaar.

Een vierde punt dat redelijk duidelijk lijkt, is dat we vaak iets meer willen dan alleen een algemeen oordeel. Je zou b.v. de beoordeelaars/lezers kunnen vragen om de kwaliteit van een tekst uit te drukken in een schoolcijfer. Dat is niet verkeerd. Maar het is wel weinig informatief. Iemand geeft een 3 aan een tekst. Dat is informatief, maar daarna willen we ook graag iets weten over het waarom van die 3. We willen dus (naast een eventueel algemeen oordeel) dat verschillende aspecten van die tekst beoordeeld worden.

Vergelijk het met de beoordeling van auto's. Als consument wil je graag een goede auto voor je geld. Autobladen e.d. voorzien in die behoefte door te komen met testrapporten. In zo'n testrapportje wordt een auto op een aantal punten bekeken en velt men vervolgens een totaal-oordeel. Wanneer je alleen de totaal-oordelen zou krijgen, is dat minder informatief. Helemaal wanneer die totaal-oordelen ook nog eens verschillen per beoordeelaar.

Een vijfde punt dat duidelijk lijkt, is dat een beoordeling van een reeks soorgelijke artikelen beter gaat dan van 1 afzonderlijk artikel. We zeggen dat een beoordeling vergelijkenderwijs moet zijn. Wanneer je 1 middenklasse auto beoordeelt, wordt dat snel wat vaag. Wanneer je er 10 beoordeelt, kun je ze met elkaar vergelijken en tenslotte één aanwijzen die volgens jou de beste is.

Een zesde punt lijkt ook duidelijk. Je auto-beoordelingen bevatten b.v. informatie over de prijs, de ruimte, de wegligging, de veiligheid. Maar de informatie die je graag zou willen hebben als b.v. de kosten over 10 jaar gebruik en het aantal storingen in die 10 jaar zodat je niet kunt starten, blijft staan of acuut een garage moet opzoeken, staat er vaak niet in. De aspecten die beoordeeld worden, zijn niet altijd even relevant terwijl we wel juist graag die relevante willen hebben.

Een zevende punt lijkt ook duidelijk. Als ik informatie over de inhoud van de bagageruimte wil, levert dat vermoedelijk van de verschillende beoordeelaars behoorlijk gelijke uitkomsten op. Wanneer ik informatie over de uitstraling wil, ligt dat moeilijker. De beoordeling daarvan kan eerder per beoordeelaar verschillen. Dat betekent niet, dat uitstraling geen goed criterium zou zijn. Maar de beoordeelaars moeten het daar wel op zijn minst een klein beetje over eens zijn, anders wordt het te vaag en daardoor onbruikbaar.

Met tekstbeoordeling staan we pas aan het begin. Er is nog maar heel weinig over. De vragen waar het dit moment overgaat, zijn:
1. Welke aspecten vraag je af? (Welke vragen/aspecten bevat je beoordelingsformulier precies?)
2. Zijn die vragen voldoende duidelijk zodat verschillende beoordelaars tot soortgelijke uitkomsten komen? (Stemmen verschillende beoordeelaars over een serie teksten enigszins overeen op een bepaalde vraag?)
3. Heb je de meest relevante aspecten opgenomen in je beoordelingsformulier?

Punt 1 resulteert in een A4-tje (soms twee misschien) dat de beoordeling van de lezer structureert. Je kunt hiervoor een bestaand beoordelingsformulier gebruiken of eventueel zelf iets nieuws maken uitgaande van wat er al is. In onderzoek gebruiken we vaak 2 verschillende beoordelingsformulieren zodat we de verschillende beoordelingsmethoden met elkaar kunnen vergelijken.

Het antwoord op punt 2 vinden we doordat we b.v. 15 beoordeelaars ieder dezelfde 10 teksten hebben laten beoordelen. Stel dat ons beoordelingsformulier 20 vraagjes telde. We zetten dan al deze uitkomsten in SPSS. Iedere regel/case wordt een tekst. Op zo'n regel krijgen we eerst het nummer van de beoordeelde tekst. Vervolgens krijgen we de 20 beoordelingen van beoordeelaar 1 voor die tekst. Daarachter krijgen we dan de 20 beoordelingen van beoordeelaar 2. Zo krijgen we in totaal 10 regels (teksten) met 15x20=300 kolommen. Via Scale kun je dan per vraag de beoordelingen van alle 15 beoordeelaars met elkaar correleren. Dit levert een gemiddelde onderlinge (beoordeelaars)correlatie op en een coëfficiënt alfa. Alfa is de betrouwbaarheid van je beoordeling (in dit geval dus gebaseerd op 15 beoordeelaars). Wanneer je later b.v. 5 beoordeelaars zou gebruiken voor dezelfde methode, zal de gemiddelde onderlinge correlatie in beginsel ongeveer gelijk blijven, maar je betrouwbaarheid wordt dan veel lager, omdat je minder beoordeelaars hebt gebruikt.

Met 15 beoordeelaars kunnen vragen waarvan de beoordeelaars onderling 0.30 correleren nog een prima betrouwbaarheid opleveren. De overeenstemming tussen de beoordeelaars mag dus heel laag zijn met deze methode, doordat je er zoveel gebruikt wordt de beoordeling toch betrouwbaar.

Het derde punt kunnen we nog niet zo goed onderzoeken. Eigenlijk zou je dan moeten weten wat de relevante aspecten/dimensies zijn voor tekstbeoordeling. En verschillende auteurs denken daar vaak een beetje verschillend over. Maar wat we wel kunnen doen, is de betrouwbare informatie die de verschillende methoden leveren, naast elkaar leggen. Stel methode A levert 6 betrouwbare aspecten/dimensies op en methode B 10. We kunnen nu via correlatie-onderzoek checken welke dimensies van A ook in B voorkomen en welke niet. Omgekeerd kunnen we dat ook voor de dimensies van B doen. We weten dan dus nog steeds niet echt of die dimensies relevant zijn, maar we weten dan wel of we ze al hadden of dat ze nieuw zijn.

Later moet dan in vervolgonderzoek (valideringsonderzoek) zo'n dimensie gevalideerd worden. Stel je voor dat je een dimensie 'mooi letterytpe' betrouwbaar kunt meten via een beoordelingsmethode. Als nu uit vervolgonderzoek blijkt dat teksten met een hoge score op 'mooi lettertype' verder eigenlijk niet beter werken dan teksten met een lage score op 'mooi lettertype', weten we dat we het lettertype wel betrouwbaar kunnen laten beoordelen, maar dat het verder niet zo veel uitmaakt voor b.v. het totaal-oordeel over de tekst.

Op het moment is er in ieder geval nog 1 punt waarop de opzet als het ware verbeterd kan worden. De vraag is alleen: hoe? Want het moet allemaal wel uitvoerbaar blijven. De basisopzet is dat een aantal lezers/beoordeelaars een aantal teksten beoordeelt op een soort vragenlijstje, het beoordelingsformulier. Iedere beoordeelaar vult dus voor iedere tekst opnieuw dat beoordelingsformulier in. We werken nu met 10 teksten. Dat lijkt veel als je ze allemaal moet lezen, maar is akelig weinig als je er een correlatie op moet baseren. We zouden dus liever met meer teksten willen werken. Aan de andere kant: hoe krijg je de beoordeelaars zover dat allemaal door te ploeteren?

Maar de hoofdvragen zijn dus:
1. Welke punten moet je afvragen in het beoordelingsformulier?
2. Levert dat punt/die vraag een betrouwbare beoordeling op?
3. Voegt die beoordeling iets nieuws toe vergeleken met de punten/vragen die er al waren?
4. Eventueel: is dit punt/aspect inderdaad noodzakelijk of belangrijk voor een goede tekst?

In de literatuur wordt tekstbeoordeling ook vaak gekoppeld aan het herschrijven van een tekst. Dat komt doordat taalbeheersing en communicatiekunde enigszins praktische vakken zijn (wat ik op zich een goede zaak vind). In de praktijk gaat het heel vaak om het beoordelen van de kwaliteit om vervolgens het stuk te herschrijven zodat het beter wordt. Het probleem met die benadering is dat het wel praktisch is, maar dat je ook heel veel in 1 keer probeert te doen. Je probeert de kwaliteit vast te stellen en tegelijkertijd probeer je ook al aanwijzingen te geven voor het herschrijven. Maar in beginsel zijn het vaststellen van de kwaliteit en het geven van aanwijzingen om die kwaliteit te verbeteren, twee totaal verschillende zaken (summantieve en formatieve evaluatie, heet dat in de onderwijskunde).

Wanneer ik in mijn autotestonderzoek tot de conclusie kom dat b.v. de wegligging van auto X toch niet helemaal is, wat je zou willen, dan is de wegligging beoordeeld als onvoldoende. Een volgend punt is hoe je dat moet verbeteren. Dat laatste is een probleem voor de fabrikant en niet het probleem waar jij je als tester het hoofd over wilt breken.

Het voordeel van het loslaten van die formatieve evaluatiestap is dat het daardoor veel gemakkelijker wordt om verschillende methoden van tekstbeoordeling naast elkaar te leggen en te vergelijken. Misschien had dit stukje daarom wel beter kunnen heten: Methoden voor tekstbeoordeling met elkaar vergelijken.

Laat ik nog proberen een simpel voorbeeld te geven om de gedachtengang achter deze aanpak te illustreren. Een auteur op communicatiekundig gebied stelt dat Ordening een belangrijk criterium is voor een goede tekst. De ordening van de informatie in de tekst moet goed zijn, moet zo optimaal mogelijk zijn. En teksten kunnen op dat punt natuurlijk belangrijk verschillen.

Wij proberen dit begrip Ordening nu in ons tekstbeoordelings-onderzoek te betrekken. De eerste stap is dat we op ons beoordelingsformulier een vraag (of meerdere vragen) opnemen om iets te weten te komen over de ordening van de informatie. We kunnen b.v. vragen: Wat vindt u van de ordening van de informatie in de tekst? Met als antwoordalternatieven: zeer slecht -- slecht - matig -- redelijk -- goed -- erg goed -- perfect. Deze stap is in feite de operationalisering van het begrip (goede) 'ordening'.

De tweede stap die we zetten, is dat we b.v. 15 beoordeelaars met het nieuwe formulier aan het werk zetten om een serie van b.v. 10 uiteenlopende teksten te beoordelen. De beoordelingen worden ingevoerd in SPSS en we berekenen de gemiddelde onderlinge correlatie en de coëfficiënt alfa. Wanneer nu blijkt dat de onderlinge correlatie danwel de alfa laag uitvallen, is het begrip of de operationalisatie daarvan kennelijk (nog) te vaag om betrouwbaar vastgesteld/gemeten te kunnen worden. In dat geval is het criterium in die vorm in feite dus (nog) niet bruikbaar.

Wanneer de onderlinge correlaties tussen de beoordeelaars en daarmee de alfa wel voldoende hoog uitvallen, is het gelukt om het begrip betrouwbaar vast te stellen, te meten. De volgende en derde stap is dan om na te gaan hoe het begrip zich verhoudt tot de begrippen/items die al in de beoordelingslijst waren opgenomen. Het kan b.v. zijn dat Ordening hoog correleert met Structuur. Wanneer dit inderdaad voortdurend het geval blijkt op verschillende series teksten, gaat het dus kennelijk om min of meer hetzelfde begrip. Pas wanneer Ordening niet hoog correleert met een van de bekende aspecten, kunnen we stellen dat we kennelijk een nieuw aspect van teksten betrouwbaar kunnen meten. In deze derde stap gaat het dus vooral om de correlaties tussen de items/aspecten waarbij alle beoordeelaars samen worden genomen of het gemiddelde van hun beoordelingen wordt gebruikt (op dat ene aspect).

In de vierde stap, die eventueel gezet kan worden, proberen we na te gaan of de kwaliteit van de teksten inderdaad gecorreleerd is, afhangt van het voorgestelde begrip/criterium/aspect. In veel gevallen zal het beoordelingsformulier al een of meer items hebben waarin de beoordeelaar gevraagd wordt een algemeen oordeel over de tekst te geven, b.v. via een schoolcijfer of iets dergelijks. Wanneer ordening nu inderdaad een essentieel iets is voor een goede tekst, zou je dus verwachten dat alleen teksten die hoog beoordeeld zijn op Ordening ook hoog scoren op het Algemene Oordeel. In deze vierde stap wordt het criterium dus gevalideerd. Daarom heet dit ook wel valideringsonderzoek.

In totaal kun je dus 4 fasen onderscheiden in tekstbeoordelings-onderzoek:
1. het operationaliseren van het criterium in de vorm van 1 of meer items;
2. het vaststellen van de betrouwbaarheid van een serie beoordelingen op basis van dat item/ die items;
3. het vaststellen van de informatiewaarde van de operationalisatie via de correlaties tussen de items/aspecten;
4. het valideren van het criterium tegen b.v. een algemene beoordelingsmaat.

Tekstbeoordelings-onderzoek is in feite een heel algemeen paradigma om het praten en theoretiseren over teksten te structureren, minder vrijblijvend te maken, te kwantificeren, te toetsen en nuttig toe te passen. Het onderzoek op dit punt staat nog in zijn kinderschoenen. Er valt nog veel uit te zoeken. Ik zou zeggen: Join our Forces!