Waardeloze enquêtes. Dat was de kop boven de column van Cecile Janssens in NRC van vrijdag 2 april 2021. In haar column stelde zij dat opinieonderzoeken als die van EenVandaag en Hart van Nederland waardeloos zijn. Ze zijn immers niet gebaseerd op representatieve steekproeven. Ze geven daarom geen goed, representatief beeld van de publieke opinie in Nederland. En dus produceren ze nepnieuws.
We vinden dat deze kwalificatie te kort door de bocht is. We tekenen daarbij aan dat we alle drie als methodologische adviseurs betrokken zijn bij het EenVandaag Opiniepanel. Dus het gevaar van ‘Wij van WC-eend adviseren WC-eend’ dreigt. Toch vinden we dat een genuanceerder oordeel meer recht doet aan het wel en wee van dit soort peilingen. We beperken ons daarbij tot het panel van EenVandaag, omdat we dat panel het beste kennen en details van het onderzoek van Hart van Nederland niet kennen.
We beseffen dat het verhaal van Cecile Janssens een column is en dat columns vaak worden gekruid met overdrijving. We vinden toch dat haar column wel wat minder gebaseerd zou kunnen zijn op handboekenwijsheid over steekproefonderzoek en iets meer op praktijkkennis.
Janssens stelt dat je voor een goed beeld van de populatie een representatieve steekproef moet trekken. Ze bedoelt hiermee ongetwijfeld een aselecte of random steekproef die volgens de kansberekening een representatief beeld kan opleveren. Afgezien van de terminologie, heeft ze gelijk. Bij een aselecte steekproef worden personen in de steekproef geselecteerd door een lotingsmechanisme dat iedereen dezelfde kans op selectie geeft. Omdat het vaste opiniepanel van EenVandaag niet op deze manier deelnemers aan onderzoek selecteert, maar deze zichzelf hebben gemeld (zelfselectie), zit er een constructiefout in dit opinieonderzoek.
Het is dan goed om twee verschillende situaties te onderscheiden: (1) die waarin je een aselecte steekproef loot uit de populatie, en (2) die waarin je gebruik maakt van zelfselectie.
Aselecte steekproef
Eerst de aselecte steekproef. Dit is de aanpak voor wetenschappelijk verantwoord steekproefonderzoek. Als je netjes loot, krijg je waarschijnlijk een representatieve steekproef. Alle groepen uit de (relevante) bevolking zijn in de juiste verhouding in de steekproef aanwezig. Je kunt dan zuivere (valide) schatters berekenen. En je kunt onzekerheidsmarges uitrekenen. Meer over de theorie van aselecte steekproeven kun je bijvoorbeeld vinden in Bethlehem (2009).
Bij een aselecte steekproef kan – veelal: zal – zich het probleem van non-respons voordoen. Dat betekent dat personen in de steekproef de gewenste informatie niet verstrekken. Dat kan diverse oorzaken of redenen hebben. Je kunt denken aan geen contact, een weigering deel te nemen en niet in staat zijn deel te nemen. Non-respons is vaak selectief. Dit betekent dat bepaalde groepen oververtegenwoordigd zijn en andere ondervertegenwoordigd zijn onder de niet-deelnemers. Deze onevenwichtigheid kun je corrigeren met behulp van een weging. Dan moet je wel voldoende geschikte weegvariabelen hebben. Weegvariabelen zijn alleen effectief als ze aan twee voorwaarden voldoen:
- Ze moeten samen in staat zijn het responsgedrag te verklaren. Oftewel: responsgedrag en weegvariabelen moeten gecorreleerd zijn.
- Ze moeten in staat zijn de onderzoeksvariabelen te verklaren. Oftewel: onderzoeksvariabelen en weegvariabelen moeten gecorreleerd zijn.
Is niet aan deze twee voorwaarden voldaan is, dan kun je technisch gezien wel wegen, maar die weging is dan feitelijk niet effectief. Weging leidt niet tot verbetering van de uitkomsten van de peiling. Meer over het probleem van non-respons en wegen is bijvoorbeeld te vinden in Bethlehem, Cobben & Schouten (2011).
Zelfselectie
De tweede situatie is die van zelfselectie. De steekproef bestaat in dat geval alleen uit personen die een peiling toevallig aantreffen op het internet, het leuk vinden om aan peilingen mee te doen, het onderwerp van de peiling interessant vinden en spontaan besluiten de vragenlijst in te vullen. Je hebt dan geen enkele garantie dat allerlei groepen in de samenleving in de peiling aanwezig zijn. Je mist bijvoorbeeld vooral ouderen of juist jongeren, laagopgeleiden en mensen met een migratie-achtergrond. En wat er niet in zit, kun je er ook niet in krijgen met wegen. Maar zelfs als alle groepen wel in zekere mate aanwezig zijn en je kunt wegen, dan nog moeten de weegvariabelen aan bovenstaande voorwaarden voldoen.
Geen absoluut verschil
Het verschil tussen aselecte en een via zelfselectie verkregen selecte steekproef is echter niet absoluut. Enerzijds is ook een aselecte steekproef problematisch door het optreden van non-respons, en door de zeker in Nederland afnemende deelnamebereidheid steeds problematischer. Steekproefonderzoek volgens de handboeken is geen garantie meer voor een representatief beeld. Anderzijds heb je bij zelfselectie inderdaad vanaf het begin al geen garantie dat allerlei groepen in de samenleving in de peiling aanwezig zijn. Desalniettemin is in een groot panel als bij EenVandaag geen enkele bevolkingsgroep van enige omvang geheel afwezig en is weging conform de zogenaamde Gouden Standaard (die een belangrijke set van weegvariabelen bevat) normaliter mogelijk.
Voor de mensen van EenVandaag is de term ‘representatief’ taboe, omdat zij, bij herhaling, gewezen zijn op en herinnerd worden aan de problemen van hun panel in termen van representativiteit. De verleiding toch uitspraken te doen ver de populatie als geheel is natuurlijk wel voortdurend aanwezig en wordt niet altijd weerstaan, maar dan heffen wij als adviseurs streng ons vingertje. Eventueel mag, na weging, gezegd worden dat het beeld representatief is naar geslacht, leeftijd, opleiding, regio en dergelijke, maar hoger mag men niet springen met de via zelfselectie verkregen polsstok.
De kop boven de column van Cecile Janssens luidt ‘Waardeloze enquêtes’. Iedereen weet dat krantenkoppen veelal niet door de auteurs zelf worden gemaakt. Dus wie weet was de kop niet afkomstig van de columniste. Misschien ook wel, want deze vlag dekte wel haar lading. Maar het blijft oppassen met die koppen, want ze dekken lang niet altijd de lading. Zo suggereert de kop van een bericht gebaseerd op onderzoek van EenVandaag ‘bijna de helft van ouders wil basisschoolkind niet laten testen op corona’ dat dit de mening van bijna de helft van alle ouders is. Maar in het bericht zelf blijkt dat ‘Vier van de tien ondervraagde ouders (43 procent) zeggen hun zoon of dochter niet of waarschijnlijk niet te laten testen’ (onze cursivering). Dat is een subtiel maar betekenisvol verschil.
Geen losse percentages, maar vergelijkingen
De betekenis van losse percentages in opinieonderzoek moet sowieso gerelativeerd worden. Die zijn afhankelijk van de steekproef, maar ook van onder veel meer de formulering van de vraag en van aantal en aard van antwoordmogelijkheden. Percentages achter de komma zijn daarenboven pseudo-precies, maar zijn vooral ook minder interessant voor de wetenschappelijk doordachte maar journalistieke ambities van EenVandaag.
Daarom richt dergelijk opinieonderzoek zich mede op veranderingen door de tijd en op vergelijkingen tussen groepen. Met als bijkomend voordeel dat in dergelijke panels tegen geringe kosten de ontwikkeling van meningen door de tijd getraceerd kan worden. Bij dergelijke vergelijkingen is er immers een duidelijk ijkpunt. Bovendien zijn trends, verschillen, en verklarende analyses in het algemeen minder gevoelig voor het zelfselectie-effect dan absolute percentages. Juist wanneer opinieonderzoek vergelijkingen mogelijk maakt met eerdere ijkpunten, heeft het een duidelijke meerwaarde.
Goed onderzoek doen is lastig, en onderzoek naar de publieke opinie al helemaal. Maar het gaat niet aan om dan maar kort door de bocht aan te sturen op de kwalificatie nepnieuws. Op het opinieonderzoek van EenVandaag is kritiek mogelijk, maar dergelijk onderzoek, mits zorgvuldig gebracht en geïnterpreteerd, levert wel degelijk een bijdrage aan ons beeld van de publieke opinie in Nederland. Dat is waardevol, niet waardeloos.
Geef een reactie
Je moet ingelogd zijn op om een reactie te plaatsen.