Met de gemeenteraadsverkiezingen voor de deur, en nog twee maanden te gaan tot de Europese verkiezingen, draait de peilingencarrousel weer op volle toeren. Mits correct uitgevoerd en geïnterpreteerd – twee grote ‘mitsen’ – vormen opiniepeilingen een fantastisch instrument met onschatbare waarde voor ons begrip van electorale processen. Peilingen bieden namelijk de mogelijkheid om politieke voorkeuren van miljoenen kiezers in kaart brengen door slechts een paar duizend van hen te ondervragen.
Toch liggen peilingen geregeld onder vuur. Ondanks steeds weer hoog opgeklopte verwachtingen, zitten peilingen er geregeld naast.[1] Daarnaast hebben peilingen mogelijk invloed op de verkiezingsuitslag, dus gaan er zelfs stemmen op voor een algeheel peilverbod in aanloop naar verkiezingen. SP-leider Emile Roemer speelde met dit idee in de voor hem zo dramatisch verlopen campagne voor de Tweede Kamerverkiezingen van 2012.
Deze dubieuze reputatie is voornamelijk het resultaat van misbruik van peilingen door journalisten, politici en kiezers. Peilingen zijn helemaal niet ontworpen om elk miniscuul verschil tussen partijen of hier en daar een procentje winst of verlies te meten, maar om trends op de lange termijn en grove krachtsverhoudingen in kaart te brengen. Dit vereist een zelfbeheersing die slechts weinigen in de politiek en media in verkiezingstijd kunnen opbrengen.
Het ontstaan van peilingen
Het peilen van publieke opinie is van alle tijden. Zo zou George Washington, de eerste president van de Verenigde Staten, te paard door het land hebben gereisd om de stemming van het volk over de regering te peilen.
Volgens opinieonderzoeker Tom Smith werden tijdens de Amerikaanse presidentsverkiezingen van 1824 voor het eerst op vrij systematische wijze de politieke voorkeuren van het electoraat in kaart gebracht. Vooral regionale militaire bijeenkomsten waren populaire peillocaties omdat de toenmalige Amerikaanse kiezer – blank, man, 18 tot 45 jaar oud – graag kwam opdagen bij deze zogenaamde musters. Hiermee was ook de mediaberichtgeving over peilingen een feit. Zo schreef de Carolina Observer op 5 augustus 1824: “At a company muster held at Maj. Wm. Watfard’s. Bertie County, on the 17th July, in the afternoon it was proposed to take the sentiments of the company on the Presidential question, when the vote stood as follows: Jackson 102, Crawford 30, Adams 1, Clay 0.”
Natuurlijk valt op zulke resultaten een hoop af te dingen, bijvoorbeeld in termen van de grootte en representativiteit van de onderzochte groep. Zouden we bijvoorbeeld hetzelfde resultaat krijgen als we bij andere, vergelijkbare bijeenkomsten de voorkeuren hadden gepeild? Met andere woorden, is het resultaat betrouwbaar? En ligt deze schatting enigszins in de buurt van de stemvoorkeuren onder het Amerikaanse electoraat? Oftewel, zijn de resultaten valide?
Ieder meetinstrument, of dit nou een opiniepeiling, citotoets of IQ-test is, kan beoordeeld worden op basis van deze twee kwaliteitscriteria: betrouwbaarheid en validiteit. Maar mocht u denken dat bijna 200 jaar later dergelijke pseudopeilingen onder een kleine, niet-representatieve groep niet meer worden gehouden – en als die al worden gehouden toch zeker geen aandacht krijgen – lees dan dit bericht van ThePostOnline.
Het keerpunt
De Amerikaanse presidentsverkiezingen van 1936 vormden een keerpunt in de geschiedenis van het opiniepeilen. Het tijdschrift Literary Digest had in die tijd een grote reputatie op het gebied van politieke peilingen opgebouwd door sinds 1920 de winnaar te voorspellen. In 1936 stuurden zij een groter aantal vragenlijsten uit dan ooit tevoren: zo’n 10 miljoen exemplaren, waarvan er uiteindelijk meer dan 2,3 miljoen werden ingevuld en teruggestuurd.
Het gigantische steekproefkader was voornamelijk samengesteld op basis van voertuigregistratie en telefoonboeken – in een tijd dat nog lang niet iedereen over een voertuig of telefoon beschikte. Literary Digest rapporteerde trots dat zij in sommige steden wel de helft van de geregistreerde kiezers hadden ondervraagd. Ze waren dan ook overtuigd van hun voorspelling dat de Republikein Alf Landon de zittende president Franklin Roosevelt met grote cijfers zou verslaan (55% tegen 41%). Roosevelt won de verkiezingen uiteindelijk met 61% tegen 37%. Deze afgang van jewelste zou een belangrijke rol hebben gespeeld in de uiteindelijke ondergang van Literary Digest in 1938.
Verregaande uitspraken over kiezers op basis van een vertekende steekproef van die kiezers zijn dus riskant; we zagen het in 1824, 1936 en – mede door de opkomst van internetpeilingen – ook nog veelvuldig in 2014.
Tijdens dezelfde verkiezingen van 1936 voerden anderen, waaronder George Gallup, peilingen uit die gebaseerd waren op kansrekening en statistiek. Deze peilpioniers lieten zien dat het mogelijk was om op basis van een steekproef van een paar duizend respondenten de voorkeuren van een electoraat van tientallen miljoenen nauwkeurig in kaart te brengen. Hoe is dit mogelijk?
Waarom peilen?
Het doel van iedere peiling is om iets te weten te komen over een doelpopulatie, bijvoorbeeld alle Nederlandse kiezers. We kunnen onmogelijk steeds alle kiezers ondervragen via een volkstelling. Daarom trekken we een steekproef uit de kiesgerechtigde bevolking, onderwerpen deze steekproef aan een paar politieke vragen, en generaliseren vervolgens naar diezelfde kiesgerechtigde bevolking. We willen uiteindelijk uitspraken doen over de populatie, niet over de steekproef.
Het moge duidelijk zijn dat iedere conclusie over de bevolking staat of valt met de kwaliteit van de steekproef. Literary Digest overschatte steun voor de Republikeinen door, nota bene in 1936, alleen mensen met een telefoonaansluiting of auto te ondervragen. Nogal logisch dat hogere inkomens oververtegenwoordigd waren in de steekproef met tot gevolg een vertekening ten gunste van de Republikeinen. De validiteit van de meting was zwak.
Aan u is nog nooit iets gevraagd?
Bezitters van een auto en telefoon hadden een veel grotere kans om deel te nemen aan het onderzoek van Literary Digest dan anderen. Om vertekening te voorkomen moet je er dus voor zorgen dat iedereen even veel kans heeft om deel te nemen aan de peiling.[2] Dat kan bijvoorbeeld door een steekproef op basis van kans te trekken uit een lijst van alle kiesgerechtigden. Het mooie is dat zo’n steekproef niet eens zo groot hoeft te zijn: 1000 tot 2000 ondervraagden is genoeg.
Met een kleine steekproef kun je dus veel te weten komen over de mening van de hele populatie. Er is wel een beperking aan de nauwkeurigheid van de peilingresultaten.
Dat kunnen we laten zien aan de hand van een eenvoudig voorbeeld. Stel dat we weten dat 20% van alle Nederlanders een voorkeur heeft voor de VVD. Als we nu willekeurig 1000 ondervraagden selecteren en het percentage VVD’ers uitrekenen, komt dat waarschijnlijk ergens in de buurt van de 20% uit. Misschien is het toevallig net wat lager of net wat hoger. Als we deze simulatie 100 keer herhalen, krijg je iets wat lijkt op onderstaande grafiek. Alle steekproeven liggen rond de 20%, maar in sommige steekproeven is de VVD-score net iets lager, in andere iets hoger.
En nu werkt de wiskunde haar magie. Het blijkt namelijk zo te zijn dat 95 van de 100 steekproeven binnen een bepaalde marge van het echte percentage VVD-stemmers vallen.[3] In het bovenstaande voorbeeld vallen 95 van de 100 steekproeven binnen een marge van ±2,5% van het echte VVD-percentage. Dit is de welbekende ‘foutmarge’ die elk zichzelf respecterend peilbureau uitrekent voor de eigen metingen en rapporteert bij de resultaten.
Dit is een buitengewoon krachtig resultaat. We kunnen behoorlijk nauwkeurig vaststellen wat het percentage VVD-stemmers onder de gehele kiesgerechtigde bevolking zou zijn, zelfs al ondervragen we maar 1000 personen. Hoe groter zo’n op basis van toeval getrokken steekproef, hoe kleiner de foutmarge.
De foutmarges in zetelpeilingen zijn voor grote partijen al snel 3 of 4 zetels. Krijgt de VVD dus 30 zetels in een peiling, dan kunnen dat er in werkelijkheid misschien ook wel 26 of 34 zijn. Wint een partij dus een zetel in vergelijking met vorige week, dan kan dat goed komen doordat er toevallig wat minder kiezers van die partij in de steekproef zaten. Daarom is het zo belangrijk om rekening te houden met die foutmarges.
Peilers die weigeren om foutmarges te rapporteren of deze om wat voor reden dan ook niet kunnen uitrekenen verdienen geen media-aandacht.[4] Zelfs de meest uitstekende peiling zal op zijn best een grove indicatie geven van maatschappelijke verhoudingen. Wie zonder onzekerheid steun voor partijen onder het electoraat wil meten moet een volkstelling houden, geen peiling.
Weerbarstige praktijk
Zoals altijd is de theorie eleganter dan de praktijk. Steeds meer mensen weigeren mee te doen met opinieonderzoek. Dit vormt een enorm probleem voor onderzoekers omdat de deelnemers aan enquêteonderzoek doorgaans verschillen van de niet-deelnemers, waardoor we alsnog met een niet-representatieve steekproef achterblijven. De grote Amerikaanse peilers, zoals Gallup en Rasmussen, maken nog veelvuldig gebruik van telefonisch enquêteren en hebben vaak te maken met een nonrespons van tegen de 90%. Dat betekent dat slechts 10% van de kiezers die zijn uitgenodigd om deel te nemen aan het onderzoek, dat ook daadwerkelijk doen.[5]
Omdat het trekken van een toevallige steekproef tijdrovend en kostbaar is – los van het feit dat volledige lijsten met alle kiesgerechtigden uit bevolkingsregisters vaak niet openbaar zijn – werken steeds meer commerciële en academische onderzoekers met een internetpanel, waar mensen zich zelf voor aanmelden.[6] Joop van Holsteyn, hoogleraar Kiezersonderzoek in Leiden, noemde deze respondenten in 2009 snerend “vaste leveranciers van meningen”. Door de zelfaanmelding zijn deze panels geen dwarsdoorsnede van het electoraat en daarom moet gecorrigeerd worden voor het feit dat sommige groepen over- of ondervertegenwoordigd zijn.[7]
Wetenschappers zijn nog volop bezig met het ontwikkelen van technieken om de vertekening uit zulke steekproeven tegen te gaan. Zo blijkt het zelf mogelijk te zijn om aan de hand van Xbox-gebruikers een verkiezingsuitslag te voorspellen.
Dit zou natuurlijk een gouden greep zijn.
Websites als het Kieskompas of de Stembreker van jongerenbeweging G500 harken in korte tijd grote hoeveelheden data bij elkaar en kunnen waardevolle informatie over stemgedrag bevatten, maar zonder correctie gelden die resultaten niet voor het hele electoraat. Let wel, de grootte van een steekproef biedt geen waarborg tegen vertekeningen, hooguit tegen onnauwkeurigheid. Dat is een les die sinds het debacle van Literary Digest op ons netvlies gebrand staat.
Peilingen in de media
Peilresultaten zijn dus, net als iedere andere meting, onderhevig aan toevallige fouten (de foutmarge) en systematische fouten (vertekening). En laat veel journalisten nou net voor deze twee essentiële factoren een blinde vlek hebben met luie en misleidende scorebordjournalistiek tot gevolg.
Het negeren van foutmarges leidt ertoe dat ieder verschil in de peilingen wordt uitvergroot, terwijl ze waarschijnlijk helemaal niet bestaan. Het is best mogelijk dat steun voor de VVD onder het electoraat stabiel blijft, maar dat in een opeenvolgende (toevallig samengestelde) steekproef net een of twee kiezers zitten met een hoger inkomen. Dan lijkt het net alsof de VVD is gegroeid. Net zo kunnen PvdA en CDA even groot zijn onder het electoraat, maar in een getrokken steekproef zitten relatief veel respondenten uit de provincie waardoor het CDA groter lijkt dat de PvdA. Hier is nou de foutmarge voor ontwikkeld.
Toen TNS Nipo in de eigen slotpeiling voor de Tweede Kamerverkiezingen van 12 september 2012 sprak van een ‘nek-aan-nekrace’ tussen VVD en PvdA en het verschil van één zetel tussen deze partijen in de eigen peiling ‘too close to call’ noemde, schreef het NRC die avond dat TNS Nipo een winst voor de VVD voorspelde.
Het negeren van systematische fouten leidt eveneens tot misleidende berichtgeving. De vier grote peilbureaus in Nederland[8] hanteren elk een andere methode – in de steekproeftrekking, weging en vraagstelling om een paar verschillen te noemen. Daardoor verschillen de schattingen net iets van elkaar. Sommige partijen scoren structureel beter bij sommige peilers dan bij andere. Vergeleken met de overige drie peilers schat Maurice de Hond steun voor de PVV een paar zetels hoger in. De VVD daarentegen scoort hoger in de Politieke Barometer dan bij de andere peilers.[9]
Het maakt nogal uit voor de nieuwswaarde van een peiling door wie de peiling is uitgevoerd. Zo kopten talloze nieuwssites op zondag 17 februari jl. op basis van de laatste peiling van De Hond dat de PVV even groot zou zijn als de PvdA en VVD samen. Dit bijzondere nieuws valt niet los te zien van de stelselmatige overschatting van de PVV en de stelselmatige onderschatting van de coalitiepartijen bij De Hond vergeleken met de overige peilers. Bij geen van de overige peilbureaus (noch bij de gecombineerde schatting van de Peilingwijzer) komt de PVV ook maar in de buurt van de gezamenlijke grootte van de coalitiepartijen. Dit weerhield RTL Nieuws er niet van om dit toch als nieuwsfeit in de uitzending van die zondagavond te presenteren (zie hier rond 3:00).
Scorebordjournalistiek zonder doelpunten
Deze foutieve berichtgeving is verontrustend op zichzelf. Zoals de New York Times schrijft in haar advies aan de eigen journalisten: “Reporting on polls is no different from reporting on any other information we give readers […] If we get it wrong, we’ve not only misled our readers, but also damaged our credibility.”
Maar peilingen hebben bovendien invloed in verkiezingstijd – op politieke partijen (die hun campagne aanpassen door peilingen), op media (die inhoudelijk inspelen op de peilingen en campagnedebatten mede organiseren op basis van peilingen), en op kiezers (die soms strategisch stemmen of zich anderszins laten leiden door de peilingen). Op zich is die invloed van peilingen geen bezwaar. Althans, als de informatie over de peilingen klopt. En juist dat is vaak de makke.
Zo weten we dat kiezers eerder geneigd zijn te stemmen op een partij als deze het goed doet in de peilingen, het zogeheten bandwagon-effect. Dat is op zich even legitiem als stemmen uit traditie, uit sympathie met de partijleider of uit inhoudelijke overwegingen. Maar het is ronduit kwalijk wanneer dergelijk bandwagon-gedrag leunt op onjuiste informatie over winst, verlies en verschillen tussen partijen. Journalisten creëren zo deels de trends die ze menen te rapporteren en degraderen peilingen tot een self-fulfilling prophecy.
Dat is scorebordjournalistiek zonder dat er zelfs maar gescoord wordt.
De vraag is: is dit onwil of onkunde van het journaille? Het kan het laatste bijna niet zijn. Hoewel de omgang met peilingen in onze media wijst op wijdverbreid statistisch analfabetisme, zijn journalisten en redacteuren van alle grote media al ruimschoots gewezen op de problemen via talloze interviews en opiniestukken en een enkel symposium. Bovendien hoef je echt geen raketgeleerde te zijn om het grote nut en de serieuze beperkingen peilingen te snappen.
Peilingen, palingen?
Zijn peilingen ongrijpbaar en glibberig zoals de vaak gehoorde kreet ‘peilingen, palingen’ doet vermoeden? Nee. Niet zolang peilingen worden gebruikt voor het in kaart brengen van trends op de lange termijn en als grove indicatie voor onderliggende politieke krachtsverhoudingen. Helaas worden ze te vaak ingezet voor datgene waar ze juist niet goed in zijn.[10]
De onderstaande figuur vat de sterke en zwakke punten van peilingen goed samen. We zien steun voor de PVV (in procenten) zoals gemeten door de vier grote bureaus. Zo schat Maurice de Hond deze steun stelselmatig hoger dan zijn collega’s (voor andere partijen wijken andere peilers weer af van het gemiddelde). Daarnaast verschillen schommelingen van peiling tot peiling nogal van elkaar op de korte termijn. Toch valt ook direct op dat de trends op de lange termijn parallel lopen met min of min dezelfde pieken en dalen.
Noot: P = peil.nl, S = De Stemming, N = TNS Nipo, B = Politieke Barometer
We moeten af van het zwart-wit denken over peilingen. Het alternatief voor de belachelijke overinterpretatie van peilingen is niet om ze te negeren of zelfs te verbieden, maar om ze correct in te zetten. Met oog voor de inherente onzekerheid en mogelijke vertekeningen bieden peilingen waardevolle inzichten in de publieke opinie. Helaas vereist dat een terughoudendheid van peilers, media en persbureaus waar velen al jarenlang geen blijk van geven.
[1] Zo presenteerde RTL4 op de avond van de Tweede-Kamerverkiezingen in 2006 de resultaten op basis van een exit-poll van TNS Nipo. “Het kan hooguit hier of daar een zetel schelen,” werd er nog bij verteld. De rest van de avond bleef RTL corrigeren: maar liefst acht zetels waren verkeerd toebedeeld. Hoewel Nederlandse peilers doorgaans terughoudend zijn met voorspellingen, zijn er de laatste weken ook weer voorspellingen gedaan over de opkomstverwachting en krachtsverhoudingen. In hoeverre je peilers tot de verantwoording mag en kunt roepen op basis van verkiezingsuitslagen blijft een heet hangijzer tussen politicologen en peilers.
[2] Op zijn minst moet bekend zijn wat ieders kans is om in de steekproef terecht te komen. Als je bijvoorbeeld weet dat mannen twee keer zo vaak in je steekproef komen, kun je daarvoor corrigeren.
[3] Volgens de Centrale Limietstelling, één van de belangrijkste wetten uit de statistiek, zullen de steekproefresultaten normaal verdeeld zijn, waardoor 95% van de steekproeven binnen ±1,96 standaardfouten van de populatiewaarde vallen. De standaardfout is de standaardafwijking van de verdeling van alle steekproefresultaten en vormt een maat voor de afstand van elke steekproef tot het populatiekenmerk dat we willen schatten.
[4] De New York Times ontraadt de eigen journalisten om gebruik te maken van peilingen als de foutmarge onbekend of niet vrijgegeven is door de peiler. Zie hier.
[5] De respons kan aanzienlijk hoger ligger bij een andere peilmethode dan een telefonische, maar het gevaar van een niet-representatieve steekproef ligt ook daar op de loer.
[6] Maurice de Hond en EenVandaag werken in Nederland met een dergelijk opiniepanel.
[7] Peilers maken gebruik van verschillende correcties zoals de zogenaamde wegingsfactoren om hun steekproeven op te poetsen. De belangrijkste correctie is veelal het eerdere stemgedrag. Maar zelfs als door die correcties de systematische vertekening wordt geminimaliseerd, blijken ze de foutmarges nauwelijks te verkleinen.
[8] De Politieke Barometer (Ipsos), De Stemming (EenVandaag), Peil.nl (Maurice de Hond) en TNS Nipo.
[9] Deze ‘huiseffecten’ zijn terug te vinden in de Peilingwijzer die de resultaten van de vier grote peilers combineert tot één schatting van partijvoorkeuren.
[10] De checklist voor peilingen ontwikkeld door het Centraal Bureau voor de Statistiek, het Nederlands Platform voor Survey-Onderzoek en de Vereniging van Onderzoeksjournalisten, kan helpen om de kwaliteit van een peiling te controleren.
Uitstekend stuk. Kleine correctie in passage over het bandwagoneffect: ,,als deze het g o e d doet
in de peilingen”.
Dank, heb het veranderd.
Heb je overwogen om naar de Raad voor de Journalistiek oid te stappen over de foute berichtgeving? Wellicht kan er een richtlijn komen voor het berichten over peilingen.
Ik dacht eerder aan het Internationale Strafhof 😉 Het probleem is volgens mij niet het gebrek aan richtlijnen (we noemen er een paar), maar het handhaven hiervan. Wat zou de Raad voor de Journalistiek kunnen doen?
‘En nu werkt de wiskunde haar magie’, onder de tabel van steekproeven, is wel een mooi anglicisme 😉
Je hebt peilingen en foutmarges, en je hebt peilingen en structurele onvolkomenheden – zoals de kennelijke oververtegenwoordiging van PVV-sympathisanten in het adressenbestand van Maurice de Hond.
Onbesproken in dit artikel, of in elk geval amper besproken, zijn regelrechte stelfouten en stommiteiten in de letterlijke tekst van een onderzoek.
Ik heb daar afgelopen weekeinde een sterk staaltje van meegemaakt. Als ‘lid’ van De Honds panel was ik weer eens aan de beurt, en ik kreeg de vraag voorgelegd: ‘Gaat u stemmen op 19 maart?’ Naar waarheid kon ik slechts antwoorden met een ronduit Nee. Ik woon namelijk in Alphen aan den Rijn. Alphenaren hebben op 13 november 2013 reeds gestemd wegens de fusie van hun gemeente met Boskoop en Rijnwoude. Verderop in het onderzoek bleek dat ik nergens gelegenheid kreeg om mijn Nee toe te lichten. Het gevolg is dat, mede o.b.v. mijn antwoord, De Hond een verwacht opkomstopercentage voor a.s. woensdag heeft berekend. Ik ben meegeteld met al die ‘slechte’, ‘ongeïnteresseerde’, ‘gefrustreerde’, ‘onnozele’, ‘ontwetende’, ‘domme’, ‘vergeetachtige’, enz. burgers die op 19 maart niet gaan stemmen…
Om te kunnen bepalen of deze omissie van De Hond echt van betekenis is, moeten we dus weten hoeveel inwoners van gemeenten waarin domweg niet gestemd kán worden, door De Hond zijn ondervraagd.
Ik heb hieraan een aantal tweets @mauricedehond gewijd, omdat ik dit graag te weten wilde komen. De Hond gaf echter geen sjoege. (De ervaring leert dat De Hond c.s. telefonisch, per email of via de website bereiken, en dan ook feedback krijgen, ook bijzonder lastig, zo niet onmogelijk is).
Ik ben hier nog steeds een beetje nijdig over.
Peilers moeten helemaal zelf weten hoe ze peilen en hoe terughoudend ze zijn. Laat de auteur zelf maar een hypercorrecte peiling opzetten als hij daar zo’n behoefte aan heeft.
Het probleem is nu juist dat een hypercorrecte peiling onmogelijk is. En dat peilers en media dat donders goed weten. Maar dat ze toch liever conclusies trekken die op basis van diezelfde peilingen niet te trekken zijn.
Peilers moeten helemaal zelf weten hoe ze peilen en hoe terughoudend ze zijn. Laat de auteur zelf maar een hypercorrecte peiling opzetten als hij daar zo’n behoefte aan heeft.
Het probleem is nu juist dat een hypercorrecte peiling onmogelijk is. En dat peilers en media dat donders goed weten. Maar dat ze toch liever conclusies trekken die op basis van diezelfde peilingen niet te trekken zijn.