Er zijn zo van die peilfiasco’s die zich in het collectieve bewustzijn nestelen.
In 1936 voorspelde het tijdschrift Literary Digest aan de hand van een slordige 2,3 miljoen ingevulde vragenlijsten dat Alf Landon met groot gemak de zittende president Franklin Roosevelt zou verslaan. Roosevelt won de verkiezingen uiteindelijk met één van de grootste marges ooit.
In 1948 voorspelden vooraanstaande peilers als Gallup en Roper dat Harry Truman zou verliezen van zijn Republikeine uitdager Thomas Dewey. De krant Chicago Tribune was zo zeker van Trumans nederlaag, dat het, nog voordat alle stemmen geteld waren, de ochtendkrant naar de drukker stuurde. Het leverde een prachtige foto op van een triomferende Truman met de desbetreffende voorpagina.
[mantra-pullquote align=”right” textalign=”left|center|right” width=”33%”]“Bijna een week later verkeert de Britse peilindustrie nog altijd in een staat van shock.”[/mantra-pullquote]
In 1992 voorspelden vrijwel alle Britse peilers een nek-aan-nekrace tussen Labour en de Conservatives. Bovendien was de verwachting dat geen van de partijen een absolute zetelmeerderheid in het lagerhuis zou behalen. De Tories wonnen uiteindelijk met ruime voorsprong; voor Labour betekende het na 1979, 1983 en 1987 de vierde verkiezingsnederlaag op rij.
En nu is daar dus 7 mei 2015. Bijna een week later verkeert de Britse peilindustrie nog altijd in een staat van shock. Wat er precies is misgegaan zal de komende tijd moeten blijken. Een onafhankelijke commissie gaat de Britse peilingen tegen het licht houden en peilbureau’s zullen vast ook de nodige zelfevaluaties verrichten.
Vooralsnog ben ik de drie volgende verklaringen tegengekomen:
- Kiezers switchen op het laatste moment nog massaal naar de Conservatieven.
- De gebruikte steekproeven waren niet representatief voor het Britse electoraat.
- Kiezers liegen in enquêtes over hun stemgedrag.
Foutmarge?
Ik zal zo elk van die verklaringen nalopen, maar zaten die peilingen er wel zo ver naast? Verschillende peilers hebben het boetekleed aangetrokken en zelfs hun excuses aangeboden, maar ze kregen deze week ineens steun uit onverwachte hoek. Politicologen Paul Whiteley en Harold Clarke schreven dat de stemaandelen niet afweken van de uitslag als we de onzekerheidsmarges zouden meenemen. Een slotpeiling met een voorspelling van bijvoorbeeld 33% voor Labour zou inhouden dat Labour bij de verkiezingen hoogstwaarschijnlijk tussen de 30% en 36% van de stemmen zou halen. Zo bezien hadden volgens Whitely en Clarke de meeste peilingen in ieder geval goede voorspellingen gedaan voor de meeste partijen.
Deze verdediging van de peilers slaat de plank behoorlijk mis. Als het hier ging om inherente onzekerheid van schattingen zouden sommige peilers Labour overschatten, anderen onderschatten (idem voor de overige partijen). Maar wanneer alle peilers een partij overschatten of onderschatten, zijn er geen toevallige, maar systematische fouten gemaakt.
Late swing?
Maar misschien klopten de peilingen wel op de slotavond van de campagne, maar hebben kiezers op de verkiezingsdag alsnog hun stem veranderd. Dat lijkt de verdediging van peilbureau Survation. te zijn geweest. Zij postten afgelopen week de volgende tabel op Twitter, waaruit deze ‘late swing’ zou moeten blijken:
Was there a “late swing” to CON from other parties in #GE2015 – here’s our evidence FOR a late swing using all data: pic.twitter.com/v5uKSpM7Fr
— Survation. (@Survation) May 12, 2015
Voor zover ik kan overzien zijn de bovenstaande resultaten op één steekproef gebaseerd die vervolgens is opgesplitst naar het dag waarop het interview plaatsvond. Het zijn geen drie verschillende steekproeven op 4, 5 en 6 mei. We moeten dus maar aannemen dat die verschillende subgroepen equivalent zijn aan elkaar (want anders zou vergelijking over de tijd niet zinvol zijn). Bovendien vindt peilbureau ICM met een soortgelijke aanpak geen aanwijzingen voor een late swing (zie tabel 2).
Peilbureau YouGov voerde wél een nieuwe peiling uit op de verkiezingsdag zelf en die leverde identieke schattingen op als hun slotpeilingen: een nek-aan-nekrace met 34% voor Labour en de Tories. Ongeveer 5% van de ondervraagden was van stem veranderd op het laatste moment, maar dit was gelijkmatig verdeeld over de verschillende partijen. Het bewijs voor de late swing overtuigt dus niet.
Slechte steekproeven?
Was het dan een kwestie van vertekende steekproeven? Peilbureau’s maken gebruik van allerlei weegfactoren om hun steekproef representatief te maken voor de doelpopulatie. Maar dan moet je wel weten wat de samenstelling van die populatie is qua geslacht, opleiding, regio, beroep, inkomen, en ga zo maar door. Alleen als je actuele gegevens daarover hebt, kun je je schattingen corrigeren door bijvoorbeeld de antwoorden van lager opgeleide respondenten meer gewicht te geven. Bovendien moeten respondenten uit die ondervertegenwoordigde groepen wel representatief zijn voor degenen uit diezelfde groepen die weigerden deel te nemen aan enquête-onderzoek.
Volgens Martin Boon van peilbureau ICM was de demografische weging van de ruwe data de grootste stoorzender. Voordat andere factoren waren verdisconteerd (opkomst, vorige stem, weigering) voorspelde ICM een voorsprong 6% voor Labour. Let wel, de ongewogen ruwe data wees op een 35%-35% uitslag, dus de demografische weging maakte de voorspelling juist slechter. De tijd zal uitwijzen of dit probleem ook voor de overige Britse peilers geldt. Maar Boon eindigt zijn betoog met de sombere constatering dat het inmiddels schier onmogelijk is geworden om in de huidige situatie een kwalitatief hoogstaande steekproef te trekken onder het Britse electoraat…
Niets menselijks is de respondent vreemd
Niemand kan respondenten dwingen een eerlijk antwoord te geven op de vragen van een enquêteur. Respondenten liegen, vergeten en verdraaien er op los. Soms hebben respondenten gewoon geen zin of tijd om een vragenlijst volledig in te vullen, soms weigeren ze simpelweg antwoord te geven op bepaalde vragen. Velen meenden dat de verklaring voor de slechte peilingen in deze hoek gezocht moest worden.
[mantra-pullquote align=”right” textalign=”left|center|right” width=”33%”]“Zolang peilers geen grip kunnen krijgen op wie wel en niet gaat stemmen, kunnen ze zich maar beter niet aan een voorspelling van de verkiezingsuitslag wagen.”[/mantra-pullquote]
In 1992 was gebleken dat Tory-stemmers eerder weigerden hun stemintenties prijs te geven tegenover peilers, waardoor de Tory-stem structureel werd onderschat. Het fenomeen van de Shy Tories was geboren. Maar waarom zouden mensen niet willen uitkomen voor hun stem bij een anonieme online-enquête? Dat mensen tegenover een interviewer eerder sociaal wenselijke antwoorden geven is algemeen bekend, maar waarom zouden online polls hieronder moeten lijden? Telefonisch afgenomen enquêtes deden het namelijk even slecht als online enquêtes. En een exit poll biedt ook geen garantie dat mensen eerlijk voor hun stem uitkomen, terwijl die exit poll de uitslag vrijwel perfect had voorspeld.
Volgens mij, maar dit is vooralsnog speculatie, komt het voorspellen van verkiezingsuitslagen voor een groot deel neer op het voorspellen van de opkomst. Je kunt aan kiezers vragen of ze gaan stemmen, maar dat levert een totaal vertekend beeld op. Gerapporteerde opkomst in enquêtes ligt 10%-20% hoger dan de daadwerkelijke opkomst, deels omdat respondenten sociaal wenselijke antwoorden geven, deels omdat stemmers oververtegenwoordigd zijn in enquêtes.
Het ondervragen van daadwerkelijke kiezers is dan ook wat een echte exit poll onderscheidt van peilingen. Je kunt bij een exit poll weliswaar niet controleren of mensen liegen over hun uitgebrachte stem, maar omdat medewerkers van een exit poll bij stembureau’s mensen opwachten, weet je wel zeker dat het gaat om daadwerkelijke kiezers. Zolang peilers geen grip kunnen krijgen op wie wel en niet gaat stemmen, kunnen ze zich maar beter niet wagen aan een voorspelling van de verkiezingsuitslag.
Jelke Bethlehem zegt
Wat mij opviel bij al die peilingen is dat er nergens non-respons percentages worden vermeld. In veel landen neemt de non-respons toe. Wat nu als dat ook in GB is gebeurd en die non-respons de veroorzaker van de vertekening is?
Jelke Bethlehem zegt
Het lijkt me dat we onvoldoende gegevens hebben om te kunnen vaststellen of er wel of niet sprake was van een ‘late swing’.
Zou die ‘late swing’ niet veroorzaakt kunnen zijn door de nek-aan-nek race van LAB en CON. Hebben kiezer misschien daardoor op het laatste moment voor CON. Om te voorkomen dat LAB + SNP de macht zouden grijpen?
Was het ook niet Maurice de Hond die zijn slechte peiling voor de Tweede Kamerverkiezingen verklaarde door een plotselinge omslag van de kiezers en strategisch te gaan stemmen?
Jelke Bethlehem zegt
De effectiviteit van de weging staat of valt met de beschikbaarheid van geschikte weegvariabelen. Die weegvariabelen moeten sterk gecorreleerd zijn met responsgedrag en met stemgedrag. Is dit niet het geval, dan helpt wegen, of kan het zelfs verslechteren. Bijvoorbeeld omdat GB geen bevolkingsregister heeft en gebruik moet maken van oude censusdata, heb ik grote twijfel over het effect van die wegingen.
Jelke Bethlehem zegt
Volgens de auteur is het voorspellen van de opkomst het grootste probleem. Maar waarom zou dit dan nu ineens een probleem zijn? Aan alle deelnemers van de peilingen is gevraagd hoe groot de kans is dat ze gaan stemmen. Het lijkt me simpel om uit te zoeken of er verband is tussen stemkans en stemgedrag.
Jelke Bethlehem zegt
Ik zou wel meer over de steekproeven voor de telefonische peilingen willen weten. Zijn ze aselect getrokken uit het telefoonboek? Of is er een vorm van Random Digit Dialing (RDD) toegepast? Zijn er ook mobile nummers getrokken? Hoe dan? En hoe hoog was de respons eigenlijk. Ik hoor verhalen uit de US dat de respons daar onder de 20% is gezakt. En wat wordt er gedaan met al die mensen in het bel-me-niet register?