Nu er weer verkiezingen aankomen, zal de discussie over de betrouwbaarheid en validiteit van opiniepeilingen weer oplaaien. Politicologen bekritiseren daarbij vaak peilingen die niet zijn gebaseerd op een willekeurige steekproef, zoals die van Maurice de Hond. Om mee te doen aan zijn peiling, kun je jezelf gewoon aanmelden. Uit zijn panel van tienduizenden deelnemers trekt hij elke week een steekproef. Omdat sommigen (hoger opgeleiden, politiek geïnteresseerden) meer geneigd zijn om zich aan te melden, geven dat soort peilingen volgens politicologen een vertekend beeld. Of toch niet?
Om te corrigeren voor afwijkingen in de steekproeftrekking gebruiken de meeste peilers een vorm van weging, zodat de peiling na het wegen representatief is voor bijvoorbeeld leeftijd, geslacht, regio, opleidingsniveau en stemgedrag bij vorige verkiezingen. Van die kenmerken weten we immers hoe de bevolking verdeeld is. Als er dus maar 45% vrouwen in een steekproef zitten, kun je die in je statistische berekeningen iets zwaarder laten meewegen, zodat de resultaten wat betreft man-vrouwverdeling overeenkomen met de gehele bevolking.
In de laatste tien jaar is een meer geavanceerde vorm van deze procedure ontwikkeld met de technische naam ‘multilevel regression and post-stratification’ (MRP, ook wel ‘Mister P.’). Naast weging maakt deze techniek gebruikt van een statistische analyse om de voorkeuren kiezersgroepen waar maar weinig informatie over is in de peilingen (bijvoorbeeld oudere, laagopgeleide allochtone vrouwen) beter in te kunnen schatten. In een recent paper gebruiken Wang, Rothschild, Goel en Gelman deze techniek om electorale voorspellingen te doen aan de hand van een niet-representatieve peiling.
Ze gebruiken een peiling onder Xbox-gebruikers, die werd gehouden gedurende 45 dagen voor de verkiezingen van 2012. Iedereen kan raden dat Xbox-gebruikers niet echt representatief zijn voor de hele bevolking: met name het aantal oudere vrouwen dat regelmatig achter de spelcomputer kruipt, is bijzonder laag. Als je de niet-gecorrigeerde cijfers van de peiling gebruikt, wordt een grote overwinning van Romney voorspelt. Daar klopt natuurlijk weinig van.
Indien echter gebruik wordt gemaakt van MRP, sluiten de resultaten van de Xbox-peilingen en die van traditionele peilingen redelijk goed op elkaar aan. Het verschil tussen de verkiezingsuitslag (52% voor Obama) en een gemiddelde van traditionele peilingen (iets minder dan 51%) is groter dan het verschil tussen de uitslag en de Xbox-verwachting (52.6%).
Zou dat ook in Nederland werken? De verschillen tussen de peilingen van De Hond (die met zelf-aanmelding werkt) en andere bureaus (zonder zelfaanmelding) suggereren dat beide methodes erin slagen om dezelfde trends vast te leggen, maar dat er wel structurele verschillen zijn tussen peilingen van verschillende bureaus. Zo schat De Politieke Barometer de steun voor de PvdA structureel enkele procenten hoger in dan Peil.nl van De Hond.
Wellicht kunnen deze verschillen worden verkleind indien meer geavanceerde methoden voor weging worden gebruikt, zoals MRP. Daarbij is het wel belangrijk dat we relevante informatie hebben over karakteristieken van de gehele bevolking (zie ook hier, paywall). Die informatie moet iets zeggen over de kans dat iemand meedoet aan een peiling en zijn of haar stemgedrag. Als bijvoorbeeld geslacht niet zoveel uitmaakt voor je stemgedrag, helpt het niet veel om daarvoor te wegen. Maar als politieke interesse een belangrijke factor is waarvoor we niet kunnen corrigeren, blijven we met vertekende resultaten zitten.
Hoe dan ook: het blijft van belang om rekening te houden met de huiseffecten en foutmarges van peilingen.
Kristof Jacobs zegt
Leuk stuk! Vooral dat zinnetje over oudere vrouwen en de Xbox…
Benieuwd of MRP er ook in zal slagen om te voorspellen (ipv post hoc te verklaren). Of werden er wel degelijk voorspellingen gedaan voor de verkiezingen?
Tom Louwerse zegt
Als ik me niet vergis was deze analyse post-hoc, maar ze was alleen gebaseerd op cijfers die ook ten tijde van de campagne al beschikbaar waren. De methode is dus ook te gebruiken als voorspelling.
Kristof Jacobs zegt
Ok, dank voor het antwoord. Ik ben altijd iets afwachtender: zelfs al gebruikt men enkel info die toen beschikbaar was, dan nog blijft er altijd voldoende over om mee te spelen in de modellen om een uitkomst te bekomen die dicht bij de werkelijke uitslag ligt (bv. waar controleer je voor en waar niet?). Dat heb je natuurlijk niet als je niet weet wat de echte uitslag is. Maar goed, het ziet er desalniettemin veelbelovend uit.
Niels Spierings zegt
Zeker interessant en ik ben erg benieuwd naar echte voorspellingen.
Nu lijkt de voorspellingskracht wel erg veel op ‘aftercasts’ ipv ‘forecasts’, in termen van de variabele selectie. Houdt deze weging stand in andere verkiezingen of was dit een goed schot?
Daarnaast is het argument dat de auteurs gebruiken over goedkopere methoden e.d. alleen houdbaar zolang iemand anders wel ruime data heeft voor de cel weging en in hun geval exit polls organiseert.
Tom Louwerse zegt
Het klopt dat het nu een ‘aftercast’ is meer dan een ‘forecast’. Daarbij moet wel worden aangetekend dat ze vooraf slechts naar een beperkt aantal covariaten hebben gevraagd in de Xbox-enquetes (die moesten ze dus vooraf bepalen) en die zijn voor zover ik kan nagaan ook allemaal gebruikt in de analyse. Ze hebben dus niet geshopt in de variabelen. Misschien is er wel wat gespeeld met de modelspecificatie, dat weet ik niet. Wel zijn alle variabelen die ze gebruiken redelijk standaard in dit soort werk, maar de echte test zou inderdaad zijn om de voorspelling vóór de uitslag te maken.
Je tweede punt klopt, al geldt daarbij natuurlijk wel dat je maar één exit poll nodig hebt om met dagelijkse niet-representatieve peilingen het verloop van de kiezersgunst te kunnen meten. Dus zelfs al zou je het representatieve werk zelf moeten doen/betalen, dan nog heeft genoemde methode voordelen.
Peter Lugtig zegt
De statistische truc die hierachter zit is heel aardig, en zou ook (of juist vooral) in Nederland werken, omdat we hier op cel-niveau data hebben van het CBS (itt de VS). Je stelt terecht dat de methode alleen werkt als de covariaten (x) samenhangen met zowel Y (stemgedrag) als R (selectie in je sample).
Tijdens de verkiezingen van de VS van 2008 en 2012 voorspelden sociaal-demografische variabelen (x) zoals gebruikt in het artikel de verkiezingsuitslag sterk. Ik betwijfel of dat ook zo is met andere peilingen. Het gaat juist daarom: op populatieniveau goede covariaten verzamelen. Met de goede covariaten zou je ook kunnen wegen (raking) of matchen en ik vermoed dat de resultaten dan ongeveer hetzelfde zijn. Jammer dat het artikel van Wang daar niet echt op ingaat.
Frank Huysmans zegt
Hetzelfde gevoel bekroop mij ook bij lezing van het paper: interessante benadering, maar doet MRP het beter dan wanneer je ‘gewoon’ had gewogen?
Het zou leuk zijn om dezelfde truc (Xbox-gegevens) te herhalen in Nederland om te zien hoe dicht je bij een voorspelling van de percentages in ons electoraal versnipperde landje kunt komen. Het aantal Xbox-bezitters in de bijbelgordel schat ik overigens niet heel hoog in.