Jubelend kopte NRC eergisteren: “partij weet precies waar kiezer zit met nieuw informatiemodel”. Uitgebreid doet het NRC in twee artikelen uit de doeken dat een statistisch model van Joost Smits en de Politieke Academie zo ontzettend goed zou werken. NRC werkte in 2012 al samen met Smits. Zijn model gaat uit van verkiezingsuitslagen per stembureau, vergelijkt een aantal kiezersprofielen, en modelleert dan waar die kiezers zouden wonen. Politieke partijen zouden dit kunnen gebruiken om hun kiezers te lokaliseren en een gerichte campagne te voeren.
Electorale geografie is niet nieuw; veel kwantitatieve politicologen hebben er wel eens mee gespeeld. Op zijn minst is het leuk tijdverdrijf, soms leidt het tot aardige inzichten.
Maar het artikel in het NRC is al te bar. Online stelt het: ‘Partij weet precies waar kiezer zit’. NRC quote de Politieke Academie (waarmee het ontwikkeld is) die het model niet al te bescheiden omschrijft als ‘de heilige graal’. Kritische kanttekeningen worden in het geheel niet geplaatst. Wel wordt even vermeld dat een berekening op basis van het model ook door u te bestellen is voor 1500 euro.
Ik snap dat zo’n model bedrijfsgeheim is. Dit is dan ook geen kritiek op de maker, maar op het verslag door NRC. Partijen of kiezers/lezers zijn niet gebaat bij deze kritiekloze benadering. Alleen al op basis van wat in het artikel wordt genoemd, valt er ontzettend veel op het model af te dingen.
Wat moet zo’n model kunnen?
Om nuttig te zijn, moet het model in elk geval twee vragen beantwoorden:
(1) Welke kiezers stemmen op welke partij?
(2) Waar wonen deze kiezers?
Als partijen erop gericht zijn hun kiezers naar de stembus te brengen, komt daarbij:
(3a) Laten tot thuisblijven geneigde kiezers zich overtuigen?
Als partijen erop gericht zijn kiezers te overtuigen om van stem te veranderen, komt tot slot de vraag:
(3b) Zijn deze kiezers geneigd van partijvoorkeur te veranderen?
Model verklaart weinig van feitelijk stemgedrag
De eerste vraag is cruciaal: Welke kiezers stemmen op welke partij? Om dat te weten, zou je eigenlijk informatie willen hebben over individuen. Vanwege de privacy is dat uiteraard niet haalbaar, dus baseert Smits zich op de uitkomsten van stembureaus. Dit veroorzaakt twee grote problemen.
Ten eerste kan hij daarbij alleen kijken naar die kenmerken die het CBS beschikbaar stelt: leeftijdsopbouw, inkomensopbouw, opbouw van huishoudens, etnische achtergrond. We weten uit talloos (kiezers-)onderzoek dat dit soort demografische kenmerken niet meer dan 10 tot 20% van het stemgedrag verklaart. Dit model zal dus niet veel beter zijn. Smits stelt dat zijn model voor 80% betrouwbaar is. Wellicht doelt hij hier op de verklaringskracht (let wel van de uitslag op gemeenteniveau, niet van individueel stemgedrag of zelfs stemgedrag van postcodegebieden of stembureaus), wellicht op statistische significantie.
Dijk van een fout: “De VVD denkt vaak dat de PVV een rivaal is. Dat zie ik niet terug.”
Ten tweede is er een enorm risico voor wat wel bekend staat als een ecologische fout. Dat er een verband is tussen twee omgevingskenmerken, betekent niet dat ditzelfde verband ook bestaat voor individuen. Typisch voorbeeld: Indien in oude stadswijken met veel niet-westerse allochtonen relatief vaak op de PVV wordt gestemd, betekent dit niet dat de allochtonen op de PVV stemmen. Of dat de Democraten populairder zijn in rijke Amerikaanse staten dan de Republikeinen, betekent nog niet dat mensen met een hoger inkomen eerder Democratisch stemmen (het verband op individueel niveau loopt zelfs andersom) .
Smits maakt in zijn analyse in elk geval één dijk van een ecologische fout. Zo stelt hij: “De VVD denkt vaak dat de PVV een rivaal is. Dat zie ik niet terug.” Dit is een bizarre conclusie. Uit (opnieuw) velerlei kiezersonderzoeken en opiniepeilingen weten we dat de VVD wel degelijk sterk concurreert met de PVV. De groei van de PVV tussen 2006 en 2010 komt voor het grootste deel van de VVD en daarna het CDA. Met wie zou de PVV dan wel concurreren volgens Smits? Wellicht het CDA. Maar als CDA’ers massaal naar de VVD gaan, en VVD’ers massaal naar de PVV trekken (zoals in 2010), ziet zijn geaggregeerde model dat niet terug.
Schijnprecisie
De tweede vraag: Waar wonen deze kiezers. Smits baseert zich, zoals gezegd, op uitslagen per stembureaus. Die uitslagen verschillen uiteraard per definitie minder dan dat individuele kiezers van elkaar verschillen, en zelfs minder dan dat straten van elkaar zullen verschillen. Toch kijkt Smits naar de kiezersprofielen (leeftijd, inkomen, huishouden, etc.) die verschillen tussen stembureaus verklaren, en koppelt die dan aan de profielen van zescijferige postcodegebieden. De facto zijn dat halve straten.
NRC jubelt over deze precisie. Maar het is schijnprecisie. Beperkte informatie over wijken (per stembureau heb je al gauw een PC5-gebied) wordt uitgesmeerd over halve straten. Het model is dus veel preciezer dan de eigen data veronderstellen. De assumptie is opnieuw dat (gegeven de kiezersprofielen) het stemgedrag gelijk verdeeld is binnen de buurt.
Waar liggen de grootste kansen?
De laatste vragen betreft niet het model zelf, maar de informatie die het biedt voor partijen in de opmaat naar de verkiezingen. Het model helpt niet om te bepalen waar de grootste kansen liggen. Moet het CDA zich bijvoorbeeld richten op die steeds kleinere groep oudere gelovigen die de laatste jaren het vaakst op hen hebben gestemd, of juist op groepen die dat normaal gesproken niet snel doen maar met een juiste boodschap wel aangetrokken kunnen worden, zoals in 2002 en 2006? En welke groepen zullen het meest waarschijnlijk van partijvoorkeur veranderen?
In principe is binnen het model een hoop mogelijk: modelleer veranderende buurten, en modelleer het extra succes of het electorale verval bij opeenvolgende verkiezingen. Dat zou dan in elk geval iets meer zeggen over electorale potentie.
De heilige graal?
Electorale geografie heeft zeker de potentie tot waardevolle inzichten in kiesgedrag, en het model zal vooral nuttig zijn voor partijen en politici die zelf niet doorhebben wie hun kiezers werkelijk zijn en waar zij zitten. Het kan in elk geval een eye opener bieden.
Maar om dit nu de heilige graal te noemen, gaat wel heel ver. Daarvoor zijn de kiezersprofielen veel te grof, verklaart het model te weinig, berust het op onterechte theoretische aannames, en biedt het te veel schijnzekerheid.
Het is op zijn minst merkwaardig dat het NRC daar geenszins op wijst.
Josje zegt
Er is nog een reden waarom de cijfers minder precies zijn dan ze lijken: kiezers mogen sinds een paar jaar in elk stembureau van hun gemeente stemmen en er zijn ook stembureaus op stations bijgekomen. Waar je voorheen dus precies wist waar de kiezers van stembureau X woonden, is dat nu niet meer helemaal zeker. Hoewel het moeilijk voorstelbaar is dat kiezers de halve stad doorfietsen om te gaan stemmen terwijl het ook op de hoek kan, kan dit voor enige ruis zorgen. Maar misschien wordt daar in het model ook rekening mee gehouden?
Bob zegt
@Josje: Dat was ook meteen mijn vraag. Zelfs *als* je aanneemt dat iedereen netjes in zijn of haar eigen stembureau gaat stemmen, hoe bepalen gemeenten welk bureau bij welk adres hoort?
@Tom van der Meer: Heb je hier links/bronnen voor: “We weten uit talloos (kiezers-)onderzoek dat dit soort demografische kenmerken niet meer dan 10 tot 20% van het stemgedrag verklaart”? Zou ik erg benieuwd naar zijn.
Gijs Schumacher zegt
Kiezers stemmen redelijk massaal op treinstations omdat ze daar toch langskomen. Dus dat probleem is niet klein.
Ron zegt
Lopen hier niet een paar zaken door elkaar? Ik ga er vanuit dat Smits primair probeert te achterhalen waar de kiezers van een partij wonen of wellicht potentiele kiezers. (Die gegevens wil hij immers verkopen.) Hij moet ook niet proberen te achterhalen waarom die personen kiezers van een partij zijn, maar hij zou variabelen moeten zien te vinden die ze kunnen lokaliseren. CBS data m.b.t. inkomen, opleiding helpen hier blijkbaar maar weinig, maar zijn er geen andere variabelen denkbaar? Ik denk aan de lifestyle variabelen van De Voogd (rolluiken, bakfietsen). Die verklaren weliswaar niet waarom iemand op een partij stemt, maar kunnen de aanhangers van partijen wellicht wel lokaliseren. (Smits zaait zelf veel verwarring door ook andere vragen te willen beantwoorden als het verband tussen PVV en VVD kiezers.) Zou het niet mogelijk zijn m.b.v. variabelen die voorhanden zijn bij allerlei instituten partijen wel te kunnen wijzen op die straten waar (potentiele) kiezers. Natuurlijk we weten dan niet of dat op individueel niveau zo is, maar de kans is wellicht een stuk toegenomen.