Op 11 november 2014 voerde onderzoeksbureau Motivaction een peiling uit onder Turkse en Marokkaans Nederlanders tussen de 18 en 35 jaar. Het onderzoek werd gedaan in opdracht van het multiculturele instituut Forum. Uit de peiling bleek dat verreweg de meeste jonge Turkse Nederlanders Syrië-gangers zien als helden. 90% procent van de jonge Turkse Nederlanders vindt Syrië-gangers helden en 72% staat achter de opmars van IS.
De politiek reageerde geschokt op deze uitkomsten. Minister Asscher van Sociale Zaken noemde de uitkomsten ‘zeer verontrustend’.
Quota-steekproef
Als de uitkomsten van een peiling zo de aandacht trekken is het altijd goed om eerst even te kijken naar de manier waarop die peiling is uitgevoerd. Gelukkig is er een rapport waarin dit redelijk goed staat beschreven. Het blijkt dat Motivaction voor de peiling geen nette aselecte steekproef heeft geloot uit de populatie van alle Moslimjongeren, maar gebruik heeft gemaakt van een quota-steekproef. In het rapport wordt dit als volgt omschreven:
Voor het face-to-face-veldwerk is met quotalijsten gewerkt. Voor het face-to-face-veldwerk zijn verschillende wervingsmethodes ingezet: bij moskeeën, bij supermarkten, in winkelstraten, bij theehuizen, bij onderwijsinstellingen, bij sportverenigingen, bij buurthuizen en bij de respondenten thuis. Alle interviews hebben op een rustige plek plaatsgevonden, waarbij respondenten niet door anderen konden worden beïnvloed. Daar waar nodig, is het interview in het Turks, het Marokkaans-Arabisch of het Berbers uitgevoerd.
Bij quota-steekproeven wordt dus niet geloot, maar wordt ervoor gezorgd dat bepaalde quota mensen in de juiste verhouding aanwezig zijn in de steekproef. Voor de peiling onder Moslimjongeren heeft Motivaction quota gemaakt op basis van de variabelen leeftijd, opleiding, geslacht en etniciteit. Dat zorgt ervoor dat de steekproef representatief is met betrekking tot deze variabelen. Helaas is het bij quota-steekproeven zo dat dit geen enkele garantie geeft dat de steekproef ook representatief is met betrekking tot de belangrijke onderzoeksvariabelen.
Superieure loting
Al in 1934 toonde de bekende Poolse wetenschapper Jerzy Neyman aan dat een steekproef op basis van loting superieur is boven een quota-steekproef. Hij noemde dat toen nog niet quota sampling, maar purposive sampling.
De quota-steekproef doet het wel beter dan een totaal verkeerde steekproef trekken. Dat bleek tijdens de campagne voor de Amerikaanse presidentsverkiezingen in 1936 tussen de Democraat Franklin Roosevelt en de Republikein Alf Landon. Het tijdschrift Literary Digest deed een peiling op basis van een steekproef van maar liefst 2,4 miljoen Amerikanen. Maar aangezien de adressen allemaal afkomstig waren uit lijsten van auto-eigenaren en telefoonboeken, waren dit allemaal mensen die het wat beter hadden, en die stemden overwegend Republikeins. De Republikeinen waren dus zwaar oververtegenwoordigd. En dus kwam Alf Landon als winnaar uit de peiling.
Een andere peiler, George Gallup, trok een quota-steekproef van ‘slechts’ 50.000 Amerikanen. De quota waren gevorm op basis van sociaal-economische klasse, geslacht, en stad/platteland. Deze peiling voorspelde dat Franklin Roosevelt zou winnen. En het werd Roosevelt. Daarbij moet worden aangetekend, dat de voorspelling van Gallup er toch nog 5% naast zat (56% in plaats van 61%), maar het verschil tussen Roosevelt en Landon was zo groot dat Gallup toch nog met de goede winnaar kwam.
Truman vs Dewey
In 1948 ging het mis met de quota-steekproeven van Gallup. Toen voorspelde deze peiler dat Thomas Dewey de presidentsverkiezingen zou winnen en niet Harry Truman. De krant waren zo overtuigd van de kwaliteit van de voorspelling van Gallup dat ze al in vroege edities meldden dat Dewey de verkiezingen had gewonnen. Maar het werd Truman. De quota-steekproeven van Gallup bleken een vertekend beeld te schetsen. Nadere analyses achteraf toonden aan dat de Republikeinen voortduren oververtegenwoordigd waren in deze steekproeven. (Meer over deze opiniepeilingen is bijvoorbeeld te vinden in ‘Deugdelijke peilingen’.)
Een ander, simpel, voorbeeld uit de praktijk laat nog eens zien wat er mis kan gaan met quota-steekproeven. Een lokale omroep wilde weten of de inwoners van de gemeente wel luisterden naar de omroep, en naar welke programma’s. Daarvoor werd een peiling opgezet. Interviewers gingen op zaterdagmiddag naar het plaatselijke winkelcentrum en legden het winkelende publiek een vragenlijst voor. Zo had men binnen korte tijd lekker veel gegevens verzameld.
Maar wat bleek bij de analyse van de verzamelde gegevens? Niemand luisterde naar het sportprogramma dat op zaterdagmiddag werd uitgezonden. Nog wiedes natuurlijk, want er werden alleen personen ondervraagd die op zaterdagmiddag aan het winkelen waren. Ook een quota-steekproef helpt dan niet. Ook al maak je quota van mannen en vrouwen, jonge mensen en oude mensen, enz., dan nog blijven het mensen die op zaterdag aan het winkelen zijn. De vertekening in de uitkomsten blijft.
Non-respons
En dan is er ook nog de non-respons. Die lijkt bij quota-steekproeven onder het tapijt te zijn verdwenen. Er zijn natuurlijk mensen die niet aan de peiling mee willen doen. Heel vaak is het zo dat non-respondenten in peilingen afwijken van respondenten. Ze hebben een andere mening over allerlei zaken en willen die niet kenbaar maken. Hoe zit het met de peiling van Motivaction. Hoe groot was de non-respons? En is uitgezocht hoe selectief de respons was?
Samenvattend lijkt de conclusie gerechtvaardigd dat een quota-steekproef niet de beste manier is om een steekproef uit een populatie te trekken. Waar dat mogelijk is moet toch de voorkeur worden gegevens aan een aselecte steekproef (een steekproef die is geloot uit de populatie). Het is bijvoorbeeld denkbaar om een steekproef te loten uit het bevolkingsregister (GBA). Daaruit kunnen allochtonen worden geselecteerd omdat van iedereen het geboorteland (van de persoon zelf en van de ouders) vermeld staat. Aangezien de geboortedatum ook beschikbaar is, kan zo een nette steekproef van jonge Turkse en Marokkaans Nederlanders worden getrokken.
Dit stuk verscheen eerder op PeilingPraktijken.
Helder verhaal, Jelke. De crux zit hem in het slot, waar je schrijft: “Waar dat mogelijk is moet toch de voorkeur worden gegevens aan een aselecte steekproef (een steekproef die is geloot uit de populatie). Het is bijvoorbeeld denkbaar om een steekproef te loten uit het bevolkingsregister (GBA).” Het trekken van een aselecte steekproef uit bevolkingsregisters is is misschien ‘denkbaar’, maar in de praktijk voor velen niet weggelegd, al is het maar omdat de GBA om terechte redenen niet publiek toegankelijk is. Vind je dat commerciële en academische peilers die die mogelijkheden niet hebben, zich niet moeten laten verleiden om dergelijk onderzoek te doen?
Die peilers zouden op zijn minst transparant moeten zijn over hun methode, en melden dat het geen aselecte steekproef is. En ze zouden ook geen onzekerheidsmarges moeten geven, want die kun je alleen uitrekenen als de steekproef hebt geloot. Maar wel melden dat er onbekende afwijking kunnen zitten in de schattingen.
Dat van die betrouwbaarheidsintervallen is een goed punt ja 🙂
Sterker nog; als je naar de praktijk kijkt zul je zien dat de meeste, zo niet alle, steekproeftrekkingen ‘non-probability’ zijn. (Of dit erg is, is een ander verhaal) En eens met “dat is wellicht denkbaar”, ja, dat is wel heeeel theoretisch. (Zelfs als het kan hè, uit GBA, zit je nog met je respons.)
Either way, Jelke heeft natuurlijk wel gelijk dat de hier gebruikte methode dan niet daarmee maar goed is. Ik zou zelfs niet durven zeggen “the next best thing”, zeker bij dit soort onderzoeken zou je veel verder moeten gaan om eea uit te sluiten qua effecten van selectie en vraagstelling.
Hangt het voor- en nadeel van een aselecte steekproef of een quota steekproef ook niet samen met de vraagstelling? Als je op migranten jongeren wilt selecteren, is het GBA (bevolkingsregister) niet altijd het juiste steekproef kader (want gevaar oververtegenwoordiging van thuiswonende, goed ingeschreven jongeren), maar kan de werkwijze van Motivaction tot meer valide data leiden.
Misschien is het GBA niet optimaal voor migrantenjongeren. Maar er is geen enkele garantie of indicatie dat een quotasteekproef beter is. Het zou ook best nog eens veel slechter kunnen zijn. Je zou dit dan eerst moeten uitzoeken voordat je verder gaat met je peiling.
En dat is het probleem natuurlijk. Sowieso met onderzoeken. Wij willen iets weten, maar als je het wetenschappelijk benadert, dan kun je dat en dat eigenlijk niet zo zeggen. Wordt een onderzoek veel omvangrijker, en houd je altijd een slag om de arm.
En in de tussentijd is je populatie veranderd. 😉
Soms denk je “Waar doen we het voor!”.
Belangrijkste tip zou zijn met dit soort ‘one shot’ toetsen onder moeilijk bereikbare groepen: wees voorzichtig. Zeker losse percentages zijn al snel betekenisloos. Inderdaad, door vraagstelling maar ook door steekproef: je hebt geen goed ijkpunt.
Je kan wegen tot je een ons weegt (pni), maar dat lost je probleem niet op.
Vandaar dat je moet inzetten op verschillen (tussen groepen) of veranderingen (door de tijd). Maar ja, dan zit je weer met significantie-toetsen, waar journalisten al helemaal blind voor blijken te zijn.
Maar het gaat bij deze vraagstelling niet om de bepaling van een winnaar met een subtiel verschil. Of er nu 60, 70 90 of 100 % aanhangers zijn is niet zo belangrijk, het is een ruime meerderheid.
In dit geval heeft u misschien wel gelijk. Maar daarmee kun je het gebruik van quotasteekproeven niet goedpraten. Er zijn ook voorbeelden waar je ermee behoorlijk de mist in kunt gaan (zoals in 1948 bij de presidentsverkiezing).
1. Motivaction past nog eem RIM weging toe. Waarom is die nodig na gebruik van quota lijsten op precies dezelfde kenmerken? Is dat omdat het Mixxitpanel niet daarop past? Dat panel draagt weinig bij, en dus zou effect van de RIM weging klein moeten zijn. Als die weging de moeite van het vermelden waard is, zegt dat iets over de representativiteit van dat panel, of juist van de steekproef?
Dat heb ik mij ook afgevraagd. Het lijkt alsof ze de quota niet gevuld kregen. De mate van herweging is dan natuurlijk ook van belang en ook de gewenste en behaalde quota.
2. Hoewel de steekproef niet aselect is is het niet uitgesloten dat ook een aselecte steekproef dezelfde uitkomsten zou geven. Die uitkomsten verontrusten sommige politici danig. Het volstaat mijns inziens dan ook niet om de representativiteit van het onderzoek ter discussie te stellen; zeker niet nu het antwoord op sommige vragen een overweldigende meerderheid voor of tegen toont. Je zou ook aannemelijk moeten maken dat een representatieve steekproef andere resultaten zou laten zien. Dat wordt aannemelijk als er een correlatie is tussen de quota-selectie en de mening van de respondenten. Bestaat er een vermoeden van een dergelijke correlatie?
http://wijblijvenhier.nl/27430/turkse-jongeren-voor/
Er is naar aanleiding van de uitkomsten wel een mini-enquête gedaan onder Turkse jongeren met name omdat de stelling van Motivaction dat de doelgroep (2e generatie Turken) tussen de 18 – 35 jaar een probleem heeft met de Nederlandse taal niet onderbouwd wordt door gegevens van het CBS. Die laat op de stelling “Het geweld dat de strijdgroepen zoals IS gebruiken tegen niet gelovigen of anders gelovigen vind ik verkeerd” een totaal onder beeld zien.
Is op zich wel een belangrijk punt. Hebben we enig idee wat de richting van de mogelijke bias zou kunnen zijn? Verwacht je dat het werkelijke aantal eerder hoger of lager dan die 90% is? Welk soort mensen vindt men minder vaak (of net vaker) in de quota-steekproef? Verder interessant stuk, overigens.
Dit is een voorspelling op basis van statistiek. Er is altijd een kans dat de werkelijke waarde afwijken van de waargenomen waarden. Je hebt tenslotte een steekproef van de populatie genomen en niet werkelijk de hele populatie gesproken. Maar hoe groter het aantal respondenten hoe groter de kans dat de uitkomsten lijken op de meningen van de hele populatie die je onderzoekt.
De werkelijke waarde kunnen dus lager maar ook nog hoger zijn dan dat het onderzoek schetst. Dit neemt niet weg dat de uitkomsten van dit onderzoek iets zeggen. De werkelijk waarden kunnen dan wel een paar procent hoger of lager liggen, de gevonden waarden zijn van dien aard dat je kan stellen dat er een grote steun/sympathie bestaat voor IS. Je kunt de methode aanvallen van het onderzoek (en dat is deels gerechtvaardigd) maar dat maakt de conclusies niet het tegenovergestelde. Zelfs in het beste geval dat de waarden een paar procent lager uitvallen spreek je nog altijd over een hoog percentage.
De logica die je schetst berust op de aanname van een gelote steekproef en dat was hier dus niet het geval.
“Op 11 november … voerde … peiling uit. ” Dat zal wel moeten zijn dat-ie werd gepubliceerd. Maar het zet me wel aan het denken: wanneer voerde men die peiling dan wel uit? De meest voor de hand liggende plek: het werk wordt niet genoemd. De moskee wel: hoeveel Turkse jongeren gaan regelmatig naar de moskee? Naar een buurt- of theehuis? Als dat klopt, dan was er al selectie aan de poort.