Het gaat de verkeerde kant op met de wetenschap, aldus de kop van de Economist afgelopen week. Teveel experimententele bevindingen kunnen niet worden gerepliceerd. Een studie van Amgen, een Amerikaans medicijnenbedrijf, vond slechts in 6 van de 53 studies naar kanker hetzelfde resultaat. Sandy Pentland, een computerwetenschapper, beweert dat in het veld van machine learning maarliefst 3/4 van de papers onzin is. Artikelen waarin bewust fouten zijn gemaakt worden door vaktijdschriften geaccepteerd voor publicatie. En dan zijn er natuurlijk nog de Diederik Stapels. Produceert de politicologie ook teveel artikelen die bogus zijn, met andere woorden gaat politicologie ook de verkeerde kant op?
Replicatie
Laat ik vooropstellen dat ik zeker niet het definitieve antwoord hierop heb. Ik ben erg benieuwd hoe anderen hier over denken, vandaar deze blogpost. De problemen van politicologie zijn enerzijds anders dan het onderzoek dat de Economist noemt, want 99% van het politicologische onderzoek is niet experimenteel, maar de onderliggende factoren die de Economist noemt als veroorzakers van de problemen zijn natuurlijk wel aanwezig. Zij noemen, ten eerste, de confirmation bias als probleem. We richten ons teveel op positieve bevindingen, waarvan logischerwijs een aantal false positives zijn. Ten tweede, we zijn daarom minder geinteresseerd in replicatie studies. Het is moeilijk en duur om experimenten te repliceren, maar een groot gedeelte van het onderzoek in de politicologie gebruikt openbare datasets. Replicatie is dus makkelijk, maar gebeurt weinig. Overigens worden alle studies in het nieuwe tijdschrift Political Science Research and Methods gerepliceerd door een assistent van het tijdschrift voor publicatie.
Carrière
Het derde punt is denk ik het belangrijkst: carrière. Je moet veel en goed publiceren. Publicatiedruk zorgt wellicht voor artikelen met meer fouten. Om goed te publiceren, dat is in een top journal, moeten ook bepaalde regels gevolgd worden. Het is mijn ervaring dat bijna elk paper in zo’n journal een nieuwe theorie presenteert, getest met nieuwe en unieke data. Replicatiestudies of negatieve bevindingen zijn simpelweg taboe. Erger nog, elke paper formuleert een nieuwe theorie en vergeet daarbij vaak dat anderen min of meer hetzelfde hebben beweerd. In de drang naar innovatie wordt weleens vergeten dat het wiel al eerder is uitgevonden. Op deze manier is er niet echt sprake van een cumulatieve wetenschap, maar eerder van een proliferatie van allerlei min-of-meer gerelateerde ideetjes.
Overfitting
Een vierde probleem dat de Economist noemt is “overfitting”. In veel observationele studies in de politicologie gebruikt men doorgaans een flinke batterij controle variabelen. Soms wordt nauwelijks gemotiveerd waarom die variabelen worden gebruikt. Het zou mij niks verbazen als de resultaten van sommige papers als sneeuw voor de zon verdwijnen wanneer iets andere controle variabelen worden gekozen.
Transparantie in de vorm van het online aanbieden van de dataset en de analyses kan hierbij helpen. Maar dan moet replicatie wel lonen, en daarom is het bemoedigend dat een ander nieuw tijdschrift – Research and Politics – dit expliciet aanmoedigd. Kortom, ik ben zelf wat optimistischer dan The Economist, ik zie dezelfde problemen, maar ook mooie initiatieven om die problemen te adresseren.
Hoi Gijs, het nieuwe tijdschrift over experimentele politicologie doet nadrukkelijk ook aan nulbevindingen (zie http://stukroodvlees.nl/politicologie/experimentele-politicologie-gemende-gevoelens-over-een-nieuw-wetenschappelijk-tijdschrift/).
Ook interessant, de American Journal of Sociology heeft specifiek een nummer in planning over nulbevindingen, zie http://egrollman.files.wordpress.com/2013/04/670647.pdf
Interessant en belangrijk thema. Het is goed dat jullie de focus van The Economist opentrekken naar kwantitatief onderzoek in het algemeen en de zaken die je neerschrijft zijn herkenbaar. Ik ben ook niet pessimistisch.
Blijft de vraag hoe het zit met kwalitatief onderzoek. Ook daar kan confirmation bias en data massage spelen. Collega’s van me hebben eens een keertje alle archiefstukken van één van de meest invloedrijke stukken in de Europese Integratieliteratuur nagezocht: http://www.mitpressjournals.org/doi/abs/10.1162/1520397042350900. Het was monnikenwerk, maar zij vonden dat het gros van de quotes uit de archiefstukken fout, verkeerd geïnterpreteerd dan wel verkeerd vertaald was. De conclusie van de auteur was niet houdbaar. Het manuscript van mijn collega’s werd eerst vele malen afgewezen vooraleer het uiteindelijk in een obscuur journal kon verschijnen. Later werd bekend dat de originele auteur van het invloedrijke werk meermaals reviewer was en het stuk poogde tegen te houden.
Archiefstukken, interviews en kwalitatief onderzoek in het algemeen worden bijna nooit gecheckt. Ook dat is best wel onthutsend.
Mooi stuk. Wat betreft het punt replicatie: wat meestal met replicatie bedoeld wordt is dat een bevinding onafhankelijk bevestigd wordt, dus liefst ook met nieuwe data. Anders vang je potentieel alleen fouten in de analyse, en niet in de dataverzameling. Die strenge manier van replicatie is in de politicologie (en sociale wetenschap in het algemeen) juist helemaal niet makkelijker of goedkoper, omdat de veelal grote surveyprojecten moeilijk te herhalen zijn.
In bijvoorbeeld de sociale psychologie is (poging tot) replicatie door het herhalen van experimenten in principe juist relatief makkelijk. Als men dat meer had gedaan (maar hier komt jouw punt “carrière” om de hoek kijken), was Stapel waarschijnlijk nooit zo ver gekomen.
Goed punt Rense, bedankt!
Als geesteswetenschappelijke grensarbeider heb ik met belangstelling dit stuk gelezen. Mooi dat hier met dit prima stuk aandacht wordt besteed aan een thema dat, naar ik verwacht, de komende jaren alleen maar belangrijker zal gaan worden en waaraan geen enkele wetenschapper, van welke discipline dan ook, zich kan onttrekken. Voor de sociale wetenschap is de hele kwestie nog klemmender en wel vanwege de grotere wetenschappelijke pretentie die zij altijd heeft gehad. De in de jaren vijftig/zestig op gang gekomen scientifisering heeft veel opgeleverd: politicologie werd meer dan veredelde parlementaire journalistiek, psychologie meer dan pastorale zorg en culturele antropologie meer dan een gekke hobby van missionarissen en zendelingen. Helaas heeft zij ook geleid tot een zeker gebrek aan bescheidenheid en een superioriteitsgevoel die veel niet sociaal-wetenschappers op zijn minst bevreemdt maar toch vaak ook irriteert. De betawetenschappers lachen om de hardheid van sociaal-wetenschappelijk onderzoek, terwijl de geesteswetenschappers zich uit angst om als slodderwetenschapper te worden gedesavoueerd hebben teruggetrokken in hun eigen domein. De term kwalitatief onderzoek werd gemunt om te redden wat er te redden viel en methodes als discours-analyse en thick description moesten een schijn van wetenschappelijkheid geven aan de studie der letteren. . Niet vreemd dat hier dan ook veel leedvermaak is dat de sociale wetenschappen in de kuil lijken te vallen die men toch voor de geesteswetenschappen had gegraven! Dat zoals een der reaguurders opmerkt kwalitatief onderzoek eveneens moeilijk repliceerbaar is, is vast en zeker waar maar doet toch stukken minder pijn. Na jaren van wetenschapsfilosofische (zelf)kastijding is de pretentie daar ook stukken minder groot en heeft zich onder sommige postmodernistisch angehauchten zelfs een algehele scepsis breed gemaakt. Die scepsis gaat ver, te ver vaak, maar biedt juist nu ook een aanknopingspunt. Na de decennia dat sociale wetenschappers de betawetenschappen als leidsman hebben gebruikt om hun methodes aan te scherpen, zullen zij een les moeten leren van de geesteswetenschappen die niet zozeer gaat om methodes maar om een houding. En die houding is er een van bescheidenheid, zelftwijfel en relativering.
Koen: mooi gesproken, maar wat in Gijs’ betoog wijst erop dat de (vooralsnog hypothetische) problemen in de politicologie het gevolg zijn van een te “wetenschappelijke” benadering? Volgens mij is het argument eerder het tegendeel: streven naar replicatie, cumulatie van kennis, en deugdelijke statistische modellen zijn bij uitstek “klassieke” wetenschappelijke waarden.
Overigens lijken de geesteswetenschappen ook steeds meer de kwantitatieve kant op te gaan de laatste jaren…
Zeker waar. Mijn punt moet veel als een aanvullend argument worden gelezen, namelijk dat sociale wetenschappers de betrekkelijkheid van hun eigen bevindingen wat weer mogen benadrukken. Op deze door mij overigens gewaardeerde blog bespeur ik soms ook de neiging om het domme journaille en onwetende politici de les te lezen wat ‘de Waarheid’ is. Laat onverlet, ik herhaal het voor de zekerheid nog eens, dat ik de opzet en invulling van dit blog over het algemeen zeer waardeer.
Ik ben het met Koen eens wat betreft die betrekkelijkheid en bescheidenheid. In de huidige situatie is nuance een manco van een artikel in plaats van een kwaliteit…
Interessante discussie. Koen, ik ben het met je eens dat de methodologische discussies in kwalitatief onderzoeksland vaak gewoon een technificatie zijn van common sense. Dat is weinig zinvol. Sterker nog, het kan misbruikt worden om zwakheden te verbergen en nodigt niet uit tot replicatie. Je moet immers eerst al proberen te begrijpen wat er nu juist bedoeld wordt. Omdat je me al gehonoreerd hebt met het label reaguurder, hoef ik woord ‘geblaat’ hier niet gebruiken.
Los daarvan zijn sommige recente methodologische bijdragen wel goed. Net zoals een politierechercheur fouten kan maken in een perfect intern consistente narratief (de kwalitatieve variant van overfitting), zijn ook sommige case studies incorrect hoewel ze logisch lijken. Vernieuwingen in hoe je dat kan beoordelen (en dus niet enkel naar de interne consistentie moet kijken) vind ik persoonlijk zeer zinvol.
Die technificatie-kritiek geldt wellicht ook voor kwantitatief onderzoek: als een techniek door slechts een handvol mensen wordt beheerst, is dat ook niet handig. Dat laatste kan ook leiden tot een zeker significantiefetisjisme bij reviewers (iedereen begrijpt sterretjes).
Begrijp me niet verkeerd: er is niets mis met geavanceerde statistische technieken, alleen ben ik voorstander van het gebruik van ‘de simpelst mogelijke techniek’. Dat leidt trouwens weer tot de discussie wat die ‘mogelijk’ moet inhouden. Ik zou zeggen iets à la ‘makkelijkst interpreteerbare toepasselijke techniek’ (al zijn hier natuurlijk ook mitsen en maren bij te bedenken).