Naar alle waarschijnlijkheid zijn de Chinese statistieken over de verspreiding van het virus niet slechter – en ook niet beter – dan de cijfers afkomstig uit Westerse democratieën.
De sportwereld ligt al enkele weken stil. In plaats daarvan lijkt een nieuw tijdverdrijf de nieuwsgierige, aan huis gekluisterde burgers in zijn greep te hebben gekregen: het volgen van de coronavirus-statistieken. Gefaciliteerd door de aantrekkelijke en gebruiksvriendelijke visualisaties van landelijke infectie- en sterfgevallen op platforms als de “COVID-19-kaart” van Johns Hopkins University is er een nieuwe, nogal macabere vorm van internationale competitie ontstaan. Vragen als “in welk land zijn vandaag de meeste mensen besmet?” of “liggen we nog voor op onze buurlanden qua sterfgevallen?” zijn populaire gesprekonderwerpen op virtuele huisfeestjes en Skypeborrels. Maar deze nieuwe sport is niet alleen moreel bezwaarlijk; het is ook om statistische redenen een vrijwel zinloze exercitie. De waarheid is dat COVID-19-statistieken voor het overgrote deel geen informatieve indicatoren zijn. Bovenal zijn ze ongeschikt voor vergelijkingen tussen landen.
Het meest belangwekkende cijfer voor de volgers van de coronastatistieken is de landelijke “case fatality rate” (CFR): het aantal sterfgevallen in een land (de teller) gedeeld door het aantal infecties (de noemer). De daaruitvolgende “competitiestand” rangschikt landen van de laagste ratio – waar regeringen en gezondheidsautoriteiten, zo gaat het verhaal, het best op de crisis gereageerd hebben – naar de hoogste. Het probleem is dat zowel de teller als de noemer in verschillende landen in verschillende richtingen vertekend is. Daardoor is het aannemelijk dat CFR’s uiterst misleidend zijn wanneer ze klakkeloos overgenomen worden.
Hoe komt dat? Laten we beginnen met de teller. Het bepalen van het aantal sterfgevallen door het coronavirus is ingewikkelder dan het wellicht klinkt. Het kan lastig zijn de oorzaak van iemands overlijden vast te stellen, met name voor patiënten die met meerdere gezondsheidsproblemen te kampen hebben evenals voor mensen die buiten het ziekenhuis overlijden met weinig of geen medisch toezicht. Daardoor kunnen overheden in verschillende landen sterfgevallen verschillend berekenen. Zo bevatten de COVID-19-mortaliteitsstatistieken uit sommige landen alleen patiënten die in het ziekenhuis gestorven zijn, terwijl andere ook patiënten die thuis overleden zijn meetellen. Sommige landen registreren een sterfgeval alleen als gevolg van COVID-19 indien de patiënt positief getest is voor het virus, terwijl andere dat al doen als een patiënt corona-achtige symptomen vertoonde zonder dat diegene daarop getest is. Overlijdensgevallen met meerdere medische condities worden op sommige plaatsen meegerekend ook al kan de dood veroorzaakt zijn door een combinatie van factoren; op andere plekken gebeurt dat weer niet.
Als we van de teller naar de noemer gaan, worden de metingsproblemen nog duidelijker. Dit is het gevolg van blijvende onzekerheden over de epidemiologische eigenschappen van de ziekte en de welbekende tekortkomingen in testcapaciteit waarmee de meeste landen worstelen. Tot op de dag van vandaag blijft het aantal asymptomatische gevallen (d.w.z. patiënten die het virus bij zich dragen zonder symptomen te vertonen) één van de grote raadsels die epidemiologen proberen te op te lossen om zo de razendsnelle verspreiding van het virus te doorgronden. Volgens sommige analyses bedraagt dit cijfer circa 5 procent van alle gevallen; andere studies schatten het op wel 80 procent. Dit betekent in wezen dat op dit ogenblik het totaalaantal infecties (zowel symptomatisch als asymptomatisch) met geen enkele zekerheid te kennen is.
Maar er heerst niet alleen onzekerheid over de omvang van asymptomatische gevallen. De detectiepercentages verschillen ook dramatisch tussen landen. Dit komt vooral door enorme verschillen in teststrategieën en –capaciteiten. Een paar kleine landen die veel testen (zoals IJsland) kunnen een groot deel van de symptomatische gevallen identificeren. Maar in de meeste landen liggen de percentages waarschijnlijk veel lager. Zelfs in een land waar uitgebreid getest wordt, zoals in Duitsland, ligt het detectiepercentage mogelijk beneden de 50 procent, terwijl in een ontwikkeld land met weinig tests, zoals Nederland, het percentage wellicht slechts 5 procent bedraagt. Hoe veel symptomatische infecties kunnen er dan zijn als er, zeg, 10.000 gevallen gedetecteerd zijn? Het ware getal kan ergens tussen de 10.000 en 20.000 liggen in een land als Duitsland, maar overal tussen de 10.000 en 200.000 in Nederland, waar nauwelijks getest wordt. In ontwikkelingslanden met minder goed toegeruste gezondsheidssystemen zou het getal nog hoger kunnen liggen. Als we met zulke kwesties rekening houden, lijkt het duidelijk dat het weinig zin heeft om sterfgevallen te standaardiseren voor het aantal gedetecteerde gevallen en deze te vergelijken tussen landen.
Nationale verschillen in meetpraktijken zijn niet uniek aan COVID-19-statistieken; ze zijn een intrinsiek probleem van de meeste sociale indicatoren. In eerder onderzoek hebben wij dezelfde kwesties bekeken voor gevestigde macroeconomische statistieken met een roemrijke geschiedenis. Zelfs daar vonden we dat er – ondanks pogingen van internationale organisaties om al meer dan zeven decennia de statistieken te harmoniseren – aanzienlijke landelijke afwijkingen blijven bestaan. Met andere woorden: zelfs als de coronastatistieken in de komende maanden en jaren iets beter worden terwijl de testcapaciteiten verbeteren, zullen deze problemen niet verdwijnen. Het is vandaag de dag niet zinvol om ze tussen landen te vergelijken, en dat zal ook in de toekomst uiterst lastig blijven.
Op een dieper niveau kunnen
we het voorbeeld van de COVID-19-statistieken handig gebruiken om een breder
punt te maken over de politiek van de cijfers: statistieken zijn niet slechts
de afspiegeling van objectieve, harde waarheden. Ze zijn sociaal en politiek
geconstrueerde concepten die inherent ambigu zijn. Zoals we in ons
eerdere onderzoek benadrukt
hebben, is het cruciaal de “zachtheid” van cijfers te onderkennen om zo de politiek
van de statistiek beter te begrijpen. Niet in het minst dwingt dit ons
kritischer om te gaan met beweringen over “goede” en “foute” cijfers – en, van
bijzonder belang in het licht van huidige debatten, met stellingen over de
manipulatie van bepaalde cijfers.
Discussies over de manipulatie van Chinese statistieken
Hoewel iedereen zijn of haar eigen favoriete statistieken over COVID-19 kiest, lijken de meeste mensen in het Westen – van de Amerikaanse president en de CIA tot academici en de liberale pers – het in elk geval op één punt eens te zijn: de Chinese statistieken over de verspreiding van het virus zijn aan politieke manipulatie onderhevig en daarom bijzonder onbetrouwbaar. Toen vorige week bekend gemaakt werd dat China 1.290 doden had toegevoegd aan de sterfgevallen in Wuhan, waren de commentatoren er snel bij om de statistische herziening aan te dragen als bewijs van bewuste onderraportage en een cover-upoperatie van overheidswege.
Ofschoon wij geen inzichten uit de eerste hand hebben in de compilatie van de Chinese coronastatistieken, hebben wij meerdere jaren onderzoek verricht naar de pogingen van overheden om economische statistieken te manipuleren. Op basis van deze bevindingen hebben bij onze twijfels bij zulke stellingen. Net als in het geval van COVID-19 worden macroeconomische statistieken uit China regelmatig uitgelicht als zijnde onderhevig aan politieke manipulatie. Wij ontdekten echter dat het bewijs dat deze beweringen moet ondersteunen geen steek houdt voor economische data op nationaal niveau. Hoewel er enig bewijs is dat de subnationale data afkomstig van provinciale overheden de economische prestaties pleegt te overdrijven, is het centrale regeringsapparaat zich sterk bewust van deze dynamiek. Het Nationaal Bureau voor de Statistiek gebruikt verscheidene methoden om deze data te controleren en corrigeren, waardoor de meeste vertekeningen verdwijnen. Sommige studies laten weliswaar zien dat er blijvende vertekeningen in de nationale economische data zijn, maar deze zijn verhoudingsgewijs klein – niet anders dan de vertekeningen die ontdekt zijn in een breed scala aan macroeconomische statistieken uit Westerse democratieën. Ten minste één studie suggereert zelfs dat de nationale data uit China de eigenlijke economische prestaties onderschatten.
In sommige opzichten verschillen de COVID-19-statistieken van macroeconomische data, maar er zijn ook belangrijke parallellen. Net als bij economische statistieken is zowel het theoretische als het empirische pleidooi voor grootschalige manipulatie zwak. Laten we ze één voor één uiteenzetten.
Theoretisch blijft het onduidelijk wat een rationele regering, in de situatie waarin de Communistische Partij zich momenteel bevindt, te winnen heeft door de feiten te verduisteren. Het bewust afzwakken van de ernst van de situatie zou de uitbraak van een tweede besmettingsgolf riskeren, en daardoor een scherpe toename van het aantal doden. Pogingen om een tweede uitbraak te verhullen zou uiteindelijk futiel blijken als de lichamen zich op blijven stapelen – en daarmee de legitimiteit van de regering ernstig ondermijnen. Het lijkt geheel onwaarschijnlijk dat een rationele regering zulke risico’s zou nemen, enkel en alleen om gedurende korte tijd op haar superieure crisisbeheersing te kunnen pochen.
Empirisch klopt het vrijwel zeker dat de Chinese data gebrekkig is. Op zichzelf toont dat echter nog geen bewust manipulatie aan. China worstelt met dezelfde serieuze metingsproblemen waarmee Westerse democratieën geconfronteerd worden. Maar wanneer de Chinese regering het dodental naar boven bijstelt (zoals zij recent voor Wuhan deed) zijn de analisten er als de kippen bij om “cover-up” te roepen – ongeacht het feit dat de gezondsheidsautoriteiten in Westerse democratieën van New York tot Italië en het Verenigd Koninkrijk de afgelopen dagen en weken precies hetzelfde hebben gedaan zonder dergelijke kritiek over zich uit te roepen.
Om deze intuïties wat systematischer te beoordelen, hebben wij met een simpel sommetje de grootte van de potentiële onderrapportage in China berekend. Daarbij maakten we gebruik van het open access-infectiespreidingsmodel ontwikkeld door Nate Silver. Voor wat het waard is, wijst onze projectie erop dat de officiële Chinese cijfers de eigenlijke besmettingsgevallen met ongeveer 75 procent onderschatten. Dat is een substantiële afwijking. Het is echter een relatief goede score in vergelijking met soortgelijke (en meer rigoureuze) berekeningen voor sommige Europese landen uitgevoerd door het team van Neil Ferguson aan het Imperial College. Hun schattingen suggereren dat – afhankelijk van het aantal asymptomatische besmettingen – Europese tellingen de daadwerkelijke infectiegevallen met meer dan 95 procent onderrapporteren (en zelfs 99 procent in het VK). Dus ja, de Chinese cijfers slaan waarschijnlijk de plank mis, maar ze zijn niet slechter dan die van liberale democratieën.
Behoefte aan een zondebok
De dynamiek lijkt in dit geval vergelijkbaar met wat we observeerden in de verschillende datamanipulatieschandalen die wij de laatste jaren bestudeerd hebben. Meestal komen dergelijke schandalen niet voort uit een plotselinge grove inmenging in de productie van statistieken. Ze doemen vaak op wanneer het in het belang van de beschuldigende partij is om een datamanipulatieschandaal de nieuwscyclus te laten domineren. Ondanks de schijn van nauwkeurigheid en objectiviteit hebben statistieken niet te verwaarlozen foutmarges en verscheidene soorten vertekeningen ingebakken. Deze vertekeningen komen echter alleen bovendrijven in het publieke debat wanneer het in iemands belang is om er een schandaal van te maken. Zoals we hierboven bepleit hebben, lijkt dat nu niet anders te zijn.
Wij willen de Chinese statistieken, laat staan de acties van de Chinese regering, niet van alle blaam zuiveren. De COVID-19-statistieken van China zijn net zo imperfect als die van iedere andere natie. Er zijn serieuze vragen die gesteld moeten worden over de rol van de Chinese Communistische Partij in deze crisis. Maar gebrekkige cijfers zijn verre van de meest relevante kwestie. De steeds stelligere overtuiging in Westerse hoofdsteden dat de Chinese COVID-19-data gemanipuleerd zijn, is niet goed gefundeerd. Ze is eerder gericht op het vinden van een zondebok dan iets anders. Iedereen die beweert dat Chinese cijfers het probleem zijn, probeert af te leiden van wat werkelijk belangrijk is: een ongekende wereldwijde crisis onder ogen te zien en op te lossen.
Geef een reactie
Je moet inloggen om een reactie te kunnen plaatsen.