Onlangs ging onderstaande grafiek rond op Twitter . Hij was erop gezet door Derek Willis van The Upshot, de nieuwe datajournalistieke website van de New York Times. De grafiek laat zien welke Amerikaanse staten het meeste last hebben van (niet uitgelokte) aanvallen van haaien. De grafiek riep hilarische reacties op. Het is natuurlijk niet zo verbazingwekkend dat vooral de kuststaten last hebben van haaien. Er is geen enkele aanval van een haai gerapporteerd in de binnenlanden! Wow!
Breaking: coastal states have the most shark attacks. pic.twitter.com/iWkg6ELwXV
— Derek Willis (@derekwillis) July 7, 2014
Deze grafiek mag dan op het eerste gezicht overbodig lijken, maar hij roept ook wel een aantal vragen op. Zo vroegen sommige mensen zich af waarom er voor één van de kuststaten (Alaska) geen aanvallen van haaien zijn gerapporteerd. Waren er geen gegevens? Of waren er geen aanvallen? Komen daar eigenlijk wel haaien voor?
Thematische kaart
De grafiek is een voorbeeld van een thematische kaart, waarbij statistische gegevens worden weergegeven op een landkaart. Dit is één van de oudste manieren om statistische gegevens grafisch weer te geven. Hieronder zien we een voorbeeld van de Vlaamse cartograaf Jodocus Hondius uit 1607. Door middel van symbolen geeft Hondius aan wat de belangrijkste godsdienst in een bepaalde regio is (een kruisje voor het Christendom, een maantje voor de Islam, enz.).
Bron: Historic Maps Collection, Princeton
Het is met thematische kaarten net zoals met andere grafieken: ze kunnen erg handig zijn om allerlei statistische informatie in beeld te brengen. Maar je moet ook oppassen, want je kunt mensen makkelijk op het verkeerde been zetten. Ook de haaienkaart hierboven is methodologisch niet helemaal in de haak.
Statistische boodschap
Het is belangrijk dat een grafiek de juiste statistische boodschap overbrengt. In dit geval zou je moeten kunnen zien waar het maar beter is om niet te gaan zwemmen, omdat er teveel gevaarlijke haaien zijn. Zo op het eerste gezicht moet je niet naar Florida te gaan, omdat daar maar liefst 687 aanvallen van haaien waren. Maar is die conclusie wel juist? Florida heeft een veel langere kustlijn (2170 km) dan bijvoorbeeld South Carolina (met 77 aanvallen op 301 km). Het is dan dus logisch dat er meer aanvallen van haaien zijn in Florida dan in South Carolina. Een betere manier zou kunnen zijn om het aantal aanvallen van haaien per 100 kilometer kustlijn (of iets dergelijks) te vergelijken. Voor Florida zou je dan uitkomen op 31,7 en voor South Carolina op 25,6. Florida komt nog steeds als gevaarlijke staat uit de bus, maar de verschillen zijn aanzienlijk minder groot.
Een tweede probleem met thematische kaarten is ‘area bias’. De kleuren en symbolen op de kaart moeten de omvang van het verschijnsel op de juiste wijze weergeven. Dat is bij de haaienkaart niet het geval. De visuele impact van bijvoorbeeld Texas met maar 38 aanvallen van haaien) is veel groter dan die van Hawaii (met maar liefst 129 aanvallen). Dit komt omdat de oppervlakte van Texas veel groter is dan de oppervlakte van Hawaii en deze staat daarom dus veel prominenter op de kaart komt. Om area bias te voorkomen, is het beter om gebieden niet in te kleuren, maar om symbolen in de gebieden te zetten. Het aantal symbolen per gebied, of de omvang van het symbool in het gebied geeft dan de omvang van het verschijnsel weer. In het voorbeeld hieronder geeft de omvang van de groene cirkel aan hoeveel verkeersdoden er in 2009 in de desbetreffende staat waren.
Bron: Max Meier
Voor een zinvolle interpretatie van haaienaanvallen was het dus beter geweest om niet de aantallen aanvallen weer te geven, maar de aantallen per hoeveelheid kustlijn. En in plaats van de staten in te kleuren verdient het gebruik van symbolen de voorkeur. Zo valt van een bijna overbodige grafiek dus nog veel te leren…
Josse de Voogd zegt
Treffend voorbeeld. Ook toepasbaar op mijn vakgebied, electorale geografie. Wat doe je met bevolkingsdichtheid, opkomst, met partijen die elkaar dicht naderen? Zie b.v. ook deze verschillende mogelijkheden om dezelfde uitslag weer te geven. Vooral die met bevolkingsdichtheid is mooi. http://www.graphgraph.com/2012/11/maps-of-the-2012-presidential-election/