Afgelopen weekend presenteerde RTL 4 de CITO-scores van Nederlandse basisscholen. In plaats van de gemiddelde score per school openbaar te maken, riep RTL de hulp in van Jaap Dronkers, een Maastrichtse onderwijssocioloog. Samen hebben zij “een methode ontwikkeld om de score van een school af te zetten tegen vergelijkbare scholen.”, zo valt te lezen op de website van RTL. Het eindresultaat is een rapportcijfer voor elke school: de beste school scoort een 10, de slechtste school een 4. Eerder al kwam boven water dat één van de twee best scorende scholen helemaal geen eindtoets had afgenomen. Mijn bezwaren richten zich meer op de gebruikte methode, en vooral op de illusie van vergelijkbaarheid die gewekt wordt.
Een heranalyse van de data geeft twee belangrijke bevindingen: (1) RTL heeft een fout gemaakt in de omzetting van de data van Dronkers naar cijfers en (2) niet geheel verrassend, hoe het model gespecificeerd wordt bepaalt het eindcijfer van scholen. Voor ik deze twee zaken bespreek zet ik kort uit een welke procedure Dronkers en RTL gevolgd hebben.
Hoe RTL en Dronkers te werk zijn gegaan
Scholen verschillen sterk in hun gemiddelde CITO-score. Voor een groot gedeelte heeft dit niks te maken met de prestaties van de school zelf. Een basisschool in Amsterdam-Zuid scoort beter dan een basisschool in de Kolenkitbuurt. Dat komt niet (alleen) doordat de basisschool in Amsterdam-Zuid beter onderwijs levert, dat komt voor een heel groot gedeelte door de samenstelling van de leerlingen op die school. In Amsterdam-Zuid wonen voornamelijk autochtone leerlingen met een hoge sociaal-economische status, terwijl in de Kolenkitbuurt veel kinderen uit een laag sociaal milieu naar school gaan. Het vergelijken van gemiddelde CITO-scores is dus appels met peren vergelijken.
Om dit probleem te verhelpen kijkt Dronkers naar de te verwachten CITO-score, gegeven hun sociaal-economische en etnische samenstelling. In zijn model (OLS-regressie) houdt Dronkers rekening met drie factoren: (1) de status van de buurt waarin de school ligt, (2) het percentage ‘0.3 en 1.2 leerlingen’ (leerlingen met laagopgeleide ouders) en (3) het percentage leerlingen van verschillende etnische minderheden (zie Dronkers’ toelichting voor een volledige lijst). Op basis van deze drie factoren voorspelt Dronkers een verwachte CITO-score: hoe goed zou een school moeten presteren gegeven de status van de buurt, het aantal rugzakleerlingen en de etnische compositie. De afwijking van deze verwachte score bepaalt dan het rapportcijfer: doet een school het beter dan verwacht, dan krijgt het een cijfer boven de 7, doet een school het minder dan verwacht, dan krijgt het een cijfer beneden de 7. Door deze methode zouden we geen appels met peren meer vergelijken, maar inzicht krijgen in hoe goed scholen zijn in het onderwijzen van hun leerlingen.
Het probleem met de methode
Dronkers probeert het maximale uit zijn data te halen. De drie ingebrachte factoren zijn inderdaad erg belangrijk in het verklaren van verschillen in gemiddelde CITO-score tussen scholen (ze verklaren 35% van de variantie in CITO-scores). Het probleem is alleen dat ze te beperkt zijn. Het valt op dat vooral hoge sociaal-economische status erg matig gemeten wordt, alleen als de status van de buurt (uitgedrukt als viercijferige postcode). Maar mensen die in een bepaalde buurt wonen hoeven natuurlijk helemaal niet naar een basisschool in die buurt te gaan. Vooral voor bijzonder onderwijs zullen ouders bereid zijn af te reizen naar een andere buurt. Gevolg kan dus zijn dat scholen met veel kinderen uit een hoog sociaal milieu ten onrechte een hoog rapportcijfer van RTL krijgen. Meer technisch gezien hangt het rapportcijfer in sterke mate af van de modelspecificatie: als er andere factoren worden toegevoegd, of het model anders gespecificeerd wordt, veranderen de rapportcijfers van scholen. Dit kunnen we vrij makkelijk laten zien aan de hand van de data van Dronkers zelf.
Een heranalyse van de data
Het siert Dronkers dat hij al zijn ruwe data online zet zodat andere mensen de gegevens ook kunnen analyseren. Ik heb dat (kortstondig) gedaan. In mijn analyse richt ik me niet op de berekening van de CITO-score. Ook daar zijn andere keuzes in te maken (zie bijvoorbeeld deze bijdrage van Lex Borghans), maar dat laat ik nu even voor wat het is.
Bevinding 1: een slordigheid van RTL
Allereerst bleek RTL nog een slordigheid te hebben begaan (ik leg de schuld bij RTL na navraag bij Dronkers). Bij de omzetting van Dronkers’ data naar rapportcijfers heeft RTL per ongeluk alle scholen die eigenlijk een cijfer tussen een 5 en een 6 zouden moeten krijgen een cijfer tussen een 6 en een 7 gegeven. Een school met een 5,6 kreeg dus een 6,6; een school met een 5,3 een 6,3. Een knullige fout, die erg uitmaakt voor de positie van scholen binnen hun gemeente. Want dat is natuurlijk wat het meest vergeleken wordt: wat is de beste school in mijn gemeente? Inmiddels heeft RTL de fout aangepast, nadat een docent hetzelfde opmerkte als ik. Het gaat om een verkeerde omzetting van de data van Dronkers naar rapportcijfers; de bevindingen van Dronkers blijven gewoon staan. RTL gaf aan dat er iets mis was gegaan met Excel (waar hoorden we dat ook alweer eerder…)
Bevinding 2: modelspecificatie maakt uit
Zelfs met de beperkingen van de data van Dronkers zijn er andere keuzes te maken. Zo heb ik het model iets anders gespecificeerd. Technisch gesproken heb ik een kwadratische term opgenomen in de OLS regressie van de 0.3 en 1.2 leerlingen. Inhoudelijk betekent dit dat ik veronderstel dat het effect van rugzakleerlingen non-lineair is: het maakt vooral uit of er überhaupt rugzakleerlingen op je school zitten, en het negatieve effect van rugzakleerlingen op de gemiddelde CITO-score wordt zwakker naarmate er meer op school zitten. Deze kleine aanpassing aan het model van Dronkers maakt uit; beide kwadratische termen zijn statistisch significant en verbeteren de model-fit. De data en berekeningen (in STATA) zijn hier te downloaden.
De verandering in de eindresultaten van scholen is klein, gemiddeld genomen scoren scholen vrijwel hetzelfde in mijn model als in het model van Dronkers. Dit is goed te zien in onderstaande scatterplot. Op zich was de verwachting ook niet dat het verschrikkelijk veel uitmaakte; de aanpassing aan het model van Dronkers was namelijk minimaal.
Echter, er zijn een aantal scholen die in mijn model veel lager scoren dan in het model van Dronkers. Laat ik er één uit pakken als voorbeeld: basisschool De Linde uit Vroomshoop. Bij het door RTL4 gebruikte model van Dronkers haalt deze school het hoogste cijfer van alle 6 scholen in Vroomshoop: een 8,8. In mijn model haalt basisschool de Linde een 7,1, het laagste cijfer van heel Vroomshoop. Ook wordt in mijn model de top-10 door de war geschud. Zo staat basisschool Johannes Calvijn uit Urk geen 2e maar 7e. Dit soort verschillen zijn ontzettend belangrijk en beïnvloeden de keuze die ouders maken.
Laat ik helder zijn: mijn lijst vind ik net zo betekenisloos als de lijst van Dronkers. Maar mijn exercitie laat zien hoe gevoelig het model van Dronkers is voor andere modelspecificaties. Wat zou er gebeuren met de rapportcijfers van alle scholen als we wel goede data over de sociaal-economische compositie van scholen zouden opnemen? Zouden Bussum, Blaricum, Wassenaar en Ouder-Amstel nog steeds in de top-10 van best scorende gemeenten staan?
Waarom is dit belangrijk?
Ik ben geen tegenstander van het openbaar maken van schoolprestaties. Mijn grootste bezwaar is de manier waarop RTL de cijfers publiek heeft gemaakt, in de vorm van rapportcijfers. Naast dat er onzorgvuldig is omgesprongen met de gegevens, wekt de methode van RTL en Dronkers de illusie dat er gecontroleerd is voor alle relevante factoren. Dat de rapportcijfers die RTL geeft puur toe te wijzen zijn aan de prestaties van scholen, en dat scholen daar dus op afgerekend mogen worden. Dit is onterecht, het model van Dronkers is onvolledig en mist goede data over de sociaal-economische samenstelling van scholen. De lijst van Dronkers zal gedeeltelijk ouders´ keuze voor een basisschool voor hun kinderen gaan bepalen. Maar moeten ouders in Vroomshoop nou wel of niet kiezen voor basisschool de Linde?
In een interview met het NRC gaf Dronkers aan dat het beter is om te proberen zo goed mogelijk te controleren dan de ruwe gemiddelde scores naar buiten brengen. Ik ben het hier niet mee eens. Door het inbrengen van een wetenschapper, en een “wetenschappelijke” methode, wekt RTL de illusie dat scholen beoordeeld worden op hoe goed zij presteren. Totdat we goede data hebben van de sociaal-economische compositie van scholen zou mijn voorkeur uitgaan naar het publiceren van de ruwe CITO-scores. Dan is in elk geval volkomen duidelijk dat er appels met peren worden vergeleken.
Update 20 oktober 10:34
Inmiddels heeft Jaap Dronkers gereageerd op de kritiek van Thijs. Zie hier voor zijn bijdrage.
Ben van der Hilst zegt
Dronkers heeft eerder bij de Trouwcijfers (de eerste leaktables van VO-scholen in Nederland) een zelfde excerctie uitgehaald. Het kostte mij toen erg veel moeite om de modelgegevens te pakken te krijgen. Hieruit bleek onder meer dat voor de correctie van de sociaal-economische gegevens alleen was uitgegaan van de plek van hoofdvestiging van de school, hetgeen grote meetfouten opleverde voor scholen met verschillende vestigingen in verschillende delen van de stad (wat veel voorkomt in de grote steden). Maar ook de ruim 10 (!) lineariteiten in het model, samengevoegd tot 1 lineariteit, zijn zeer discutabel. Het is onbegrijpelijk dat een hoogleraar zo slordig omgaat met cijfers bij zo een gevoelig onderwerp.
Johan Sterk zegt
Het zou een weldaad voor het onderwijs zijn als de ‘onderwijskunde’ zou worden afgeschaft. Het gepruts met data is daar epidemisch, om maar te zwijgen over de schade die de vernieuwingskwakzalverij uit die hoek aan onze jeugd heeft toegebracht.
Djong zegt
Dat van die appels met peren vergelijken gaat er bij mij niet in. Volgens mij vergelijk je appels uit de Kolenkitbuurt met appels uit Amsterdam West.