In een voorbeeldige analyse test het CPB of het kwaliteitsprogramma voor zwakke basisscholen in de gemeente Amsterdam tot de gewenste verbetering in de Cito-scores van die scholen heeft geleid.[i] Het antwoord is erg duidelijk. Het lijkt er eerder op dat de Cito-score van de zwakke Amsterdamse scholen die dit kwaliteitsprogramma volgden relatief achterblijven bij die van zwakke scholen in de drie andere grote steden, maar ook die in 38 grote en middelgrote steden en zelfs bij de landelijke trend. Onderstaande figuur illustreert de uitkomsten. Terwijl alle Cito-scores van de zwakke scholen tussen 2008 en 2012 stijgen, blijven die van de Amsterdamse zwakke scholen relatief achter. Het rapport doet via allerlei additionele analyses zijn best te testen of dit Amsterdamse achterblijven voor specifieke groepen leerlingen of scholen niet opgaat, maar blijkt niet het geval te zijn.
Bron: CPB-rapport, blz. 12
Ik heb echter twijfels bij de aannames van het quasi-experimentele onderzoeksdesign. Ik probeer in deze bijdrage deze aannames te toetsen. Mijn conclusie is dat in dit geval de voorwaarden voor een quasi-experimentele aanpak niet vervuld zijn.
Regionale ongelijkheid in de definitie van zwakke scholen
De eerste aanname is dat de inspectie een nationale maatstaf heeft voor het vaststellen van zwakke scholen waarin geen regionale verschillen optreden. Het CPB rapport stelt op blz. 10 dat de 614 zwakke scholen, die de kern van de analyse vormen, vergelijkbaar zijn in onderwijskwaliteit op grond van nationale maatstaven van de onderwijsinspectie. Het beslissingschema op grond waarvan de inspectie besluit dat een basisschool zwak is, kent een groot aantal stappen en subjectieve criteria. Bovendien speelt ook de regionale inspecteur in de uiteindelijke weging van de vele soms tegenstrijdige factoren een eigen rol, waardoor er regionale verschillen in de percentage zwakke scholen zijn.[ii]
De hierboven weergegeven figuur uit het CPB rapport laat dit zien. Voor 2008 zijn de Cito-scores per regio erg verschillend. De gemiddelde zwakke school heeft de laagste Cito-scores in de drie grote steden (528), terwijl die van de zwakke scholen in de rest van Nederland 532 bedroeg. De scores voor Amsterdam en 38 andere steden vallen tussen deze extremen in (530). Die veronderstelde nationale maatstaven worden dus blijkbaar zeer flexibel en ook regionaal verschillend toegepast. Een school in Rotterdam, Den Haag en Rotterdam wordt pas bij lagere Cito-scores als zwak bestempeld dan in Amsterdam of in de 38 andere steden. Deze grote regionale verschillen laten zien dat er dus geen nationale maatstaf bestaat voor zwakke basisscholen.
Regressie-naar-het-midden
Regressie-naar-het-midden is een bekend wiskundig verschijnsel: de kans dat een persoon of een instelling die op een normaal verdeelde test ver onder het gemiddelde scoort de tweede keer hoger scoort, is groter dan de kans dat die persoon of instelling even laag of nog lager scoort. Bovendient geldt: hoe verder weg van het gemiddelde, des te krachtiger werkt deze regressie-naar-het-midden.
Het verloop van de lijnen in bovenstaande CPB figuur kan vanuit de regressie-naar-het-midden verklaard worden: scholen die eerst zeer laag scoren op de cito-toets, hebben een volgend jaar een grotere kans hoger te scoren. Het CPB ziet ook deze stijging van de cito-scores van zwakke scholen, maar schrijft die geheel toe aan het succes van het inspectie ingrijpen (voetnoot 16) en vergeet regressie-naar-het-midden als mogelijke verklaring van deze verbetering in de scores.
Nu behoeft die regressie-naar-het-midden niet erg te zijn, zolang maar in alle regio’s een vergelijkbaar percentage van de scholen zwak is. Maar in 2008 waren er landelijk 10,6% zwakke basisscholen, in de vier grote steden 14,1% en in Amsterdam 20,2%.[iii] Omdat in Amsterdam een hoger percentage zwakke scholen zijn, zal de regressie-naar-het-midden bij Amsterdamse scholen zwakker zijn dan in de drie grote steden, de 38 steden en de rest van Nederland. Daarom hoeft de minder sterke stijging van de Cito-scores in Amsterdam geen gevolg van enig (mislukt) beleid te zijn, maar is het ‘slechts’ het gevolg van het wiskundig verschijnsel van regressie-naar-het-midden. In dat geval zou een correctie moeten plaats te vinden voor die verschillen in regressie-naar-het-midden.[iv]
Kortom, de regionale verschillen bij het vaststellen van zwakke scholen kunnen (gedeeltelijk) verklaren waarom de cito-scores van Amsterdamse scholen na 2008 achterblijven bij die van andere regio’s.
De onvoldoende controle voor sociaal-economische samenstelling
Een tweede aanname is dat de segregatie tussen basisscholen in sociaal-economische samenstelling tussen 2008 en 2012 niet verandert of dat die verandering in alle regio’s even sterk is. Het CPB houdt gedeeltelijk maar rekening met de sociale achtergrond van leerlingen middels gewichten (=laagopgeleide ouders) en thuistaal, maar dat is volstrekt onvoldoende. De sociale status van de postcodes van de leerlingen is, naast de gewichten (=laag opgeleide ouders), een belangrijke voorspeller van de hoogte van de Cito-score gebleken. Het is mij niet duidelijk waarom het CPB niet die postcodes van de leerlingen heeft gebruikt voor de nauwkeuriger meting van de sociaal-economische compositie van de zwakke scholen.[v] Het CPB rapport controleert dus onvoldoende voor de sociale compositie van de zwakke scholen, en dat ondermijnt de validiteit van de uitkomsten.
Te veel missende waarden
Bovendien laat tabel 3 van het CPB rapport een belangrijk gebrek in de Amsterdamse data uit 2008 zien. Het gewicht van 66% van de leerlingen in Amsterdam was in 2008 onbekend, terwijl dat in 2012 4% was. Omdat tabel 3 de gecombineerde uitkomsten over de vier grote steden geeft, is niet goed vast te stellen of de drie andere grote steden een even hoog percentage onbekend gewicht had in 2008; de 55% over de vier grote steden suggereert dat alleen in Amsterdam de gewichten onbekend waren, maar niet in de andere drie grote steden. Dat betekent dat in de analyse voor Amsterdam onvoldoende gecontroleerd kan worden voor de gewichten en gegeven de betekenis van sociaal-economische achtergrond voor de Cito-score is dat een ernstig probleem voor de uitkomsten.[vi]
Toenemende segregatie op postcodeniveau
Dit zou niet heel erg zijn als de sociale compositie van de zwakke basisscholen tussen 2008 en 2012 min of meer gelijk bleef of in alle regio’s of op de zelfde wijze toenam. Maar juist in Amsterdam zou de sociaal-economische segregatie van postcodes en dus basisscholen sneller gegroeid kunnen zijn dan elders, en wel om twee redenen:
- De concurrentie bij de toegang tot de betere scholen is tussen 2008 en 2012 sterker gegroeid: meer loten bij toelating, geen groei in de omvang van de betere scholen (het gemeentelijke gehannes rond meer categoriale gymnasia), etc. Door deze toegenomen concurrentie zou het belang van de Cito-toets en het advies in Amsterdam harder gegroeid zijn dan elders en is dus het belang van de keuze van de basisschool ook groter geworden. Daardoor zouden de beter opgeleide Amsterdamse ouders hoe langer hoe meer de zwakkere scholen mijden, nog meer dan even hoog opgeleide ouders buiten Amsterdam.
- Het lijkt erop dat gedurende de periode 2008-2012 in Amsterdam een (informeel) postcodebeleid voor basisscholen is ingevoerd, vooral voor scholen met hoge Cito-scores. Daardoor wordt het hoe langer hoe moeilijker voor ouders buiten hun postcodegebied een goede basisschool voor hun kinderen te vinden. Dat is vooral voor lager geschoolde ouders een belemmering bij de schoolkeuze, want zij hebben minder financiële mogelijkheden een huis te kopen in postcodes waarin de betere basisscholen staan. Daardoor lijkt in deze periode de relatie tussen huizenprijzen en Cito-scores van de dichtstbijzijnde basisscholen in Groot-Amsterdam te zijn toegenomen (De Graaff & Dronkers, 2014).
Door de gebrekkige meting van de sociaal-economische samenstelling van de zwakke basisscholen (alleen gewichten, waarbij die in 2008 bij te veel leerlingen onbekend was) mist de CPB-analyse de toegenomen sociaal-economische segregatie van wijken en scholen in Amsterdam, waardoor de uitkomsten incorrect kunnen zijn. Het relatieve achterblijven van de zwakke basisscholen zou daarom verklaard kunnen worden door een sterker gegroeide segregatie van scholen en postcodes in Amsterdam.
Kortom: de grotere concurrentie bij de toegang tot de betere VO-scholen, de sluipende invoering van het postcodebeleid en de daarmee samenhangende postcodesegregatie zouden de eventuele positieve effecten van het kwaliteitsbeleid in Amsterdam geneutraliseerd kunnen hebben.
Conclusie
Deze twijfels betekent niet dat er wel een positief effect bestaat van het Amsterdamse kwaliteitsbeleid. De twijfels laten vooral zien hoe moeilijk het is in samenlevingen een quasi-experimenteel design te realiseren. De sociale werkelijkheid is meestal te gecompliceerd voor een quasi-experimenteel design, laat staan voor een dubbel-blinde vergelijking van serieuze interventies. Dat is geen reden om nooit meer quasi-experimenten uit te voeren. Maar voor een op feiten gebaseerd onderwijsbeleid is vaak een nauwkeurige meting van alle relevante factoren effectiever dan de gemakkelijk betwistbare aannames van een quasi-experiment.
Mijn twijfels betekenen niet dat na een mogelijke correctie voor bovenstaande problemen in de aannames er een positief effect van het Amsterdamse kwaliteitsbeleid uit zal komen. Ik gok eerder op een geen-verschil uitkomst dan de negatieve uitkomst in het CPB rapport.
Deze twijfel betekent ook niet dat de smoezen van de verantwoordelijke wethouder veel hout snijden.[vii] Binnen de beperkte mogelijkheden en de gebrekkige Amsterdamse data is het CPB-rapport voorbeeldig. De wethouder heeft niet meer mogelijkheden om het effect van het kwaliteitsprogramma te kunnen meten. Hij heeft alleen maar zijn politieke opvattingen, en die leiden nooit tot een betrouwbaardere analyse.
Literatuur
Elk, R. Van & Kok, S. 2014. The impact of a comprehensive school reform policy for failing schools on educational achievement; the resultsof the first four years. CPB Discussion Paper 264. Den Haag: CPB.
Graaff, T. de & Dronkers, J. 2014. The effect of primary school quality on housing prices in Amsterdam. Poster op de conferentie Education Systems: Inequalities, Labour Markets and Civic Engagement. Amsterdam 12 & 13 Februari 2014.
Peschar, J. L. 1975. Milieu-School-Beroep. Een achteraf-experiment naar de invloed van sociaal milieu op school-en beroepsloopbaan over de periode 1958-1973. Groningen: H.D. Tjeenk Willink. Handelsuitgave van dissertatie R.U. Groningen.
Peschar, J. L. 1976. Andermaal de invloed van regressieeffecten. Tijdschrift voor de Onderwijsresearch 1: 137-138.
Scheerens, J. & Bosker, R. 1997. The Foundations of Educational Effectiveness. Kidlington/New York/Toyko: Pergamon.
Weele, M. van der, & Dalfsen, H. Van. 2012. Eerste Resultaten Kwaliteitsaanpak Basisonderwijs Amsterdam. Amsterdam: Dienst Maatschappelijke Ontwikkeling Gemeente Amsterdam.
Noten
[i] Het feit dat deze CPB analyse van een lokaal onderwijsbeleid in het Engels geschreven is, vormt een mooie illustratie van de groeiende tweetaligheid van de Nederlandse samenleving en het staatsapparaat (zie J. Dronkers, 16 juli 2013. Sluipenderwijze wordt Nederland tweetalig. De Volkskrant.
[ii] De sterke daling in het aantal zwakke scholen in Amsterdam tussen 2008 en 2012 zou ook een gevolg kunnen zijn van deze regionale variatie en de subjectieve afweging van de regionale inspecteur.
[iv] Regressie-naar-het-midden was ook aan de orde bij de eerste onderwijssociologische studie, waarin een quasi-experimenteel design werd gebruikt (Peschar, 1975). De psycholoog A. D. de Groot meende dat de resultaten met regressie-naar-het-midden konden worden verklaard. Peschar (1976) liet vervolgens zien dat zijn resultaten bleven staan, ook na correctie voor regressie-naar-het-midden. Economen bekommeren zich meestal niet om resultaten uit andere wetenschappen. De literatuurlijst bij dit CPB rapport illustreert nog eens deze beperkte focus. Die beperking wreekt zich als economen zich, zoals in dit geval, bezighouden met een terrein (onderwijs) dat al veel langer onderzocht wordt door andere wetenschappen (psychologie, sociologie).
[v] Voor toepassingen van de sociaal-economische status van postcodes op schoolkwaliteit zie tabel 2 van mijn toelichting op de RTL publicatie van de cito-cijfers of tabel 6 van mijn toelichting bij de kwaliteitsmeting in het voortgezet onderwijs.
[vi] Sociaal-economische samenstelling van de leerlingpopulatie is sinds het baanbrekende werk van James Coleman in de jaren ’60 nog steeds het belangrijkste schoolkenmerk, zelfs belangrijker dan de kwaliteit van het docententeam (Scheerens & Bosker, 1997).
[vii] Het belangrijkste argument van de wethouder is het beter presteren van de scholen in de ogen van de experts (Weele & Dalfsen, 2012). Deze experts volgen vanaf het begin van de kwaliteitsaanpak de zelfde scholen en komen tot een steeds positiever oordeel over het functioneren van de scholen. Al in dit rapport uit 2012 werd duidelijk dat de experts veel positiever over de verbeteringen waren dan de groei in cito-scores zou rechtvaardigen. Deze tegenstelling is te wijten aan de foute onderzoeksopzet van dat rapport. Doordat dezelfde experts verbonden bleven aan dezelfde scholen, ontstond er een band tussen scholen en experts en gingen de laatstgenoemde steeds positiever denken over de scholen (het gevaar van ‘going native’ van de antropoloog). Hier opnieuw: de aannames van een quasi-experimentele opzet zijn in de maatschappelijke werkelijkheid vaak irreëel, bijvoorbeeld omdat experts ook maar mensen zijn.
Jaap Dronkers zegt
Een aanvulling:
Wat betekent geen-verschil of een negatief verschil uitkomst in het CPB-rapport precies? Veel reageerders hebben dit niet begrepen. Het CPB rapport zegt dat ook niet duidelijk en zet de lezers op het foute been. Het rapport zegt dat de introductie van het Amsterdamse kwaliteitsprogramma de cito-eindscores negatief heeft beïnvloed. Die formulering is gezien de opzet van het onderzoek te kort door de bocht.
Het rapport had moeten zegen dat de introductie van het Amsterdamse kwaliteitsprogramma de cito-eindscores van de Amsterdamse zwakke scholen minder snel verbeterd heeft dan de cito-eindscores van de zwakke scholen elders. Als de uitkomst zou luiden dat er geen significant verschil is na correctie voor de gesignaleerde onvolkomenheden, betekent dat de snelheid waarin zwakke scholen elders verbeteren niet afwijkt van de verbetersnelheid van zwakke scholen in Amsterdam.
Dat is niet raar want geen enkele bestuur gaat bij een zwakke school op zijn handen gaat zitten. Eerdere studies (Koning & van der Wiel, 2012) hebben al laten zien dat besturen en scholen hun beleid bijstellen en alles in het werk stellen om van het predicaat zwakke school af te komen. Daarom wed ik ook op geen effect, want waarom zou het Amsterdamse beleid effectiever zijn dan het beleid elders? De onderwijsorganisatie OMO (groot in het zuiden des lands) is echt niet trager of slechter dan de dienst Onderwijs & Jeugd van de gemeente Amsterdam.
Ook de niet-Amsterdamse verantwoordelijken stoppen extra geld in zwakke scholen, moeten personeel wegsturen, ontmoeten weerstand bij bestuurders, etc. Ook daarin is Amsterdam niet uniek (hoofdstuk 7 uit het CPB rapport met de interviews lijkt dat te suggereren, maar er is in dat hoofdstuk geen spoor van een systematische vergelijking met elders). Bovendien past dat Amsterdamse beleid goed in de tijdgeest, maar die tijdgeest is elders niet veel anders dan binnen Amsterdam.
De geen-verschil uitkomst betekent dat het Amsterdamse onderwijsbeleid niet beter is dan het onderwijsbeleid elders. Als het negatieve effect toch overeind blijft na correcties voor de onvolkomenheden van het CPB-rapport, betekent niet dat de kwaliteitsaanpak van zwakke scholen niet heeft gewerkt, maar dat het gemiddeld beleid elders ten aanzien van zwakke scholen beter is. Alleen diegenen die denken dat buiten Amsterdam alles slechter is, kunnen hierdoor verbaasd zijn.
Tot slot, de wethouder laat zien dat hij het CPB rapport niet goed gelezen heeft. In tabel A.3 van de appendix voert het CPB dezelfde analyse uit voor uitsluitend de 11 zwakke scholen die deelnamen aan het kwaliteitsprogramma, maar deze beperking verandert de resultaten niet.
P. Koning and K. van der Wiel, School Responsiveness to Quality Reports: An Empirical Analysis of Secondary Education in The Netherlands (2012), De Economist, Vol. 160 (4), p. 339-355.
ryhason zegt
Kennen jullie het boek van H.E.Ravitch: how testing and choice are undermining the great Amsrican schoolsystem.
Zeer het lezen waard; zij was destijds betrokken bij het project a nation at risk.
Toetsdriven onderwijs blaming en shamingniets niet van dit alles hielp uiteindelijk fundamenteel.
Ik vroeg laatst aan een directeur van een basisschool zo hoe kom je aan die hogere score antwoord: Cito Toetsen oefenen…inmiddels zijn ook via de LOI dit soort voorbereidingstoetsen te koop. Is dit allemaal wel de juiste weg vraag je je af? Is niet veel meer het ontsteken van een vuur in jongeren veel belangrijker om te meten? Maar dat is lastig te meten…….denk dat onderwijskwaliteitsverbetering iets anders is dan alleen maar toetsen…..en daarop je resultaten baseren.
Mik van Es zegt
Dit is een interessante verklaring voor het gevonden achterblijven van de Amsterdamse scholen.
In de figuur zie ik echter voor de periode waarin de KBA-aanpak nog niet gevolgd werd, de Amsterdamse scholen vrij precies de lijn van ‘other_cities_G38’ volgen en na 2008 (de periode waarin de KBA-aanpak wordt gevolgd) duidelijk negatief afwijken van die lijn. Ik ben dus geneigd te denken dat er wel degelijk een negatief effect te zien valt. Of dat inderdaad komt door de KBA-aanpak weet je natuurlijk nooit 100% zeker, maar het lijkt wel heel goed mogelijk.
Verder heb ik de vrijheid genomen die KBA-aanpak eens wat beter te bekijken via de pdf KBA Verbeteraanpak van de Gemeente Amsterdam en daar vind ik geen evidentie dat hun methode zou werken. Er is dus kennelijk geen enkele empirische evidentie voor die hele methode.
Als je dan het rapport van Van der Weele en Van Dalfsen bekijkt, krijg je toch wel heel sterk het idee dat er een stel onderwijskundige amateurs aan het werk zijn geweest.
Ik denk dat dit een goed voorbeeld is, hoe onderwijsvernieuwing in ieder geval niet moet.
Mik van Es zegt
Ter vergelijking nog het volgende. Onze nieuw ontwikkelde TAVAN-methode levert in 20 lesuren bij eerstejaarsstudenten in het hbo een verbetering van de schrijfvaardigheid op met meer dan 1 standaarddeviatie. Stel dat die methode bij basisschool-leerlingen na aanpassing 40 uur nodig heeft om hetzelfde resultaat te bereiken. Dan heb je dus in de praktijk een positief effect op de taalvaardigheid (wat overwegend door de CITO eindtoets basisonderwijs gemeten wordt) van ongeveer 1 SD vrijwel zonder extra kosten in plaats van een negatief effect voor een hoop extra kosten. De kosten van TAVAN bestaan alleen uit het bijwerken van het lesmateriaal (de courseware) en de server en het beheer daarvan. Ik denk dat je dat met wat moeite kunt realiseren voor ongeveer 1 euro per leerlinguur. Dan praat je dus over 40 euro per leerling per jaar in plaats van de 680 euro die de Gemeente Amsterdam volgens de CPB-studie (p. 8) nu uitgaf.