De analyse van teksten is in de sociale wetenschappen een belangrijke methode en ook veel toegepast onderzoek maakt gebruik van inhoudsanalyse. Ging dat vroeger op basis van papieren kranten en knipselmappen, tegenwoordig maken digitale, online archieven het de onderzoeker een stuk makkelijker. En moest nog niet zo lang geleden alles met de hand geanalyseerd worden op relevante karakteristieken, nu kan de computer een flink deel van het werk overnemen. Coderingen door de computer worden veelvuldig gebruikt en een veelheid van technieken bestaan. Grofweg kan een onderscheid gemaakt worden tussen ‘bottom-up’ technieken, waarin inductief te werk gegaan wordt en zonder tevoren gedefinieerde categorieën (bijvoorbeeld onderwerpen of frames) en ‘top-down’ technieken, waarin deductief gebruik gemaakt wordt van tevoren gedefinieerde categorieën.
Supervised machine learning
Eén van de veelvuldige gebruikte inductieve technieken is het zogenaamde ‘supervised machine learning’ (SML). Hierbij wordt op basis van een handmatig gecodeerde dataset een algoritme ontwikkeld waarmee teksten die buiten de oorspronkelijke dataset liggen geclassificeerd worden. In een recent artikel bespreken Björn Burscher, Daan Odijk, Maarten de Rijke, Claes de Vreese en ik een voorbeeld van SML (hier, paywall). In de literatuur worden voor de inhoudsanalyse van mediaberichtgeving diverse ‘generieke frames’ geïdentificeerd. Deze frames zijn toepasbaar op een veelheid van maatschappelijke en politieke onderwerpen en geven een globale invalshoek van de berichtgeving over die onderwerpen. Een voorbeeld is het ‘conflict frame’ waarin onenigheid en meningsverschillen over een bepaald onderwerp centraal staan. Andere voorbeelden zijn het ‘human interest’ frame, moraliteitsframe en economische gevolgen frame.
Aanpak
Van alle krantenartikelen die op de voorpagina’s van de Volkskrant, Trouw en de Telegraaf verschenen in de periode 1995-2011 is een steekproef van ongeveer 13 procent gecodeerd door menselijke codeurs. Zij moesten aangeven of bepaalde frames aanwezig waren of niet door het beantwoorden van indicatorvragen als: ‘Is er in het artikel sprake van onenigheid tussen partijen, individuen, groepen of landen?’. De 11.074 gecodeerde artikelen vormen de training- en testset. Op basis van een deel van de gecodeerde artikelen wordt er een algoritme ontwikkeld die andere krantenartikelen op basis van overeenkomsten met de gecodeerde artikelen classificeert: zo wordt van een artikel dat erg lijkt op een artikel waarin het conflict frame voorkomt door de computer gesteld dat deze met hoge waarschijnlijkheid ook een conflict frame bevat. De kwaliteit wordt vastgesteld aan de hand van een ander deel van de gecodeerde artikelen, waarbij de menselijke codering vergeleken wordt met de computercodering.
Succesvol
De resultaten zijn verrassend goed voor de vier verschillende frames. Het percentage dat correct voorspeld wordt door de computer varieert van 79 procent (human interest frame) tot 96 procent (moraliteitsframe) – afhankelijk van hoeveel van de handmatig gecodeerde krantenartikelen uit de trainingsset worden gebruikt om de computer mee te trainen (zie figuur).
Dit betekent dat we op basis van de computercoderingen de 87 procent voorpagina artikelen die we niet met de hand gecodeerd hebben door de computer op een relatief betrouwbare manier kunnen laten coderen. Dit scheelt een grote hoeveelheid tijd, energie en kosten. Het is slechts één van de mogelijkheden die informatietechnologie biedt om middels inhoudsanalyse relevante sociaal-wetenschappelijke vragen te beantwoorden.
Geef een reactie
Je moet inloggen om een reactie te kunnen plaatsen.