Kan de computer frames in teksten analyseren?

De analyse van teksten is in de sociale wetenschappen een belangrijke methode en ook veel toegepast onderzoek maakt gebruik van inhoudsanalyse. Ging dat vroeger op basis van papieren kranten en knipselmappen, tegenwoordig maken digitale, online archieven het de onderzoeker een stuk makkelijker. En moest nog niet zo lang geleden alles met de hand geanalyseerd worden op relevante karakteristieken, nu kan de computer een flink deel van het werk overnemen. Coderingen door de computer worden veelvuldig gebruikt en een veelheid van technieken bestaan. Grofweg kan een onderscheid gemaakt worden tussen ‘bottom-up’ technieken, waarin inductief te werk gegaan wordt en zonder tevoren gedefinieerde categorieën (bijvoorbeeld onderwerpen of frames) en ‘top-down’ technieken, waarin deductief gebruik gemaakt wordt van tevoren gedefinieerde categorieën.

Supervised machine learning

Eén van de veelvuldige gebruikte inductieve technieken is het zogenaamde ‘supervised machine learning’ (SML). Hierbij wordt op basis van een handmatig gecodeerde dataset een algoritme ontwikkeld waarmee teksten die buiten de oorspronkelijke dataset liggen geclassificeerd worden. In een recent artikel bespreken Björn Burscher, Daan Odijk, Maarten de Rijke, Claes de Vreese en ik een voorbeeld van SML (hier, paywall). In de literatuur worden voor de inhoudsanalyse van mediaberichtgeving diverse ‘generieke frames’ geïdentificeerd. Deze frames zijn toepasbaar op een veelheid van maatschappelijke en politieke onderwerpen en geven een globale invalshoek van de berichtgeving over die onderwerpen. Een voorbeeld is het ‘conflict frame’ waarin onenigheid en meningsverschillen over een bepaald onderwerp centraal staan. Andere voorbeelden zijn het ‘human interest’ frame, moraliteitsframe en economische gevolgen frame.

Aanpak

Van alle krantenartikelen die op de voorpagina’s van de Volkskrant, Trouw en de Telegraaf verschenen in de periode 1995-2011 is een steekproef van ongeveer 13 procent gecodeerd door menselijke codeurs. Zij moesten aangeven of bepaalde frames aanwezig waren of niet door het beantwoorden van indicatorvragen als: ‘Is er in het artikel sprake van onenigheid tussen partijen, individuen, groepen of landen?’. De 11.074 gecodeerde artikelen vormen de training- en testset. Op basis van een deel van de gecodeerde artikelen wordt er een algoritme ontwikkeld die andere krantenartikelen op basis van overeenkomsten met de gecodeerde artikelen classificeert: zo wordt van een artikel dat erg lijkt op een artikel waarin het conflict frame voorkomt door de computer gesteld dat deze met hoge waarschijnlijkheid ook een conflict frame bevat. De kwaliteit wordt vastgesteld aan de hand van een ander deel van de gecodeerde artikelen, waarbij de menselijke codering vergeleken wordt met de computercodering.

Succesvol

De resultaten zijn verrassend goed voor de vier verschillende frames. Het percentage dat correct voorspeld wordt door de computer varieert van 79 procent (human interest frame) tot 96 procent (moraliteitsframe) – afhankelijk van hoeveel van de handmatig gecodeerde krantenartikelen uit de trainingsset worden gebruikt om de computer mee te trainen (zie figuur).

Dit betekent dat we op basis van de computercoderingen de 87 procent voorpagina artikelen die we niet met de hand gecodeerd hebben door de computer op een relatief betrouwbare manier kunnen laten coderen. Dit scheelt een grote hoeveelheid tijd, energie en kosten. Het is slechts één van de mogelijkheden die informatietechnologie biedt om middels inhoudsanalyse relevante sociaal-wetenschappelijke vragen te beantwoorden.

Kan de computer frames in teksten analyseren?

Rens Vliegenthart

De ideologie van Forum voor Democratie

De ongemakkelijke realiteit van de antivaccinatie-beweging

Wat als… Nederland het Britse kiesstelsel zou hebben?

Wat doen digitale advertenties met je stemgedrag?

Update Eerste Kamer: Strijd tussen middelgrote partijen

Wilders heeft een punt. Nederlandse volksvertegenwoordigers lopen uit de pas met de kiezer

Over de auteur

Reader Interactions

Geef een reactie Reactie annuleren