Genre classifier

KB Lab GitHub Over deze tool

Deze tool classificeert automatisch het genre van een specifieke nieuwstekst en is erop gericht om historische krantenartikelen automatisch te kunnen categoriseren op basis van genre. Genre wordt hierbij gedefinieerd als “[L]anguage use in a conventionalized communicative setting in order to give expression to a specific set of communicative goals of a disciplinary or social institution, which give rise to stable structural forms” (Handford, 2010).

De tool is het resultaat van een eerste poging om de genre classificatie van historische teksten te automatiseren en moet nog verder worden ontwikkeld. De tool is tot stand gekomen binnen het Researcher-in-Residence project van dr. Frank Harbers (Rijkuniversiteit Groningen), waarbij hij in samenwerking met Juliette Lonij (Koninklijke Bibliotheek) op basis van machine learning technieken een classifier heeft getraind aan de hand van een dataset die is voortgekomen uit zijn promotieonderzoek ('Between Personal Experience and Detached Information. The development of reporting and the reportage in Great Britain, the Netherlands and France, 1880-2005'). Voor dit onderzoek heeft hij een grootschalige kwantitatieve inhoudsanalyse uitgevoerd op een krantensample uit de periode tussen 1880 en 2005.

Een corpus van ca. 2000 artikelen uit Algemeen Handelsblad en NRC Handelsblad uit respectievelijk 1965 en 1985 is gebruikt als trainingsset. Aspecten van de artikelen die bekeken worden om het genre te voorspellen zijn onder andere de lengte van het artikel, het voorkomen van verschillende typen leestekens, persoonlijk voornaamwoorden en bijvoeglijk naamwoorden en de aanwezigheid en positie van (unieke) namen in het artikel. Op dit moment weet de classifier in ca. 65% van de gevallen het juiste genre van een tekst te voorspellen.