Mapping the News

Analyse von News-Artikeln mit Natural Language Processing

2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

In den letzten Jahren wurde dank der Technologien im Big Data- und Machine Learning-Umfeld ein gigantisches Potenzial für die Auswertung grosser Datenmengen im Medienbereich eröffnet. Die zunehmende Digitalisierung von Medieninhalten, z.B. durch die Verfügbarkeit von Zeitungsartikeln in Online-Archiven, hat ebenfalls zu diesem Trend beigetragen. Diese Bachelorarbeit, die 2023 an der Berner Fachhochschule eingericht wurde, will dieses Potenzial nutzen. Es wurden sämtliche Auslandsseiten der Jahre 2006 bis 2022 aus der Berner Tages-zeitung «Der Bund» mit Natural Language Processing auf ihre Themenschwerpunkte hin analysiert. Es handelt sich insgesamt um rund 5000 Ausgaben.

Technologiestack

Für die Umsetzung des Projektes wurden die in einem früheren Projekt gewonnenen PDFs der Auslandsseiten mithilfe von Apache Tika paragraphenweise ausgelesen. Die Daten wurden anschliessend in einer MongoDB gespeichert.

Für die Themenextraktion wurde BERTopic, eine auf Bidirectional Encoder Repre-sentations from Transformers  (BERT) basierende Pipeline, genutzt. BERTopic ist auf das Extrahieren von Themen ausgelegt und beinhaltet im Einzelnen die folgenden Schritte:

  1. Daten in numerische Werte umwandeln (Embedding)
  2. Dimensionalität reduzieren
  3. Daten Clustern
  4. Aufteilung der Themen in Tokens
  5. Cluster gegeneinander abgrenzen
  6. Ergebnisse ggf. optimieren

Die so gewonnenen Themen wurden in der Graphdatenbank Neo4j gespeichert. Die ermittelten Themen liessen sich mit dem Graphvisualisierungstool Gephi zu einer Themenlandkarte zusammenfassen und es konnten spannende Veränderungen der Themenlandschaft zwischen 2006 und 2022 aufgezeigt werden.

Themengruppen

Mit der Louvainmethode wird die Dichte der Verbindungen gemessen und so können Untergruppen in einem Nezwerk identifiziert werden.
Diese Themenkategorien wurden anschliessend farblich gegeneinander abgegrenzt. So konnten 12 Themengruppen festgelegt werden:

  • Europäische Union (hellblau)
  • Lateinamerika und Vatikan (türkis)
  • USA (hellgrün)
  • Russland (olivgrün)
  • Osteuropa und Balkan (lachsfarben)
  • Politik der Nachbarländer (lila)
  • Asien (rosa)
  • Naher Osten (orange)
  • Undefinierte Themenbereiche (gelb, olivgrün und hellrosa)
  • Fremdthema Sport (lavendel)
Top 100 Themen

Die 100 häufigsten Themen sind diejenigen Themen mit den meisten Kanten über alle 17 Jahre.

Unterthemen

Unterthemen einzelner Themengruppen lassen sich mit der Louvainmethode ebefalls ermitteln. Hier wurde das mit dem Thema ‚Asien‘ exemplarisch gemacht. An diesem Beispiel zeigt sich deutlich die Fähigkeit der Louvainmethode.

Es konnten 5 sinnvolle Untergruppen ermittelt werden:

  • China/Hongkong (braun)
  • Tibet (orange)
  • Indien (grün)
  • Korea (türkis)
  • Japan (lila)

Alle Themenkarten einzeln