Analyse von News-Artikeln mit Natural Language Processing
In den letzten Jahren wurde dank der Technologien im Big Data- und Machine Learning-Umfeld ein gigantisches Potenzial für die Auswertung grosser Datenmengen im Medienbereich eröffnet. Die zunehmende Digitalisierung von Medieninhalten, z.B. durch die Verfügbarkeit von Zeitungsartikeln in Online-Archiven, hat ebenfalls zu diesem Trend beigetragen. Diese Bachelorarbeit, die 2023 an der Berner Fachhochschule eingericht wurde, will dieses Potenzial nutzen. Es wurden sämtliche Auslandsseiten der Jahre 2006 bis 2022 aus der Berner Tages-zeitung «Der Bund» mit Natural Language Processing auf ihre Themenschwerpunkte hin analysiert. Es handelt sich insgesamt um rund 5000 Ausgaben. Das Ziel war die Erstellung einer Themenkarte pro Erscheinungsjahr, auf denen die Themenkreise farblich herausgehoben werden sollen.

Technologiestack
Für die Umsetzung des Projektes wurden die in einem früheren Projekt gewonnenen PDFs der Auslandsseiten mithilfe von Apache Tika paragraphenweise ausgelesen. Die Daten wurden anschliessend in einer MongoDB gespeichert.
Für die Themenextraktion wurde BERTopic, eine auf Bidirectional Encoder Repre-sentations from Transformers (BERT) basierende Pipeline, genutzt. BERTopic ist auf das Extrahieren von Themen ausgelegt und beinhaltet im Einzelnen die folgenden Schritte:
- Daten in numerische Werte umwandeln (Embedding)
- Dimensionalität reduzieren
- Daten Clustern
- Aufteilung der Themen in Tokens
- Cluster gegeneinander abgrenzen
- Ergebnisse ggf. optimieren
Die so gewonnenen Themen wurden in der Graphdatenbank Neo4j gespeichert. Die ermittelten Themen liessen sich mit dem Graphvisualisierungstool Gephi zu einer Themenlandkarte zusammenfassen und es konnten spannende Veränderungen der Themenlandschaft zwischen 2006 und 2022 aufgezeigt werden.

Themengruppen
Mit der Louvainmethode wird die Dichte der Verbindungen gemessen und so können Untergruppen in einem Nezwerk identifiziert werden.
Diese Themenkategorien wurden anschliessend farblich gegeneinander abgegrenzt. So konnten 12 Themengruppen festgelegt werden:
- Europäische Union (hellblau)
- Lateinamerika und Vatikan (türkis)
- USA (hellgrün)
- Russland (olivgrün)
- Osteuropa und Balkan (lachsfarben)
- Politik der Nachbarländer (lila)
- Asien (rosa)
- Naher Osten (orange)
- Undefinierte Themenbereiche (gelb, olivgrün und hellrosa)
- Fremdthema Sport (lavendel)

Top 100 Themen
Die 100 häufigsten Themen sind diejenigen Themen mit den meisten Kanten über alle 17 Jahre.

Unterthemen
Unterthemen einzelner Themengruppen lassen sich mit der Louvainmethode ebefalls ermitteln. Hier wurde das mit dem Thema ‚Asien‘ exemplarisch gemacht. An diesem Beispiel zeigt sich deutlich die Fähigkeit der Louvainmethode.

Es konnten 5 sinnvolle Untergruppen ermittelt werden:
- China/Hongkong (braun)
- Tibet (orange)
- Indien (grün)
- Korea (türkis)
- Japan (lila)

Alle Themenkarten einzeln
















