16. Mai 2022
Jens Bontinck

Vlaamse Radio- en Televisieomroeporganisatie

Automatisierung der Erstellung von VRT-Nachrichtenzusammenfassungen mit Hilfe von Natural Language Processing

Natural Language Processing

Auswirkung

Das KI-gesteuerte Modell ist ein leistungsfähiges Instrument zur Unterstützung von Journalisten bei ihrer Schreibarbeit, indem es die Erstellung von Zusammenfassungen beschleunigt und alternative Formulierungen vorschlägt. Auf diese Weise können menschliche Kreativität und KI ihre sich ergänzenden Stärken gegenseitig verstärken und qualitativ hochwertige Ergebnisse liefern.

Der Kunde

Die VRT ist die nationale öffentlich-rechtliche Rundfunkanstalt für die Flämische Gemeinschaft Belgiens. Mit ihren drei Fernsehkanälen, fünf Radiosendern und verschiedenen digitalen Kanälen erreicht die VRT jede Woche bis zu 90 % der flämischen Bevölkerung. Der VRT NWS ist der Nachrichtendienst der VRT und hat das Ziel, die flämische Bevölkerung über seine verschiedenen Kanäle (wie die Website, die Anwendung und Live-Fernsehübertragungen) über die nationalen und internationalen Nachrichten zu informieren. Der VRT hat auch eine Innovationsabteilung, die in enger Zusammenarbeit mit den Endnutzern ständig neue Technologien und Anwendungen für Medienzwecke erforscht. 

Die Herausforderung

Nachrichtenartikel auf der Website des VRT NWS bestehen in der Regel aus einer kurzen Zusammenfassung, gefolgt von dem gesamten Artikel. Die Zusammenfassung ist eine komprimierte Version des Artikels und fasst die wichtigsten Punkte des Artikels zusammen. Da die Erstellung von Zusammenfassungen ein sich wiederholender und zeitaufwändiger Prozess ist, untersuchte die Innovationsabteilung des VRT die Möglichkeit, diese Tätigkeit mithilfe von Natural Language Processing zu automatisieren. Dabei kommen zwei Ansätze in Frage: die extraktive und die abstrakte Zusammenfassung. Die extraktive Zusammenfassung konzentriert sich auf die Identifizierung der wichtigsten Teile des Artikels und erzeugt eine Reihe von Sätzen aus dem Originaltext, während die abstraktive Methode einen neuen Text auf der Grundlage der Interpretation des Artikels erzeugt. Die VRT entschied sich für die abstrahierende Methode, die dem neuesten Stand der Technik entspricht und vielversprechendere Ergebnisse liefert. Auf diese Weise versuchte die Innovationsabteilung, trainierte Modelle zu entwickeln, um die automatische Erstellung von Nachrichtenzusammenfassungen zu ermöglichen. Obwohl sie ihre Modelle bereits feinabgestimmt hatten, waren sie mit der Qualität der Ergebnisse nicht zufrieden. Daher bot ML6 eingehende technische Beratung zum Training und zum Einsatz der Modelle an, um die bestmögliche Leistung zu erzielen.

"Das Fachwissen und die Kreativität von ML6 haben uns sehr geholfen, die Funktionsweise von NLP zu verstehen. Während eines Co-Creation-Prozesses konnten wir spezifische Anwendungsfälle für VRT implementieren, die uns helfen, den Weg für die praktische Nutzung durch unsere Nachrichten zu ebnen.
Rik Bauwens
Hauptentwickler bei VRT Innovatie

Die Lösung

Um das Training der Modelle und die Qualität der Endergebnisse zu verbessern, schlug ML6 eine sequentielle Arbeitsweise vor: ausgehend von einem vortrainierten mehrsprachigen NLP-"BART-Modell"(siehe Papier) wurde eine erste Feinabstimmungsphase mit ins Niederländische übersetzten englischen Nachrichtenzusammenfassungen durchgeführt, und schließlich wurden VRT-Daten in das Modell integriert. Diese Art der Ergänzung der Kundendaten durch verarbeitete Open-Source-Daten führt zu einer höheren Qualität der generierten Zusammenfassungen. 

ML6 lieferte auch kundenspezifische Erkenntnisse und Empfehlungen zum Einsatz von NLP für die Textzusammenfassung speziell für VRT und identifizierte einige zukünftige Anwendungsfälle im Medienkontext, wie z.B. Podcast-Zusammenfassung oder Ereigniserkennung. Darüber hinaus half ML6 bei der Erstellung und Verwaltung ihrer Datensätze und der möglichen Erweiterungsbereiche. MLOps-Praktiken zur Verwaltung von Modellversionen und Daten wurden auch mit der Innovationsabteilung der VRT geteilt. Schließlich klärte ML6 über die Verwendung von Google Cloud für das Training solcher Modelle auf.

"Bei der Zusammenfassung von Nachrichten gibt es viele kleine Nuancen zu beachten, und das hat dieses Projekt so faszinierend gemacht. Der letztendliche geschäftliche Nutzen liegt jedoch klar auf der Hand: Journalisten können sich mehr auf den kreativen Teil ihrer Arbeit konzentrieren und weniger auf den repetitiven.
Thomas Dehaene
NLP Chapter Lead

Resultate

Diese Art von Transformer-Modell ist ein leistungsfähiges Instrument zur Unterstützung von Journalisten bei ihrer Schreibarbeit. Sie können die Erstellung von Zusammenfassungen beschleunigen und alternative Formulierungen vorschlagen. Gleichzeitig können sie die Einsichten und die Kreativität der Journalisten nicht ersetzen, da es sich dabei um menschliche Fähigkeiten handelt, die in größerem Umfang erworben wurden als die (begrenzten) Trainingsdaten, die dem NLP-Modell vorgelegt werden. In diesem Sinne kann man sagen, dass Menschen und KI ihre komplementären Stärken gegenseitig verstärken und qualitativ hochwertige Ergebnisse liefern können. Als abschließenden Test dieser Theorie und zur Bewertung der Ausgabequalität dieses Tools testete ein Journalist des VRT einige der Nachrichtenzusammenfassungen auf der Grundlage bestehender VRT-Artikel, wodurch die VRT-Innovation neue Erkenntnisse und Rückmeldungen gewinnen konnte.

Auf dem neusten Stand bleiben
Registrieren Sie sich für unseren Newsletter
Wir danken Ihnen! Ihre Einsendung wurde empfangen!
Ups! Beim Absenden des Formulars ist etwas schief gelaufen.