Dieser Blogpost ist abgeleitet von seiner interaktiven Version auf Hugging Face Spaces. Sie können dort weiter lesen, wenn Sie die Vorteile des Herumspielens mit mehreren Beispielen nutzen oder Ihren eigenen Beitrag leisten möchten.
Jüngste Arbeiten, bei denen Transformatoren für große Textkorpora verwendet wurden, haben große Erfolge bei der Feinabstimmung verschiedener nachgelagerter NLP-Aufgaben gezeigt. Eine dieser Aufgaben ist die der Textzusammenfassung. Das Ziel der Textzusammenfassung ist es, prägnante und genaue Zusammenfassungen von Eingabedokumenten zu erstellen. Es gibt 2 Arten von Zusammenfassungen:
Warum ist das wichtig? Nehmen wir an, wir wollen Nachrichtenartikel für eine populäre Zeitung zusammenfassen. Wenn in einem Artikel über den Kauf von Twitter durch Elon Musk berichtet wird, soll unser Zusammenfassungsmodell nicht sagen, dass er stattdessen Facebook gekauft hat. Die Zusammenfassung könnte auch für Finanzberichte erfolgen. In solchen Umgebungen können diese Fehler sehr kritisch sein, weshalb wir einen Weg finden wollen, sie zu erkennen.
Für die Erstellung von Zusammenfassungen werden wir das PEGASUS Modell, das abstrakte Zusammenfassungen von umfangreichen Artikeln erstellt. Diese Zusammenfassungen enthalten oft Sätze mit verschiedenen Arten von Fehlern. Anstatt das Kernmodell zu verbessern, werden wir uns mit möglichen Nachbearbeitungsschritten befassen, um Fehler in den generierten Zusammenfassungen zu erkennen.
Unten finden Sie die generierte Zusammenfassung für einen Beispielartikel. Für den vollständigen Artikel, verschiedene Beispiele oder um die Dinge selbst auszuprobieren, haben wir auch einen interaktiven Hugging-Face-Raum erstellt . Wir werden zwei Ansätze diskutieren, die unserer Meinung nach in der Lage sind, einige häufige Fehler zu erkennen. Basierend auf diesen Fehlern könnte man dann verschiedene Zusammenfassungen bewerten und angeben, wie sachlich eine Zusammenfassung für einen bestimmten Artikel ist. Die Idee ist, dass man in der Produktion eine Reihe von Zusammenfassungen für denselben Artikel mit unterschiedlichen Parametern (oder sogar unterschiedlichen Modellen) erstellen könnte. Mit Hilfe der Fehlererkennung im Post-Processing kann dann die bestmögliche Zusammenfassung ausgewählt werden.
"Das OnePlus 10 Pro ist das erste Flaggschiff-Handy des Unternehmens. Es ist das Ergebnis einer Fusion zwischen OnePlus und Oppo, die "SuperVOOC" genannt wird. Das Telefon wird zuerst in China am 11. Januar auf den Markt kommen. Auch für die USA gibt es noch kein Veröffentlichungsdatum. Das 10 Pro wird ein 6,7-Zoll-Display und drei Kameras auf der Rückseite haben. Einen Preis gibt es noch nicht, aber die Preise der OnePlus-Flaggschiffe sind bisher jedes Jahr gestiegen, und das 9 Pro kostete 969 US-Dollar. Das Telefon wird am 11. Januar in China und am 18. Januar in den USA in den Handel kommen."
Die erste Methode, die wir besprechen werden, heißt Named Entity Recognition (NER). NER ist die Aufgabe, Schlüsselinformationen (Entitäten) in Texten zu identifizieren und zu kategorisieren. Eine Entität kann ein einzelnes Wort oder eine Reihe von Wörtern sein, die sich konsistent auf dieselbe Sache beziehen. Übliche Entitätsklassen sind Personennamen, Organisationen, Orte und so weiter. Indem wir NER sowohl auf den Artikel als auch auf seine Zusammenfassung anwenden, können wir mögliche Halluzinationen erkennen.
Halluzinationen sind Wörter, die vom Modell generiert werden, aber nicht von der Quelleingabe unterstützt werden. Die auf Deep Learning basierende Generierung ist anfällig für Halluzinationen unbeabsichtigten Text. Diese Halluzinationen beeinträchtigen die Systemleistung und erfüllen in vielen realen Szenarien nicht die Erwartungen der Benutzer. Durch die Anwendung von Entity Matching können wir dieses Problem für die nachgelagerte Aufgabe der Generierung von Zusammenfassungen verbessern.
Theoretisch sollten alle Entitäten in der Zusammenfassung (wie Daten, Orte usw.) auch im Artikel vorhanden sein. So können wir alle Entitäten aus der Zusammenfassung extrahieren und sie mit den Entitäten des Originalartikels vergleichen, um mögliche Halluzinationen zu erkennen. Je mehr nicht übereinstimmende Entitäten wir finden, desto niedriger ist die Bewertung der Sachlichkeit der Zusammenfassung.
Wir nennen diese Technik Entitätsabgleich, und hier sehen Sie, wie das aussieht, wenn wir diese Methode auf die Zusammenfassung anwenden. Entitäten in der Zusammenfassung sind grün markiert, wenn die Entität auch im Artikel existiert, während nicht übereinstimmende Entitäten rot markiert sind.
Wie Sie sehen können, haben wir 2 nicht übereinstimmende Entitäten: "18. Januar" und "U.S.". Das erste ist eine halluzinierte Entität in der Zusammenfassung, die im Artikel nicht vorkommt. U.S. kommt zwar im Artikel vor, aber als "US" statt "U.S.". Dies könnte durch einen Vergleich mit einer Liste von Abkürzungen oder mit einem speziellen Embedder für Abkürzungen gelöst werden, ist aber derzeit nicht implementiert.
Die zweite Methode, die wir für das Post-Processing verwenden, nennt sich Dependency Parsing: ein Prozess, bei dem die grammatikalische Struktur eines Satzes analysiert wird, um verwandte Wörter sowie die Art der Beziehung zwischen ihnen zu ermitteln. Für den Satz "Jans Frau heißt Sarah" würde sich folgendes Abhängigkeitsdiagramm ergeben:
Hier ist "Jan" der "poss" (Besitzmodifikator) von "Frau". Wenn die Zusammenfassung plötzlich "Jans Ehemann..." lauten würde , würde in der Zusammenfassung eine Abhängigkeit bestehen, die im Artikel selbst nicht vorhanden ist (nämlich "Jan" ist der "poss" von "Ehemann").Oft werden in der Zusammenfassung jedoch neue Abhängigkeiten eingeführt, die dennoch korrekt sind, wie im folgenden Beispiel zu sehen ist.
"Die Grenzen der Ukraine" haben eine andere Abhängigkeit zwischen "Grenzen" und "Ukraine" als "Grenzen der Ukraine", obwohl beide Beschreibungen die gleiche Bedeutung haben. Ein einfacher Abgleich aller Abhängigkeiten zwischen Artikel und Zusammenfassung (wie beim Entity Matching) wäre also keine robuste Methode. Mehr über die verschiedenen Arten von Abhängigkeiten und ihre Beschreibung finden Sie hier.
Wir haben jedoch festgestellt, dass es bestimmte Abhängigkeiten gibt, die oft ein Hinweis auf einen falsch konstruierten Satz sind, wenn es keine Übereinstimmung mit dem Artikel gibt. Wir verwenden (derzeit) 2 häufige Abhängigkeiten, die - wenn sie in der Zusammenfassung, aber nicht im Artikel vorhanden sind - ein deutliches Indiz für Fehler bei der Faktizität sind. Außerdem prüfen wir nur Abhängigkeiten zwischen einer bestehenden Entität und ihren direkten Verbindungen. Im Folgenden heben wir alle nicht übereinstimmenden Abhängigkeiten hervor, die die besprochenen Einschränkungen für das aktuelle Beispiel erfüllen. Für weitere interaktive Beispiele verweisen wir wiederum auf den interaktiven Raum.
Eine der Abhängigkeiten, die, wenn sie in der Zusammenfassung, aber nicht im Artikel gefunden wird, auf einen möglichen Fehler hinweist, ist die "amod" -Abhängigkeit (adjektivischer Modifikator). In dieser Zusammenfassung haben wir "First" als Entität, und es ist der adjektivische Modifikator des Wortes "phone". Und in der Tat zeigt diese nicht übereinstimmende Abhängigkeit einen tatsächlichen Fehler an. Der Satz entspricht nicht den Tatsachen, da in dem Artikel von einem neuen Typ von Flaggschiff-Handy die Rede ist und nicht vom ersten Flaggschiff-Handy. Dieser Fehler wurde durch Filterung dieser speziellen Art von Abhängigkeit gefunden. Empirische Ergebnisse haben gezeigt, dass nicht übereinstimmende amod-Abhängigkeiten häufig darauf hindeuten, dass der zusammengefasste Satz einen Fehler enthält.
Eine weitere Abhängigkeit, die wir verwenden, ist die "pobj" -Abhängigkeit (Objekt der Präposition). Außerdem passen wir nur auf pobj-Abhängigkeiten, wenn das Zielwort "in" ist , wie in diesem Beispiel. In diesem Fall enthält der Satz selbst einen sachlichen Fehler (denn im Artikel heißt es : "Es gibt noch kein Wort über ein US-Veröffentlichungsdatum"). Dies hätte jedoch bereits mit dem Entity-Matching gefunden werden können (da der 18. Januar nicht zugeordnet ist), und die nicht zugeordnete Abhängigkeit kann hier nicht vollständig für diesen Fehler verantwortlich gemacht werden.
Wir haben 2 Methoden vorgestellt, die versuchen, Fehler in Zusammenfassungen durch Nachbearbeitungsschritte zu erkennen. Der Abgleich von Entitäten kann verwendet werden, um Halluzinationen zu lösen, während der Vergleich von Abhängigkeiten verwendet werden kann, um einige schlechte Sätze (und damit schlechtere Zusammenfassungen) herauszufiltern. Diese Methoden zeigen die Möglichkeiten der Nachbearbeitung von KI-generierten Zusammenfassungen auf, sind aber nur eine erste Einführung. Da die Methoden empirisch getestet wurden, sind sie definitiv nicht robust genug für allgemeine Anwendungsfälle. Für verschiedene Beispiele, in denen man mit den vorgestellten Methoden herumspielen kann, verweisen wir auf den interaktiven Hugging Face Raum.
Im Folgenden werden drei verschiedene Arten von Zusammenfassungen (für den Beispielartikel) erstellt, und auf der Grundlage der beiden besprochenen Methoden werden ihre Fehler aufgedeckt, um einen Zusammenfassungswert zu ermitteln. Auf der Grundlage dieses grundlegenden Ansatzes wird die beste Zusammenfassung (d. h. diejenige, die ein Mensch bevorzugen oder als die beste bezeichnen würde) hoffentlich an der Spitze stehen. Wir heben auch die Entitäten wie zuvor hervor, beachten aber, dass die Rangliste auf einer Kombination aus nicht übereinstimmenden Entitäten und Abhängigkeiten beruht (wobei letztere hier nicht gezeigt werden).