November 24, 2021

NLP-Trend: Ein paar Beispiele für die Verarbeitung langer Dokumente

Mitwirkende
Thomas Vrancken
Machine Learning Engineer
Keine Artikel gefunden.
Newsletter abonnieren
Diesen Beitrag teilen

Einführung

Das maschinelle Lernen befindet sich in einer Phase des Umbruchs, in der es in der realen Welt mehr und mehr zum Einsatz kommt. Dies ist insbesondere in einem Bereich der Fall: Die Verarbeitung langer Dokumente.

Unternehmen in Branchen wie Medien, Finanzen, Rechtsprechung, Bildung usw. neigen dazu, eine große Menge an mittelgroßen bis langen Dokumenten anzuhäufen. Meistens sind die Dokumente und die Datenbank, in der sie gespeichert sind, nicht sehr gut strukturiert. Wenn man nicht in der Lage ist, sie zu organisieren und wertvolle Informationen aus ihnen zu extrahieren, ist das ein großer Kostenfaktor.

Aus technischer Sicht ist es jedoch eine große Herausforderung, so lange Dokumente zu verarbeiten. In der Welt der NLP-Forschung dreht sich alles um das Benchmarking von Modellen bei kleinen Textaufgaben. Die Modelle auf dem neuesten Stand der Technik, die dabei herauskommen, haben in der Regel eine maximale Anzahl von Eingabe-Token erlaubt - d.h. ungefähr eine maximale Anzahl von Wörtern, die in Ihrem Eingabetext erlaubt sind.

Aber unser Expertenteam bei ML6 muss kreative Lösungen finden, um dieses Problem zu lösen. Hier sind ein paar Beispiele, wie sie genau das tun:

  1. Modelle, die an lange Dokumente angepasst sind
  2. Aufsplitten langer Dokumente
  3. Zusammenfassen langer Dokumente

Modelle, die an lange Dokumente angepasst sind

Kurz gesagt: Einige Modelle können lange Sequenzen besser verarbeiten, obwohl sie immer noch durch die Größe der Eingaben begrenzt sind und nicht unbedingt für jede Aufgabe geeignet sind. Wir haben einige dieser Modelle einem Benchmarking unterzogen, um herauszufinden, welche am leistungsfähigsten sind. Unsere Ergebnisse finden Sie hier.

Technisch gesehen sind typische NLP-Modelle, wie bereits erwähnt, in ihrer Eingabegröße recht begrenzt. Traditionelle RNN/LSTM- und jetzt Transformers-Modelle werden mit einer festen Größe trainiert. Um es etwas genauer zu sagen, sind Modelle wie BERT mit einem vollen Aufmerksamkeitsmechanismus quadratisch davon abhängig (wenn man ein Modell mit einer langen maximalen Eingabegröße trainiert, explodiert der Speicher). Typischerweise hat ein Transformer-Modell eine maximale Eingabegröße von 512 Token. Für ein herkömmliches Modell könnte dieser Blogpost also bereits zu lang sein, um verarbeitet zu werden (ca. 800 Wörter).

Die klugen Köpfe des Allen Institute for AI und von Google Research haben dieses Problem erkannt und das Longformer-Modell (siehe Papier) bzw. das Big Bird-Modell (siehe Papier) entwickelt. Durch die Kombination von Zufalls-, Fenster- und globalen Aufmerksamkeitsmechanismen (also im Wesentlichen spärliche Aufmerksamkeitsschichten) würden diese Modelle nur linear von der Eingabelänge beeinflusst werden. Sie könnten Modelle wie RoBERTa bei längeren Eingabeaufgaben übertreffen und eine Eingabelänge von bis zu 4096 Token (BigBird) liefern.

Wenn Sie mehr darüber erfahren möchten, besuchen Sie unsere Seite Quick-Tipp (inklusive Codes).

Aufsplitten langer Dokumente

Beachten Sie, dass das Problem hier darin besteht, lange Dokumente und nicht nur Text zu bewältigen. Ein Ansatz, den wir für ein umfangreiches Projekt gewählt haben, besteht darin, Dokumente in Klauseln aufzuteilen, die dann von einem Sprachmodell einzeln bearbeitet werden können.

In diesem Fall stützten wir uns auf ein Objekterkennungsmodell. Im Wesentlichen haben wir mit Scans von Dokumenten gearbeitet, und das Modell konnte visualisieren, wo sich verschiedene Klauseln befanden. Normalerweise funktioniert diese Methode sehr gut, um strukturierte Informationen wie Tabellen oder IDs zu extrahieren. In diesem Video erfahren Sie mehr über unsere Lösung (es enthält auch weitere Informationen über den Kontext und die Bearbeitung des Textes der einzelnen Klauseln).

Auszug aus: https://www.youtube.com/watch?v=0Q8zUEV2JeI&ab_channel=ML6

Für jedes Problem eine Lösung: Diese Art von Projekten erfordert in der Regel einen ziemlich individuellen Ansatz. Es können beispielsweise manuelle Regeln verwendet werden, um bestimmte Textabschnitte zu extrahieren (z. B. um Kontaktinformationen in einer großen Datenbank mit Stellenangeboten zu finden).

Zusammenfassen langer Dokumente

Ein weniger konventioneller Ansatz ist die extraktive Textzusammenfassung. Sie verwenden also ein zusätzliches Modell, um den relevantesten Teil Ihres Textes zu extrahieren.

Das bedeutet, dass ein Zusammenfassungsmodell zusätzlich zu den anderen Modellierungstechniken, die Sie für die Ausgabe verwenden werden, kombiniert werden muss → größere Wahrscheinlichkeit von Problemen. Nicht unbedingt empfehlenswert.

Aber auch hier kann es in bestimmten Anwendungsfällen ein praktisches Werkzeug sein (z. B. bei der Zusammenfassung langer Besprechungen, um dann relevante Informationen zu extrahieren). In diesem Blogpost können Sie sich einen Eindruck davon verschaffen, was mit Zusammenfassungsmodellen möglich ist, und es mit dieser Demo sogar selbst ausprobieren.

Nutzung des Zusammenfassungsdienstes - Check out newssummarizer.ml6.eu!

Fazit

Es liegt auf der Hand, dass die Fähigkeit, Schlüsselinformationen aus einer Datenbank mit umfangreichen Dokumenten zu verarbeiten und zu extrahieren, für viele Einrichtungen äußerst wertvoll ist. Daten sind das neue Öl, wir brauchen jetzt Möglichkeiten, es zu fördern.

Andererseits ist es aus technischer Sicht eine große Herausforderung, diese langen Dokumente zu verarbeiten. Auf der ML6 haben wir uns dieser Herausforderung gestellt und versucht, einige Möglichkeiten zu entwerfen, die dies ermöglichen.

Verwandte Beiträge

Alle anzeigen
Keine Ergebnisse gefunden.
Es gibt keine Ergebnisse mit diesen Kriterien. Versuchen Sie, Ihre Suche zu ändern.
Stiftung Modelle
Unternehmen
Unser Team
Verantwortungsvolle und ethische KI
Strukturierte Daten
Chat GPT
Nachhaltigkeit
Stimme und Ton
Front-End-Entwicklung
Schutz und Sicherheit von Daten
Verantwortungsvolle/ethische KI
Infrastruktur
Hardware und Sensoren
MLOps
Generative KI
Verarbeitung natürlicher Sprache
Computer Vision