10. Mai 2023

Wie Sie mit Etiketten zu einer präzisen automatischen Spracherkennung (ASR) gelangen

Mitwirkende
Lisa Becker
Machine Learning Engineer
Keine Artikel gefunden.
Newsletter abonnieren
Diesen Beitrag teilen

Einführung

Dieser Blogbeitrag befasst sich mit dem Prozess der Kennzeichnung von Sprachdaten für die automatische Spracherkennung (ASR). Bei der automatischen Spracherkennung wird gesprochene Sprache in Text umgewandelt. Zum Trainieren der Modelle werden große Mengen an nicht oder nur schwach etikettierten Sprachdaten benötigt. Das Vortraining von ASR-Modellen mit dieser Art von Daten kann jedoch zu Fehlern und Verzerrungen führen, so dass die Kennzeichnung von Sprachdaten für eine genaue und robuste Leistung entscheidend ist. In diesem Beitrag werden verschiedene Arten von Sprachdaten, Etikettierungsmethoden, Qualitätskontrolltechniken und Annotationsformate behandelt, die zum Trainieren von ASR-Modellen verwendet werden. Er enthält auch Informationen zu Datenformaten, Sprechertagebuch, Dateidauer, Datenerweiterung und den Vor- und Nachteilen der verschiedenen Etikettierungsmethoden. Um ein perfektes ASR-Modell zu erstellen, ist es wichtig, die Art der verwendeten Sprachdaten zu verstehen und eine geeignete Etikettierungsmethodik zu entwickeln.

Was ist automatische Spracherkennung (ASR) und warum brauchen wir gelabelte Daten?

Kurz gesagt: ASR ist der Prozess, mit dem eine Maschine gesprochene Sprache verstehen und in Text umwandeln kann. Heutzutage werden ASR-Modelle wie wav2vec 2.0 und Whisper auf großen Mengen von unmarkierten oder schwach markierten Sprachdaten trainiert, um Muster und Merkmale der gesprochenen Sprache zu lernen. Das Vortraining von ASR-Modellen auf dieser Art von Daten kann die Menge der für eine gute Leistung erforderlichen gelabelten Daten reduzieren, aber es kann auch zu Fehlern und Verzerrungen im Modell führen.

Aus diesem Grund ist das Labeln von Sprachdaten entscheidend für die Erstellung des perfekten Modells für Ihren Anwendungsfall. Anhand von gelabelten Sprachdaten können die trainierten Modelle eine genauere und robustere Repräsentation der gesprochenen Sprache erlernen, mit der sie konfrontiert werden, und Fehler reduzieren: Wortfehlerrate (WER) und Zeichenfehlerrate (CER).

Dieser Blogbeitrag befasst sich mit den verschiedenen Arten von Sprachdaten, Etikettierungsmethoden, Qualitätskontrolltechniken und Annotationsformaten, die zum Trainieren von ASR-Modellen verwendet werden. Also, lassen Sie uns loslegen und in die Sprachdatenbeschriftung eintauchen!

Arten von Sprachdaten

Sprachdaten können in verschiedenen Formen vorliegen, und jeder Typ stellt besondere Anforderungen an die Etikettierung. Hier sind einige der häufigsten Arten von Sprachdaten:

  • Gelesene Sprache: Bei dieser Art von Sprachdaten handelt es sich um ein Skript, bei dem der Sprecher einen geschriebenen Text abliest. Gelesene Sprache kann Bücher, Artikel oder vorbereitete Reden umfassen und ist in der Regel am einfachsten zu kennzeichnen.
  • Spontane Sprache: Diese Art von Sprachdaten ist natürlich, ungeschrieben und schwierig zu transkribieren. Spontane Sprache kann Interviews und öffentliche Reden umfassen.
  • Konversationssprache: Bei dieser Art von Sprachdaten interagieren zwei oder mehr Sprecher miteinander. Dazu können Interviews, Debatten und Telefongespräche gehören.

Jede Art von Sprachdaten stellt besondere Anforderungen an die Beschriftung. Spontane Sprache kann zum Beispiel mehr Kontextinformationen erfordern, um genau transkribiert zu werden, während gelesene Sprache mehr Detailgenauigkeit erfordert, um bestimmte Wörter oder Phrasen zu erfassen. Bei Konversation kann es erforderlich sein, den Sprecher zu identifizieren und die Redebeiträge zu notieren, um zwischen den Sprechern zu unterscheiden.

Es ist wichtig, die Art der verwendeten Sprachdaten zu verstehen, um eine geeignete Etikettierungsmethodik zu entwickeln. Darüber hinaus kann ein vielfältiger Satz von Sprachdatentypen die Robustheit und Genauigkeit von ASR-Modellen verbessern.

Daten

Um Daten beschriften zu können, müssen Sie zunächst sicherstellen, dass sie in einem geeigneten Format vorliegen. In diesem Blog-Beitrag werden wir nicht auf die Datenerfassung eingehen, sondern damit beginnen, was zu tun ist, wenn die Daten verfügbar sind und Sie Ihr Modell verfeinern möchten. Es gibt verschiedene Schritte, die berücksichtigt werden müssen.

*Wenn wir "Format" in seiner für Ingenieure gebräuchlichsten Bedeutung nehmen:

Hörproben.wav und .mp3 sind die gängigsten Formate für Audiosamples, die mit den meisten Python-Audiobibliotheken und Kommentarsoftware kompatibel sind.

Transkriptionen: Das JSON-Schema ist Ihr Freund. Das genaue Format variiert je nach verwendeter Kommentarsoftware

Diarisierung der Sprecher

Die Vorverarbeitung durch Sprechertagebuchführung ist für die Inferenz mit Modellen wie wav2vec 2.0 nach wie vor erforderlich. Andernfalls erhalten Sie am Ende das Transkript mit beiden Sprechern in einem Textblock.

Keine Tagebuchführung (links), Sprechertagebuchführung ohne Zuordnung (Mitte), Sprechertagebuchführung und Zuordnung (rechts).

Whisper bietet zwar eine Sprechertagebuchfunktion, aber keine Sprecherzuordnung, d. h., Sie erhalten separate Sprachblöcke in der Ausgabe, wissen aber nicht, zu wem sie gehören.

Daher ist es ratsam, sowohl für die Feinabstimmung als auch für die Inferenz von wav2vec 2.0 und Whisper die Diarisierung der Sprecher zu verwenden. Wenn noch keine Daten gesammelt wurden, können Sie die verschiedenen Sprecher auf verschiedenen Kanälen aufzeichnen lassen (z. B. wenn die Eingangsquelle ein Telefongespräch ist), um den Diarisierungsschritt auszulagern und bessere Ergebnisse zu erzielen. Wenn dies nicht möglich ist, ist Simple Diarizer in der Regel das Tool Ihrer Wahl, aber Sie können unseren Blog über die Diarisierung von Sprechern lesen, der Ihnen hilft, das optimale Tool für Ihre Daten zu finden.

Dauer der Datei

Etikettierer werden es Ihnen danken, wenn sie Schnipsel von Audiodateien kommentieren müssen, anstatt ein ganzes 5-minütiges Telefongespräch auf einmal. Whisper ist auf Datenpakete von 30 Sekunden Länge abgestimmt, wav2vec 2.0 auf 10 Sekunden. Sie können beschriftete Daten verwenden, die in kürzere (oder längere) Schnipsel geschnitten sind, die dann aber vom Finetuning-Skript entsprechend aufgefüllt (oder abgeschnitten) werden. Die optimale Länge für die Beschriftung liegt unserer Erfahrung nach zwischen 5s und 8s.

Es ist ratsam, Ihre Audiodaten nicht von Stille oder Hintergrundgeräuschen (wie Musik oder Husten) zu bereinigen, da Ihr Modell auch lernen muss, mit Rauschen und dem Fehlen von Sprache umzugehen. Sie möchten nicht, dass das Modell mit künstlich sauberen Daten verfeinert wird. Was es jetzt sieht, sollte es auch später bekommen.

Datenerweiterung

Um Ihr Modell robuster zu machen, können Sie in Erwägung ziehen, Ihre Stichproben zu erweitern, um die Vielfalt und Menge Ihres Datensatzes zu erhöhen, indem Sie aus vorhandenen Daten künstlich neue Daten erzeugen. Dies kann besonders bei unterrepräsentierten Akzenten oder Dialekten nützlich sein. Folgende Techniken können für die Erweiterung von Sprachdaten verwendet werden:

  • Tonhöhenverschiebung: zur Simulation verschiedener Akzente oder emotionaler Zustände.
  • Tempoverschiebung / Lautstärkeverschiebung / Einfügen von Stille: Änderung der Dauer der Sprachaufnahme, um Sprachvariationen zu simulieren oder Sprachpausen hinzuzufügen).
  • Rauschunterdrückung / -injektion: Hinzufügen oder Entfernen von Musik, weißem Rauschen, Hintergrundgeplapper, ... aus der Aufnahme.
  • Kanalverzerrung: Hinzufügen von Nachhall oder Echo zur Simulation verschiedener Aufnahmeumgebungen.

Diese Techniken können einzeln oder in Kombination verwendet werden, können aber die Qualität Ihres Datensatzes verringern oder dem Modell unerwartetes Verhalten beibringen.

Kennzeichnung

Methoden

Die Etikettierung von Sprachdaten kann zeit- und arbeitsaufwändig sein, und es gibt mehrere Methoden für diese Aufgabe. Jede Methode hat Vor- und Nachteile, und die geeignete Methode hängt von der Größe des Datensatzes, der Komplexität der Sprache und den verfügbaren Ressourcen ab. Im Folgenden werden die beiden gängigsten Etikettierungsmethoden für Sprachdaten vorgestellt, die eine manuelle Etikettierung beinhalten:

  • Menschliche Transkription: Bei dieser Methode hören sich menschliche Annotatoren die Sprachdaten an und transkribieren sie manuell. Die manuelle Beschriftung gilt als Goldstandard für die Beschriftung von Sprachdaten, da sie qualitativ hochwertige Beschriftungen mit hoher Genauigkeit liefert. Sie ist jedoch zeitaufwändig und teuer, insbesondere bei großen Datensätzen.
  • Computergestützte Transkription (auch modellgestützt oder hybrid genannt): Bei dieser Methode werden Tools zur automatischen Spracherkennung (ASR) verwendet, um Sprachdaten zu transkribieren und Fehler manuell zu korrigieren. Die halbautomatische Beschriftung kann den Zeit- und Kostenaufwand für die manuelle Beschriftung erheblich reduzieren und gleichzeitig qualitativ hochwertige Annotationen gewährleisten, die sogar genauer sein können als ohne Computerunterstützung (siehe Abbildung unten). Der größte Nachteil dieser Methode ist, dass die bereitgestellten Transkriptionen zu Bestätigungsfehlern führen können, z. B. bei Rechtschreibfehlern, der Aufnahme/Auslassung von Stoppwörtern oder Interpunktion usw.
Figur aus dem Whisper-ArbeitSie zeigt die WER-Verteilung von 25 Aufnahmen aus dem Kincaid46-Datensatz, die von Whisper, 4 kommerziellen ASR-Systemen (A-D), einem computergestützten menschlichen Transkriptionsdienst (E) und 4 menschlichen Transkriptionsdiensten (F-I) transkribiert wurden.) Sie zeigt, dass computergestützte Annotationen nicht nur Zeit und Kosten reduzieren, sondern auch die Genauigkeit verbessern können.

Metadaten

Je nach Bedarf können Sie Metadaten wie z. B. die folgenden hinzufügen:

  • Thema oder Bereich (medizinisch, juristisch, ...)
  • Sprecheridentifikation, Sprache/Dialekt oder Emotion
  • Pegel oder Art der Hintergrundgeräusche
  • Kanal oder Aufnahmegerät

Diese Informationen können ASR-Modelle mit mehr Kontextinformationen versorgen, die ihnen helfen, Sprachdaten besser zu verstehen und zu transkribieren und die Leistung des Modells anhand verschiedener Merkmale zu bewerten.

Software zur Kommentierung

Für die Beschriftung von Sprachdaten gibt es viele Tools und Software, von einfachen Texteditoren bis hin zu spezieller Annotationssoftware. Bei ML6 lieben wir Label Studio, das die meisten Anpassungsmöglichkeiten und ausgefeilten Funktionen für viele Bereiche bietet. Es bietet unter anderem die folgenden Funktionen:

  • Vortranskriptionen (für computergestützte Etikettierung)
  • Audio-Ereignisse (z. B. für die Sprechertagebuchführung)
  • Benutzerdefinierte Ankreuzfelder (z. B. für Metadaten)
Screenshot eines Beispiels für eine Etikettierungsumgebung. Aus dem Label Studio-Blogbeitrag zur Beschriftung von Audiodaten entlehnt.

Anmerkungssoftware wie Label Studio erleichtert die Beschriftung mit zusätzlichen Informationen wie Metadaten. Es kann auch eine Verbindung zu Ihrer Datenbank herstellen, um die Audioschnipsel (und Vortranskriptionen) abzurufen und die Transkriptionen mit Metadaten (als JSON) zu speichern. Label Studio ermöglicht auch eine iterative Trainingsschleife, die die von Menschen annotierten Daten verwendet, um die Vortranskriptionen für die noch zu etikettierenden Proben zu verbessern. Ein Blog über die Beschriftung von Audiodaten mit Label Studio finden Sie hier.

Leitlinien für die Kennzeichnung

Unabhängig davon, für welches Instrument und welche Methode man sich entscheidet, sind ein Kennzeichnungsleitfaden, eine praktische Schulung und eine Fehleranalyse von entscheidender Bedeutung, um die Konsistenz und Genauigkeit der Daten zu gewährleisten (unabhängig vom Bereich Ihrer Daten):

Eine Anleitung zur Beschriftung muss erklären, wie die gewählte Software zu verwenden ist. Er enthält klare Anweisungen zur Annotation verschiedener Aspekte der Sprache, wie Sprecheridentifikation, Transkription und Metadaten. Dies trägt dazu bei, dass alle Kommentatoren verstehen, was von ihnen erwartet wird, und dass die Annotationen von verschiedenen Kommentatoren konsistent sind.

Die Etikettierung von Sprachdaten erfordert einen umfangreichen Abgleich zwischen den Etikettierern. Sie müssen sicherstellen, dass diese Etikettierer bei der Kennzeichnung von Zahlen ("1" versus "eins"), Großschreibung ("ich trinke Kaffee" versus "ich trinke Kaffee"), Sonderzeichen ("größer" versus "groesser"), Abkürzungen ("fe" versus "f.e." versus "zum Beispiel" oder "ML6" versus "Em El Six"), Interpunktion, unterbrochenen Wörtern am Anfang oder Ende einer Probe ("" versus "good-" versus "goodbye"), Füllwörtern ("euhm") und vielen anderen konsistent bleiben. Die Aufnahme einer Liste mit bereichsspezifischen Wörtern (= Jargon) in den Beschriftungsleitfaden ist ebenfalls ratsam. Darüber hinaus ist es von entscheidender Bedeutung, dass die Annotatoren sich untereinander absprechen, um sicherzustellen, dass sie den Beschriftungsleitfaden einheitlich anwenden. Inter-Rater-Übereinstimmung ist die Übereinstimmung zwischen den Annotatoren bei der Kennzeichnung derselben Sprachdaten, die mit Cohen's Kappa auf Wort- und Zeichenebene der Annotationen berechnet werden kann. Die Ermittlung von Übereinstimmungen zwischen den Bewertern kann dazu beitragen, Diskrepanzen oder Unstimmigkeiten zwischen den Bewertern zu erkennen und zu beseitigen, wodurch die Gesamtgenauigkeit und Zuverlässigkeit der gelabelten Sprachdaten verbessert wird.

Es wird außerdem empfohlen, einen praktischen Workshop abzuhalten, in dem die Beschriftungssoftware vorgestellt wird. Einige Proben werden von allen Annotatoren beschriftet, um sicherzustellen, dass alle die gleichen Ergebnisse erhalten. Fragen können direkt angesprochen werden, und es kann ein Konsens für Grenzfälle gefunden werden, der ggf. im Etikettierungshandbuch ergänzt oder weiter erläutert wird.

Während des Etikettierungsprozesses sollte regelmäßig eine Fehleranalyse durchgeführt werden: Sammeln Sie eine repräsentative Stichprobe der etikettierten Sprachdaten, identifizieren Sie die Arten von Fehlern oder Inkonsistenzen, kategorisieren Sie sie, bestimmen Sie ihre Häufigkeit und analysieren Sie die zugrunde liegenden Ursachen. Der Beschriftungsleitfaden sollte entsprechend überarbeitet und die Annotatoren sollten zusätzlich geschult werden. In einigen Fällen ist es notwendig, auf ein anderes Etikettierungswerkzeug oder eine andere Methode umzusteigen.

Weitere Einzelheiten finden Sie im Abschnitt "Datenkennzeichnung" eines anderen Blogbeitrags, den wir hier verfasst haben.

Fazit

Zusammenfassend lässt sich sagen, dass die Kennzeichnung von Sprachdaten für die Entwicklung präziser und robuster ASR-Modelle entscheidend ist. Mit gelabelten Sprachdaten können vortrainierte Modelle eine genauere und robustere Darstellung der gesprochenen Sprache erlernen, wodurch Rechtschreibfehler reduziert und die Gesamtleistung des Modells verbessert werden können. Die Etikettierung von Sprachdaten kann jedoch zeit- und arbeitsaufwändig sein, und es stehen mehrere Methoden und Tools zur Verfügung.

Die Wahl der geeigneten Etikettierungsmethodik und Qualitätskontrollmaßnahmen ist je nach Art der verwendeten Sprachdaten und der verfügbaren Ressourcen von entscheidender Bedeutung. Darüber hinaus können eine Vielzahl von Sprachdatentypen und die Einbeziehung von Metadateninformationen die Robustheit und Genauigkeit von ASR-Modellen verbessern.

Schließlich können eine regelmäßige Fehleranalyse und die Überarbeitung des Etikettierungsleitfadens die Konsistenz und Genauigkeit der etikettierten Sprachdaten sicherstellen. Mit den richtigen Tools, Methoden und Qualitätskontrollmaßnahmen können Sie Ihren Weg zu genauen und robusten ASR-Modellen beschriften.

Bleiben Sie dran für weitere Blog-Beiträge über ASR, wie z.B. die Optimierung des Hostings von Whisper oder die Feinabstimmung der Software!

Ähnliche Blogbeiträge:

Verwandte Beiträge

Alle anzeigen
Keine Ergebnisse gefunden.
Es gibt keine Ergebnisse mit diesen Kriterien. Versuchen Sie, Ihre Suche zu ändern.
Stiftung Modelle
Unternehmen
Unser Team
Verantwortungsvolle und ethische KI
Strukturierte Daten
Chat GPT
Nachhaltigkeit
Stimme und Ton
Front-End-Entwicklung
Schutz und Sicherheit von Daten
Verantwortungsvolle/ethische KI
Infrastruktur
Hardware und Sensoren
MLOps
Generative KI
Verarbeitung natürlicher Sprache
Computer Vision