7. November 2022

Herausforderungen für die Gebärdensprachübersetzung

Mitwirkende
Keine Artikel gefunden.
Newsletter abonnieren
Diesen Beitrag teilen
Wäre es nicht cool, wenn Menschen ohne Gebärdensprachkenntnisse die Gebärdensprache verstehen könnten? Was hindert uns (Forscher und Entwickler) daran, dieses Ziel zu erreichen?

Die Arbeit in diesem Blog entstand im Rahmen meines Praktikums bei ML6 und meiner MSc Thesis an der TU Delft.

Einführung in die Gebärdensprache

Die Gebärdensprache (SL) ist die wichtigste Sprache für die Gemeinschaft der Gehörlosen und Stummen. Nach Angaben des Weltverbandes der Gehörlosen gibt es weltweit mehr als 70 Millionen Gehörlose, die die Gebärdensprache verwenden. Es handelt sich um eine natürliche und vollständige Sprache, die ihre eigenen sprachlichen Feinheiten hat. Jede gesprochene Sprache hat ihre eigene Gebärdensprache, wie die Amerikanische Gebärdensprache (ASL), die Chinesische Gebärdensprache (CSL), die Deutsche Gebärdensprache (DGS) und so weiter. Insgesamt gibt es etwa 300 verschiedene Gebärdensprachen. Gebärdensprachen sind keine Eins-zu-Eins-Abbildung der gesprochenen Sprachen, sondern haben ihre eigene Grammatik.

So muss beispielsweise eine gut konstruierte Frage von der richtigen Augenbrauenstellung begleitet werden. Wenn eine Person Fragen nach dem Wer, Wo, Was, Warum und Wann stellt, werden die Augenbrauen in einer bestimmten Position erwartet. Wenn sich die Frage auf eine Ja/Nein-Situation bezieht, werden die Augenbrauen auf eine bestimmte Weise erwartet. SL kommuniziert nicht nur mit Handgesten, sondern auch mit Mimik, Handbewegungen und -positionen sowie der Körperhaltung. Jede Veränderung in diesen Bereichen kann die gesamte Bedeutung des Zeichens verändern. Deshalb ist es für jemanden, der keine Kenntnisse über Gebärdensprachen hat, in der Regel schwierig, sie zu verstehen.

All diese Faktoren machen die Übersetzung in gesprochene Sprache schwierig. Im Bereich der Gebärdensprachdolmetschung gibt es hauptsächlich zwei Forschungsbereiche, nämlich die Gebärdenspracherkennung (SLR) und die Gebärdensprachübersetzung (SLT), auf die wir später in diesem Blog eingehen und eine moderne Architektur für die Übersetzung verwenden. Wir werden auch einige der entscheidenden Lücken in der Architektur und dem aktuellen Forschungsstand für SLT in einer Echtzeitumgebung diskutieren und auflisten.

Einige Fakten zur Gebärdensprache(Bildquelle)

Erkennung und Übersetzung von Gebärdensprache

Bei SLR geht es um die Erkennung von Handlungen aus der Gebärdensprache. Sie gilt als das Problem der naiven Gebärdenerkennung, ist aber nicht nur auf Alphabete und Zahlen beschränkt. Sie konzentriert sich auf die Erkennung einer Abfolge von kontinuierlichen Zeichen, lässt aber die zugrundeliegenden reichen grammatikalischen und linguistischen Strukturen der Gebärdensprache außer Acht, die sich von der gesprochenen Sprache unterscheiden. Das Hauptziel ist die Interpretation der Zeichen, isoliert oder in einer kontinuierlichen Abfolge.

Im Gegensatz dazu geht es bei der SLT darum, die Gebärdensprache im Sinne der natürlichen Sprache mit ihrer Grammatik zu dolmetschen und dabei die Sprache im Auge zu behalten. Das Hauptziel der SLT ist die Übersetzung von Gebärdensprachvideos in Formen der gesprochenen Sprache, wobei die verschiedenen grammatikalischen Aspekte der Sprache berücksichtigt werden. Es handelt sich um ein relativ neues und komplexes Problem, da neben den Handbewegungen und -positionen auch Gesichtszüge und Körperhaltungen berücksichtigt werden müssen. Die folgende Abbildung zeigt deutlich den Unterschied zwischen Continuous SLR und SLT.

Unterschied zwischen SLR und SLT (Abbildung entnommen aus [1])

SLT mit VAC_CSLR + Transformator

Es gibt mehrere Lücken und Herausforderungen in der aktuellen Forschungslandschaft für SLT in der menschlichen Interaktion in Echtzeit. Um eine bessere Vorstellung von diesen Lücken zu bekommen, haben wir eine hochmoderne Architektur für kontinuierliche SLR verwendet, die in der Forschungsarbeit "Visual alignment constraint (VAC) for continuous sign language recognition (CSLR)" von Min, Yuecong, et al. vorgeschlagen wurde [2]. Um diese Architektur für das SLT-Problem zu nutzen, fügten wir einen zweischichtigen Transformator für die Übersetzung über die VAC_CSLR-Architektur hinzu, wie im Bild unten gezeigt. Darüber hinaus wurde der RWTH Phoenix Weather 14T-Datensatz [3] verwendet, um beide Netzwerke separat zu trainieren. Dieser Datensatz wurde aus den Wettervorhersagen des deutschen Fernsehsenders PHOENIX extrahiert. Er enthält 9 verschiedene Unterzeichner, Annotationen auf Glossenebene mit einem Vokabular von 1.066 verschiedenen Zeichen und Übersetzungen in die deutsche gesprochene Sprache mit einem Vokabular von 2.887 verschiedenen Wörtern.

Die Architektur basiert auf einer zweistufigen Übersetzung von Zeichen in Glossen in Text, wobei im ersten Schritt Glossen aus der Videosequenz gewonnen werden und im nächsten Schritt die Glossen in gesprochene Sätze umgewandelt werden. Nach der Trainings- und Testphase wurde das Modell in einer Echtzeitumgebung eingesetzt. Es wurde an den verschiedenen Videos getestet, wobei die Übersetzung während der Fahrt in Einzelbildern mit OpenCV erfolgte. MediaPipe wurde verwendet, um zu erkennen, wann eine Zeichensequenz beginnen und enden soll.

In der ersten Phase musste das VAC_CSLR-Netzwerk verwendet werden, um Glossen aus den Videosequenzen zu erhalten. Das Visual Alignment Constraint-Netzwerk konzentriert sich auf die Verbesserung der Merkmalsextraktion mit Ausrichtungsüberwachung, indem es zwei Hilfsverluste vorschlägt: den Visual Enhancement (VE)-Verlust und den Visual Alignment (VA)-Verlust. Der VE-Verlust bietet eine direkte Überwachung für den Merkmalsextraktor, der seinerseits durch einen zusätzlichen Klassifikator für visuelle Merkmale verbessert wird, um die Hilfslogits zu erhalten. Dieser Hilfsverlust sorgt dafür, dass der Merkmalsextraktor Vorhersagen nur auf der Grundlage lokaler visueller Informationen macht.

Um die fehlenden kontextuellen Informationen des VE-Verlusts auszugleichen, wird der VA-Verlust vorgeschlagen. Der VA-Verlust wird als ein Wissensdestillationsverlust implementiert, der das gesamte Netzwerk und den visuellen Merkmalsextraktor als Lehrer- bzw. Schülermodell betrachtet. Die endgültige Zielfunktion setzt sich zusammen aus dem Verlust der primären konnektionistischen temporalen Klassifikation (CTC), dem Verlust der visuellen Verbesserung und dem Verlust der visuellen Ausrichtung. In der zweiten Stufe wurde ein zweischichtiger Transformer verwendet, um die log-likelihood über alle Glossentext-Paare zu maximieren.
Für weitere Details verweisen wir auf die Originalimplementierung von Transformer [4].

VAC_CSLR + Transformator Architektur
VE-Verlust, VA-Verlust und Gesamtverlust (jeweils im Uhrzeigersinn von oben links)

Versuchsaufbau für das VAC_CLSR + Transformator-Netzwerk

Nach der Abstimmung der Hyperparameter und der Modellvalidierung wurde das Modell auf verschiedene Videos aus den veröffentlichten Datensätzen und Clips von verschiedenen SL-freundlichen Nachrichtenkanälen angewendet. Die Videos wurden hauptsächlich aus deutschen SL-Quellen ausgewählt, da die Modelle auf einem deutschen SL-Datensatz trainiert wurden. Wir verwendeten zufällige Videos aus dem RWTH-Phoenix-Wetter 2014, dem RWTH-Phoenix-Wetter 2014-T-Datensatz, und nahmen SL-Schnipsel aus der Tagesschau, einer Nachrichtensendung in Deutschland, für die Bewertung. Diese Videos waren nicht sehr lang, nur einen Satz lang (also bis zu 8-10 Sekunden).

In der Übersetzungspipeline wird ein Video in Einzelbilder zerlegt, und für jedes Bild wird ein holistisches MediaPipe-Modell ausgeführt, das die Schlüsselpunkte des Bildes identifiziert. Wenn die identifizierten Schlüsselpunkte linke oder rechte Schlüsselpunkte enthalten, beginnt das SLR-Modell, Frames für die Vorhersage zu nehmen. Die Auswahl der Bilder erfolgt auf der Grundlage der Erkennung von Schlüsselpunkten der linken oder rechten Hand durch das holistische MediaPipe-Modell, d. h. bis eine der Hände im Bild ist. Nachdem wir die Glossen aus dem VAC-Modell erhalten haben, werden diese Glossen an das Transformer-Modell weitergeleitet, das die gesprochenen Übersetzungen liefert. Die endgültigen Übersetzungen wurden mit dem tatsächlichen Text für die SL-Videosequenz verglichen.

Darüber hinaus haben wir auch verschiedene Transformationen auf die aus den Videos aufgenommenen Bilder angewandt. Hier sind die Transformationen, die angewandt wurden:

★ Segmentierungsmasken: Eine Maske wird zur Segmentierung eines Bildes verwendet. Sie wird verwendet, um die Teile eines Bildes zu identifizieren, die ein bestimmtes Objekt enthalten, in diesem Fall einen Menschen. Sie wurde hauptsächlich verwendet, um Rauschen in den Bildern zu vermeiden, wobei der Hintergrund für die Vorhersage unbedeutend ist.
★ Bilddrehung: Dies ist eine gängige Operation zur Bildvergrößerung. Das Bild wird in verschiedenen Winkeln gedreht, um die verschiedenen Aspekte der Bildmerkmale in unterschiedlichen Ausrichtungen zu erfassen.
★ Bildgrößenänderung: Hierbei wurde die Größe des Bildes durch das zentrale Beschneidungsverfahren in verschiedenen Dimensionen geändert.
★ Bildskalierung: Dies unterscheidet sich von der Größenanpassung des Bildes, da es auf dem gesamten Bild durch Resampling geschieht. Die Bilder wurden zufällig in einem Intervall von 0,5 bis 1,5 skaliert.

Kurze Demo

Beobachtete Lücken bei Echtzeit-SLT

Nach mehreren Experimenten mit der Architektur und verschiedenen Videos haben wir die Lücken aufgelistet, die wir beobachtet haben und die wichtig sind, um SLT für reale Anwendungen zu verbessern. Hier sind die beobachteten Lücken:

  1. Begrenzte Anzahl verfügbarer Datensätze:
    In der aktuellen SL-Forschung wird in fast allen Forschungspapieren auf den Bedarf an mehr Daten hingewiesen, um die Qualität der Forschung zu verbessern. Bei den verfügbaren Datensätzen handelt es sich meist um Alphabete, Zahlen und einzelne Wörter. Es gibt auch Datensätze für kontinuierliche SLR, die Glossendarstellungen für die SL-Sequenzen enthalten, aber für SLT werden auch gesprochene Übersetzungen benötigt. Es gibt nur sehr wenige Datensätze, die auch gesprochene Übersetzungen enthalten.
    Der Hauptgrund dafür ist, dass das SLT-Problem vergleichsweise neu ist und auch für gesprochene Übersetzungsannotationen menschliche SL-Dolmetscher erforderlich sind, um den gesamten Videodatensatz zu übersetzen. Dies ist wichtig, da das Problem der SLT für reale Anwendungen, die Menschen mit SL-Kenntnissen mit denen ohne diese Kenntnisse verbinden, von entscheidender Bedeutung ist.
    Ein weiterer Aspekt der begrenzten verfügbaren Datensätze ist, dass die meisten SL-Korpora entweder nicht zur Verwendung zur Verfügung stehen, da die Daten beschädigt oder unerreichbar sind, oder nur unter starken Einschränkungen und Lizenzbedingungen verfügbar sind. Die Anonymisierung von SL-Daten ist besonders schwierig, da bei der Unterzeichnung von Videos wertvolle Gesichts- und andere physische Merkmale benötigt werden, was ihre offene Verbreitung einschränkt.
  2. Domänenbeschränkte Daten:
    Die meisten der derzeit vorliegenden Benchmark-Datensätze werden aus einer bestimmten SL-Medienquelle gesammelt, die domänenspezifisch ist. Wie der aktuelle Benchmark-Datensatz für SLT, der RWTH-Phoenix-Wetter 2014T-Datensatz für Deutsche Gebärdensprache, enthält Videos aus den täglichen Wettervorhersagen des öffentlich-rechtlichen Fernsehsenders PHOENIX mit Gebärdensprachinterpretation.
    Wenn ein Modell auf einem domänenspezifischen Datensatz trainiert wird, ist es möglich, dass es nicht gut generalisiert und ein begrenztes Vokabular hat, d.h. ein domänenspezifisches Vokabular. Die meisten Open-Source-SL-Quellen, wie z. B. Nachrichtensender, sind domänenspezifisch, so dass es eine Herausforderung ist, einen domänenoffenen Datensatz zu entwickeln.
  3. Mangelnde Vielfalt in den Datensätzen:
    In den verfügbaren Datensätzen mangelt es an Vielfalt in Bezug auf die Anzahl der Unterzeichner, die physische Ausrichtung der Unterzeichner und die Kameraperspektiven der Unterzeichner. In den verschiedenen Datensätzen gab es durchschnittlich 10-20 Unterzeichner, wobei der RWTH-Phoenix-Weather 2014T-Datensatz nur 9 Unterzeichner enthielt. Eine größere Anzahl von muttersprachlichen Gebärdensprachlern ermöglicht ein besseres Verständnis der Gebärdenrepräsentation. In SL gibt es verschiedene Dialekte, was zu Variationen in den Zeichen für dasselbe Wort führt. So ist es möglich, dass ein und dasselbe Wort oder ein und derselbe Satz von verschiedenen Personen auf unterschiedliche Weise gebärdet wird, oder dass sich die Gebärdenfolge desselben Wortes von einer Region zur anderen unterscheidet. Daher ist es besser, diese Variation so weit wie möglich zu erfassen, indem man eine Vielzahl von Unterzeichnern auswählt.
    Ein weiterer Aspekt, der mit der Vielfalt zusammenhängt, ist der Kamerastandpunkt, von dem aus der Unterzeichner für die Datensatzerfassung erfasst wird. Im Allgemeinen ist es für eine Echtzeitanwendung nicht notwendig, dass der Unterzeichner immer von vorne von der Kamera erfasst wird. Derzeit haben mehr als 85 % der Datensätze nicht mehrere Ansichten.
  4. Übertragbarkeit der Architektur auf verschiedene SL:
    In letzter Zeit hat die Forschung im Zusammenhang mit SLR/SLT zugenommen. Die Architekturen erfassen verschiedene Aspekte einer SL-Videosequenz. Nach der Untersuchung verschiedener Ergebnisse aus dieser Art von Forschung ist es jedoch ziemlich offensichtlich, dass die Genauigkeitsergebnisse(WER-Score und BLEU-Score[5]) nicht ähnlich sind, wenn dieselbe Architektur auf einem anderen Sprachdatensatz ausprobiert wird.
    Zum Beispiel erhielt eine SLT-Architektur, die in einer der Forschungsarbeiten vorgeschlagen wurde, auf dem RWTH-Phoenix-Weather 2014T-Datensatz 22,17 BLEU; auf dem Public DGS Corpus nur 3,2 BLEU (je höher desto besser). Diese Ergebnisse deuten darauf hin, dass die derzeitigen Architekturen für reale Anwendungen nicht geeignet sind. Entweder werden mehr Daten für diese Modelle benötigt oder es sind Ansätze erforderlich, die linguistisch anspruchsvoller sind.
  5. Hardware-Beschränkungen für Deep-Learning-Architekturen:
    Eine weitere technische Lücke, die erwähnenswert ist, sind die Grenzen der Hardware für herkömmliche Deep-Learning-Architekturen. Die Modellarchitektur, die mehrere Schichten mit Millionen von Parametern umfasst, wird voraussichtlich sehr groß sein und hohe Ressourcen und Rechenleistung erfordern. Oft haben die Zielgeräte nur begrenzte Ressourcen, und die Berechnung wäre vor allem für Echtzeitanwendungen sehr aufwändig.
    Dies ist ein wichtiger Aspekt im Hinblick auf reale Anwendungen, da von diesen erwartet wird, dass sie robust sind und schnell Ergebnisse liefern.

Fazit

In diesem Blog haben wir die identifizierten Lücken in den Architekturen für SLR/SLT aufgezeigt, indem wir bestehende State-of-the-Art-Architekturen betrachtet und genutzt haben. Die von uns aufgezeigten Lücken deuten darauf hin, dass weitere Fortschritte bei den Architekturen und Datensätzen erforderlich sind, um anspruchsvolle Anwendungen in der realen Welt zu erreichen. Wir kommen zu dem Schluss, dass, obwohl die aktuellen Architekturen für SLR/SLT nicht vollständig für eine reale Anwendung zur SL-Interpretation ausgestattet sind, der Fortschritt in Bezug auf Datensätze und Architekturen vielversprechend aussieht. Da es sich bei der SLT um ein schwieriges Problem handelt, müssen verschiedene Aspekte der SL berücksichtigt werden, um dieses anspruchsvolle Problem zu lösen.

Referenzen

[1] Camgoz, Necati Cihan, et al. "Neural sign language translation". Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.https://openaccess.thecvf.com/content_cvpr_2018/papers/Camgoz_Neural_Sign_Language_CVPR_2018_paper.pdf
[2] Min, Yuecong, et al. "Visual alignment constraint for continuous sign language recognition." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.
https://arxiv.org/abs/2104.02330
[3] Necati Cihan Camgöz, Simon Hadfield, Oscar Koller, Hermann Ney, Richard Bowden, Neural Sign Language Translation, IEEE Conf. on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018.
https://www-i6.informatik.rwth-aachen.de/~koller/RWTH-PHOENIX-2014-T/
[4] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
https://proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html.
[5] Papineni, Kishore, et al. "Bleu: a method for automatic evaluation of machine translation." Proceedings of the 40th annual meeting of the Association for Computational Linguistics. 2002.
https://aclanthology.org/P02-1040.pdf

Verwandte Beiträge

Alle anzeigen
Keine Ergebnisse gefunden.
Es gibt keine Ergebnisse mit diesen Kriterien. Versuchen Sie, Ihre Suche zu ändern.
Stiftung Modelle
Unternehmen
Unser Team
Verantwortungsvolle und ethische KI
Strukturierte Daten
Chat GPT
Nachhaltigkeit
Stimme und Ton
Front-End-Entwicklung
Schutz und Sicherheit von Daten
Verantwortungsvolle/ethische KI
Infrastruktur
Hardware und Sensoren
MLOps
Generative KI
Verarbeitung natürlicher Sprache
Computer Vision