Keine Artikel gefunden.
17. Mai 2022

Das volle Potenzial von Daten ausschöpfen

Mitwirkende
Caroline Adam
Leiter der Abteilung Inkubation
Keine Artikel gefunden.
Newsletter abonnieren
Diesen Beitrag teilen

Einführung

"Daten sind der Treibstoff für KI" - Obwohl die Bedeutung von Daten für den Aufbau leistungsfähiger ML-Lösungen unbestreitbar ist, sehen wir in der Praxis, dass das Hauptaugenmerk häufig auf dem KI-Modell liegt, d. h. auf dem Ausprobieren verschiedener Modelle oder der Abstimmung von Hyperparametern. Einige Forscher haben dazu aufgerufen, von diesem modellzentrierten Ansatz abzurücken und sich auf die systematische Veränderung von Daten zu konzentrieren, um die Leistung unserer Lösungen zu verbessern. Mit anderen Worten: ein datenzentrierter Ansatz für KI.

In der Praxis sehen wir, dass viele Organisationen und Projekte immer noch damit zu kämpfen haben, das volle Potenzial von Daten zu erschließen. In diesem Blogpost beschreiben wir unsere Sichtweise, wie man den Wert der Daten zu maximieren um die Leistung von ML-Modellen zu verbessern und und gleichzeitig die Kosten zu minimieren. Es versteht sich von selbst, dass ein Trainingsdatensatz, der repräsentativ für das ist, was das Modell später in der "echten Welt" sehen wird, von entscheidender Bedeutung ist. In diesem Blogpost werden wir uns insbesondere auf drei weitere wichtige Bereiche konzentrieren - Datenkennzeichnung, Datenqualität und Datenerweiterung.

In einem zweiten Blogpost werden wir das Thema Daten aus einem anderen Blickwinkel betrachten: Wie können wir Anwendungsfälle, bei denen es an (verwertbaren) Daten fehlt, durch Datenanonymisierung, synthetische Daten oder externe Daten freigeben. Mehr dazu später!

Kennzeichnung von Daten

Das Labelling, d.h. die Erstellung eines annotierten Trainingsdatensatzes, auf dem das Modell trainiert, ist oft ein entscheidender Schritt beim Start eines Machine Learning-Projekts. Dieser Schritt, und insbesondere die Qualität der Beschriftung, kann die Leistung eines Modells stark beeinflussen.

Lassen Sie uns ein Beispiel betrachten. In einem unserer Projekte zur Textklassifizierung mussten wir eine Genauigkeit von 80 % erreichen, damit die Lösung einen praktischen Geschäftswert hat. Das erste Modell erreichte nur eine Genauigkeit von 65 %, und wir hatten zwei Möglichkeiten, dies zu verbessern - Verbesserung des Modells oder Verbesserung der Etiketten (der Daten). Durch das Ausprobieren komplexerer und kostspieligerer Modelle konnte eine Genauigkeit von 68 % erreicht werden - immer noch weit entfernt vom Unternehmensziel. Die zweite Option erwies sich als viel effektiver - durch die Verbesserung der Qualität der Beschriftungen konnten wir 87 % erreichen. Und warum? Wir stellten fest, dass die Beschriftungen in der ersten Iteration inkonsistent waren - zwei verschiedene Beschrifter waren sich nur in 69 % der Fälle über die richtige Beschriftung einig. Das machte es dem Modell natürlich unmöglich, sinnvolle Muster zu lernen und genaue Vorhersagen zu treffen, da sich nicht einmal die Menschen einig waren, welche Bezeichnungen richtig waren.

Das obige Beispiel zeigt, wie wichtig eine konsistente Kennzeichnung für die Erstellung leistungsfähiger ML-Modelle ist. Wir haben 3 Überlegungen zusammengestellt, die zu berücksichtigen sind, um eine qualitativ hochwertige und kosteneffiziente Kennzeichnung zu gewährleisten:

1. Auswahl eines geeigneten Etikettierungsinstruments und/oder eines Anbieters von Arbeitskräften

Es gibt viele verschiedene Etikettierwerkzeuge und Anbieter auf dem Markt - die Wahl des richtigen Werkzeugs für Ihre Etikettierarbeiten ist entscheidend, um die Qualität zu gewährleisten und die Effizienz Ihrer Etikettierarbeiten zu steigern.

Die Auswahl Ihres Etikettierungswerkzeugs oder -anbieters hängt stark von den Anwendungsfällen und Bedürfnissen ab. Sie müssen sich die verschiedenen Modalitäten und Funktionen ansehen, die ein Tool bietet (z. B. für Bilder und Videos, natürliche Sprache usw.), und sicherstellen, dass sie mit Ihren aktuellen und potenziellen künftigen Anforderungen übereinstimmen. Einige Anbieter bieten nicht nur das Tool, sondern auch die Auslagerung der eigentlichen Etikettierungstätigkeit an - dies kann eine sehr kosteneffiziente Art der Etikettierung sein, sofern keine spezifischen Fachkenntnisse erforderlich sind. Außerdem müssen Sie die Einfachheit der Einrichtung der Etikettierungsumgebung sowie den Datenschutz und die Sicherheit des Tools berücksichtigen. Nicht zuletzt sind auf dem Markt verschiedene Preismodelle zu finden, von kostenlosen Open-Source-Tools bis hin zu kommerziellen Lösungen, die z. B. pro Benutzer, pro Anmerkung oder als monatliche Pauschale abgerechnet werden.

Wir haben in der Vergangenheit einige Open-Source-Tools für die Kennzeichnung strukturierter Daten verglichen. Die Erkenntnisse können hier nachgelesen werden.

2. Gewährleistung der Einheitlichkeit der Kennzeichnung durch klare Leitlinien

Die Gewährleistung von Qualität und Konsistenz ist der Schlüssel zum Aufbau eines leistungsstarken ML-Modells. Verschiedene Etikettierer haben jedoch oft unterschiedliche Etikettierungskonventionen, wie in unserem Beispiel oben zu sehen ist. Was hier helfen kann, sind klare Richtlinien für Ihre Etikettierer. Diese Richtlinien sollten Anweisungen für die Beschriftung sowie "goldene Beispiele" und erwartete schwierige oder seltene Fälle enthalten.

Stellen Sie außerdem sicher, dass sowohl die Experten für maschinelles Lernen als auch die Fachexperten von Anfang an in das Projekt einbezogen werden und gemeinsam einen Ansatz festlegen. Wenn möglich, ist es hilfreich, den Labellern das Gesamtbild des Projekts zu schildern, damit sie es besser beurteilen können oder wissen, welche Bedenken sie äußern sollten.

Schließlich ist eine Beschriftungsgenauigkeit/Konsistenz von 100 % in der Regel unerreichbar, entweder weil das Problem von Natur aus mehrdeutig ist und/oder es je nach Größe des Datensatzes für die Beschrifter unmöglich ist, Fehler zu vermeiden. Daher ist es wichtig, die Qualität/Konsistenz der Beschriftungen zu verstehen, da diese eine Obergrenze für die Qualität des Modells darstellen. Eine Beschriftungsstrategie, bei der mehrere Personen dieselben Daten beschriften müssen, trägt nicht nur zur Verbesserung der Qualität/Konsistenz bei, sondern gibt auch Aufschluss über die tatsächliche Qualität der Beschriftungen.

3. Ein iterativer Ansatz

Hohe Qualität ist zwar wichtig, aber auch die Effizienz. Die Etikettierung ist oft ein ressourcenintensiver Prozess. Es ist daher sinnvoll, bei der Etikettierung einen iterativen Ansatz zu verfolgen. Beginnen Sie mit 5 % und überprüfen/besprechen Sie Probleme und Verbesserungen. Auf diese Weise können Sie sicherstellen, dass keine Etikettierungsbemühungen umsonst sind. Die Möglichkeit, bei der Kennzeichnung Unsicherheiten anzugeben, kann helfen, Annahmen zu erkennen und in schwierigen Fällen zusätzliche Erkenntnisse von Fachleuten einzuholen.

Betrachten wir auch das Gesamtbild - Sie können in späteren Iterationen erhebliche Effizienzgewinne erzielen, indem Sie zusätzliche Etikettierungsbemühungen auf Daten beschränken, die zu den größten Verbesserungen der Modellleistung führen. Einbettungen können dazu dienen, die Daten zu visualisieren, ähnliche Daten zu gruppieren und Fälle zu finden, mit denen Ihr Modell die größten Schwierigkeiten hat. Diese Visualisierungen können zu einem besseren Verständnis Ihres Modells und Ihrer Daten führen und ermöglichen es Ihnen, das Modell iterativ mit gezielteren Beschriftungsbemühungen zu verbessern.

Einbettungen (Quelle: https://labelbox.com/blog/stop-labeling-data-blindly/)

Hier finden Sie weitere Tipps und Tricks zur Datenkennzeichnung aus unserer Forschung:

Qualität der Daten

Das zweite Thema, das wir im Zusammenhang mit der Verbesserung unserer Modelle mit Daten ansprechen wollen, ist die Datenqualität. Konsistente und qualitativ hochwertige Beschriftungen sind natürlich Teil der Datenqualität, aber es gibt auch andere Dimensionen, die berücksichtigt werden müssen - zum Beispiel muss sichergestellt werden, dass die Daten, die in ein ML-Modell eingespeist werden, keine Fehler, fehlende Daten oder Ausreißer enthalten. Die Datenqualität hat einen großen Einfluss auf die Modellleistung, und ihre Verbesserung ist oft ein sehr notwendiger Schritt im ML-Arbeitsablauf.

Schauen wir uns ein kurzes Beispiel an, um dies zu demonstrieren. Für eines unserer Projekte mussten wir Informationen aus gescannten Textdokumenten extrahieren. OCR (Optical Character Recognition) ist der erste Schritt in diesem Prozess, aber einige Dinge kommen normalerweise durcheinander, z. B. Nullen und O's. Eine solche Verwechslung im OCR-Prozess bedeutet oft, dass ein nachfolgendes Modell die verwechselten Eingaben nicht mehr als Datenpunkt erkennen kann, was die Leistung des Modells beeinträchtigt. Die Verbesserung der Datenqualität, in diesem Fall durch eine OCR-Korrektur (automatische Beseitigung gängiger OCR-Fehler), führte zu einer erheblichen Leistungssteigerung des Modells.

Beispiel einer OCR-Korrektur (Quelle: ML6 Hugging Face Space)

1. Das Verstehen Ihrer Daten ist der Schlüssel

Bei ML6 gibt es mehrere Standardschritte zur Verbesserung der Datenqualität, je nachdem, in welchem Bereich des maschinellen Lernens sich ein Projekt befindet. Eines haben jedoch alle Projekte gemeinsam: Ein qualitativ hochwertiger Datensatz beginnt mit einem guten Verständnis der Daten. Die Datenexploration ist der Schlüssel zum Aufbau dieses Verständnisses und ist daher oft der erste Schritt beim Start eines ML-Projekts.

Die Visualisierung der Daten ist immer ein guter Ausgangspunkt, von der Untersuchung der Verteilung und möglicher Anomalien innerhalb strukturierter Daten bis hin zum Vergleich von Einbettungsräumen für Sprache oder Computer Vision. Natürlich ist das Verstehen Ihrer Daten keine einmalige Angelegenheit. Nachdem wir ein Modell trainiert haben, müssen wir die Datentypen identifizieren, bei denen der Algorithmus schlecht abschneidet, und diese Schwierigkeiten iterativ verbessern.

2. Möglichst weitgehende Automatisierung des Prozesses zur Steigerung der Effizienz

Die Verbesserung der Datenqualität ist oft eine mühsame Arbeit (manche sagen, dass 80 % der Arbeitszeit in einem ML-Projekt für die Datenbereinigung aufgewendet werden). Daher versuchen wir, diese Arbeit so weit wie möglich zu automatisieren - durch den intelligenten Einsatz von maschinellem Lernen oder anderen automatisierten Techniken, um die Datenqualität so effizient wie möglich zu verbessern.

Innerhalb unserer ML-Pipelines möchten wir, dass neue Daten automatisch einige Prüfungen und Visualisierungen durchlaufen. Einige weit verbreitete Tools, die bei den meisten Anwendungsfällen helfen können, sind BigQueryML mit automatischer Anomalieerkennung, mit der Sie Ausreißer in Ihren Daten leicht erkennen können. TFDV zur einfachen Visualisierung Ihres Datensatzes und zur Erkennung von Veränderungen im Laufe der Zeit, und schließlich GreatExpectations zur Integration von Validierungsregeln auf der Grundlage von Geschäftslogik. Außerdem testen wir ständig neue Frameworks und Methoden, um sie zu verbessern und zu automatisieren. Ein vielversprechender Ansatz, den wir derzeit untersuchen, ist PClean, eine domänenspezifische probabilistische Programmiersprache für Bayesian Data Cleaning.

Weitere Tipps und Tricks zur Datenqualität aus unserer Forschung finden Sie hier:

Datenerweiterung

Als drittes Thema wollen wir uns die Datenvergrößerung ansehen. Bei der Datenerweiterung handelt es sich um eine Reihe von Techniken, die darauf abzielen, den Umfang Ihres Datensatzes künstlich zu vergrößern, indem kleine Variationen vorhandener Datenpunkte erstellt werden. Dies hat zwei Hauptvorteile: Erstens erhöhen wir den Umfang unseres Datensatzes, was zu mehr Beispielen führt, auf denen unser Modell trainiert werden kann. Zweitens erhöht sich die Robustheit unseres Modells, und wir verringern das Risiko einer Überanpassung und Verzerrung, da das Modell lernen muss, die von uns eingeführten Transformationen zu ignorieren und die zugrunde liegenden Daten zu verstehen, anstatt sie auswendig zu lernen.

Letzteres war zum Beispiel ein sehr wichtiger Teil eines Projekts zum Abgleich von Stellenangeboten und Bewerbern, das wir durchgeführt haben. In diesem Projekt war es sehr wichtig, unsere Modelle frei von Verzerrungen zu machen, indem wir die Trainingsdaten erweiterten, um so viele Verzerrungen wie möglich zu entfernen, z. B. durch Geschlechtertausch in Lebensläufen und Stellenangeboten.

Entwicklung einer guten Strategie zur Datenerweiterung

Zu Beginn eines ML-Projekts ist es wichtig, sich etwas Zeit zu nehmen, um eine gute Strategie für die Datenerweiterung zu erarbeiten und zu entwickeln. Der Ansatz zur Datenerweiterung unterscheidet sich von Anwendungsfall zu Anwendungsfall, im Allgemeinen folgen wir jedoch drei Leitprinzipien:

  1. Starke Basislinien: Maschinelles Lernen ist ein iterativer Prozess - Änderungen vornehmen, trainieren, bewerten und wiederholen. Daher ist es wichtig, einen guten Ausgangspunkt zu haben, so dass Iterationen mit dieser Basislinie verglichen werden können, um schnell herauszufinden, was funktioniert - dies gilt auch für die Datenerweiterung.
  2. Kennen Sie Ihr Modell: Einige Modelle wurden mit Blick auf eine bestimmte Datenaufbereitung entwickelt - die Nichtbeachtung dieser kann sich negativ auf die Leistung des Modells auswirken. Es ist daher wichtig, dass Sie Ihr Modell gut kennen.
  3. Einbringen von Expertenwissen, wo immer möglich: Die Art der Datenerweiterung, die Sie vornehmen, kann je nach Datensatz und den feinen Unterschieden zwischen den einzelnen Anwendungsfällen variieren. Expertenwissen kann helfen zu erkennen, welche Erweiterungen sinnvoll sind, um die Leistung zu steigern, und welche möglicherweise nicht.

Weitere (technische) Tipps und Tricks zur Datenerweiterung finden Sie hier:

Mit diesen Überlegungen zu Datenkennzeichnung, Datenqualität und Datenerweiterung hoffen wir, einige Hinweise darauf zu geben, wie man den Wert von ML-Modellen maximieren kann, indem man sich auf die Daten konzentriert und gleichzeitig die Kosten dafür in Grenzen hält.

Bleiben Sie auf dem Laufenden für den zweiten Blog-Beitrag dieser Serie, in dem wir uns auf die Anonymisierung von Daten, synthetische Daten und externe Daten konzentrieren werden!


Verwandte Beiträge

Alle anzeigen
Keine Ergebnisse gefunden.
Es gibt keine Ergebnisse mit diesen Kriterien. Versuchen Sie, Ihre Suche zu ändern.
Stiftung Modelle
Unternehmen
Unser Team
Verantwortungsvolle und ethische KI
Strukturierte Daten
Chat GPT
Nachhaltigkeit
Stimme und Ton
Front-End-Entwicklung
Schutz und Sicherheit von Daten
Verantwortungsvolle/ethische KI
Infrastruktur
Hardware und Sensoren
MLOps
Generative KI
Verarbeitung natürlicher Sprache
Computer Vision