Keine Artikel gefunden.
6. September 2022

Freigabe von ML-Anwendungsfällen, denen es an (verwertbaren) Daten mangelt

Mitwirkende
Matthias Feys
Q / CTO
Keine Artikel gefunden.
Newsletter abonnieren
Diesen Beitrag teilen

In dieser Blogpost-Serie befassen wir uns mit der Bedeutung von Daten für die Erstellung leistungsfähiger ML-Modelle. Der Schwerpunkt unseres ersten Blogbeitrags (siehe hier falls Sie ihn noch nicht gelesen haben) lag auf der Frage, wie man das volle Potenzial von Daten ausschöpfen kann, wobei wir uns insbesondere mit der Datenkennzeichnung, der Datenqualität und der Datenerweiterung befasst haben.

Was tun wir aber, wenn wir noch keine oder nicht genügend verwertbare Daten haben, um loszulegen? Eine offensichtliche Möglichkeit ist, (mehr) Daten zu sammeln. Heute wollen wir jedoch darüber hinausgehen. Wir werden uns drei weitere Dimensionen ansehen, die für die Freigabe von ML-Anwendungsfällen relevant sein können: Datenschutz, externe Daten und synthetische Daten.

Datenschutz

Inwiefern ist der Datenschutz für die Erstellung leistungsfähiger ML-Modelle relevant? In der Tat kann der Datenschutz oft ein Hindernis für die Verwendung von Daten in unseren Modellen sein. Schauen wir uns einmal an, was wir damit meinen.

Anonymisierung von Daten, um ihre Verwendung zu ermöglichen

Eine erste Möglichkeit, wie der Datenschutz Daten für die ML-Modellierung freigeben kann, ist natürlich die Notwendigkeit, Vorschriften (wie die GDPR) zu befolgen. Vor allem im NLP-Kontext haben wir es oft mit personenbezogenen Daten zu tun (PII). Ohne Anonymisierung oder Pseudonymisierung von Daten könnten wir die Daten gar nicht oder nicht auf die wirkungsvollste Weise nutzen.

Neben der Freischaltung des Projekts kann dies auch erhebliche Auswirkungen auf die Qualität des Modells haben. Nehmen wir ein ML-Projekt, das personenbezogene Daten enthält. Ohne Anonymisierung müssen wir die Daten so schnell wie möglich entfernen. Je nach Anwendung kann dies drei Monate dauern. Wenn wir jedoch in einen angemessenen Anonymisierungsfluss investieren, sind diese Daten nicht mehr persönlich identifizierbar und können anschließend für einen unbestimmten Zeitraum gespeichert werden. Das nachstehende Diagramm zeigt die typische Auswirkung der Modellleistung durch Training auf mehr Datenpunkte (dargestellt durch den Zeitraum, in dem die Daten gesammelt wurden).

Datenschutz ist auch notwendig, um Vertrauen zu schaffen und potenzielle Angriffe abzuwehren. Und schließlich ist es für den Schutz der Privatsphäre von entscheidender Bedeutung, dass eine Person mit böswilligen Absichten nicht herausfinden kann, ob eine bestimmte Person Teil der Trainingsdaten war, oder in der Lage ist, anonymisierte Daten mit anderen Daten zu verknüpfen, um Personen zu identifizieren.

Kombination verschiedener Techniken zum Schutz von Daten

Der Schutz von Daten kann mit verschiedenen Techniken erfolgen. Es gibt kein Patentrezept - oft werden verschiedene Techniken in Kombination miteinander eingesetzt. Zwei der gängigsten und einfachsten Methoden sind die De-Identifizierung/Datenanonymisierung und die K-Anonymisierung. Erstere bedeutet die Entfernung persönlicher Informationen aus dem Datensatz, z. B. durch Unschärfe von Gesichtern in Bildern. Bei letzterer geht es darum, Anonymität in Zahlen zu schaffen - d. h. eine minimale Menge von Vorkommnissen zu definieren und Ausreißer zu gruppieren, um Einzelpersonen vor Rückschlüssen zu schützen, die auf einer kleinen Gruppengröße basieren.

Andere Methoden beinhalten in der Regel eine Form der Rauschunterdrückung (Noise Injection), d. h. wir ersetzen eine minimale Anzahl von Attributen von Datenpunkten, um den Datenschutz zu verbessern. In allen Fällen (bei den Methoden zur Rauschunterdrückung natürlich noch deutlicher) müssen Sie einen Kompromiss zwischen Datennutzen und Datenschutz eingehen. Die tatsächliche Auswahl und Kombination von Methoden wird von Ihrem Anwendungsfall abhängen.

Kompromiss zwischen Nutzen und Privatsphäre beim Datenschutz

Externe Daten

Wie der Name schon sagt, umfassen externe Daten alle Daten, die von außerhalb der Organisation erhoben wurden. Wenn keine relevanten internen Daten verfügbar sind (z. B. für ein völlig neues Produkt), kann dies die einzige Option sein.

Aber auch wenn Sie über relevante interne Daten verfügen, können externe Daten eine gute Investition sein, wenn die Bereinigung der internen Daten zu kostspielig ist oder wenn Sie die internen Daten erweitern wollen. Dies kann entweder quantitativ, durch Hinzufügen zusätzlicher Funktionen (z. B. Wetterinformationen) oder durch größere Vollständigkeit geschehen.

Bewertung Ihrer Optionen und Berücksichtigung von Kompromissen

Es gibt verschiedene Arten von externen Datenquellen, die in Frage kommen, natürlich abhängig von der Verfügbarkeit und den Anforderungen des Projekts:

  • Öffentliche Datenquellen: Frei verfügbare Daten, wie https://data.gov.be/
  • Kostenpflichtige Datenquellen: Daten, die von Datenanbietern kostenpflichtig erworben werden können. Übliche Beispiele für diese Art von Daten sind Unternehmensdaten, Wetterdaten...
  • Ausgelesene Daten: Daten, die im Internet verfügbar sind, aber ausgelesen und gepflegt werden müssen. Ein Vorbehalt an dieser Stelle: Es ist natürlich wichtig, je nach Datenquelle die rechtlichen Auswirkungen des Scrapings zu berücksichtigen.

Zwischen diesen verschiedenen Typen sowie zwischen verschiedenen Anbietern gibt es wichtige Kompromisse zu berücksichtigen. Die drei verschiedenen Achsen, nach denen wir Optionen normalerweise bewerten, sind Preis, Qualität und Zeitaufwand.

Abwägungen bei der Auswahl der richtigen externen Datenquelle

Wir gehen etwas tiefer in jede Achse hinein:

  • Preis: Der tatsächliche Kaufpreis ist der am leichtesten zu berücksichtigende Faktor. Beachten Sie jedoch, dass auch das Preismodell eine Rolle spielt. Je nach Anwendungsfall oder Phase (z. B. globale Einführung oder erste Analyse) kann ein anderer Anbieter die beste Lösung sein.
  • Zeitaufwand: Kosten für die interne Arbeit, die erforderlich ist, um die externen Daten zu nutzen und weiter zu nutzen. Dies beginnt bei der Komplexität der Integration, z. B. wenn Daten direkt in Ihrer Datenbank verfügbar sind und nicht in einem exotischen Datenformat, das Sie physisch über eine Festplatte erhalten müssen. Aber auch die Wartungskosten, z. B. für die Instandhaltung einer Scraper-Infrastruktur, können hohe Kosten verursachen, und schließlich die Stabilität des Anbieters. Wenn es unsicher ist, ob ein Anbieter den Datensatz weiter pflegen/aktualisieren wird, kann dies in der Zukunft zu einer Menge Nacharbeit führen.
  • Qualität: Ziel der externen Daten ist es, über qualitativ hochwertigere Daten zu verfügen; die Überprüfung der Daten auf Genauigkeit, Erfassungsbereich und Häufigkeit der Informationen ist dafür unerlässlich.

Von den erfassten Daten zu verwertbaren Daten gelangen

Leider bedeutet der bloße Zugriff auf externe Daten oft nicht, dass wir sie ohne weiteres verwenden können. Denken Sie daran, dass externe Daten oft bereinigt, erweitert und nachbearbeitet werden müssen, bevor Sie sie in Ihren ML-Modellen verwenden können.

Überlegen Sie im Rahmen Ihrer Bewertung und der Berechnung des Geschäftswerts des Projekts, wie viel zusätzliches Engineering für die externen Daten erforderlich ist, z. B. um die Datenqualität zu verbessern, mehrere Datenquellen zu kombinieren oder die Daten mit internen Daten zu verbinden.

Synthetische Daten

Wie in unserem ersten Blogpost erwähnt, ist das Sammeln von Daten und insbesondere deren Kennzeichnung oft eine zeitaufwändige und teure Aufgabe. Daher suchen ML-Praktiker zunehmend nach effizienteren Wegen, um verwertbare Daten zu generieren, von der künstlichen Erweiterung von Datensätzen durch die Erstellung kleiner Variationen bestehender Datenpunkte (Datenvergrößerung) bis hin zur zunehmenden Verwendung hybrider oder vollständig synthetischer Daten.

Synthetische Daten sind aus zwei Gründen in den Mittelpunkt des Interesses gerückt: Einerseits können wir damit die Menge der verfügbaren Daten für das Training erhöhen. Andererseits können sie eine Möglichkeit sein, Daten zu schützen. Letztlich können synthetische Daten dazu beitragen, genauere, robustere, fairere und privatere Modelle zu erhalten.

Obwohl synthetische Daten letztlich viele Vorteile haben können, sehen wir in der Regel 3 Anwendungsfälle, in denen sie bereits nützlich sind:

  • Schutz sensibler Nicht-PII-Daten des Unternehmens: Dies sind Fälle, in denen wir die vorhandenen Anonymisierungstechniken nicht nutzen können, die Daten aber wirklich sensibel sind. Denken Sie an Produktrezepte oder vollständige Maschinenprotokolle. In diesen Fällen kann es Projekte wirklich entlasten, wenn man mit ähnlichen synthetischen Daten arbeiten kann.
  • Daten aus dem wirklichen Leben, die nicht zur Verfügung stehen oder deren Erzeugung zu kostspielig ist: Einige Trainingsdaten sind legitimerweise zu kostspielig, um sie im wirklichen Leben zu erzeugen, man denke nur an spezielle Maschinenausfälle oder sehr kostspielige medizinische Scans. In diesen Fällen sollte es billiger sein, in die Erstellung realistischer synthetischer Daten zu investieren.
  • Schutz von PII-Daten: Nutzung synthetischer Daten als Alternative zu bestehenden Anonymisierungs-/Pseudonymisierungstechniken, da in der Regel mehrere Ansätze kombiniert werden müssen, um den besten Kompromiss zwischen Datennutzen und Datenschutz zu finden.

Typische Ansätze/Techniken

In gewisser Weise können die Techniken der Datenerweiterung und der Pseudonymisierung/Anonymisierung von Daten für die Erstellung synthetischer Daten genutzt werden. In der Regel geht es jedoch darum, völlig neue Stichproben zu erstellen, die noch schwieriger mit einem Originaldatensatz in Verbindung zu bringen sind. Wir betrachten 2 große Blöcke von Ansätzen:

  • Modellbasiert: In der Regel werden auf Deep Learning basierende Modelle trainiert, um neue Stichproben zu erzeugen. Zwei beliebte Architekturen hierfür sind Variational Autoencoders (VAE) und Generative Adversarial Network (GAN).
  • Regelbasiert: Manchmal gibt es klare Geschäfts- oder Konstruktionsregeln, die befolgt werden können, um neue synthetische Daten zu erstellen. Dies kann entweder über Regel-Engines erfolgen, die mit der Erstellung eines gültigen Dateneintrags beauftragt werden können (z. B. Personen mit der richtigen Altersspanne, einer plausiblen E-Mail-Adresse usw.) oder durch die Zusammenstellung mehrerer Bilder zur Erstellung neuer Bilder.

Den Weg durch den Framework-Dschungel finden

An dieser Stelle müssen wir einen Vorbehalt anbringen: Synthetische Daten sind ein aufstrebendes, aber noch junges Gebiet. Das bedeutet, dass eine Menge neuer Frameworks auftauchen, von denen einige auch wieder veraltet sind.

Einige Rahmenwerke, die es wert sind, geprüft zu werden:

Abschließend möchte ich sagen, dass die Erstellung neuer Stichproben in der Regel nicht der schwierigste Teil ist. Viel schwieriger ist es jedoch, dafür zu sorgen, dass die synthetischen Stichproben nützlich und relevant sind. Stellen Sie also sicher, dass Sie über eine gute Methode zur Messung der Qualität Ihrer synthetischen Daten verfügen.

Weitere Informationen über synthetische Daten aus unserer Forschung finden Sie hier:

In diesem Blogpost haben wir den Schwerpunkt auf Daten gelegt - wir haben uns angesehen, wie wir ML-Anwendungsfälle, denen es an verwertbaren Daten mangelt, unschädlich machen können. Wir haben gezeigt, wie die Kombination verschiedener Datenschutztechniken zum Schutz vor Angriffen beitragen und die Nutzung ansonsten persönlicher oder vertraulicher Daten ermöglichen kann. Als Nächstes haben wir verschiedene Optionen und Kompromisse für die Einbeziehung externer Daten aufgezeigt, um unseren Datensatz weiter zu erweitern oder aufzubauen. Schließlich haben wir uns synthetische Daten näher angesehen, ein Ansatz, der noch weiter erprobt werden muss, aber die Möglichkeit verspricht, den Umfang unseres Datensatzes zu vergrößern und die Privatsphäre weiter zu schützen.

Verwandte Beiträge

Alle anzeigen
Keine Ergebnisse gefunden.
Es gibt keine Ergebnisse mit diesen Kriterien. Versuchen Sie, Ihre Suche zu ändern.
Stiftung Modelle
Unternehmen
Unser Team
Verantwortungsvolle und ethische KI
Strukturierte Daten
Chat GPT
Nachhaltigkeit
Stimme und Ton
Front-End-Entwicklung
Schutz und Sicherheit von Daten
Verantwortungsvolle/ethische KI
Infrastruktur
Hardware und Sensoren
MLOps
Generative KI
Verarbeitung natürlicher Sprache
Computer Vision