In dieser Blogpost-Serie befassen wir uns mit der Bedeutung von Daten für die Erstellung leistungsfähiger ML-Modelle. Der Schwerpunkt unseres ersten Blogbeitrags (siehe hier falls Sie ihn noch nicht gelesen haben) lag auf der Frage, wie man das volle Potenzial von Daten ausschöpfen kann, wobei wir uns insbesondere mit der Datenkennzeichnung, der Datenqualität und der Datenerweiterung befasst haben.
Was tun wir aber, wenn wir noch keine oder nicht genügend verwertbare Daten haben, um loszulegen? Eine offensichtliche Möglichkeit ist, (mehr) Daten zu sammeln. Heute wollen wir jedoch darüber hinausgehen. Wir werden uns drei weitere Dimensionen ansehen, die für die Freigabe von ML-Anwendungsfällen relevant sein können: Datenschutz, externe Daten und synthetische Daten.
Inwiefern ist der Datenschutz für die Erstellung leistungsfähiger ML-Modelle relevant? In der Tat kann der Datenschutz oft ein Hindernis für die Verwendung von Daten in unseren Modellen sein. Schauen wir uns einmal an, was wir damit meinen.
Eine erste Möglichkeit, wie der Datenschutz Daten für die ML-Modellierung freigeben kann, ist natürlich die Notwendigkeit, Vorschriften (wie die GDPR) zu befolgen. Vor allem im NLP-Kontext haben wir es oft mit personenbezogenen Daten zu tun (PII). Ohne Anonymisierung oder Pseudonymisierung von Daten könnten wir die Daten gar nicht oder nicht auf die wirkungsvollste Weise nutzen.
Neben der Freischaltung des Projekts kann dies auch erhebliche Auswirkungen auf die Qualität des Modells haben. Nehmen wir ein ML-Projekt, das personenbezogene Daten enthält. Ohne Anonymisierung müssen wir die Daten so schnell wie möglich entfernen. Je nach Anwendung kann dies drei Monate dauern. Wenn wir jedoch in einen angemessenen Anonymisierungsfluss investieren, sind diese Daten nicht mehr persönlich identifizierbar und können anschließend für einen unbestimmten Zeitraum gespeichert werden. Das nachstehende Diagramm zeigt die typische Auswirkung der Modellleistung durch Training auf mehr Datenpunkte (dargestellt durch den Zeitraum, in dem die Daten gesammelt wurden).
Datenschutz ist auch notwendig, um Vertrauen zu schaffen und potenzielle Angriffe abzuwehren. Und schließlich ist es für den Schutz der Privatsphäre von entscheidender Bedeutung, dass eine Person mit böswilligen Absichten nicht herausfinden kann, ob eine bestimmte Person Teil der Trainingsdaten war, oder in der Lage ist, anonymisierte Daten mit anderen Daten zu verknüpfen, um Personen zu identifizieren.
Der Schutz von Daten kann mit verschiedenen Techniken erfolgen. Es gibt kein Patentrezept - oft werden verschiedene Techniken in Kombination miteinander eingesetzt. Zwei der gängigsten und einfachsten Methoden sind die De-Identifizierung/Datenanonymisierung und die K-Anonymisierung. Erstere bedeutet die Entfernung persönlicher Informationen aus dem Datensatz, z. B. durch Unschärfe von Gesichtern in Bildern. Bei letzterer geht es darum, Anonymität in Zahlen zu schaffen - d. h. eine minimale Menge von Vorkommnissen zu definieren und Ausreißer zu gruppieren, um Einzelpersonen vor Rückschlüssen zu schützen, die auf einer kleinen Gruppengröße basieren.
Andere Methoden beinhalten in der Regel eine Form der Rauschunterdrückung (Noise Injection), d. h. wir ersetzen eine minimale Anzahl von Attributen von Datenpunkten, um den Datenschutz zu verbessern. In allen Fällen (bei den Methoden zur Rauschunterdrückung natürlich noch deutlicher) müssen Sie einen Kompromiss zwischen Datennutzen und Datenschutz eingehen. Die tatsächliche Auswahl und Kombination von Methoden wird von Ihrem Anwendungsfall abhängen.
Wie der Name schon sagt, umfassen externe Daten alle Daten, die von außerhalb der Organisation erhoben wurden. Wenn keine relevanten internen Daten verfügbar sind (z. B. für ein völlig neues Produkt), kann dies die einzige Option sein.
Aber auch wenn Sie über relevante interne Daten verfügen, können externe Daten eine gute Investition sein, wenn die Bereinigung der internen Daten zu kostspielig ist oder wenn Sie die internen Daten erweitern wollen. Dies kann entweder quantitativ, durch Hinzufügen zusätzlicher Funktionen (z. B. Wetterinformationen) oder durch größere Vollständigkeit geschehen.
Es gibt verschiedene Arten von externen Datenquellen, die in Frage kommen, natürlich abhängig von der Verfügbarkeit und den Anforderungen des Projekts:
Zwischen diesen verschiedenen Typen sowie zwischen verschiedenen Anbietern gibt es wichtige Kompromisse zu berücksichtigen. Die drei verschiedenen Achsen, nach denen wir Optionen normalerweise bewerten, sind Preis, Qualität und Zeitaufwand.
Wir gehen etwas tiefer in jede Achse hinein:
Leider bedeutet der bloße Zugriff auf externe Daten oft nicht, dass wir sie ohne weiteres verwenden können. Denken Sie daran, dass externe Daten oft bereinigt, erweitert und nachbearbeitet werden müssen, bevor Sie sie in Ihren ML-Modellen verwenden können.
Überlegen Sie im Rahmen Ihrer Bewertung und der Berechnung des Geschäftswerts des Projekts, wie viel zusätzliches Engineering für die externen Daten erforderlich ist, z. B. um die Datenqualität zu verbessern, mehrere Datenquellen zu kombinieren oder die Daten mit internen Daten zu verbinden.
Wie in unserem ersten Blogpost erwähnt, ist das Sammeln von Daten und insbesondere deren Kennzeichnung oft eine zeitaufwändige und teure Aufgabe. Daher suchen ML-Praktiker zunehmend nach effizienteren Wegen, um verwertbare Daten zu generieren, von der künstlichen Erweiterung von Datensätzen durch die Erstellung kleiner Variationen bestehender Datenpunkte (Datenvergrößerung) bis hin zur zunehmenden Verwendung hybrider oder vollständig synthetischer Daten.
Synthetische Daten sind aus zwei Gründen in den Mittelpunkt des Interesses gerückt: Einerseits können wir damit die Menge der verfügbaren Daten für das Training erhöhen. Andererseits können sie eine Möglichkeit sein, Daten zu schützen. Letztlich können synthetische Daten dazu beitragen, genauere, robustere, fairere und privatere Modelle zu erhalten.
Obwohl synthetische Daten letztlich viele Vorteile haben können, sehen wir in der Regel 3 Anwendungsfälle, in denen sie bereits nützlich sind:
In gewisser Weise können die Techniken der Datenerweiterung und der Pseudonymisierung/Anonymisierung von Daten für die Erstellung synthetischer Daten genutzt werden. In der Regel geht es jedoch darum, völlig neue Stichproben zu erstellen, die noch schwieriger mit einem Originaldatensatz in Verbindung zu bringen sind. Wir betrachten 2 große Blöcke von Ansätzen:
An dieser Stelle müssen wir einen Vorbehalt anbringen: Synthetische Daten sind ein aufstrebendes, aber noch junges Gebiet. Das bedeutet, dass eine Menge neuer Frameworks auftauchen, von denen einige auch wieder veraltet sind.
Einige Rahmenwerke, die es wert sind, geprüft zu werden:
Abschließend möchte ich sagen, dass die Erstellung neuer Stichproben in der Regel nicht der schwierigste Teil ist. Viel schwieriger ist es jedoch, dafür zu sorgen, dass die synthetischen Stichproben nützlich und relevant sind. Stellen Sie also sicher, dass Sie über eine gute Methode zur Messung der Qualität Ihrer synthetischen Daten verfügen.
In diesem Blogpost haben wir den Schwerpunkt auf Daten gelegt - wir haben uns angesehen, wie wir ML-Anwendungsfälle, denen es an verwertbaren Daten mangelt, unschädlich machen können. Wir haben gezeigt, wie die Kombination verschiedener Datenschutztechniken zum Schutz vor Angriffen beitragen und die Nutzung ansonsten persönlicher oder vertraulicher Daten ermöglichen kann. Als Nächstes haben wir verschiedene Optionen und Kompromisse für die Einbeziehung externer Daten aufgezeigt, um unseren Datensatz weiter zu erweitern oder aufzubauen. Schließlich haben wir uns synthetische Daten näher angesehen, ein Ansatz, der noch weiter erprobt werden muss, aber die Möglichkeit verspricht, den Umfang unseres Datensatzes zu vergrößern und die Privatsphäre weiter zu schützen.