In unserem letzten Blogpost haben wir darüber gesprochen, was vertrauenswürdige und ethische KI ist und wie wir bei ML6 unseren Kunden dabei helfen, durch unser Ethical AI Risk Assessment Vertrauen bei ihren Kunden und Mitarbeitern aufzubauen. In diesem Beitrag wollen wir es praktischer machen und zeigen, welche Dimensionen und Fragen wir bei einer solchen Bewertung berücksichtigen können.
Die Notwendigkeit, vertrauenswürdige KI aufzubauen, ist klar (wenn Sie noch nicht wissen, was wir mit vertrauenswürdiger KI meinen, schauen Sie sich diesen Blogbeitrag oder dieses Video an). Aber wie geht man die Überprüfung von KI-Lösungen in der Praxis an? Lassen Sie uns gemeinsam ein hypothetisches Beispiel durchgehen und dabei das im letzten Blogpost beschriebene Konzept verwenden.
Zu Beginn der Corona-Krise arbeiteten einige unserer ML6-Agenten an einem Proof of Concept zur Erkennung von (fehlenden) Gesichtsmasken auf einem Kamera-Feed mit Computer Vision, um unser Büro zu schützen (siehe diesen Blogbeitrag). Wir werden dieses Projekt als Beispiel verwenden. Bei Projekten, bei denen Menschen im Mittelpunkt stehen, wollen wir in der Regel noch mehr auf ethische Belange achten - die Gesichtsmaskenerkennung ist also ein ideales Beispiel dafür.
Um es klar zu sagen - die Lösung, die wir beschreiben und bewerten werden, wird in keinem unserer Büros tatsächlich verwendet. Aber um zu demonstrieren, wie man eine ethische Risikobewertung praktisch angeht, nehmen wir an, dass wir den Konzeptnachweis tatsächlich implementieren möchten.
Lassen Sie uns direkt eintauchen. Wir müssen uns zunächst einen Überblick über das Projekt verschaffen - was ist das Ziel und der Zweck der Lösung? Wie ist sie technisch aufgebaut und in welchem Kontext wird sie eingesetzt? In unserem Beispiel wäre unser Ziel, die Lösung zur Gesichtsmaskenerkennung zu nutzen, um unsere Büros dabei zu unterstützen, zu überwachen, ob die Covid-19-Sicherheitsmaßnahmen eingehalten werden. Die Lösung würde mit Hilfe von Computer Vision überprüfen, ob Personen beim Betreten des Bürogebäudes eine Gesichtsmaske tragen, und bei Erkennung einer fehlenden Maske eine verbale Warnung ausgeben. Aus technischer Sicht verwendet die (experimentelle) Proof of Concept-Lösung OpenCV, um Kamerabilder zu streamen, zu verarbeiten und zu modifizieren. Wir haben ein erstes Modell unter Verwendung von MTCNN entwickelt und anschließend unser eigenes Tiny YOLO-Modell für die Erkennung des Mundes der Person für jedes erkannte Gesicht trainiert - unter der Annahme, dass, wenn wir den Mund einer Person sehen können, die Person keine Gesichtsmaske trägt (weitere technische Details finden Sie im ursprünglichen Blogbeitrag). Als Letztes betrachten wir den Kontext. Der Mundmasken-Detektor wurde im Kontext der globalen Gesundheitskrise entwickelt, in der viele Länder Vorschriften zum Tragen von Gesichtsmasken an öffentlichen Orten erlassen haben. Wie Sie vielleicht bemerken, ist der Kontext in diesem Fall besonders wichtig - es gäbe keinen Grund oder Nutzen, eine solche Lösung außerhalb der aktuellen Gesundheitskrise zu implementieren.
Sobald wir einen detaillierten Überblick über die Lösung haben, müssen wir deren Nutzen und Risiken bewerten. Auf der Nutzenseite betrachten wir drei Ebenen - Nutzen für die Organisation, den Einzelnen und die Gesellschaft als Ganzes. Für die Organisation besteht der Nutzen darin, dass sich die Mitarbeiter (oder Kunden) sicher fühlen und ein geringeres Risiko tragen, krank zu werden, sowie darin, dass weniger Aufwand für manuelle Kontrollen betrieben werden muss. Für den Einzelnen ergeben sich ähnliche Vorteile - einfache Erinnerungen, eine sicherere Büroumgebung und weniger unangenehme Gespräche, in denen man seine Kollegen bittet, eine Maske aufzusetzen. Für die Gesellschaft könnte jede Maßnahme, die einen kleinen Beitrag zur endgültigen Eindämmung der Gesundheitskrise leistet, Vorteile bringen. Natürlich hängt die Realisierung dieser Vorteile stark von der tatsächlichen Nutzung der Lösung, der Akzeptanz und Befolgung ihrer Vorschläge und vielen anderen Faktoren ab.
Lassen Sie uns mit der Risikoseite fortfahren. Hier folgen wir den 7 Risikodimensionen, wie sie in den EU-Richtlinien für vertrauenswürdige KI definiert sind, und identifizieren die Risiken durch die Beantwortung einer kuratierten Reihe von Fragen.
Zur Veranschaulichung haben wir hier ein paar Beispielfragen für jede Dimension aufgeführt, aber seien Sie versichert, dass wir bei einer realen Beurteilung viel mehr Fragen betrachten würden.
In dieser Dimension befassen wir uns mit den Risiken im Zusammenhang mit dem Einfluss, den KI auf das menschliche Verhalten und die Entscheidungsfindung haben kann. Zum Beispiel sollten wir Fragen stellen wie:
Für unser Beispiel birgt diese Dimension ein eher begrenztes Risiko. Selbst wenn es tatsächlich keinen Menschen in der Schleife gibt, der jede Vorhersage verifiziert, scheint es auch nur begrenzten Schaden zu geben, der angerichtet werden kann, wenn eine Vorhersage nicht korrekt ist - im schlimmsten Fall sind wir wieder bei Mahnungen durch Ihre Mitarbeiter (um ein Gegenbeispiel zu geben, wäre dies bei einer KI-Lösung, die zum Beispiel medizinische Behandlungsoptionen für einen Patienten vorhersagt, ganz anders - wir würden wollen, dass jede dieser Vorhersagen von einem qualifizierten Arzt verifiziert wird). Es ist auch unwahrscheinlich, dass unsere Mitarbeiter der Maschine blind vertrauen, und wir sind sicher, dass jeder wissen würde, dass es sich um eine Interaktion mit einer Maschine handelt - die mechanische Stimme verrät dies deutlich.
KI-Systememüssen belastbar, sicher und zuverlässig sein, um potenziellen Schaden zu verhindern. In dieser Dimension beantworten wir Fragen wie:
Die technische Robustheit und Sicherheit wird in unserem Fall eine höhere Risikodimension sein. Einige Schäden, in diesem Fall an der Gesundheit der Mitarbeiter, könnten auftreten, wenn die Lösung nicht mehr funktioniert, allerdings glauben wir, dass die meisten Menschen die fehlende Maske recht schnell bemerken würden. Besorgniserregender ist die Tatsache, dass es recht einfach ist, die Lösung auszutricksen. Wenn Sie sich an den Anfang der Bewertung erinnern, haben wir erklärt, dass wir eigentlich fehlende Münder erkennen, nicht das Vorhandensein von Masken - wie wäre es also, den Mund hinter der Hand zu verstecken? Vielleicht müssen wir eine robustere Lösung bauen, wenn sich dies als Problem herausstellt. Natürlich ist diese Sorge noch wichtiger für KI, die größeren Schaden anrichten könnte, denken Sie zum Beispiel an selbstfahrende Autos. Sie würden wollen, dass die Technologie so robust und zuverlässig wie möglich ist (... ist Ihr Auto in der Lage, Straßenschilder korrekt zu erkennen, wenn diese mit Graffiti bedeckt sind?)
Das größte Risiko in dieser Dimension, das nichts mit KI zu tun hat, ist jedoch, dass ein böser Akteur die Kontrolle über die Kamera übernehmen oder die Lösung missbrauchen könnte, um Mitarbeiter auszuspionieren.
Der Datenschutzist ein Grundrecht, das von KI-Systemen besonders betroffen ist. Eine Lösung muss den rechtlichen Anforderungen entsprechen (z. B. GDPR), sollte aber auch einen Schritt weiter gehen und die ethische Perspektive einbeziehen.
Die Dimension der Privatsphäre birgt, wie zu erwarten war, in diesem speziellen Fall wahrscheinlich die größten Risiken. Wir verwenden Gesichtserkennung zur Identifizierung von Gesichtern und Gesichtsmerkmalen, was ein sehr umstrittenes Thema ist. Die Anwendung speichert jedoch keine Daten und wird rein "on edge" ausgeführt, wodurch sie weniger anfällig für Missbrauch oder Angriffe ist.
Hinweis: Aus rechtlicher Sicht ist eine Datenverarbeitungs-Folgenabschätzung (Art. 35 GDPR) erforderlich, um die Datenschutzrisiken sowohl aus rechtlicher als auch aus technischer Sicht zu identifizieren, zu verwalten und zu mindern.
Die Erklärbarkeiteiner KI-Lösung ist ein wichtiger Aspekt für ethische KI. Wir wollen nicht nur in der Lage sein zu erklären, welche Merkmale von einem Modell berücksichtigt wurden und wie das Modell funktioniert, sondern die Erklärbarkeit ist auch erforderlich, um sicherzustellen, dass wir dem Modell vertrauen können, und könnte sogar zusätzliche Erkenntnisse bringen. Fragen, die wir uns stellen könnten, sind:
Die Lösung, die wir gebaut haben, ist ziemlich transparent - alle Daten, Ausgaben und verwendeten Modelle sind öffentlich kommuniziert und verfügbar. Während der Anwendungsfall selbst recht einfach zu verstehen ist, könnten die zugrundeliegenden Modelle jedoch für nicht-technische Benutzer weniger klar sein. Zum Beispiel könnte das verwendete Yolo-Modell schwieriger zu verstehen sein, da es sich um eine recht komplizierte Architektur eines faltbaren neuronalen Netzwerks handelt, das auf einer großen Datenmenge trainiert wurde.
Voreingenommenheitoder Unvollständigkeit der von KI-Systemen verwendeten Datensätze oder des Systems selbst können zu Ungerechtigkeit führen oder Schaden verursachen. Wir müssen potenzielle Risiken der Voreingenommenheit aktiv erkennen und abmildern, um faire, unvoreingenommene Lösungen zu entwickeln. Fragen, die wir uns stellen könnten:
Die Dimension der Vielfalt und Fairness könnte in unserem Fall ein hohes Risiko darstellen. Wir müssten uns den Trainingsdatensatz genau ansehen - könnte es eine Personengruppe geben, die in den Trainingsdaten unterrepräsentiert ist, zum Beispiel ethnische Minderheiten? Wenn ja, ist es denkbar, dass die Gesichter dieser Gruppen mit geringerer Genauigkeit erkannt werden. Solche Probleme könnten vor allem dann unbemerkt bleiben, wenn unser Entwicklungs- und Testteam nicht eine ausreichend vielfältige Gruppe von Personen umfasst.
Dieweitergehenden Auswirkungen der KI auf die Gesellschaft und die Umwelt sollten natürlich ebenfalls berücksichtigt werden. Wir könnten über Folgendes nachdenken:
Bei ML6 haben wir starke Prinzipien zur Entwicklung nachhaltiger Lösungen. Die Verwendung von vortrainierten Open-Source-Modellen mit optimierter Modellgröße hilft beispielsweise dabei, möglichst umweltschonende Lösungen zu entwickeln. Auf der gesellschaftlichen Seite ist der Einsatz von Gesichtserkennungstechnologie stark umstritten. Wir müssen auch darauf achten, dass Lösungen, die mit einer bestimmten Absicht gebaut wurden, nicht für andere Zwecke wiederverwendet werden, und der Nutzung der Anwendung starke Grenzen setzen.
Bei der letzten Dimension, der Rechenschaftspflicht, geht es um die Übernahme von Verantwortung für Handlungen und Entscheidungen. Wir müssen in der Lage sein, festzustellen, ob ein Schaden verursacht wurde, und wissen, wie wir mögliche negative Auswirkungen korrigieren können.
Die Verantwortlichkeit ist in unserem Fall nicht eine der höchsten Risikodimensionen. In unserem experimentellen Fall können die Verantwortlichkeiten ganz klar zugewiesen werden: Die ML-Ingenieure haben eine ursprüngliche Lösung gebaut und könnten nach der Einführung für die Überwachung und Dokumentation von Entscheidungen verantwortlich sein. Wenn die Lösung tatsächlich in unserem Büro implementiert wurde, sollte das Management für alle Entscheidungen, Änderungen oder Maßnahmen im Zusammenhang mit der Lösung verantwortlich sein. Natürlich sollten wir Grenzen setzen, wie lange die Lösung im Einsatz sein wird (z. B. bis zur Aufhebung der Regulierung) und wie sich das Tool in Zukunft weiterentwickeln darf (z. B. Anforderung, auf dem neuesten Stand zu bleiben).
Wie wir sehen können, liegen die wichtigsten ethischen Risiken in diesem Anwendungsfall in den Dimensionen Datenschutz und Data Governance, Diversität und Fairness sowie technische Robustheit - nennen wir diese die Dimensionen mit hohem Risiko. Für jede Dimension müssen wir uns fragen, was wir tun können, um die Risiken zu mindern. Zunächst müssen wir jeden, der unser Büro besucht, darüber informieren, was die Lösung tut und wie sie funktioniert (wie genau sie ist, welche Technologie sie verwendet, usw.) und warum wir sie verwenden. Im Hinblick auf den Datenschutz sollten wir die Möglichkeit der Anonymisierung von Gesichtern am Rand prüfen, was ein Kompromiss mit der Leistung sein könnte. Wir könnten auch in Erwägung ziehen, Einzelpersonen die Möglichkeit zu geben, sich für oder gegen die Lösung zu entscheiden, und müssen sicherstellen, dass niemand auf die Idee kommen könnte, die erzeugten persönlichen Daten zu speichern (und dies auch umsetzen). Was die Fairness betrifft, könnten wir einen unserer Ingenieure damit beauftragen, die Lösung regelmäßig auf Verzerrungen zu überprüfen. Was die Robustheit betrifft, müssten wir die Lösung im Einsatz überwachen und ihre Robustheit verbessern, wenn wir feststellen, dass sie ausgetrickst wird, sowie die Lösung so robust wie möglich gegen potenzielle Hackerangriffe machen. Nicht zuletzt müssen wir klare Grenzen für die Lösung setzen - also entscheiden, wann wir sie nicht mehr verwenden (spätestens, wenn die Gesundheitsvorschriften aufgehoben werden). Dies sind nur ein paar Ideen für Entschärfungsmaßnahmen, natürlich sind die Möglichkeiten breit gefächert und hängen stark von der Lösung und dem Kontext ab.
In einer echten ethischen KI-Risikobewertung würden wir nun unsere Kunden durch den Entscheidungsprozess führen - überwiegen die Vorteile die Risiken? Welche Maßnahmen zur Risikominderung müssen wir ergreifen, um sicherzustellen, dass wir eine vertrauenswürdige Lösung entwickeln? Reale Anwendungsfälle können natürlich viel komplexer werden als das vereinfachte hypothetische Beispiel, das wir beschrieben haben - eine ethische Risikobewertung kann ein guter Ausgangspunkt sein, um die Risiken einer KI-Lösung systematisch zu durchdenken und sich auf die kommende Regulierung durch die EU vorzubereiten.
Zögern Sie nicht, uns anzusprechen, wenn Sie Fragen haben oder neugierig auf mehr sind!
Suchen Sie nach weiteren Inspirationen für Fragen, die Sie in den verschiedenen Dimensionen stellen können? Sehen Sie sich zum Beispiel die Tarot-Karten der Technik und die Bewertungsliste für vertrauenswürdige KI.