Basismodelle spielen eine zentrale Rolle als Grundlage vieler fortgeschrittener Systeme der künstlichen Intelligenz. Einfach ausgedrückt ist ein Basismodell ein groß angelegtes KI-Modell, das anhand großer Datenmengen trainiert wurde und als Grundlage für eine weitere Spezialisierung oder Anwendung in verschiedenen Bereichen dient. Ein herausragendes Beispiel für solche Systeme sind generative KI-Modelle, die in der Lage sind, selbstständig Inhalte zu produzieren, seien es Texte (wie ChatGPT), Bilder (wie Midjourney), Audio oder Video.
Generative KI-Modelle sind naturgemäß auf umfangreiche Datensätze für das Training angewiesen. Diese Datensätze enthalten oft riesige Mengen an Bildern, Textfragmenten und anderen Daten, die aus verschiedenen Quellen stammen. Die schiere Menge und Vielfalt der Daten, die diese Modelle nutzen, kann manchmal die Herkunft der Daten überschatten, von denen einige möglicherweise urheberrechtlich geschützt sind.
Das EU-KI-Gesetz zielt auf die Regulierung von Basismodellen und generativen KI-Systemen ab. Gemäß einer der Verpflichtungen, die das Europäische Parlament in der aktuellen Fassung des Gesetzes auferlegt hat (der Text ist noch nicht fertiggestellt), sollten Anbieter von Basismodellen, die in generativen KI-Systemen verwendet werden, "dokumentieren und veröffentlichen. öffentlich verfügbar a ausreichend detaillierte Zusammenfassung der Verwendung von Ausbildungsdaten geschützt nach dem Urheberrechtsgesetz" (Abänderung 399, Artikel 28b des derzeitigen Textes). Mit anderen Worten: Unternehmen wie OpenAI (als Anbieter von ChatGPT) wären verpflichtet, die urheberrechtlich geschützten Daten, die sie zum Trainieren ihrer Modelle verwenden, zu dokumentieren und offenzulegen.
Das Ziel der Verpflichtung ist klar und logisch, nämlich für Transparenz zu sorgen und sicherzustellen, dass die Beteiligten Einblick in die Funktionsweise dieser einflussreichen KI-Systeme haben. Obwohl wir mehr Transparenz befürworten, werden wir in diesem Blogpost zwei Gründe anführen, warum sich die geplante Verpflichtung für viele Unternehmen, die an der Entwicklung und dem Einsatz dieser Art von Modellen arbeiten, als sehr schwierige (um nicht zu sagen unmögliche) Aufgabe erweisen könnte:
Da die Folgen einer Nichteinhaltung zu empfindlichen Strafen führen könnten, sind wir der Meinung, dass, falls die Bestimmung tatsächlich angenommen werden sollte, weitere Leitlinien erforderlich sind, wie Anbieter von Stiftungsmodellen dieser Verpflichtung nachkommen können.
Der Urheberrechtsschutz gilt für"Werke der Kunst und Literatur", ein autonomer Begriff des Unionsrechts, der in der gesamten Europäischen Union einheitlich auszulegen ist.
Für die Auslegung des Begriffs müssen wir die Rechtsprechung des Gerichtshofs der Europäischen Union (EuGH) heranziehen. Nach der Rechtsprechung können wir von einem geschützten Werk sprechen, wenn zwei Bedingungen erfüllt sind: (1) das Werk muss originell sein und (2) es muss einen Ausdruck haben (z. B. EuGH 12. September 2019, Cofemel, C-683/17, Rn. 29):
Nach ständiger Rechtsprechung des Gerichtshofs kann ein Gegenstand nur dann als originell angesehen werden, wenn er die Persönlichkeit seines Urhebers als Ausdruck seiner freien und schöpferischen Entscheidungen widerspiegelt (vgl. z. B. EuGH, 1. Dezember 2011, Painer, C-145/10, Randnrn. 88, 89 und 94).
Wenn ein Gegenstand diese beiden europäischen Bedingungen erfüllt, wird er durch das Urheberrecht geschützt. Diese Bedingungen sind ausreichend, was bedeutet, dass keine weiteren Bedingungen für den Schutz gestellt werden dürfen, so dass Begriffe wie "Neuheit", "Erfindungsreichtum", "ästhetischer oder künstlerischer Charakter" oder "ein gewisses Maß an Aufwand oder Fachwissen" für die Entscheidung, ob ein Gegenstand urheberrechtlich geschützt ist oder nicht, irrelevant sind.
Unter diesen europäischen Bedingungen kann eine Vielzahl von Gegenständen als Werk im Sinne des Urheberrechts angesehen werden. Beispiele aus der Rechtsprechung zeigen, dass der Urheberrechtsschutz weit reichen kann und dass der Begriff "Werk" weit ausgelegt wird (neben den offensichtlichen Gegenständen wie Bücher, Bilder, Musikwerke, Videos usw.):
Der breite Schutzbereich hat zur Folge, dass die vorgesehene Verpflichtung des AI-Gesetzes sehr umfangreich sein könnte, was zu einem extremen Verwaltungsaufwand führt. Beispielsweise könnte bei einem Bild eines funktionalen Gegenstands sowohl (i) das Bild als solches als auch (ii) das Design des funktionalen Gegenstands urheberrechtlich geschützt sein.
Es versteht sich von selbst, dass ein Anbieter von generativen KI-Systemen eine enorme Aufgabe bei der Dokumentation und Offenlegung von Informationen über den urheberrechtlich geschützten Gegenstand hätte, da er weiß, dass ein generatives KI-System auf Millionen von Bildern, Textfragmenten, Zeichnungen, Büchern usw. trainiert werden kann.
Das bedeutet, dass es auch kein Urheberrechtsregister gibt, das die Anbieter von generativen KI-Systemen konsultieren könnten, um zu prüfen, ob bestimmte Daten urheberrechtlich geschützt sind oder nicht.
In der Praxis muss ein Richter (in der Regel im Rahmen eines Rechtsstreits) entscheiden , ob ein bestimmtes Werk die Voraussetzungen erfüllt oder nicht. Dabei obliegt es auch dem vermeintlichen Rechteinhaber, zu beweisen, dass es sich bei dem Gegenstand um ein Werk der Kunst und Literatur handelt.
Wir stellen fest, dass die Auslegung der Bedingungen sehr subjektiv ist, so dass die Anwendbarkeit des Urheberrechtsschutzes nicht vorhersehbar ist.
Die folgenden Beispiele zeigen, dass die Bewertung in beide Richtungen gehen kann:
Die obigen Beispiele zeigen, dass der Urheberrechtsschutz sehr subjektiv ist und dass sogar die Richter unterschiedliche Meinungen zum Thema haben können.
Es liegt auf der Hand, dass es für einen Anbieter von generativen KI-Systemen sehr schwierig ist, zu beurteilen, ob bestimmte Daten urheberrechtlich geschützt sind oder nicht, wenn sogar die Meinungen der Richter voneinander abweichen können. Dies gilt umso mehr, wenn es kein Urheberrechtsregister gibt, in dem dies überprüft werden kann.
Selbstverständlich sprechen wir uns für mehr Datentransparenz für Anbieter von Stiftungsmodellen aus. So unterstützen wir beispielsweise voll und ganz die Idee, Stiftungsmodelle zu regulieren, und die vorgesehenen Transparenzverpflichtungen zur Offenlegung der Berechnungen (Modellgröße, Computerleistung, Trainingszeit), der Fähigkeiten und Grenzen des Modells, der Ergebnisse interner und externer Tests usw. Obwohl die Bestimmung über die Transparenz in Bezug auf urheberrechtlich geschütztes Material ebenfalls logisch ist, glauben wir, dass die derzeitige Bestimmung aus den in diesem Blogpost genannten Gründen in der Praxis schwer einzuhalten ist.
Sollte die Vorschrift tatsächlich umgesetzt werden, sind unserer Ansicht nach weitere Hinweise erforderlich, wie die Anbieter die vorgesehene Verpflichtung des AI-Gesetzes tatsächlich erfüllen können.
Darüber hinaus wäre es wünschenswert, wenn der Begriff der "hinreichend ausführlichen Zusammenfassung" besser ausgelegt werden könnte. Es stellt sich die Frage, wie ausführlich die Offenlegung sein muss und was unter einer Zusammenfassung zu verstehen ist.
Die Bedeutung und der Bedarf an Leitlinien liegt auf der Hand, denn die Nichteinhaltung der neuen Bestimmungen kann dazu führen, dass Anbieter von generativen KI-Systemen haftbar gemacht werden können, wenn keine ausreichenden Zusammenfassungen der Trainingsdatensätze vorhanden sind. Die Nichteinhaltung dieser Offenlegungspflichten könnte zu potenziellen Geldbußen von bis zu 10 Mio. EUR oder 2 % des Jahresumsatzes führen, je nachdem, welcher Betrag höher ist.