7. Juni 2023

Entwicklung von KI-Systemen im Zeitalter der Stiftungsmodelle: Eine Einführung

Mitwirkende
Jan Van Looy
Projektleiter und Spezialist für generative KI
Caroline Adam
Leiter der Inkubationsabteilung & KI-Ethiker
Newsletter abonnieren
Diesen Beitrag teilen

Einführung

Analysten glauben, dass wir in das industrielle Zeitalter der künstlichen Intelligenz eintreten. Foundation Models (FMs) - große, vortrainierte KI-Modelle, die sich leicht an neue Anwendungsfälle anpassen lassen - revolutionieren die kreative Arbeit und werden in den kommenden Jahren voraussichtlich immer mehr Wissensarbeit ergänzen oder übernehmen, da immer mehr Anwendungsfälle in verschiedenen Branchen von FM-basierter KI angegangen werden.

Unternehmen in der Kreativ- und Wissensbranche versuchen verzweifelt, eine Strategie zu entwickeln, da sie spüren, dass ihr Geschäft in den nächsten Jahren eine Achterbahnfahrt erleben könnte. Kunden berichten uns, dass ihre Mitarbeiter bei einigen Aufgaben bereits bis zu fünfmal produktiver sind, wenn sie generative KI-Tools von der Stange einsetzen und die Arbeit einer ganzen Woche an einem Tag erledigen. Niemand will zurückbleiben, aber für viele ist nicht klar, wo oder wie sie anfangen sollen.

In diesem Blogpost versuchen wir, einige der Entwicklungen, die wir um uns herum beobachten, zu verstehen und eine allgemeine Strategie vorzuschlagen, wie wir die laufende FM-Revolution betrachten und angehen können. Zunächst werden wir einen Blick auf FMs selbst werfen und darauf, wie sie sich von dem unterscheiden, was vorher da war. Danach werden wir uns mit MLOps befassen und damit, wie es den Weg für Foundation Model Ops (FMOps) ebnet, bei dem es viel mehr um die Ausrichtung der Modellleistung als nur um Leistung und Stabilität geht. Insgesamt glauben wir, dass es für Unternehmen möglich ist, ihre Daten- und KI-Infrastruktur jetzt so einzurichten, dass sie in der Lage sind, auf jede der Innovationen, die zwangsläufig kommen werden, aufzuspringen. Der Schlüssel dazu ist ein solides internes Datenmanagement und die Optimierung der internen Prozesse. FMOps ist ein Schlüssel, um diese Entwicklung in Gang zu setzen.

Erst allmählich, dann plötzlich: Gründungsmodelle

Der Begriff Foundation Model (FM) wurde in einem Bericht von Forschern der Stanford University aus dem Jahr 2021 geprägt und wie folgt definiert:

Ein Basismodell ist ein Modell des maschinellen Lernens, das auf einer breiten Datenbasis trainiert wurde, so dass es an ein breites Spektrum von nachgelagerten Aufgaben angepasst werden kann.

Während sich die meisten darin einig waren, dass dieser Wandel tatsächlich stattfand, spielten viele in der Branche seine Bedeutung herunter, da diese neuen Modelle zunächst auf Forschungslabors und gelegentliche Demoanwendungen beschränkt waren. Mit dem Aufkommen von Modellen wie ChatGPT ist jedoch allen klar geworden, dass wir Zeugen eines grundlegenden Paradigmenwechsels sind. Früher wurden Modelle für maschinelles Lernen für eine bestimmte Aufgabe trainiert und dann mit anderen Modellen und Geschäftslogik verknüpft, um Entscheidungen zu treffen. FMs hingegen sind Modelle mit mehreren Milliarden Parametern, die auf Terabytes von oft multimodalen Daten (z. B. Text und Bilder) vortrainiert werden und gigantische Mengen an Rechenleistung benötigen (z. B. LLaMA: 118 gpu-Jahre), um dann relativ unabhängig komplexe Aufgaben zu erfüllen.

Die Stanford-Forscher verweisen auf Emergenz und Homogenisierung als nützliche Konzepte für das Verständnis des laufenden Wandels. Wenn die Modelle größer werden und mit mehr Daten trainiert werden, beginnen sie ein emergentes Verhalten an den Tag zu legen. Das bedeutet, dass sie zwar darauf trainiert wurden, eine sehr einfache Aufgabe wie die Vorhersage des nächsten Wortes oder die Entfernung von Rauschen aus diesem Bild zu erfüllen, dass sie jedoch komplexe Verhaltensweisen entwickeln, um dies zu tun. Diese komplexeren Muster wie Leseverständnis (ähnlich dem menschlichen Denken) oder das Zeichnen wie Van Gogh (ähnlich der menschlichen Kreativität) werden nie explizit trainiert. Sie ergeben sich einfach aus dem Lernen, die Daten zu rekonstruieren.

Teilweise hängt dies mit der Tatsache zusammen, dass die Verlagerung auf Fundamentmodelle mit einer Tendenz zur Homogenisierung einhergeht: weniger Vielfalt bei den verwendeten Modellen. Da große Modelle teuer zu trainieren sind und im nachgelagerten Prozess für eine Reihe von Aufgaben angepasst werden können, wird sich die Branche in Zukunft wahrscheinlich auf eine begrenzte Anzahl von Basismodellen verlassen, die ein breites Spektrum von Anwendungen steuern. Dies birgt gewisse Risiken hinsichtlich gesellschaftlicher Verzerrungen und Fehlinformationen. Eine der größten Herausforderungen für Fachleute im Bereich des maschinellen Lernens wird daher in Zukunft darin bestehen, das Verhalten der Modelle nicht nur in Bezug auf die Leistung bei bestimmten Aufgaben, sondern auch in Bezug auf Normen und Werte und menschliche Erwartungen im Allgemeinen abzustimmen.

Hart im Nehmen

In den letzten Jahren wurden mehrere Dutzend FMs entwickelt, von denen die meisten generative KI-Modelle waren, die von einer Modalität in eine andere "übersetzen", z. B. Text zu Text(GPT), Text zu Bild(DALL-E), Bild zu Text(BLIP), Sprache zu Text(Whisper), Text zu 3D(DreamFusion), Text zu kurzem Video(Make A Video), Text zu längerem Video(Phenaki), Video zu Video(Gen1) und Text zu 3D-Video(Make a video 3D). Das Verbinden von Text und Bildern(CLIP) und die Segmentierung(SAM) sind zwei Beispiele für andere Aufgaben, die von FMs in Angriff genommen wurden.

Diese FMs werden in der Regel auf eine oder mehrere von drei Arten "freigegeben":

  • Wissenschaftliches Papier: Die meisten FMs (von Meta, Google, Salesforce) werden in einem wissenschaftlichen Papier beschrieben. Manchmal werden sie auf keine andere Weise verfügbar gemacht, was bedeutet, dass sie nur dann in Anwendungen verwendet werden können, wenn sie auf der Grundlage des Papiers neu implementiert werden, z. B. durch die Open-Source-Gemeinschaft wie im Fall von Google Imagen / DeepFloyd IF.
  • API-Zugang: bezahlter oder kostenloser API-Zugang, über den Sie mit dem FM interagieren können: typischerweise die Modelle von OpenAI. Manchmal gibt es auch die Möglichkeit, das Modell auf benutzerdefinierte Daten abzustimmen, ebenfalls über eine API. Die Kontrolle ist jedoch begrenzt und die Preise können hoch sein.
  • Open Source: Code für die Ausführung und Feinabstimmung sowie Gewichte werden zur Verfügung gestellt und können relativ frei verwendet werden, z. B. Modelle von Meta, Salesforce, Stability AI, Hugging Face, Forschungsinstituten, Open-Source-Organisationen (z. B. LAION, Eleuther). Die wichtigste Frage, die es hier zu beachten gilt, ist die Lizenz, die restriktiv (z. B. nur für die Forschung) oder freizügig (auch für die kommerzielle Nutzung) sein kann.

Zum jetzigen Zeitpunkt ist unklar, unter welchem Paradigma die meisten Modelle zur Verfügung gestellt werden, wenn eine wachsende Zahl von FMs auf den Markt kommt. Der Wettbewerb zwischen verschiedenen Cloud- und Modellanbietern wird in dieser Hinsicht eine wichtige Rolle spielen, ebenso wie die Regulierung, wie die jüngsten Änderungen des EU-KI-Gesetzes und die Anhörungen im US-Senat zeigen. Ausgehend von den aktuellen Angeboten und Ankündigungen verschiedener Cloud-Anbieter ist das wahrscheinlichste Szenario, dass es ein Spektrum von Konfigurationen geben wird, das von einer sehr begrenzten Kontrolle (einfache Eingabeaufforderung über eine API) bis hin zu einem völlig offenen Zugang zu Code und Gewichten zur Anpassung und Feinabstimmung reicht.

Auswahl eines Stiftungsmodells

Früher wurde die Leistung bei der Erstellung benutzerdefinierter Modelle durch die Datenverfügbarkeit (Quantität und Qualität), die Architektur und die Abstimmung der Hyperparameter bestimmt. Heute, mit FMs, sehen wir, dass es weitgehend auf zwei weitgehend unabhängige Faktoren ankommt:

Leistung des Basismodells: selbst bestimmt durch

  • Modellgröße (Anzahl der Parameter)
  • Dauer der Ausbildung
  • Umfang und Qualität des Datensatzes

Feinabstimmung der Leistung: selbst bestimmt durch

  • Feinabstimmung (Kombination von): selbstüberwacht, überwacht, belohnungsbasiert, ...
  • Qualität und Größe des Datensatzes (mehrere)

Die Wahl des Basismodells wirkt sich direkt auf die Leistung und die Betriebskosten Ihres Systems aus. Die Wahl eines 33B-Parameter großen Sprachmodells für Ihr Setup wird wahrscheinlich die Leistung verbessern, aber es wird auch eine teurere Infrastruktur erfordern. Interessanterweise sehen wir eine Tendenz zur Konvergenz der Basismodelle in Bezug auf die Modellarchitektur, die Größe und sogar den Trainingsdatensatz. Es ist denkbar, dass wir in Zukunft eine Reihe von Basismodellen haben werden, die sich sehr ähnlich sind und die in anderen Bereichen als der Leistung, wie z. B. Preis und Lizenzierung, miteinander konkurrieren werden.

Daher glauben wir, dass, wie wir bei ChatGPT gesehen haben, das mehrere Stufen der überwachten und belohnungsbasierten Feinabstimmung durchlaufen hat, die nachfolgenden Feinabstimmungsschritte zu noch wichtigeren Determinanten der nachgelagerten Aufgabenleistung werden. Wahrscheinlich wird die Feinabstimmung selbst weiter unterteilt werden in eine vorgelagerte Feinabstimmung durch Modellanbieter und eine nachgelagerte Feinabstimmung anhand eigener Daten und spezifischer Aufgaben durch die Nutzer. Daher raten wir unseren Kunden, in erster Linie in die nachgelagerte Feinabstimmung und die allgemeine Anpassungsleistung zu investieren und sich andere Optionen so weit wie möglich offen zu halten.

Abgesehen von der Leistung und den Betriebskosten ist der wichtigste Faktor bei der Wahl eines Stiftungsmodells, wie einfach und kosteneffizient es ist, ein System aufzubauen, das Ihren Anforderungen gerecht wird.

In unserem nächsten Blogpostgehen wir näher darauf ein, was es bedeutet, Foundation Model Operations oder FMOps einzurichten.


Verwandte Beiträge

Alle anzeigen
Keine Ergebnisse gefunden.
Es gibt keine Ergebnisse mit diesen Kriterien. Versuchen Sie, Ihre Suche zu ändern.
Großes Sprachmodell
Stiftung Modelle
Unternehmen
Unser Team
Strukturierte Daten
Chat GPT
Nachhaltigkeit
Stimme und Ton
Front-End-Entwicklung
Schutz und Sicherheit von Daten
Verantwortungsvolle/ethische KI
Infrastruktur
Hardware und Sensoren
MLOps
Generative KI
Verarbeitung natürlicher Sprache
Computer Vision