Analysten glauben, dass wir in das industrielle Zeitalter der künstlichen Intelligenz eintreten. Foundation Models (FMs) - große, vortrainierte KI-Modelle, die sich leicht an neue Anwendungsfälle anpassen lassen - revolutionieren die kreative Arbeit und werden in den kommenden Jahren voraussichtlich immer mehr Wissensarbeit ergänzen oder übernehmen, da immer mehr Anwendungsfälle in verschiedenen Branchen von FM-basierter KI angegangen werden.
Unternehmen in der Kreativ- und Wissensbranche versuchen verzweifelt, eine Strategie zu entwickeln, da sie spüren, dass ihr Geschäft in den nächsten Jahren eine Achterbahnfahrt erleben könnte. Kunden berichten uns, dass ihre Mitarbeiter bei einigen Aufgaben bereits bis zu fünfmal produktiver sind, wenn sie generative KI-Tools von der Stange einsetzen und die Arbeit einer ganzen Woche an einem Tag erledigen. Niemand will zurückbleiben, aber für viele ist nicht klar, wo oder wie sie anfangen sollen.
In diesem Blogpost versuchen wir, einige der Entwicklungen, die wir um uns herum beobachten, zu verstehen und eine allgemeine Strategie vorzuschlagen, wie wir die laufende FM-Revolution betrachten und angehen können. Zunächst werden wir einen Blick auf FMs selbst werfen und darauf, wie sie sich von dem unterscheiden, was vorher da war. Danach werden wir uns mit MLOps befassen und damit, wie es den Weg für Foundation Model Ops (FMOps) ebnet, bei dem es viel mehr um die Ausrichtung der Modellleistung als nur um Leistung und Stabilität geht. Insgesamt glauben wir, dass es für Unternehmen möglich ist, ihre Daten- und KI-Infrastruktur jetzt so einzurichten, dass sie in der Lage sind, auf jede der Innovationen, die zwangsläufig kommen werden, aufzuspringen. Der Schlüssel dazu ist ein solides internes Datenmanagement und die Optimierung der internen Prozesse. FMOps ist ein Schlüssel, um diese Entwicklung in Gang zu setzen.
Der Begriff Foundation Model (FM) wurde in einem Bericht von Forschern der Stanford University aus dem Jahr 2021 geprägt und wie folgt definiert:
Ein Basismodell ist ein Modell des maschinellen Lernens, das auf einer breiten Datenbasis trainiert wurde, so dass es an ein breites Spektrum von nachgelagerten Aufgaben angepasst werden kann.
Während sich die meisten darin einig waren, dass dieser Wandel tatsächlich stattfand, spielten viele in der Branche seine Bedeutung herunter, da diese neuen Modelle zunächst auf Forschungslabors und gelegentliche Demoanwendungen beschränkt waren. Mit dem Aufkommen von Modellen wie ChatGPT ist jedoch allen klar geworden, dass wir Zeugen eines grundlegenden Paradigmenwechsels sind. Früher wurden Modelle für maschinelles Lernen für eine bestimmte Aufgabe trainiert und dann mit anderen Modellen und Geschäftslogik verknüpft, um Entscheidungen zu treffen. FMs hingegen sind Modelle mit mehreren Milliarden Parametern, die auf Terabytes von oft multimodalen Daten (z. B. Text und Bilder) vortrainiert werden und gigantische Mengen an Rechenleistung benötigen (z. B. LLaMA: 118 gpu-Jahre), um dann relativ unabhängig komplexe Aufgaben zu erfüllen.
Die Stanford-Forscher verweisen auf Emergenz und Homogenisierung als nützliche Konzepte für das Verständnis des laufenden Wandels. Wenn die Modelle größer werden und mit mehr Daten trainiert werden, beginnen sie ein emergentes Verhalten an den Tag zu legen. Das bedeutet, dass sie zwar darauf trainiert wurden, eine sehr einfache Aufgabe wie die Vorhersage des nächsten Wortes oder die Entfernung von Rauschen aus diesem Bild zu erfüllen, dass sie jedoch komplexe Verhaltensweisen entwickeln, um dies zu tun. Diese komplexeren Muster wie Leseverständnis (ähnlich dem menschlichen Denken) oder das Zeichnen wie Van Gogh (ähnlich der menschlichen Kreativität) werden nie explizit trainiert. Sie ergeben sich einfach aus dem Lernen, die Daten zu rekonstruieren.
Teilweise hängt dies mit der Tatsache zusammen, dass die Verlagerung auf Fundamentmodelle mit einer Tendenz zur Homogenisierung einhergeht: weniger Vielfalt bei den verwendeten Modellen. Da große Modelle teuer zu trainieren sind und im nachgelagerten Prozess für eine Reihe von Aufgaben angepasst werden können, wird sich die Branche in Zukunft wahrscheinlich auf eine begrenzte Anzahl von Basismodellen verlassen, die ein breites Spektrum von Anwendungen steuern. Dies birgt gewisse Risiken hinsichtlich gesellschaftlicher Verzerrungen und Fehlinformationen. Eine der größten Herausforderungen für Fachleute im Bereich des maschinellen Lernens wird daher in Zukunft darin bestehen, das Verhalten der Modelle nicht nur in Bezug auf die Leistung bei bestimmten Aufgaben, sondern auch in Bezug auf Normen und Werte und menschliche Erwartungen im Allgemeinen abzustimmen.
In den letzten Jahren wurden mehrere Dutzend FMs entwickelt, von denen die meisten generative KI-Modelle waren, die von einer Modalität in eine andere "übersetzen", z. B. Text zu Text(GPT), Text zu Bild(DALL-E), Bild zu Text(BLIP), Sprache zu Text(Whisper), Text zu 3D(DreamFusion), Text zu kurzem Video(Make A Video), Text zu längerem Video(Phenaki), Video zu Video(Gen1) und Text zu 3D-Video(Make a video 3D). Das Verbinden von Text und Bildern(CLIP) und die Segmentierung(SAM) sind zwei Beispiele für andere Aufgaben, die von FMs in Angriff genommen wurden.
Diese FMs werden in der Regel auf eine oder mehrere von drei Arten "freigegeben":
Zum jetzigen Zeitpunkt ist unklar, unter welchem Paradigma die meisten Modelle zur Verfügung gestellt werden, wenn eine wachsende Zahl von FMs auf den Markt kommt. Der Wettbewerb zwischen verschiedenen Cloud- und Modellanbietern wird in dieser Hinsicht eine wichtige Rolle spielen, ebenso wie die Regulierung, wie die jüngsten Änderungen des EU-KI-Gesetzes und die Anhörungen im US-Senat zeigen. Ausgehend von den aktuellen Angeboten und Ankündigungen verschiedener Cloud-Anbieter ist das wahrscheinlichste Szenario, dass es ein Spektrum von Konfigurationen geben wird, das von einer sehr begrenzten Kontrolle (einfache Eingabeaufforderung über eine API) bis hin zu einem völlig offenen Zugang zu Code und Gewichten zur Anpassung und Feinabstimmung reicht.
Früher wurde die Leistung bei der Erstellung benutzerdefinierter Modelle durch die Datenverfügbarkeit (Quantität und Qualität), die Architektur und die Abstimmung der Hyperparameter bestimmt. Heute, mit FMs, sehen wir, dass es weitgehend auf zwei weitgehend unabhängige Faktoren ankommt:
Leistung des Basismodells: selbst bestimmt durch
Feinabstimmung der Leistung: selbst bestimmt durch
Die Wahl des Basismodells wirkt sich direkt auf die Leistung und die Betriebskosten Ihres Systems aus. Die Wahl eines 33B-Parameter großen Sprachmodells für Ihr Setup wird wahrscheinlich die Leistung verbessern, aber es wird auch eine teurere Infrastruktur erfordern. Interessanterweise sehen wir eine Tendenz zur Konvergenz der Basismodelle in Bezug auf die Modellarchitektur, die Größe und sogar den Trainingsdatensatz. Es ist denkbar, dass wir in Zukunft eine Reihe von Basismodellen haben werden, die sich sehr ähnlich sind und die in anderen Bereichen als der Leistung, wie z. B. Preis und Lizenzierung, miteinander konkurrieren werden.
Daher glauben wir, dass, wie wir bei ChatGPT gesehen haben, das mehrere Stufen der überwachten und belohnungsbasierten Feinabstimmung durchlaufen hat, die nachfolgenden Feinabstimmungsschritte zu noch wichtigeren Determinanten der nachgelagerten Aufgabenleistung werden. Wahrscheinlich wird die Feinabstimmung selbst weiter unterteilt werden in eine vorgelagerte Feinabstimmung durch Modellanbieter und eine nachgelagerte Feinabstimmung anhand eigener Daten und spezifischer Aufgaben durch die Nutzer. Daher raten wir unseren Kunden, in erster Linie in die nachgelagerte Feinabstimmung und die allgemeine Anpassungsleistung zu investieren und sich andere Optionen so weit wie möglich offen zu halten.
Abgesehen von der Leistung und den Betriebskosten ist der wichtigste Faktor bei der Wahl eines Stiftungsmodells, wie einfach und kosteneffizient es ist, ein System aufzubauen, das Ihren Anforderungen gerecht wird.
In unserem nächsten Blogpostgehen wir näher darauf ein, was es bedeutet, Foundation Model Operations oder FMOps einzurichten.