Der Bereich der künstlichen Intelligenz war in den letzten 10 Jahren gleichbedeutend mit exponentiellem Wachstum.
Damit eine Innovation in diesem Bereich, in dem Umwälzungen an der Tagesordnung sind, hervorsticht, muss sie schlichtweg spektakulär sein. Und spektakulär ist genau das, wie wir die jüngsten Fortschritte im Bereich des Sprachverständnisses und der Spracherzeugung durch Innovationen wie ChatGPT und GPT-4 beschreiben können.
All das ist beeindruckend, wirft aber eine einfache Frage auf: Was ist für Sie drin?
Im Folgenden werden wir versuchen, genau diese Frage zu beantworten, indem wir das disruptive Potenzial dieser Technologien erörtern. Wir werden auch die Grenzen dieser Modelle untersuchen und uns darauf konzentrieren, wie wir diese Herausforderungen überwinden können. Denn schließlich:
"Der Pessimist sieht in jeder Gelegenheit eine Schwierigkeit.
Der Optimist sieht in jeder Schwierigkeit eine Gelegenheit.
ChatGPT und GPT-4 haben die Welt der natürlichen Sprachverarbeitung im Sturm erobert. Enthusiasten sehen den Beginn der künstlichen Intelligenz auf menschlichem Niveau, Forscher sehen nichts Besonderes und Skeptiker sehen einen Grund, sich mit Toilettenpapier einzudecken.
Bevor wir untersuchen, wie wir diese Durchbrüche nutzen können, um uns einen strategischen Vorteil zu verschaffen, sollten wir überlegen, warum wir diesen Fortschritt überhaupt erleben.
Es wird viele überraschen, dass das Arbeitsprinzip hinter ChatGPT und GPT-4, der so genannte "Transformator", bereits seit 2017 existiert.
Wie die "4" in GPT-4 andeutet, handelt es sich bei dem, was wir jetzt sehen, nicht so sehr um eine radikale Veränderung in der Art und Weise der Texterstellung, sondern vielmehr um den Höhepunkt von sechs Jahren inkrementeller Verbesserungen derselben Methode.
Um es mit den Worten von Steve Jobs zu sagen:
"Wenn man genau hinsieht, haben die meisten Erfolge über Nacht lange gedauert".
Dennoch stellt sich die Frage: Warum jetzt?
Die Antwort auf diese Frage ist dreifach:
👉 Größer und besser
👉 Einbeziehung des menschlichen Feedbacks mit RLHF
👉 Menschen können nicht kaufen, was sie nicht kennen
Eine einfache Wahrheit über das Verstehen natürlicher Sprache ist, dass man eine riesige Anzahl subtiler Nuancen berücksichtigen muss. Wenn man der Zählung der GPT-4-Parameter Glauben schenken darf, sprechen wir von 100 Billionen dieser Nuancen.
Je größer ein Modell ist, desto mehr Kapazität hat es, um immer feinere Nuancen zu verstehen. Die ständig wachsenden Rechenressourcen und die im Internet verfügbaren Daten wiederum ermöglichen es uns, diese Kapazität zu nutzen.
Es ist ein bekanntes Geheimnis in der KI, dass das gleiche Modell, aber größer, unweigerlich besser ist. ChatGPT und insbesondere GPT-4 sind viel größer als ihre Vorgänger, was ihre Leistung erheblich gesteigert hat.
Dieser Trend hat jedoch seine Grenzen. Mehr Kapazität bringt keinen Mehrwert mehr, sobald wir genügend Parameter erreicht haben, um auch die feinsten Nuancen der menschlichen Sprache zu erfassen. Diese Grenze ist natürlich noch nicht in Sicht.
Der größte Unterschied zwischen ChatGPT & GPT-4 und ihren Vorgängern ist, dass sie menschliches Feedback einbeziehen. Die dafür verwendete Methode ist Reinforcement Learning from Human Feedback (RLHF).
Es handelt sich im Wesentlichen um einen Kreislauf der kontinuierlichen Verbesserung. Das System generiert einen Text; der Benutzer gibt ein implizites oder explizites Feedback darüber, was es besser machen könnte (z. B. eine ausführlichere Antwort geben); das System nutzt diese Informationen, um besser zu werden.
Die Idee von RLHF gibt es auch schon seit 2017. 2017 war ein großartiges Jahr für Durchbrüche im Jahr 2023. Bis vor Kurzem wurde sie noch nicht weit verbreitet, weil das Sammeln von menschlichem Feedback im Zeitalter von Big Data immer als Engpass angesehen wurde. Schließlich kann ein Computer große Teile des Internets innerhalb weniger Tage durchforsten, während wir Menschen schon nach der Hälfte eines Artikels abgelenkt sind.
Die einzige Möglichkeit, RLHF wirklich in großem Umfang zu nutzen, wäre, wenn ChatGPT und GPT-4 eine große Nutzerbasis hätten, die ständig Feedback gibt.
Es sieht so aus, als kämen Sie und ich hier ins Spiel.
Während der Aufstieg von ChatGPT für viele wie aus dem Nichts zu kommen schien, hat die NLP-Gemeinschaft in den letzten Jahren enorme Durchbrüche erzielt, von denen viele das Potenzial hatten, ein ähnliches Interesse in der breiten Öffentlichkeit zu wecken.
Bisher waren diese Durchbrüche jedoch nie in der Lage, ein wirkliches Bewusstsein in der breiten Öffentlichkeit zu schaffen. Um es mit den Worten von Warren Buffett zu sagen: "Wenn man nicht kommunizieren kann, ist es, als würde man einem Mädchen im Dunkeln zuzwinkern - es passiert nichts".
OpenAI hat es meisterhaft geschafft, (i) seine Technologie in einer zugänglichen und intuitiven Anwendung zu verpacken und (ii) das Bewusstsein der Masse für seine Arbeit zu schärfen.
Zum Teil, um die Akzeptanz von KI in wichtigen Anwendungsfällen zu erhöhen und sich als Vorreiter in diesem Prozess zu positionieren.
Zum Teil, um das RLHF-Schwungrad am Laufen zu halten und ihre Produkte immer besser zu machen.
Während KI-Modelle früher gezielte Problemlöser waren, sehen wir heute breit gefächerte und vielseitige KI-Systeme, deren Fähigkeiten vom kreativen Schreiben bis hin zur Computerprogrammierung reichen.
Wir bewegen uns von vielen einzelnen Werkzeugen in unserem KI-Werkzeuggürtel zu einigen wenigen KI-Schweizer Taschenmessern.
Dieses neue Paradigma eröffnet eine Fülle von Möglichkeiten, sich einen Wettbewerbsvorteil zu verschaffen. Auch wenn die Veröffentlichung von ChatGPT und GPT-4 gerade erst im Rückspiegel zu sehen ist, können wir bereits beobachten, wie frühe Anwender diese Technologien annehmen und ihr bahnbrechendes Potenzial nutzen, um sich an der Spitze ihrer jeweiligen Branche zu positionieren.
Einige konkrete Beispiele sind:
Wir gehen davon aus, dass ChatGPT und GPT-4 über die derzeitigen Anwendungsfälle hinaus einen großen Einfluss auf die Auffindbarkeit von Wissen haben werden.
Wir gehen davon aus, dass Unternehmen und Behörden eine Frage-Antwort-Schicht über ihre internen Daten legen werden, um den intuitiven Abruf des in der Organisation vorhandenen Wissens zu ermöglichen.
Vor allem in wissensbasierten Sektoren wie dem Rechtswesen, den Medien und der Verwaltung sehen wir besonders große Auswirkungen.
Um dies an einigen Beispielen zu verdeutlichen, kann dies:
Um die Grenzen von Technologien wie ChatGPT vollständig zu verstehen, ist es wichtig, ihr grundlegendes Funktionsprinzip zu kennen.
Winston Churchill hat einmal gesagt: "Aus großer Komplexität entsteht große Einfachheit".
Im Fall von ChatGPT und GPT-4 behaupten wir genau das Gegenteil: "Ausstarker Vereinfachung entsteht starke Komplexität".
Es wird viele überraschen, dass wirklich jedes moderne Texterstellungssystem unter einer sehr einfachen Prämisse arbeitet. Sie alle sind Systeme, die das nächste Wort in einem Satz vorhersagen. Nicht mehr und nicht weniger.
Sie fangen an, Wörter aneinander zu reihen, um die statistisch wahrscheinlichste Folge von Wörtern zu konstruieren, die sich aus der ursprünglichen Aufforderung ergibt.
Bei ML6 stellen wir uns diesen Prozess gerne als eine zufällige Wanderung von Wörtern vor.
Dies bedeutet, dass Technologien wie ChatGPT nie wirklich über die Botschaft nachdenken, die sie vermitteln wollen. Dieser Mangel an expliziten Überlegungen führt zu Einschränkungen in Bezug auf Zuverlässigkeit, Kontrollierbarkeit und Ethik.
Um dieses grundsätzliche Problem zu umgehen, werden erhebliche Anstrengungen unternommen, um das, was diese Systeme produzieren können, mit Leitplanken zu versehen. Ein weiterer vielversprechender Weg ist die Verknüpfung von generierten Informationen mit Quellen, um eine bequeme Überprüfung der Fakten zu ermöglichen.
Dennoch ist es wichtig zu bedenken, dass solche Mittel zwar recht wirksam sind, aber immer noch symptomatische Lösungen darstellen, die darauf abzielen, eine grundlegende Einschränkung zu beheben.
Langfristig glauben wir, dass wir noch einen Paradigmenwechsel davon entfernt sind, über grundlegend vertrauenswürdige und zuverlässige große Sprachmodelle zu verfügen; ein Paradigma, in dem Sprache als mehr als eine statistisch wahrscheinliche Abfolge von Wörtern betrachtet wird und Text ausgehend von einer vorgefassten Idee generiert wird.
Außerdem sollte die derzeitige Abhängigkeit von OpenAI (und Microsoft) nicht unterschätzt werden. Während wir glauben, dass Open-Source-Alternativen zu den Diensten von OpenAI unweigerlich auftauchen werden, sollten wir uns der neuen Eintrittsbarrieren im Zeitalter großer Sprachmodelle bewusst sein.
Zum einen werden Open-Source-Initiativen mit dem Bedarf an mehr Rechenressourcen konfrontiert sein, um Modelle mit einer vergleichbaren Größe wie ChatGPT und GPT-4 zu trainieren.
Zum anderen wird der fehlende Zugang zu dem menschlichen Feedback, das OpenAI im Laufe der Zeit gesammelt hat, eine Herausforderung darstellen, um eine vergleichbare Leistung zu erreichen.
Zusammenfassend lässt sich sagen, dass Technologien wie ChatGPT und GPT-4 auf dem Vormarsch sind.
Wir glauben, dass die Unternehmen, die:
(i) Erkennen Sie sowohl die Möglichkeiten als auch die Grenzen großer Sprachmodelle und
(ii) Integrieren Sie diese Technologien in Ihr Kerngeschäft
wird es gelingen, sich als Vorreiter in der sich ständig weiterentwickelnden digitalen Landschaft zu etablieren.
Zum Schluss noch ein (versprochenes) Zitat von Bob Iger, dem CEO von Disney:
Das Riskanteste, was wir tun können, ist, den Status quo beizubehalten.