In der heutigen schnelllebigen Welt ist es von entscheidender Bedeutung, mit den neuesten Fortschritten und Trends auf seinem Gebiet Schritt zu halten. Aus diesem Grund werden Wissensmanagementsysteme immer beliebter, da sie Unternehmen einen zentralen Ort bieten, an dem sie ihr Wissen speichern und abrufen können. Allerdings sind nicht alle Wissensmanagementsysteme gleich. In diesem Blogbeitrag werden wir untersuchen, wie der Einsatz von Sprachmodellen, wie dem kürzlich veröffentlichten LLM, die Effektivität Ihrer domänenspezifischen Wissensdatenbank verbessern kann. Wir behandeln die Grundlagen von Sprachmodellen und wie sie auf den Daten Ihres Unternehmens trainiert werden können, um die Suchgenauigkeit zu verbessern, die Markierung zu automatisieren und sogar neue Inhalte zu generieren. Tauchen wir ein!
Ein LLM ist ein großes Sprachmodell. Das GPT-4 von OpenAI ist ein Beispiel, das LLamA von Meta ein anderes. Wir haben uns hier bewusst dafür entschieden, den allgemeinen Begriff LLM zu verwenden, um diese Modelle zu bezeichnen. Bedenken Sie: Jedes dieser Modelle wurde auf einer riesigen Menge von (öffentlich verfügbaren) Daten trainiert.
Es ist inzwischen klar erwiesen, dass diese LLMs ein sinnvolles Verständnis von allgemeiner Sprache haben und dass sie in der Lage sind, Informationen zu produzieren, die für die in ihren Trainingsdaten vorhandenen Informationen relevant sind. Das ist der Grund, warum generative Werkzeuge wie ChatGPT erstaunlich gut bei der Beantwortung von Fragen zu Themen abschneiden, denen das LLM während seines Trainings begegnet ist.
Was jedoch dem direkten Zugriff dieser massiven LLMs entzogen bleibt, sind die Daten, die innerhalb jeder Organisation so wertvoll sind: die interne Wissensbasis. Die Frage, die sich also massiv stellt, ist:
Wie können wir die Leistung dieser LLMs nutzen, um Informationen zu erschließen, die in einer spezifischen Wissensbasis gespeichert sind, auf der sie ursprünglich nicht trainiert wurden?
Oh, okay, können wir also nicht einfach unsere interne Wissensbasis als zusätzliche Daten einführen, auf denen das LLM trainiert werden sollte? Oder, wenn Sie so wollen, können wir feinabstimmen den LLM auf unsere spezifische Wissensbasis abstimmen.
Ja, das können Sie höchstwahrscheinlich. Aber für die zuverlässige Beantwortung von Fragen ist das vielleicht nicht der richtige Weg.
Darf ich vorstellen: Billy, der Bücherwurm. Billy ist ein großes Sprachmodell und hat eine gigantische Menge an Online-Informationen verschlungen, die ihm ein enormes Wissen vermitteln. Billy jedoch, so schlau er auch ist, hat die Bücher in Ihrer ganz speziellen Bibliothek zu Hause nicht durchgelesen.
Die Feinabstimmung besteht darin, dass Sie Billy, dem Bücherwurm, alle Bücher Ihrer ganz speziellen Wissensbasis vorlegen und ihn all diese schmackhaften Zusatzinformationen verschlingen lassen. Auf diese Weise kennt der LLM-Bücherwurm Billy nicht nur all die allgemeinen Informationen, sondern er "weiß" auch viel über den Inhalt Ihrer spezifischen Wissensbasis.
Herzlichen Glückwunsch, durch diesen Feinabstimmungsprozess haben Sie Billy in einen sehr spezifischen Billy verwandelt, der viel über Ihren spezifischen Bereich weiß! Im Folgenden zeigen wir Ihnen, wie Sie Billy an die Arbeit schicken können. Wenn Sie Ihrem verbesserten Bücherwurm Fragen stellen, können Sie Antworten erwarten, die sowohl die Informationen aus seinem gigantischen allgemeinen Trainingssatz als auch die in Ihrer spezifischen Wissensbasis gespeicherten Informationen nutzen.
Dieser Lösungsansatz ist zwar sehr leistungsfähig, aber das entscheidende Problem ist, dass Sie immer noch wenig Einblick in die Art und Weise haben, wie Ihr Bücherwurm auf seine Antworten gekommen ist. Außerdem hat die Feinabstimmung eines LLM (kostspielige) Konsequenzen.
Wir nennen die Hauptgründe, warum die Feinabstimmung mit Billy zu kurz kommt:
Glücklicherweise sind all diese Probleme lösbar. Wenn es Ihnen darum geht, Fragen auf nachprüfbare Weise zu beantworten und Halluzinationen zu vermeiden, brauchen Sie vielleicht nicht den hypermodernen Bücherwurm, sondern fragen Sie einfach den guten alten Bibliothekar, wo Sie die Antworten auf Ihre Fragen finden.
Die Idee hinter Retrieval-Augmented Generation (RAG) ist recht einfach. Das Ziel besteht darin, die Informationen in unserer Wissensbasis zu erschließen. Anstatt unseren Bücherwurm darauf zu entfesseln (d.h. zu verfeinern), indizieren wir die Informationen unserer Wissensbasis umfassend.
Im obigen Schema wird veranschaulicht, wie der Smart Retriever wie ein Bibliothekar funktioniert. Im Idealfall weiß der Bibliothekar genau, was sich in seiner Bibliothek befindet. Wenn ein Besucher eine bestimmte Frage stellt, weiß er genau, welches Kapitel aus welchem Buch er empfehlen muss.
Auf einer eher technischen Ebene beschreibt dies eine semantische Suchmaschine. In diesem Fall sind die Einbettungen vektorielle Darstellungen von Dokumentabschnitten und ermöglichen eine mathematische Beschreibung der tatsächlichen Bedeutung, die in jedem Abschnitt gespeichert ist. Durch den Vergleich von Einbettungen lässt sich feststellen, welche Textabschnitte eine ähnliche Bedeutung haben wie andere Textabschnitte. Dies ist entscheidend für den unten dargestellten Suchprozess.
Dabei sind zwei Komponenten von entscheidender Bedeutung:
Es sollte inzwischen klar sein, warum dieser Ansatz als Retrieval-Augmented Generation bezeichnet wird . Auf der Grundlage der gestellten Frage rufen Sie zunächst die relevantesten Informationen aus Ihrer internen Wissensbasis ab; anschließend erweitern Sie die typische Generierungsphase, indem Sie diese relevanten Informationen explizit an die Generatorkomponente weitergeben.
Abgesehen von diesen Highlights ist der mehrsprachige Aspekt von LLMs eine schöne Sache. Sie können über eine Wissensbasis verfügen, die aus rein italienischen Rezepten besteht, mit denen sich Ihr pasta-liebender französischer Freund in einem rein französischen Dialog unterhalten kann.
Im obigen Abschnitt haben wir die Feinabstimmung als nützliche Option verworfen, weil wir die Klarheit der Quelle kaum kontrollieren konnten, was das Risiko von Halluzinationen erhöhte .
Es ist anzumerken, dass der RAG-Ansatz, der von einem allgemeinen LLM unterstützt wird, nur so lange gut funktioniert, wie die spezifische Wissensbasis keinen superspezifischen Jargon enthält, den der LLM aufgrund seiner allgemeinen Ausbildung nicht verstehen kann.
Stellen Sie sich vor, Sie möchten, dass die Antworten Ihrer Lösung "dem Ton und der Sprache" folgen, die in Ihrer Wissensbasis vorhanden sind. In diesem Fall scheint die Feinabstimmung Ihres LLM weniger vermeidbar.
Es könnte ein sinnvoller Ansatz sein, mit spezifischem Fachjargon umgehen zu können und dann Ihr fein abgestimmtes LLM in die RAG-Architektur einzubinden, um die kombinierten Vorteile zu nutzen. Anstatt mit einem allgemeinen Bücherwurm zu arbeiten, würden Sie dann Ihren speziell ausgebildeten Billy verwenden, um den Generator und/oder die Smart Retriever-Komponenten zu betreiben.
Hervorragende Frage.
Semantische Suche (Smart Retrieval) gibt es schon seit geraumer Zeit, ebenso wie generative KI (einige primitive Formen gibt es schon seit Jahrzehnten).
In den letzten Monaten haben wir jedoch entscheidende Fortschritte gesehen.
Auf technologischer Ebene haben wir in letzter Zeit große Sprünge in der LLM-Leistung erlebt. Diese wirken sich in zweierlei Hinsicht positiv auf die RAG-Lösung aus:
Mit der verbesserten generativen Qualität geht auch die zunehmende Verbreitung einher. Früher konnten sich Unternehmen die Möglichkeiten eines Systems, das auf generativer KI beruht, nicht ohne weiteres vorstellen. Dank der breiten Medienberichterstattung und der Einführung von Tools wie ChatGPT ist das allgemeine Interesse nun jedoch exponentiell gestiegen.
Obwohl also seit geraumer Zeit nur mittelmäßige Versionen der RAG möglich sind, ergeben sich durch die technologischen Verbesserungen und die erhöhte Attraktivität fruchtbare Marktchancen.
In diesem Abschnitt möchten wir Ihnen einige der wichtigsten Herausforderungen beim Aufbau einer erfolgreichen RAG-Lösung vorstellen.
Begeistert von den Möglichkeiten der RAG und fasziniert von den damit verbundenen Herausforderungen, gehen wir nun dazu über, eine tatsächliche RAG-basierte Lösung zu betrachten.
Wenn Ihr Interesse durch das Konzept der Retrieval-Augmented Generation geweckt wurde, fragen Sie sich vielleicht:
Habe ich das Zeug dazu, eine RAG-basierte Lösung auszuprobieren?
Nun, wenn Sie das haben:
Dann könnte die RAG der richtige Weg für Sie sein.
Als Experiment haben wir kürzlich eine kleine Demo erstellt, um zu zeigen, wie diese Technologie genutzt werden kann, um Regierungsmitarbeiter bei der Beantwortung parlamentarischer Anfragen zu unterstützen.
In diesem Fall besteht das spezifische Wissen aus:
Der geschäftliche Nutzen ist inzwischen da:
Wenn Sie einen Leitfaden für die technische Umsetzung einer ähnlichen Lösung suchen, bleiben Sie dran für einen weiteren Blogpost, in dem wir uns mit den technischen Details der Einrichtung von RAG befassen werden.