Nutzung von LLMs auf Ihrer domänenspezifischen Wissensbasis

Mitwirkende
Michiel De Koninck
Ingenieur f√ľr maschinelles Lernen und LLM-Spezialist
Keine Artikel gefunden.
Newsletter abonnieren
Diesen Beitrag teilen

In der heutigen schnelllebigen Welt ist es von entscheidender Bedeutung, mit den neuesten Fortschritten und Trends auf seinem Gebiet Schritt zu halten. Aus diesem Grund werden Wissensmanagementsysteme immer beliebter, da sie Unternehmen einen zentralen Ort bieten, an dem sie ihr Wissen speichern und abrufen k√∂nnen. Allerdings sind nicht alle Wissensmanagementsysteme gleich. In diesem Blogbeitrag werden wir untersuchen, wie der Einsatz von Sprachmodellen, wie dem k√ľrzlich ver√∂ffentlichten LLM, die Effektivit√§t Ihrer dom√§nenspezifischen Wissensdatenbank verbessern kann. Wir behandeln die Grundlagen von Sprachmodellen und wie sie auf den Daten Ihres Unternehmens trainiert werden k√∂nnen, um die Suchgenauigkeit zu verbessern, die Markierung zu automatisieren und sogar neue Inhalte zu generieren. Tauchen wir ein!

‚Äć

LLMs, lernt eure Grenzen kennen ... und √ľberschreitet sie

Ein LLM ist ein gro√ües Sprachmodell. Das GPT-4 von OpenAI ist ein Beispiel, das LLamA von Meta ein anderes. Wir haben uns hier bewusst daf√ľr entschieden, den allgemeinen Begriff LLM zu verwenden, um diese Modelle zu bezeichnen. Bedenken Sie: Jedes dieser Modelle wurde auf einer riesigen Menge von (√∂ffentlich verf√ľgbaren) Daten trainiert.

Es ist inzwischen klar erwiesen, dass diese LLMs ein sinnvolles Verst√§ndnis von allgemeiner Sprache haben und dass sie in der Lage sind, Informationen zu produzieren, die f√ľr die in ihren Trainingsdaten vorhandenen Informationen relevant sind. Das ist der Grund, warum generative Werkzeuge wie ChatGPT erstaunlich gut bei der Beantwortung von Fragen zu Themen abschneiden, denen das LLM w√§hrend seines Trainings begegnet ist.

Was jedoch dem direkten Zugriff dieser massiven LLMs entzogen bleibt, sind die Daten, die innerhalb jeder Organisation so wertvoll sind: die interne Wissensbasis. Die Frage, die sich also massiv stellt, ist:

Wie k√∂nnen wir die Leistung dieser LLMs nutzen, um Informationen zu erschlie√üen, die in einer spezifischen Wissensbasis gespeichert sind, auf der sie urspr√ľnglich nicht trainiert wurden?

Oh, okay, k√∂nnen wir also nicht einfach unsere interne Wissensbasis als zus√§tzliche Daten einf√ľhren, auf denen das LLM trainiert werden sollte? Oder, wenn Sie so wollen, k√∂nnen wir feinabstimmen den LLM auf unsere spezifische Wissensbasis abstimmen.

Ja, das k√∂nnen Sie h√∂chstwahrscheinlich. Aber f√ľr die zuverl√§ssige Beantwortung von Fragen ist das vielleicht nicht der richtige Weg.

Warum die Feinabstimmung nicht immer ausreicht

Darf ich vorstellen: Billy, der B√ľcherwurm. Billy ist ein gro√ües Sprachmodell und hat eine gigantische Menge an Online-Informationen verschlungen, die ihm ein enormes Wissen vermitteln. Billy jedoch, so schlau er auch ist, hat die B√ľcher in Ihrer ganz speziellen Bibliothek zu Hause nicht durchgelesen.

Die Feinabstimmung besteht darin, dass Sie Billy, dem B√ľcherwurm, alle B√ľcher Ihrer ganz speziellen Wissensbasis vorlegen und ihn all diese schmackhaften Zusatzinformationen verschlingen lassen. Auf diese Weise kennt der LLM-B√ľcherwurm Billy nicht nur all die allgemeinen Informationen, sondern er "wei√ü" auch viel √ľber den Inhalt Ihrer spezifischen Wissensbasis.

Klassischer Ansatz der Feinabstimmung auf bereichsspezifischen Daten (alle Icons von flaticon)

Herzlichen Gl√ľckwunsch, durch diesen Feinabstimmungsprozess haben Sie Billy in einen sehr spezifischen Billy verwandelt, der viel √ľber Ihren spezifischen Bereich wei√ü! Im Folgenden zeigen wir Ihnen, wie Sie Billy an die Arbeit schicken k√∂nnen. Wenn Sie Ihrem verbesserten B√ľcherwurm Fragen stellen, k√∂nnen Sie Antworten erwarten, die sowohl die Informationen aus seinem gigantischen allgemeinen Trainingssatz als auch die in Ihrer spezifischen Wissensbasis gespeicherten Informationen nutzen.

Nutzung des fein abgestimmten LLM, um Fragen zu Ihrer internen Wissensbasis zu stellen.

‚Äć

Dieser L√∂sungsansatz ist zwar sehr leistungsf√§hig, aber das entscheidende Problem ist, dass Sie immer noch wenig Einblick in die Art und Weise haben, wie Ihr B√ľcherwurm auf seine Antworten gekommen ist. Au√üerdem hat die Feinabstimmung eines LLM (kostspielige) Konsequenzen.

Wir nennen die Hauptgr√ľnde, warum die Feinabstimmung mit Billy zu kurz kommt:

  • Keine klare Quelle. Es ist schwierig, Halluzinationen zu vermeiden, und Ihr LLM hat keine klare Unterscheidung zwischen "allgemeinem" und "spezifischem" Wissen.
  • Keine Zugangsbeschr√§nkung. Stellen Sie sich einen Fall vor, in dem einige Benutzer in der Lage sein sollen, die Informationen strategischer Dokumente abzufragen, w√§hrend andere dies nicht d√ľrfen. Wie w√ľrden Sie dieses Problem angehen? Ihr fein abgestimmter Billy wei√ü einfach alles, er kann sich nicht daf√ľr entscheiden, Wissen zur Inferenzzeit auszulassen.
  • Der Betrieb eines LLM ist kostspielig. Sobald Sie ein fein abgestimmtes LLM haben, m√ľssen Sie es am Laufen halten. Ein gro√ües Sprachmodell ist nun einmal... gro√ü. Die Kosten, um es am Laufen zu halten, werden sich summieren. √úberwiegen die Vorteile diese Kosten?
  • Wiederholungen zur Feinabstimmung. Ein erneutes Training des Modells ist erforderlich, wenn Sie m√∂chten, dass das Modell √Ąnderungen an der Wissensbasis widerspiegelt.

Gl√ľcklicherweise sind all diese Probleme l√∂sbar. Wenn es Ihnen darum geht, Fragen auf nachpr√ľfbare Weise zu beantworten und Halluzinationen zu vermeiden, brauchen Sie vielleicht nicht den hypermodernen B√ľcherwurm, sondern fragen Sie einfach den guten alten Bibliothekar, wo Sie die Antworten auf Ihre Fragen finden.

Mit RAG zu Reichtum

Die Idee hinter Retrieval-Augmented Generation (RAG) ist recht einfach. Das Ziel besteht darin, die Informationen in unserer Wissensbasis zu erschlie√üen. Anstatt unseren B√ľcherwurm darauf zu entfesseln (d.h. zu verfeinern), indizieren wir die Informationen unserer Wissensbasis umfassend.

Indem Sie die Einbettungen Ihrer internen Wissensdatenbank indexieren, erschließen Sie intelligente Suchfunktionen.

Im obigen Schema wird veranschaulicht, wie der Smart Retriever wie ein Bibliothekar funktioniert. Im Idealfall weiß der Bibliothekar genau, was sich in seiner Bibliothek befindet. Wenn ein Besucher eine bestimmte Frage stellt, weiß er genau, welches Kapitel aus welchem Buch er empfehlen muss.

Auf einer eher technischen Ebene beschreibt dies eine semantische Suchmaschine. In diesem Fall sind die Einbettungen vektorielle Darstellungen von Dokumentabschnitten und erm√∂glichen eine mathematische Beschreibung der tats√§chlichen Bedeutung, die in jedem Abschnitt gespeichert ist. Durch den Vergleich von Einbettungen l√§sst sich feststellen, welche Textabschnitte eine √§hnliche Bedeutung haben wie andere Textabschnitte. Dies ist entscheidend f√ľr den unten dargestellten Suchprozess.

Durch den Einsatz unseres Smart Retrievers k√∂nnen wir unseren Generator zwingen, sich an den Inhalt unserer Wissensbasis zu halten, der f√ľr die Beantwortung der Frage am relevantesten ist. Et voil√†: Retrieval-erweiterte Generierung.

Dabei sind zwei Komponenten von entscheidender Bedeutung:

  1. Der Smart Retriever (d. h. der Bibliothekar)
  2. Der Generator (d. h. der B√ľcherwurm)

Es sollte inzwischen klar sein, warum dieser Ansatz als Retrieval-Augmented Generation bezeichnet wird . Auf der Grundlage der gestellten Frage rufen Sie zunächst die relevantesten Informationen aus Ihrer internen Wissensbasis ab; anschließend erweitern Sie die typische Generierungsphase, indem Sie diese relevanten Informationen explizit an die Generatorkomponente weitergeben.

Die wichtigsten Merkmale dieser RAG-basierten Einrichtung

  1. Klare Angabe der Quelle, auf die sich die Antwort st√ľtzt. Erm√∂glicht die Validierung der vom Generator gelieferten Antwort.
  2. Es ist sehr unwahrscheinlich, dass wir halluzinieren, denn wenn wir unsere Generator-Komponente auf den Korpus unserer Wissensbasis beschränken, wird sie zugeben, dass sie keine Antwort formulieren kann, wenn keine relevanten Quellen vom Retriever gefunden wurden.
  3. Wartungsf√§higer Suchindex. Eine Wissensdatenbank ist eine lebendige Sache. Wenn sie sich √§ndert, k√∂nnen wir unseren Suchindex anpassen, um diese √Ąnderungen widerzuspiegeln.

Abgesehen von diesen Highlights ist der mehrsprachige Aspekt von LLMs eine sch√∂ne Sache. Sie k√∂nnen √ľber eine Wissensbasis verf√ľgen, die aus rein italienischen Rezepten besteht, mit denen sich Ihr pasta-liebender franz√∂sischer Freund in einem rein franz√∂sischen Dialog unterhalten kann.

Feinabstimmung - neu √ľberdacht

Im obigen Abschnitt haben wir die Feinabstimmung als n√ľtzliche Option verworfen, weil wir die Klarheit der Quelle kaum kontrollieren konnten, was das Risiko von Halluzinationen erh√∂hte .

Es ist anzumerken, dass der RAG-Ansatz, der von einem allgemeinen LLM unterst√ľtzt wird, nur so lange gut funktioniert, wie die spezifische Wissensbasis keinen superspezifischen Jargon enth√§lt, den der LLM aufgrund seiner allgemeinen Ausbildung nicht verstehen kann.

Stellen Sie sich vor, Sie möchten, dass die Antworten Ihrer Lösung "dem Ton und der Sprache" folgen, die in Ihrer Wissensbasis vorhanden sind. In diesem Fall scheint die Feinabstimmung Ihres LLM weniger vermeidbar.

Es k√∂nnte ein sinnvoller Ansatz sein, mit spezifischem Fachjargon umgehen zu k√∂nnen und dann Ihr fein abgestimmtes LLM in die RAG-Architektur einzubinden, um die kombinierten Vorteile zu nutzen. Anstatt mit einem allgemeinen B√ľcherwurm zu arbeiten, w√ľrden Sie dann Ihren speziell ausgebildeten Billy verwenden, um den Generator und/oder die Smart Retriever-Komponenten zu betreiben.

Warum jetzt? Was gibt es Neues?

Hervorragende Frage.
Semantische Suche (Smart Retrieval) gibt es schon seit geraumer Zeit, ebenso wie generative KI (einige primitive Formen gibt es schon seit Jahrzehnten).
In den letzten Monaten haben wir jedoch entscheidende Fortschritte gesehen.

Auf technologischer Ebene haben wir in letzter Zeit gro√üe Spr√ľnge in der LLM-Leistung erlebt. Diese wirken sich in zweierlei Hinsicht positiv auf die RAG-L√∂sung aus:

  • Einbettungen (z. B. Embedding API von OpenAI oder Googles PaLM)
  • Generative F√§higkeiten (z. B. die ChatGPT-L√∂sung von OpenAI)

Mit der verbesserten generativen Qualit√§t geht auch die zunehmende Verbreitung einher. Fr√ľher konnten sich Unternehmen die M√∂glichkeiten eines Systems, das auf generativer KI beruht, nicht ohne weiteres vorstellen. Dank der breiten Medienberichterstattung und der Einf√ľhrung von Tools wie ChatGPT ist das allgemeine Interesse nun jedoch exponentiell gestiegen.

Obwohl also seit geraumer Zeit nur mittelmäßige Versionen der RAG möglich sind, ergeben sich durch die technologischen Verbesserungen und die erhöhte Attraktivität fruchtbare Marktchancen.

Herausforderungen auf Ihrem Weg zum Erfolg

In diesem Abschnitt möchten wir Ihnen einige der wichtigsten Herausforderungen beim Aufbau einer erfolgreichen RAG-Lösung vorstellen.

  • Starke Abh√§ngigkeit von der Leistung des Smart Retriever.
    Die Qualit√§t der von Ihrer generativen Komponente gegebenen Antworten h√§ngt direkt von der Relevanz der Informationen ab, die ihr vom Smart Retriever √ľbermittelt werden. Wie bereits erw√§hnt, k√∂nnen wir den LLM-Fortschritten daf√ľr danken, dass wir reichhaltige und leistungsstarke Texteinbettungen erhalten haben. Aber diese Einbettungen ausschlie√ülich √ľber APIs abzurufen, ist vielleicht nicht die beste Option. Sie sollten bei der Entwicklung Ihrer semantischen Suchkomponente sehr bewusst vorgehen, denn vielleicht hat Ihre Wissensdatenbank einen speziellen Jargon und Sie ben√∂tigen eine ma√ügeschneiderte (d. h. fein abgestimmte) Komponente, um damit umzugehen. Ein ausf√ľhrlicherer praktischer Leitfaden zur semantischen Suche findet sich in diesem Blogpost [1] .
    ‚Äć
  • Kompromiss bei der Beschr√§nkung auf Informationen in der Wissensbasis.
    Wie in der RAG-Architektur erläutert, können wir unsere generative LLM-Komponente dazu zwingen, sich auf die in den relevanten Dokumenten gefundenen Informationen zu beschränken. Während dies sicherstellt, dass Halluzinationen (d.h. unsinnige Antworten) kaum eine Chance haben, bedeutet es auch, dass Sie die Informationen, die Ihr LLM besitzt, kaum nutzen. Vielleicht möchten Sie, dass Ihre Lösung auch dieses Wissen nutzt, aber vielleicht nur, wenn es vom Benutzer angefordert wird.
    ‚Äć
  • Konversationsdesign, um einen komplexen Dialog zu erm√∂glichen.
    W√§hrend unsere obigen Darstellungen das Benutzerverhalten als eine "einmalige Frage" dargestellt haben, m√∂chte Ihr Benutzer vielleicht die von Ihrer L√∂sung gegebene Antwort n√§her betrachten (in einer Unterhaltung im Stil von ChatGPT). Gl√ľcklicherweise gibt es Werkzeuge, die Sie in diesem Kampf unterst√ľtzen. Das langchain-Framework hilft Ihnen dabei, dies richtig zu machen.
    ‚Äć
  • Prompt-Engineering als M√∂glichkeit, die Generierung zum Erfolg zu f√ľhren.
    Damit die Antwort Ihrer generativen Komponente genau richtig ist, m√ľssen Sie ihr genau sagen, welche Art von Ausgabe Sie erwarten. Das ist alles andere als eine Raketenwissenschaft. Aber die richtige Einstellung Ihres Prompts f√ľr Ihren Anwendungsfall braucht Zeit und verdient gen√ľgend Aufmerksamkeit. Es kann sich lohnen, sich mit Prompt-Management-Systemen zu besch√§ftigen, um sicherzustellen, dass Sie den √úberblick dar√ľber behalten, welche Prompts f√ľr welche Situationen am besten geeignet sind.
    ‚Äć
  • Die Wahl der richtigen LLM: Was kostet sie und wohin gehen meine Daten?
    In diesem Text haben wir keine ausdr√ľckliche Wahl bez√ľglich der LLM getroffen, die in Ihrer L√∂sung verwendet werden soll(en). Bei der Wahl des LLM (API), das Sie verwenden m√∂chten, sollten Sie Datenschutz- und Kostenbeschr√§nkungen in Betracht ziehen. Es gibt bereits einige sehr gute Optionen. Wir haben GPT von OpenAI, LLaMA von Meta, PaLM von Google und mit Elon Musk, der behauptet, der LLM-Szene beizutreten, wer wei√ü, wohin die Reise gehen wird. Die aufregende Nachricht ist: Es wird mehr Optionen geben und der Wettbewerb sollte die LLM-Leistung erh√∂hen und die Preise senken.
    ‚Äć
  • LLM-L√∂sungen in Produktion bringen und halten (LLMOps).
    Wie bei allen ausgereiften KI-Lösungen: Sie zu bauen ist eine Sache, sie in Produktion zu bringen/halten eine andere. Der Bereich der LLMOps konzentriert sich auf die Operationalisierung von LLMs. Überwachen Sie die Leistung Ihrer LLM-basierten Lösung, halten Sie Ihre Wissensdatenbank und Ihren Suchindex auf dem neuesten Stand, verarbeiten Sie den Gesprächsverlauf...
    Bevor Sie Ihre LLM-L√∂sung in die Produktion werfen, denken Sie klugerweise dar√ľber nach, wie sie gewartet wird und wie sie auf lange Sicht fruchtbar bleibt.

Begeistert von den M√∂glichkeiten der RAG und fasziniert von den damit verbundenen Herausforderungen, gehen wir nun dazu √ľber, eine tats√§chliche RAG-basierte L√∂sung zu betrachten.

Die Hände schmutzig machen mit einer RAG

Wenn Ihr Interesse durch das Konzept der Retrieval-Augmented Generation geweckt wurde, fragen Sie sich vielleicht:

Habe ich das Zeug dazu, eine RAG-basierte Lösung auszuprobieren?

Nun, wenn Sie das haben:

  • spezifisches Wissen: eine moderate (vorzugsweise organisierte) Datenbank mit "Wissensartikeln", die n√ľtzliche Informationen enthalten, die im World Wide Web nicht leicht zu finden sind (z. B. technische Dokumente, Einf√ľhrungsrichtlinien, bearbeitete Support-Tickets usw.)
  • Gesch√§ftswert: eine klare Definition des Gesch√§ftswerts, wenn diese Informationen f√ľr die beabsichtigten Nutzer freigeschaltet werden k√∂nnen

Dann k√∂nnte die RAG der richtige Weg f√ľr Sie sein.

Als Experiment haben wir k√ľrzlich eine kleine Demo erstellt, um zu zeigen, wie diese Technologie genutzt werden kann, um Regierungsmitarbeiter bei der Beantwortung parlamentarischer Anfragen zu unterst√ľtzen.
In diesem Fall besteht das spezifische Wissen aus:

  • eine Reihe von fl√§mischen Gesetzesdokumenten
  • eine Reihe von parlamentarischen Anfragen aus der Vergangenheit

Der geschäftliche Nutzen ist inzwischen da:

  • Verbesserung der Effizienz durch automatische Vorschl√§ge f√ľr Antworten auf parlamentarische Anfragen auf der Grundlage der fl√§mischen Wissensdatenbank
  • Verbesserung der Transparenz und der Nutzerakzeptanz durch ausdr√ľckliche Zitate
Screenshot der Demol√∂sung zum Thema "Anwendung zur Unterst√ľtzung bei der Beantwortung parlamentarischer Anfragen".

‚Äć

‚Äć

Wenn Sie einen Leitfaden f√ľr die technische Umsetzung einer √§hnlichen L√∂sung suchen, bleiben Sie dran f√ľr einen weiteren Blogpost, in dem wir uns mit den technischen Details der Einrichtung von RAG befassen werden.


Referenzen

‚Äć

Verwandte Beiträge

Alle anzeigen
Keine Ergebnisse gefunden.
Es gibt keine Ergebnisse mit diesen Kriterien. Versuchen Sie, Ihre Suche zu ändern.
Großes Sprachmodell
Stiftung Modelle
Unternehmen
Unser Team
Strukturierte Daten
Chat GPT
Nachhaltigkeit
Stimme und Ton
Front-End-Entwicklung
Schutz und Sicherheit von Daten
Verantwortungsvolle/ethische KI
Infrastruktur
Hardware und Sensoren
MLOps
Generative KI
Verarbeitung nat√ľrlicher Sprache
Computer Vision