Dieser Blogpost richtet sich an alle, die verstehen wollen, wie künstliche Intelligenz im Bereich der Biologie eingesetzt wird, insbesondere im Hinblick auf Proteine. Wir geben einen kurzen Überblick darüber, was Proteine sind, ihre Eigenschaften und die Anwendungen des Protein-Engineering. Die Möglichkeiten der künstlichen Intelligenz in diesem Bereich werden anhand eines Überblicks über die derzeit modernsten Modelle zur Lösung verschiedener proteinbezogener Probleme erkundet.
Proteine sind die wesentlichen Bausteine des Lebens und sind allgegenwärtig. In den meisten Fällen spielen sie eine wesentliche Rolle für das Funktionieren jedes Lebewesens. Proteine sind große und komplexe Moleküle, und Enzyme sind eine Untergruppe der Proteine, die chemische Reaktionen wie Hydrolyse, Kondensation oder Hydroxylierung beschleunigen können. Im menschlichen Körper gibt es schätzungsweise 75.000 verschiedene Proteine, die ihn am Laufen halten.
Im Laufe der Jahrmillionen hat die Natur ein ganzes Arsenal von Proteinen entwickelt, die die verschiedenen Aspekte des Lebens steuern: Umwandlung von Sonnenlicht in energiereiche Moleküle, Abbau von Molekülen zur Energiegewinnung, Aufbau von Zellorganellen usw. Durch die natürliche Evolution hat die Natur diese Proteine so optimiert, dass sie diese Aufgaben möglichst effizient erfüllen.
Heute sind wir mit bestimmten Problemen konfrontiert, die z. B. durch Umweltverschmutzung oder neue Krankheiten mit erhöhter Lebenserwartung entstanden sind. Sehr oft können Enzyme aufgrund ihrer natürlichen Arbeitsweise und Zusammensetzung den Kern der Lösung dieser Probleme bilden. So könnten beispielsweise neu entwickelte, kurzlebige Enzyme Kunststoffe in einem Prozess abbauen, der sehr natürlich ist.
Während die Evolution in einigen Fällen dafür sorgen wird, dass diese Enzyme entstehen, könnte der Prozess beschleunigt werden, wenn wir als Menschen "Protein" sprechen und die notwendigen Enzyme selbst entwerfen könnten. Das Verständnis und die Vorhersage des Zusammenspiels zwischen Sequenz, 3D-Struktur und Funktion ist entscheidend, um diese Enzyme mit den gewünschten Funktionen bauen zu können. Sowohl die Struktur als auch die Funktion sind in der primären Basensequenz des Proteins eingebettet.
Proteine bestehen aus zehn- bis mehrtausend Bausteinen, die linear aneinandergereiht sind und eine Kette bilden. Diese Bausteine sind Aminosäuren und es gibt 20 natürlich vorkommende Aminosäuren. Die Zusammensetzung und die Reihenfolge der linearen Kette enthält alle notwendigen Informationen für die 3D-Struktur des Proteins und damit auch für seine Funktion. Zwischen dem linearen Aminosäurestrang und der 3D-Proteinstruktur liegen jedoch mehrere Ebenen der Proteinorganisation.
Die Primärstruktur bezieht sich , wie oben beschrieben, auf die lineare Abfolge der Aminosäuren und ist eindimensional. Teile dieser Kette falten sich regelmäßig oder ordnen sich in einer vordefinierten Weise an, um Komponenten zu bilden, wie z. B. eine Alpha-Spule oder ein flaches Beta-Blatt, was als Sekundärstruktur bezeichnet wird. Die Reihenfolge der Aminosäuren bestimmt vollständig die Bildung dieser Sekundärstruktur. Durch die anschließende Faltung dieser Komponenten entsteht die 3D-Gesamtform des Proteins, die so genannte Tertiärstruktur. Die Quartärstruktur entsteht, wenn mehrere Proteine beginnen, sich in geordneter Weise zu organisieren, was jedoch nicht bei jedem Protein der Fall ist. Ausgehend von der Tertiärstruktur können die Proteine eine biologische Funktion haben.
Die 3D-Struktur bestimmt die chemischen Reaktionen, die das Enzym durchführen kann. Jedes Enzym verfügt über eine spezielle aktive Stelle, an der die katalytischen Reaktionen ablaufen. Dieser Teil des Enzyms zeichnet sich durch seine einzigartige Form und seine funktionellen Gruppen aus, die ihm eine sichere Wechselwirkung mit den an der Reaktion beteiligten Molekülen, den so genannten Substraten, ermöglichen. Folglich umfasst die aktive Stelle eine begrenzte Anzahl von katalytischen Aminosäuren, die eine entscheidende Rolle bei der Erleichterung der Reaktion spielen.
Es ist wichtig zu verstehen, dass die Faltung von Proteinen ein gut regulierter Prozess ist und dass der Faltungsplan vollständig in die ursprüngliche Aminosäurekette eingebettet ist. Daher ist die lineare Aminosäurekette eine vollständige Information.
Der heilige Gral des Proteindesigns ist der Sprung von der Sequenz zur Funktion und umgekehrt, von der Funktion zur Sequenz. Anhand der Sequenz könnten wir verstehen, was das Protein tut und wie es sich verhält. Aber noch wichtiger ist, dass wir eine Proteinsequenz erhalten, die eine bestimmte, gewünschte Funktion erfüllt. Dies ist jedoch ein sehr anspruchsvolles Ziel, und die jüngsten Entwicklungen haben sich auf den Zwischenschritt zur Struktur konzentriert.
Die Primärstruktur eines Proteins ("Sequenz" in der Abbildung oben), d. h. die lineare Kette von Aminosäuren, bestimmt seinen nativen Zustand ("Struktur" in der Abbildung). Dieser Faltungsprozess, durch den das Protein seine endgültige, einzigartige Form erreicht, ist nicht vollständig verstanden und wird als "Proteinfaltungsproblem" bezeichnet (grüner Pfeil). Die Umkehrung dieses Prozesses wird als "inverse Faltung" bezeichnet (roter Pfeil). Die Proteinfunktion, d. h. der biologische Prozess, den das Protein ausführt, wird durch seine 3D-Struktur bestimmt, die wiederum von der Primärstruktur abhängt. Wie in der obigen Abbildung zu sehen, handelt es sich bei diesen direkten und indirekten Verbindungen zwischen den dreien um funktionelle Prozesse, die modelliert werden können.
Diese Primärstruktur wird durch einen Prozess beobachtet, der als Proteinsequenzierung bezeichnet wird und sich auf die Aminosäuresequenz bezieht, aus der das Protein besteht. Die Tertiärstruktur eines Proteins wird mit experimentellen Methoden gemessen, die teuer und zeitaufwändig sind und auf alle Proteine anwendbar sind; bisher wurden nur ~170k 3D-Proteinstrukturen auf diese Weise bestimmt, während etwa 250 Millionen Proteine sequenziert worden sind. Methoden zur Modellierung dieses Prozesses der Proteinfaltung würden uns helfen, die elementaren Einheiten des Lebens zu verstehen, und eine schnellere und differenziertere Erforschung von Arzneimitteln ermöglichen.
Da die physische Messung jeder Proteinstruktur mit dem derzeitigen Stand der Technik nicht möglich ist, wurde stattdessen mit Hilfe von Berechnungsmethoden versucht, die Struktur vorherzusagen. Die endgültige Struktur eines Proteins ist eine Funktion seiner Aminosäuresequenz, so dass diese Funktion mit solchen Vorhersagemethoden modelliert werden kann. Hier kommt die künstliche Intelligenz ins Spiel. Mithilfe von Deep-Learning-Methoden lässt sich die Struktur eines Proteins nachweislich mit größerer Genauigkeit vorhersagen als mit allen anderen Vorhersagemethoden.
Im Jahr 2020 erzielte DeepMind von Google mit einem Modell namens AlphaFold bahnbrechende Ergebnisse und erklärte das Problem der Proteinfaltung für "gelöst". Seitdem gibt es viele, viele andere Deep-Learning-Modelle, die sich mit der Proteinfaltung und anderen proteinbezogenen Forschungsbereichen befassen, auf die wir noch eingehen werden. In den folgenden Abschnitten werden aktuelle Modelle beschrieben, die vielversprechende Ergebnisse gezeigt haben. Sie decken die Aufgabenbereiche Modellierung der Proteinsprache, Strukturvorhersage, inverse Faltung, Funktionsvorhersage und Proteindesign ab.
Wir beginnen mit Protein-Sprachmodellen (PLMs), da sie zur Darstellung von Proteinsequenzen in Form von Einbettungen verwendet werden. Einbettungen sind mathematische Vektordarstellungen von Proteinsequenzen, die Informationen über die Struktur und Funktion des Proteins selbst enthalten (weitere Informationen finden Sie in diesem Dokument ). Diese Einbettungen können dann in den nachfolgend beschriebenen Struktur-, Sequenz- und Funktionsvorhersagemodellen verwendet werden.
Große Sprachmodelle (Large Language Models, LLMs) sind in der Lage, die Struktur und Grammatik natürlicher Sprachen zu modellieren, indem sie einfach auf großen Mengen von Textdaten trainiert werden. Sie haben sich als sehr nützlich für Aufgaben wie Texterstellung und Übersetzung erwiesen, wobei im Laufe der Zeit immer größere Modelle mit verbesserten Fähigkeiten und Anwendungen veröffentlicht wurden. PLM zielen darauf ab, dasselbe zu tun und die evolutionären Muster und Prinzipien zu erlernen, die die Funktionsweise von Proteinen steuern, indem sie auf großen Mengen von Proteinsequenzdaten trainiert werden. Proteinsequenzen könnten als die "Wörter" in der Sprache der Biologie betrachtet werden. Wir geben einen Überblick über die Modelle ProtTrans, ProteinBERT, ProGEN2 und ProtGPT2.
In diesem Papier aus dem Jahr 2020 wurden 6 LLM-Architekturen (T5, Electra, BERT, Albert, Transformer-XL und XLNet) anhand von Rohproteinsequenzen trainiert und es wurde gezeigt, dass sie in der Lage sind, Merkmale von Aminosäuren, Proteinstruktur, Domänen und Funktion zu erfassen. Die Modelle sind hier verfügbar und können für die Extraktion von Merkmalen, die Feinabstimmung von Modellen, die Vorhersage von Sekundärstrukturen und die Sequenzgenerierung verwendet werden.
ProteinBERT wurde 2021 veröffentlicht, ein Modell, das die klassische BERT-Architektur verwendet und auf 106 Millionen Sequenzen für zwei Aufgaben vortrainiert wurde: bidirektionale Sprachmodellierung und GO (Gene Ontology)-Annotation von Sequenzen, wobei als Input Proteinsequenzen und GO-Labels verwendet wurden. Trotz seiner geringen Größe zeigt ProteinBERT eine vergleichbare und manchmal sogar höhere Leistung als größere Modelle wie ProtT5.
Dieses PLM von Salesforce aus dem Jahr 2022 ist ein Transformer-basiertes Modell, das auf Milliarden von Proteinsequenzen trainiert wurde, um das nächste Token in der Sequenz autoregressiv vorherzusagen. Sein Vorgänger, ProGen, war das erste reine Decoder-Modell, das speziell für das Design von Proteinsequenzen trainiert wurde. Das Modell gibt es in vier verschiedenen Größenvarianten (die größte ist in der obigen Tabelle aufgeführt) und ist in der Lage, die Verteilung der beobachteten Proteine zu erfassen und neue Proteinsequenzen zu erzeugen. Diese generierten Sequenzen ähneln bereits existierenden Sequenzen, kommen aber in der Natur möglicherweise gar nicht vor. Dies ermöglicht das Protein-Engineering und die Schaffung von Proteinstrukturen, die bestimmte Funktionen erfüllen. Das Modell ist frei verfügbar und hat (mit AlphaFold) gezeigt, dass es Sequenzen erzeugt, die sich zu wohlgeformten Strukturen falten.
Das ebenfalls im Jahr 2022 veröffentlichte ProtGPT2 ist ebenfalls in der Lage, Proteinsequenzen mithilfe einer autoregressiven GPT2-ähnlichen Transformer-Architektur zu modellieren. Es ist ein kleineres Modell, das auf 50 Millionen Sequenzen trainiert wurde. Es ist in der Lage, Proteine in unbekannten Bereichen der natürlichen Proteinlandschaft zu erzeugen und weist dabei Eigenschaften auf, die denen in der Natur vorkommenden sehr ähnlich sind.
Diese Modellfamilie wurde zusammen mit ESMFold (siehe späterer Abschnitt), einem Modell zur Strukturvorhersage, veröffentlicht. Es handelt sich um ein reines Kodierer-Transformator-Modell, und die größte Variante ist das größte derzeit verfügbare Proteinsprachmodell. Dies ermöglichte es ihm, andere PLMs bei Strukturvorhersage-Benchmarks zu übertreffen. Es wurde an 65 Millionen einzigartigen Proteinsequenzen trainiert.
Modelle, die versuchen, das oben beschriebene Problem der Proteinfaltung zu "lösen", sind an der Vorhersage der Struktur eines Proteins anhand seiner Aminosäuresequenz beteiligt. Es gibt viele Modelle, die auf der Arbeit von AlphaFold aufbauen und mit unterschiedlichen Methoden Strukturen vorhersagen. Hier untersuchen wir AlphaFold, RosettaFold, OmegaFold und ESMFold.
Wie bereits erwähnt, ist das 2020 AlphaFold-Modell von DeepMind eine Deep-Learning-Architektur, die mit hoher Genauigkeit die 3D-Struktur eines Proteins auf der Grundlage seiner Aminosäuresequenz vorhersagt. Die 3D-Struktur wird als Graph modelliert und die Vorhersage selbst wird als Graph-Inferenz-Problem modelliert. Es nutzt evolutionäre Informationen über verwandte Proteine, um die 3D-Koordinaten der endgültigen Struktur mithilfe einer transformatorbasierten Architektur vorherzusagen. Es wird auf öffentlich zugänglichen Datensätzen wie der Protein Data Bank und UniProt trainiert, wobei auch Strukturen, die mit hohem Vertrauen vorhergesagt wurden, wieder in das Modell aufgenommen werden, um nicht markierte Sequenzen zu nutzen. Das Modell wurde der Öffentlichkeit zugänglich gemacht, und es wurden auch alle Vorhersagen des Modells veröffentlicht, um die AlphaFold-Datenbank mit den 3D-Strukturen fast aller bis heute sequenzierten Proteine zu erstellen. Zum Zeitpunkt der Veröffentlichung war das Modell der Stand der Technik für die Vorhersage von Proteinstrukturen aus Aminosäuresequenzen, mit besonders guten Vorhersagen für Sequenzen mit Homologen.
Im Jahr 2021 wurde vom Baker-Labor ein Modell namens RoseTTAFold veröffentlicht, das auf ähnliche Weise Proteinstrukturen vorhersagt. Es unterscheidet sich von AlphaFold dadurch, dass es ein "dreigleisiges" Netzwerk ist, da es während des Trainings und der Vorhersage gleichzeitig die Primär- und Tertiärstrukturen und die 2D-Distanzkarte betrachtet, und es ist auch in der Lage, Proteinkomplexe zu modellieren. Es kommt der Leistung von AlphaFold bei vielen Benchmarks nahe. Beide stützen sich auf Multiple-Sequence-Alignments (MSAs), die ähnliche Sequenzen oder Homologe nutzen und daher bei Sequenzen ohne MSAs nicht so gut abschneiden.
OmegaFold verwendet ein umfangreiches, vorab trainiertes Protein-Sprachmodell (OmegaPLM) zur Vorhersage der Tertiärstruktur mit einer alignementfreien Methodik, d. h. ohne die Notwendigkeit von MSAs. Es ist in der Lage, Vorhersagen auf der Grundlage nur einer einzigen Proteinsequenz zu treffen. Ähnlich wie Sprachmodelle wie GPT-4 in der Lage sind, Sprachstruktur und -form allein durch die Verarbeitung großer Mengen von Textdaten zu erlernen, lernen die Protein-Sprachmodelle analoge strukturelle Informationen durch Training auf großen Mengen von Proteinsequenzen (den Sätzen in der natürlichen Sprache). Anders als bei der natürlichen Sprache bezieht die Proteinstruktur die 3D-Welt mit ein, und daher wird die geometrische Intuition durch einen Vektorgeometrie-Transformator in die Architektur integriert. Es entspricht der Leistung von AlphaFold und RoseTTAFold in den CASP- und CAMEO-Datensätzen und übertrifft beide bei Einzelsequenzen. Da es nicht auf MSAs oder bekannte Strukturen angewiesen ist, ist es etwa 10 Mal schneller als diese.
Im Jahr 2022 stellte Meta AI ihr ESMFold-Modell zur Vorhersage von Proteinstrukturen vor, das auch ein großes (tatsächlich das größte) Proteinsprachmodell, ESM-2, verwendet. Wie OmegaFold benötigt das Modell keine MSAs und übertrifft AlphaFold und RoseTTAFold bei Einzelsequenzen. Das größte Modell in ihrem Modell-Ensemble ist etwa 150-mal so groß wie Alphafold und weist bei kürzeren Sequenzen eine 60-fache Steigerung der Inferenzgeschwindigkeit gegenüber den vorherigen Modellen auf. Dank dieser Geschwindigkeitssteigerung wurde eine große metagenomische Datenbank mit dem Namen ESM Metagenomic Atlas erstellt, die Strukturen in der Größenordnung von Hunderten Millionen von Proteinen offenbart.
Beim umgekehrten Prozess der Proteinfaltung, der so genannten inversen Faltung, wird von einer bestimmten Zielproteinstruktur ausgegangen und nach der/den Proteinsequenz/en gesucht, die sich in diese Struktur falten. Eine Lösung für dieses Problem würde beim De-novo-Design von Proteinen helfen: dem Entwurf neuer Proteinsequenzen, die sich in eine bestimmte Struktur falten, um eine gewünschte biologische Funktion zu erfüllen. So könnten wir beispielsweise Proteine entwerfen, die eine bestimmte Struktur aufweisen, um T-Zellen so zu verbessern, dass sie Krebs besser bekämpfen können, indem wir inverse Faltungsmodelle² verwenden. Ähnlich wie beim Problem der Proteinfaltung sind mehrere KI-Modelle in der Lage, diesen umgekehrten Prozess zu modellieren, um Proteinsequenzen bedingt zu erzeugen. Hier konzentrieren wir uns auf die Modelle ESM-IF1, ProteinMPNN und MIF-ST.
Im Jahr 2022 wurde gezeigt, dass das ESM-IF1-Modell in der Lage ist, Proteinsequenzen anhand der 3D-Koordinaten der Tertiärstruktur des Proteins vorherzusagen. Da die bestehende Sequenz-Struktur-Datenbank mit nur 16k Strukturen sehr klein war, wurden diese Daten mit Hilfe von AlphaFold um 12 Millionen vorhergesagte Strukturen erweitert. Das Problem wurde als seq2seq-Aufgabe zwischen Aminosäuresequenzen und Strukturen modelliert, indem die bedingte Wahrscheinlichkeit einer Sequenz angesichts der Strukturkoordinaten maximiert wurde. Für diese Aufgabe wurde ein generischer Transformer verwendet, zusammen mit einem GVP-GNN (Geometric Vector Perceptron-Graph Neural Network) für die Extraktion geometrischer Merkmale.
Ebenfalls im Jahr 2022 wurde, ebenfalls vom Baker-Labor, gezeigt, dass ProteinMPNN in der Lage ist, den inversen Faltungsprozess zu modellieren, indem ein autoregressives Modell auf experimentell ermittelten Strukturen trainiert wird. Das Modell folgt einer Kodierer-Dekodierer-Struktur, bei der die Eingaben für den Kodierer die Abstände zwischen den Elementen sind, die die Proteinstruktur bilden, um Graphknoten- und Kantenmerkmale zu erzeugen. Der Decoder verwendet dann diese Merkmale, um iterativ Aminosäuren zu erzeugen. Sie bewerteten die erzeugten Sequenzen, indem sie die Struktur vorhersagten und mit der ursprünglichen Struktur verglichen. Von Bedeutung ist, dass die vorhergesagten Sequenzen auch experimentell in den Bereichen Design von Proteinmonomeren, Nanokäfigen und Funktionen evaluiert wurden und sich als robust und genau erwiesen haben. Mehrere "gescheiterte" Designs wurden von ProteinMPNN erfolgreich wiederhergestellt.
Das dieses Jahr im Jahr 2023 veröffentlichte MIF-ST-Modell (Masked Inverse Folding-Sequence Transfer) nutzt ein strukturiertes GNN-basiertes Masked-Language-Modell. Die Ergebnisse dieses maskierten Sprachmodells, das nur auf Proteinsequenzen trainiert wurde, werden in dieses MIF-ST-Modell eingegeben, um bedingt auf Strukturen vortrainiert zu werden. Hier wird die inverse Faltung nur als Vortrainingsaufgabe verwendet, um bei nachgelagerten Aufgaben wie der Erstellung funktioneller Homologe durch inverse Faltung der Struktur eines Proteins und anschließender Abtastung des Sequenzraums gut abschneiden zu können. Es hat sich auch gezeigt, dass es in der Lage ist, die Auswirkungen von Mutationen vorherzusagen.
Die Funktion eines Proteins bezieht sich auf den biologischen Prozess, den es durchführt. Dieser Prozess wird weitgehend durch seine Tertiärstruktur bestimmt, die wiederum durch die Primärsequenz der Aminosäuren festgelegt ist. Die Kenntnis der Funktion, die eine bestimmte Proteinsequenz hat, wäre sehr hilfreich für das Verständnis des Verhaltens biologischer Systeme. Die Funktion von Proteinen wird im Allgemeinen durch ein Klassifizierungssystem wie die Gene Ontology (GO) ausgedrückt, die Proteine auf der Grundlage ihrer Funktion und ihres intrazellulären Standorts klassifiziert, und die EC-Nummer (Enzyme Commission), die Enzyme auf der Grundlage der chemischen Reaktionen klassifiziert, die sie katalysieren. Im Folgenden werfen wir einen Blick auf die Modelle DeepGO, SPROF-GO, DeepFRI, GAT-GO und ProtNLM.
DeepGO wurde 2018 veröffentlicht und bietet einen Ansatz zur Vorhersage von Proteinfunktionen durch die Nutzung von Proteinsequenzen. Es verwendet tiefe neuronale Netze, um Erkenntnisse sowohl aus Sequenzdaten als auch aus Protein-Protein-Interaktions (PPI)-Netzwerkdaten zu gewinnen und sie anschließend hierarchisch nach GO-Klassen zu ordnen. Ein CNN wird verwendet, um Einbettungsdarstellungen von Proteinsequenzen zu erhalten, danach wird ein Klassifizierungsmodell verwendet, um Merkmale für jede Klasse zu verfeinern, und schließlich wird ein Modell verwendet, das die Integration von Daten mit mehreren Modellen ermöglicht. Dieses Modell war zum Zeitpunkt seiner Veröffentlichung als sequenzbasiertes Werkzeug zur Vorhersage von Proteinfunktionen auf dem neuesten Stand der Technik.
Dieses Modell aus dem Jahr 2019 prognostiziert die Proteinfunktion, die sowohl durch die GO-Klasse als auch durch die EC-Nummer dargestellt wird, anhand der Proteinstruktur und der aus den Proteinsequenzen extrahierten Merkmale. Dazu wird ein LSTM-Protein-Sprachmodell verwendet, um aus den Sequenzen Merkmale auf Restebene zu erhalten. Ein GCN (Graph Convolutional Network) wird dann auf diese Merkmale angewendet, um Merkmale auf Proteinebene zu konstruieren und Wahrscheinlichkeiten für jede Funktion vorherzusagen. Die Leistung wird durch die Einbeziehung der vorhergesagten Struktur während des Trainingsprozesses verbessert.
Das GAT-GO-Modell ähnelt dem DeepFRI-Modell, verwendet aber anstelle eines GCN ein GAT (Graph Attention Network), eine Art GNN, das Selbstaufmerksamkeit verwendet. Außerdem wird anstelle des LSTM-Sprachmodells das vortrainierte große Protein-Sprachmodell ESM1 zur Extraktion von Merkmalen verwendet. Es hat sich gezeigt, dass das GAT-GO-Modell die bestehenden Funktionsprädiktoren übertrifft, indem es die vortrainierten Proteineinbettungen mit hoher Kapazität, die vorhergesagte Proteinstruktur und die sequentiellen Merkmale nutzt.
Das 2022 veröffentlichte SPROF-GO ist ein sequenzbasiertes, MSA-freies Modell zur Vorhersage von Proteinfunktionen. Es sagt die GO-Klassifikation direkt aus der Proteinsequenz voraus. Die Architektur besteht aus einem vortrainierten T5-Protein-Sprachmodell, dessen Einbettungsmatrix zwei mehrschichtigen Perceptrons (MLPs) zugeführt wird, um einen Aufmerksamkeitsvektor und eine versteckte Einbettungsmatrix zu erzeugen. Da das GO-Klassifikationssystem nach Klassen und Unterklassen strukturiert ist, wird das Problem der Funktionsvorhersage als hierarchische Multi-Label-Klassifikationsaufgabe modelliert, wobei die Klassen als gerichteter azyklischer Graph (DAG) angeordnet sind. Dieses Modell übertrifft alle anderen aktuellen Modelle und kann auch auf nicht-homologe und ungesehene Proteine verallgemeinert werden.
Dieses Modell zur Verarbeitung natürlicher Sprache wurde 2022 von Google Research in Zusammenarbeit mit dem Europäischen Institut für Bioinformatik des EMBL (EMBL-EBI) entwickelt. Mit einem anderen Ansatz zur Beschreibung der Proteinfunktion verwendet das ProtNLM-Modell eine Transformer-Architektur, um eine natürlichsprachliche Beschreibung der Funktion eines Proteins anhand seiner Primärsequenz genau vorherzusagen. Die Funktionsweise dieses Modells ist vergleichbar mit der eines Bildbeschreibungsmodells, wobei anstelle eines Bildes eine Proteinsequenz verwendet wird. Dieses Modell wird jetzt von UniProt in ihrer automatischen Annotationspipeline verwendet, um Beschreibungen und Namen für ~49 Millionen nicht charakterisierte Proteinsequenzen hinzuzufügen.
Hier beschreiben wir zwei Modelle: RFDiffision und ProT-VAE, die beide mit dem Design von Proteinen zu tun haben, d. h. dem Design von Proteinen mit dem Ziel, dass sie eine bestimmte Funktion erfüllen. Einige der oben beschriebenen Modelle werden verwendet, um diesen Prozess zu erleichtern.
De novo-Proteindesign zielt darauf ab, neuartige Proteine mit einer bestimmten Zielfunktion oder -struktur zu entwerfen. Das RFDiffusion-Modell verwendet ein DDPM-Diffusionsmodell, das von Bildgenerierungsmodellen wie DALL-E inspiriert ist, zusammen mit RoseTTAFold, um Proteindesign durchzuführen und neue, vielfältige Proteinstrukturen zu erzeugen. Der Prozess umfasst zunächst die Generierung eines zufälligen Protein-Rückgrats mit RFDiffusion, dann die Verwendung von ProteinMPNN zum Entwurf einer Sequenz, die sich zu dieser Rückgratstruktur faltet, und schließlich die Bewertung der generierten Struktur mit AlphaFold. Auf diese Weise kann z. B. ein Protein mit hoher Bindungsaffinität zu einem Zielprotein oder ein vielfältiger Proteinaufbau mit einer gewünschten Symmetrie erzeugt werden. RFDiffusion ist in der Lage, Proteine zu entwerfen, die bisher in der Natur nicht beobachtet wurden.
ProT-VAE ist ein tiefes generatives Modell, das in der Lage ist, verschiedene Proteinsequenzen aus bestimmten Familien mit hoher Funktionalität zu erzeugen. Die Architektur des Modells schichtet ein Variational Autoencoder Modell zwischen ProtT5 Encoder und Decoder Blöcken ein. Die Eingaben für das Modell während des Trainings sind unausgerichtete Proteinsequenzen. Der VAE wird auf spezifische Proteinfamilien trainiert, während das ProtT5-Modell auf Millionen von Proteinsequenzen trainiert wurde, nachdem es mit T5 NLP-Gewichten initialisiert wurde. Das ProT-VAE-Modell ist in der Lage, "datengesteuertes Protein-Engineering" zu liefern, und ist auf dem BioNeMo-Framework von NVIDIA verfügbar (das angeblich bald als Open-Source angeboten wird).
Wir können feststellen, dass in den letzten Jahren die Forschung im Bereich der proteinbezogenen KI und die Veröffentlichung von Modellen stark zugenommen haben. Das Potenzial für Anwendungen in den Bereichen Arzneimittelentwicklung, Antikörper-Engineering und -Design, Impfstoffentwicklung, Identifizierung von Biomarkern für Krankheiten und personalisierte Medizin (um nur einige zu nennen) ist unbegrenzt. Das Verständnis von Proteinen und ihrer Funktionsweise durch den kombinierten Einsatz von Proteinsprachmodellen, Modellen zur Vorhersage der Proteinstruktur, Modellen zur inversen Faltung und Modellen zur Vorhersage der Funktion kann das Design von Proteinen mit transformativen Auswirkungen erleichtern. Wir werden die Fortschritte weiterhin beobachten und die neuesten Forschungsergebnisse in wertvolle Anwendungen auf diesem Gebiet umsetzen. Wenn Sie an unserer aktuellen Arbeit interessiert sind, lesen Sie diese Pressemitteilung!
Für weitere Informationen können Sie mich hier kontaktieren: medha.hegde@ml6.eu