Künstliche Intelligenz (KI) wird immer mehr zu einem allgegenwärtigen Bestandteil unseres Lebens. Michael Schon, wissenschaftlicher Mitarbeiter an der Wageningen University & Research (WUR), entwickelt ein KI-Tool, das Vergleiche von nicht-codierender RNA in Pflanzengenomen durchführen kann, teilt WUR mit.
Das Tool soll die künftige Entwicklung neuer Pflanzensorten beschleunigen und vereinfachen, die z.B. widerstandsfähiger gegen Trockenheit oder Krankheiten sind. Schon hat ein Veni-Stipendium erhalten, um seine Forschung zu unterstützen.
Proteine sind die Bausteine für Zellen in Organismen. Die Anweisungen für die Herstellung dieser Proteine werden von RNA aus Genen ausgegeben (codiert). Neben diesen kodierenden RNAs können einige Gene auch nicht-kodierende RNAs produzieren, d.h. RNA, die keine Anweisungen zur Herstellung eines Proteins enthält. Diese Art von RNA spielt auch eine wichtige Rolle bei der Entwicklung von Organismen, sagt Michael Schon. ”Sie können z.B. Gene aktivieren oder auch das Gegenteil tun und sie ausschalten. Das hat Auswirkungen auf das Aussehen einer Pflanze und ihre Eigenschaften. Bestimmte wichtige nicht-kodierende RNAs entscheiden auch darüber, ob eine Pflanze überhaupt reif wird.”
Nicht-codierende RNA könnte auch Aufschluss darüber geben, warum eine Pflanzenart zu einer bestimmten Familie gehört und dennoch unterschiedliche Merkmale aufweist. In früheren Forschungsarbeiten identifizierte Schon nicht-codierende RNAs von Arabidopsis thaliana (Ackerschmalwand). Diese Pflanze wird von Pflanzenwissenschaftlern als Modellorganismus verwendet. “Arabidopsis gehört zur Familie der Brassicaceae, zusammen mit wichtigen Nutzpflanzen wie Brokkoli, Blumenkohl und Kohlrabi. Diese Familie ist auch als Senf- oder Kreuzblütengewächse bekannt. Es ist jedoch schwierig, die nicht-codierenden RNAs von Arabidopsis mit denen anderer Senfpflanzen zu vergleichen, da sich frühere Arbeiten bei diesen Arten hauptsächlich auf proteinkodierende Gene konzentriert haben.
Dies bedeute, dass für einen Vergleich zwischen Pflanzen eine separate Genannotation für die nicht-codierende RNA für jede Pflanze erforderlich sei. Im Rahmen seines Veni-Projekts suche Schon nach neuen Wegen, um nicht-codierende RNAs zu identifizieren, indem er Wissen von verwandten Arten nutzt. “Für Pflanzen aus der Familie der Senfpflanzen sind mehr als 200 Genomsequenzen verfügbar. Jedes Genom ist als große Textdatei gespeichert, die aus Millionen von Buchstaben besteht, die die Basen eines DNA-Moleküls (A, C, T und G) darstellen. Da die nicht-codierenden Bits in diesen Genomen nicht richtig katalogisiert (annotiert) sind, ist es unmöglich, alle nicht codierenden Gene zu vergleichen, die in diesem Datenberg verstreut sind. Wir brauchen dafür neue Strategien und Werkzeuge. Ich versuche, diese zu entwickeln.”
Das erste Problem bestehe darin, zu wissen, wo im Genom zu suchen sei. Eines der Werkzeuge, die Schon entwickele, nennt er GeneSketch. Um die entsprechenden Teile der verschiedenen Genome zu finden, verwende er eine Methode namens Minimizer Sketch. “Die Idee hinter Minimizer Sketch ist, dass man sich nur einen kleinen Teil der DNA - eine Skizze - ansehen muss und nicht die gesamte Sequenz”, sagt Schon. “Das bedeutet, dass man nur ein paar tausend Zeichen pro Genom beachten muss, um einen Vergleich durchzuführen, und nicht Millionen. Die Minimizer-Skizze wurde zuvor verwendet, um einen Stammbaum der Primatenevolution zu erstellen, der den Menschen und seine engsten Verwandten umfasst. Es stellte sich heraus, dass ein sehr genauer Stammbaum unserer Vorfahren aus Skizzen erstellt werden kann, die aus weniger als 1 % der gesamten Genome bestehen. Eine Minimierungsskizze ist daher eine sehr effiziente Methode, um abzuschätzen, wie ähnlich sich DNA-Stücke sind, und sollte daher auch für den Vergleich von Genomen innerhalb der Senffamilie nützlich sein.”
Wenn man weiß, wo man suchen muss, ist der nächste Schritt, zu verstehen, was man betrachtet. Die Technologie, die Schon in GeneSketch einsetzen will, ist die gleiche, die derzeit in anderen KI-Tools wie ChatGPT verwendet wird. “Es handelt sich um die so genannte Transformer-Technologie”, sagt Schon. “Man kann einen Transformer z.B. bitten, ein fehlendes Wort in einem Satz zu ergänzen. Anfangs liefert der Transformer ein zufälliges Wort, weil er noch nie Wörter gesehen hat. Aber wenn man ihn mit Millionen von Beispielsätzen trainiert, lernt er langsam, die richtigen Wörter zu erraten, indem er auf Muster im Text achtet. Nach dem Training wird ein großes Sprachmodell wie ChatGPT sehr gut in bestimmten Aufgaben, wie der Beantwortung von Fragen oder der Übersetzung von einer Sprache in eine andere. Ein Transformer kann so trainiert werden, dass er nicht nur menschliche Sprachen lernt, sondern auch die Sprache der DNA, die ihre eigenen Muster hat. Ich arbeite an einem Modell, das Muster in der DNA vieler verschiedener Arten erkennt und diese Muster in eine Sprache übersetzt, die wir Menschen verstehen können.”
Schon wird den Transformator für GeneSketch so trainieren, dass er darauf achtet, wie sich Gene über verschiedene Arten hinweg verändern, insbesondere nicht-kodierende Gene. Er rechnet jedoch damit, auf dem Weg dorthin auf einige Herausforderungen zu stoßen. “Ein wichtiger Punkt ist die Zuverlässigkeit. Der Transformator ist eine relativ neue Technologie, und sie macht Fehler. ChatGPT z.B. wurde anhand vieler verschiedener Textquellen trainiert, aber wenn man ihm ein Thema vorgibt, das es während des Trainings nie gesehen hat, muss es sich etwas ausdenken. Man hofft, dass es sich etwas Vernünftiges ausdenkt, das auf den Mustern basiert, die es gesehen hat, aber das ist nie eine Garantie. Sie wollen natürlich unsinnige Ergebnisse vermeiden. Je mehr man einen Transformer trainiert, desto weniger Unsinn produziert er, aber das Training kann viel Zeit und Geld kosten. Ist es besser, das Modell von Grund auf neu zu trainieren oder auf bestehenden Modellen aufzubauen? Ich versuche beide Ansätze.”
Schon hoffe, nach dem ersten Jahr des Projekts, das im Oktober 2023 begann, über einen Prototyp des GeneSketch zu verfügen. Er plane, damit Genkommentare für die gesamte Senffamilie zu erstellen. Das Tool könnte nicht nur für die Forschung, sondern auch für die Agrarindustrie nützlich sein, sagt Schon. “Es könnte z.B. Saatgutzüchtern eine schnelle Möglichkeit bieten, die DNA einer Pflanze und ihrer wilden Verwandten zu verstehen. Indem sie mehr darüber erfahren, wie Nutzpflanzen im Laufe der Jahrhunderte einzigartige Eigenschaften entwickeln konnten, könnten die Züchter fundiertere Entscheidungen zur Verbesserung von Eigenschaften treffen, etwa um Nutzpflanzen widerstandsfähiger gegen den Klimawandel zu machen.