Die neu entwickelte Software BRAKER3 bietet Wissenschaftlern weltweit ein leistungsstarkes Instrument für die Genomannotation, d.h. bei der Identifizierung und Kennzeichnung vieler relevanten Merkmale einer genomischen Sequenz. Die Software stellt einen bedeutenden Fortschritt in der bioinformatischen Forschung dar, teilt die Universität Greifswald mit.
Die Software wurde von Forschenden der Universität Greifswald in Zusammenarbeit mit Kollegen am Georgia Tech Institute of Technology in Atlanta (USA) entwickelt. BRAKER3 nutze aus, dass verschiedene Spezies dieselben Gene in ähnlicher Form besitzen können, selbst wenn ihr gemeinsamer evolutionärer Ursprung weit zurückliege, wie etwa bei einem Schmetterling und einer Fruchtfliege. Die Entwicklung wurde finanziert von den US National Institutes of Health.
Die genaue Bestimmung der Struktur proteinkodierender Gene in Genomsequenzen sei ein Schlüssel für das biologische Verständnis des Lebens. Der Erfolg zahlreicher Experimente hänge entscheidend von einer fehlerfreien Genomannotation ab. Die Erfassung proteinkodierender Gene in eukaryotischen Genomen sei deshalb auch eine der großen Herausforderungen des EarthBioGenome Projekts. In ihm sollen die Genome von mindestens 1,5 Mio eukaryotischer Spezies sequenziert werden sollen. Unter Eukaryoten werden Zellen verstanden, die einen Zellkern besitzen. Zu eukaryotischen Organismen zählen Tiere, Menschen, Pflanzen und Pilze. Mögliche Anwendungen von einzelnen Genomprojekten können etwa sein: Die gezielte Bekämpfung von durch Tiere übertragenen Krankheiten, das Studium der Funktion von Genen bei Insekten oder in der Pflanzenzüchtung.
Ein zentrales Problem vieler Werkzeuge zur Genomannotation sei das sogenannte überwachte Lernen: Die zugrundeliegenden mathematischen Modelle benötigen Trainingsbeispiele bestehend aus Genen in der Zielspezies, um Parameter an diese Zielspezies anzupassen. Hier baue das BRAKER3-Team auf Erfahrungen der Vorläuferversionen der Software auf und lasse die kombinierte Evidenz aus Transkriptom- und Proteindaten in den Trainingsschritt einfließen. Im Gegensatz zu den Vorgänger-Tools können nun beide Evidenztypen simultan berücksichtigt werden.
In Benchmark-Tests mit elf Spezies übertreffe BRAKER3 die vorherigen Versionen deutlich. Besonders offensichtlich sei die Verbesserung bei Arten mit großen und komplexen Genomen, wie z.B. bei der Maus und dem Huhn. Zudem sei die neue Softwareversion auch weit genauer als andere bisher vielfach genutzte alternative Programme.
„BRAKER3 stellt einen bedeutenden Fortschritt in der Genauigkeit und Automatisierbarkeit der eukaryotischen Genomannotation dar, insbesondere für große und strukturell komplexe Genome“, so Lars Gabriel vom Institut für Mathematik an der Universität Greifswald, Erstautor der Publikation. „Mit der neuen Softwareversion haben wir ein Tool mit einer bereits großen und schnell wachsenden Anzahl von Nutzern. Insbesondere die Bemühungen des Teams, die Software so zu gestalten, dass sie in isolierten Paketen läuft, die alle nötigen Bestandteile für das Programm enthalten und auf verschiedenen Computersystemen ohne zusätzliche Anpassungen funktionieren, werden von der internationalen Forschungscommunity begrüßt. Dieses Prinzip, das man als ‘Verpacken in Container’ bezeichnet, wurde entscheidend durch die exzellente High Performance Computing Infrastruktur des Universitätsrechenzentrums in Greifswald beeinflusst“, sagt Dr. Katharina Hoff vom Institut für Mathematik an der Universität Greifswald. Sie arbeitet seit vielen Jahren an der Entwicklung von BRAKER.
„BRAKER3 markiert einen signifikanten Fortschritt in der Bioinformatik und bietet Wissenschaftlern weltweit ein leistungsstarkes Instrument für die Genomannotation. In der weiteren Entwicklung sollen große Sprachmodelle spezifisch entwickelt und trainiert werden, da Genome eine ‘Sprache’ der Biologie sind, und die in ihnen kodierten Gene einer strengen Grammatik folgen”, so Prof. Dr. Mario Stanke, Leiter der AG für Bioinformatik am Institut für Mathematik an der Universität Greifswald.