KI und maschinelles Lernen in der Bioinformatik: Ein starkes Duo, das Innovationen vorantreibt

Veröffentlicht: 2023-02-16

Fortschritte bei DNA-Sequenzierungstechniken haben es Forschern ermöglicht, das menschliche Genom in nur einem Tag zu sequenzieren, eine Aufgabe, die früher ein Jahrzehnt dauerte. Dies ist nur einer von vielen starken Beiträgen des maschinellen Lernens (ML) zur Bioinformatik.

Da viele Biotech-Unternehmen ML-Berater einstellen, um den Prozess der Handhabung biomedizinischer Daten zu erleichtern, wächst die KI auf dem Bioinformatik-Markt weiter. Es wird prognostiziert, dass es bis 2029 37.027,96 $ erreichen wird und ab 2022 mit einer CAGR von 42,7 % wachsen wird. Möchten Sie Teil dieser digitalen Revolution sein?

Dieser Artikel gibt eine kurze Einführung in ML, erklärt, wie es die biomedizinische Forschung unterstützt, und zählt die Herausforderungen auf, denen Sie beim Einsatz dieser Technologie begegnen könnten.

Einführung in das maschinelle Lernen für die Bioinformatik

ML ist eine Teilmenge des breiteren Feldes der künstlichen Intelligenz (KI). Es ermöglicht Systemen, selbstständig aus Daten zu lernen und Aufgaben auszuführen, für die sie nicht explizit programmiert sind. Ihr Ziel ist es, Maschinen in die Lage zu versetzen, Aufgaben auszuführen, die menschliche Intelligenz erfordern, wie z. B. Diagnose, Planung und Vorhersage.

Es gibt zwei Haupttypen des maschinellen Lernens.

  1. Überwachtes Lernen stützt sich auf beschriftete Datensätze, um Algorithmen beizubringen, wie ein vorhandenes Klassifizierungssystem verwendet wird, einschließlich der Erstellung von Vorhersagen auf der Grundlage dieses Systems. Diese Art von ML wird verwendet, um Entscheidungsbäume und neuronale Netze zu trainieren.
  2. Unüberwachtes Lernen verwendet keine Labels. Stattdessen versuchen Algorithmen, Datenmuster selbst aufzudecken. Mit anderen Worten, sie lernen Dinge, die wir ihnen nicht direkt beibringen können. Dies ist vergleichbar mit der Funktionsweise des menschlichen Gehirns.

Es ist auch möglich, beschriftete und unbeschriftete Daten während des Trainings zu kombinieren, was zu halbüberwachtem Lernen führt. Dieser ML-Typ kann nützlich sein, wenn Sie nicht über genügend qualitativ hochwertige beschriftete Daten für einen überwachten Lernansatz verfügen, Sie ihn aber dennoch verwenden möchten, um den Lernprozess zu lenken.

Was sind die beliebtesten Techniken des maschinellen Lernens, die in der Bioinformatik verwendet werden?

Einige dieser Algorithmen fallen streng unter die Kategorien des überwachten/unüberwachten Lernens, und einige können mit beiden Methoden verwendet werden.

Verarbeitung natürlicher Sprache

Natural Language Processing (NLP) ist eine Reihe von Techniken, die unstrukturierte menschliche Sprache verstehen können.

NLP kann beispielsweise Bände biologischer Forschung durchsuchen, Informationen zu einem bestimmten Thema aus verschiedenen Quellen zusammenfassen und Forschungsergebnisse von einer Sprache in eine andere übersetzen. Zusätzlich zum Durchsuchen von Forschungsarbeiten können NLP-Lösungen relevante biomedizinische Datenbanken parsen.

NLP kann dem Gebiet der Bioinformatik auf folgende Weise zugute kommen.

  • Genetische Varianten interpretieren
  • Analysieren Sie DNA-Expressions-Arrays
  • Proteinfunktionen annotieren
  • Suchen Sie nach neuen Wirkstoffzielen

Neuronale Netze

Dies sind vielschichtige Strukturen, die aus Knoten/Neuronen bestehen. Neuronen in benachbarten Schichten sind über Links miteinander verbunden, aber Neuronen auf einer Schicht sind nicht miteinander verbunden. Neuronen auf einer Schicht empfangen Informationen, verarbeiten sie und leiten sie als Input an die nächste Schicht weiter. Und dieser Prozess wird fortgesetzt, bis die verarbeiteten Informationen die Ausgabeschicht erreichen.

Das grundlegendste neuronale Netzwerk wird als Perzeptron bezeichnet. Es besteht aus einem Neuron, das als Klassifikator fungiert. Dieses Neuron empfängt Eingaben und ordnet sie unter Verwendung einer linearen Unterscheidungsfunktion einer von zwei Klassen zu. In größeren neuronalen Netzen gibt es keine Begrenzung für die Anzahl der Schichten oder die Anzahl der Knoten in einer Schicht.

Neuronale Netze können verwendet werden, um:

  • Genexpressionsprofile klassifizieren
  • Proteinstruktur vorhersagen
  • DNA sequenzieren.

Clustering

Unüberwachtes Clustering ist der Prozess des Organisierens von Elementen in verschiedene Gruppen basierend auf der bereitgestellten Definition von Ähnlichkeit. Als Ergebnis einer solchen Klassifizierung stehen die in einem Cluster positionierten Elemente in enger Beziehung zueinander und unterscheiden sich von Elementen in anderen Clustern.

Anders als bei der überwachten Klassifikation wissen wir beim Clustering nicht im Voraus, wie viele Cluster gebildet werden. Ein berühmtes Beispiel für diesen ML-Ansatz in der Bioinformatik ist das Mikroarray-basierte Expressionsprofiling von Genen, bei dem Gene mit ähnlichen Expressionsniveaus in einem Cluster positioniert werden.

Dimensionsreduktion

Bei ML-Klassifizierungsproblemen werden Klassifizierungen basierend auf Faktoren/Merkmale durchgeführt. Manchmal gibt es zu viele Faktoren, die das Endergebnis beeinflussen, was die Visualisierung und Bearbeitung des Datensatzes erschwert. Dimensionsreduktionsalgorithmen können die Anzahl der Merkmale minimieren, wodurch der Datensatz besser verwaltbar wird. Zum Beispiel könnte ein Klimaklassifikationsproblem Feuchtigkeit und Niederschlag zu seinen Merkmalen haben. Diese beiden können der Einfachheit halber zu einem Faktor zusammengefasst werden, da sie beide eng miteinander verbunden sind.

Die Dimensionsreduktion hat zwei Hauptkomponenten.

  • Merkmalsauswahl: Auswahl einer Teilmenge von Variablen zur Darstellung eines gesamten Modells durch Einbetten, Filtern oder Umhüllen von Merkmalen.
  • Merkmalsextraktion: Verringerung der Anzahl der Dimensionen in einem Datensatz – zum Beispiel kann ein 3D-Raum in zwei 2D-Räume aufgeteilt werden.

Diese Art von Algorithmen wird verwendet, um große Datensätze zu komprimieren, um die Rechenzeit und den Speicherbedarf zu reduzieren. Es kann auch in Daten vorhandene redundante Merkmale eliminieren.

Entscheidungsbaumklassifikatoren

Dies ist einer der beliebtesten klassischen Klassifikatoren für überwachtes Lernen. Diese Algorithmen wenden einen rekursiven Ansatz an, um ein Flussdiagramm-ähnliches Baummodell zu erstellen, bei dem jeder Knoten einen Test für ein Feature darstellt. Zuerst bestimmt der Algorithmus den obersten Knoten – die Wurzel – und baut dann den Baum rekursiv auf, Parameter für Parameter. Der letzte Knoten in jeder Sequenz wird „Blattknoten“ genannt. Es stellt die endgültige Klassifizierung dar und enthält das Klassenlabel.

Entscheidungsbaummodelle erfordern während des Trainings eine hohe Rechenleistung, können danach jedoch ohne umfangreiche Berechnungen Klassifikationen durchführen. Der Hauptvorteil dieser Klassifikatoren für die Bioinformatik besteht darin, dass sie verständliche Regeln und erklärbare Ergebnisse generieren.

Support-Vektor-Maschine

Dies ist ein überwachtes ML-Modell, das Zwei-Gruppen-Klassifizierungsprobleme lösen kann. Um Datenpunkte zu klassifizieren, suchen diese Algorithmen nach einer optimalen Hyperebene, die die Daten in zwei Klassen mit dem maximalen Abstand zwischen Datenpunkten trennt.

Die Punkte auf beiden Seiten der Hyperebene gehören zu verschiedenen Klassen. Die Dimension der Hyperebene hängt von der Anzahl der Merkmale ab. Bei zwei Merkmalen ist die Entscheidungsgrenze eine Linie; mit drei Merkmalen ist es eine 2D-Platte. Diese Eigenschaft macht es schwierig, SVM für Klassifikationen mit mehr als drei Merkmalen zu verwenden.

Dieser Ansatz ist bei der computergestützten Identifizierung funktioneller RNA-Gene nützlich. Anhand ihrer Expressionsdaten kann es den optimalen Gensatz für die Krebserkennung auswählen.

Top 5 Anwendungen des maschinellen Lernens in der Bioinformatik

Nachdem wir eine kurze Einführung in ML gegeben und die am häufigsten verwendeten ML-Algorithmen hervorgehoben haben, sehen wir uns an, wie sie im Bereich der Bioinformatik eingesetzt werden können.

Wenn einer dieser Anwendungsfälle bei Ihnen Anklang findet, wenden Sie sich an Beratungsexperten für KI-Software, um eine maßgeschneiderte Lösung für Ihr Unternehmen zu implementieren.

1. Erleichterung von Gene-Editing-Experimenten

Gene Editing bezieht sich auf die Manipulation der genetischen Zusammensetzung eines Organismus durch Löschen, Einfügen und Ersetzen eines Teils seiner DNA-Sequenz. Dieser Prozess beruht typischerweise auf der CRISPR-Technik, die ziemlich effektiv ist. Aber im Bereich der Auswahl der richtigen DNA-Sequenz für die Manipulation gibt es noch viel zu wünschen übrig, und hier kann ML helfen. Mithilfe von maschinellem Lernen für die Bioinformatik können Forscher das Design von Gen-Editing-Experimenten verbessern und ihre Ergebnisse vorhersagen.

Ein Forschungsteam setzte ML-Algorithmen ein, um die optimalsten Kombinationsvarianten von Aminosäureresten zu entdecken, die es dem genomeditierenden Protein Cas9 ermöglichen, sich an die Ziel-DNA zu binden. Aufgrund der großen Anzahl dieser Varianten wäre ein solches Experiment ansonsten zu groß gewesen, aber die Verwendung eines ML-gesteuerten Engineering-Ansatzes reduzierte den Screening-Aufwand um etwa 95 %.

2. Identifizierung der Proteinstruktur

Proteomik ist die Untersuchung von Proteinen, ihrer Wechselwirkungen, Zusammensetzung und ihrer Rolle im menschlichen Körper. Dieses Gebiet umfasst umfangreiche biologische Datensätze und ist rechenintensiv. Daher sind hier Technologien wie ML in der Bioinformatik unerlässlich.

Eine der erfolgreichsten Anwendungen auf diesem Gebiet ist die Verwendung von konvolutionellen neuronalen Netzwerken, um die Aminosäuren von Proteinen in drei Klassen einzuteilen – Blatt, Helix und Spirale. Neuronale Netze können eine Genauigkeit von 84 % erreichen, wobei die theoretische Grenze bei 88 %–90 % liegt.

Eine weitere Verwendung von ML in der Proteomik ist das Scoring von Proteinmodellen, eine Aufgabe, die für die Vorhersage der Proteinstruktur unerlässlich ist. In ihrem ML-Ansatz für die Bioinformatik setzten Forscher der Fayetteville State University ML ein, um die Bewertung von Proteinmodellen zu verbessern. Sie teilten die fraglichen Proteinmodelle in Gruppen ein und verwendeten einen ML-Interpreter, um über den Merkmalsvektor zu entscheiden, um Modelle zu bewerten, die zu jeder Gruppe gehören. Diese Merkmalsvektoren wurden später verwendet, um die ML-Algorithmen weiter zu verbessern, während sie für jede Gruppe separat trainiert wurden.

3. Erkennung von Genen, die mit Krankheiten assoziiert sind

Forscher verwenden ML zunehmend in der Bioinformatik, um Gene zu identifizieren, die wahrscheinlich an bestimmten Krankheiten beteiligt sind. Dies wird durch die Analyse von Genexpressions-Microarrays und RNA-Sequenzierung erreicht.

Die Genidentifizierung hat in krebsbezogenen Studien an Bedeutung gewonnen, um Gene zu identifizieren, die wahrscheinlich zu Krebs beitragen, sowie um Tumore zu klassifizieren, indem sie auf molekularer Ebene analysiert werden.

Beispielsweise verwendete eine Gruppe von Wissenschaftlern an der University of Washington ML in Bioinformatik-Algorithmen, darunter einen Entscheidungsbaum, eine Support-Vektor-Maschine und neuronale Netze, um ihre Fähigkeit zur Vorhersage und Klassifizierung von Krebsarten zu testen. Die Forscher setzten RNA-Sequenzierungsdaten aus dem Projekt The Cancer Genome Atlas ein und entdeckten, dass die lineare Support-Vektor-Maschine mit einer Genauigkeit von 95,8 % bei der Krebsklassifizierung am präzisesten war.

In einem anderen Beispiel verwendeten Forscher ML, um Brustkrebstypen basierend auf Genexpressionsdaten zu klassifizieren. Dieses Team stützte sich auch auf die Daten des Cancer Genome Atlas Project. Die Forscher klassifizierten die Proben in dreifach negativen Brustkrebs – eine der tödlichsten Brustkrebsarten – und nicht dreifach negative. Und wieder einmal lieferte der Support-Vector-Machine-Klassifikator die besten Ergebnisse.

Apropos nicht krebsartige Erkrankungen: Forscher der University of Pennsylvania verließen sich auf ML, um Gene zu identifizieren, die ein geeignetes Ziel für Medikamente gegen koronare Herzkrankheit (KHK) darstellen würden. Das Team verwendete das ML-gestützte Tree-based Pipeline Optimization Tool (TPOT), um eine Kombination von Einzelnukleotid-Polymorphismen (SNPs) im Zusammenhang mit CAD zu lokalisieren. Sie analysierten die Genomdaten der UK Biobank und entdeckten 28 relevante SNPs. Die Beziehung zwischen den SNPs an der Spitze dieser Liste und CAD wurde zuvor in der Literatur erwähnt, und diese Forschung bestätigte die Anwendung von ML.

4. Durchqueren der Wissensbasis auf der Suche nach sinnvollen Mustern

Die fortschrittliche Sequenzierungstechnologie verdoppelt Genomdatenbanken alle 2,5 Jahre, und Forscher suchen nach einer Möglichkeit, nützliche Erkenntnisse aus diesem angesammelten Wissen zu extrahieren. ML in der Bioinformatik kann biomedizinische Veröffentlichungen und Berichte durchsuchen, um verschiedene Gene und Proteine ​​zu identifizieren und nach ihrer Funktionalität zu suchen. Es kann auch beim Annotieren von Proteindatenbanken helfen und sie mit den Informationen ergänzen, die es aus der wissenschaftlichen Literatur abruft.

Ein Beispiel stammt von einer Gruppe von Forschern, die Bioinformatik und ML in der Literatursuche einsetzten, um das Scoring von Proteinmodellen zu erleichtern. Die strukturelle Modellierung von Protein-Protein-Docking führt typischerweise zu mehreren Modellen, die basierend auf strukturellen Einschränkungen weiter bewertet werden. Das Team verwendete ML-Algorithmen, um PubMed-Papiere zu Protein-Protein-Wechselwirkungen zu durchlaufen und nach Resten zu suchen, die dabei helfen könnten, diese Einschränkungen für die Modellbewertung zu generieren. Und um sicherzustellen, dass die Einschränkungen relevant sind, untersuchten die Wissenschaftler die Fähigkeit verschiedener ML-Algorithmen, alle entdeckten Rückstände auf Relevanz zu überprüfen.

Diese Forschung ergab, dass sowohl rechenintensive neuronale Netze als auch weniger ressourcenintensive Support-Vektor-Maschinen sehr ähnliche Ergebnisse erzielten.

5. Wiederverwendung von Drogen

Drug Repurposing oder Reprofiling ist eine Technik, die Wissenschaftler verwenden, um neue Anwendungen zu entdecken, die für bestehende Medikamente nicht vorgesehen waren. Forscher setzen KI in der Bioinformatik ein, um Arzneimittelanalysen in relevanten Datenbanken wie BindingDB und DrugBank durchzuführen. Es gibt drei Hauptrichtungen für die Wiederverwendung von Arzneimitteln.

  • Drug-Target Interaction untersucht die Fähigkeit eines Medikaments, direkt an ein Zielprotein zu binden
  • Die Arzneimittelwechselwirkung untersucht, wie Medikamente wirken, wenn sie in Kombination eingenommen werden
  • Die Protein-Protein-Interaktion untersucht die Oberfläche interagierender intrazellulärer Proteine ​​und versucht, Hotspots und allosterische Stellen zu entdecken.

Forscher der China University of Petroleum und der Shandong University entwickelten einen tiefen neuronalen Netzwerkalgorithmus und verwendeten ihn in der DrugBank-Datenbank. Sie wollten Arzneimittel-Target-Wechselwirkungen zwischen Arzneimittelmolekülen und dem mitochondrialen Fusionsprotein 2 (MFN2) untersuchen, das eines der Hauptproteine ​​ist, das die Alzheimer-Krankheit verursachen kann. Die Studie identifizierte 15 Wirkstoffmoleküle mit Bindungspotenzial. Nach weiteren Untersuchungen stellte sich heraus, dass 11 von ihnen erfolgreich an MFN2 andocken konnten. Und fünf von ihnen hatten eine mittlere bis starke Bindungskraft.

Herausforderungen von ML in der Bioinformatik

ML in der Bioinformatik unterscheidet sich von ML in anderen Sektoren aufgrund der folgenden vier Faktoren, die auch die Hauptherausforderungen bei der Anwendung von ML in diesem Bereich darstellen.

  1. Der Einsatz von KI in der Bioinformatik ist teuer. Damit der Algorithmus ordnungsgemäß funktioniert, müssen Sie einen großen Trainingsdatensatz erfassen. Es ist jedoch ziemlich kostspielig, 10.000 Brustscans oder andere medizinische Daten zu erhalten.
  2. Es gibt Schwierigkeiten im Zusammenhang mit Trainingsdatensätzen. Wenn Sie in anderen Bereichen nicht über genügend Trainingsdaten verfügen, können Sie synthetische Daten generieren, um Ihren Datensatz zu erweitern. Dieser Trick ist jedoch möglicherweise nicht angemessen, wenn es um menschliche Organe geht. Das Problem ist, dass Ihre Scangenerierungssoftware möglicherweise einen Scan eines echten Menschen erstellt. Und wenn Sie anfangen, das ohne die Erlaubnis der Person zu verwenden, verletzen Sie grob ihre Privatsphäre.
  3. Eine weitere Herausforderung im Zusammenhang mit Trainingsdaten besteht darin, dass es von vornherein nicht viele Daten gibt, mit denen man arbeiten kann, wenn man einen Algorithmus entwickeln möchte, der mit seltenen Krankheiten funktioniert.
  4. Das Konfidenzniveau muss sehr hoch sein. Wenn Menschenleben von der Leistung des Algorithmus abhängen, steht einfach zu viel auf dem Spiel, was keinen Raum für Fehler lässt.
  5. Ärzte werden nicht bereit sein, das ML-Modell zu verwenden, wenn sie nicht verstehen, wie es seine Empfehlungen hervorgebracht hat. Sie können stattdessen erklärbare KI verwenden, aber diese Algorithmen sind nicht so leistungsfähig wie einige unüberwachte Blackbox-Lernmodelle.

Allgemeine KI-bezogene Herausforderungen und Implementierungstipps finden Sie in unserem Artikel und unserem kostenlosen eBook.

Um zusammenzufassen

KI- und ML-Technologien haben viele Anwendungen in Medizin und Biologie. In unserem Blog finden Sie weitere Informationen zu KI in klinischen Studien sowie zur Verwendung von KI bei der Krebsdiagnose und -behandlung sowie zu ihren anderen Vorteilen im Gesundheitswesen.

Bioinformatik ist ein weiteres medizinbezogenes Gebiet, in dem ML- und KI-basierte medizinische Lösungen praktisch sind. Die Bioinformatik erfordert den Umgang mit großen Mengen unterschiedlicher Datenformen wie Genomsequenzen, Proteinstrukturen und wissenschaftlichen Veröffentlichungen. ML ist bekannt für seine Datenverarbeitungsfähigkeiten; Viele KI-Bioinformatikmodelle sind jedoch teuer in der Ausführung. Es kann Hunderttausende von Dollar kosten, einen Deep-Learning-Algorithmus zu trainieren. Beispielsweise verbrauchte das Training des AlphaFold2-Modells für die Proteinstrukturvorhersage ein Äquivalent von 100–200 GPUs, die mehrere Wochen lang liefen.

Weitere Informationen darüber, was Sie preislich erwarten können, finden Sie in unserem Artikel über die Kosten für die Implementierung von KI. Wenn Sie maschinelles Lernen in der Bioinformatik einsetzen möchten, schreiben Sie uns. Gemeinsam mit Ihnen finden wir die am besten geeigneten ML-Modelle für ein angemessenes Budget.

Erwägen Sie den Einsatz von maschinellem Lernen in der Bioinformatik, sind sich aber nicht sicher, welches Modell das richtige für Sie ist? In Kontakt kommen! Wir unterstützen Sie bei der Auswahl des für die Aufgabenstellung am besten geeigneten ML-Typs. Wir helfen Ihnen auch beim Erstellen/Anpassen, Trainieren und Bereitstellen des Algorithmus.


Dieser Artikel wurde ursprünglich auf der Itrex-Website veröffentlicht.