Inteligencia artificial y aprendizaje automático en bioinformática: un dúo poderoso que impulsa la innovación

Publicado: 2023-02-16

Los avances en las técnicas de secuenciación del ADN han permitido a los investigadores secuenciar el genoma humano en solo un día, una tarea que alguna vez tomó una década en completarse. Esta es solo una de las muchas contribuciones poderosas del aprendizaje automático (ML) a la bioinformática.

A medida que muchas empresas de biotecnología contratan consultores de ML para facilitar el proceso de manejo de datos biomédicos, la IA en el mercado de la bioinformática sigue creciendo. Se prevé que alcance los $37.027,96 para 2029, creciendo a una CAGR del 42,7 % a partir de 2022. ¿Quieres ser parte de esta revolución digital?

Este artículo brinda una breve introducción a ML, explica cómo respalda la investigación biomédica y enumera los desafíos que podría enfrentar al implementar esta tecnología.

Introducción al aprendizaje automático para bioinformática

ML es un subconjunto del campo más amplio de la inteligencia artificial (IA). Permite que los sistemas aprendan de forma independiente de los datos y ejecuten tareas para las que no están explícitamente programados. Su objetivo es dar a las máquinas la capacidad de realizar tareas que requieren inteligencia humana, como el diagnóstico, la planificación y la predicción.

Hay dos tipos principales de aprendizaje automático.

  1. El aprendizaje supervisado se basa en conjuntos de datos etiquetados para enseñar a los algoritmos cómo usar un sistema de clasificación existente, incluido cómo hacer predicciones basadas en ese sistema. Este tipo de ML se utiliza para entrenar árboles de decisión y redes neuronales.
  2. El aprendizaje no supervisado no utiliza etiquetas. En cambio, los algoritmos intentan descubrir patrones de datos por sí mismos. En otras palabras, aprenden cosas que no podemos enseñarles directamente. Esto es comparable a cómo funciona el cerebro humano.

También es posible combinar datos etiquetados y no etiquetados durante el entrenamiento, lo que dará como resultado un aprendizaje semisupervisado. Este tipo de ML puede ser útil cuando no tiene suficientes datos etiquetados de alta calidad para un enfoque de aprendizaje supervisado, pero aún desea usarlo para dirigir el proceso de aprendizaje.

¿Cuáles son las técnicas de aprendizaje automático más populares utilizadas en bioinformática?

Algunos de estos algoritmos caen estrictamente dentro de las categorías de aprendizaje supervisado/no supervisado, y algunos pueden usarse con ambos métodos.

Procesamiento natural del lenguaje

El procesamiento del lenguaje natural (NLP) es un conjunto de técnicas que pueden comprender el lenguaje humano no estructurado.

La PNL puede, por ejemplo, buscar a través de volúmenes de investigación biológica, agregar información sobre un tema determinado de varias fuentes y traducir los resultados de la investigación de un idioma a otro. Además de los trabajos de investigación de minería, las soluciones de NLP pueden analizar bases de datos biomédicas relevantes.

La PNL puede beneficiar al campo de la bioinformática de las siguientes maneras.

  • Interpretar variantes genéticas
  • Analizar matrices de expresión de ADN
  • Anotar funciones de proteínas
  • Buscar nuevos objetivos farmacológicos

Redes neuronales

Estas son estructuras de múltiples capas que consisten en nodos/neuronas. Las neuronas de las capas adyacentes están conectadas entre sí a través de enlaces, pero las neuronas de una capa no están interconectadas. Las neuronas de una capa reciben información, la procesan y la transmiten como entrada a la siguiente capa. Y este proceso continúa hasta que la información procesada llega a la capa de salida.

La red neuronal más básica se llama perceptrón. Consiste en una neurona que actúa como clasificador. Esta neurona recibe información y la ubica en una de dos clases usando una función de discriminación lineal. En redes neuronales más grandes, no hay límite para la cantidad de capas o la cantidad de nodos en una capa.

Las redes neuronales se pueden utilizar para:

  • clasificar los perfiles de expresión génica
  • predecir la estructura de la proteína
  • secuencia de ADN.

Agrupación

El agrupamiento no supervisado es el proceso de organizar elementos en varios grupos según la definición de similitud proporcionada. Como resultado de dicha clasificación, los elementos ubicados en un grupo se relacionan estrechamente entre sí y difieren de los elementos de otros grupos.

A diferencia de la clasificación supervisada, en la agrupación no sabemos de antemano cuántos grupos se formarán. Un ejemplo famoso de este enfoque de ML en bioinformática es el perfil de expresión de genes basado en micromatrices, donde los genes con niveles de expresión similares se colocan en un grupo.

Reducción de dimensionalidad

En los problemas de clasificación de ML, las clasificaciones se realizan en función de factores/características. A veces, hay demasiados factores que afectan el resultado final, lo que hace que el conjunto de datos sea difícil de visualizar y manipular. Los algoritmos de reducción de dimensionalidad pueden minimizar la cantidad de características, lo que hace que el conjunto de datos sea más manejable. Por ejemplo, un problema de clasificación climática puede tener humedad y lluvia entre sus características. Estos dos pueden colapsarse en un solo factor en aras de la simplicidad, ya que ambos están estrechamente relacionados.

La reducción de la dimensionalidad tiene dos componentes principales.

  • Selección de características: elegir un subconjunto de variables para representar un modelo completo al incorporar, filtrar o envolver características.
  • Extracción de características: reducción del número de dimensiones en un conjunto de datos; por ejemplo, un espacio 3D se puede dividir en dos espacios 2D.

Este tipo de algoritmos se utiliza para comprimir grandes conjuntos de datos con el fin de reducir el tiempo computacional y los requisitos de almacenamiento. También puede eliminar características redundantes presentes en los datos.

Clasificadores de árboles de decisión

Este es uno de los clasificadores clásicos de aprendizaje supervisado más populares. Estos algoritmos aplican un enfoque recursivo para construir un modelo de árbol similar a un diagrama de flujo, donde cada nodo representa una prueba en una función. Primero, el algoritmo determina el nodo superior, la raíz, y luego construye el árbol recursivamente, un parámetro a la vez. El nodo final de cada secuencia se denomina "nodo hoja". Representa la clasificación final y ostenta la etiqueta de clase.

Los modelos de árboles de decisión exigen una gran potencia computacional durante el entrenamiento, pero luego pueden realizar clasificaciones sin una computación extensa. La principal ventaja que aportan estos clasificadores al campo de la bioinformática es que generan reglas comprensibles y resultados explicables.

Máquinas de vectores soporte

Este es un modelo de aprendizaje automático supervisado que puede resolver problemas de clasificación de dos grupos. Para clasificar los puntos de datos, estos algoritmos buscan un hiperplano óptimo que divide los datos separándolos en dos clases con la distancia máxima entre los puntos de datos.

Los puntos ubicados a ambos lados del hiperplano pertenecen a diferentes clases. La dimensión del hiperplano depende del número de características. En el caso de dos características, el límite de decisión es una línea; con tres características, es una placa 2D. Esta característica dificulta el uso de SVM para clasificaciones con más de tres características.

Este enfoque es útil en la identificación computacional de genes de ARN funcionales. Puede seleccionar el conjunto óptimo de genes para la detección del cáncer en función de sus datos de expresión.

Las 5 principales aplicaciones del aprendizaje automático en bioinformática

Después de dar una breve introducción a ML y resaltar los algoritmos de ML más utilizados, veamos cómo se pueden implementar en el campo de la bioinformática.

Si alguno de estos casos de uso resuena con usted, recurra a los profesionales de consultoría de software de IA para implementar una solución personalizada para su negocio.

1. Facilitar los experimentos de edición de genes

La edición de genes se refiere a la manipulación de la composición genética de un organismo mediante la eliminación, inserción y reemplazo de una parte de su secuencia de ADN. Este proceso generalmente se basa en la técnica CRISPR, que es bastante efectiva. Pero todavía hay muchas mejoras que desear en el área de selección de la secuencia de ADN correcta para la manipulación, y aquí es donde ML puede ayudar. Utilizando el aprendizaje automático para la bioinformática, los investigadores pueden mejorar el diseño de experimentos de edición de genes y predecir sus resultados.

Un equipo de investigación empleó algoritmos de ML para descubrir las variantes combinatorias más óptimas de residuos de aminoácidos que permiten que la proteína de edición del genoma Cas9 se una al ADN objetivo. Debido a la gran cantidad de estas variantes, dicho experimento habría sido demasiado grande, pero el uso de un enfoque de ingeniería basado en ML redujo la carga de detección en alrededor del 95 %.

2. Identificación de la estructura de la proteína

La proteómica es el estudio de las proteínas, sus interacciones, composición y su papel en el cuerpo humano. Este campo involucra grandes conjuntos de datos biológicos y es computacionalmente costoso. Por lo tanto, tecnologías como ML en bioinformática son esenciales aquí.

Una de las aplicaciones más exitosas en este campo es el uso de redes neuronales convolucionales para ubicar los aminoácidos de las proteínas en tres clases: hoja, hélice y espiral. Las redes neuronales pueden lograr una precisión del 84% con un límite teórico del 88% al 90%.

Otro uso de ML en proteómica es la puntuación de modelos de proteínas, una tarea esencial para predecir la estructura de las proteínas. En su enfoque de ML para la bioinformática, los investigadores de la Universidad Estatal de Fayetteville implementaron ML para mejorar la puntuación del modelo de proteínas. Dividieron los modelos de proteínas en cuestión en grupos y utilizaron un intérprete de ML para decidir el vector de características para evaluar los modelos pertenecientes a cada grupo. Estos vectores de características se usaron más tarde para mejorar aún más los algoritmos de ML mientras se entrenaban en cada grupo por separado.

3. Detectar genes asociados con enfermedades

Los investigadores están utilizando cada vez más ML en bioinformática para identificar genes que probablemente estén involucrados en enfermedades particulares. Esto se logra mediante el análisis de micromatrices de expresión génica y secuenciación de ARN.

La identificación de genes ha cobrado fuerza en los estudios relacionados con el cáncer para identificar genes que probablemente contribuyan al cáncer, así como para clasificar tumores analizándolos a nivel molecular.

Por ejemplo, un grupo de científicos de la Universidad de Washington usó ML en algoritmos bioinformáticos, incluido un árbol de decisiones, una máquina de vectores de soporte y redes neuronales para probar su capacidad para predecir y clasificar los tipos de cáncer. Los investigadores implementaron datos de secuenciación de ARN del proyecto The Cancer Genome Atlas y descubrieron que la máquina de vector de soporte lineal era la más precisa, con una precisión del 95,8 % en la clasificación del cáncer.

En otro ejemplo, los investigadores utilizaron ML para clasificar los tipos de cáncer de mama en función de los datos de expresión génica. Este equipo también se basó en los datos del Proyecto Atlas del Genoma del Cáncer. Los investigadores clasificaron las muestras en cáncer de mama triple negativo, uno de los cánceres de mama más letales, y no triple negativo. Y una vez más, el clasificador de máquinas de vectores de soporte entregó los mejores resultados.

Hablando de enfermedades no cancerosas, los investigadores de la Universidad de Pensilvania se basaron en ML para identificar genes que serían un objetivo adecuado para los medicamentos para la enfermedad de las arterias coronarias (CAD). El equipo utilizó la herramienta de optimización de canalización basada en árboles (TPOT) con tecnología de aprendizaje automático para identificar una combinación de polimorfismos de un solo nucleótido (SNP) relacionados con CAD. Analizaron los datos genómicos del Biobanco del Reino Unido y descubrieron 28 SNP relevantes. La relación entre los SNP en la parte superior de esta lista y CAD se mencionó anteriormente en la literatura, y esta investigación validó la aplicación de ML.

4. Atravesando la base de conocimiento en busca de patrones significativos

La tecnología de secuenciación avanzada duplica las bases de datos genómicos cada 2,5 años, y los investigadores están buscando una forma de extraer información útil de este conocimiento acumulado. ML en bioinformática puede filtrar publicaciones e informes biomédicos para identificar diferentes genes y proteínas y buscar su funcionalidad. También puede ayudar a anotar bases de datos de proteínas y complementarlas con la información que recupera de la literatura científica.

Un ejemplo proviene de un grupo de investigadores que implementaron bioinformática y ML en la minería de literatura para facilitar la calificación de modelos de proteínas. El modelado estructural de los acoplamientos proteína-proteína generalmente da como resultado varios modelos que se califican aún más en función de las restricciones estructurales. El equipo usó algoritmos de ML para revisar artículos de PubMed sobre interacciones proteína-proteína, en busca de residuos que pudieran ayudar a generar estas restricciones para la puntuación del modelo. Y para asegurarse de que las restricciones fueran relevantes, los científicos exploraron la capacidad de diferentes algoritmos de ML para verificar la relevancia de todos los residuos descubiertos.

Esta investigación reveló que tanto las redes neuronales computacionalmente costosas como las máquinas de vectores de soporte que demandan menos recursos lograron resultados muy similares.

5. Medicamentos de reutilización

La reutilización o reperfilado de medicamentos es una técnica que utilizan los científicos para descubrir nuevas aplicaciones que no estaban destinadas a los medicamentos existentes. Los investigadores adoptan IA en bioinformática para realizar análisis de fármacos en bases de datos relevantes, como BindingDB y DrugBank. Hay tres direcciones principales para la reutilización de medicamentos.

  • La interacción fármaco-objetivo analiza la capacidad de un fármaco para unirse directamente a una proteína objetivo
  • La interacción fármaco-fármaco investiga cómo actúan los medicamentos cuando se toman en combinación
  • La interacción proteína-proteína analiza la superficie de las proteínas intracelulares que interactúan e intenta descubrir puntos críticos y sitios alostéricos.

Investigadores de la Universidad del Petróleo de China y la Universidad de Shandong desarrollaron un algoritmo de red neuronal profunda y lo utilizaron en la base de datos de DrugBank. Querían estudiar las interacciones fármaco-objetivo entre las moléculas del fármaco y la proteína de fusión mitocondrial 2 (MFN2), que es una de las principales proteínas que pueden causar la enfermedad de Alzheimer. El estudio identificó 15 moléculas de fármacos con potencial de unión. Luego de una mayor investigación, parecía que 11 de ellos podían acoplarse con éxito a MFN2. Y cinco de ellos tenían una fuerza vinculante media a fuerte.

Desafíos presentados por ML en Bioinformática

ML en bioinformática difiere de ML en otros sectores debido a los cuatro factores a continuación, que también constituyen los principales desafíos de aplicar ML en este campo.

  1. Usar IA en bioinformática es costoso. Para que el algoritmo funcione correctamente, debe adquirir un gran conjunto de datos de entrenamiento. Sin embargo, es bastante costoso obtener 10,000 escáneres de tórax o cualquier otro tipo de datos médicos.
  2. Existen dificultades asociadas con los conjuntos de datos de entrenamiento. En otros campos, si no tiene suficientes datos de entrenamiento, puede generar datos sintéticos para expandir su conjunto de datos. Sin embargo, este truco podría no ser apropiado cuando se trata de órganos humanos. El problema es que su software de generación de escaneo podría producir un escaneo de un ser humano real. Y si comienza a usar eso sin el permiso de la persona, estará violando gravemente su privacidad.
  3. Otro desafío asociado con los datos de entrenamiento es que si desea construir un algoritmo que funcione con enfermedades raras, no habrá muchos datos con los que trabajar en primer lugar.
  4. El nivel de confianza debe ser muy alto. Cuando la vida humana depende del rendimiento del algoritmo, hay demasiado en juego, lo que no deja margen para el error.
  5. Los médicos no estarán abiertos a usar el modelo ML si no entienden cómo produjo sus recomendaciones. En su lugar, puede usar IA explicable, pero estos algoritmos no son tan poderosos como algunos modelos de aprendizaje no supervisados ​​de caja negra.

Para conocer los desafíos generales relacionados con la IA y los consejos de implementación, consulte nuestro artículo y el libro electrónico gratuito.

Para resumir

Las tecnologías de IA y ML tienen muchas aplicaciones en medicina y biología. En nuestro blog, puede encontrar más información sobre la IA en ensayos clínicos, así como el uso de la IA en el diagnóstico y tratamiento del cáncer, junto con sus otros beneficios en el cuidado de la salud.

La bioinformática es otro campo relacionado con la medicina donde las soluciones médicas basadas en ML e IA son útiles. La bioinformática requiere el manejo de grandes cantidades de diversas formas de datos, como secuencias de genomas, estructuras de proteínas y publicaciones científicas. ML es bien conocido por sus capacidades de procesamiento de datos; sin embargo, muchos modelos de bioinformática de IA son costosos de ejecutar. Puede tomar cientos de miles de dólares entrenar un algoritmo de aprendizaje profundo. Por ejemplo, entrenar el modelo AlphaFold2 para la predicción de la estructura de proteínas consumió el equivalente a 100-200 GPU funcionando durante varias semanas.

Puede encontrar más información sobre qué esperar en cuanto a precios en nuestro artículo sobre cuánto cuesta implementar IA. Si desea implementar el aprendizaje automático en bioinformática, escríbanos. Trabajaremos con usted para encontrar los modelos ML más adecuados para un presupuesto razonable.

¿Está considerando implementar el aprendizaje automático en bioinformática, pero no está seguro de qué modelo es el adecuado para usted? ¡Ponerse en contacto! Lo ayudaremos a seleccionar el tipo de ML más adecuado para la tarea. También lo ayudaremos a crear/personalizar, entrenar e implementar el algoritmo.


Este artículo se publicó originalmente en el sitio web de Itrex.