Biología e Inteligencia artificial (IA) han sido socios reticentes: cada uno va a lo suyo. Como en un mal baile, han interactuado sin coordinación y a ritmos diferentes. La Biología es sutil, subjetiva y cambiante, moviéndose en un contexto donde la excepción es quizá la regla. En contraste, la IA es una máquina insaciable que requiere grandes volúmenes de datos, homogéneos y estructurados. Con datos tan escasos y variables… ¡es difícil que la danza funcione!
Sin embargo, existen esos espacios de encuentro donde ambas pueden alinearse. En el campo de la biología computacional, de hecho, la IA ha estado presente desde hace décadas. La IA se ha empleado en tareas como la clasificación de secuencias biológicas (proteínas, ADN), destacando en la predicción de estructuras secundarias de proteínas. Desde su incepción en la década de los 80, C. Sander junto a B. Rost la re-implementó en redes neuronales para el mismo propósito. Desde entonces estas metodologías forman parte del arsenal metodológico de la bioinformática.
La IA incluye tanto las técnicas tradicionales de aprendizaje automático (Machine Learning, ML) como las más avanzadas de aprendizaje profundo (Deep Learning, DL). La aplicación más común y recomendada de estas técnicas es en su modalidad “tradicional”, es decir, sin el uso de redes neuronales, para construir clasificadores supervisados (como la detección de “cáncer/no-cáncer”) o identificar patrones en conjuntos de datos no supervisados (como los genes sobre-expresados). Estas aplicaciones han tenido éxito y han contribuido al desarrollo de herramientas analíticas útiles.
Las técnicas de DL, por otro lado, requieren grandes volúmenes de datos (millones de puntos de datos, con miles de descriptores para cada punto) y requieren infraestructura de hardware especializada, como unidades de procesamiento gráfico (GPU), para realizar los cálculos necesarios. Un ejemplo típico de aplicación de DL es el análisis de imágenes, donde esta tecnología prospera.
En comparación con otros sectores (como el financiero), la IA ha llegado tarde al campo de la Biología, principalmente debido a la falta de infraestructura tecnológica y personal especializado fuera de la industria. La formación de estos expertos requiere supervisión de personal competente, lo que se ha convertido en un cuello de botella en el desarrollo de la IA en este ámbito. Incluso si contáramos con la infraestructura y el conocimiento necesarios, la disponibilidad de datos seguiría siendo un factor limitante.
No todas las áreas de la Biología pueden beneficiarse igualmente de los avances en estas técnicas. La disparidad en la disponibilidad de datos es significativa. Por ejemplo, en UniprotKB hay disponibles unos 280 millones de secuencias de proteínas, pero sólo se han curado unas 848.000 interacciones en ~143.000 proteínas, según IntAct. Esto convierte a UniprotKB en un buen escenario para usar IA, gracias a las técnicas de secuenciación masiva, mientras que IntAct no es tan adecuado.
Es innegable que la IA ha demostrado un potencial transformador único, como lo demuestra la concesión del Premio Nobel de Química 2024 al diseño de proteínas artificiales funcionales y a los algoritmos de IA para la predicción de estructuras terciarias de proteínas. Estos métodos avanzados han llegado para quedarse y evolucionan a un ritmo exponencial. Cada semana se publican nuevos modelos, incluidos modelos fundacionales y modificados. Entre ellos, los modelos de lenguaje para proteínas, derivados del procesamiento del lenguaje natural (NLP), han demostrado ser especialmente poderosos, como hemos presenciado en el último ejercicio de evaluación de métodos de predicción de función (CAFA5) presentados en ISMB2024. De entre los 10 mejores, 9 se basan en modelos de lenguaje.
Sin embargo, estos métodos presentan desafíos importantes. La escalabilidad de la producción de datos para entrenar modelos fundacionales sigue siendo un problema, y la interpretabilidad de estos modelos —auténticas “cajas negras”— ha dado origen a un campo emergente: la Inteligencia Artificial Explicativa (XAI, por sus siglas en inglés).
En conclusión, la IA está aquí para quedarse y su poder transformador será cada vez más evidente. No obstante, ¿Podremos aprovechar estos avances generados en la industria tecnológica de manera libre y transparente? ¿Queremos repetir situaciones como la de AlphaFold, cuyo código no ha sido liberado para el uso de la comunidad y el beneficio de la sociedad con uso restringido hasta meses después de su publicación?
En este número de la Revista SEBBM, hemos seleccionado cuatro artículos que creemos transmiten el mensaje que queremos compartir.
La Dra. Fátima Sánchez Cabo y sus colaboradoras Lucía Sánchez García e Inés Rivero, del CNIC, presentan aplicaciones de la IA en biomedicina, particularmente en medicina de precisión, e introducen conceptos de inferencia causal y los avances de la IA generativa y explicativa.
El Dr. Pablo Chacón Montes (coordinador de la conexión CSIC de Biología computacional y Bioinformática, BCB.Hub) del IQF ‘Blas Cabrera’, CSIC, explica cómo la IA ha transformado el ámbito de la bioinformática estructural y describe el desarrollo de los modelos de lenguaje en la predicción de estructuras.
El Dr. Miguel A. Fortuna (BCB.Hub) y su colaborador Francisco J. Borrallo-Vázquez, ambos en EBD, CSIC, describen aplicaciones de IA generativa en la genómica sintética, en particular para la creación de gemelos digitales usando Redes Generativas Antagónicas (GANs).
Los Drs. Ildefonso Cases (BCB.Hub), Ana Rojas (BCB.Hub), ambos en CABD (CSIC),la Dra. Rosa Fernández (BCB.Hub) y su colaboradora Gemma Martínez Redondo, ambas en IBE, CSIC, describen el problema de la anotación funcional de proteínas y la aplicación de modelos de lenguaje aplicados a proteínas para anotar funciones de genes desconocidos en millones de secuencias.