En una decisión aparentemente coordinada, la Real Academia Sueca de las Ciencias ha concedido este año los Premios Nobel de Física y de Química (Figura 1) al desarrollo y aplicación de procedimientos de análisis masivo de datos basados en redes neuronales artificiales. La estructura y funcionamiento de las redes neuronales, que se inspiró inicialmente en la neurociencia, se ha nutrido de herramientas y conocimientos de la física y ha encontrado extraordinarias aplicaciones en biología estructural y en numerosos aspectos de nuestra vida cotidiana.
Una red neuronal está constituida por nodos interconectados. Cada nodo almacena un número que constituye su valor y se interconecta con otros nodos de la red según valores que describen la fortaleza de cada conexión. La red suele tener varias capas. Cuando un nodo de la capa de entrada recibe un dato, modifica el valor que tiene almacenado y también los valores de los nodos con los que está conectado. Cuando la red termina de procesar los datos disponibles, los valores que aparecen en los nodos de la capa de respuesta constituyen el resultado de su análisis. Las redes neuronales son entrenadas con una gran cantidad de datos que les permiten optimizar las intensidades de sus conexiones mediante cálculos automatizados. De esta manera, consiguen aprender autónomamente a llevar a cabo a gran velocidad algunas tareas complejas que las personas hacemos bastante bien (a nuestro ritmo) con nuestras propias redes neuronales (p. ej. traducción de textos, interpretación de imágenes, generación de textos o de imágenes realistas). También consiguen realizar tareas fuera de nuestro alcance, como el análisis simultáneo de gran cantidad de datos o el descubrimiento de patrones predictivos sutiles.
Las personas que diseñan una red neuronal albergan la esperanza de que su arquitectura y reglas de funcionamiento sean las adecuadas para realizar la tarea prevista, pero ignoran habitualmente de qué manera lo van a conseguir (con qué valores de las conexiones entre los nodos). Esos valores “aparecen” durante el entrenamiento. En realidad, las complejas tareas que resuelven las redes neuronales podrían también resolverlas modelos predictivos explícitos que fueran suficientemente precisos y utilizaran únicamente parámetros con significado físico y reglas prefijadas. Tales modelos, nos evitarían algunas de las preocupaciones que nos causa la “Inteligencia artificial” (IA) y que se están comenzando a debatir abiertamente pues, al no ser capaces de aprender nada, no podrían escapar a nuestro control. Es probable que estos modelos deterministas no lleguen pronto, así es que nos toca disfrutar de las grandes hazañas que realizan las redes neuronales artificiales y abordar sin demora el estudio de los peligros que plantean.
«Por los descubrimientos e inventos fundacionales que permiten el aprendizaje automático con redes neuronales artificiales», el Premio Nobel de Física ha sido otorgado este año al estadounidense John J. Hopfield (91 años) y al británico, afincado en Canadá, Geoffrey E. Hinton (76 años).
John J. Hopfield (91 años) desarrolló, en la década de 1980, redes neuronales sencillas que generaban, a partir de un conjunto de datos, paisajes de energía capaces de almacenar “recuerdos” en sus valles. Estas redes permitían reconocer patrones presentes en piezas de información incompletas o defectuosas, que podían ser mejoradas por comparación con los recuerdos almacenados. Hopfield fue un físico biológico excepcional que propuso en la década de 1970 modelos para el transporte de electrones entre biomoléculas y para la corrección de errores en las reacciones bioquímicas.
Geoffrey E. Hinton (76 años) desarrolló redes neuronales más complejas y procedimientos de entrenamiento que permiten el aprendizaje automático y son la base de las aplicaciones de IA con las que interactuamos de forma habitual: esas que reconocen nuestro rostro, nos proponen series en las plataformas audiovisuales, actúan de asistentes virtuales personalizados, nos ayudan a generar música o texto, analizan con precisión nuestras imágenes médicas, deciden qué noticias nos llegan al móvil (uf), o nos atienden (ejem) cuando llamamos para hacer una reclamación. Hace un año, Hinton abandonó su empleo en Google tras alertar de los graves peligros que plantea el acelerado y poco regulado avance de la inteligencia artificial y proponer que se pongan en marcha investigaciones urgentes sobre su seguridad.
Una de las aplicaciones recientes de las redes neuronales con mayor impacto en Biología es la predicción de la estructura tridimensional de una proteína a partir de su secuencia de aminoácidos. Desde que Anfinsen demostró alrededor de 1960 que las proteínas se pueden plegar fuera de la célula en un medio acuoso sencillo, averiguar la estructura tridimensional que adoptará una secuencia de aminoácidos disuelta en agua ha constituido uno de los grandes retos de la biología estructural. Como las proteínas son polímeros muy flexibles, identificar la conformación nativa funcional entre el elevadísimo número de conformaciones alternativas resulta muy difícil. Si la proteína es muy pequeña, es posible simular computacionalmente su plegamiento, pero, para la gran mayoría de las proteínas, la aproximación más exitosa ha sido, hasta hace poco, el modelado de su estructura por homología. Para ello se aprovecha que, si dos secuencias son parecidas, sus estructuras tridimensionales lo son todavía más. Mediante el modelado por homología se puede predecir la estructura de una proteína si se ha determinado previamente la estructura de otra que tiene una secuencia parecida. Sin embargo, a pesar de que se han resuelto experimentalmente más de 200.000 proteínas, hay todavía muchas secuencias para las que no se conoce una estructura adecuada en la que basar su modelización. No obstante, las estructuras ya resueltas sí han resultado suficientes para entrenar una red neuronal artificial que consigue generar estructuras tridimensionales correctas. Esta red neuronal conocida como Alphafold (Figura 2) ha derrotado a todas las aproximaciones basadas en modelado por homología que laboriosa y atinadamente nos han permitido avanzar durante décadas, y que han sido rápidamente sustituidas por Alphafold. De repente, disponemos de modelos de bastante buena calidad de todas las proteínas humanas y de muchas otras especies, lo que facilitará, entre otras cosas de interés, la invención de nuevos fármacos o la modelización integral de la célula. Alphafold ha sido diseñada por la empresaDeepMind, adquirida por Google en 2013. Medio Premio Nobel de Química de este año ha sido concedido “por la predicción de la estructura de las proteínas” a Demis Hassabis, cofundador y CEO de Google DeepMind, y a John Jumper, director de la misma.
John Michael Jumper (39 años) es un científico estadounidense con sólida formación en Física y en Química que leyó su Tesis doctoral en 2017. Su título: New methods using rigorous machine learning for coarse-grained protein folding and dynamics ya daba que pensar. Demis Hassabis (48 años) comenzó diseñando videojuegos con un ZX Spectrum 48 comprado a los 14 años con sus ganancias como ajedrecista. Disfrutó de una breve y exitosa carrera científica como neurocientífico y fundó DeepMind. Hassabis también está preocupado por la regulación de la IA y, como Hinton, declaró en 2023 que “Mitigar el riesgo de extinción por IA debería ser una prioridad mundial junto a otros riesgos a escala social como las pandemias y la guerra nuclear”. Está claro que los mayores expertos en IA se toman en serio la posibilidad de que una Inteligencia Artificial General (un sistema tan o más capaz que una persona en la mayoría o en todas las actividades intelectuales) tome el control. ¿Alguien recuerda 2001: Una odisea del espacio?
Predecir la estructura de las proteínas a partir de su secuencia es grandioso, pero no deja sin trabajo a los biólogos estructurales que también desean poder crear proteínas nuevas que lleven a cabo nuevas tareas o las hagan mejor que las proteínas naturales. La importancia de las proteínas en biotecnología, biomedicina y en química sostenible es extraordinaria. Si la IA gestiona datos, las proteínas gestionan materia. Aprender a obtener proteínas a la carta sería una revolución con aplicaciones espectaculares. Este deseo creativo se plasmó en el desarrollo de la ingeniería de proteínas en la década de 1980, mediante la aplicación de técnicas de la biología molecular y con un ojo puesto en la comprensión de la termodinámica de las proteínas. Con la ingeniería de proteínas hemos aprendido a perfeccionar, seleccionar e incluso diseñar proteínas completamente nuevas. En el esfuerzo realizado, se percibe la tensión habitual entre el desarrollo de técnicas poderosas que no generan mucho conocimiento, pero sí productos de gran interés, y el esfuerzo paralelo, a menudo más lento, por llegar al mismo resultado generando, de paso, conocimiento científico. El acceso a nuevas proteínas se puede conseguir por dos vías extremas: generando muchas secuencias y seleccionando las que resulten adecuadas o mediante la aplicación de modelos físicos rigurosos que calculen de forma inversa qué secuencia va a dar lugar a una estructura con las propiedades que se desean. La primera aproximación está ilustrada por las técnicas de evolución dirigida que fueron galardonadas con el Nobel de Química en 2018. La segunda aproximación recibe este año la otra mitad del Nobel de Química 2024 “por el diseño computacional de proteínas” y celebra los logros del científico estadounidense David Baker (62 años) a quien la Wikipedia define como bioquímico y biólogo computacional. David Baker ha desarrollado su carrera científica en torno a los grandes problemas de la biología estructural: entender el plegamiento de las proteínas, predecir su estructura tridimensional y desarrollar métodos computacionales para el diseño de nuevas proteínas. Se ha caracterizado por llevar a cabo vigorosamente tanto estudios computacionales como experimentales (con frecuencia coordinados). En 2003, su grupo diseñó, utilizando métodos computacionales que habían desarrollado previamente, p. ej. Rosetta, la proteína Top7 que, según demostraron experimentalmente, adoptaba, de acuerdo a su diseño, un nuevo plegamiento de tipo á/ß desconocido hasta entonces. La proteína tenía una secuencia nueva, no inspirada por secuencias conocidas previamente, y se comportaba en disolución como era esperable. A partir de ese hito, su grupo ha trabajado en el diseño de nuevas proteínas con funciones valiosas, tales como antígenos para la obtención de vacunas, pequeñas proteínas antivirales, proteínas para inmunoterapia o enzimas glutenlíticas. Algunos de estos diseños han dado lugar a empresas posteriormente adquiridas por grandes farmacéuticas. Los métodos computacionales desarrollados por Baker han liderado y avanzado singularmente el campo del diseño de proteínas. Aunque estos métodos no permiten todavía el diseño automático de proteínas nuevas o con nuevas funciones, han demostrado que hay una ruta muy prometedora, basada en el conocimiento físico de las proteínas, que conduce a su diseño exitoso, y auguran un futuro en el que inventaremos las proteínas necesarias para sanarnos y gestionar la Tierra apretando el botón de INTRO.