
La reciente revolución resultante de la popularización de los algoritmos de Inteligencia Artificial (IA) ha alcanzado también al campo de la biología estructural. Todos aprendimos, y así lo enseñamos en nuestras clases de bioquímica, que la secuencia de una proteína determina su plegamiento en una estructura tridimensional. También afirmamos que los principios que rigen dicha consecución de la estructura nativa se nos escapan en buena parte. Así ha sido durante muchos años: sólo algunas pinceladas de la tendencia de estos o aquellos aminoácidos a adoptar un tipo de estructura secundaria u otra, la influencia de los enlaces disulfuro –que estabilizan pero no determinan el plegamiento–, la importancia del efecto hidrófobo –no siempre correctamente descrito–, el papel de los iones metálicos para fijar determinadas estructuras… en resumen, muchas ideas que ayudan, pero continúa la incapacidad de afirmar “esta secuencia llevará a tal estructura terciaria “. A partir de 2020 aproximadamente, con la publicación de AlphaFold2, nos vimos en una nueva situación: los algoritmos de predicción de estructura proteica basados en IA y puestos a disposición de la comunidad científica abrían una nueva vía para estimar cómo podría ser la estructura terciaria de una secuencia concreta de residuos aminoácidos, para un número ingente de proteínas. Las pruebas experimentales obtenidas en los concursos CASP[1] mostraban que estas predicciones tenían una buena fiabilidad: la estructura predicha coincide, en muchos casos, en buena medida con aquélla determinada experimentalmente. Esto ha dado una reputación de fiabilidad a los métodos de IA que, no obstante, no nos explican el cómo y por qué del plegamiento, sino que más bien actúan como una caja negra de la que conocemos lo que entra y lo que sale, pero no comprendemos la maquinaria interna. Eso sí, nos hace felices poder obtener aproximaciones a la estructura de proteínas hasta ahora inalcanzables. También es una importante ayuda para orientar el trabajo de determinación experimental.
En el número previo de esta revista hemos podido leer varias contribuciones de nuestros compañeros sobre el impacto de la IA en nuestro campo de estudio. No pretendo en modo alguno alcanzar ese nivel ni reincidir en lo ya tratado, en particular visto el artículo de Pablo Chacón que cubre precisamente, a fondo, la influencia en la biología estructural. Sí quisiera traeros algunas ideas sobre cómo podemos integrar, si bien de forma sencilla, estas nuevas herramientas en la formación de nuestros alumnos.
El planteamiento de esta contribución no es que los estudiantes averigüen la estructura de una proteína usando estas herramientas de predicción, sino que reflexionemos sobre qué pueden aprender mientras prueban la predicción. Y ello en cualquier asignatura de bioquímica general, en una situación realista, sin emplear para este aspecto mucho tiempo ni recursos de software. Dicho de otro modo, pretendo compartir herramientas sencillas de usar, tanto en el aula como en actividades propuestas para que las realicen los alumnos, sin requerir la instalación de programas ni profundizar en sus prestaciones. ¿Podemos utilizar los servicios de predicción para que nuestros alumnos refuercen su aprendizaje de la estructura de las proteínas y, al mismo tiempo, se vayan familiarizando con estas nuevas herramientas, que no podrán sino crecer, como parte de su formación y su futuro profesional?
Consulta de las bases de datos
Tenemos la oportunidad –probablemente la obligación– de informar a los estudiantes de que pueden encontrar cuál es la estructura de una proteína en la base de datos experimentales (Protein Data Bank, PDB[2]) y asimismo la predicción de su estructura en las bases de datos generadas por IA, entre las que destacan AlphaFoldDB [3] y ESM Metagenomic Atlas [4]. La búsqueda es sencilla y será ventajoso incluirla como la primera fase de una actividad para los alumnos, que para promover un aprendizaje provechoso debe ir acompañada de algunas preguntas que deban resolver explorando dicha estructura, bien en los propios portales de búsqueda o descargando el archivo de datos para trabajar sobre él con alguno de los programas de visualización de los que ya hemos hablado en otras ocasiones. También se podría proponer un análisis crítico comparando la estructura predicha en las distintas plataformas entre sí o bien con la estructura experimental, para evitar la percepción de verdad absoluta en la que en ocasiones se pueda caer.
Fiabilidad de los algoritmos de predicción
Es esencial transmitir a nuestros alumnos la idea de que estos métodos no proporcionan una certeza absoluta sobre la estructura resultante, y trabajar en su análisis crítico como parte de las actividades que les propongamos.
Más allá de la estructura tridimensional en sí, el parámetro principal que proporcionan los servicios de predicción es el valor pLDDT, un indicador de confianza o de la fiabilidad esperada para las coordenadas espaciales de cada átomo o, según los casos, de cada residuo aminoácido en su conjunto. Hay otros indicadores pero, para los propósitos docentes, nos bastará con éste salvo que hablemos de cursos avanzados. Los valores de pLDDT inferiores a 50 (en una escala de 0 a 100) se consideran como de fiabilidad no significativa. Por encima de ese umbral se establecen varios niveles, aunque los resultados para la proteína sólo se consideran sólidos en el segmento más alto. Se suele utilizar un código de coloreado (Figura 1) para representar este parámetro sobre el modelo tridimensional y así poder identificar las regiones más fiables.

Estructura predicha para la secuencia de Serum amyloid A-1 en el servicio ESMfold, coloreada de acuerdo con el índice de fiabilidad pLDDT.
Ejercicios de predicción
¿Qué ejercicios podemos plantear a los estudiantes, sin complicarnos con la instalación de programas, procedimientos elaborados o aprendizaje del funcionamiento de plataformas? Propongo algunas soluciones simples que se pueden incorporar tanto en el tiempo de aula como en el de trabajo personal o en grupos.
Aunque el algoritmo de AlphaFold2 (2020) se liberó como código abierto, no identifiqué ninguna herramienta de uso sencillo y rápido para su utilización por usuarios noveles. La principal ventaja fue la disponibilidad de la base de datos de sus resultados (AlphaFoldDB), pero sin acceso a una fácil predicción de cualquier secuencia arbitraria. Esto ha cambiado con la versión AlphaFold3 (2024), como explicaré a continuación.
En contraste, el algoritmo de ESM sí ofrece una interfaz de uso sencillo en línea, sin instalación ni registro de usuario.
Predicción en ESM “Fold Sequence”
Este servicio es de acceso libre en línea y no requiere siquiera de registro como usuario. Sí tiene algunas limitaciones como la longitud de secuencia que podemos proporcionar y el número de peticiones que podemos enviar, pero será más que suficiente para nuestro uso docente. Primeramente, necesitamos obtener la secuencia de la proteína que queremos analizar. Una forma sencilla es dirigirnos a la base de datos Protein en NCBI:
- Introduce en el buscador “NCBI Protein” para llegar a http://ncbi.nlm.nih.gov/protein/
- Abre una búsqueda con el nombre de la proteína.
- Copia la secuencia; el modo más rápido es accediendo al enlace “FASTA”. Guárdala en un editor de texto.
A continuación, ve al servidor de predicción:
- Introduce en el buscador “ESM Fold Sequence” para llegar a http://esmatlas.com/resources?action=fold
- Pega la secuencia conseguida anteriormente; elimina cualquier salto de línea y los espacios que pueda haber al final.
- Pulsa la tecla Intro (Enter) o pulsa en el icono de lupa.
En poco tiempo se mostrará el modelo tridimensional de la estructura.
Para guardar el resultado, encontrarás un botón o enlace Download PDB file.
El coloreado que se muestra en la estructura es muy importante, pues nos habla de la fiabilidad de la predicción. Hay en ello mucha enseñanza y una posible reflexión sobre la validez de estos métodos, y el resultado será muy diferente dependiendo de la proteína que nos hayamos propuesto analizar. Lamentablemente, no se muestra la leyenda de colores en la misma página donde estamos viendo el resultado y, aunque el archivo que descargamos incluye los valores pLDDT, no es inmediato su aprovechamiento en muchos programas de visualizacíón. En seguida propondré una solución.
Predicción en AlphaFoldServer
Con la publicación de la versión 3 del algoritmo, AlphaFold ha puesto a disposición un servicio de predicción en línea. Este es gratuito pero requiere acceder con una cuenta de Google. Asimismo posee algunas limitaciones para evitar un uso abusivo.
Algunas ventajas de este servicio:
- Guarda las tareas que le hemos enviado anteriormente, permitiéndonos volver a ellas, descargarlas más tarde, duplicarlas para modificarlas en una nueva petición…
- Muy importante: ya no está limitado a una sola cadena polipeptídica, sino que incluye la posibilidad de predecir proteínas con varias subunidades, ácidos nucleicos, incluir cofactores o ligandos, así como residuos aminoácidos con las modificaciones más frecuentes, incluso la glicosilación.
Para el ejercicio, una vez obtenida la secuencia como se ha indicado en el apartado anterior, ve al servidor de predicción:
- Introduce en el buscador “AlphaFoldServer” para llegar a http://alphafoldserver.com/
- Usa tu cuenta de Google para acceder.
- Elige “protein” como tipo de molécula.
- Pega la secuencia conseguida anteriormente; elimina cualquier salto de línea y los espacios que pueda haber.
- Pulsa en Continuar y espera hasta que se complete el cálculo.
Pulsando en la tarea (dentro del listado de consultas enviadas) se mostrará el modelo tridimensional de la estructura. De nuevo, el coloreado es muy importante, pero no se hace patente su significado ni los datos de pLDDT.
Para guardar el resultado hay un enlace Download y también se puede acceder desde el listado de consultas enviadas (menú que se despliega en el icono de 3 puntos a la derecha). En este caso la descarga es un archivo zip que contiene varios modelos, todos en formato mmCIF. Normalmente nos bastará con extraer el que termina en model_0.cif (ésta es la predicción con mayor puntuación).
Al igual que en el servidor ESM, tendremos que procesar un poco el archivo si queremos examinar los valores pLDDT o mostrarlos coloreando el modelo tridimensional.
Visualización y análisis de los archivos descargados
Como he mencionado, la mayoría de programas de visualización en modo local no son capaces de interpretar los valores pLDDT de cada átomo. Éstos se graban en la ubicación del archivo dedicada al valor del B-factor, coloquialmente denominado “temperatura”. La definición original de este dato refleja la incertidumbre en la posición del átomo obtenida del análisis de los datos experimentales (difracción con rayos X de la proteína cristalizada, o resultado de la resonancia magnética nuclear, o de otras técnicas de resolución de las coordenadas). Como tal, el valor varía entre 0 y 100 (en la práctica quizás entre 10 y 90), con mayores valores indicando mayor imprecisión, o mayor movilidad de los átomos, partes más flexibles de la proteína. Los visualizadores suelen leer este dato y colorear en alguna variante de gradiente desde azul (“frío”, poco variable) hasta rojo (“caliente”, más móvil). Desafortunadamente, los resultados pLDDT de la predicción se interpretan al contrario: valores bajos son baja fiabilidad y los altos alta fiabilidad. Para colmo, algunos servidores graban los datos en escala de 0 a 100, mientras que otros lo hacen de 0,0 a 1,0. Además, como hemos mencionado, la parte significativa está por encima de 70, por lo que el gradiente de color tradicional no permite ver bien las diferencias en pLDDT.
A la vista de todo esto, acudí al rescate preparando una utilidad [5] que lee los archivos resultantes de ESMfold y de AlphaFold (DB o Server), los muestra como modelo 3D interactivo y los colorea de acuerdo a los datos pLDTT usando el esquema de colores naranja-amarillo-cian-azul. Además, permite grabar de nuevo el archivo con factores de temperatura recalculados adecuadamente para que se puedan mostrar en otros visualizadores usando el patrón estándar de gradiente “color por temperatura”. Por último, extrae todos los valores pLDDT en una tabla que se puede copiar y guardar con facilidad para un análisis detallado (lo que ya excede el objetivo de esta comunicación).
Nota: ChimeraX tiene una opción para colorear por pLDDT, mediante código (color bfactor palette alphafold y color bfactor palette esmfold). PyMOL lo puede hacer a través de una serie de instrucciones de código (no automatizado) o instalando una extensión del programa [6]. iCn3D tiene una opción directa en el menú Color.
Para quien tenga cierta familiaridad con Proteopedia, procede indicar que en el editor de escenas (SAT) se podrá colorear automáticamente por fiabilidad cualquier archivo que carguemos procedente de AlphaFold, ESMfold o RoseTTaFold, y se incluirá la leyenda de colores bajo el modelo 3D. Además, es también posible obtener una predicción de ESMfold simplemente escribiendo la secuencia dentro del propio SAT (esto es, sin necesidad de acudir al servidor ni de descargar el archivo).
Otros servicios de predicción
Comento tan solo brevemente otros servidores, en general de uso menos simple y, por ello, que serán adecuados sólo para cursos más avanzados o con más tiempo disponible para este tema.
La posibilidad de usar el modelo AlphaFold2 sólo era asequible a través de algunas interfaces llamadas Google Colabs que ejecutan código en la nube y requieren acceder con una cuenta de Google. A mi juicio, no son amigables para los no iniciados. Afortunadamente, como se ha indicado, la versión 3 sí ofrece una accesibilidad sencilla.
Otro algoritmo que se desarrolló independientemente es RoseTTaFold. Se puede utilizar en el servidor Robetta [7]pero requiere registrarse. También hay un servicio de acceso libre proporcionado por NeuroSnap [8], que ofrece la opción de varios algoritmos alternativos.
Corolario
Como ya he mencionado anteriormente, no creo que el mérito de estos métodos de predicción esté en que los estudiantes de una bioquímica básica averigüen la estructura de una proteína, sino más bien en que se acostumbren a las estructuras secundarias y terciarias, las herramientas de visualización, las bases de datos y los servicios de predicción, y acompañen todo ello de un análisis crítico de lo que encuentren. Como muestra, pueden verse los resultados presentados en la Figura 2.
Debe tenerse en cuenta, además, que los servidores gratuitos a menudo limitan el tamaño máximo de la proteína o complejo proteico y, al mismo tiempo, si enviamos polipéptidos pequeños la fiabilidad de la predicción suele ser baja o moderada; esto es lógico, pues el número de interacciones necesarias para estabilizar fuertemente una estructura terciaria es difícil de alcanzar cuando su tamaño es pequeño.

Resultado de la predicción de estructura con diversos algoritmos para el “péptido navideño”, de secuencia MERRYCHRISTMASANDHAPPYNEWYEAR. De izquierda a derecha: ESMfold, AlphaFoldServer, RosettaFold Neurosnap Boltz y RosettaFold Neurosnap Chai. La representación de cintas está hecha con Jmol.
Agradecimientos
Me ha resultado de ayuda para esta presentación la recopilación [9] elaborada por Eric Martz, profesor emérito de la Universidad de Massachussetts Amherst y por largo tiempo experto –y maestro de muchos, incluido el que esto escribe– en la visualización de estructura molecular y su empleo como recurso educativo.
Referencias
- CASP: Critical Assessment of protein Structure Prediction (1994-2024) Protein Structure Prediction Center, https://predictioncenter.org/
- wwPDB, Protein Data Bank, https://pdb.org
- AlphaFoldDB, https://alphafold.ebi.ac.uk
- ESM Metagenomic Atlas, https://esmatlas.com
- A. Herráez (2024) Color protein residues by pLDDT score. https://biomodel.uah.es/Jmol/fold_AI/
-
- (a) Kuen Wu (2023) Color AlphaFold2’s pLDDT. https://kpwulab.com/2023/03/09/color-alphafold2s-plddt/
- (b) UCSF ChimeraX User Guide, https://www.cgl.ucsf.edu/chimerax/docs/user/commands/palettes.html
- (c) Christian Balbin (2021) PyMOL plugin, https://github.com/cbalbin-bio/pymol-color-alphafold
- (d) Bob Schiffrin (2021) PyMOL script, https://github.com/BobSchiffrin/pymol_scripts
- Robetta protein structure prediction service, using RoseTTAFold and TrRosetta. https://robetta.bakerlab.org/
- Neurosnap webserver for accessing RoseTTAFold All-Atom neural network. https://neurosnap.ai/service/RoseTTAFold%20All-Atom 9. How to predict structures with AlphaFold (2024). https://proteopedia.org/w/How_to_predict_structures_with_AlphaFold&oldid=4278539