El cuerpo humano está compuesto por docenas de tejidos diferentes y cientos de tipos celulares. Aunque todos comparten un genotipo común, su expresión génica debe regularse con precisión a muchos niveles para mostrar los distintos fenotipos y funciones. Como postuló por primera vez Crick en 1958, el dogma central de la biología molecular define que la información genética del ADN se copia primero a una molécula de ARN mensajero (ARNm) durante la transcripción, que finalmente codifica la síntesis de proteínas durante la traducción. Durante este proceso de expresión génica, los ribosomas se encargan de traducir la secuencia de ARNm compuesta por 4 nucleótidos (A, C, G, U) en un código químicamente distinto de 20 aminoácidos. En este problema combinatorio, los nucleótidos se agrupan en 43=64 posibles tripletes o codones que se asignan inequívocamente a los 20 aminoácidos. Estas reglas constituyen el código genético (Figura 1), que es universal en todas las formas de vida, con muy pocas excepciones, como por ejemplo los genes mitocondriales o algunas especies particulares.
De los 64 codones, 61 codifican aminoácidos y los otros tres son codones de terminación, que señalan el final de la traducción. Por tanto, de los 20 aminoácidos, 18 pueden estar codificados por dos o más codones, que se denominan sinónimos. Durante el proceso de traducción, las moléculas adaptadoras responsables de reconocer los codones del ARNm y de unir los aminoácidos correspondientes son los ARN de transferencia (ARNt). En la estructura completa del ARNt, tres bases en uno de sus bucles constituyen el anticodón, encargado de emparejarse con el codón complementario (Figura 1). Sin embargo, en el genoma humano sólo hay 46 anticodones diferentes que deben reconocer 61 codones distintos. En consecuencia, algunos codones requieren reglas de emparejamiento de bases distintas de Watson-Crick (emparejamiento de bases wobble), que toleran cierta flexibilidad en la tercera posición del codón. Las modificaciones nucleotídicas de los ARNt desempeñan un papel importante en la determinación de estas reglas de emparejamiento de bases.
Aunque los codones sinónimos conducen a secuencias de aminoácidos idénticas, no están distribuidos uniformemente en el genoma o entre diferentes organismos, es decir, existe un sesgo en el uso de codones (CUB, codon usage bias). El genoma humano tiene un contenido medio de GC del 40,5%, pero este porcentaje aumenta al 51,1% para las secuencias codificantes de proteínas y al 55,3% considerando sólo el contenido de GC en la tercera posición o posición wobble de los codones (GC3), que es la posición variable entre codones sinónimos (Figura 1). Los humanos, como la mayoría de las especies de mamíferos, están por tanto sesgados hacia los codones que terminan en G/C (Figura 2A). Los codones comúnmente utilizados, en su mayoría acabados en G/C, se denominan codones óptimos; el resto se denominan codones raros o no óptimos.
El CUB puede tener un gran impacto en la expresión génica a múltiples niveles: los codones óptimos se asocian con una mayor eficiencia de la traducción y una mayor estructura y estabilidad de los ARNm. De hecho, los cambios en el CUB de genes reporteros en células HeLa muestran diferencias de hasta 46 veces en los niveles de proteína, lo que se ha explotado ampliamente en biotecnología. Por ejemplo, en la expresión de genes heterólogos como las vacunas de ARNm, la optimización de codones se aplica comúnmente para diseñar secuencias que se asemejen al uso de codones de genes altamente expresados del huésped.
El uso de codones regula la proliferación celular
Dado que el CUB afecta a la traducción del ARNm y que existe variabilidad de CUB entre genes, múltiples estudios han propuesto que el CUB puede regular funcionalmente la traducción de genes específicos en determinadas condiciones. Subconjuntos de genes que comparten una función GO común muestran diferencias en CUB, correspondiendo los dos extremos a genes implicados en la proliferación y diferenciación celular (Figura 2B). En particular, los genes de proliferación son ricos en A/T, mientras que los codones que terminan en G/C son abundantes en los genes de diferenciación.
Varios estudios han propuesto la regulación dinámica de la abundancia de los ARNt para coordinar estos cambios en el uso de codones de proliferación (Figura 3A). Por ejemplo, a través del análisis bioinformático de datos de ARNt en tejidos humanos, hemos observado que aquellos tejidos con una mayor tasa de proliferación celular expresan de forma selectiva ARNt con anticodones ricos en A/T. En el caso de proliferación aberrante que constituye el cáncer, existe también una preferencia para el uso de codones ricos en A/T en oncogenes como KRAS, y su eficiencia en la traducción está asociada con una menor supervivencia de los pacientes. Además, una mayor expresión de ARNt con anticodones ricos en A/T (tRNAArg(UCU) o tRNAIle(UAU)) promueven el crecimiento tumoral y la metástasis (Figura 3B).
Estas preferencias en el uso de codones entre tejidos humanos pueden ser especialmente interesantes en biotecnología. A pesar del sesgo global del genoma humano hacia los codones óptimos ricos en G/C, usando datos de proteómica y transcriptómica de tejidos humanos, hemos observado que tejidos como el pulmón o los testículos tienen una mayor tolerancia a los codones raros acabados en A/T. Estas preferencias específicas de tejido se han detectado y demostrado en la expresión de proteínas heterólogas en células humanas y en tejidos in vivo en Drosophila. En consecuencia, la optimización de codones en el diseño de secuencias en biotecnología, como es el caso de las vacunas de ARNm, podría ayudar a crear terapias dirigidas a tejidos más selectivas.
Causas del sesgo de codones
La preferencia por ciertos codones sinónimos sobre otros es un fenómeno observado ampliamente en genes dentro de un genoma, pero también entre especies. Las razones detrás de los patrones distintivos de uso de codones han sido objeto de numerosas investigaciones. En los organismos multicelulares, donde la selección sobre el CUB ha sido debatida extensamente, se ha acumulado evidencia que sugiere que los mecanismos mediados por codones pueden regular la expresión génica. Las explicaciones del CUB incluyen causas mutacionales y selectivas, que no son mutuamente excluyentes. Las causas mutacionales implican diferencias en la tasa de mutación hacia ciertos codones, mientras que las causas selectivas pueden involucrar la eficiencia de la traducción, la estabilidad del ARNm, el procesamiento del ARNm, y la estructura y función de las proteínas.
Conservación y co-regulación de genes con codones ricos en A/T
Los genes enriquecidos en codones terminados en A/T muestran una mayor conservación entre mamíferos y otros vertebrados en comparación con los genes enriquecidos en codones terminados en G/C. Esta conservación sugiere que los genes ricos en A/T tienen una importancia funcional particular que se ha mantenido a lo largo de la evolución. La alta conservación de estos genes indica que los codones acabados en A/T pueden jugar un papel crucial en la regulación de la expresión génica y la formación de complejos proteicos esenciales. Hemos observado que los genes ricos en A/T están más coordinados en su expresión en comparación con los genes G/C. Esta coordinación se manifiesta tanto a nivel general como entre diferentes tejidos y etapas del desarrollo. Los genes ricos en A/T estarían implicados en procesos específicos de expresión espacial y temporal, como la especificidad tisular y el desarrollo ontogenético. En contraste, los genes G/C tienden a estar involucrados en funciones más generales y menos variables, como los genes de mantenimiento celular. Los cambios en la expresión de los tRNAs específicos que leen los codones terminados en A/T están vinculados a esta coordinación.
Esta diferencia en la regulación refleja la necesidad de una expresión finamente ajustada de los genes A/T en contextos celulares específicos, lo que permite por ejemplo la formación coordinada de complejos proteicos funcionales en los momentos y tejidos adecuados. La coordinación en la expresión de genes A/T es crucial para la formación de complejos proteicos necesarios para funciones celulares específicas. La mayor conservación y coordinación de estos genes sugiere que los codones A/T juegan un papel importante en la regulación de la formación de complejos proteicos.
En los últimos años, se han descubierto nuevas capas de regulación causadas por los codones sinónimos, revelando que lo que antes se consideraba un código silencioso tiene funciones reguladoras. Prevemos que, a medida que se disponga de más datos utilizando las tecnologías más avanzadas, se revelarán nuevas capas de complejidad para explicar el rol del CUB.
Para leer más
- Buccitelli C, Selbach M. mRNAs, proteins and the emerging principles of gene expression control (2020). Nat Rev Genet, 21(10):630-44.
- Gingold H, Tehler D, Christoffersen NR, Nielsen MM, Asmar F, Kooistra SM, Christophersen NS, Christensen LL, Borre M, Sørensen KD, Andersen LD, Andersen CL, Hulleman E, Wurdinger T, Ralfkiær E, Helin K, Grønbæk K, Ørntoft T, Waszak SM, Dahan O, Pedersen JS, Lund AH, Pilpel Y (2014). A dual program for translation regulation in cellular proliferation and differentiation. Cell, 158(6):1281-92.
- Liu Y, Yang Q, Zhao F. Synonymous but Not Silent: The Codon Usage Code for Gene Expression and Protein Folding (2021). Annu Rev Biochem, 90:375-401.
- Iriarte, A, Lamolle, G & Musto, H. Codon Usage Bias: An Endless Tale (2021). J Mol Evol 89, 589–93.