Motivo de secuencia

Summary

En biología molecular, un motivo de secuencia es una secuencia corta de nucleótidos que se presume que desempeña una función biológica concreta, puesto que está altamente conservada entre especies. Estas secuencias pueden ser codificantes o no codificantes, y suelen estar implicadas en la regulación de procesos biológicos como la transcripción, el procesamiento del ARN mensajero y la traducción a proteína.[1]

Logo secuencia del motivo aceptor de splicing 3'.

Con frecuencia, el mecanismo por el cual los motivos de secuencia regulan funciones biológicas es modulando la unión específica de proteínas y complejos proteicos a ácidos nucleicos, tales como enzimas nucleasas y factores de transcripción.[2]

Los motivos de secuencia encapsulan funciones biológicas esenciales para la vida. Su estudio es especialmente relevante tanto para la clasificación de familias de proteínas y generación de relaciones filogenéticas robustas, como para entender en profundidad los procesos moleculares que permiten la vida en la tierra.

Tipos de motivos

editar

En análisis de secuencias, el término "motivo" se utiliza para describir la conservación de subregiones dentro de secuencias de mayor tamaño. Además de los motivos de secuencia, encontramos otros tipos de motivos de dimensiones mayores denominados motivos estructurales, cuyo objeto de estudio son aquellas estructuras tridimensionales cuya conformación espacial está altamente conservada. En este sentido, cabe distinguir los motivos de secuencia de los estructurales:[3]

  • Motivos de secuencia: consisten en secuencias lineales cortas de elementos adyacentes que han evolucionado principalmente de forma independiente al contexto molecular que los rodea. Son especialmente comunes en ácidos nucleicos; algunos ejemplos de motivos de secuencia son: caja TATA, señal de N-glicosilación y sitios de reconocimiento de splicing.[3]
  • Motivos estructurales: estructuras tridimensionales formadas esencialmente por elementos no adyacentes que se han conservado junto a su contexto molecular, dado que su funcionalidad depende directamente de su correcto plegamiento espacial. Tanto las proteínas como los ácidos nucleicos forman supra-estructuras tridimensionales. Ejemplos de motivos estructurales son: las hélice alfa, las regiones transmembrana y los bucles omega.[3]
Motivo Objeto de estudio Ejemplos
Motivo de secuencia
  • Secuencias lineales cortas de nucleótidos adyacentes.
  • Más independientes del contexto estructural.
Motivo estructural
  • Estructuras tridimensionales conservadas.
  • Dependientes del contexto molecular.

Descubrimiento

editar

El descubrimiento de motivos de secuencia fue posible en la década de 1970 debido al desarrollo en técnicas de secuenciación de ácidos nucleicos. En el año 1975, David Pribnow realizó experimentos aislando un fragmento protegido de la RNA polimerasa del bacteriófago T7.[4]​ Este fragmento contenía el punto de iniciación de una molécula de ARN mensajero de T7.  Con estos experimentos, Pribnow descubrió una secuencia específica dentro de los promotores que participaba en la unión de la ADN polimerasa y que estaba conservada entre especies. El descubrimiento de esta secuencia fue un hito en la biología molecular del momento. Los descubrimientos de Pribnow siguen teniendo validez en la actualidad. La secuencia descrita en un principio fue bautizada como caja de Pribnow, y luego pasaría a ser conocida como caja TATA.

A partir de entonces, el descubrimiento de motivos de secuencia ha estado en ascenso, en especial a desde la década de 1990. En particular, la mayoría de las investigaciones de descubrimiento de motivos existentes se centran en motivos de ADN. Con los avances en la secuenciación de alto rendimiento, estos problemas de descubrimiento de los motivos se ven desafiados tanto por los problemas de degeneración del patrón de secuencia como por los problemas de escalabilidad computacional de uso intensivo de datos.

Formas de representación

editar

Los motivos de secuencia se suelen representar de dos formas alternativas: usando expresiones regulares o bien mediante matrices de pesos posicionales.

Expresiones regulares

editar

Las expresiones regulares son grafías una amplían el alfabeto original de ADN formado por A, C, T y G útiles para representar que en una determinada posición del genoma, se produce una co-ocurrencia de nucleótidos. Estas formas de representar variación de pares de bases son especialmente útiles para representar motivos, puesto que a veces no todos los nucleótidos de una secuencia motivo están igual de conservados. En ocasiones los nucleótidos de algunas posiciones se mantienen constantes entre especies, mientras que otras posiciones presentan variaciones. Estas variaciones permiten modular la afinidad con la que se unen complejos proteicos y demás proteínas reguladoras, y otorgan de esta manera versatilidad a los procesos biológicos.

Las expresiones regulares más utilizadas en la representación de secuencias de ADN son las letras mayúsculas " Y " y " R " , que se utilizan para representar posiciones en las que se encuentran 2 nucleótidos distintos. La " Y " simboliza la co-ocurrencia de pirimidinas C y T, mientras que la " R " representa que en esa posición del genoma suelen aparecer los nucleótidos A y G alternativamente. Asimismo, existen expresiones regulares para indicar que en una determinada posición puede aparecer cualquiera de los 4 nucleótidos canónicos, representado con un punto " . ".

Asimismo, existen expresiones regulares para representar aminoácidos en secuencias de proteínas. La colección más grande y completa de motivos de secuencia de la que disponemos hasta el momento se encuentra en la base de datos PROSITE. En esta encontramos una notación que lleva el mismo nombre (notación PROSITE) y que se caracteriza por utilizar los códigos de una letra de establecidos por la IUPAC. Este sistema de grafía incorpora distintas letras del alfabeto para nombrar aminoácidos y utiliza el guion ' - ' como símbolo de concatenación. Entre las características de la sintaxis PROSITE, destacan las siguientes reglas:

  • La letra minúscula " x " se puede utilizar como elemento de patrón para indicar cualquier aminoácido.
  • Una cadena de caracteres extraídos del alfabeto y encerrados entre paréntesis denota cualquier aminoácido excepto los de la cadena. Por ejemplo, {ST} indica cualquier aminoácido distinto de S o T'.
  • Si un patrón está restringido al N-terminal de una secuencia, el patrón tiene el prefijo ' < '.
  • Si un patrón está restringido al C-terminal de una secuencia, el patrón tiene el sufijo ' > '.
  • El carácter ' > ' también puede aparecer dentro de un patrón de corchetes de terminación, de modo que S[T > ] coincida con " ST " y " S > ".
  • Si e es un elemento de patrón, y m y n son dos números enteros decimales con m <= n, entonces:
    • e(m) es equivalente a la repetición de e exactamente m veces; por ejemplo x(3) es equivalente a xxx .
    • e(m,n) es equivalente a la repetición de e exactamente k veces para cualquier entero k satisfaga: m <= k <= n . Un ejemplo de ello sería x(2,4), que indicaría cualquier secuencia que coincida con x-x , x-x-x o bien con x-x-x-x.


Un ejemplo de motivo relevante en la familia de proteínas de unión a ADN llamadas dedos de zinc de tipo C2H2 siguiendo la nomenclatura PROSITE sería la siguiente:

C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

La principal limitación de las expresiones regulares se debe a su naturaleza reduccionista. Al condensar la información de variación de nucleótidos en una representación lineal de caracteres, se pierde la información referente a en qué proporciones aparece cada posible nucleótido. Para capturar esta información a la hora de representar motivos de secuencia, es necesario utilizar matrices de pesos posicionales.

Matrices de pesos posicionales

editar

Una matriz de números que contiene puntuaciones para cada residuo o nucleótido en cada posición de un motivo de longitud fija. Hay dos tipos de matrices de peso.

  • Una matriz de frecuencia de posición (PFM) registra la frecuencia dependiente de la posición de cada residuo o nucleótido. Los PFM se pueden determinar experimentalmente a partir de experimentos SELEX o se pueden descubrir computacionalmente mediante herramientas como MEME utilizando modelos ocultos de Markov.
  • Una matriz de ponderación de posición o matriz de pesos posicionales (PWM) contiene ponderaciones de probabilidades de registro para calcular una puntuación de coincidencia. Se necesita un límite para especificar si una secuencia de entrada coincide con el motivo o no. Los PWM se calculan a partir de PFM.

Para crear una matriz de ponderación de posición (PWM), el primer paso sería crear una matriz de frecuencia de posición básica (PFM), contando cuántas apariciones ha tenido cada nucleótido en cada posición. A partir del PFM, se creará una matriz de probabilidad de posición (PPM), realizando la división entre el recuento de nucleótidos anterior de cada posición, entre el número de secuencias. Esto nos permitirá normalizar los valores.

Dado un conjunto X de N secuencias alineadas de longitud I, los elementos de la matriz M se calculan:

 

donde i   (1,...,N), j   (1,...,l), k es una de las letras del alfabeto (A,C,T,G) e I(a=k) es una función indicatriz en la cual I(a=k) es 1 si a=k; y 0 en caso contrario.

Dadas las siguientes secuencias de ADN:

GAGGTAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTATAC
TGTGTGAGT
AAGGTAAGT

La correspondiente PFM es:

 

A continuación, la matriz de ponderación de posición (PPM) es:[5]

 

Tanto los PPM como los PWM asumen independencia estadística entre las posiciones del patrón. Esto se debe a que las probabilidades para cada posición se calculan independientemente de otras posiciones. De esta manera facilitamos el cálculo de la probabilidad de una secuencia dada una PPM; y esto se realiza multiplicando las probabilidades relevantes en cada posición.

Por ejemplo, la probabilidad de la secuencia S = GAGGTAAAC dado el PPM M anterior se puede calcular:

 

La mayoría de las veces, los elementos de las matrices de pesos posicionales (PWM) se calculan como probabilidades logarítmicas. Se utiliza la matriz de frecuencias relativas obtenida anteriormente y se normalizan sus valores según las frecuencias esperadas.

 

Ante una secuencia de nucleótidos, se asume que la probabilidad esperada de obtener un nucleótido al azar es de 0.25. Al aplicar esta transformación, la matriz obtenida es la siguiente.

 

Cuando se obtienen los resultados del a PWM mediante el uso de probabilidades logarítmicas, la puntuación de la secuencia se obtiene sumando (y no multiplicando) los valores relevantes en cada posición en el PWM.

La puntuación nos dirá cómo se ha de considerar una secuencia en cuanto a su aleatoriedad. Si la puntuación es 0, la secuencia tiene la misma probabilidad de ser un lugar aleatorio que funcional. Si es mayor a 0, tiene más probabilidad de ser un lugar funcional que aleatorio. Si por contra, la puntuación es menor a 0, tendrá más probabilidades de ser un lugar aleatorio que funcional.


 
Logo secuencia del motivo dador de splicing 5'.

Las probabilidades observadas pueden ser representadas gráficamente utilizando logos de secuencias. Este es un tipo de representación cuantitativa de la variabilidad observada entre los elementos de un motivo. Consiste en representar para cada posición del motivo, las letras de los nucleótidos que aparecen. En el eje abcisas (de las x) se representan las diferentes posiciones, mientras que el eje de ordenadas (eje y) recoge la probabilidad de ocurrencia en una escala de 0 a 2 bits, siendo 0 la probabilidad mínima de ocurrencia y 2 la máxima. Se usa un sistema de 2 bits porque es más adecuado para recoger la ocurrencia de letras del alfabeto genético, de 4 letras en total. El tamaño de cada letra es proporcional a la frecuencia de aparición de ese nucleótido en esa posición concreta, tal y como se observa en la figura de al lado. El uso de logos de secuencia está ampliamente extendido en la actualidad dado que representan datos cuantitativos de una manera sencilla de interpretar.

Otra alternativa sería definir los patrones en plazos de un modelo probabilístico, como es el caso de los modelos ocultos de Márkov.

Identificación de secuencias motivo

editar

La importancia en el descubrimiento de motivos nace del crecimiento de las bases de datos de motivos, como TRANSFAC y JASPAR para motivos de ADN; o PROSITE y BLOCKS para motivos proteicos. Aun así, quedan muchos más motivos por descubrir.

Para identificar nuevos motivos, se utilizan cuatro enfoques distintos:[2]

  1. Centrado: Mediante la reunión de un conjunto pequeño de secuencias de ADN no alineado o bien de secuencias proteicas, se buscan patrones sobrerrepresentados en las secuencias respecto a un modelo. Es el enfoque más predominante.
  2. Discriminativo: Se realiza la reunión de dos conjuntos de secuencias y se buscan patrones relativamente sobrerrepresentados en una sola de las entradas.
  3. Filogenético: Se utiliza la información en la conservación de secuencias sobre las secuencias en un solo conjunto de entrada.
  4. Genoma completo: Busca sobrerrepresentaciones y patrones conservados en alineamientos múltiples de dos o más especies.

Ejemplos

editar
 
Logo de secuencia que representa la frecuencia de aparición de los nucleótidos T y A en el motivo Caja TATA que indica el inicio de la transcripción.

Caja TATA

editar

La caja TATA (o TATA box en inglés) es una secuencia de ADN que se sitúa en la región promotora de los genes que indica el lugar de inicio de transcripción. El nombre de esta secuencia fue asignado en reconocimiento a sus descubridores, David Pribnow y Heinz Schaller, en 1975.[6]

Se encuentra casi inalterada en los 3 dominios de la biología (arqueas, bacterias y eucariotas), siendo una de las secuencias de ADN más conservadas en la historia de la evolución.[7]​ Es precisamente debido a su conservación evolutiva que se puede establecer un logo de secuencia para describir los nucleótidos más frecuentes que la conforman, siendo su secuencia canónica: 5'-TATAAA-3'.[8]

Este motivo de secuencia se encuentra entre 25 y 35 pares de bases antes del lugar del inicio de la transcripción. Sirve como sitio de unión tanto a factores de transcripción como a histonas, y requiere de la unión a ARN Polimerasa II para empezar a transcribir.

En lo que respecta al humano, la caja TATA se encuentra presente en un 35% de los genes transcritos con ARN Pol II, es decir, un tercio de los genes humanos requieren de este motivo de secuencia para ser transcritos.[9]

 
Logos de secuencias de motivos de los sitios dador (5') y aceptor (3') de splicing en eucariotas.

Sitios de splicing

editar

El splicing es un proceso que ocurre después de la transcripción del ADN y forma parte de un conjunto de modificaciones que se dan de forma secuencial conocidas como maduración del ARN mensajero, que consisten en la eliminación de ciertos fragmentos para dar lugar al ARN mensajero definitivo que se va a traducir.

Este proceso es muy común en eucariotas, pudiéndose dar en cualquier tipo de ARN (ARNt, ARNr, etc.) aunque es más típico en el ARNm, y también se ha descrito en procariotas y bacteriófagos.[10]

Normalmente, el splicing consiste en descartar los intrones (regiones no codificantes) del ARN inmaduro y unir los exones (regiones codificantes), pero también existe un proceso mediante el cual se pueden descartar exones (splicing alternativo).[11]​ Estos procesos de descarte y unión son posibles gracias a reacciones catalizadas por un complejo molecular llamado espliceosoma, que realiza dos reacciones de transesterificación secuenciales.[12]​ Para que sucedan estas reacciones, es necesario que los intrones empiecen y acaben con unos nucleótidos concretos, con lo cual se han podido describir 2 secuencias consenso: 5'-GT-3' y 5'-AG-3' para el extremo 5' (sitio dador de splicing 5')[13]​ y 3' (sitio aceptor de splicing 3')[14]​ respectivamente.

 
Logo de secuencia del motivo de unión del ribosoma: el codón ATG.

Motivo de inicio de la traducción

editar

El codón de inicio de la traducción hace referencia a una secuencia de ácido nucleico formada por tres nucleótidos (también denominado codón), que sirve como punto de partida para la formación de proteínas. Esto constituye un motivo de secuencia que en el ADN se compone de 5'-ATG-3', aunque es más frecuente verlo escrito en forma de ARN como 5'-AUG-3'.[15]

Este codón no sólo es usado por la célula como señal para empezar la traducción, sino que además es el primer codón traducido, por lo que formará parte del extremo amino terminal de las proteínas eucariotas hasta su procesamiento proteolítico como el aminoácido metionina. En cambio, los procariotas tienen N-formilmetionina en su lugar, consitituyendo una diferencia fundamental entre los códigos genéticos de ambos dominios biológicos. Si bien es cierto que los organismos procariotas suelen contar con más variabilidad en cuanto a los motivos de secuencia del inicio de la traducción, en el caso concreto de Escherichia coli (bacteria de la familia Enterobacteriaceae) se usa en un 83% de los casos el codón 5'-ATG-3', en un 14% el codón 5'-GTG-3' y en un 3% el codón 5'-TTG-3', siendo el primero el más usado con diferencia.[16]


N-glicosilación

editar

La N-glicosilación proteica es un proceso muy conservado en la evolución. Se basa en la modificación de los residuos de Asparagina (Asn) de proteínas con estructuras de oligosacáridos, influyendo así en sus propiedades y actividad. Los lugares de N-glicosilación presentan un patrón de consenso: Asn, seguida por cualquier aminoácido excepto Pro, seguida por Ser o Thr, seguida por cualquier aminoácido excepto Pro, donde las abreviaturas de las letras siguen las nomenclaturas convencionales. Este patrón puede escribirse como:

N - {P} - [ST] - {P}

donde N es el lugar de glicosilación.[17]​ Cabe destacar que la presencia del tripéptido consenso no es suficiente para concluir que un residuo de asparagina está glicosilado, ya que el plegamiento de la proteína juega un papel importante en la regulación de la N-glicosilación.[18][19]

Referencias

editar
  1. D'haeseleer, Patrik (2006-04). «What are DNA sequence motifs?». Nature Biotechnology (en inglés) 24 (4): 423-425. ISSN 1546-1696. doi:10.1038/nbt0406-423. Consultado el 20 de diciembre de 2020. 
  2. a b Keith, Jonathan M., ed. (2008). Bioinformatics. Methods in Molecular Biology™ 452. Humana Press. ISBN 978-1-58829-707-5. doi:10.1007/978-1-60327-159-2. Consultado el 20 de diciembre de 2020. 
  3. a b c Bork, Peer; Koonin, Eugene V (1 de junio de 1996). «Protein sequence motifs». Current Opinion in Structural Biology (en inglés) 6 (3): 366-376. ISSN 0959-440X. doi:10.1016/S0959-440X(96)80057-1. Consultado el 20 de diciembre de 2020. 
  4. Pribnow, D. (1 de marzo de 1975). «Nucleotide sequence of an RNA polymerase binding site at an early T7 promoter.». Proceedings of the National Academy of Sciences 72 (3): 784-788. ISSN 0027-8424. doi:10.1073/pnas.72.3.784. Consultado el 20 de diciembre de 2020. 
  5. Guigo, Roderic. «An Introduction to Position Specific Scoring Matrices». bioinformatica.upf.edu. Consultado el 12 de noviembre de 2013. 
  6. Pribnow, D. (1975-03). «Nucleotide sequence of an RNA polymerase binding site at an early T7 promoter». Proceedings of the National Academy of Sciences of the United States of America 72 (3): 784-788. ISSN 0027-8424. PMID 1093168. doi:10.1073/pnas.72.3.784. Consultado el 20 de diciembre de 2020. 
  7. Patikoglou, Georgia A.; Kim, Joseph L.; Sun, Liping; Yang, Sang-Hwa; Kodadek, Thomas; Burley, Stephen K. (15 de diciembre de 1999). «TATA element recognition by the TATA box-binding protein has been conserved throughout evolution». Genes & Development 13 (24): 3217-3230. ISSN 0890-9369. PMID 10617571. Consultado el 20 de diciembre de 2020. 
  8. Stewart, J. J.; Stargell, L. A. (10 de agosto de 2001). «The stability of the TFIIA-TBP-DNA complex is dependent on the sequence of the TATAAA element». The Journal of Biological Chemistry 276 (32): 30078-30084. ISSN 0021-9258. PMID 11402056. doi:10.1074/jbc.M105276200. Consultado el 20 de diciembre de 2020. 
  9. Granados-Riveron, Javier T.; Aquino-Jarquin, Guillermo (1 de abril de 2015). «The TATA-box motif and its impact on transcriptional gene regulation by miRNAs». Biomolecular Concepts (en inglés) 6 (2): 157-161. ISSN 1868-5021. doi:10.1515/bmc-2015-0004. Consultado el 20 de diciembre de 2020. 
  10. Apirion, D.; Miczak, A. (1993-02). «RNA processing in prokaryotic cells». BioEssays: News and Reviews in Molecular, Cellular and Developmental Biology 15 (2): 113-120. ISSN 0265-9247. PMID 7682412. doi:10.1002/bies.950150207. Consultado el 20 de diciembre de 2020. 
  11. Bush, Stephen J.; Chen, Lu; Tovar-Corona, Jaime M.; Urrutia, Araxi O. (02 05, 2017). «Alternative splicing and the evolution of phenotypic novelty». Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences 372 (1713). ISSN 1471-2970. PMC 5182408. PMID 27994117. doi:10.1098/rstb.2015.0474. Consultado el 20 de diciembre de 2020. 
  12. Fica, Sebastian M.; Tuttle, Nicole; Novak, Thaddeus; Li, Nan-Sheng; Lu, Jun; Koodathingal, Prakash; Dai, Qing; Staley, Jonathan P. et al. (2013-11). «RNA catalyses nuclear pre-mRNA splicing». Nature (en inglés) 503 (7475): 229-234. ISSN 1476-4687. doi:10.1038/nature12734. Consultado el 20 de diciembre de 2020. 
  13. Erkelenz, Steffen; Theiss, Stephan; Kaisers, Wolfgang; Ptok, Johannes; Walotka, Lara; Müller, Lisa; Hillebrand, Frank; Brillen, Anna-Lena et al. (12 2018). «Ranking noncanonical 5' splice site usage by genome-wide RNA-seq analysis and splicing reporter assays». Genome Research 28 (12): 1826-1840. ISSN 1549-5469. PMC 6280755. PMID 30355602. doi:10.1101/gr.235861.118. Consultado el 20 de diciembre de 2020. 
  14. Hujová, Pavla; Grodecká, Lucie; Souček, Přemysl; Freiberger, Tomáš (2019-06). «Impact of acceptor splice site NAGTAG motif on exon recognition». Molecular Biology Reports 46 (3): 2877-2884. ISSN 1573-4978. PMID 30840204. doi:10.1007/s11033-019-04734-6. Consultado el 20 de diciembre de 2020. 
  15. Hinnebusch, Alan G. (08 2017). «Structural Insights into the Mechanism of Scanning and Start Codon Recognition in Eukaryotic Translation Initiation». Trends in Biochemical Sciences 42 (8): 589-611. ISSN 0968-0004. PMID 28442192. doi:10.1016/j.tibs.2017.03.004. Consultado el 20 de diciembre de 2020. 
  16. Blattner, F. R.; Plunkett, G.; Bloch, C. A.; Perna, N. T.; Burland, V.; Riley, M.; Collado-Vides, J.; Glasner, J. D. et al. (5 de septiembre de 1997). «The complete genome sequence of Escherichia coli K-12». Science (New York, N.Y.) 277 (5331): 1453-1462. ISSN 0036-8075. PMID 9278503. doi:10.1126/science.277.5331.1453. Consultado el 20 de diciembre de 2020. 
  17. «PROSITE». prosite.expasy.org (en inglés estadounidense). Consultado el 20 de diciembre de 2020. 
  18. «PROSITE». prosite.expasy.org (en inglés estadounidense). Consultado el 20 de diciembre de 2020. 
  19. Kukuruzinska, M. A.; Lennon, K. (1998). «Protein N-glycosylation: molecular genetics and functional significance». Critical Reviews in Oral Biology and Medicine: An Official Publication of the American Association of Oral Biologists 9 (4): 415-448. ISSN 1045-4411. PMID 9825220. doi:10.1177/10454411980090040301. Consultado el 20 de diciembre de 2020. 
  •   Datos: Q901612