Matriz de pesos posicionales

Summary

Una matriz de pesos posicionales o MPP (en inglés, position weight matrix (PWM), position-specific weight matrix (PSWM) o position-specific scoring matrix (PSSM)) es una forma de representación y predicción de motivos o patrones en secuencias biológicas (compuestas por nucleótidos o aminoácidos) que tiene como objetivo describir las variaciones intrínsecas en sus patrones.

Por este motivo, estas matrices derivan normalmente de un conjunto de secuencias alineadas que se sospecha que se encuentran funcionalmente relacionadas.

Desde su creación, las MPP se han ido adaptando a distintos tipos de secuencias y se han desarrollado múltiples aproximaciones para determinar los parámetros necesarios,[1]​ con lo que han terminado por constituir una parte muy importante de muchas herramientas de software para el descubrimiento de patrones.

Contexto

editar

La matriz de pesos posicionales fue introducida por el genetista americano Gary Stormo en colaboración con sus compañeros en el año 1982,[1][2]​ como alternativa a las secuencias consenso.

 
Gary Stormo dando su discurso de apertura de la ISCB en ISMB/ECCB 2013.

Estas secuencias habían sido empleadas anteriormente para representar patrones en las secuencias biológicas, aunque poseían problemas en la predicción de nuevas ocurrencias de estos patrones.

Las MPP se usan comúnmente para el modelaje de las interacciones específicas entre el ADN y las proteínas.[1]​ Sin embargo, la primera vez que se emplearon estas matrices fue con secuencias de ARN de E. coli, donde se describieron distintos lugares que funcionan como dominios de iniciación de la traducción.[3]

En su creación, el matemático Andrzej Ehrenfeucht propuso el algoritmo perceptrón para que las matrices fueran capaces de diferenciar entre las regiones reales de unión, de aquellas no funcionales que poseen secuencias similares. Se llevó a cabo un entrenamiento del perceptrón con dos conjuntos de regiones que resultó en una matriz y un límite capaz de distinguir entre ambos conjuntos.[2][3]

El uso de la matriz para escanear nuevas secuencias que no forman parte del entrenamiento ha demostrado que este método resulta más sensitivo y preciso que la mejor secuencia consenso existente.[3]

Las ventajas del empleo de las matrices de pesos posicionales sobre las secuencias consenso han hecho de ellas un método popular para representar patrones en secuencias biológicas y un componente esencial en los algoritmos modernos en el descubrimiento de motivos.[4]

Cálculo de la matriz de pesos posicionales (MPP)

editar

Las matrices de pesos posicionales expresan los patrones inherentes a una alineación de secuencias múltiples de un conjunto de secuencias homólogas.

El objetivo es encontrar coincidencias dichas secuencias alineadas y las secuencias de la base de datos, asignando un peso mayor a aquellas posiciones que se encuentran conservadas respecto a aquellas que son variables.[5]

Obtención de matrices de frecuencias

editar

La matriz de pesos posicionales se calcula a partir del conjunto de secuencias homólogas alineadas y tiene una fila por cada símbolo del alfabeto (4 filas para nucleótidos en secuencias de ADN o 20 filas para aminoácidos en secuencias de proteínas) y una columna para cada posición del patrón.

En el siguiente ejemplo, se observan N=10 secuencias alineadas de ADN, con L=9 nucleótidos cada una, para las cuales queremos describir un patrón:[6]

GAGGTAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTATAC
TGTGTGAGT
AAGGTAAGT

Matriz de frecuencias absolutas

editar

El primer paso para construir una matriz de pesos posicionales es crear una matriz de frecuencias absolutas (F). Esta matriz se construye contando las ocurrencias observadas de cada nucleótido en cada posición concreta.

Como se puede observar en el ejemplo, en la posición 1  se han encontrado 3A, 2C,  1G y 4T. Si se realiza el mismo contaje para todas las posiciones se obtendrá la siguiente matriz F de un tamaño de 4x9:

 [6]

 : El número de filas es 4, porque solo existen 4 nucleótidos posibles (A,G,C,T) para cada posición y el número de columnas es 9 porque la longitud de las secuencias utilizadas es de 9 nucleótidos.

Matriz de frecuencias relativas o probabilidades

editar

Para poder interpretar los coeficientes de la matriz como probabilidades, se divide cada frecuencia absoluta entre el número total de secuencias (N) para la obtención de la matriz de frecuencias relativas o probabilidades(P).  

Por ejemplo, para calcular la probabilidad de encontrar una A en la posición 1, se divide la cantidad de A observadas en esa posición (3) entre el número de secuencias totales (10): 3/10 = 0,3 . Este cálculo se realiza para todos los valores de la matriz F y se obtiene la siguiente matriz P:

 [6]

Esta matriz permite calcular, para una secuencia determinada, la probabilidad de encontrar dicha secuencia en la región funcional descrita por la matriz.

Dada la secuencia S = GAGGTAAAC se realiza el siguiente cálculo:

 

Se multiplican los coeficientes de la matriz correspondientes a cada nucleótido de cada posición de la secuencia S. El resultado obtenido se interpreta como que existe una probabilidad de un 0.07% de que la secuencia S se encuentre en un lugar funcional real.

Definición matemática
editar

Cada elemento de la matriz de probabilidad   es igual a la probabilidad de encontrar una letra   en la posición   del patrón. Dado un conjunto de   secuencias alineadas de longitud  , los elementos de la matriz   se calculan como:

 

donde:

  es el número total de secuencias alineadas

 :   hace referencia a dichas secuencias, y toma valores de 1 hasta  

 :   hace referencia a las posiciones dentro de las secuencias, y toma valores desde 1 hasta  .

 :   es una de las letras del alfabeto, en este caso A, C, T o G

  es la probabilidad de encontrar la letra   en la posición  .

  es una función indicatriz en la cual   es la letra correspondiente a la posición   en la secuencia  , y sigue la fórmula:

 , es decir, la función   toma el valor de 1 cuando   es equivalente al valor de  , y el valor de 0 cuando   es diferente de  .

Obtención de la matriz de pesos posicionales

editar

En la mayoría de los casos, los valores de la matriz de pesos posicionales M se calculan mediante logaritmo de la razón de verosimilitud.

Una vez obtenida la matriz de frecuencias relativas o probabilidades, los valores se normalizan según las frecuencias esperadas o probabilidad a priori de   ( ) y se obtiene la razón de verosimilitud. Finalmente esta razón de verosimilitud se transforma a escala logarítmica.

De este modo, los valores que se obtienen representan cómo de frecuente es cada nucleótido en cada posición respecto al azar. Valores superiores a 0 indican una frecuencia mayor a la esperada por azar, mientras que valores inferiores a 0 indican una frecuencia inferior a la esperada por azar.

Para la conversión del valor de A en la primera posición, se debe dividir el elemento de A en la posición 1 de la matriz de frecuencias relativas (0,3) entre la probabilidad a priori de A (0,25): 0,3/0,25=1,2  y posteriormente se transforma mediante el logaritmo neperiano: ln(1,2)=0.18.

Este cálculo se realiza para todos los valores de la matriz F y se obtiene la siguiente matriz M:

 [6]

Comentario: los valores entre paréntesis son negativos, aunque es posible que no se observen debido a un error de visualización.

Dado que se trata de una secuencia de nucleótidos, se asume que la probabilidad esperada al azar es de 0,25. Sin embargo, no siempre existe una distribución uniforme en las unidades de k; por ejemplo, cuando se estudian organismos con una alta composición de CG: en este caso, las probabilidades de C y G serán mayores que las de A y T.

Los valores resultantes de esta matriz permiten calcular una puntuación para una secuencia determinada. Esta puntuación será 0 cuando sea igual de probable encontrar dicha secuencia en la región funcional descrita por la matriz que en cualquier región aleatoria del genoma, mayor que 0 cuando sea más probable encontrar la secuencia en la región funcional que en una región aleatoria y menor que 0 cuando sea más probable encontrar la secuencia en una región aleatoria que en la región funcional.[6]

Dada la secuencia S = GAGGTAAAC, su puntuación se calcularía del siguiente modo:

 

Se suman los coeficientes de la MPP correspondientes a cada nucleótido de cada posición de la secuencia dada. El resultado obtenido es mayor que 0, por lo que es más probable encontrar la secuencia S en un lugar funcional real que en un lugar aleatorio del genoma.

Definición matemática
editar

 

donde   es la matriz de pesos posicionales,   es la matriz de frecuencias relativas o probabilidades y   representa la probabilidad a priori o frecuencias esperadas de las unidades de   (0,25 para la secuencia de nucleótidos y 0,05 para la secuencia de aminoácidos si asumimos una distribución uniforme).

Independencia estadística

editar

Hay que tener en cuenta que todas las matrices asumen una independencia estadística entre las posiciones del patrón, ya que los valores por cada posición se han calculado independientemente del resto de posiciones. Esto puede resultar una limitación en algunos casos[7]​ y se podría rectificar mediante la construcción de matrices más complejas añadiendo dimensiones adicionales que tengan en cuenta las posiciones adyacentes.

Pseudocálculos

editar

Si partimos de una muestra muy pequeña de secuencias, es muy común que aparezcan 0 en la matriz de frecuencias absolutas, lo cual nos lleva a 0 en la matriz de probabilidades y a   en la MPP.

Hay dos razones principales por las que podemos querer evitar estos valores.  Por un lado, el hecho de que en una muestra pequeña algunos nucleótidos no aparezcan en algunas posiciones puede ser debido al azar, y asignarles una probabilidad de 0 puede resultar demasiado severo. Por otro lado, al usar estas matrices en algoritmos informáticos, los valores   pueden resultar problemáticos.

Un modo de evitar estas situaciones es mediante el uso de pseudocálculos. Estos se añaden en el paso de la matriz de frecuencias absolutas a la matriz de frecuencias relativas. Por cada valor de frecuencia absoluta, se obtiene el valor de frecuencia relativa mediante la aplicación de la siguiente fórmula:

 

en la cual   corresponde al valor de la matriz de frecuencias relativas o probabilidades,   corresponde al valor de la matriz de frecuencias absolutas,   corresponde al número de secuencias y   corresponde al valor del pseudocálculo.

No hay un consenso sobre cómo escoger el valor de pseudocálculo más adecuado. Algunos de los métodos más empleados son la regla de Laplace, el uso de distribuciones de Dirichlet o el cálculo de la raíz cuadrada del número de secuencias en la muestra. Por otro lado, el estudio de Nishida et al. concluyó que para el estudio de regiones de unión para factores de transcripción, los pseudocálculos óptimos eran aquellos cercanos a 1 o menores que 1.[8]

 
Ejemplo de un logo de secuencias

Representación gráfica

editar

Las matrices de pesos posicionales pueden representarse en forma de logos de secuencias, los cuales se calculan empleando la fórmula de Shannon. Esta fórmula calcula la informatividad, es decir, la cantidad de información contenida en cada posición.[9]

Usos

editar

Las MPP se emplean de forma muy amplia para el análisis de secuencias de nucleótidos en ADN y ARN, y de aminoácidos en proteínas.[5]

Estos análisis incluyen el modelaje o predicción de los lugares de unión de las proteínas y factores de transcripción en el ADN, las regiones de iniciación de la transcripción, las regiones de splicing,  la identificación de unidades transcripcionales en todo el genoma e incluso la medición de sesgos en el uso de codones.[5][10]

También se pueden utilizar en la discriminación de proteínas con distintos tipos de plegamiento, identificación de sus distintas regiones funcionales y de los diferentes lugares de unión, entre otros.[10]

Las MPP ofrecen muchas ventajas, como por ejemplo, permiten una mayor precisión a la hora de comparar secuencias lejanas alineadas y gracias a los patrones descritos por estas matrices se pueden identificar otras secuencias homólogas y clasificarlas en subfamilias. Además, muchos métodos predictivos de secuencias resultan más fiables si están basados en un alineamiento múltiple de secuencias (como es el caso de las MPP).[5]

Algoritmos y bases de datos

editar

MATCHTM

editar

MatchTM es una herramienta basada en matrices de pesos posicionales para la búsqueda de posibles regiones de unión para factores de transcripción en secuencias de DNA. Esta herramienta emplea la librería de matrices coleccionada en la base de datos TRANSFAC®, de forma que permite la búsqueda de una variedad elevada de diferentes regiones de unión de factores de transcripción.

Adicionalmente, se han implementado diversos conjuntos con valores límites optimizados en el sistema para proveer una variedad ampliada en la rigurosidad de los modos de búsqueda.[11]

ModuleMaster

editar

ModuleMaster es un programa avanzado para encontrar patrones cis-regulatorios en conjuntos de genes co-expresados. Es capaz de recuperar secuencias, realizar escaneos matriciales de estas secuencias y finalmente, buscar dichos patrones de regulación cis.

Este programa es capaz de analizar secuencias regulatorias empleando bases de datos como Ensembl.

En este programa se ha implementado, además,  el algoritmo de escaneo MatchTM.[12]

JASPAR

editar

JASPAR es una base de datos que posee perfiles de unión de factores de transcripción (FT) no redundantes guardados en matrices de frecuencias relativas de múltiples especies eucariotas en 6 grupos taxonómicos. Se encuentra en su octava actualización donde se ha expandido el número de datos en un 18%.[13]

PROSITE

editar

PROSITE es una base de datos que contiene entradas donde se describen dominios, familias y regiones funcionales de las proteínas, junto con patrones y perfiles asociados para su identificación. Esta base se complementa con ProRule, que contiene una colección de reglas que permite incrementar el poder discriminatorio mediante la aportación de información adicional de la funcionalidad y estructura de distintos aminoácidos.

Ambas bases de datos se emplean para la anotación de dominios y características de las entradas de UniProtKB/Swiss-Prot.[14]

MEME Suite

editar

MEME Suite no es una base de datos, sino que se trata de un conjunto de herramientas de software para realizar análisis de secuencias basadas en motivos en proteínas, ADN y ARN. El centro de este conjunto de herramientas es el algoritmo MEME que permite encontrar motivos en colecciones de secuencias no alineadas. Desde su descubrimiento en 1994, ha ido creciendo hasta ser empleado en más de 9800 estudios publicados.[15]

Referencias

editar
  1. a b c Stormo, Gary D. (1 de junio de 2013). «Modeling the specificity of protein-DNA interactions». Quantitative Biology (en inglés) 1 (2): 115-130. ISSN 2095-4697. PMC 4101922. PMID 25045190. doi:10.1007/s40484-013-0012-4. Consultado el 19 de diciembre de 2020. 
  2. a b Stormo, Gary D.; Schneider, Thomas D.; Gold, Larry; Ehrenfeucht, Andrzej (11 de mayo de 1982). «Use of the ‘Perceptron’ algorithm to distinguish translational initiation sites in E. coli». Nucleic Acids Research (en inglés) 10 (9): 2997-3011. ISSN 0305-1048. PMC 320670. PMID 7048259. doi:10.1093/nar/10.9.2997. Consultado el 19 de diciembre de 2020. 
  3. a b c Stormo, G. D. (1 de enero de 2000). «DNA binding sites: representation and discovery». Bioinformatics (en inglés) 16 (1): 16-23. ISSN 1367-4803. PMID 10812473. doi:10.1093/bioinformatics/16.1.16. Consultado el 19 de diciembre de 2020. 
  4. Sinha, S. (15 de julio de 2006). «On counting position weight matrix matches in a sequence, with application to discriminative motif finding». Bioinformatics 22 (14): e454-e463. ISSN 1367-4803. doi:10.1093/bioinformatics/btl227. Consultado el 20 de diciembre de 2020. 
  5. a b c d Gromiha, M. Michael (2010). Protein Bioinformatics (en inglés). Elsevier. pp. 29-62. ISBN 978-81-312-2297-3. doi:10.1016/b978-8-1312-2297-3.50002-3. Consultado el 19 de diciembre de 2020. 
  6. a b c d e Guigó, Roderic. «An Introduction to Position Specific Scoring Matrices». bioinformaticaupf.crg.eu. Consultado el 19 de diciembre de 2020. 
  7. Stormo, Gary D. (2015-09). «DNA Motif Databases and Their Uses». Current Protocols in Bioinformatics (en inglés) 51 (1). ISSN 1934-3396. doi:10.1002/0471250953.bi0215s51. Consultado el 20 de diciembre de 2020. 
  8. Nishida, Keishin; Frith, Martin C.; Nakai, Kenta (1 de febrero de 2009). «Pseudocounts for transcription factor binding sites». Nucleic Acids Research (en inglés) 37 (3): 939-944. ISSN 0305-1048. PMC 2647310. PMID 19106141. doi:10.1093/nar/gkn1019. Consultado el 20 de diciembre de 2020. 
  9. Schneider, Thomas D.; Stephens, R. Michael (25 de octubre de 1990). «Sequence logos: a new way to display consensus sequences». Nucleic Acids Research (en inglés) 18 (20): 6097-6100. ISSN 0305-1048. PMC 332411. PMID 2172928. doi:10.1093/nar/18.20.6097. Consultado el 20 de diciembre de 2020. 
  10. a b Xia, Xuhua (20 de noviembre de 2012). «Position Weight Matrix, Gibbs Sampler, and the Associated Significance Tests in Motif Characterization and Prediction». Scientifica (en inglés). doi:10.6064/2012/917540. Consultado el 20 de diciembre de 2020. 
  11. Kel, A. E.; Gößling, E.; Reuter, I.; Cheremushkin, E.; Kel-Margoulis, O. V.; Wingender, E. (1 de julio de 2003). «MATCHTM: a tool for searching transcription factor binding sites in DNA sequences». Nucleic Acids Research (en inglés) 31 (13): 3576-3579. ISSN 0305-1048. PMC 169193. PMID 12824369. doi:10.1093/nar/gkg585. Consultado el 20 de diciembre de 2020. 
  12. Wrzodek, Clemens; Schröder, Adrian; Dräger, Andreas; Wanke, Dierk; Berendzen, Kenneth W.; Kronfeld, Marcel; Harter, Klaus; Zell, Andreas (2010-01). «ModuleMaster: A new tool to decipher transcriptional regulatory networks». Biosystems (en inglés) 99 (1): 79-81. doi:10.1016/j.biosystems.2009.09.005. Consultado el 20 de diciembre de 2020. 
  13. Fornes, Oriol; Castro-Mondragon, Jaime A.; Khan, Aziz; van der Lee, Robin; Zhang, Xi; Richmond, Phillip A.; Modi, Bhavi P.; Correard, Solenne et al. (8 de enero de 2020). «JASPAR 2020: update of the open-access database of transcription factor binding profiles». Nucleic Acids Research (en inglés) 48 (D1): D87-D92. ISSN 0305-1048. PMC 7145627. PMID 31701148. doi:10.1093/nar/gkz1001. Consultado el 20 de diciembre de 2020. 
  14. Sigrist, Christian J. A.; de Castro, Edouard; Cerutti, Lorenzo; Cuche, Béatrice A.; Hulo, Nicolas; Bridge, Alan; Bougueleret, Lydie; Xenarios, Ioannis (1 de enero de 2013). «New and continuing developments at PROSITE». Nucleic Acids Research (en inglés) 41 (D1): D344-D347. ISSN 0305-1048. PMC 3531220. PMID 23161676. doi:10.1093/nar/gks1067. Consultado el 20 de diciembre de 2020. 
  15. Bailey, Timothy L.; Johnson, James; Grant, Charles E.; Noble, William S. (1 de julio de 2015). «The MEME Suite». Nucleic Acids Research (en inglés) 43 (W1): W39-W49. ISSN 0305-1048. PMC 4489269. PMID 25953851. doi:10.1093/nar/gkv416. Consultado el 20 de diciembre de 2020. 

Enlaces externos

editar
  • MatchTM tool (versión pública): http://www.gene-regulation.com/pub/programs.html#match
  • ModuleMaster: http://www.ra.cs.unituebingen.de/software/ModuleMaster/
  • JASPAR database: http://jaspar.genereg.net
  • PROSITE database: http://prosite.expasy.org/
  • MEME Suite: http://meme-suite.org
  •   Datos: Q7233183