Mascot

Summary

Mascot es un sistema de software que emplea datos de espectrometría de masas para la identificación de proteínas a partir de bases de datos de secuencias de péptidos en formato FASTA. [1][2]​Es ampliamente utilizado por centros de investigación de todo el mundo. Funciona con un algoritmo de puntuación probabilístico para la identificación de proteínas, este fue adaptado de un algoritmo existente llamado MOWSE. El software está disponible de manera gratuita y de uso libre en el sitio web de Matrix Science. [3]​Sin embargo, se requiere una licencia de pago para su uso de manera privada, en donde se incorporan más funciones y es personalizado.

Mascot
Información general
Tipo de programa Identificación de proteínas Bioinformática
Autor David Perkins y Darryl Pappin
Desarrollador David Perkins
Modelo de desarrollo Código abierto
Lanzamiento inicial 1999
Licencia Gratuita para uso en línea, pago para uso privado
Idiomas Inglés
Versiones
Última versión estable 2.6.0.0 / Diciembre 2016 ()
Archivos editables
Mascot Generic Format
Enlaces
Sitio web oficial

Mascot llegó a revolucionar la manera en la que se hacía la proteómica, ya que fue uno de los primeros softwares desarrollados para la identificación de proteínas a partir de espectros de masas obtenidos por proteómica shotgun. [4]​Surgió a partir de la necesidad de ampliar las limitaciones con las que contaba en aquel entonces el algoritmo MOWSE, el cual solo era aplicable a huellas peptídicas. Además, Mascot permitió el análisis completo de muestras complejas de proteínas de manera directa sin la necesidad de separar unas proteínas de otras para su posterior identificación. [5]

Historia

editar
 
Historia de Mascot (Software)

MOWSE fue uno de los primeros algoritmos desarrollados para la identificación de proteínas utilizando la huella peptídica. [6]​ Se desarrolló originalmente en 1993 como una colaboración entre Darryl Pappin del Fondo Imperial de Investigación del Cáncer (ICRF) y Alan Bleasby del Consejo de Investigación en Ciencia e Ingeniería (SERC). Una de las principales características que diferenciaban a MOWSE de otros algoritmos de identificación de proteínas era la manera en la que generaba una puntuación basada en probabilidad para la identificación. [2]

Además, fue el primero en tener en cuenta la distribución no uniforme de los tamaños de péptidos, causada por la digestión enzimática de una proteína necesaria para el análisis de espectrometría de masas. Sin embargo, este algoritmo solo era aplicable a búsquedas de huellas peptídicas y dependía de bases de datos precompiladas que eran inflexibles respecto a modificaciones postraduccionales y cortes por enzimas distintas a la tripsina. Para superar estas limitaciones, aprovechar los sistemas multiprocesador y añadir funcionalidad de búsqueda no enzimática, David Perkins del Fondo Imperial de Investigación del Cáncer (ICRF) comenzó el desarrollo del software desde cero. Las primeras versiones fueron desarrolladas para sistemas Silicon Graphics Irix y Digital Unix. Finalmente, este software se denominó Mascot y, para llegar a un público más amplio, David Creasy y John Cottrell crearon una empresa de bioinformática externa llamada Matrix Science para desarrollar y distribuir Mascot. Existen versiones de software heredadas para Tru64, Irix, AIX, Solaris, Microsoft Windows NT4 y Microsoft Windows 2000. Mascot ha estado disponible como un servicio gratuito en el sitio web de Matrix Science desde 1999 y ha sido citado en la literatura científica más de 5.000 veces. En la actualidad Matrix Science continúa trabajando para mejorar el funcionamiento del software. [7]

Funcionamiento

editar
 
Funcionamiento del software Mascot

Mascot compara los pesos moleculares obtenidos de los espectrómetros de masa con una base de datos de péptidos conocidos. El programa realiza una digestión in silico de cada proteína en la base de datos de búsqueda especificada, de acuerdo con reglas específicas en función de la enzima de escisión utilizada para la digestión y calcula la masa teórica de cada péptido. Posteriormente, para identificar los péptidos, Mascot calcula la probabilidad de que una coincidencia observada entre los datos experimentales y las secuencias de péptidos encontradas en la base de datos de referencia haya ocurrido por casualidad. La coincidencia con la menor probabilidad de ocurrir por casualidad se devuelve como la coincidencia más significativa. La importancia de la coincidencia depende del tamaño de la base de datos que se está consultando. [8]

Características

editar

Mascot logra la identificación de proteínas mediante la comparación de datos de espectrometría de masas (MS) con bases de datos de secuencias de proteínas. [8]​ Esto lo puede hacer de tres distintas maneras:

  • Búsqueda de huellas peptídicas                                                          

Identifica las proteínas de una lista de picos obtenidos por espectrometría de masas utilizando una técnica conocida como huella peptídica, la cual consiste en la digestión de una proteína por una proteasa, generalmente tripsina, de donde se obtienen los péptidos que la componen, para después determinar la masa exacta de los péptidos mediante espectrometría de masas y finalizando con una comparación de la masa/carga de los fragmentos observados con la masa/carga de una base de datos teórica. [9][10]

  • Consulta de secuencia

Combina datos de la masa de péptidos con la información de su secuencia y composición de aminoácidos que generalmente se obtiene a partir de datos de espectrometría de masas en tándem MS/MS. [3]

Búsqueda de iones MS/MS

Identifica los iones de los fragmentos a partir de datos MS/MS que no fueron interpretados de uno o más péptidos. [11]

Aplicaciones

editar

La identificación y cuantificación de proteínas constituye un proceso crucial en el ámbito de la proteómica, marcado por su complejidad. [12]​Esta metodología se ha establecido como una herramienta en diversas investigaciones científicas, especialmente cuando se combina con enfoques de bioinformática. En el contexto del análisis biológico, es fundamental no solo detectar la existencia de proteínas, sino también evaluar su abundancia relativa, ya que esta información es clave para entender los procesos biológicos y desarrollar alternativas a problemáticas del sector salud y de la industria. [12]

La interfaz de Mascot permite al usuario agregar una base de datos de proteínas únicas a sus servidores en dado caso que el usuario tenga información de proteínas expresadas o con modificaciones post-traduccionales, así como incluir bases de datos personalizadas de múltiples organismos o taxas. [8]​ Además, existen filtros como la comparación taxonómica, donde se establece una taxonomía, y se puede restringir una búsqueda a determinadas especies o grupos de especies.[8][13]​ Esto reduce el tiempo de búsqueda y garantiza que solo se incluyan las proteínas relevantes, sin embargo, esto es dependiente del tipo de análisis que requiera cada usuario que use el programa.[8]

Puntuación

editar
Histograma de puntuación de proteínas de Mascot
Gráfica de densidad de probabilidad

El enfoque fundamental de Mascot para identificar péptidos es calcular la probabilidad de que una coincidencia observada entre datos experimentales y secuencias de péptidos encontradas en una base de datos de referencia haya ocurrido por casualidad. La coincidencia con la menor probabilidad de ocurrir por casualidad se devuelve como la coincidencia más significativa. La significancia de la coincidencia depende del tamaño de la base de datos que se está consultando. Mascot emplea el nivel de significancia ampliamente utilizado de 0.05, lo que significa que en una sola prueba la probabilidad de observar un evento al azar es menor o igual a 1 en 20. En este sentido, una puntuación de 105 podría parecer muy prometedora. Sin embargo, si la base de datos que se está buscando contiene 106 secuencias, se esperarían varias puntuaciones de esta magnitud solo por casualidad porque el algoritmo realizó 106 comparaciones individuales. Para una base de datos de ese tamaño, al aplicar una corrección de Bonferroni para tener en cuenta las comparaciones múltiples, el umbral de significancia cae a 5*10−8.[1]

Además de los puntajes de péptidos calculados, Mascot también estima la tasa de descubrimientos falsos (FDR, del inglés False Discovery Rate) mediante una búsqueda en una base de datos señuelo. Al realizar una búsqueda de señuelo, Mascot genera una secuencia aleatoria de la misma longitud para cada secuencia en la base de datos de destino. La secuencia señuelo se genera de manera que tenga la misma composición promedio de aminoácidos que la base de datos de interés u objetivo, por ejemplo, la base de datos de secuencias de las proteínas del humano. El FDR se estima como la relación entre las coincidencias de la base de datos de señuelos y las coincidencias de la base de datos de objetivo. Esto se relaciona con la fórmula estándar FDR = FP / (FP + TP), donde FP son falsos positivos y TP son verdaderos positivos. Es seguro que las coincidencias entre las masas y las secuencias señuelo sean identificaciones falsas, pero no podemos discriminar entre positivos verdaderos y falsos identificados en la base de datos del objetivo. La estimación de FDR se añadió posteriormente en respuesta a las pautas establecidas posteriormente para la identificación de proteínas.[14]​ El cálculo del FDR de Mascot incorpora ideas de diferentes publicaciones.[15][16]

Limitaciones

editar

El software únicamente es capaz de procesar los datos obtenidos de espectrómetros de masas de las siguientes empresas:

Software Alternativo

editar

Otros programas de identificación de proteínas que emplean espectrometría de masas y bases de datos de secuencias se describen en el artículo Software de espectrometría de masas. Además, existen otros enfoques similares, como el análisis de huellas peptídicas basado en el genoma, que compara las huellas peptídicas obtenidas con todo el genoma en lugar de solo con los genes anotados. Este método tiene el potencial de mejorar la anotación de genomas, así como de identificar proteínas cuyas anotaciones sean incorrectas o incluso no estén anotadas bioinformáticamente.[11]​ En la tabla siguiente, se resumen los softwares de identificación de proteínas más utilizados en la actualidad.

Softwares más utilizados en la actualidad
Nombre Licencia Descripción Tipo de Análisis
Andromeda Gratuita Andromeda es un motor de búsqueda de péptidos basado en la puntuación probabilística. Maneja datos con una precisión de masa de fragmentos, capaz de asignar y puntuar patrones complejos de péptidos altamente fosforilados. Es capaz de trabajar en conjunto con otro software para análisis de grandes conjuntos de datos en un ordenador personal. [17] Búsqueda de datos
MaxQuant Gratuita MaxQuant es un  software de proteómica cuantitativa desarrollado en C#. Permite el análisis de experimentos de proteómica sin etiquetas y basados en SILAC. Además, utiliza el motor de búsqueda Andromeda para la interpretación de los espectros MS/MS. [17][18] Búsqueda de datos
MSFragger Gratuita MSFragger es una herramienta de búsqueda  basada en la indexación eficiente de iones de fragmentos para la identificación de péptidos utilizando bases de datos. Es capaz de realizar búsquedas abiertas (tolerantes a la masa) para el descubrimiento de modificaciones postraduccionales, búsquedas  glicoproteicas ligadas a O y N, búsquedas semi enzimáticas y no enzimáticas, y búsquedas en bases de datos tradicionales. [19] Búsqueda de datos
PEAKS Propietario PEAKS proporciona secuenciación de novo para cada péptido, puntuaciones de confianza en asignaciones individuales de aminoácidos con modo asistido manualmente y secuenciación de novo automatizada LC, con datos procesados a más de 1 espectro por segundo. [20][21] Novo
Proteome Discoverer Propietario PD es usado para análisis de datos de espectrometría de masas y ofrece diversas funciones para identificar y cuantificar proteínas, analizar modificaciones postraduccionales y explorar rutas biológicas.[22] Búsqueda de datos

Referencias

editar
  1. a b Perkins, David N.; Pappin, Darryl J. C.; Creasy, David M.; Cottrell, John S. (1 de diciembre de 1999). «Probability-based protein identification by searching sequence databases using mass spectrometry data». Electrophoresis (en inglés) 20 (18): 3551-3567. ISSN 0173-0835. doi:10.1002/(SICI)1522-2683(19991201)20:18<3551::AID-ELPS3551>3.0.CO;2-2. 
  2. a b Koenig, Thomas; Menze, Bjoern H.; Kirchner, Marc; Monigatti, Flavio; Parker, Kenneth C.; Patterson, Thomas; Steen, Judith Jebanathirajah; Hamprecht, Fred A. et al. (5 de septiembre de 2008). «Robust Prediction of the MASCOT Score for an Improved Quality Assessment in Mass Spectrometric Proteomics». Journal of Proteome Research (en inglés) 7 (9): 3708-3717. ISSN 1535-3893. doi:10.1021/pr700859x. 
  3. a b «Access Mascot for free | Protein identification software for mass spec data». www.matrixscience.com. 
  4. Colino Palomino, Cristina (7 de julio de 2021). Herramientas proteómicas para el análisis y diagnóstico molecular. 
  5. Bessant, Conrad (15 de noviembre de 2016). Proteome Informatics (en inglés). Royal Society of Chemistry. ISBN 978-1-78262-673-2. 
  6. Pappin, D.J.C.; Hojrup, P.; Bleasby, A.J. (1993-06). «Rapid identification of proteins by peptide-mass fingerprinting». Current Biology (en inglés) 3 (6): 327-332. doi:10.1016/0960-9822(93)90195-T. 
  7. «About Matrix Science». www.matrixscience.com. 
  8. a b c d e Matrix Science. (2010). Mascot manual. Proteomics Resource, University of Washington. https://proteomicsresource.washington.edu/mascot/pdf/manual.pdf
  9. Encyclopedia of Bioinformatics and Computational Biology: ABC of Bioinformatics (en inglés). Elsevier. 21 de agosto de 2018. ISBN 978-0-12-811432-2. 
  10. Sánchez, M. L. H., & García, C. G. (2011). La Proteómica, un reto constante en Biomedicina. Encuentros multidisciplinares, 13(38), 2-8. https://www.academia.edu/download/104165427/EM_38_1.pdf
  11. a b Shinoda, Kosaku; Yachie, Nozomu; Masuda, Takeshi; Sugiyama, Naoyuki; Sugimoto, Masahiro; Soga, Tomoyoshi; Tomita, Masaru (29 de octubre de 2006). «HybGFS: a hybrid method for genome-fingerprint scanning». BMC Bioinformatics 7 (1): 479. ISSN 1471-2105. PMC 1643838. PMID 17069662. doi:10.1186/1471-2105-7-479. 
  12. a b Torreblanca, A., & López-Barea, J. (2005). Proteómica: conceptos, desarrollo actual y aplicación en monitorización ambiental. Revista de Toxicología, 22(2), 72-73. https://www.redalyc.org/pdf/919/91922207.pdf
  13. Alvarado, Rafael (1966). «Sistemática, taxonomía, clasificación y nomenclatura». COL-PA 9: 3-8. ISSN 0210-7236. https://www.academia.edu/download/78305561/35660-Texto_del_articulo-35675-1-10-20110613.pdf
  14. Bradshaw, Ralph A.; Burlingame, Alma L.; Carr, Steven; Aebersold, Ruedi (2006-05). «Reporting Protein Identification Data». Molecular & Cellular Proteomics (en inglés) 5 (5): 787-788. doi:10.1074/mcp.E600005-MCP200. 
  15. Elias, Joshua E; Haas, Wilhelm; Faherty, Brendan K; Gygi, Steven P (2005-09). «Comparative evaluation of mass spectrometry platforms used in large-scale proteomics investigations». Nature Methods (en inglés) 2 (9): 667-675. ISSN 1548-7091. doi:10.1038/nmeth785. 
  16. Wang, Guanghui; Wu, Wells W.; Zhang, Zheng; Masilamani, Shyama; Shen, Rong-Fong (1 de enero de 2009). «Decoy Methods for Assessing False Positives and False Discovery Rates in Shotgun Proteomics». Analytical Chemistry (en inglés) 81 (1): 146-159. ISSN 0003-2700. PMC 2653784. PMID 19061407. doi:10.1021/ac801664q. 
  17. a b Cox, Jürgen; Neuhauser, Nadin; Michalski, Annette; Scheltema, Richard A.; Olsen, Jesper V.; Mann, Matthias (2011-04). «Andromeda: A Peptide Search Engine Integrated into the MaxQuant Environment». Journal of Proteome Research (en inglés) 10 (4): 1794-1805. ISSN 1535-3893. doi:10.1021/pr101065j. 
  18. Cox, Jürgen; Mann, Matthias (2008-12). «MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification». Nature Biotechnology (en inglés) 26 (12): 1367-1372. ISSN 1087-0156. doi:10.1038/nbt.1511. 
  19. Kong, Andy T; Leprevost, Felipe V; Avtonomov, Dmitry M; Mellacheruvu, Dattatreya; Nesvizhskii, Alexey I (2017-05). «MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry–based proteomics». Nature Methods (en inglés) 14 (5): 513-520. ISSN 1548-7091. PMC 5409104. PMID 28394336. doi:10.1038/nmeth.4256. 
  20. Ma, Bin; Zhang, Kaizhong; Hendrie, Christopher; Liang, Chengzhi; Li, Ming; Doherty‐Kirby, Amanda; Lajoie, Gilles (30 de octubre de 2003). «PEAKS: powerful software for peptide de novo sequencing by tandem mass spectrometry». Rapid Communications in Mass Spectrometry (en inglés) 17 (20): 2337-2342. ISSN 0951-4198. doi:10.1002/rcm.1196. 
  21. Tannu, Nilesh S; Hemby, Scott E (2007). «De novo protein sequence analysis of Macaca mulatta». BMC Genomics 8 (1): 270. PMC 1965481. PMID 17686166. doi:10.1186/1471-2164-8-270. 
  22. Orsburn, Benjamin C. (23 de marzo de 2021). «Proteome Discoverer—A Community Enhanced Data Processing Suite for Protein Informatics». Proteomes (en inglés) 9 (1): 15. ISSN 2227-7382. PMC 8006021. PMID 33806881. doi:10.3390/proteomes9010015. 

Enlaces externos

editar
  •   Datos: Q1726452