Mascot es un sistema de software que emplea datos de espectrometría de masas para la identificación de proteínas a partir de bases de datos de secuencias de péptidos en formato FASTA. [1][2]Es ampliamente utilizado por centros de investigación de todo el mundo. Funciona con un algoritmo de puntuación probabilístico para la identificación de proteínas, este fue adaptado de un algoritmo existente llamado MOWSE. El software está disponible de manera gratuita y de uso libre en el sitio web de Matrix Science. [3]Sin embargo, se requiere una licencia de pago para su uso de manera privada, en donde se incorporan más funciones y es personalizado.
Mascot | ||
---|---|---|
Información general | ||
Tipo de programa | Identificación de proteínas Bioinformática | |
Autor | David Perkins y Darryl Pappin | |
Desarrollador | David Perkins | |
Modelo de desarrollo | Código abierto | |
Lanzamiento inicial | 1999 | |
Licencia | Gratuita para uso en línea, pago para uso privado | |
Idiomas | Inglés | |
Versiones | ||
Última versión estable | 2.6.0.0 / Diciembre 2016 () | |
Archivos editables | ||
Mascot Generic Format | ||
Enlaces | ||
Sitio web oficial
| ||
Mascot llegó a revolucionar la manera en la que se hacía la proteómica, ya que fue uno de los primeros softwares desarrollados para la identificación de proteínas a partir de espectros de masas obtenidos por proteómica shotgun. [4]Surgió a partir de la necesidad de ampliar las limitaciones con las que contaba en aquel entonces el algoritmo MOWSE, el cual solo era aplicable a huellas peptídicas. Además, Mascot permitió el análisis completo de muestras complejas de proteínas de manera directa sin la necesidad de separar unas proteínas de otras para su posterior identificación. [5]
MOWSE fue uno de los primeros algoritmos desarrollados para la identificación de proteínas utilizando la huella peptídica. [6] Se desarrolló originalmente en 1993 como una colaboración entre Darryl Pappin del Fondo Imperial de Investigación del Cáncer (ICRF) y Alan Bleasby del Consejo de Investigación en Ciencia e Ingeniería (SERC). Una de las principales características que diferenciaban a MOWSE de otros algoritmos de identificación de proteínas era la manera en la que generaba una puntuación basada en probabilidad para la identificación. [2]
Además, fue el primero en tener en cuenta la distribución no uniforme de los tamaños de péptidos, causada por la digestión enzimática de una proteína necesaria para el análisis de espectrometría de masas. Sin embargo, este algoritmo solo era aplicable a búsquedas de huellas peptídicas y dependía de bases de datos precompiladas que eran inflexibles respecto a modificaciones postraduccionales y cortes por enzimas distintas a la tripsina. Para superar estas limitaciones, aprovechar los sistemas multiprocesador y añadir funcionalidad de búsqueda no enzimática, David Perkins del Fondo Imperial de Investigación del Cáncer (ICRF) comenzó el desarrollo del software desde cero. Las primeras versiones fueron desarrolladas para sistemas Silicon Graphics Irix y Digital Unix. Finalmente, este software se denominó Mascot y, para llegar a un público más amplio, David Creasy y John Cottrell crearon una empresa de bioinformática externa llamada Matrix Science para desarrollar y distribuir Mascot. Existen versiones de software heredadas para Tru64, Irix, AIX, Solaris, Microsoft Windows NT4 y Microsoft Windows 2000. Mascot ha estado disponible como un servicio gratuito en el sitio web de Matrix Science desde 1999 y ha sido citado en la literatura científica más de 5.000 veces. En la actualidad Matrix Science continúa trabajando para mejorar el funcionamiento del software. [7]
Mascot compara los pesos moleculares obtenidos de los espectrómetros de masa con una base de datos de péptidos conocidos. El programa realiza una digestión in silico de cada proteína en la base de datos de búsqueda especificada, de acuerdo con reglas específicas en función de la enzima de escisión utilizada para la digestión y calcula la masa teórica de cada péptido. Posteriormente, para identificar los péptidos, Mascot calcula la probabilidad de que una coincidencia observada entre los datos experimentales y las secuencias de péptidos encontradas en la base de datos de referencia haya ocurrido por casualidad. La coincidencia con la menor probabilidad de ocurrir por casualidad se devuelve como la coincidencia más significativa. La importancia de la coincidencia depende del tamaño de la base de datos que se está consultando. [8]
Mascot logra la identificación de proteínas mediante la comparación de datos de espectrometría de masas (MS) con bases de datos de secuencias de proteínas. [8] Esto lo puede hacer de tres distintas maneras:
Identifica las proteínas de una lista de picos obtenidos por espectrometría de masas utilizando una técnica conocida como huella peptídica, la cual consiste en la digestión de una proteína por una proteasa, generalmente tripsina, de donde se obtienen los péptidos que la componen, para después determinar la masa exacta de los péptidos mediante espectrometría de masas y finalizando con una comparación de la masa/carga de los fragmentos observados con la masa/carga de una base de datos teórica. [9][10]
Combina datos de la masa de péptidos con la información de su secuencia y composición de aminoácidos que generalmente se obtiene a partir de datos de espectrometría de masas en tándem MS/MS. [3]
Búsqueda de iones MS/MS
Identifica los iones de los fragmentos a partir de datos MS/MS que no fueron interpretados de uno o más péptidos. [11]
La identificación y cuantificación de proteínas constituye un proceso crucial en el ámbito de la proteómica, marcado por su complejidad. [12]Esta metodología se ha establecido como una herramienta en diversas investigaciones científicas, especialmente cuando se combina con enfoques de bioinformática. En el contexto del análisis biológico, es fundamental no solo detectar la existencia de proteínas, sino también evaluar su abundancia relativa, ya que esta información es clave para entender los procesos biológicos y desarrollar alternativas a problemáticas del sector salud y de la industria. [12]
La interfaz de Mascot permite al usuario agregar una base de datos de proteínas únicas a sus servidores en dado caso que el usuario tenga información de proteínas expresadas o con modificaciones post-traduccionales, así como incluir bases de datos personalizadas de múltiples organismos o taxas. [8] Además, existen filtros como la comparación taxonómica, donde se establece una taxonomía, y se puede restringir una búsqueda a determinadas especies o grupos de especies.[8][13] Esto reduce el tiempo de búsqueda y garantiza que solo se incluyan las proteínas relevantes, sin embargo, esto es dependiente del tipo de análisis que requiera cada usuario que use el programa.[8]
El enfoque fundamental de Mascot para identificar péptidos es calcular la probabilidad de que una coincidencia observada entre datos experimentales y secuencias de péptidos encontradas en una base de datos de referencia haya ocurrido por casualidad. La coincidencia con la menor probabilidad de ocurrir por casualidad se devuelve como la coincidencia más significativa. La significancia de la coincidencia depende del tamaño de la base de datos que se está consultando. Mascot emplea el nivel de significancia ampliamente utilizado de 0.05, lo que significa que en una sola prueba la probabilidad de observar un evento al azar es menor o igual a 1 en 20. En este sentido, una puntuación de 105 podría parecer muy prometedora. Sin embargo, si la base de datos que se está buscando contiene 106 secuencias, se esperarían varias puntuaciones de esta magnitud solo por casualidad porque el algoritmo realizó 106 comparaciones individuales. Para una base de datos de ese tamaño, al aplicar una corrección de Bonferroni para tener en cuenta las comparaciones múltiples, el umbral de significancia cae a 5*10−8.[1]
Además de los puntajes de péptidos calculados, Mascot también estima la tasa de descubrimientos falsos (FDR, del inglés False Discovery Rate) mediante una búsqueda en una base de datos señuelo. Al realizar una búsqueda de señuelo, Mascot genera una secuencia aleatoria de la misma longitud para cada secuencia en la base de datos de destino. La secuencia señuelo se genera de manera que tenga la misma composición promedio de aminoácidos que la base de datos de interés u objetivo, por ejemplo, la base de datos de secuencias de las proteínas del humano. El FDR se estima como la relación entre las coincidencias de la base de datos de señuelos y las coincidencias de la base de datos de objetivo. Esto se relaciona con la fórmula estándar FDR = FP / (FP + TP), donde FP son falsos positivos y TP son verdaderos positivos. Es seguro que las coincidencias entre las masas y las secuencias señuelo sean identificaciones falsas, pero no podemos discriminar entre positivos verdaderos y falsos identificados en la base de datos del objetivo. La estimación de FDR se añadió posteriormente en respuesta a las pautas establecidas posteriormente para la identificación de proteínas.[14] El cálculo del FDR de Mascot incorpora ideas de diferentes publicaciones.[15][16]
El software únicamente es capaz de procesar los datos obtenidos de espectrómetros de masas de las siguientes empresas:
Otros programas de identificación de proteínas que emplean espectrometría de masas y bases de datos de secuencias se describen en el artículo Software de espectrometría de masas. Además, existen otros enfoques similares, como el análisis de huellas peptídicas basado en el genoma, que compara las huellas peptídicas obtenidas con todo el genoma en lugar de solo con los genes anotados. Este método tiene el potencial de mejorar la anotación de genomas, así como de identificar proteínas cuyas anotaciones sean incorrectas o incluso no estén anotadas bioinformáticamente.[11] En la tabla siguiente, se resumen los softwares de identificación de proteínas más utilizados en la actualidad.
Nombre | Licencia | Descripción | Tipo de Análisis |
---|---|---|---|
Andromeda | Gratuita | Andromeda es un motor de búsqueda de péptidos basado en la puntuación probabilística. Maneja datos con una precisión de masa de fragmentos, capaz de asignar y puntuar patrones complejos de péptidos altamente fosforilados. Es capaz de trabajar en conjunto con otro software para análisis de grandes conjuntos de datos en un ordenador personal. [17] | Búsqueda de datos |
MaxQuant | Gratuita | MaxQuant es un software de proteómica cuantitativa desarrollado en C#. Permite el análisis de experimentos de proteómica sin etiquetas y basados en SILAC. Además, utiliza el motor de búsqueda Andromeda para la interpretación de los espectros MS/MS. [17][18] | Búsqueda de datos |
MSFragger | Gratuita | MSFragger es una herramienta de búsqueda basada en la indexación eficiente de iones de fragmentos para la identificación de péptidos utilizando bases de datos. Es capaz de realizar búsquedas abiertas (tolerantes a la masa) para el descubrimiento de modificaciones postraduccionales, búsquedas glicoproteicas ligadas a O y N, búsquedas semi enzimáticas y no enzimáticas, y búsquedas en bases de datos tradicionales. [19] | Búsqueda de datos |
PEAKS | Propietario | PEAKS proporciona secuenciación de novo para cada péptido, puntuaciones de confianza en asignaciones individuales de aminoácidos con modo asistido manualmente y secuenciación de novo automatizada LC, con datos procesados a más de 1 espectro por segundo. [20][21] | Novo |
Proteome Discoverer | Propietario | PD es usado para análisis de datos de espectrometría de masas y ofrece diversas funciones para identificar y cuantificar proteínas, analizar modificaciones postraduccionales y explorar rutas biológicas.[22] | Búsqueda de datos |