Contenido | |
---|---|
Descripción | Pfam es una base de datos de dominios de proteínas que proporciona alineaciones utilizando modelos ocultos de Markov (HMM). |
Tipos de datos capturados | Familias de proteínas |
Organismos | Todos |
Contacto | |
Centro de investigación | EBI |
Acceso | |
Sitio web | www.ebi.ac.uk |
URL de descarga | FTP |
2025 | |
Versión | 37.0 |
Pfam es una base de datos de familias de proteínas que incluye su anotación y alineamientos múltiples de secuencias generado por medio de modelos ocultos de Márkov que cubre buena parte de dominios proteicos y familias comunes.[1] Dichos modelo se emplea para buscar secuencias de proteínas de referencia (RF) de UniProtKB y son procesadas mediante el uso del programa HMMER.[2]
Para cada familia en Pfam se puede:
Nótese que una única proteína puede pertenecer a varias familias Pfam.
El propósito de la base de datos Pfam es proporcionar una clasificación completa y precisa de las familias y dominios de proteínas.[3] Originalmente el objetivo de la creación de esta base de datos era tener un método de conservación de información sobre familias de proteínas conocidas para mejorar la eficiencia de la anotación de genomas[4]. La clasificación de las familias de proteínas en Pfam ha sido de gran importancia en las ciencias biológicas debido a su amplia cobertura de proteínas y convenciones de nomenclatura.[5]
La base de datos Pfam es utilizada en la investigación de proteínas específicas para identificar nuevos blancos para la determinación de estructuras, organización de secuencias y para rastrear el origen de alguna proteína.[6] Algunos de los primeros proyectos de secuenciación de genomas, como el humano y el de la mosca (Drosophila melanogaster), utilizaron ampliamente Pfam para la anotación funcional de datos genómicos.[7][8][9]
Actualmente, la base de datos Pfam está alojada en el sitio web de InterPro, este permite a los usuarios enviar secuencias de proteínas o de ADN para buscar coincidencias con familias en la base de datos de Pfam. Si se envían secuencias de ADN, se realiza una traducción en seis marcos de lectura, utilizando cada marco como secuencia problema o query.[10] Pfam sustituye a la búsqueda típica de BLAST, ya que utiliza perfiles de modelos ocultos de Markov, aumentando las coincidencias en sitios conservados, permitiendo una mejor detección de homologías distantes, lo que los hace más adecuados para anotar genomas de organismos sin parientes cercanos bien anotados.[11]
Esta base de datos también se ha utilizado en la creación de otros recursos como iPfam, que cataloga las interacciones dominio-dominio dentro y entre proteínas, basándose en la información de las bases de datos de estructuras y el mapeo de los dominios de Pfam en las estructuras.[12]
Pfam fue fundada en 1995 por Erik Sonnhammer, Sean Eddy y Richard Durbin como una colección de dominios de proteínas comunes que podrían usarse para anotar los genes codificantes de proteínas de animales multicelulares.[4]. Uno de sus principales objetivos en sus inicios fue ayudar en la anotación del genoma de C. elegans[4] El proyecto fue impulsado en parte por la iniciativa 'Mil familias para el biólogo molecular' de Cyrus Chothia en donde había alrededor de 1500 familias diferentes de proteínas, aunque la mayoría de las proteínas caían solo en 1000 de estas[3][13] Objetando esta iniciativa, la base de datos Pfam contiene actualmente 16,306 entradas correspondientes a dominios y familias de proteínas únicos. Sin embargo, muchas de estas familias contienen similitudes estructurales y funcionales que indican un origen evolutivo compartido[3]
Una diferencia importante entre Pfam y otras bases de datos en el momento de su creación fue el uso de dos tipos de alineación para las entradas: una alineación semilla (también llamado seed alignment que es un conjunto representativo de secuencias de proteínas que pertenecen a una misma familia) verificada manualmente y un alineamiento completo construido mediante la alineación de secuencias a un modelo oculto de Markov generado a partir de alineaciones semilla. Esta alineación semilla era más fácil de actualizar conforme se publicaban nuevas versiones de las bases de datos de secuencias, y, por lo tanto, representaba una solución prometedora al problema de cómo mantener la base de datos actualizada a medida que la secuenciación genómica se volvía más eficiente y aumentaba la cantidad de datos que debían procesarse con el tiempo. Una mejora adicional en la velocidad a la que se podía actualizar la base de datos; se produjo en la versión 24.0, con la introducción de HMMER3, que es aproximadamente 100 veces más rápido que HMMER2 y más sensible[6].
Debido a que las entradas en Pfam-A no cubren todas las proteínas conocidas, se estableció un suplemento generado automáticamente llamado Pfam-B, este contenía un gran número de pequeñas familias derivadas de conglomerados producidos por un algoritmo llamado ADDA[14]. Aunque de menor calidad, las familias de Pfam-B podrían ser útiles cuando no se encontraron familias de Pfam-A. Pfam-B se suspendió a partir de la versión 28.0,[15] luego se reintrodujo en la versión 33.1 utilizando un nuevo algoritmo de agrupamiento, MMSeqs2.[16]
Pfam se alojó originalmente en tres sitios espejo en todo el mundo para preservar la redundancia. Sin embargo, entre 2012 y 2014, el recurso Pfam se trasladó a EMBL-EBI, lo que permitió alojar el sitio web desde un dominio (xfam.org), utilizando centros de datos independientes duplicados. Esto permitió la centralización de las actualizaciones y la agrupación con otros proyectos de Xfam como Rfam, TreeFam, iPfam, etc., al tiempo que se conservaba la resiliencia crítica proporcionada por el alojamiento de múltiples centros.[17]
De 2014 a 2016, Pfam se sometió a una reorganización sustancial para reducir aún más el esfuerzo manual involucrado en la curación y permitir actualizaciones más frecuentes.[18] Alrededor de 2022, Pfam se integró en InterPro en el Instituto Europeo de Bioinformática.[19]
La última versión de Pfam, 37.0, se lanzó en junio de 2024 y contiene 21,979 familias. Actualmente se proporciona a través del sitio web de InterPro.
Pfam describe para cada familia
Las entradas pueden ser de varios tipos: familia, dominio, repetición o motivo. Familia es la clase predeterminada, lo que simplemente indica que los miembros están relacionados. Los dominios se definen como una unidad estructural autónoma o una unidad de secuencia reutilizable que se puede encontrar en múltiples contextos proteicos.
Las repeticiones no suelen ser estables de forma aislada, sino que suelen ser necesarias para formar repeticiones en tándem con el fin de formar un dominio o una estructura extendida. Los motivos suelen ser unidades de secuencia más cortas que se encuentran fuera de los dominios globulares.[7]
A partir de la versión 29.0, el 76.1% de las secuencias de proteínas en UniprotKB contenían al menos un dominio Pfam.[18]
Las nuevas familias provienen de una variedad de fuentes, principalmente del Banco de datos de proteínas (Protein Data Bank; PDB) y del análisis de secuencias de proteínas completas para encontrar genes sin impacto de Pfam.[20]
Al realizar una nueva entrada en Pfam esta base de datos trabaja de la siguiente manera:
Para cada familia, un subconjunto representativo de secuencias se alinea con un alineamiento semillas de alta calidad. Las secuencias para el alineamiento de semillas se toman principalmente de pfamseq (una base de datos no redundante de proteínas de referencia con cierta suplementación de UniprotKB)[18].
A continuación, esta alineación de inicialización se utiliza para construir un modelo oculto de Markov mediante HMMER. A continuación, este HMM se busca en bases de datos de secuencias y todos los resultados que alcanzan un umbral de recopilación seleccionado se clasifican como miembros de la familia de proteínas. Posteriormente, la colección de miembros resultante se alinea con el perfil HMM para generar una alineación completa.
Para cada familia, se asigna un límite de recopilación seleccionado manualmente, esto maximiza el número de coincidencias verdaderas para la familia y excluye cualquier coincidencia falsa positiva. Los falsos positivos se estiman observando superposiciones entre los resultados de la familia Pfam que no son del mismo clan. Este límite se utiliza para evaluar si una coincidencia con una familia HMM es lo suficientemente significativa para incluirse en la familia de proteínas. En cada actualización de Pfam, los límites de recolección se reevalúan para evitar superposiciones entre familias nuevas y existentes.[20]
Los dominios de función desconocida (Domains of unknown function: DUF) representan una fracción creciente de la base de datos de Pfam. Las familias se llaman así porque se ha descubierto que se conservan en todas las especies, pero desempeñan un papel hasta ahora no descrito. Cada DUF recién agregado se nombra en orden de adición. Los nombres de estas entradas se actualizan a medida que se identifican sus funciones. Normalmente, cuando se ha determinado la función de al menos una proteína perteneciente a un DUF, se actualiza la función de todo el DUF y se cambia el nombre de la familia. Algunas familias con nombre siguen siendo dominios de función desconocida, y se nombran en base a una proteína representativa, por ejemplo, el dominio YbbR, que en vez de llamarlo simplemente DUF por su función desconocida, adopta el nombre con base a la primera proteína en la que fue observado, en este caso YbbR proteína bacteriana identificada en Escherichia coli. Se espera que el número de DUF continúe aumentando a medida que se continúen identificando secuencias conservadas de función desconocida en los datos de secuencia. Se espera que los DUF eventualmente superen en número a las familias de funciones conocidas[20].
Con el tiempo, tanto la secuencia como la cobertura de residuos (aminoácidos identificados o alineados) han aumentado, y a medida que las familias han crecido, se han descubierto más relaciones evolutivas, lo que permite agrupar a las familias en clanes[6].
Los clanes se introdujeron por primera vez en la base de datos de Pfam en 2005. Son agrupaciones de familias emparentadas que comparten un único origen evolutivo, confirmado por comparaciones estructurales, funcionales, secuenciales y HMM.[3] A partir de la versión 29.0, aproximadamente un tercio de las familias de proteínas pertenecían a un clan[18] Esta porción ha crecido a alrededor de tres cuartas partes en 2019 (versión 32.0).[21]
Para identificar las posibles relaciones entre clanes, los curadores de Pfam utilizan el Programa de Comparación Simple de Resultados (SCOOP), así como la información de Clasificación Evolutiva de Dominios de Proteínas (ECOD),[21] que es una base de datos jerárquica semiautomatizada de familias de proteínas con estructuras conocidas, con familias que se asignan fácilmente a las entradas de Pfam y niveles de homología que generalmente se asignan a los clanes de Pfam.[22]
La curación en bioinformática es el proceso de revisar, validar, corregir y actualizar información en la base de datos, en este sentido la curación comunitaria hace sentido a la colaboración de investigadores, usuarios y desarrolladores a contribuir en la curación de la base de datos.
La conservación de una base de datos tan grande presentaba problemas para mantenerse al día con el volumen de nuevas familias y la información actualizada que debía agregarse. Para acelerar la publicación de la base de datos, los desarrolladores pusieron en marcha una serie de iniciativas para permitir una mayor participación de la comunidad en la gestión de la base de datos.
Un paso crítico para mejorar el ritmo de actualización y mejora de las entradas fue abrir la anotación funcional de los dominios Pfam a la comunidad de Wikipedia en la versión 26.0[20]. Para las entradas ya existentes en Wikipedia, se vincularon a la página de Pfam, y para aquellas que no existían, se invitó a la comunidad a crear una e informar a los curadores, para que se vinculara. Se anticipa que, aunque la comunidad mejorará en gran medida el nivel de anotación de estas familias, algunas seguirán siendo insuficientemente notables para ser incluidas en Wikipedia, en cuyo caso conservarán su descripción original de Pfam. Algunos artículos de Wikipedia cubren varias familias, como el artículo Dedo de zinc. También se ha implementado un procedimiento automatizado para generar artículos basados en datos de InterPro y Pfam, la cual crea una página con información y enlaces a otras bases de datos, así como imágenes disponibles.
Pfam es gestionado por un consorcio internacional de tres grupos. En las versiones anteriores de Pfam, las entradas familiares solo podían modificarse en el sitio de Cambridge, Reino Unido, lo que limitaba la capacidad de los miembros del consorcio para contribuir a la curación del sitio. En la versión 26.0, los desarrolladores adoptaron un nuevo sistema que permitía a los usuarios registrados en cualquier parte del mundo agregar o modificar familias de Pfam[20].
La base de datos Pfam ofrece una variedad de información, que incluye la versión más reciente disponible, esta base de datos también menciona el número total de entradas y clanes que contiene. Dentro de Pfam se pueden obtener datos de varias maneras, cada una de ellas proporciona información específica. En la tabla 1 se detallan los tipos de entradas junto con la información que ofrece cada una de ellas.[23]
Tipo de entrada | Descripción |
---|---|
Búsqueda de secuencia | Permite ingresar una secuencia de una proteína para buscar coincidencias en Pfam, una vez terminada la búsqueda, se muestra el nombre y el ID de la proteína que corresponde a la secuencia ingresada. Además, se proporciona información detallada sobre las familias representativas a las que pertenece esa proteína, los dominios, los residuos conservados y la longitud total de la proteína. |
Ver una entrada de Pfam | Permite consultar una familia de proteínas especifica de Pfam, en esa sección se introduce el código con el que se identifica la familia dentro de Pfam.
En este tipo de entrada se proporciona una descripción general de la familia, incluyendo su función biológica, características principales y una estructura en 3D, además muestra una arquitectura de dominios y un esquema taxonómico que indica en que organismos se encuentra dicha familia. Otra cosa importante que muestra es el perfil de HMM (HHM-logo).[24] |
Ver un clan | Permite consultar información de un clan, para realizar este tipo de entrada se utiliza el ID.
En este apartado en primera instancia se muestra un diagrama de círculos y líneas, los círculos representan una familia de proteínas o bien un dominio asociado con el clan, además cada tamaño del círculo representa la importancia de esa familia dentro del clan, entre más grande más importante se considera. Por otro lado, las líneas muestran la similitud entre las familias o dominios y de igual manera entre más gruesa la línea mayor similitud. Otro punto que se muestra son números sobre las líneas que representan un valor estadístico, entre más inferior mayor importancia en la similitud.[25] |
Ver una secuencia | Permite consultar una secuencia de proteína especifica mediante su código de identificación que proporciona Pfam u otra base de datos, en este tipo de entrada se muestra información de las familias representativas a las que pertenece esa proteína, los dominios, los residuos conservados y la longitud total de la proteína, Además contiene un apartado donde se muestra la secuencia completa de la proteína y las proteínas similares a la ingresada.[24] |
Ver una estructura | Permite observar estructuras de proteínas en tridimensionales asociadas a familias de Pfam, para utilizar este tipo de entrada se utiliza el código de la proteína proporcionado por PDB. |
Búsqueda de palabras clave | Facilita la búsqueda de datos, mediante palabras clave asociadas a las descripciones de las familias de proteínas que se proporcionan en otro tipo de entradas. |
Ir directamente a | Este tipo de entrada permite el acceso directo hacia una sección o función específica del sitio. |
Al realizar la búsqueda los resultados no solo están vinculados con Pfam, sino con otras bases de datos como HAMAP, PANTHER, SMART, PIRSF, SFDL. Estas configuraciones amplían el alcance del análisis lo que permite una anotación más completa y precisa de la secuencia buscada.
Como muestra del uso de Pfam, se usará la hexoquinasa como modelo a evaluar, al ingresar la secuencia o simplemente el nombre de la proteína obtenemos diversos resultados:
En la búsqueda Pfam identifica una o varias familias a las que la proteína pertenece, para la hexoquinasa el resultado principal es la familia PF00349: Hexoquinasa, el resultado proporcionado se muestra en la siguiente imagen resaltado en rojo, mostrado en la Figura 1. Es de destacar que en la búsqueda también se integra la búsqueda en otras bases de datos ya mencionadas.
Al seleccionar el apartado de la familia hexoquinasa nos arroja varios apartados:
Descripción general: este es el apartado general donde se muestra información a grandes rasgos sobre la proteína como el nombre de la proteína, el clan al que pertenece, los autores o curadores que reportan los datos y una breve descripción sobre la proteína.
Este apartado muestra las coincidencias de la búsqueda inicial tal como se muestra en la Figura 2, el resultado muestra el código de la proteína, la especie en donde se encuentra, el gen, y las coincidencias de estructura con AlphaFold.
Al seleccionar las coincidencias con otras especies, el recurso AlphaFold nos muestra un modelo 3D de la proteína en cuestión con la confianza del modelo (Figura 3). La confiabilidad del modelo se interpreta según los valores de Prueba de diferencia de distancia local prevista (PLDDT) de la siguiente manera:
Además, nos proporciona la arquitectura de dominios y familias de la proteína, cada una de las líneas horizontales representa una predicción sobre la función o estructura de la secuencia proteica.
Finalmente se muestra la arquitectura de dominios de una proteína (Figura 4), generada por la base de datos de InterPro.
Confianza: Esta es una escala colorimétrica de la predicción de la estructura tridimensional de la proteína teniendo los mismos valores que la imagen anteriormente presentada.
Familias: Las líneas de esta sección representan la clasificación de esta proteína en familias, en donde “HexokinasE 2” corresponde a una familia que ocupa gran parte de la proteína. El resto de las líneas (color beige) corresponden a clasificaciones similares de otras bases de datos. Ambas se sobreponen lo que indica que diferentes bases de datos coinciden con la relación de familias de esta proteína.
Dominios: cada línea representa un dominio proteico o una unidad funcional que puede ser parte de varias familias. La línea denominada “Hexokinase 2” confirma que la familia identificada corresponde a un dominio funcional. Por otro lado, “Hexokinase 1” corresponde a otro dominio que lleva el mismo nombre y “ASKHA-NBD-HK” corresponde a una superfamilia de enzimas quinasas, finalmente el resto de los dominios representan predicciones, estas se solapan lo que significa que diferentes bases de datos reconocen un dominio en esa área.
En este apartado se presenta la combinación y el orden especifico de dominios funcionales en una secuencia proteica, para la familia PF00349 Hexoquinasa existe una lista de 265 arquitecturas de dominios diferentes que se han encontrado en todas las proteínas que contienen el dominio hexoquinasa. Cada uno de los dominios presenta una descripción, en este caso la primera muestra 13,810 proteínas con una misma arquitectura, además de un diagrama que de una proteína compuesta por dos dominios: "Hexokinase 1" y "Hexokinase 2", cada uno con una longitud de 500 aminoácidos. Si se selecciona alguna de las 13,810 proteínas, la base de datos mostrara la misma información que en el apartado 2.2.
Generalmente la información de taxonomía es proporcionada por Uniprot mostrando la información en un gráfico Sunburst, ilustrado en la Figura 5, en el cual representa de forma visual los niveles de clasificación taxonómica. Cada anillo del centro hacia el exterior representa un nivel de clasificación, en donde el centro representa el origen de la vida siguiendo con los dominios de la vida (Eukaryota, Bacteria, Archaea), finalmente los anillos externos se dividen en clasificaciones más detalladas (reino, filo, clase, orden).[26]
El tamaño de los segmentos es proporcional al número de secuencias de proteínas o al número de especies perteneciente a un grupo taxonómico. La base de datos puede presentar la información taxonómica en forma de tabla/listados y en un árbol. Para cada taxón representado en el grafico se describe el nombre del taxon, el número de secuencias, el número de especies dentro de este taxon y el linaje
Los proteomas son conjuntos completos de proteínas en un organismo, estos proteomas contienen proteínas que coinciden con la familia de las hexoquinasas (PF00349), en este apartado se enlistan organismos que contienen el dominio de la hexoquinasa además de proporcionar el número de proteínas en el proteoma.
Dentro de este apartado se proporciona una lista de estructuras en 3D que se relacionan con la hexoquinasa, la lista incluye el código para cada estructura proporcionado por PDB, muestra el nombre y las coincidencias que son representadas con barras de colores indicando la cantidad de aminoácidos
En esta sección Pfam proporciona un HMM-logo (Figura 6), este contiene varios elementos visuales que ayudan a interpretar la conservación de aminoácidos de un conjunto de secuencias.
Uno de los componentes importantes es el eje “y” (contenido de información en bits): muestra la información conservada en cada posición, cuanto más conservada sea la posición mayor altura del aminoácido, por el contrario, una posición poco conservada tendrá una altura baja. En cuanto al eje “x” (Posición del modelo): muestra la posición dentro del logo, los números de la parte superior indica la region de alineamiento, en este caso va de 24 a 93. Por otro lado, las letras de colores es la representación de los aminoácidos, entre más alta más conservada, como en el caso de la L (Leucina) que está posicionada en la columna 31. Por último, el logo muestra unas cajas en la parte inferior de color azul y rojo, estas representan inserciones y deleciones, que indican que tan comunes son las inserciones o huecos dentro de esa posición.[27]
En este apartado, se presenta un modelo de la proteína en tercera dimensión tal como se muestra en la Figura 3, además se detalla una lista de proteínas que comparten características similares o un dominio funcional, dicha tabla contiene el código de la proteína proveniente de la base de datos generalmente de UniProt, el nombre de la proteína, el organismo en el que se encuentra y por último la longitud de la secuencia, es decir el número total de aminoácidos presentes.
Para la familia de proteínas de la hexoquinasa se muestra una sección de alineamiento múltiple de secuencias de proteínas, estas de alinean para que las columnas muestren residuos de aminoácidos que se cree que son homólogos, lo que significa que comparten un origen evolutivo en común y por ende tienen una función o estructura similar.
Para diferenciar los aminoácidos, estos se muestran en colores representativos llamado sistema Clustal (Figura 7), proporcionando un color según la clasificación de los aminoácidos. Esta alineación de diferentes secuencias permite compararlas en diferentes organismos en donde se evidencia la conservación entre secuencias.
Base de datos | Descripción |
---|---|
PANDIT | Base de datos biológica que cubre los dominios de las proteínas. |
TreeFam | Base de datos de árboles filogenéticos de genes animales. |
TrEMBL | Base de datos que realiza una anotación automatizada de secuencias de proteínas. |
Interpro | Integración de bases de datos de dominios de proteínas y familias de proteínas. |
PDBfam | Asigna los dominios de Pfam a secuencias en el Banco de Datos de Proteínas (PDB). |
ECOD | Es una base de datos que clasifica dominios de proteínas basándose en sus relaciones evolutivas. |
UniProt | Contiene información sobre secuencias y funciones de proteínas, integra Swiss-Prot y TrEMBL. |
SUPERFAMILY | Base de datos que proporciona información estructural y funcional de proteínas y genomas. |
PANTHER | Clasifica proteínas por familias y funciones usando árboles filogenéticos. |
CATH | Clasifica jerárquicamente estructuras de proteínas, proporcionando información sobre las relaciones evolutivas de los dominios. |
SCOP | Clasifica dominios estructurales de proteínas basada en similitudes de estructuras y secuencias de aminoácidos. |
|vauthors=
ignorado (ayuda)
|vauthors=
ignorado (ayuda); Parámetro desconocido |citeseerx=
ignorado (ayuda)
|vauthors=
ignorado (ayuda)