RefSeq (de The Reference Sequence en Inglés) es la base de datos pública de secuencias de ácidos nucleicos (ADN y ARN) y proteínas, anotadas y curadas, del Centro Nacional para la Información Biotecnológica (NCBI).[1] RefSeq comenzó a funcionar en el año 2000[2][3] y, a diferencia de GenBank, solo ofrece un registro por cada biomolécula, ya sea ADN, ARN o proteína, para los organismos más relevantes desde virus hasta bacterias y eucariotas. Para cada organismo modelo, RefSeq guarda registros separados y enlazados para el ADN genómico, los transcritos y las proteínas resultantes de estos. Esta base de datos está limitada a los organismos más importantes, para los que hay disponible la suficiente información (121 461 organismos diferentes a fecha de julio de 2022),[4] mientras que GenBank incluye secuencias para cualquier organismo subido a la base de datos (aproximadamente 504 000 especies formalmente descritas).[5]
RefSeq | ||
---|---|---|
![]() | ||
Tipo | Base de datos de secuencias genómicas curadas y no redundantes | |
Sede central | Centro Nacional para la Información Biotecnológica (NCBI) | |
Sitio web | https://www.ncbi.nlm.nih.gov/RefSeq | |
RefSeq incluye diferentes tipos de datos, con diferentes orígenes, por lo que es necesario establecer categorías e identificadores para cada uno. Las categorías más importantes en RefSeq son:
Categoría | Descripción |
---|---|
NC | Regiones genómicas completas |
NG | Regiones genómicas incompletas |
NM | ARNm |
NR | ARNnc |
NP | Proteína |
XM | Modelo de ARNm (predicción) |
XR | Modelo de ARNnc (predicción) |
XP | Modelo de proteína (predicción de secuencias eucariotas) |
WP | Modelo de proteína (predicción de secuencias procariotas) |
Para más detalles y más categorías, se puede consultar la Tabla 1 en el Capítulo 18 del manual de uso de la base de datos RefSeq.[6]
Varios proyectos para mejorar los servicios de RefSeq se encuentran actualmente en desarrollo por el NCBI, frecuentemente en colaboración con otros centros de investigación como el EMBL-EBI:
Consensus CDS (CCDS): Este proyecto tiene como objetivo la identificación del conjunto central de regiones codificantes de proteínas en humanos y ratones estandarizar genes con una anotación genómica consistente y de alta calidad. Este proyecto fue anunciado en 2009 y actualmente sigue en desarrollo.[7][8]
RefSeq Functional Elements (RefSeqFE): Se centra en describir elementos funcionales que sean regiones reguladores no codificantes: enhancers, silenciadores, regiones de hipersensibilidad a la DNasa I, orígenes de replicación del ADN etc.). El alcance de este proyecto está actualmente restringido a los genomas humano y murino.[9]
RefSeqGene: El principal objetivo es definir secuencias genómicas para ser usadas como estándares de referencia de genes altamente caracterizados. Secuencias de ARNm, proteínas y cromosomas previamente descritas tienen la desventaja de no incluir coordenadas genómicas de genes cercanos y regiones intrónicas de manera explícita, así como mostrar coordenadas anormalmente grandes y con cambios debido a los cambios introducidos por las sucesivas versiones publicadas del genoma de referencia. El proyecto RefSeqGene pretende eliminar estos errores.[10]
Targeted Loci: Este proyecto recopila marcadores moleculares, especialmente loci de ARN ribosómico y codificantes de proteínas, los cuales son utilizados para análisis filogenéticos e identificación de especies. El alcance de este proyecto incluye secuencias de Archaea, Bacteria y Fungi, accesibles vía consulta en Entrez y BLAST. También incluye secuencias de GenBank para Animales, Plantas y Protistas, accesibles vía consulta en BLAST.[11]
Virus Variation (ViV): Se trata de un repositorio específico de pipelines y herramientas de análisis de datos para obtener y visualizar secuencias de diferentes grupos virales como Influenzavirus, ebolavirus, coronavirus MERS-CoV o el virus del Zika. Se añaden nuevos virus, pipelines, herramientas y más funcionalidades al proyecto regularmente.[12]
RefSeq Select: Este proyecto busca seleccionar conjuntos de datos de transcritos (denominados RefSeq Select), que sean los más representativos de cada gen codificante de proteínas según múltiples criterios: uso previo en bases de datos clínicos, expresión del transcrito, región conservada evolutivamente etc. Muchos genes en RefSeq son representados por múltiples transcritos/proteínas debido al proceso biológico del splicing alternativo. Este nivel de complejidad es problemático para estudios de genómica comparativa o análisis de variantes genéticas de interés clínico.[13]
MANE (Matched Annotation from the NCBI and EMBL-EBI): Es un proyecto colaborativo entre el NCBI y EMBL-EBI, cuyo principal proyecto es definir un conjunto de transcritos y sus proteínas para todos los genes codificantes de proteínas en el genoma humano. Se busca reducir las diferencias entre los sistemas de anotación de RefSeq y Ensembl/GENCODE. En este proyecto se identifican una serie de transcritos MANE Select como estándares universales para estudios clínicos y de genómica comparativa y evolutiva. Un segundo de transcritos MANE Plus Clinical también se identifican como transcritos adicionales para reportar variantes clínicas "patogénicas" (P) o "probablemente patogénicas" (LP) disponibles en bases de datos públicas. Este proyecto fue anunciado en 2018 y se espera que finalice en 2022.[14]
Según la versión 213 de RefSeq (julio de 2022), el número de especies representadas en la base de datos, clasificadas en función de su identificadores taxonómicos, es el siguiente:[4]
Identificador taxonómico | Especies |
---|---|
Arqueas | 1443 |
Bacterias | 69122 |
Total | 121461 |
Hongos | 16869 |
Invertebrados | 5715 |
Mitocondria | 13648 |
Plantas | 9177 |
Plásmidos | 6073 |
Plástidos | 9430 |
Protozoos | 746 |
Vertebrados (mamíferos) | 1509 |
Viral | 11620 |
Vertebrados (otro) | 5237 |
Otro | 4 |
El número de registros y pares de bases por cada tipo de molécula en la base de datos es de:[4]
Tipo de molécula | Registros | Pares de bases/residuos |
---|---|---|
Genómica | 40 758 769 | 2,923212393984 × 1012 |
ARN | 45 781 716 | 1,22253022047 × 1011 |
Proteína | 234 520 053 | 9,1290623940 × 1010 |