RefSeq (de The Reference Sequence en Inglés) es la base de datos pública de secuencias de ácidos nucleicos (ADN y ARN) y proteínas, anotadas y curadas, del Centro Nacional para la Información Biotecnológica (NCBI).[1] RefSeq comenzó a funcionar en el año 2000[2][3] y, a diferencia de GenBank, solo ofrece un registro por cada biomolécula, ya sea ADN, ARN o proteína, para los organismos más relevantes desde virus hasta bacterias y eucariotas. Para cada organismo modelo, RefSeq guarda registros separados y enlazados para el ADN genómico, los transcritos y las proteínas resultantes de estos. Esta base de datos está limitada a los organismos más importantes, para los que hay disponible la suficiente información (121 461 organismos diferentes a fecha de julio de 2022),[4] mientras que GenBank incluye secuencias para cualquier organismo subido a la base de datos (aproximadamente 504 000 especies formalmente descritas).[5]
RefSeq | ||
---|---|---|
![]() | ||
Tipo | Base de datos de secuencias genómicas curadas y no redundantes | |
Sede central | Centro Nacional para la Información Biotecnológica (NCBI) | |
Sitio web | https://www.ncbi.nlm.nih.gov/RefSeq | |
RefSeq incluye diferentes tipos de datos, con diferentes orígenes, por lo que es necesario establecer categorías e identificadores para cada uno. Las categorías más importantes en RefSeq son:
Categoría | Descripción |
---|---|
NC | Regiones genómicas completas |
NG | Regiones genómicas incompletas |
NM | ARNm |
NR | ARNnc |
NP | Proteína |
XM | Modelo de ARNm (predicción) |
XR | Modelo de ARNnc (predicción) |
XP | Modelo de proteína (predicción de secuencias eucariotas) |
WP | Modelo de proteína (predicción de secuencias procariotas) |
Para más detalles y más categorías, se puede consultar la Tabla 1 en el Capítulo 18 del manual de uso de la base de datos RefSeq.[6]
Varios proyectos para mejorar los servicios de RefSeq se encuentran actualmente en desarrollo por el NCBI, frecuentemente en colaboración con otros centros de investigación como el EMBL-EBI:
Según la versión 213 de RefSeq (julio de 2022), el número de especies representadas en la base de datos, clasificadas en función de su identificadores taxonómicos, es el siguiente:[4]
Identificador taxonómico | Especies |
---|---|
Arqueas | 1443 |
Bacterias | 69122 |
Total | 121461 |
Hongos | 16869 |
Invertebrados | 5715 |
Mitocondria | 13648 |
Plantas | 9177 |
Plásmidos | 6073 |
Plástidos | 9430 |
Protozoos | 746 |
Vertebrados (mamíferos) | 1509 |
Viral | 11620 |
Vertebrados (otro) | 5237 |
Otro | 4 |
El número de registros y pares de bases por cada tipo de molécula en la base de datos es de:[4]
Tipo de molécula | Registros | Pares de bases/residuos |
---|---|---|
Genómica | 40 758 769 | 2,923212393984 × 1012 |
ARN | 45 781 716 | 1,22253022047 × 1011 |
Proteína | 234 520 053 | 9,1290623940 × 1010 |