Un genoma de referencia (o ensamblaje de referencia de un genoma) es una base de datos digital de secuencias de ácidos nucleicos, creado por científicos como ejemplo representativo del conjunto de genes de un organismo idealizado de una especie. Al ser resultado de un ensamblado de la secuenciación del ADN a partir de un número determinado de donantes, los genomas de referencia no representan con total exactitud el genoma de un organismo individual. En su lugar, un genoma de referencia representa un mosaico haploide de diferentes secuencias de ADN de cada donante. Por ejemplo, el ensamblaje de referencia más reciente para el genoma humano (versión GRCh38/hg38) proviene de >60 bibliotecas genómicas.[1]
Existen genomas de referencia para múltiples especies de virus, bacterias, hongos, plantas y animales. Los genomas de referencia sirven como guía a partir de la cual se construyen los nuevos, permitiendo que estos se ensamblen de manera mucho más barata y rápida que en el primer Proyecto Genoma Humano. Es posible acceder a genomas de referencia a través de diferentes buscadores como Ensembl o UCSC Genome Browser.[2]
La longitud de un genoma puede ser medida de múltiples maneras.
Una manera sencilla de medir la longitud de un genoma es contar el número de pares de bases.[3]
Se denomina golden path a una medida de longitud alternativa que omite las regiones redundantes, tales como los haplotipos y las regiones pseudoautosómicas.[4][5] Se suele combinar toda la información del ensamblado del genoma al superponer la información de la secuenciación sobre un mapa físico del genoma. Esta unidad de medida supone una mejor estimación del aspecto real del genoma, incluyendo los huecos redundantes y siendo un mapa más extenso que el típico ensamblado.[6]
El ensamblado de un genoma de referencia requiere el solapamiento de las lecturas, las cuales se alinean formando cóntigos, regiones contiguas de secuencias consenso.[7] Si existen huecos entre cóntigos, estos pueden ser completados creando scaffolds (en inglés, andamios), mediante una amplificación de los cóntigos por PCR y posterior secuenciación o mediante clonación de cromosomas artificiales bacterianos (BAC).[8][7] Sin embargo, esto no siempre es posible, existiendo múltiples scaffolds en un genoma de referencia.[9] Los scaffolds se pueden clasificar en tres tipos: 1) Posicionados, de los cuales se conoce el cromosoma en el que se encuentran, coordenadas dentro de este y orientación; 2) No localizados, de los que solo se conoce el cromosoma, pero no las coordenadas ni la orientación; 3) No posicionados, cuyo cromosoma tampoco se conoce.[10]
El número de cóntigos y de scaffolds, así como sus longitudes medias son parámetros relevantes, junto con muchos otros parámetros, para la evaluación de la calidad de un genoma de referencia ya que informan sobre la continuidad del mapeado final a partir del genoma original. Cuanto menor sea el número de scaffolds por cromosoma hasta que uno solo ocupe un cromosoma entero, mayor será la continuidad del ensamblado.[11][12][13] Otros parámetros relacionados son N50 y L50. El primero se define como la longitud de los cóntigos/scaffolds en la que el 50% del ensamblado se encuentra en fragmentos de esta longitud o mayor, mientras que el segundo es el número de cóntigo/scaffold cuya longitud es N50. Cuanto mayor sea el valor de N50, menor será el de L50, y viceversa, informando de una alta continuidad en el ensamblado.[14][15][16]
Los genomas de referencia humanos y murinos son continuamente mejorados por el Consorcio de Referencia del Genoma (GRC), un grupo de 20 investigadores de diferentes institutos de investigación, incluyendo el Instituto Europeo de Bioinformática, el NCBI, el Sanger Institute y el McDonnell Genome Institute de la Universidad de Washington en San Luis (EE. UU.). El GRC continua mejorando los genomas de referencia, reduciendo los huecos y las regiones infrarrepresentadas en la secuencia de los genomas de referencia.
El primer genoma de referencia humano se extrajo de 13 voluntarios anónimos de Búfalo, Nueva York, los cuales fueron reclutados el domingo 23 de marzo de 1997. Se invitó a los primeros diez hombres y mujeres voluntarios a una reunión con los consejeros genéticos del proyecto para la posterior extracción de sangre. Debido a la metodología de procesamiento de las muestras de ADN, aproximadamente el 80% del genoma de referencia provenía de 8 personas y un hombre, designado como RP11, que contribuyó con el 66% del total. El sistema de grupos sanguíneos ABO difieren entre humanos, pero el genoma de referencia humano solo contiene el alelo O, aunque los otros están anotados.[17][18][19][20][21] En 1999, se logró secuenciar y ensamblar la secuencia del cromosoma 22[22] y en 2001, se publicaron los resultados iniciales del primer ensamblado de referencia para el genoma humano.[23]
Conforme el coste de las tecnología de secuenciación del ADN ha descendido y han surgido otras nuevas para la secuenciación de genoma completo, el número de genomas secuenciado ha aumentado. En muchos casos, personas como James D. Watson, secuenciaron su genoma mediante el método de secuenciación masiva en paralelo (massive parallel sequencing, en inglés).[24][25] La comparativa entre el ensamblaje de referencia (versión NCBI36/hg18) y el genoma de Watson reveló diferencias en 3,3 millones de polimorfismos de un nucleótido único, mientras que aproximadamente el 1,4 % de su ADN no se podía alinear contra ninguna región del genoma de referencia.[21][24] En las regiones de un genoma donde se sabe que existe variabilidad a gran escala en la secuencia, una serie de loci alternativos se ensamblan a lo largo del locus de referencia.
La última versión del genoma de referencia humano, publicada por el Consorcio de Referencia del Genoma, fue GRCh38 en 2017.[27] Esta versión ha recibido varios parches para actualizarla, siendo el último parche GRCh38.p14, publicada en marzo de 2022.[28][29] Esta solo contiene 349 huecos en todo el genoma, lo que supuso un avance importante respecto al primer ensamblaje de referencia, el cual tenía aproximadamente 150 000 huecos.[18] La versión GRCh38 presenta huecos principalmente en regiones correspondientes a telómeros, centrómeros y secuencias largas y repetitivas, estando el mayor hueco situado a lo largo del brazo largo del cromosoma Y, una región de aproximadamente 30 Mb de longitud (~52% de la longitud total del cromosoma Y).[30] El número de bibliotecas genómicas que contribuyen al genoma de referencia ha aumentado de manera constante a lo largo de los años hasta más de 60. Sin embargo, el individuo RP11 sigue suponiendo el 70% del genoma de referencia.[1] Los análisis genómicos de este hombre anónimo sugieren que es de ascendencia afroeuropea.[1] Según el sitio web oficial del GRC, el lanzamiento de la siguiente versión del genoma de referencia humano (versión GRCh39) se encuentra actualmente "pospuesto indefinidamente".[31]
Recientes versiones del genoma de referencia humano:[32]
Versión | Fecha de publicación | Versión equivalente de UCSC |
---|---|---|
GRCh39 | Pospuesto indefinidamente[31] | - |
T2T-CHM13v2.0 | enero 2022 | hs1 |
GRCh38 | Diciembre 2013 | hg38 |
GRCh37 | Febrero 2009 | hg19 |
NCBI36.1 | Marzo 2006 | hg18 |
NCBI35 | Mayo 2004 | hg17 |
NCBI34 | Julio 2003 | hg16 |
El Consorcio Telomere-to-Telomere (T2T)[33][34]es una organización internacional de múltiples grupos de investigación que colaboran en la secuenciación de las regiones restantes del genoma humano, que no pudieron ser secuenciadas en anteriores versiones del genoma publicadas por el GRC. Esta iniciativa surgió en 2019 por parte de investigadores del Instituto Nacional de Investigación del Genoma Humano (NHGRI) y la Universidad de California en Santa Cruz (UCSC).[35]La metodología principal utilizada por este consorcio es la secuenciación de lecturas largas (también denominada secuenciación de tercera generación), aplicando tecnologías patentadas por las compañías Oxford Nanopore, la secuenciación de nanoporos, y PacBio, la secuenciación SMRT.[36][37][38]
En 2022, el Consorcio T2T publicó el primer ensamblaje del genoma humano secuenciado al completo (versión T2T-CHM13), sin huecos en el ensamblado de las secuencias e incluyendo el cromosoma Y completo en su versión 2.0.[37][38][39] El consorcio utilizó métodos rigurosos de ensamblado, limpieza y validación de complejas regiones repetitivas, las cuales son particularmente difíciles de secuenciar.[40] Se utilizó secuenciación de lecturas "extra-largas" (>100 kb) para secuenciar con precisión regiones de secuencias que contienen duplicaciones segmentarias.[41][42] La presencia de estas duplicaciones supone un reto, ya que son especialmente abundantes en el genoma humano en comparación con el de otros organismos, debido a una expansión significativa durante la evolución de los primates.[43][44] Se localizan en regiones peri-centroméricas, en brazos acrocéntricos y en el brazo q del cromosoma Y, donde llega a suponer el 50,4% de toda su secuencia.[45][46]A su vez, se logró identificar múltiples secuencias de genes amplicónicos[47] y de ADN ribosómico,[48] las cuales también son secuencias altamente repetitivas.[37]
El ensamblaje T2T-CHM13 se secuenció a partir del genoma de la línea celular CHM13hTERT, consistente en células haploides de mola hidaitiforme.[49][50][36] Estas células se caracterizan por tener dos copias del mismo genoma parental materno, lo cual provoca que sea esencialmente haploide, con un cariotipo de 46 cromosomas autosómicos y dos cromosomas X.[36] Esto elimina la variación alélica y mejora la precisión de la secuenciación.[41]El hecho de que la línea celular CHM13hTERT no contenga un cromosoma Y supuso que este no estaba incluido en las primeras versiones de genoma publicados por el consorcio T2T.[35][51]Para solucionar esto, los investigadores optaron por secuenciar el cromosoma Y de otra línea celular, la HG002 (también denominada NA24385), con los mismos métodos y sumar todos los resultados en un único ensamblaje de referencia del genoma humano.[38][52][39]
T2T-CHM13 incluye nuevas secuencias del genoma, de una longitud aproximada de 225 Mpb en comparación con GRCh38.[53] Mediante anotación funcional comparada con la base de datos GENCODE, se identificaron 64 187 genes, de los cuales 3 714 eran exclusivos del ensamblaje T2T-CHM13; 181 de estos genes se predijeron computacionalmente como genes codificantes de proteínas. [37][38] Adicionalmente, esto permite mejorar la anotación funcional de regiones no codificantes de proteínas, tales como los ARNs largos no codificantes, y la anotación epigenómica de perfiles de metilación del ADN y modificaciones de histonas.[53] Como nuevos avances que ha generado el ensamblaje T2T-CHM13, tenemos lo siguiente casos:
La anotación disponible en la base de datos ENCODE de las nuevas secuencias descubiertas en T2T-CHM13 reveló un aumento de marcas de modificaciones de histonas, previamente desconocidas en GRCh38. Muchas de estas se concentran en loci que se conocen actualmente como relevantes en enfermedades de interés y que codifican para grandes familias de genes.[53] Algunos ejemplos son los genes FRG1, relacionado con la distrofia muscular facioescapulohumeral[54]y BOLBA2B, con el autismo;[55]o el locus HLA (también llamado MHC), el cual está relacionado con un amplio espectro de enfermedades, desde inmunitarias[56] hasta neuropsiquiátricas.[57]
El uso de lecturas largas para este nuevo genoma de referencia ha permitido estudiar hasta un 10% (3,18M) de regiones CpG. Un ejemplo práctico es el estudio de líneas celulares como CHM13 y HG002 en donde se establece alta correlación con datos de secuenciación de bisulfito y se identificaron regiones altamente no mapeables en ADN repetitivo, lo que previamente no era posible. [58][53] Estos perfiles de metilación amplían el campo epigenético ya que permite comprender estados de metilación y su funcionalidad en distintas etapas como es el caso de CHM13 que gracias a los nuevos perfiles de metilación se conocen que están estrechamente relacionadas con embriones en etapa de escisión y blastocisto, así como con tejido de trofectodermo.[53]
Bajo el estudio de T2T-CHM13 se destaca el caso de la familia de genes NBPF, relacionada con la expansión cortical humana. El uso de la nueva línea celular permite identificar y ampliar nuevos elementos reguladores asociados a estos genes. Un ejemplo de esto es el descubrimiento de NBPF26 y NBPF10, copias de genes que son parálogos dentro del gen NBPF.[59] Estas copias presentan cambios epigenéticos pasando de marcas activas en tejido cerebral a marcas represivas en neuroblastoma.
La incorporación de T2T-CHM13, permite comprender patrones de metilación de moléculas individuales. Un ejemplo de esto es el estudio del cromosoma X femenino de la nueva línea celular. El cromosoma X femenino se encuentra en distintos estados de hipometilación o hipermetilación. Se encuentran relacionados con la activación (XCa) o inactivación (XCi) de uno de los pares de cromosomas X. Al momento de sufrir estos cambios de metilación para obtener XCi, la línea T2T-CHM13 permite no solo observar todos los patrones de metilación, también permite agruparlas por sus distintos estados de metilación. Dicha información es relevante ya que se puede estudiar enfermedades relacionadas con la desregularización de los satélites.[53]
La versión de referencia proporciona una buena aproximación a una gran parte del genoma de un individuo. Sin embargo, en regiones con una alta diversidad alélica, como en el caso del Complejo Mayor de Histocompatibilidad (CMH) en los humanos o las proteínas urinarias mayores de los ratones, el genoma de referencia puede diferir significativamente entre diferentes individuos.[60][61][62] Debido al hecho de que el genoma de referencia se trata de una sola secuencia de ADN, lo cual le aporta su utilidad como índice o marcador de las características genómicas, esto implica limitaciones en términos de en qué grado representa fielmente el genoma humano y su variabilidad. Por otra parte, la mayoría de las muestras obtenidas para la secuenciación del genoma de referencia pertenecen a individuos de ascendencia europea, siendo estas poblaciones las mejor caracterizadas y estudiadas en detrimento de poblaciones no europeas. En 2010, se comprobó, mediante un ensamblado de novo de genomas extraídos de poblaciones africanas y asiáticas con el genoma de referencia del NCBI (versión NCBI36.3), que estos genomas tenían aproximadamente 5 Mb de secuencias que no alineaban contra ninguna región del genoma de referencia.[63]
Proyectos posteriores al Proyecto Genoma Humano buscan abordar una caracterización más profunda y diversa de la variabilidad genética humana, que el genoma de referencia no es capaz de representar. El Proyecto HapMap, en activo durante el periodo 2002 - 2010, con el propósito de crear un mapa de haplotipos y sus variaciones más comunes entre diferentes poblaciones humanas. Se estudiaron hasta 11 poblaciones de diferente ascendencia, por ejemplo, individuos de etnia Han de China, guyaratís de la India, del pueblo yoruba de Nigeria o japoneses, entre otros.[64][65][66][67] El Proyecto 1000 Genomas, llevado a cabo en el periodo 2008 - 2015, con el objetivo de crear una base de datos que comprenda más del 95 % de las variaciones presentes en el genoma humano y cuyos resultados puedan ser utilizados en estudios de asociación con enfermedades (GWAS) como diabetes, enfermedades cardiovasculares o autoinmunes. Un total de 26 grupos étnicos diferentes fueron estudiados en este proyecto, ampliando el alcance del proyecto HapMap a nuevos grupos étnicos como el pueblo mendé de Sierra Leona, el pueblo vietnamita o el pueblo bengalí.[68][69][70][71] El Proyecto del Pangenoma Humano, el cual entró en su fase inicial en 2019 con la creación del Consorcio de Referencia del Pangenoma Humano, busca crear el mayor mapa de la variabilidad genética humana, tomando como punto de partida los resultados ya obtenidos en proyectos anteriores.[72][73]
Recientes versiones del genoma de referencia de ratón:[32]
Versión | Fecha de publicación | Equivalente versión UCSC |
---|---|---|
GRCm39 | Junio 2020 | mm39 |
GRCm38 | Diciembre 2011 | mm10 |
NCBI37 | Julio 2007 | mm9 |
NCBI36 | Febrero 2006 | mm8 |
NCBI35 | Agosto 2005 | mm7 |
NCBI34 | Marzo 2005 | mm6 |
Desde la finalización del Proyecto Genoma Humano, han surgido múltiples proyectos a escala internacional centrados en generar genomas de referencia para multitud de organismos, tanto organismos modelo (ej.: pez cebra (Danio rerio), pollo (Gallus gallus), Escherichia coli etc.) como otros organismos de interés para la comunidad científica, por ejemplo, especies en peligro de extinción (ej.: arowana asiática (Scleropages formosus) o el bisonte americano (Bison bison)). A fecha de agosto de 2022, de acuerdo con la base de datos del NCBI, hay registrados 71 886 genomas parcial o completa secuenciados y ensamblados de diferentes especies, entre los que se encuentran 676 mamíferos, 590 aves y 865 peces. También son destacables las cifras de 1796 genomas de insectos, 3747 hongos, 1025 plantas, 33 724 bacterias, 26 004 virus y 2040 arqueas.[74] Muchas de estas especies tienen anotación genómica asociada a sus genomas de referencia, que puede ser consultada y visualizada públicamente en navegadores genómicos como los de Ensembl y el UCSC Genome Browser.[75][76]
Algunos ejemplos de estos proyectos son: el Proyecto Genoma del Chimpancé, llevado a cabo en el periodo 2005 - 2013 conjuntamente por el Instituto Broad el Instituto del Genoma McDonnell de la Universidad de Washington en San Luis y que generó los primeros genomas de referencia para 4 subespecies de Pan troglodytes;[77][78] el Proyecto 100K Genomas de Patógenos, iniciado en 2012 con el objetivo de generar una base de datos de genomas de referencia para 100 000 microorganismos patógenos para su uso en la salud pública, detección de brotes infecciosos, agricultura y medioambiente;[79] el Proyecto Earth BioGenome, iniciado en 2018 y que pretende secuenciar y catalogar los genomas de todos los organismos eucariotas de la Tierra para promover proyectos de conservación de la biodiversidad, en conjunto con 50 proyectos afiliados de menor escala como el Proyecto Africa BioGenome o el Proyecto 1000 Genomas de hongos.[80][81][82]