Contenido | |
---|---|
Descripción | Recurso bioinformático para descifrar el genoma |
Organismos | Amplia gama de organismos |
Contacto | |
Centro de investigación | Universidad de Kioto |
Laboratorio | Laboratorios Kanehisa |
Cita primaria | PMID 10592173 |
Lanzamiento | 1995 |
Acceso | |
Sitio web | www.kegg.jp
genome.jp/kegg/ |
Servicio web URL | REST – ver KEGG API |
Herramientas | |
Web | KEGG Mapper |
Conocida como KEGG,(Enciclopedia de Genes y Genomas de Kioto) es una colección de bases de datos en línea de genomas, rutas enzimáticas, enfermedades, fármacos y sustancias químicas . La base de datos KEGG puede ser utilizada para la investigación y la educación en bioinformática, incluido el análisis de datos en genómica, metagenómica, metabolómica y otros estudios ómicos, modelado y simulación en biología de sistemas e investigación traslacional en el desarrollo de fármacos. A partir de julio de 2011, KEGG ha cambiado a un modelo de suscripción y el acceso a través de FTP que ya no es gratis.
En la base de datos de KEGG, Kyoto Encyclopedia of Genes and Genomes, fue iniciado por el programa del genoma humano japonés en 1995.[1] Los desarrolladores consideran a KEGG de ser una "representación informática" del sistema biológico.[2] La base de datos KEGG puede ser utilizada para la modelización, simulación, navegación y extracción de datos. Formando parte del enfoque biología de sistemas.
El proyecto de la base de datos KEGG fue iniciado en 1995 por Minoru Kanehisa, profesor del Instituto de Investigación Química de la Universidad de Kioto, en el marco del entonces vigente Programa Japonés del Genoma Humano.[3][4] Previendo la necesidad de un recurso informático que permitiera la interpretación biológica de los datos de secuencias genómicas, comenzó a desarrollar la base de datos KEGG PATHWAY. Se trata de una colección de mapas de vías KEGG dibujados manualmente que representan el conocimiento experimental sobre el metabolismo y otras funciones de la célula y el organismo.
Cada mapa de vías contiene una red de interacciones y reacciones moleculares y fue diseñado para vincular los genes del genoma con los productos génicos (principalmente proteínas) de la vía. Esto permite el análisis denominado mapeo de vías KEGG, mediante el cual el contenido génico del genoma se compara con la base de datos KEGG PATHWAY para examinar qué vías y funciones asociadas probablemente están codificadas en el genoma.
Según sus desarrolladores, KEGG es una «representación informática» del sistema biológico.[5] El elemento integra los componentes básicos y los diagramas de cableado del sistema; más específicamente, los componentes genéticos de genes y proteínas, los componentes químicos de moléculas pequeñas y reacciones, y los diagramas de cableado de las redes de interacción y reacción molecular. Este concepto se materializa en las siguientes bases de datos de KEGG, categorizadas en sistemas, genómica, química e información de salud.
KEGG mantiene cinco bases de datos principales las cuales cuentan con características y funciones diferentes, tal cual se muestra en la siguiente tabla:[6]
Base de datos | ¿Qué es? | ¿Para qué sirve? | Tipo de datos | Aplicaciones principales |
---|---|---|---|---|
KEGG PATHWAY | Base de datos de rutas metabólicas y señalización celular | Visualizar y analizar redes bioquímicas en células | Rutas metabólicas, genes, enzimas, proteínas, y metabolitos. | Análisis funcional de genomas, transcriptomas y metabolomas,proteomas, y vías celulares |
KEGG Atlas | Vista interactiva global de las rutas metabólicas | Explorar gráficamente todo el metabolismo celular | Mapa global basado en KEGG PATHWAY | Visualización integrada de rutas metabólicas; exploración general |
KEGG GENES | Base de datos de genes/proteínas anotados de genomas secuenciados | Consultar funciones génicas, vincular genes con rutas, agrupar por ortología | Genes, proteínas, organismos, anotaciones funcionales | Anotación genómica, análisis comparativo, identificación de ortólogos |
KEGG LIGAND | Conjunto de bases de datos sobre compuestos químicos y sus reacciones | Estudiar metabolitos, reacciones, enzimas y compuestos bioactivos | Moléculas pequeñas, reacciones, enzimas, fármacos | Estudio del metabolismo, interacción droga-enzima, ingeniería metabólica |
KEGG BRITE | Sistema de clasificación jerárquica funcional | Explorar relaciones funcionales y categorías jerárquicas de genes, enzimas, fármacos y enfermedades | Árboles jerárquicos de funciones, roles, familias, clases funcionales | Enriquecimiento funcional, categorización biológica, análisis de sistemas |
En KEGG, la base de datos de diagramas de cableado es considerado su elemento central, ya que articula e integra la información de los demás recursos. Consiste en una colección de mapas de vías que integran diversas entidades, como genes, proteínas, ARN, compuestos químicos, glicanos y reacciones químicas, así como genes relacionados con enfermedades y dianas farmacológicas. Estos mapas se almacenan como entradas individuales en otras bases de datos del sistema.
Los mapas de rutas se clasifican en las siguientes secciones:
La sección de metabolismo incluye mapas globales que permiten una visión general del metabolismo, además de los mapas específicos de rutas metabólicas. Los mapas globales, aunque son de baja resolución, son utilizados, por ejemplo, para comparar las capacidades metabólicas de diferentes organismos en estudios de genómica, así como de distintas muestras ambientales de metagenómica.
En contraste con los mapas globales, los módulos KEGG almacenados en la base de datos KEGG MODULE son diagramas de mayor resolución que describen unidades funcionales específicas dentro de las rutas metabólicas. Estos módulos representan conjuntos de reacciones que están conservadas en determinados grupos taxonómicos, como rutas metabólicas particulares o complejos moleculares.[10]
Los módulos KEGG se definen como conjuntos de genes característicos que se vinculan a funciones metabólicas o fenotípicas específicas. Debido a esto, son herramientas clave para la interpretación automatizada de datos genómicos y metagenómicos, ya que permiten inferir capacidades funcionales directamente a partir de la presencia de genes en un genoma o en un metagenoma.[11]
Una base de datos que complementa a KEGG PATHWAY (Base de datos de rutas KEGG) era KEGG BRITE (Base de datos BRITE de KEGG), una base ontológica que se desarrolla dentro del mismo proyecto KEGG. A diferencia de KEGG PATHWAY, que se enfoca en representar gráficamente rutas metabólicas y redes de señalización mediante interacciones y reacciones moleculares, KEGG BRITE organiza la información de manera jerárquica, permitiendo la clasificación estructurada de genes, proteínas, fármacos, enfermedades, compuestos químicos y otros elementos biológicos.[12]
Además KEGG BRITE proporciona una visión sistemática y funcional de los componentes biológicos a través de árboles jerárquicos y relaciones funcionales entre entidades, lo que facilita su análisis desde una perspectiva más global o comparativa. Por ejemplo, permitiendo agrupar proteínas por familias funcionales, al clasificar fármacos según su mecanismo de acción o vincular genes con enfermedades según su función biológica.[13]
En este sentido, KEGG BRITE complementa a KEGG PATHWAY al añadir una capa adicional de organización conceptual, más centrada en la ontología y la taxonomía funcional, mientras que KEGG PATHWAY se centra en los detalles de las interacciones bioquímicas específicas.
Característica | KEGG PATHWAY | KEGG BRITE |
---|---|---|
Propósito | Describir interacciones moleculares y reacciones bioquímicas | Organizar y clasificar jerárquicamente entidades biológicas |
Enfoque | Rutas bioquímicas y de señalización celular | Clasificación de genes, proteínas, organismos, enfermedades y fármacos |
Ejemplo de uso | Estudiar la glucólisis y cómo las enzimas participan en la conversión de glucosa a piruvato | Explorar las familias de enzimas involucradas en la glucólisis y su relación con enfermedades como la diabetes |
Tipo de relaciones | Interacciones a nivel molecular entre proteínas, metabolitos y enzimas | Relaciones jerárquicas entre entidades como enzimas y enfermedades |
Rasgos complementarios | Aporta una visión específica y detallada de las rutas moleculares | Complementa las rutas al clasificar entidades y mostrar relaciones ontológicas entre ellas |
Varios meses después del inicio del proyecto KEGG en 1995, se publicó el primer genoma bacteriano completamente secuenciado.[15]
Este primer genoma fue el de Haemophilus influenzae, marcando un hito en la biología molecular al ser el primer genoma de una bacteria completamente descifrado. Este logro fue liderado por el Dr. Craig Venter en el Instituto de Investigación Genómica (The Institute for Genomic Research).[16]
Desde entonces, todos los genomas completos publicados, tanto de eucariotas como de procariotas, han sido incorporados a KEGG . La base de datos KEGG GENES contiene información a nivel de genes y proteínas, mientras que KEGG GENOMES recopila información a nivel de organismo para estos genomas.
Organismo / grupo | Cantidad de genes (KEGG GENES) |
Número de genomas (KEGG GENOME) |
---|---|---|
Eucariotas | 57,000,000 | 1,500 |
Procariotas | 35,000,000 | 15,000 |
Total | 92,000,000 | 16,500 |
La base de datos de KEGG GENES (Base de datos de genes KEGG) consiste en un conjunto de genes correspondientes a los genomas completos, y cada gen recibe anotaciones que los vinculan a los diagramas de ruta (KEGG PATHWAY), módulos (KEGG MODULE) y jerarquías de BRITE.
Estas relaciones se establecen utilizando el concepto de ortólogos. Los mapas de rutas de KEEG se elaboran con base en evidencia experimental proveniente de organismos específicos, pero están diseñados para ser aplicables a distintos seres vivos, como humanos, y ratones, que suelen compartir rutas idénticas formadas por genes funcionalmente equivalentes, llamados ortólogos.
Todos los genes de KEGG GENES (Base de datos de genes KEGG) están agrupados de ortólogos dentro de la base de datos KEGG ORTHOLOGY (KO) (Base de datos de ortología KEGG).[17]Debido a que los nodos (es decir, productos génicos) de los mapas de rutas de KEGG, así como los módulos KEGG (Base de datos de módulos KEGG) y las jerarquías BRITE (Base de datos BRITE de KEGG), reciben identificadores KO (Clasificación ortológica de KEGG), se pueden establecer correspondencias automáticas entre estos elementos y los genes presentes en un genoma determinado.[18]
Además de ser una base de datos, KEGG también ofreció herramientas bioinformáticas:
Herramienta | Función principal | Entrada esperada | Ejemplo de uso |
---|---|---|---|
KEGG Mapper | Mapeo de genes, proteínas o compuestos sobre rutas KEGG | Identificadores KO, EC, genes | Visualizar rutas activadas en un transcriptoma diferencial |
BlastKOALA | Anotación funcional de secuencias genómicas o metagenómicas | Secuencias FASTA (de genomas o metagenomas) | Identificar funciones presentes en un nuevo microorganismo |
GhostKOALA | Versión rápida y ligera de BlastKOALA para metagenomas complejos | FASTA de secuencias contigs | Anotar taxonómica y funcionalmente un microbioma intestinal |
KEGGREST | Acceso programado a bases KEGG vía API REST | Scripts en R, Python u otros lenguajes | Descargar información de rutas o compuestos desde un entorno de análisis |
Pathway Reconstruction | Reconstrucción automática de rutas funcionales a partir de genes anotados | Conjunto de genes con anotaciones KO | Predecir capacidades metabólicas en un nuevo organismo |
Una vez que los genes de un genoma determinado se identifican y anotan con los genes de un genoma, se pueden asignar a los ortólogos correspondientes (KO), lo que permite mapear sistemáticamente las capacidades funcionales del organismo dentro del marco KEGG (Enciclopedia de Genes y Genomas de Kioto).
En la parte superior del sistema se encuentra KEGG, que actúa como núcleo integrador de distintas bases de datos biológicas. A partir de este núcleo se ramifican tres bases fundamentales:
Estas tres bases están interconectadas con:
Finalmente, la base de datos KEGG Orthology (KO) funciona como un conector evolutivo y funcional, al agrupar genes ortólogos en conjuntos equivalentes. Esto permite transferir funciones entre especies y realizar análisis automáticos de anotación funcional.[21]
Este sistema se representa comúnmente en forma de diagrama, lo cual ofrece una visión clara de cómo KEGG integra diferentes niveles de información biológica, desde genes individuales hasta rutas metabólicas completas.
Los mapas de vías metabólicas del KEGG se dibujan para representar los dos aspectos de la red metabólica: la red genómica, la cual explica cómo las enzimas codificadas por el genoma se conectan para catalizar reacciones consecutivas, y la red química, que explica cómo las estructuras químicas de los sustratos y productos se transforman mediante estas reacciones.[22][23]
Un conjunto de genes enzimáticos en el genoma se identifica en las redes de relaciones enzimáticas al superponerse a los mapas de las vías de KEGG, que a su vez caracterizan con las redes de transformación de la estructura química, lo que permite interpretar el potencial biosintético y de biodegradación del organismo. Por otro lado, un conjunto de metabolitos identificados en el metaboloma facilitó la comprensión de las vías y los genes enzimáticos implicados.[4]
Las bases de datos de la categoría de información química, denominadas colectivamente KEGG LIGAND, se organizan recopilando el conocimiento de la red química. Al inicio del proyecto KEGG, KEGG LIGAND constaba de tres bases de datos: KEGG COMPOUND especializado en compuestos químicos, KEGG REACTION que engloba las reacciones químicas de los compuestos que aparecen en KEGG COMPOUND, y finalmente KEGG ENZIME para reacciones de carácter enzimático;[24][25] estas bases de datos funcionan de manera similar, solo hace falta introducir uno de los varios nombre de un compuestos de tu interés, reacción química o reacciones de nomenclatura enzimática, y se obtendrá un listado de diferentes compuestos que posean cualquier combinación en su nombre que posea similitud con la búsqueda realizada, desde el compuesto que deseabas (de existir y recibir el nombre que se busco), hasta compuestos con un nombre más complejo; por ejemplo: en el caso de buscar la palabra alcohol en KEGG COMPOUND, aparecerán desde los compuestos más básicos hasta los más complejos que deriven de la combinación de cualquier nombre que posea alcohol, similar a como se muestra en la siguiente tabla de los resultados de búsqueda:[24]
No | Entrada | Estructura | Nombre | Fórmula |
---|---|---|---|---|
1 | Alcohol | R–OH | Alcohol | HOR |
2 | Metanol | H₃C–OH | Metanol Alcohol metílico |
CH₄O |
3 | Alcohol primario | R–CH₂OH | Alcohol primario 1-Alcohol |
CH₃OR |
4 | Alcohol de cadena larga | R–CH₂OH | Alcohol de cadena larga | CH₃OR |
5 | Etanol | H₃C–CH₂OH | Etanol Alcohol etílico Metilcarbinol |
C₂H₆O |
Por otro lado, para KEGG REACTION el proceso de búsqueda es bastante similar, al igual que sus resultados:[26]
No | Entrada | Nombre | Ecuación |
---|---|---|---|
1 | R00041 | Long-chain Alcohol:oxygen oxidoreductase | 2 C00339 + C00007 <=> 2 C00609 + 2 C00001 |
2 | R00623 | Primary Alcohol:NAD+ oxidoreductase | C00226 + C00003 <=> C00071 + C00004 + C00080 |
3 | R00624 | Secondary Alcohol:NAD+ oxidoreductase | C01612 + C00003 <=> C01450 + C00004 + C00080 |
4 | R00625 | Primary Alcohol:NADP+ oxidoreductase | C00226 + C00006 <=> C00071 + C00005 + C00080 |
5 | R00627 | Acetyl-CoA:Alcohol O-acetyltransferase | C00204 + C00069 <=> C00010 + C01883 |
6 | R00629 | 3'-phosphoadenylyl-sulfate:Alcohol sulfotransferase | C00056 + C00053 <=> C02000 + C00054 |
7 | R00637 | Primary Alcohol:oxygen oxidoreductase | C00226 + C00007 <=> C00071 + C00027 |
8 | R00639 | Primary Alcohol:acceptor oxidoreductase | C00226 + C00208 <=> C00071 + C00030 |
9 | R01487 | Aromatic Alcohol:NAD+ oxidoreductase | C03485 + C00003 <=> C00193 + C00004 + C00080 |
10 | R01488 | Aromatic Alcohol:NADP+ oxidoreductase | C03485 + C00006 <=> C00193 + C00005 + C00080 |
11 | R01491 | Aromatic Alcohol:oxygen oxidoreductase | C03485 + C00007 <=> C00193 + C00027 |
12 | R01763 | Benzyl Alcohol:NAD+ oxidoreductase | C00556 + C00003 <=> C00261 + C00004 + C00080 |
13 | R01910 | Primary Alcohol:(acceptor) oxidoreductase | C00314 + C00007 <=> C06501 + C00027 |
14 | R01998 | Long-chain Alcohol:NAD+ oxidoreductase | C00339 + C00001 + 2 C00003 <=> C00347 + 2 C00004 + 2 C00080 |
15 | R01999 | Acyl-CoA:long-chain Alcohol O-acyltransferase | C00040 + C00339 <=> C00010 + C02434 |
16 | R02277 | Secondary Alcohol:oxygen oxidoreductase | C01612 + C00007 <=> C01450 + C00027 |
17 | R02565 | p-cumic Alcohol:NAD+ oxidoreductase | C00576 + C00003 + C00001 <=> C00719 + C00004 + 2 C00080 |
Así se ven los resultados de búsqueda en KEGG REACTION para la palabra alcohol, ordenados por número de entrada en su base de datos, su número de identificación en esta base de datos, el nombre que recibe esta reacción, y su proceso.
Para KEGG ENZIME, el resultado de búsqueda se puede dividir en dos partes, en primera instancia el listado de enzimas que estén relacionadas con la búsqueda realizada, y posterior a la selección de dicha enzima, una tabla de datos generales de la misma.[27]
Campo | Resultado (ejemplo: EC 1.1.1.1 – Alcohol deshidrogenasa) |
---|---|
Entry | EC 1.1.1.1 |
Name | Alcohol dehydrogenase (alcohol: NAD⁺ oxidoreductase) |
Class | Oxidoreductases → Acting on the CH-OH group of donors → With NAD⁺ or NADP⁺ as acceptor |
Sysname | Alcohol:NAD⁺ oxidoreductase |
Reaction (IUBMB) | An alcohol + NAD⁺ ⇌ an aldehyde or ketone + NADH + H⁺ |
Reaction (KEGG) | R00709: ethanol + NAD⁺ ⇌ acetaldehyde + NADH + H⁺ |
Substrate | Ethanol, NAD⁺ |
Product | Acetaldehyde, NADH, H⁺ |
Comment | This enzyme acts on primary and secondary alcohols and also on hemiacetals. |
History | First included in EC list 1961, revised 1989 |
Pathway | Glycolysis / Gluconeogenesis (map00010), Ethanol metabolism (map00620), Fatty acid degradation (map00071) |
Orthology | K00001 (alcohol dehydrogenase) |
Genes | Found in humans (ADH1A, ADH1B...), yeast, *E. coli*, etc. |
Reference | Vallee BL, Hoch FL. "Alcohol dehydrogenase: preparation and catalytic properties." J. Biol. Chem. (1955) |
Other DBs | BRENDA, ExPASy, IUBMB, ExplorEnz |
LinkDB | Entrada conectada a múltiples bases de datos externas y recursos de KEGG |
Actualmente, existen bases de datos adicionales: KEGG GLYCAN para glicanos y dos bases de datos auxiliares de reacciones químicas denominadas RPAIR y RCLASS
RPAIR contiene los pares sustrato-producto implicados en las reacciones enzimáticas, es decir, descompone cada reacción bioquímica en uno o más pares de compuestos (substrato y producto), Cada reacción presente en KEGG REACTION se subdivide en uno o más RPAIR, que representan parejas explícitas entre moléculas involucradas en la reacción, uno de estos pares es identificado como el "principal" si aparece en los mapas de rutas metabólicas de KEGG, mientras que los otros pueden ser secundarios (cofactores, ligasas, etc.). Por su parte RCLASS clasifica reacciones enzimáticas, incluyendo no solo aquellas completamente caracterizadas (como las que tienen número EC), sino también reacciones putativas, es decir, reacciones químicas que aún no han sido descritas experimentalmente o cuya ecuación está incompleta. KEGG COMPOUND también se ha ampliado para incluir diversos compuestos, como xenobióticos, además de metabolitos.[26][28][29]
En KEGG, las enfermedades se consideran estados perturbados del sistema biológico causados por factores genéticos y ambientales, y los fármacos se consideran diferentes tipos de perturbadores. La base de datos KEGG PATHWAY incluye no solo los estados normales, sino también los estados perturbados de los sistemas biológicos. Sin embargo, no es posible trazar mapas de las vías de la enfermedad para la mayoría de las enfermedades debido a que hasta ahora no se han descrito completamente para todos los fármacos los mecanismos moleculares implicados. La base de datos KEGG DISEASE adopta un enfoque alternativo, que simplemente cataloga los factores genéticos y ambientales conocidos de las enfermedades. Estos catálogos podrían eventualmente conducir a diagramas de conexiones más completos de las enfermedades.[29][30]
Característica | KEGG PATHWAY | KEGG DISEASE |
---|---|---|
Tipo de información | Vías metabólicas y de señalización (estados normales y perturbados) | Información sobre enfermedades humanas, sus causas genéticas y ambientales |
Representación visual | Diagramas de vías con interacciones moleculares | No incluye diagramas de vías detalladas; se enfoca en listados y asociaciones |
Cobertura de enfermedades | Limitada: solo algunas enfermedades tienen vías representadas | Amplia: muchas enfermedades están catalogadas, incluso sin vías completamente conocidas |
Relación con fármacos | Incluye perturbaciones causadas por fármacos en las vías | Incluye asociaciones entre enfermedades y fármacos implicados o utilizados en tratamiento |
Propósito principal | Mostrar cómo las moléculas interactúan en condiciones normales y patológicas | Catalogar los factores causales conocidos de enfermedades |
Enfoque | Basado en redes moleculares funcionales | Basado en asociación enfermedad-gen/factor ambiental |
Aplicaciones comunes | Estudios de biología de sistemas, modelado de redes metabólicas o de señalización | Investigación biomédica, genética de enfermedades, anotación de genes relacionados con enfermedades |
La información sanitaria en KEGG constituye una categoría especializada que integra conocimiento biomolecular sobre enfermedades humanas, fármacos y compuestos relacionados con la salud, permitiendo analizar cómo estos interactúan dentro de las redes moleculares del organismo. Esta sección facilita la vinculación entre datos clínicos y datos genómicos, brindando una perspectiva integral para el estudio de patologías y su tratamiento.[31]
Gracias a esta estructura, KEGG permite trazar conexiones entre enfermedades, medicamentos y vías metabólicas o de señalización, lo cual resulta fundamental para el análisis de mecanismos moleculares de enfermedades, la farmacogenómica y el diseño racional de terapias.[32]
La información sanitaria se organiza principalmente en tres bases de datos clave:
KEGG considera las enfermedades como estados alterados del sistema biológico, originados por factores genéticos, ambientales o ambos. Esta base de datos no se limita a listar enfermedades, sino que también asocia genes implicados, proteínas alteradas y otras moléculas clave, permitiendo identificar qué redes celulares o rutas metabólicas están perturbadas en condiciones patológicas. Aunque no todas las enfermedades cuentan con un mapa visual completo, KEGG DISEASE permite establecer asociaciones útiles para la investigación biomédica y la anotación funcional de genomas.[32]
Esta base de datos incluye información detallada sobre fármacos aprobados en Japón, Estados Unidos y Europa, clasificados según su estructura química, mecanismo de acción, blancos moleculares (targets), y enzimas involucradas en su metabolismo. Cada medicamento se encuentra vinculado a vías metabólicas relevantes, genes, proteínas y enfermedades asociadas, lo cual facilita un enfoque sistémico en el análisis farmacológico y apoya la investigación en farmacogenómica y medicina personalizada.[31]
KEGG ENVIRON contiene información sobre compuestos relacionados con la salud humana que no son medicamentos aprobados como tal, incluyendo suplementos dietéticos, ingredientes de productos naturales, contaminantes ambientales y otras sustancias bioactivas. Esta base resulta útil para evaluar la influencia de factores externos sobre la salud y la biología molecular, complementando el estudio de enfermedades complejas.[31]
En conjunto, estas bases de datos conforman KEGG MEDICUS, una categoría integral que también incluye los prospectos clínicos de medicamentos comercializados en Japón, permitiendo acceder a información regulatoria y de uso terapéutico. KEGG MEDICUS representa así un puente entre la biología de sistemas y la práctica médica, útil tanto para investigadores como para profesionales de la salud.