Espacio latente

Summary

El espacio latente, también llamado campo latente, es una incrustación de un conjunto de elementos dentro de una variedad matemática en la que los objetos similares aparecen próximos entre sí. La posición de cada elemento se describe mediante variables latentes que capturan sus similitudes.

En la práctica, la dimensionalidad del espacio latente se elige más pequeña que la del Espacio de características original, convirtiéndolo en un caso de reducción de dimensionalidad y, por extensión, de compresión de datos.[1]​ Los espacios latentes se aprenden con técnicas de aprendizaje automático y son aprovechados por clasificadores, predictores y modelos generativos.

Visualización

editar

Para inspeccionar estos espacios se aplican proyecciones a 2‑3 dimensiones, como t‑SNE, UMAP o PCA. Técnicas como t‑SNE preservan la estructura local, mientras que PCA mantiene varianza global; ninguna conserva distancias absolutas, por lo que su interpretación depende del contexto.[2]

Modelos de incrustación

editar

Diversos enfoques aprenden representaciones en el espacio latente a partir de datos de alta dimensión y una medida de similitud:

  • Word2Vec – redes neuronales shallow que capturan relaciones semánticas y sintácticas.[3]
  • GloVe – combina coocurrencia global y contexto local para obtener vectores densos estables.[4]
  • Redes siamesas – dos (o más) subredes idénticas \(f(\cdot)\) procesan entradas distintas y comparten pesos.
  • Contrastive loss: minimiza   para pares positivos y fuerza un margen \(m\) para negativos.
  • Triplet loss: ordena ancla, positivo y negativo para fijar relaciones de distancia.[5]
Aplicaciones: verificación facial, comparación de imágenes, sistemas de recomendación.
  • Autocodificadores variacionales (VAE) – modelos generativos que aprenden simultáneamente codificador, decodificador y una distribución latente regularizada por divergencia KL.[6]

Multimodalidad

editar

La multimodalidad integra distintos tipos de datos en un espacio latente común.

Objetivo contrastivo
Modelos como CLIP maximizan la similitud entre pares texto‑imagen correctos y la minimizan para pares incorrectos mediante pérdida contrastiva.[7]
Alineación de dominios
Cada modalidad dispone de un codificador (CNN, Transformer, etc.) cuyas salidas se proyectan a un subespacio de dimensión \(d\). La pérdida conjunta obliga a que elementos semánticamente equivalentes converjan.
Modelos recientes
Sistemas como ImageBind amplían la proyección conjunta a audio, video e inputs sensoriales, alcanzando hasta seis modalidades.
Ventajas
Permite búsqueda de imágenes por descripción, generación de subtítulos, análisis de sentimientos que combinen voz y texto y, en general, tareas intermodales.

Aplicaciones

editar

El uso de espacios latentes y modelos multimodales se extiende a numerosos dominios:

  • Recuperación de información – búsqueda por similitud y sistemas de recomendación.
  • Procesamiento de lenguaje natural – análisis de sentimientos, clasificación y traducción automática.
  • Visión computacional – reconocimiento y recuperación de imágenes, síntesis de vídeo.
  • Sistemas de recomendación – representación conjunta de usuarios y artículos.
  • Salud – análisis de historiales clínicos, imágenes médicas y datos ómicos.
  • Sistemas sociales – incrustaciones continúas condensan grafos complejos:
    • Migración interna: representación hiperbólica revela corredores migratorios ocultos.[8]
    • Citación académica: predicción de enlaces futuros y detección de comunidades emergentes.[9]
    • Comercio internacional: proyección hiperbólica (World Trade Atlas) identifica bloques comerciales latentes y nuevas alianzas.[10]

Referencias

editar
  1. Liu, Yang; Jun, Eunice (2019). «Latent Space Cartography: Visual Analysis of Vector Space Embeddings». Computer Graphics Forum 38 (3): 67-78. doi:10.1111/cgf.13672. 
  2. «Latent Space Oddity: on the Curvature of Deep Generative Models». arXiv:1710.11379. 
  3. Mikolov, Tomas (2013). Distributed Representations of Words and Phrases and their Compositionality. 
  4. Pennington, Jeffrey (2014). «Glove: Global Vectors for Word Representation». EMNLP. 
  5. Chicco, Davide (2021), Siamese Neural Networks: An Overview, Springer .
  6. Kingma, Diederik P. (2019). «An Introduction to Variational Autoencoders». Foundations and Trends in Machine Learning. 
  7. Radford, A. (2021). «Learning Transferable Visual Models From Natural Language Supervision». arXiv:2103.00020. 
  8. Investigating internal migration with network analysis and latent space representations: an application to Turkey. 2022. doi:10.1007/s13278-022-00974-w. 
  9. Detecting trends in academic research from a citation network using network representation learning. 2018. doi:10.1371/journal.pone.0197260. 
  10. The hidden hyperbolic geometry of international trade: World Trade Atlas 1870–2013. 2016. doi:10.1038/srep33441. 
  •   Datos: Q107154297