Llms.txt

Summary

llms.txt es un archivo de texto estructurado en Markdown diseñado para facilitar el acceso y la interpretación del contenido de una página web por parte de los modelos de lenguaje de gran escala (Large Language Models o LLMs). Se propone como una guía explícita que los propietarios de sitios web pueden proporcionar a los sistemas de inteligencia artificial para ayudarles a identificar las secciones más relevantes de sus páginas.

llms.txt
Información general
Desarrollador Jeremy Howard

El archivo funciona como un puente entre el contenido humano y la comprensión automática, permitiendo que los LLMs —como ChatGPT, Claude o Google Gemini— reconozcan con mayor precisión qué información merece destacarse en los resultados generados.

Origen y contexto

editar

La iniciativa fue presentada por Jeremy Howard, cofundador de la organización Answer.AI, en 2023. La propuesta surgió ante la necesidad de mejorar la forma en que los sistemas de IA acceden a la información web, superando las barreras que imponen los elementos técnicos (como JavaScript, menús dinámicos o estructuras poco semánticas) y adaptándose a nuevas formas de indexación y consumo de datos en el entorno de la IA generativa.[1]

A medida que los modelos de lenguaje han ganado protagonismo en las búsquedas y en la generación de respuestas, ha cobrado relevancia la necesidad de contar con mecanismos como llms.txt que permitan influir en cómo se interpreta y transmite la información de un sitio web.

Función y propósito

editar
 
Diagrama que representa el flujo de información desde una página web hacia un modelo de lenguaje de gran escala (LLM) mediante el uso del archivo llms.txt. El modelo interpreta el contenido y genera una respuesta basada en esa información.

A diferencia del tradicional robots.txt, que establece restricciones sobre el acceso de rastreadores a partes específicas del sitio, el archivo llms.txt proporciona un resumen estructurado, curado y legible por máquinas del contenido más relevante del sitio web. Su función principal es **mejorar la visibilidad y comprensión semántica de un sitio por parte de modelos de IA**, facilitando su inclusión como fuente autorizada en respuestas generadas automáticamente.

El uso del archivo es especialmente útil para:

  • Páginas corporativas o institucionales que quieren destacar servicios y propósito.
  • Tiendas en línea que desean priorizar categorías de producto o fichas destacadas.
  • Sitios educativos o blogs que quieren visibilizar autores y artículos clave.

Estructura del archivo

editar

El archivo debe escribirse usando el formato Markdown y organizarse en una jerarquía clara.[2]​ También se puede consultar una explicación detallada en el artículo original de Francesc Sánchez publicado en La Teva Web.[3]​ Según la documentación oficial, debe incluir:

  • Título del sitio web (`#`): encabezado principal que identifica el sitio o proyecto.
  • Resumen (`>`): cita en bloque que explica el propósito del sitio, el público objetivo y la naturaleza del contenido.
  • Secciones principales (`##`): encabezados secundarios con enlaces a secciones clave, como servicios, productos o artículos.
  • Contenido adicional (opcional): recursos no esenciales como enlaces a redes sociales, contacto o documentación técnica.

Ejemplo ilustrativo

editar
# Plataforma de datos abiertos

> Repositorio de datasets abiertos para investigadores, periodistas y ciudadanos.

## Conjuntos de datos
- https://datosabiertos.org/medioambiente
- https://datosabiertos.org/salud

## Manuales de uso
- https://datosabiertos.org/manual-api

## Contacto
- https://datosabiertos.org/contacto

Un ejemplo real de archivo llms.txt puede consultarse en www.latevaweb.com/llms.txt, implementado por una agencia de marketing digital especializada.[4]

Ubicación e implementación

editar

El archivo debe guardarse como llms.txt y subirse a la raíz del dominio (por ejemplo: https://ejemplo.com/llms.txt). Para garantizar su eficacia se recomienda:

  • Validar que el archivo sea accesible públicamente.
  • No incluir más de un encabezado H1.
  • Utilizar enlaces relevantes, sin exceso de secciones.
  • Mantenerlo actualizado y coherente con el contenido del sitio.
  • Comprobar su lectura desde herramientas de crawling o analítica web.

Existen plugins de WordPress y herramientas externas como Wordlift o Firecrawl que permiten generar el archivo de forma automática.

Archivos relacionados

editar

Junto a llms.txt, se puede implementar un segundo archivo llamado llms-full.txt, que contiene una versión ampliada y técnica del contenido del sitio. Aunque opcional, este documento puede ser útil en proyectos de gran tamaño o en sitios que requieren una contextualización exhaustiva para los modelos de IA.

Aplicaciones y casos de uso

editar

El archivo ha comenzado a utilizarse en sitios web educativos, institucionales y corporativos como parte de su estrategia para mejorar el posicionamiento y la visibilidad dentro de plataformas de IA. También se emplea para evitar interpretaciones erróneas por parte de modelos de lenguaje y para garantizar que los contenidos clave estén bien representados en las respuestas generadas.

Relevancia y evolución

editar

Si bien llms.txt no es aún un estándar oficial adoptado por todos los motores de IA, su uso se está consolidando como una buena práctica técnica en entornos digitales que desean estar alineados con los nuevos modelos de recuperación de información impulsados por IA generativa.

Véase también

editar

Referencias

editar
  1. Howard, J. (2023). Introducing llms.txt. Answer.AI.
  2. Guía oficial del archivo llms.txt. Consultado el 18 de abril de 2025.
  3. Sánchez, Francesc; La Teva Web. (2024). ¿Qué es llms.txt?. La Teva Web. Consultado el 18 de abril de 2025.
  4. Sánchez, Francesc; La Teva Web. (2024). Ejemplo real de archivo llms.txt. La Teva Web. Consultado el 18 de abril de 2025.