llms.txt es un archivo de texto estructurado en Markdown diseñado para facilitar el acceso y la interpretación del contenido de una página web por parte de los modelos de lenguaje de gran escala (Large Language Models o LLMs). Se propone como una guía explícita que los propietarios de sitios web pueden proporcionar a los sistemas de inteligencia artificial para ayudarles a identificar las secciones más relevantes de sus páginas.
llms.txt | ||
---|---|---|
Información general | ||
Desarrollador | Jeremy Howard | |
El archivo funciona como un puente entre el contenido humano y la comprensión automática, permitiendo que los LLMs —como ChatGPT, Claude o Google Gemini— reconozcan con mayor precisión qué información merece destacarse en los resultados generados.
La iniciativa fue presentada por Jeremy Howard, cofundador de la organización Answer.AI, en 2023. La propuesta surgió ante la necesidad de mejorar la forma en que los sistemas de IA acceden a la información web, superando las barreras que imponen los elementos técnicos (como JavaScript, menús dinámicos o estructuras poco semánticas) y adaptándose a nuevas formas de indexación y consumo de datos en el entorno de la IA generativa.[1]
A medida que los modelos de lenguaje han ganado protagonismo en las búsquedas y en la generación de respuestas, ha cobrado relevancia la necesidad de contar con mecanismos como llms.txt que permitan influir en cómo se interpreta y transmite la información de un sitio web.
A diferencia del tradicional robots.txt, que establece restricciones sobre el acceso de rastreadores a partes específicas del sitio, el archivo llms.txt proporciona un resumen estructurado, curado y legible por máquinas del contenido más relevante del sitio web. Su función principal es **mejorar la visibilidad y comprensión semántica de un sitio por parte de modelos de IA**, facilitando su inclusión como fuente autorizada en respuestas generadas automáticamente.
El uso del archivo es especialmente útil para:
El archivo debe escribirse usando el formato Markdown y organizarse en una jerarquía clara.[2] También se puede consultar una explicación detallada en el artículo original de Francesc Sánchez publicado en La Teva Web.[3] Según la documentación oficial, debe incluir:
# Plataforma de datos abiertos
> Repositorio de datasets abiertos para investigadores, periodistas y ciudadanos.
## Conjuntos de datos
- https://datosabiertos.org/medioambiente
- https://datosabiertos.org/salud
## Manuales de uso
- https://datosabiertos.org/manual-api
## Contacto
- https://datosabiertos.org/contacto
Un ejemplo real de archivo llms.txt puede consultarse en www.latevaweb.com/llms.txt, implementado por una agencia de marketing digital especializada.[4]
El archivo debe guardarse como llms.txt
y subirse a la raíz del dominio (por ejemplo: https://ejemplo.com/llms.txt). Para garantizar su eficacia se recomienda:
Existen plugins de WordPress y herramientas externas como Wordlift o Firecrawl que permiten generar el archivo de forma automática.
Junto a llms.txt, se puede implementar un segundo archivo llamado llms-full.txt
, que contiene una versión ampliada y técnica del contenido del sitio. Aunque opcional, este documento puede ser útil en proyectos de gran tamaño o en sitios que requieren una contextualización exhaustiva para los modelos de IA.
El archivo ha comenzado a utilizarse en sitios web educativos, institucionales y corporativos como parte de su estrategia para mejorar el posicionamiento y la visibilidad dentro de plataformas de IA. También se emplea para evitar interpretaciones erróneas por parte de modelos de lenguaje y para garantizar que los contenidos clave estén bien representados en las respuestas generadas.
Si bien llms.txt no es aún un estándar oficial adoptado por todos los motores de IA, su uso se está consolidando como una buena práctica técnica en entornos digitales que desean estar alineados con los nuevos modelos de recuperación de información impulsados por IA generativa.