Attention Is All You Need

Summary

Attention Is All You Need ( del inglés La atención es todo lo que necesitas ) [1]​ es un artículo de investigación histórico de 2017 [2][3]​ sobre aprendizaje automático escrito por ocho científicos que trabajan en Google . El artículo presentó una nueva arquitectura de aprendizaje profundo conocida como transformador, basada en el mecanismo de atención propuesto en 2014 por Bahdanau. [4]​ Se considera un artículo fundamental [5]​ en la inteligencia artificial moderna y un contribuyente principal al auge de la Inteligencia artificial, ya que el enfoque del transformador se ha convertido en la arquitectura principal de una amplia variedad de IA, como los modelos de lenguaje grandes .[6][7]​ En ese momento, el foco de la investigación estaba en mejorar las técnicas Seq2seq para la traducción automática, pero los autores van más allá en el artículo, previendo el potencial de la técnica para otras tareas como responder preguntas y lo que ahora se conoce como Inteligencia artificial generativa.[1]

Una ilustración de los componentes principales del modelo del transformador del artículo

El título del artículo es una referencia a la canción " All You Need Is Love " de los Beatles . [8]​ El nombre transformador viene de "Transformer" fue elegido porque a Jakob Uszkoreit, uno de los autores del artículo, le gustó el sonido de esa palabra. [9]

Uno de los primeros documentos de diseño se titulaba «Transformers: Iterative Self-Attention and Processing for Various Tasks» ( en español: Transformadores: Autoatención y procesamiento iterativos para diversas tareas), e incluía una ilustración de seis personajes de la franquicia Transformers. El equipo recibió el nombre de Team Transformer.

Algunos de los primeros ejemplos en los que el equipo probó su arquitectura Transformer fueron la traducción del inglés al alemán, la generación de artículos de Wikipedia sobre «The Transformer» y el análisis sintáctico. Estos ejemplos convencieron al equipo de que Transformer es un modelo lingüístico de uso general y no sólo sirve para traducir.

En 2025, el artículo había sido citado más de 173.000 veces,[10]​ situándose entre los diez artículos más citados del siglo XXI.[11]

Autores

editar

Los autores del artículo son: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Łukasz Kaiser e Illia Polosukhin. Los ocho autores « colaboraron por partes iguales» en el artículo; el orden de la lista fue aleatorio. El artículo de Wired destaca la diversidad del grupo: [8]

Seis de los ocho autores nacieron fuera de Estados Unidos; los otros dos son hijos de dos alemanes con permiso de residencia temporal en California y de un estadounidense de primera generación cuya familia había huido de la persecución, respectivamente.

Tras el artículo, cada uno de los autores abandonó Google para incorporarse a otras empresas o fundar empresas emergentes. Varios de ellos manifestaron sentirse incapaces de innovar y ampliar el transformador en la dirección que deseaban si se hubieran quedado en Google. [12]

Métodos discutidos e introducidos

editar

El artículo es más conocido por la introducción de la arquitectura «transformador», que constituye la arquitectura subyacente de la mayoría de los modelos extensos de lenguaje (LLM). Una de las razones principales por las que la mayoría de los LLM modernos prefieren esta arquitectura es su paralelizabilidad con respecto a sus predecesores. Esto garantiza que las operaciones necesarias para el entrenamiento puedan acelerarse en una GPU, lo que permite acelerar los tiempos de entrenamiento y entrenar modelos de mayor tamaño.

Los siguientes mecanismos fueron introducidos en el artículo como parte del desarrollo de la arquitectura del transformador.

Atención y autoatención del producto escalar

El uso del mecanismo de atención y autoatención del producto escalar en lugar de una red neuronal recurrente o una memoria larga a corto plazo (que se basan en la recurrencia) permite un mejor rendimiento como se describe en el siguiente párrafo. El artículo describe la atención del producto escalar de la siguiente manera:

 

dónde  ,  ,   son respectivamente las matrices de consulta, clave y valor.   es la dimensión de los valores.

Dado que el modelo se basa en matrices de consulta (Q), clave (K) y valor (V) que proceden de la misma fuente (es decir, la secuencia de entrada/ventana contextual), se elimina por completo la necesidad de RNN, lo que garantiza la paralelizabilidad de la arquitectura. Esto difiere de la forma original del mecanismo de Atención introducido en 2014. Además, el documento también discute el uso de un factor de escala adicional que se encontró que era más eficaz con respecto a la dimensión de los vectores clave (representados como   y fijado inicialmente en 64 en el documento) de la forma indicada anteriormente.

En el contexto específico de la traducción en el que se centra el artículo, las matrices de consulta y clave suelen representarse en codificaciones correspondientes a la lengua de origen, mientras que la matriz de valor corresponde a la lengua de destino.

Atención multicabezal

En el mecanismo de autoatención, las consultas (Q), las claves (K) y los valores (V) se generan dinámicamente para cada secuencia de entrada (limitada normalmente por el tamaño de la ventana de contexto), lo que permite al modelo centrarse en distintas partes de la secuencia de entrada en diferentes pasos. La atención multicabezal mejora este proceso introduciendo múltiples cabezales de atención paralelos. Cada cabezal de atención aprende diferentes proyecciones lineales de las matrices Q, K y V. Esto permite al modelo captar diferentes aspectos de la secuencia de entrada. Esto permite al modelo captar simultáneamente distintos aspectos de las relaciones entre las palabras de la secuencia, en lugar de centrarse en un único aspecto.

De este modo, la atención multicabezal garantiza que las codificaciones de entrada se actualicen desde un conjunto de perspectivas más variadas y diversas. Una vez calculados los resultados de la atención de todas las cabezas, se concatenan y se someten a una transformación lineal final para generar el resultado.

Codificación posicional

Dado que el modelo transformador no es un modelo seq2seq y no se basa en la secuencia del texto para realizar la codificación y descodificación, el artículo se basa en el uso de funciones de onda seno y coseno para codificar la posición del token en la incrustación. A continuación se analizan los métodos introducidos en el artículo:

 

 

donde  ,  ,   corresponden a la posición de la palabra, el índice de dimensión actual y la dimensión del modelo respectivamente. La función seno se utiliza para índices pares de la codificación, mientras que la función coseno se utiliza para índices impares. El resultado   Luego se agrega una codificación a la palabra en la posición correspondiente con respecto a la ventana de contexto actual. El artículo comenta específicamente por qué se eligió este método y describe:

"Elegimos la versión sinusoidal porque puede permitir al modelo extrapolar secuencias más largas que las encontradas durante el entrenamiento". [1]

Entrenamiento

editar

Aunque en aquel momento el objetivo principal del artículo era mejorar la traducción automática, también se analizaba el uso de la arquitectura en el análisis de constituyentes sintácticos de la lengua inglesa, tanto con conjuntos de datos limitados como de gran tamaño, logrando una puntuación alta sin un ajuste específico para la tarea, lo que indicaba la naturaleza prometedora del modelo para su uso en una amplia variedad de tareas seq2seq de propósito general.

Conjunto de datos

El modelo de traducción inglés-alemán se entrenó con el conjunto de datos inglés-alemán del WMT (Workshop on Statistical Machine Translation) de 2014, compuesto por casi 4,5 millones de frases procedentes de charlas TED y artículos de noticias de alta calidad. Otro modelo de traducción se entrenó con el conjunto de datos inglés-francés del WMT de 2014, mucho mayor y compuesto por 36 millones de frases. Ambos conjuntos de datos se codificaron con pares de bytes.

Hardware

Los modelos se entrenaron utilizando 8 GPUs NVIDIA P100. Los modelos base se entrenaron durante 100.000 ciclos y los modelos grandes, durante 300.000. Cada ciclo tardó 0,4 segundos en completarse para los modelos base y 1,0 segundos para los modelos grandes. El modelo básico se entrenó durante un total de 12 horas y el modelo grande durante 3,5 días. Tanto el modelo base como el modelo grande superan el estado del arte de 2017 tanto en inglés-alemán como en inglés-francés, al tiempo que consiguen el coste de formación comparativamente más bajo.[1]​ El coste computacional estimado fue de 0,089 petaFLOP-días. [13]

Hiperparámetros y regularización

Para su modelo Transformador de 100M de parámetros, los autores aumentaron la tasa de aprendizaje linealmente durante los primeros 4000 ciclos (calentamiento) y la disminuyeron proporcionalmente a la raíz cuadrada inversa del número de ciclos actual. Se aplicaron capas de abandono a la salida de cada subcapa antes de la normalización, las sumas de las incrustaciones y las codificaciones posicionales. La tasa de abandono se fijó en 0,1. El suavizado de etiquetas se aplicó con un valor de 0,1 que «mejora la precisión y la puntuación BLEU». [1]

Referencias

editar
  1. a b c d e Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). I. Guyon and U. Von Luxburg and S. Bengio and H. Wallach and R. Fergus and S. Vishwanathan and R. Garnett, ed. Attention is All you Need. 31st Conference on Neural Information Processing Systems (NIPS) 30. 
  2. Love, Julia (10 de julio de 2023). «AI Researcher Who Helped Write Landmark Paper Is Leaving Google». Bloomberg News. Consultado el 1 de abril de 2024. 
  3. Goldman, Sharon (20 de marzo de 2024). «'Attention is All You Need' creators look beyond Transformers for AI at Nvidia GTC: 'The world needs something better'». VentureBeat. Consultado el 1 de abril de 2024. 
  4. Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2016-05-19). «Neural Machine Translation by Jointly Learning to Align and Translate». arXiv:1409.0473  [cs.CL]. 
  5. Shinde, Gitanjali; Wasatkar, Namrata; Mahalle, Parikshit (6 de junio de 2024). Data-Centric Artificial Intelligence for Multidisciplinary Applications. CRC Press. p. 75. ISBN 9781040031131. 
  6. Toews, Rob. «Transformers Revolutionized AI. What Will Replace Them?». Forbes (en inglés). Consultado el 9 de mayo de 2025. 
  7. Murgia, Madhumita (23 de julio de 2023). «Transformers: the Google scientists who pioneered an AI revolution». Financial Times. Consultado el 9 de mayo de 2025. 
  8. a b Levy, Steven. «8 Google Employees Invented Modern AI. Here's the Inside Story». Wired (en inglés estadounidense). ISSN 1059-1028. Consultado el 20 de marzo de 2024. 
  9. Marche, Stephen (23 de agosto de 2024). «Was Linguistic A.I. Created by Accident?». The New Yorker (en inglés estadounidense). ISSN 0028-792X. Consultado el 24 de agosto de 2024. 
  10. «Meet the $4 Billion AI Superstars That Google Lost». Bloomberg. 13 July 2023. 
  11. «Exclusive: the most-cited papers of the twenty-first century». Nature. 15 April 2025. Consultado el 18 April 2025. 
  12. Murgia, Madhumita (23 de julio de 2023). «Transformers: the Google scientists who pioneered an AI revolution». Financial Times. Consultado el 22 de marzo de 2025. 
  13. «AI and compute». openai.com (en inglés estadounidense). 9 de junio de 2022. Consultado el 29 de abril de 2025. 

Enlaces externos

editar
  • Uszkoreit, Jakob (August 31, 2017). «Transformer: A Novel Neural Network Architecture for Language Understanding». research.google (en inglés). Consultado el 9 de agosto de 2024.  A concurrent blog post on Google Research blog.
  •   Datos: Q30249683