Andrew Barto

Summary

Andrew Gehret Barto (nacido en 1948 o 1949, Estados Unidos) es un informático estadounidense de inteligencia artificial, actualmente profesor emérito de informática en la Universidad de Massachusetts Amherst. Barto es conocido por sus contribuciones fundamentales al aprendizaje computacional por refuerzo moderno,[2]​ del que es considerado uno de los fundadores.[3]​ Junto con Richard S. Sutton proporcionó los marcos conceptuales fundamentales, los fundamentos matemáticos y las innovaciones algorítmicas —incluido el aprendizaje por diferencia temporal, los métodos de gradiente de política y la integración de redes neuronales— que definen el campo hoy en día.[4]

Andrew Barto
Información personal
Nombre de nacimiento Andrew Gehret Barto
Nacimiento 1948 o 1949
Estados Unidos
Nacionalidad Estadounidense
Educación
Educación University of Michigan (BS, MS, PhD)
Educado en
Tesis doctoral "Cellular automata as models of natural systems" (Los autómatas celulares como modelos de sistemas naturales) (1975)
Supervisor doctoral Bernard P. Zeigler Ver y modificar los datos en Wikidata
Información profesional
Área Inteligencia Artificial, Aprendizaje por refuerzo
Conocido por Aprendizaje por diferencia temporal (TD), gradiente de política, arquitectura actor-crítico, uso de redes neuronales para RL.
Empleador Universidad de Massachusetts Amherst Ver y modificar los datos en Wikidata
Estudiantes doctorales Amy McGovern (2002)
Richard S. Sutton (1984)[1]
Miembro de IEEE Ver y modificar los datos en Wikidata
Sitio web www-all.cs.umass.edu/~barto Ver y modificar los datos en Wikidata
Distinciones IEEE Neural Networks Society Pioneer Award, IJCAI Award for Research Excellence, Turing Award (2024)

En 2025, recibió el Premio Turing de la Asociación para la Maquinaria de Computación ("Association for Computing Machinery") junto con Richard S. Sutton; la mención del premio decía: «Por desarrollar los fundamentos conceptuales y algorítmicos del aprendizaje por refuerzo».[5]

Primeros años y educación

editar

Andrew Gehret Barto nació en Estados Unidos en 1948 o 1949.[6]​ Se licenció con honores en matemáticas en la Universidad de Michigan en 1970, tras especializarse inicialmente en arquitectura e ingeniería naval. Tras leer trabajos de Michael Arbib, Warren Sturgis McCulloch y Walter Pitts, se interesó en el uso de computadoras y matemáticas para modelar el cerebro, y cinco años más tarde obtuvo un doctorado en informática por una tesis sobre autómatas celulares.[7]

Carrera

editar

En 1977, Barto se unió a la Facultad de Información y Ciencias de la Computación de la Universidad de Massachusetts Amherst como asociado de investigación postdoctoral, fue ascendido a profesor asociado en 1982 y profesor titular en 1991. Fue director del departamento entre 2007 y 2011 y miembro principal del cuerpo docente del programa de Neurociencia y Conducta.[8]

Durante este tiempo en UMass, Barto codirigió el Laboratorio de Aprendizaje Autónomo (inicialmente el Laboratorio de Redes Adaptativas), que generó varias ideas clave en el aprendizaje por refuerzo.[8]Richard S. Sutton, con quien fue coautor del influyente libro seminal Reinforcement Learning: An Introduction (MIT Press 1998; 2ª edición 2018), fue su estudiante de doctorado.

Aprendizaje por refuerzo

editar

Cuando Barto empezó en la Universidad de Massachusetts, se unió a un grupo de investigadores que exploraban el comportamiento de las neuronas en el cerebro humano como base de la inteligencia humana, un concepto propuesto por el informático A. Harry Klopf. Su estudiante de doctorado, Sutton, se unió a Barto para usar las matemáticas para profundizar en el concepto y usarlo como base para la inteligencia artificial. Este concepto se conoció como aprendizaje por refuerzo (RL) y se convirtió en un componente clave de las técnicas de inteligencia artificial.[9]

Barto y Sutton utilizaron los procesos de decisión de Markov (PDM) como base matemática para explicar cómo los agentes (entidades algorítmicas) tomaban decisiones en un entorno aleatorio o estocástico, recibiendo recompensas al final de cada acción. La teoría tradicional de los PDM asumía que los agentes conocían toda la información sobre los PDM en su intento por maximizar sus recompensas acumuladas. Las técnicas de aprendizaje por refuerzo de Barto y Sutton permitieron que tanto el entorno como las recompensas fueran desconocidos, lo que permitió aplicar esta categoría de algoritmos a una amplia gama de problemas.[10]

Barto con Sutton y otros autores, introdujo algoritmos básicos como el aprendizaje por diferencia temporal (TD) y los métodos de gradiente de política, además de integrar redes neuronales para aproximar funciones de valor. Por ejemplo, el algoritmo TD resolvió el problema de la recompensa retardada: asigna crédito a acciones cuyos efectos aparecen mucho tiempo después. También propuso arquitecturas actor-crítico y sistemas híbridos que combinan aprendizaje con planificación, mostrando que adquirir conocimiento del entorno mejora la toma de decisiones. Estas ideas enlazaron RL ("Reinforcement Learning", aprendizaje por refuerzo) con teorías clásicas de control estocástico y aprendizaje animal. Barto mismo ha destacado las conexiones entre los algoritmos TD y el sistema dopaminérgico cerebral, contribuyendo a explicar desde el punto de vista matemático cómo el cerebro procesa recompensas.

Puntos clave del trabajo de Barto:

  • Formalización de RL: Barto ayudó a definir el marco formal del RL (aprendizaje por refuerzo) como maximización de la recompensa acumulada en entornos estocásticos desconocidos.
  • Algoritmos clave: Introdujo junto a Sutton el aprendizaje por diferencia temporal (TD), gradiente de política, arquitectura actor-crítico, y el uso de redes neuronales para RL ("Reinforcement Learning", aprendizaje por refuerzo).
  • Integración aprendizaje-planificación: Demostró diseños de agentes que aprenden y planifican simultáneamente, consolidando la idea de que conocer el modelo del entorno facilita la toma de decisiones óptima.
  • Conexión con la neurociencia: Su trabajo relacionó teorías psicológicas clásicas (como el condicionamiento operante) con modelos de RL modernos. Un avance temprano (1981) mostró que TD explica fenómenos conductuales que modelos anteriores no podían, y luego confirmó la similitud entre TD y la respuesta dopaminérgica del cerebro.

Barto construyó un laboratorio en la Universidad de Massachusetts Amherst para desarrollar las ideas sobre aprendizaje por refuerzo mientras Sutton regresaba a Canadá. El aprendizaje por refuerzo como tema continuó desarrollándose en el ámbito académico hasta que una de sus primeras aplicaciones importantes en el mundo real fue la victoria del programa AlphaGo de Google, basado en este concepto, sobre el entonces campeón humano Lee Sedol.[9]​ Barto y Sutton han sido ampliamente reconocidos y aceptados como pioneros del aprendizaje por refuerzo moderno, siendo la técnica en sí misma fundamental para el auge de la IA moderna.[11]

Las contribuciones de Barto fueron posibles gracias a una serie de proyectos financiados por dinero público, que impulsaron la investigación en IA mucho antes de su reciente auge. Su investigación contó con el apoyo de subvenciones de programas de la NSF ("U.S. National Science Foundation"), como la Iniciativa Nacional de Robótica, Inteligencia Robusta, Investigación Colaborativa en Neurociencia Computacional, Computación Centrada en el Ser Humano, Tecnología y Sistemas de Información Biológica, Inteligencia Artificial y Ciencia Cognitiva, que han impulsado los avances fundamentales a largo plazo en aprendizaje automático que observamos hoy.[12]​ La Fundación Nacional de Ciencias de EE. UU. es una agencia federal independiente que apoya la ciencia y la ingeniería en los 50 estados y territorios de EE. UU.[13]

Aplicaciones prácticas de impacto global

editar

El marco de aprendizaje por refuerzo desarrollado por Barto y Sutton ha trascendido el ámbito académico, encontrando aplicaciones prácticas en diversos sectores. Ejemplos notables incluyen:

  • Juegos: Su trabajo sustenta logros como AlphaGo de DeepMind, que utilizó el aprendizaje por refuerzo para derrotar a campeones humanos en Go.[10]
  • Robótica: Los sistemas que aprenden habilidades motoras, como la manipulación de objetos, se basan en sus algoritmos. Robots como Atlas (Boston Dynamics) y Dactyl (OpenAI)[14]​ aprenden habilidades complejas mediante RL.
  • Optimización: Aplicaciones en control de redes, diseño de chips, publicidad en internet (recomendaciones de YouTube, Netflix, Amazon), optimización de la cadena de suministro global y mejora de la capacidad de razonamiento de los chatbots.
  • Chatbots: Sistemas como ChatGPT, Grok y Gemini usan RL basado en feedback humano (RLHF) para mejorar sus respuestas.[10]
  • Vehículos autónomos: Empresas como Tesla y Waymo aplican RL para la conducción autónoma.

En una entrevista de 2025, Barto enfatizó la importancia de que la IA aprenda de la experiencia en lugar de datos seleccionados, afirmando: «Si queremos inteligencia real, la IA necesita aprender haciendo, mediante ensayo y error». Esta visión ha influido en las tendencias de la industria, promoviendo sistemas adaptativos que imitan el aprendizaje humano, impactando los sectores de la tecnología, la salud y las finanzas.[15]

La integración entre el aprendizaje por refuerzo y otras técnicas de IA está evolucionando rápidamente. La principal tendencia observada es cómo otros métodos pueden ayudar al aprendizaje por refuerzo a construir una representación del mundo que permita explorar de forma más eficiente. Por ejemplo, en el ámbito lingüístico, el aprendizaje por refuerzo se ha convertido en una herramienta muy eficaz que se utiliza como complemento de los LLM preentrenados.[15]

Barto reconoce el desafío cuando se le pregunta sobre la seguridad y la alineación de la inteligencia artificial: garantizar que los sistemas de IA actúen según los valores humanos. "El problema de la alineación no es trivial, se esperaría que un sistema de aprendizaje profundo pueda guiar a una IA para que incorpore los valores de los humanos que lo utilizan. Así que, ojalá, eso pueda suceder. No tengo una receta para ello".[15]​ "El rápido avance de la IA ha generado advertencias de que esta representa una seria amenaza para nuestras sociedades, incluso para la humanidad misma. Esto es especialmente cierto en el caso del aprendizaje automático (RL), que puede beneficiar a la sociedad de muchas maneras, pero también puede producir resultados indeseables si se implementa de forma descuidada. El RL es básicamente una tecnología de optimización, por lo que hereda las ventajas y desventajas de los métodos de optimización tradicionales. Un agente de RL puede descubrir formas inesperadas de obtener grandes recompensas; a veces, resolviendo un problema de una manera nueva y eficiente, pero en otros casos, el agente puede aprender a comportarse de maneras inseguras que los diseñadores del sistema ni siquiera imaginaron."[1]

La perspectiva evolutiva fundamenta su pensamiento sobre el aprendizaje por refuerzo multicriterio, donde los sistemas responden a varias señales de recompensa en lugar de una sola, lo que podría reflejar cómo las diferentes partes del cerebro humano procesan diversas formas de retroalimentación. "Creo que el aprendizaje por refuerzo multicriterio es algo realmente importante. En lugar de tener una función de recompensa, puede haber varias, y diferentes partes del cerebro, por ejemplo, probablemente recibieron señales diferentes".[15]

Premios y honores

editar

Barto es miembro de la Asociación Estadounidense para el Avance de la Ciencia, miembro y miembro senior del IEEE,[16]​ y miembro de la Asociación Estadounidense de Inteligencia Artificial y de la Sociedad de Neurociencia.[17]

Barto recibió el Premio a la Trayectoria en Neurociencias de la UMass en 2019, el Premio Pionero de la Sociedad de Redes Neuronales del IEEE en 2004[18]​ y el Premio a la Excelencia en Investigación del IJCAI en 2017. Su mención para este último decía: «El profesor Barto es reconocido por su investigación pionera e impactante tanto en la teoría como en la aplicación del aprendizaje por refuerzo».[2]

En 2025, recibió el Premio Turing de la Association for Computing Machinery ( Asociación para la Maquinaria Computacional) junto con su exalumno de doctorado Richard S. Sutton por su trabajo en aprendizaje por refuerzo. La mención del premio decía: «Por desarrollar los fundamentos conceptuales y algorítmicos del aprendizaje por refuerzo».[9][19]​ El premio estaba dotado con un millón de USD.

Publicaciones

editar

Barto publicó más de cien artículos o capítulos en revistas, libros y actas de congresos y talleres.

Su libro seminal "Reinforcement Learning: An Introduction (1998)" (Aprendizaje por Refuerzo: Una Introducción 1998), que sigue siendo la referencia estándar en el campo y hasta 2025 había sido citado más de 75 000 veces, permitió a miles de investigadores comprender y contribuir a este campo emergente y continúa facilitando la comprensión y expansión del aprendizaje por refuerzo.[10]

Barto es coeditor junto con Jennie Si, Warren Powell y Don Wunch II, del Handbook of Learning and Approximate Dynamic Programming (Wiley-IEEE Press, 2004).

Según Google Scholar en julio de 2025 Andrew Barto estaba citado en 137 656 ocasiones en publicaciones académicas, de las cuales 84 433 eran por su libro "Reinforcement learning: An introduction".[20]

Referencias

editar
  1. a b «Andrew G. Barto, Professor Emeritus». umass.edu. Consultado el 20 de julio de 2025. 
  2. a b «IJCAI 2017 Awards». 19 de agosto de 2017. Consultado el 6 de septiembre de 2022. 
  3. «Exclusive: Interview with Rich Sutton, the Father of Reinforcement Learning». 5 de diciembre de 2017. Archivado desde el original el 11 de enero de 2018. Consultado el 20 de julio de 2025. «He is one of the founding fathers of Reinforcement Learning (RL), an increasingly important part of Machine Learning and AI.» 
  4. «Exclusive: Interview with Rich Sutton, the Father of Reinforcement Learning». 5 de diciembre de 2017. Archivado desde el original el 11 de enero de 2018. Consultado el 20 de julio de 2025. «His significant contributions to RL include temporal difference learning and policy gradient methods. He is the author of a widely acclaimed book (with Andrew Barto) "Reinforcement Learning, an introduction" - cited over 25,000 times, with 2nd edition coming soon.» 
  5. «Turing Awardees – Directorate for Computer and Information Science and Engineering (CISE) | NSF – National Science Foundation». NSF (en inglés). 5 de marzo de 2025. Consultado el 20 de julio de 2025. 
  6. «Andrew Barto and Richard Sutton, pioneers in field of reinforcement learning, win AM Turing Award». The Telegraph. 5 de marzo de 2025. Consultado el 10 de marzo de 2025. «Research that Barto, 76, and Sutton, 67, began in the late 1970s paved the way for some of the past decade's AI breakthroughs.» 
  7. «Virtual History Interview». International Neural Network Society. 7 de enero de 2022. Consultado el 6 de septiembre de 2022. 
  8. a b «Andrew G. Barto». University of Massachusetts Amherst. 17 de febrero de 2008. Archivado desde el original el 28 de noviembre de 2020. Consultado el 18 de octubre de 2020. 
  9. a b c Metz, Cade (5 de marzo de 2025). «Turing Award Goes to 2 Pioneers of Artificial Intelligence». The New York Times (en inglés estadounidense). ISSN 0362-4331. Consultado el 8 de marzo de 2025. 
  10. a b c d «A.M. Turing Award». amturing. Consultado el 20 de julio de 2025. 
  11. «AI pioneers Andrew Barto and Richard Sutton win 2025 Turing Award for groundbreaking contributions to reinforcement learning | NSF – National Science Foundation». nsf.gov (en inglés). 5 de marzo de 2025. Consultado el 8 de marzo de 2025. 
  12. «AI pioneers Andrew Barto and Richard Sutton win 2025 Turing Award for groundbreaking contributions to reinforcement learning. NSF – National Science Foundation». NSF (en inglés). 5 de marzo de 2025. Consultado el 20 de julio de 2025. 
  13. «About NSF – National Science Foundation». NSF (en inglés). 5 de marzo de 2025. Consultado el 20 de julio de 2025. «NSF was established in 1950 by Congress to: Promote the progress of science. Advance the national health, prosperity and welfare. Secure the national defense. We fulfill our mission chiefly by making grants. Our investments account for about 25% of federal support to America's colleges and universities for basic research: research driven by curiosity and discovery. We also support solutions-oriented research with the potential to produce advancements for the American people.» 
  14. «Learning dexterity». OpenAI. Consultado el 20 de julio de 2025. 
  15. a b c d Brodsky, Sascha (14 de marzo de 2025). «Pioneering reinforcement learning researcher contemplates AI's future». En IBM, ed. IBM (en inglés). Consultado el 22 de julio de 2025. 
  16. «Barto elected IEEE fellow». University of Massachusetts Amherst. 22 de noviembre de 2005. Archivado desde el original el 3 de diciembre de 2019. Consultado el 3 de diciembre de 2019. 
  17. «CMU CS – AI Seminar». cs.cmu.edu. Consultado el 7 de marzo de 2025. 
  18. «"IEEE Computational Intelligence Society Past Recipients"». 6 de septiembre de 2022. Consultado el 6 de septiembre de 2022. 
  19. «Turing Awardees – Directorate for Computer and Information Science and Engineering (CISE) | NSF – National Science Foundation». nsf.gov (en inglés). 5 de marzo de 2025. Consultado el 8 de marzo de 2025. 
  20. «Andrew Barto». Google Scholar. Consultado el 20 de julio de 2025. 

Bibliografía

editar
  • SUTTON, Richard S., BARTO, Andrew G., Reinforcement Learning. An Introduction., The MIT Press, 1998, 322 pp. ISBN 9780262193986

Enlaces externos

editar
  • Página de Andrew Barto
  •   Datos: Q4756294