Andrew Gehret Barto (nacido en 1948 o 1949, Estados Unidos) es un informático estadounidense de inteligencia artificial, actualmente profesor emérito de informática en la Universidad de Massachusetts Amherst. Barto es conocido por sus contribuciones fundamentales al aprendizaje computacional por refuerzo moderno,[2] del que es considerado uno de los fundadores.[3] Junto con Richard S. Sutton proporcionó los marcos conceptuales fundamentales, los fundamentos matemáticos y las innovaciones algorítmicas —incluido el aprendizaje por diferencia temporal, los métodos de gradiente de política y la integración de redes neuronales— que definen el campo hoy en día.[4]
Andrew Barto | ||
---|---|---|
Información personal | ||
Nombre de nacimiento | Andrew Gehret Barto | |
Nacimiento |
1948 o 1949 Estados Unidos | |
Nacionalidad | Estadounidense | |
Educación | ||
Educación | University of Michigan (BS, MS, PhD) | |
Educado en | ||
Tesis doctoral | "Cellular automata as models of natural systems" (Los autómatas celulares como modelos de sistemas naturales) (1975) | |
Supervisor doctoral | Bernard P. Zeigler | |
Información profesional | ||
Área | Inteligencia Artificial, Aprendizaje por refuerzo | |
Conocido por | Aprendizaje por diferencia temporal (TD), gradiente de política, arquitectura actor-crítico, uso de redes neuronales para RL. | |
Empleador | Universidad de Massachusetts Amherst | |
Estudiantes doctorales |
Amy McGovern (2002) Richard S. Sutton (1984)[1] | |
Miembro de | IEEE | |
Sitio web | www-all.cs.umass.edu/~barto | |
Distinciones | IEEE Neural Networks Society Pioneer Award, IJCAI Award for Research Excellence, Turing Award (2024) | |
En 2025, recibió el Premio Turing de la Asociación para la Maquinaria de Computación ("Association for Computing Machinery") junto con Richard S. Sutton; la mención del premio decía: «Por desarrollar los fundamentos conceptuales y algorítmicos del aprendizaje por refuerzo».[5]
Andrew Gehret Barto nació en Estados Unidos en 1948 o 1949.[6] Se licenció con honores en matemáticas en la Universidad de Michigan en 1970, tras especializarse inicialmente en arquitectura e ingeniería naval. Tras leer trabajos de Michael Arbib, Warren Sturgis McCulloch y Walter Pitts, se interesó en el uso de computadoras y matemáticas para modelar el cerebro, y cinco años más tarde obtuvo un doctorado en informática por una tesis sobre autómatas celulares.[7]
En 1977, Barto se unió a la Facultad de Información y Ciencias de la Computación de la Universidad de Massachusetts Amherst como asociado de investigación postdoctoral, fue ascendido a profesor asociado en 1982 y profesor titular en 1991. Fue director del departamento entre 2007 y 2011 y miembro principal del cuerpo docente del programa de Neurociencia y Conducta.[8]
Durante este tiempo en UMass, Barto codirigió el Laboratorio de Aprendizaje Autónomo (inicialmente el Laboratorio de Redes Adaptativas), que generó varias ideas clave en el aprendizaje por refuerzo.[8] Richard S. Sutton, con quien fue coautor del influyente libro seminal Reinforcement Learning: An Introduction (MIT Press 1998; 2ª edición 2018), fue su estudiante de doctorado.
Cuando Barto empezó en la Universidad de Massachusetts, se unió a un grupo de investigadores que exploraban el comportamiento de las neuronas en el cerebro humano como base de la inteligencia humana, un concepto propuesto por el informático A. Harry Klopf. Su estudiante de doctorado, Sutton, se unió a Barto para usar las matemáticas para profundizar en el concepto y usarlo como base para la inteligencia artificial. Este concepto se conoció como aprendizaje por refuerzo (RL) y se convirtió en un componente clave de las técnicas de inteligencia artificial.[9]
Barto y Sutton utilizaron los procesos de decisión de Markov (PDM) como base matemática para explicar cómo los agentes (entidades algorítmicas) tomaban decisiones en un entorno aleatorio o estocástico, recibiendo recompensas al final de cada acción. La teoría tradicional de los PDM asumía que los agentes conocían toda la información sobre los PDM en su intento por maximizar sus recompensas acumuladas. Las técnicas de aprendizaje por refuerzo de Barto y Sutton permitieron que tanto el entorno como las recompensas fueran desconocidos, lo que permitió aplicar esta categoría de algoritmos a una amplia gama de problemas.[10]
Barto con Sutton y otros autores, introdujo algoritmos básicos como el aprendizaje por diferencia temporal (TD) y los métodos de gradiente de política, además de integrar redes neuronales para aproximar funciones de valor. Por ejemplo, el algoritmo TD resolvió el problema de la recompensa retardada: asigna crédito a acciones cuyos efectos aparecen mucho tiempo después. También propuso arquitecturas actor-crítico y sistemas híbridos que combinan aprendizaje con planificación, mostrando que adquirir conocimiento del entorno mejora la toma de decisiones. Estas ideas enlazaron RL ("Reinforcement Learning", aprendizaje por refuerzo) con teorías clásicas de control estocástico y aprendizaje animal. Barto mismo ha destacado las conexiones entre los algoritmos TD y el sistema dopaminérgico cerebral, contribuyendo a explicar desde el punto de vista matemático cómo el cerebro procesa recompensas.
Puntos clave del trabajo de Barto:
Barto construyó un laboratorio en la Universidad de Massachusetts Amherst para desarrollar las ideas sobre aprendizaje por refuerzo mientras Sutton regresaba a Canadá. El aprendizaje por refuerzo como tema continuó desarrollándose en el ámbito académico hasta que una de sus primeras aplicaciones importantes en el mundo real fue la victoria del programa AlphaGo de Google, basado en este concepto, sobre el entonces campeón humano Lee Sedol.[9] Barto y Sutton han sido ampliamente reconocidos y aceptados como pioneros del aprendizaje por refuerzo moderno, siendo la técnica en sí misma fundamental para el auge de la IA moderna.[11]
Las contribuciones de Barto fueron posibles gracias a una serie de proyectos financiados por dinero público, que impulsaron la investigación en IA mucho antes de su reciente auge. Su investigación contó con el apoyo de subvenciones de programas de la NSF ("U.S. National Science Foundation"), como la Iniciativa Nacional de Robótica, Inteligencia Robusta, Investigación Colaborativa en Neurociencia Computacional, Computación Centrada en el Ser Humano, Tecnología y Sistemas de Información Biológica, Inteligencia Artificial y Ciencia Cognitiva, que han impulsado los avances fundamentales a largo plazo en aprendizaje automático que observamos hoy.[12] La Fundación Nacional de Ciencias de EE. UU. es una agencia federal independiente que apoya la ciencia y la ingeniería en los 50 estados y territorios de EE. UU.[13]
El marco de aprendizaje por refuerzo desarrollado por Barto y Sutton ha trascendido el ámbito académico, encontrando aplicaciones prácticas en diversos sectores. Ejemplos notables incluyen:
En una entrevista de 2025, Barto enfatizó la importancia de que la IA aprenda de la experiencia en lugar de datos seleccionados, afirmando: «Si queremos inteligencia real, la IA necesita aprender haciendo, mediante ensayo y error». Esta visión ha influido en las tendencias de la industria, promoviendo sistemas adaptativos que imitan el aprendizaje humano, impactando los sectores de la tecnología, la salud y las finanzas.[15]
La integración entre el aprendizaje por refuerzo y otras técnicas de IA está evolucionando rápidamente. La principal tendencia observada es cómo otros métodos pueden ayudar al aprendizaje por refuerzo a construir una representación del mundo que permita explorar de forma más eficiente. Por ejemplo, en el ámbito lingüístico, el aprendizaje por refuerzo se ha convertido en una herramienta muy eficaz que se utiliza como complemento de los LLM preentrenados.[15]
Barto reconoce el desafío cuando se le pregunta sobre la seguridad y la alineación de la inteligencia artificial: garantizar que los sistemas de IA actúen según los valores humanos. "El problema de la alineación no es trivial, se esperaría que un sistema de aprendizaje profundo pueda guiar a una IA para que incorpore los valores de los humanos que lo utilizan. Así que, ojalá, eso pueda suceder. No tengo una receta para ello".[15] "El rápido avance de la IA ha generado advertencias de que esta representa una seria amenaza para nuestras sociedades, incluso para la humanidad misma. Esto es especialmente cierto en el caso del aprendizaje automático (RL), que puede beneficiar a la sociedad de muchas maneras, pero también puede producir resultados indeseables si se implementa de forma descuidada. El RL es básicamente una tecnología de optimización, por lo que hereda las ventajas y desventajas de los métodos de optimización tradicionales. Un agente de RL puede descubrir formas inesperadas de obtener grandes recompensas; a veces, resolviendo un problema de una manera nueva y eficiente, pero en otros casos, el agente puede aprender a comportarse de maneras inseguras que los diseñadores del sistema ni siquiera imaginaron."[1]
La perspectiva evolutiva fundamenta su pensamiento sobre el aprendizaje por refuerzo multicriterio, donde los sistemas responden a varias señales de recompensa en lugar de una sola, lo que podría reflejar cómo las diferentes partes del cerebro humano procesan diversas formas de retroalimentación. "Creo que el aprendizaje por refuerzo multicriterio es algo realmente importante. En lugar de tener una función de recompensa, puede haber varias, y diferentes partes del cerebro, por ejemplo, probablemente recibieron señales diferentes".[15]
Barto es miembro de la Asociación Estadounidense para el Avance de la Ciencia, miembro y miembro senior del IEEE,[16] y miembro de la Asociación Estadounidense de Inteligencia Artificial y de la Sociedad de Neurociencia.[17]
Barto recibió el Premio a la Trayectoria en Neurociencias de la UMass en 2019, el Premio Pionero de la Sociedad de Redes Neuronales del IEEE en 2004[18] y el Premio a la Excelencia en Investigación del IJCAI en 2017. Su mención para este último decía: «El profesor Barto es reconocido por su investigación pionera e impactante tanto en la teoría como en la aplicación del aprendizaje por refuerzo».[2]
En 2025, recibió el Premio Turing de la Association for Computing Machinery ( Asociación para la Maquinaria Computacional) junto con su exalumno de doctorado Richard S. Sutton por su trabajo en aprendizaje por refuerzo. La mención del premio decía: «Por desarrollar los fundamentos conceptuales y algorítmicos del aprendizaje por refuerzo».[9][19] El premio estaba dotado con un millón de USD.
Barto publicó más de cien artículos o capítulos en revistas, libros y actas de congresos y talleres.
Su libro seminal "Reinforcement Learning: An Introduction (1998)" (Aprendizaje por Refuerzo: Una Introducción 1998), que sigue siendo la referencia estándar en el campo y hasta 2025 había sido citado más de 75 000 veces, permitió a miles de investigadores comprender y contribuir a este campo emergente y continúa facilitando la comprensión y expansión del aprendizaje por refuerzo.[10]
Barto es coeditor junto con Jennie Si, Warren Powell y Don Wunch II, del Handbook of Learning and Approximate Dynamic Programming (Wiley-IEEE Press, 2004).
Según Google Scholar en julio de 2025 Andrew Barto estaba citado en 137 656 ocasiones en publicaciones académicas, de las cuales 84 433 eran por su libro "Reinforcement learning: An introduction".[20]