Richard Stuart Sutton[1] (nacido en 1957 o 1958, Ohio, Estados Unidos) es un informático canadiense cuyo trabajo ha tenido un impacto significativo en el campo de la inteligencia artificial, particularmente en el aprendizaje por refuerzo. Es profesor de informática en la Universidad de Alberta, miembro y asesor científico principal del Instituto de Inteligencia Artificial de Alberta e investigador en Keen Technologies.[2] Sutton es considerado uno de los fundadores del aprendizaje de refuerzo computacional moderno ("reinforcement learning"),[3] con varias contribuciones significativas en este campo, incluyendo el aprendizaje de diferencias temporales ("temporal difference learning") y los métodos de gradiente de política ("policy gradient methods").[4]
Richard S. Sutton | ||
---|---|---|
![]() Sutton en 2021 | ||
Información personal | ||
Nacimiento |
1957 o 1958 Ohio, Estados Unidos | |
Residencia | Canadá | |
Nacionalidad | Canadiense | |
Educación | ||
Educación |
Stanford University (BA) University of Massachusetts, Amherst (MS, PhD) | |
Educado en | ||
Tesis doctoral | "Temporal credit assignment in reinforcement learning" (1984) | |
Supervisor doctoral | Andrew Barto | |
Información profesional | ||
Área | Inteligencia Artificial, Aprendizaje por refuerzo | |
Conocido por | "Temporal difference learning", Dyna, Options, GQ(λ), "The Bitter Lesson" | |
Empleador | Universidad de Alberta | |
Estudiantes doctorales |
David Silver Doina Precup | |
Miembro de | ||
Distinciones |
AAAI Fellow (2001) President's Award (INNS) (2003) Royal Society of Canada Fellow (2016) Turing Award (2025) | |
En 2016, Sutton fue elegido miembro de la Royal Society of Canada.[5]
En 2021, fue elegido miembro de la Royal Society of London.[6]
En 2025, recibió el Premio Turing de la Asociación para la Maquinaria de Computación ("Association for Computing Machinery") junto con Andrew Barto; la mención del premio decía: «Por desarrollar los fundamentos conceptuales y algorítmicos del aprendizaje por refuerzo».[7]
Richard Sutton nació en 1957 o 1958[8][9] en Ohio, y creció en Oak Brook, Illinois, un suburbio de Chicago, Estados Unidos.[10]
Sutton se licenció en psicología en la Universidad de Stanford en 1978, antes de obtener una maestría (MS 1980) y un doctorado (PhD 1984) en informática en la Universidad de Massachusetts Amherst, bajo la supervisión de Andrew Barto. Su tesis doctoral, «Asignación temporal de créditos en el aprendizaje por refuerzo» ("Temporal Credit Assignment in Reinforcement Learning"), introdujo las arquitecturas actor-crítico y la asignación temporal de créditos.[11][4]
Se vio influenciado por el trabajo de Harry Klopf en la década de 1970, que proponía que el aprendizaje supervisado es insuficiente para la IA o para explicar el comportamiento inteligente, y que el aprendizaje por ensayo y error, impulsado por los "aspectos hedónicos del comportamiento", es necesario. Esto centró su interés en el aprendizaje por refuerzo ("reinforcement learning").[12]
En 1984, Sutton fue investigador postdoctoral en la Universidad de Massachusetts.[13] De 1985 a 1994, fue miembro principal del personal técnico en el Laboratorio de Sistemas Informáticos e Inteligentes de GTE en Waltham, Massachusetts.[4] Después de eso, pasó tres años en la Universidad de Massachusetts Amherst como científico investigador sénior.[4] De 1998 a 2002, Sutton trabajó en el Laboratorio AT&T Shannon en Florham Park, Nueva Jersey, como miembro principal del personal técnico en el departamento de inteligencia artificial.[4]
Desde 2003, ha sido profesor de informática en la Universidad de Alberta. Dirigió el Laboratorio de Aprendizaje por Refuerzo e Inteligencia Artificial ("Reinforcement Learning and Artificial Intelligence Laboratory") de la institución hasta 2018.[4] Si bien mantuvo su cátedra, Sutton se incorporó a Deepmind en junio de 2017 como científico investigador distinguido y cofundador de su oficina en Edmonton.[11][14][15]
Sutton, nacido estadounidense, se convirtió en ciudadano canadiense en 2015.[15]
Sutton se unió a Andrew Barto a principios de la década de 1980 en la Universidad de Massachusetts ("UMass"), con el objetivo de explorar el comportamiento de las neuronas en el cerebro humano como base de la inteligencia humana, un concepto propuesto por el informático A. Harry Klopf. Sutton y Barto utilizaron las matemáticas para profundizar en el concepto y utilizarlo como base para la inteligencia artificial. Este concepto se conoció como aprendizaje por refuerzo y se convirtió en un componente clave de las técnicas de inteligencia artificial.[16]
Barto y Sutton utilizaron los procesos de decisión de Markov (PMD "Markov decision processes") como base matemática para explicar cómo los agentes (entidades algorítmicas) tomaban decisiones en un entorno estocástico o aleatorio, recibiendo recompensas al final de cada acción. La teoría tradicional de los PMD asumía que los agentes conocían toda la información sobre los PMD en su intento por maximizar sus recompensas acumuladas. Las técnicas de aprendizaje por refuerzo de Barto y Sutton permitieron que tanto el entorno como las recompensas fueran desconocidos, lo que permitió aplicar esta categoría de algoritmos a un amplio espectro de problemas.[17]
Barto con Sutton y otros autores, introdujo algoritmos básicos como el aprendizaje por diferencia temporal (TD) y los métodos de gradiente de política, además de integrar redes neuronales para aproximar funciones de valor. Por ejemplo, el algoritmo TD resolvió el problema de la recompensa retardada: asigna crédito a acciones cuyos efectos aparecen mucho tiempo después. También propuso arquitecturas actor-crítico y sistemas híbridos que combinan aprendizaje con planificación, mostrando que adquirir conocimiento del entorno mejora la toma de decisiones. Estas ideas enlazaron RL ("Reinforcement Learning", aprendizaje por refuerzo) con teorías clásicas de control estocástico y aprendizaje animal. Barto mismo ha destacado las conexiones entre los algoritmos TD y el sistema dopaminérgico cerebral, contribuyendo a explicar desde el punto de vista matemático cómo el cerebro procesa recompensas.
Las contribuciones de Barto fueron posibles gracias a una serie de proyectos financiados por dinero público, que impulsaron la investigación en IA mucho antes de su reciente auge. Su investigación contó con el apoyo de subvenciones de programas de la NSF ("U.S. National Science Foundation"), como la Iniciativa Nacional de Robótica, Inteligencia Robusta, Investigación Colaborativa en Neurociencia Computacional, Computación Centrada en el Ser Humano, Tecnología y Sistemas de Información Biológica, Inteligencia Artificial y Ciencia Cognitiva, que han impulsado los avances fundamentales a largo plazo en aprendizaje automático que observamos hoy.[18] La Fundación Nacional de Ciencias de EE. UU. es una agencia federal independiente que apoya la ciencia y la ingeniería en los 50 estados y territorios de EE. UU.[19]
Muy influyente fue su libro seminal "Reinforcement Learning: An Introduction (1998)" (Aprendizaje por Refuerzo: Una Introducción, 1998), que sigue siendo la referencia estándar en el campo y hasta 2025 había sido citado más de 75 000 veces. Permitió a miles de investigadores comprender y contribuir a este campo emergente y continúa inspirando una importante actividad de investigación en informática hoy en día.[17]
Sutton regresó a Canadá en la década de 2000 y continuó trabajando en el tema, que continuó desarrollándose en círculos académicos hasta que una de sus primeras aplicaciones importantes en el mundo real fue el programa AlphaGo de Google, construido sobre este concepto, que derrotó al entonces campeón humano Lee Sedol.[16] Barto y Sutton han sido ampliamente reconocidos y aceptados como pioneros del aprendizaje de refuerzo moderno, siendo la técnica en sí misma fundamental para el auge moderno de la IA.[20]
En su influyente ensayo "The Bitter Lesson" (La lección amarga) de 2019, Sutton criticó el campo de la investigación en IA por no haber aprendido la amarga lección de que incorporar la forma en que pensamos no funciona a largo plazo, argumentando que "70 años de investigación en IA (habían demostrado) que los métodos generales que aprovechan la computación son, en última instancia, los más efectivos, y por un amplio margen", superando los esfuerzos basados en el conocimiento humano sobre campos específicos como la visión artificial, el reconocimiento de voz, el ajedrez o el Go.[21][22]
Esta es una gran lección. Como campo, aún no la hemos asimilado del todo, ya que seguimos cometiendo los mismos errores. Para comprender esto y resistirlo eficazmente, debemos comprender el atractivo de estos errores. Debemos aprender la amarga lección de que integrar nuestra forma de pensar no funciona a largo plazo. Esta amarga lección se basa en observaciones históricas:
1) los investigadores de IA a menudo han intentado integrar el conocimiento en sus agentes;
2) esto siempre ayuda a corto plazo y resulta personalmente satisfactorio para el investigador; pero
3) a largo plazo, se estanca e incluso inhibe el progreso; y
4) el progreso revolucionario finalmente llega mediante un enfoque opuesto basado en el escalado computacional mediante búsqueda y aprendizaje.
El éxito final está teñido de amargura y, a menudo, no se asimila del todo, porque es un éxito sobre un enfoque favorecido, centrado en el ser humano.Richard S. Sutton
[21]
Una lección que debemos aprender de esta amarga lección es el gran poder de los métodos de propósito general, aquellos que continúan escalando con el aumento de la computación, incluso a medida que la computación disponible se vuelve enorme. Los dos métodos que parecen escalar arbitrariamente de esta manera son la búsqueda y el aprendizaje.
La segunda lección general que debemos aprender de esta amarga lección es que el contenido real de las mentes es tremendamente complejo; deberíamos dejar de intentar encontrar formas simples de pensar en el contenido de las mentes, como formas simples de pensar en el espacio, los objetos, los agentes múltiples o las simetrías. Todo esto forma parte del mundo exterior, arbitrario e intrínsecamente complejo. No es lo que deberíamos incorporar, ya que su complejidad es infinita; en cambio, deberíamos incorporar solo los metamétodos que puedan encontrar y capturar esta complejidad arbitraria. Es esencial para estos métodos que puedan encontrar buenas aproximaciones, pero la búsqueda de estas debe realizarse mediante nuestros métodos, no por nosotros. Queremos agentes de IA que puedan descubrir como nosotros, no que contengan lo que hemos descubierto. Incorporar nuestros descubrimientos sólo hace que sea más difícil ver cómo se puede realizar el proceso de descubrimiento.Richard S. Sutton
[21]
En ajedrez computacional, los métodos que derrotaron al campeón mundial Gary Kasparov en 1997 se basaron en una búsqueda masiva y profunda. En aquel entonces, esto fue visto con consternación por la mayoría de los investigadores de ajedrez computacional que habían buscado métodos que aprovecharan la comprensión humana de la estructura especial del ajedrez. Cuando un enfoque más simple, basado en la búsqueda con hardware y software especiales, demostró ser mucho más efectivo, estos investigadores de ajedrez basados en el conocimiento humano no fueron buenos perdedores. Dijeron que la búsqueda de "fuerza bruta" podría haber ganado esta vez, pero no era una estrategia general, y, de todos modos, no era como se jugaba al ajedrez. Estos investigadores querían que los métodos basados en la intervención humana ganaran y se decepcionaron al no lograrlo.[23]
Un patrón similar de progreso en la investigación se observó en el Go computacional, solo que con un retraso de 20 años. Se realizaron enormes esfuerzos iniciales para evitar la búsqueda aprovechando el conocimiento humano o las características especiales del juego, pero todos esos esfuerzos resultaron irrelevantes, o peor aún, una vez que la búsqueda se aplicó eficazmente a gran escala. También fue importante el uso del aprendizaje por juego para aprender una función de valor (como en muchos otros juegos e incluso en ajedrez, aunque el aprendizaje no jugó un papel importante en el programa de 1997 que venció por primera vez a un campeón mundial). El aprendizaje por juego, y el aprendizaje en general, se asemeja a la búsqueda en el sentido de que permite la aplicación de cálculos masivos. La búsqueda y el aprendizaje son las dos clases de técnicas más importantes para utilizar cantidades masivas de computación en la investigación de IA. En el Go computacional, al igual que en el ajedrez computacional, el esfuerzo inicial de los investigadores se dirigió a utilizar la comprensión humana (para reducir la necesidad de búsqueda) y solo mucho más tarde se obtuvo un éxito mucho mayor al adoptar la búsqueda y el aprendizaje.[23]
En el campo del reconocimiento de voz, en la década de 1970, se realizó una competencia temprana, patrocinada por DARPA. Los participantes incluyeron una serie de métodos especiales que aprovechaban el conocimiento humano: conocimiento de palabras, fonemas, del tracto vocal humano, etc. Por otro lado, existían métodos más nuevos, de naturaleza más estadística y con una computación mucho mayor, basados en modelos ocultos de Markov (HMM). Una vez más, los métodos estadísticos prevalecieron sobre los métodos basados en el conocimiento humano. Esto condujo a un cambio importante en todo el procesamiento del lenguaje natural, gradualmente a lo largo de décadas, donde la estadística y la computación llegaron a dominar el campo. El reciente auge del aprendizaje profundo en el reconocimiento de voz es el paso más reciente en esta dirección consistente. Los métodos de aprendizaje profundo dependen aún menos del conocimiento humano y utilizan aún más computación, junto con el aprendizaje en grandes conjuntos de entrenamiento, para producir sistemas de reconocimiento de voz significativamente mejores. Al igual que en los juegos, los investigadores siempre intentaron crear sistemas que funcionaran de la forma en que creían que funcionaban sus propias mentes (intentaron poner ese conocimiento en sus sistemas), pero al final resultó contraproducente y una colosal pérdida de tiempo del investigador cuando, a través de la ley de Moore, se hizo disponible la computación masiva y se encontró un medio para darle un buen uso.[23]
En visión artificial, se ha observado un patrón similar. Los primeros métodos concebían la visión como la búsqueda de aristas, cilindros generalizados o en términos de características SIFT. Sin embargo, hoy en día todo esto se descarta. Las redes neuronales modernas de aprendizaje profundo utilizan únicamente los conceptos de convolución y ciertos tipos de invariancias, y ofrecen un rendimiento mucho mejor.[23][24]
En 2023, Sutton y John Carmack anunciaron una asociación para el desarrollo de inteligencia artificial general (AGI).[2]
Sutton es considerado uno de los fundadores del aprendizaje por refuerzo computacional moderno, con contribuciones significativas como:
El marco de aprendizaje por refuerzo desarrollado por Barto y Sutton ha trascendido el ámbito académico, encontrando aplicaciones prácticas en diversos sectores. Ejemplos notables incluyen:
Sutton es miembro de la Asociación para el Avance de la Inteligencia Artificial (AAAI "Association for the Advancement of Artificial Intelligence ") desde 2001;[27] su nominación decía: «Por sus importantes contribuciones a diversos temas del aprendizaje automático, incluyendo el aprendizaje por refuerzo, las técnicas de diferencia temporal y las redes neuronales».[27]
En 2003, recibió el Premio Presidencial de la Sociedad Internacional de Redes Neuronales[28] y, en 2013, el premio al Logro Destacado en Investigación de la Universidad de Massachusetts Amherst.[29]
En 2025, recibió el Premio Turing de la Asociación para la Maquinaria de Computación ("Association for Computing Machinery") junto con su profesor de doctorado Andrew Barto; la mención del premio decía: «Por desarrollar los fundamentos conceptuales y algorítmicos del aprendizaje por refuerzo».[7] El premio estaba dotado con un millón de USD.
En 2016, Sutton fue elegido miembro de la Royal Society of Canada.[5]
En 2021, fue elegido miembro de la Royal Society of London.[6]
Su libro seminal "Reinforcement Learning: An Introduction (1998)" (Aprendizaje por Refuerzo: Una Introducción 1998), que sigue siendo la referencia estándar en el campo y hasta 2025 había sido citado más de 75 000 veces, permitió a miles de investigadores comprender y contribuir a este campo emergente y continúa facilitando la comprensión y expansión del aprendizaje por refuerzo.[25] Otros trabajos destacados incluyen investigaciones sobre diferencias temporales, métodos de gradiente de política y redes de diferencias temporales, que han avanzado la capacidad de los sistemas AI para aprender de manera eficiente.
Según Google Scholar en 2025 Richard S. Sutton estaba citado en 165 511 ocasiones en publicaciones académicas, de las cuales 84 280 eran por su libro "Reinforcement learning: An introduction".[30]