Richard S. Sutton

Summary

Richard Stuart Sutton[1]​ (nacido en 1957 o 1958, Ohio, Estados Unidos) es un informático canadiense cuyo trabajo ha tenido un impacto significativo en el campo de la inteligencia artificial, particularmente en el aprendizaje por refuerzo. Es profesor de informática en la Universidad de Alberta, miembro y asesor científico principal del Instituto de Inteligencia Artificial de Alberta e investigador en Keen Technologies.[2]​ Sutton es considerado uno de los fundadores del aprendizaje de refuerzo computacional moderno ("reinforcement learning"),[3]​ con varias contribuciones significativas en este campo, incluyendo el aprendizaje de diferencias temporales ("temporal difference learning") y los métodos de gradiente de política ("policy gradient methods").[4]

Richard S. Sutton

Sutton en 2021
Información personal
Nacimiento 1957 o 1958
Ohio, Estados Unidos
Residencia Canadá Ver y modificar los datos en Wikidata
Nacionalidad Canadiense
Educación
Educación Stanford University (BA)
University of Massachusetts, Amherst (MS, PhD)
Educado en
Tesis doctoral "Temporal credit assignment in reinforcement learning" (1984)
Supervisor doctoral Andrew Barto
Información profesional
Área Inteligencia Artificial, Aprendizaje por refuerzo
Conocido por "Temporal difference learning", Dyna, Options, GQ(λ), "The Bitter Lesson"
Empleador Universidad de Alberta
Estudiantes doctorales David Silver
Doina Precup
Miembro de
Distinciones AAAI Fellow (2001)
President's Award (INNS) (2003)
Royal Society of Canada Fellow (2016)
Turing Award (2025)

En 2016, Sutton fue elegido miembro de la Royal Society of Canada.[5]

En 2021, fue elegido miembro de la Royal Society of London.[6]

En 2025, recibió el Premio Turing de la Asociación para la Maquinaria de Computación ("Association for Computing Machinery") junto con Andrew Barto; la mención del premio decía: «Por desarrollar los fundamentos conceptuales y algorítmicos del aprendizaje por refuerzo».[7]

Vida y educación

editar

Richard Sutton nació en 1957 o 1958[8][9]​ en Ohio, y creció en Oak Brook, Illinois, un suburbio de Chicago, Estados Unidos.[10]

Sutton se licenció en psicología en la Universidad de Stanford en 1978, antes de obtener una maestría (MS 1980) y un doctorado (PhD 1984) en informática en la Universidad de Massachusetts Amherst, bajo la supervisión de Andrew Barto. Su tesis doctoral, «Asignación temporal de créditos en el aprendizaje por refuerzo» ("Temporal Credit Assignment in Reinforcement Learning"), introdujo las arquitecturas actor-crítico y la asignación temporal de créditos.[11][4]

Se vio influenciado por el trabajo de Harry Klopf en la década de 1970, que proponía que el aprendizaje supervisado es insuficiente para la IA o para explicar el comportamiento inteligente, y que el aprendizaje por ensayo y error, impulsado por los "aspectos hedónicos del comportamiento", es necesario. Esto centró su interés en el aprendizaje por refuerzo ("reinforcement learning").[12]

 
Sutton entrevistado por Steve Jurvetson en AlphaGo en 2017

Carrera

editar

En 1984, Sutton fue investigador postdoctoral en la Universidad de Massachusetts.[13]​ De 1985 a 1994, fue miembro principal del personal técnico en el Laboratorio de Sistemas Informáticos e Inteligentes de GTE en Waltham, Massachusetts.[4]​ Después de eso, pasó tres años en la Universidad de Massachusetts Amherst como científico investigador sénior.[4]​ De 1998 a 2002, Sutton trabajó en el Laboratorio AT&T Shannon en Florham Park, Nueva Jersey, como miembro principal del personal técnico en el departamento de inteligencia artificial.[4]

Desde 2003, ha sido profesor de informática en la Universidad de Alberta. Dirigió el Laboratorio de Aprendizaje por Refuerzo e Inteligencia Artificial ("Reinforcement Learning and Artificial Intelligence Laboratory") de la institución hasta 2018.[4]​ Si bien mantuvo su cátedra, Sutton se incorporó a Deepmind en junio de 2017 como científico investigador distinguido y cofundador de su oficina en Edmonton.[11][14][15]

Sutton, nacido estadounidense, se convirtió en ciudadano canadiense en 2015.[15]

Aprendizaje por refuerzo

editar

Sutton se unió a Andrew Barto a principios de la década de 1980 en la Universidad de Massachusetts ("UMass"), con el objetivo de explorar el comportamiento de las neuronas en el cerebro humano como base de la inteligencia humana, un concepto propuesto por el informático A. Harry Klopf. Sutton y Barto utilizaron las matemáticas para profundizar en el concepto y utilizarlo como base para la inteligencia artificial. Este concepto se conoció como aprendizaje por refuerzo y se convirtió en un componente clave de las técnicas de inteligencia artificial.[16]

Barto y Sutton utilizaron los procesos de decisión de Markov (PMD "Markov decision processes") como base matemática para explicar cómo los agentes (entidades algorítmicas) tomaban decisiones en un entorno estocástico o aleatorio, recibiendo recompensas al final de cada acción. La teoría tradicional de los PMD asumía que los agentes conocían toda la información sobre los PMD en su intento por maximizar sus recompensas acumuladas. Las técnicas de aprendizaje por refuerzo de Barto y Sutton permitieron que tanto el entorno como las recompensas fueran desconocidos, lo que permitió aplicar esta categoría de algoritmos a un amplio espectro de problemas.[17]

Barto con Sutton y otros autores, introdujo algoritmos básicos como el aprendizaje por diferencia temporal (TD) y los métodos de gradiente de política, además de integrar redes neuronales para aproximar funciones de valor. Por ejemplo, el algoritmo TD resolvió el problema de la recompensa retardada: asigna crédito a acciones cuyos efectos aparecen mucho tiempo después. También propuso arquitecturas actor-crítico y sistemas híbridos que combinan aprendizaje con planificación, mostrando que adquirir conocimiento del entorno mejora la toma de decisiones. Estas ideas enlazaron RL ("Reinforcement Learning", aprendizaje por refuerzo) con teorías clásicas de control estocástico y aprendizaje animal. Barto mismo ha destacado las conexiones entre los algoritmos TD y el sistema dopaminérgico cerebral, contribuyendo a explicar desde el punto de vista matemático cómo el cerebro procesa recompensas.

Las contribuciones de Barto fueron posibles gracias a una serie de proyectos financiados por dinero público, que impulsaron la investigación en IA mucho antes de su reciente auge. Su investigación contó con el apoyo de subvenciones de programas de la NSF ("U.S. National Science Foundation"), como la Iniciativa Nacional de Robótica, Inteligencia Robusta, Investigación Colaborativa en Neurociencia Computacional, Computación Centrada en el Ser Humano, Tecnología y Sistemas de Información Biológica, Inteligencia Artificial y Ciencia Cognitiva, que han impulsado los avances fundamentales a largo plazo en aprendizaje automático que observamos hoy.[18]​ La Fundación Nacional de Ciencias de EE. UU. es una agencia federal independiente que apoya la ciencia y la ingeniería en los 50 estados y territorios de EE. UU.[19]

Muy influyente fue su libro seminal "Reinforcement Learning: An Introduction (1998)" (Aprendizaje por Refuerzo: Una Introducción, 1998), que sigue siendo la referencia estándar en el campo y hasta 2025 había sido citado más de 75 000 veces. Permitió a miles de investigadores comprender y contribuir a este campo emergente y continúa inspirando una importante actividad de investigación en informática hoy en día.[17]

Sutton regresó a Canadá en la década de 2000 y continuó trabajando en el tema, que continuó desarrollándose en círculos académicos hasta que una de sus primeras aplicaciones importantes en el mundo real fue el programa AlphaGo de Google, construido sobre este concepto, que derrotó al entonces campeón humano Lee Sedol.[16]​ Barto y Sutton han sido ampliamente reconocidos y aceptados como pioneros del aprendizaje de refuerzo moderno, siendo la técnica en sí misma fundamental para el auge moderno de la IA.[20]

The Bitter Lesson

editar

En su influyente ensayo "The Bitter Lesson" (La lección amarga) de 2019, Sutton criticó el campo de la investigación en IA por no haber aprendido la amarga lección de que incorporar la forma en que pensamos no funciona a largo plazo, argumentando que "70 años de investigación en IA (habían demostrado) que los métodos generales que aprovechan la computación son, en última instancia, los más efectivos, y por un amplio margen", superando los esfuerzos basados en el conocimiento humano sobre campos específicos como la visión artificial, el reconocimiento de voz, el ajedrez o el Go.[21][22]

Esta es una gran lección. Como campo, aún no la hemos asimilado del todo, ya que seguimos cometiendo los mismos errores. Para comprender esto y resistirlo eficazmente, debemos comprender el atractivo de estos errores. Debemos aprender la amarga lección de que integrar nuestra forma de pensar no funciona a largo plazo. Esta amarga lección se basa en observaciones históricas:
1) los investigadores de IA a menudo han intentado integrar el conocimiento en sus agentes;
2) esto siempre ayuda a corto plazo y resulta personalmente satisfactorio para el investigador; pero
3) a largo plazo, se estanca e incluso inhibe el progreso; y
4) el progreso revolucionario finalmente llega mediante un enfoque opuesto basado en el escalado computacional mediante búsqueda y aprendizaje.
El éxito final está teñido de amargura y, a menudo, no se asimila del todo, porque es un éxito sobre un enfoque favorecido, centrado en el ser humano.
Richard S. Sutton

[21]

Una lección que debemos aprender de esta amarga lección es el gran poder de los métodos de propósito general, aquellos que continúan escalando con el aumento de la computación, incluso a medida que la computación disponible se vuelve enorme. Los dos métodos que parecen escalar arbitrariamente de esta manera son la búsqueda y el aprendizaje.
La segunda lección general que debemos aprender de esta amarga lección es que el contenido real de las mentes es tremendamente complejo; deberíamos dejar de intentar encontrar formas simples de pensar en el contenido de las mentes, como formas simples de pensar en el espacio, los objetos, los agentes múltiples o las simetrías. Todo esto forma parte del mundo exterior, arbitrario e intrínsecamente complejo. No es lo que deberíamos incorporar, ya que su complejidad es infinita; en cambio, deberíamos incorporar solo los metamétodos que puedan encontrar y capturar esta complejidad arbitraria. Es esencial para estos métodos que puedan encontrar buenas aproximaciones, pero la búsqueda de estas debe realizarse mediante nuestros métodos, no por nosotros. Queremos agentes de IA que puedan descubrir como nosotros, no que contengan lo que hemos descubierto. Incorporar nuestros descubrimientos sólo hace que sea más difícil ver cómo se puede realizar el proceso de descubrimiento.
Richard S. Sutton

[21]

Ajedrez

editar

En ajedrez computacional, los métodos que derrotaron al campeón mundial Gary Kasparov en 1997 se basaron en una búsqueda masiva y profunda. En aquel entonces, esto fue visto con consternación por la mayoría de los investigadores de ajedrez computacional que habían buscado métodos que aprovecharan la comprensión humana de la estructura especial del ajedrez. Cuando un enfoque más simple, basado en la búsqueda con hardware y software especiales, demostró ser mucho más efectivo, estos investigadores de ajedrez basados en el conocimiento humano no fueron buenos perdedores. Dijeron que la búsqueda de "fuerza bruta" podría haber ganado esta vez, pero no era una estrategia general, y, de todos modos, no era como se jugaba al ajedrez. Estos investigadores querían que los métodos basados en la intervención humana ganaran y se decepcionaron al no lograrlo.[23]

Go

editar

Un patrón similar de progreso en la investigación se observó en el Go computacional, solo que con un retraso de 20 años. Se realizaron enormes esfuerzos iniciales para evitar la búsqueda aprovechando el conocimiento humano o las características especiales del juego, pero todos esos esfuerzos resultaron irrelevantes, o peor aún, una vez que la búsqueda se aplicó eficazmente a gran escala. También fue importante el uso del aprendizaje por juego para aprender una función de valor (como en muchos otros juegos e incluso en ajedrez, aunque el aprendizaje no jugó un papel importante en el programa de 1997 que venció por primera vez a un campeón mundial). El aprendizaje por juego, y el aprendizaje en general, se asemeja a la búsqueda en el sentido de que permite la aplicación de cálculos masivos. La búsqueda y el aprendizaje son las dos clases de técnicas más importantes para utilizar cantidades masivas de computación en la investigación de IA. En el Go computacional, al igual que en el ajedrez computacional, el esfuerzo inicial de los investigadores se dirigió a utilizar la comprensión humana (para reducir la necesidad de búsqueda) y solo mucho más tarde se obtuvo un éxito mucho mayor al adoptar la búsqueda y el aprendizaje.[23]

Reconocimiento de voz

editar

En el campo del reconocimiento de voz, en la década de 1970, se realizó una competencia temprana, patrocinada por DARPA. Los participantes incluyeron una serie de métodos especiales que aprovechaban el conocimiento humano: conocimiento de palabras, fonemas, del tracto vocal humano, etc. Por otro lado, existían métodos más nuevos, de naturaleza más estadística y con una computación mucho mayor, basados en modelos ocultos de Markov (HMM). Una vez más, los métodos estadísticos prevalecieron sobre los métodos basados en el conocimiento humano. Esto condujo a un cambio importante en todo el procesamiento del lenguaje natural, gradualmente a lo largo de décadas, donde la estadística y la computación llegaron a dominar el campo. El reciente auge del aprendizaje profundo en el reconocimiento de voz es el paso más reciente en esta dirección consistente. Los métodos de aprendizaje profundo dependen aún menos del conocimiento humano y utilizan aún más computación, junto con el aprendizaje en grandes conjuntos de entrenamiento, para producir sistemas de reconocimiento de voz significativamente mejores. Al igual que en los juegos, los investigadores siempre intentaron crear sistemas que funcionaran de la forma en que creían que funcionaban sus propias mentes (intentaron poner ese conocimiento en sus sistemas), pero al final resultó contraproducente y una colosal pérdida de tiempo del investigador cuando, a través de la ley de Moore, se hizo disponible la computación masiva y se encontró un medio para darle un buen uso.[23]

Visión artificial

editar

En visión artificial, se ha observado un patrón similar. Los primeros métodos concebían la visión como la búsqueda de aristas, cilindros generalizados o en términos de características SIFT. Sin embargo, hoy en día todo esto se descarta. Las redes neuronales modernas de aprendizaje profundo utilizan únicamente los conceptos de convolución y ciertos tipos de invariancias, y ofrecen un rendimiento mucho mejor.[23][24]

Inteligencia Artificial General

editar

En 2023, Sutton y John Carmack anunciaron una asociación para el desarrollo de inteligencia artificial general (AGI).[2]

Legado

editar

Sutton es considerado uno de los fundadores del aprendizaje por refuerzo computacional moderno, con contribuciones significativas como:

  • Aprendizaje por diferencias temporales: Método para actualizar estimaciones de valor basándose en diferencias entre predicciones, sin esperar recompensas finales, mejorando la eficiencia del aprendizaje. Clave para sistemas como AlphaGo de DeepMind.
  • Métodos de gradiente de política: Algoritmos que optimizan directamente la política de decisión, esenciales para tareas complejas.
  • Arquitecturas actor-crítico: Combinan un actor que decide acciones y un crítico que evalúa, base para muchos sistemas modernos de IA. Esenciales en robótica y juegos.
  • TD(λ) y SARSA: Algoritmos fundamentales para el aprendizaje en entornos secuenciales.
  • La arquitectura Dyna (que integra aprendizaje, planificación y reacción).

El marco de aprendizaje por refuerzo desarrollado por Barto y Sutton ha trascendido el ámbito académico, encontrando aplicaciones prácticas en diversos sectores. Ejemplos notables incluyen:

  • Juegos: Su trabajo sustenta logros como AlphaGo de DeepMind, que utilizó el aprendizaje por refuerzo para derrotar a campeones humanos en Go.[25]
  • Robótica: Los sistemas que aprenden habilidades motoras, como la manipulación de objetos, se basan en sus algoritmos. Robots como Atlas (Boston Dynamics) y Dactyl (OpenAI)[26]​ aprenden habilidades complejas mediante RL.
  • Optimización: Aplicaciones en control de redes, diseño de chips, publicidad en internet (recomendaciones de YouTube, Netflix, Amazon), optimización de la cadena de suministro global y mejora de la capacidad de razonamiento de los chatbots.
  • Chatbots: Sistemas como ChatGPT, Grok y Gemini usan RL basado en feedback humano (RLHF) para mejorar sus respuestas.[25]
  • Vehículos autónomos: Empresas como Tesla y Waymo aplican RL para la conducción autónoma.

Premios y honores

editar

Sutton es miembro de la Asociación para el Avance de la Inteligencia Artificial (AAAI "Association for the Advancement of Artificial Intelligence ") desde 2001;[27]​ su nominación decía: «Por sus importantes contribuciones a diversos temas del aprendizaje automático, incluyendo el aprendizaje por refuerzo, las técnicas de diferencia temporal y las redes neuronales».[27]

En 2003, recibió el Premio Presidencial de la Sociedad Internacional de Redes Neuronales[28]​ y, en 2013, el premio al Logro Destacado en Investigación de la Universidad de Massachusetts Amherst.[29]

En 2025, recibió el Premio Turing de la Asociación para la Maquinaria de Computación ("Association for Computing Machinery") junto con su profesor de doctorado Andrew Barto; la mención del premio decía: «Por desarrollar los fundamentos conceptuales y algorítmicos del aprendizaje por refuerzo».[7]​ El premio estaba dotado con un millón de USD.

En 2016, Sutton fue elegido miembro de la Royal Society of Canada.[5]

En 2021, fue elegido miembro de la Royal Society of London.[6]

Publicaciones

editar

Su libro seminal "Reinforcement Learning: An Introduction (1998)" (Aprendizaje por Refuerzo: Una Introducción 1998), que sigue siendo la referencia estándar en el campo y hasta 2025 había sido citado más de 75 000 veces, permitió a miles de investigadores comprender y contribuir a este campo emergente y continúa facilitando la comprensión y expansión del aprendizaje por refuerzo.[25]​ Otros trabajos destacados incluyen investigaciones sobre diferencias temporales, métodos de gradiente de política y redes de diferencias temporales, que han avanzado la capacidad de los sistemas AI para aprender de manera eficiente.

Según Google Scholar en 2025 Richard S. Sutton estaba citado en 165 511 ocasiones en publicaciones académicas, de las cuales 84 280 eran por su libro "Reinforcement learning: An introduction".[30]

Publicaciones seleccionadas

editar
  • Sutton, RS, Barto, AG, Aprendizaje por Refuerzo: Una Introducción ("Reinforcement Learning: An Introduction"). MIT Press, 1998. También traducido al japonés y al ruso. Segunda edición, MIT Press, 2018.
  • Sutton, RS (Ed.), Aprendizaje por Refuerzo ("Reinforcement Learning"). Reimpresión de un número especial de Machine Learning Journal. Kluwer Academic Press, 1992
  • Miller, WT, Sutton, RS, Werbos, PJ (Eds.), Redes neuronales para el control ("Neural Networks for Control"). MIT Press, 1991.

Referencias

editar
  1. «Temporal credit assignment in reinforcement learning - ProQuest». proquest (en inglés). 
  2. a b «John Carmack and Rich Sutton partner to accelerate development of Artificial General Intelligence». businessinsider (en inglés). 25 de septiembre de 2023. Consultado el 20 de julio de 2025. 
  3. «Exclusive: Interview with Rich Sutton, the Father of Reinforcement Learning». 5 de diciembre de 2017. Archivado desde el original el 11 de enero de 2018. Consultado el 20 de julio de 2025. «He is one of the founding fathers of Reinforcement Learning (RL), an increasingly important part of Machine Learning and AI.» 
  4. a b c d e f «Exclusive: Interview with Rich Sutton, the Father of Reinforcement Learning». 5 de diciembre de 2017. Archivado desde el original el 11 de enero de 2018. Consultado el 20 de julio de 2025. «His significant contributions to RL include temporal difference learning and policy gradient methods. He is the author of a widely acclaimed book (with Andrew Barto) "Reinforcement Learning, an introduction" - cited over 25,000 times, with 2nd edition coming soon.» 
  5. a b Brown, Michael (September 19, 2016). «U of A Scholars Join Ranks of Royal Society». The Quad. Consultado el 24 de agosto de 2023. 
  6. a b «Royal Society elects outstanding new Fellows and Foreign Members». royalsociety.org. Consultado el 8 de junio de 2021. 
  7. a b «Turing Awardees – Directorate for Computer and Information Science and Engineering (CISE) | NSF – National Science Foundation». nsf (en inglés). 5 de marzo de 2025. Consultado el 20 de julio de 2025. 
  8. «Andrew Barto and Richard Sutton, pioneers in field of reinforcement learning, win AM Turing Award». The Telegraph. 5 de marzo de 2025. Consultado el 20 de julio de 2025. «Research that Barto, 76, and Sutton, 67, began in the late 1970s paved the way for some of the past decade's AI breakthroughs.» 
  9. «Rich Sutton, A.M. Turing Award Winner: Understanding Intelligence». Amii. 5 de marzo de 2025. Consultado el 20 de julio de 2025. «So I'm 67 years old, but I want to still try to do some amazing things. He notes that Alan Turing was likely the first person to discuss artificial intelligence publicly, telling a London audience in 1947 that “What we want is a machine that can learn from experience.”». 
  10. Heidrich-Meisner, Verena (2009). «Interview with Richard S. Sutton». Künstliche intelligenz, Heft. Consultado el 20 de julio de 2025. 
  11. a b «Brief Biography for Richard Sutton». incompleteideas.net. Consultado el 20 de julio de 2025. 
  12. Sutton, Richard S.; Barto, Andrew (2020). Reinforcement learning: an introduction (Second edición). Cambridge, Massachusetts: The MIT Press. pp. 22-23. ISBN 978-0-262-03924-6. 
  13. «Dr. Richard Sutton». awards.acm.org (en inglés). Consultado el 20 de julio de 2025. 
  14. «DeepMind expands to Canada with new research office in Edmonton, Alberta». DeepMind. Consultado el 20 de julio de 2025. 
  15. a b «Edmonton AI guru Rich Sutton has lost his DeepMind but not his ambition». National Post. 19 de marzo de 2023. Consultado el 2 de julio de 2023. 
  16. a b Metz, Cade (5 de marzo de 2025). «Turing Award Goes to 2 Pioneers of Artificial Intelligence». The New York Times (en inglés estadounidense). ISSN 0362-4331. Consultado el 20 de julio de 2025. 
  17. a b «A.M. Turing Award». amturing. Consultado el 20 de julio de 2025. 
  18. «AI pioneers Andrew Barto and Richard Sutton win 2025 Turing Award for groundbreaking contributions to reinforcement learning. NSF – National Science Foundation». NSF (en inglés). 5 de marzo de 2025. Consultado el 20 de julio de 2025. 
  19. «About NSF – National Science Foundation». NSF (en inglés). 5 de marzo de 2025. Consultado el 20 de julio de 2025. «NSF was established in 1950 by Congress to: Promote the progress of science. Advance the national health, prosperity and welfare. Secure the national defense. We fulfill our mission chiefly by making grants. Our investments account for about 25% of federal support to America's colleges and universities for basic research: research driven by curiosity and discovery. We also support solutions-oriented research with the potential to produce advancements for the American people.» 
  20. «AI pioneers Andrew Barto and Richard Sutton win 2025 Turing Award for groundbreaking contributions to reinforcement learning. NSF – National Science Foundation». nsf (en inglés). 5 de marzo de 2025. Consultado el 20 de julio de 2025. 
  21. a b c Sutton, Rich (13 de marzo de 2019). «The Bitter Lesson». incompleteideas. Consultado el 20 de julio de 2025. 
  22. Tunstall, Lewis; Werra, Leandro von; Wolf, Thomas (26 de enero de 2022). Natural Language Processing with Transformers (en inglés). "O'Reilly Media, Inc.". ISBN 978-1-0981-0319-4. 
  23. a b c d Sutton, Rich (13 de marzo de 2019). «The Bitter Lesson». utexas. Consultado el 20 de julio de 2025. 
  24. Yousefi, Mojtaba (12 de octubre de 2024). «Learning the Bitter Lesson: Empirical Evidence from 20 Years of CVPR Proceedings». En Arxiv, ed. Arxiv (en inglés). Consultado el 20 de julio de 2025. «The field of Computer Vision (CV) exemplifies the principles of Sutton’s "bitter lesson." Traditionally reliant on hand-crafted features like SIFT, HOG, and Haar cascades for object detection and image classification, CV underwent a paradigm shift with embracing deep learning, particularly Convolutional Neural Networks (CNNs). This transition enabled the automatic learning of hierarchical features directly from raw image data, eliminating the need for manual feature engineering and significantly improving performance across various CV tasks.» 
  25. a b c «A.M. Turing Award». amturing. Consultado el 20 de julio de 2025. 
  26. «Learning dexterity». OpenAI. Consultado el 20 de julio de 2025. 
  27. a b «Elected AAAI Fellows». aaai. Consultado el 17 de diciembre de 2018. 
  28. «INNS Award Recipients». inns. Consultado el 17 de diciembre de 2018. 
  29. «Outstanding Achievement and Advocacy Award Recipients». College of Information and Computer Sciences, University of Massachusetts Amherst (en inglés). 5 de octubre de 2010. Consultado el 17 de diciembre de 2018. 
  30. «Richard S. Sutton». Google Scholar. Consultado el 20 de julio de 2025. 

Bibliografía

editar
  • SUTTON, Richard S., BARTO, Andrew G., Reinforcement Learning. An Introduction., The MIT Press, 1998, 322 pp. ISBN 9780262193986
  • SUTTON, Richard S., Reinforcement Learning, Springer Science+Business Media, 1992, 172 pp.

Enlaces externos

editar
  • Página de Richard Sutton
  •   Datos: Q7328833
  •   Multimedia: Richard S. Sutton / Q7328833