Modelos fundacionales

Summary

Un modelo fundacional, o modelo de base, es un modelo de inteligencia artificial entrenado con una gran cantidad de datos de diferentes dominios no etiquetados (generalmente mediante aprendizaje autosupervisado) que da como resultado un modelo que se puede adaptar a una amplia gama de tareas .[1][2]​ Los modelos fundacionales han transformado el desarrollo de los sistemas de IA desde su introducción en 2018. Los primeros ejemplos de modelos fundacionales fueron grandes modelos de lenguaje pre-entrenados tales como BERT y GPT-3 . Usando las mismas ideas, se han construido modelos específicos de dominio que usan secuencias de otros tipos de tokens, como códigos médicos.[3]​ Posteriormente, se han producido modelos fundacionales multimodales, incluidos DALL-E, Flamingo,[4]​ y Florence. El Centro de Investigación de Modelos Fundacionales (CRFM) del Institute for Human-Centered Artificial Intelligence de la Universidad de Stanford (HAI) popularizó el término.[1]

Definiciones

editar

El Centro de Investigación sobre Modelos Fundacionales (CRFM) del Instituto de Inteligencia Artificial Centrada en el Ser Humano (HAI) de la Universidad de Stanford acuñó el término «modelo fundacional» en agosto de 2021[5]​ para referirse a «cualquier modelo que se entrene con un conjunto de datos multidominio de gran escala (generalmente mediante entrenamiento autosupervisado) que pueda adaptarse (afinarse) a una amplia gama de tareas. Se optó por el término «modelo fundacional» en lugar de «modelo fundamental» para dar a entender que estos son como el "cimiento" para modelos específicos y no son, explicitamente, fuente de principios fundamentales dado su carácter emergente e incompleto[6]​.

A medida que los gobiernos regulan los modelos fundacionales, han surgido nuevas definiciones legales.

  • En Estados Unidos, la Orden Ejecutiva sobre el Desarrollo y Uso Seguro y Confiable de la Inteligencia Artificial lo define como «un modelo de IA que se entrena con gran cantidad de datos; generalmente usando la autosupervisión; contiene al menos decenas de miles de millones de parámetros y es aplicable en una amplia gama de contextos».[7]
  • En la Unión Europea, lel Reglamento sobre Inteligencia Artificial lo define como un «modelo de IA que se entrena con datos de varios dominios a gran escala, está diseñado para la generalización de los resultados y puede adaptarse a una amplia gama de tareas».[8]
  • En el Reino Unido, el informe AI Foundation Models: Initial Report [9]​ lo define como «un tipo de tecnología de IA que se entrena con grandes cantidades de datos y que puede adaptarse a una amplia gama de tareas y operaciones.»

Referencias

editar
  1. a b «Introducing the Center for Research on Foundation Models (CRFM)». Stanford HAI. Consultado el 11 de junio de 2022. 
  2. Goldman, Sharon (13 de septiembre de 2022). «Foundation models: 2022’s AI paradigm shift». VentureBeat (en inglés estadounidense). Consultado el 24 de octubre de 2022. 
  3. Steinberg, Ethan; Jung, Ken; Fries, Jason A.; Corbin, Conor K.; Pfohl, Stephen R.; Shah, Nigam H. (January 2021). «Language models are an effective representation learning technique for electronic health record data». Journal of Biomedical Informatics 113: 103637. ISSN 1532-0480. PMC 7863633. PMID 33290879. doi:10.1016/j.jbi.2020.103637. 
  4. Tackling multiple tasks with a single visual language model, 28 de abril de 2022, consultado el 13 de junio de 2022 .
  5. «Introducing the Center for Research on Foundation Models (CRFM)». 
  6. «On the Opportunities and Risks of Foundation Models». doi:10.48550/arXiv.2108.07258. 
  7. «Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence». 
  8. «Reglamento sobre Inteligencia Artificial de la Unión Europea». 
  9. Competition and Markets Authority (2023). «AI Foundation Models: Initial Report.». 
  •   Datos: Q112702082