Un modelo fundacional, o modelo de base, es un modelo de inteligencia artificial entrenado con una gran cantidad de datos de diferentes dominios no etiquetados (generalmente mediante aprendizaje autosupervisado) que da como resultado un modelo que se puede adaptar a una amplia gama de tareas .[1][2] Los modelos fundacionales han transformado el desarrollo de los sistemas de IA desde su introducción en 2018. Los primeros ejemplos de modelos fundacionales fueron grandes modelos de lenguaje pre-entrenados tales como BERT y GPT-3 . Usando las mismas ideas, se han construido modelos específicos de dominio que usan secuencias de otros tipos de tokens, como códigos médicos.[3] Posteriormente, se han producido modelos fundacionales multimodales, incluidos DALL-E, Flamingo,[4] y Florence. El Centro de Investigación de Modelos Fundacionales (CRFM) del Institute for Human-Centered Artificial Intelligence de la Universidad de Stanford (HAI) popularizó el término.[1]
El Centro de Investigación sobre Modelos Fundacionales (CRFM) del Instituto de Inteligencia Artificial Centrada en el Ser Humano (HAI) de la Universidad de Stanford acuñó el término «modelo fundacional» en agosto de 2021[5] para referirse a «cualquier modelo que se entrene con un conjunto de datos multidominio de gran escala (generalmente mediante entrenamiento autosupervisado) que pueda adaptarse (afinarse) a una amplia gama de tareas. Se optó por el término «modelo fundacional» en lugar de «modelo fundamental» para dar a entender que estos son como el "cimiento" para modelos específicos y no son, explicitamente, fuente de principios fundamentales dado su carácter emergente e incompleto[6].
A medida que los gobiernos regulan los modelos fundacionales, han surgido nuevas definiciones legales.