Zero-shot learning (ZSL) es una configuración de problemas en aprendizaje profundo,[1] en la que, en el momento de la prueba, un alumno observa muestras de clases que no se observaron durante el entrenamiento, y necesita predecir la clase a la que pertenecen. El nombre es un juego de palabras basado en el concepto anterior de one-shot learning[1] en el que la clasificación puede aprenderse a partir de sólo uno, o unos pocos ejemplos.
Los métodos de ZSL suelen funcionar asociando clases observadas y no observadas mediante algún tipo de información auxiliar, que codifica propiedades distintivas observables de los objetos. Por ejemplo, dado un conjunto de imágenes de animales para clasificar, junto con descripciones textuales auxiliares sobre el aspecto de los animales, un modelo de inteligencia artificial[2] que ha sido entrenado para reconocer caballos, pero al que nunca se le ha dado una cebra, puede reconocer una cebra cuando también sabe que las cebras se parecen a caballos rayados. Este problema se estudia ampliamente en visión artificial,[3] procesamiento del lenguaje natural[4][5] y percepción artificial.
El primer artículo sobre Zero-shot learning en el procesamiento del lenguaje natural apareció en 2008, en un artículo de Chang, Ratinov, Roth y Srikumar, en la Asociación para el Avance de la Inteligencia 2008[6] (AAAI'08), pero el nombre que allí se dio al paradigma de aprendizaje fue clasificación sin datos. El primer artículo sobre ZSL en visión por computadora apareció en la misma conferencia, con el nombre de Zero-data learning. El término apareció por primera vez en la literatura en un artículo de Palatucci, Hinton, Pomerleau y Mitchell en la Conferencia Sobre el Sistema de Procesamiento de Información Neuronal del 2009[7] NIPS'09 en 2009. Esta terminología se repitió más tarde en otro artículo sobre visión por computador y el término ZSL se impuso como una derivación del one-shot learning que se había introducido en la visión por computador años antes.
En visión por computadora, los modelos de ZSL aprenden los parámetros de las clases vistas junto con sus representaciones de clase y se basan en la similitud representacional entre las etiquetas de clase para que, durante la inferencia, las instancias puedan clasificarse en nuevas clases.
En el procesamiento del lenguaje natural, la dirección técnica clave desarrollada se basa en la capacidad de "entender las etiquetas", es decir, representar las etiquetas en el mismo espacio semántico que el de los documentos que hay que clasificar. Esto permite la clasificación de un único ejemplo sin observar ningún dato anotado, la forma más pura de clasificación de Zero-shot. El artículo original utilizaba la representación del Análisis Semántico Explícito (Explicit Semantic Analysis por sus siglas en inglés ESA[8]), pero otros artículos posteriores utilizaron otras representaciones, incluidas representaciones densas. Este enfoque también se extendió a dominios multilingües, tipificación fina de entidades y otros problemas. Además, más allá de depender únicamente de las representaciones, el enfoque computacional se ha ampliado para depender de la transferencia de otras tareas, como la vinculación textual y la respuesta a preguntas.
El documento original también señala que, más allá de la capacidad de clasificar un solo ejemplo, cuando se da una colección de ejemplos, con la suposición de que provienen de la misma distribución, es posible hacer una mejora del rendimiento de una manera similar a la semisupervisada (o aprendizaje transductivo).[9]
A diferencia de la generalización estándar en el aprendizaje automático, donde se espera que se clasifiquen correctamente las nuevas muestras en clases que ya han observado durante el entrenamiento, en ZSL no se han dado muestras de las clases durante el entrenamiento del clasificador. Por tanto, puede considerarse un caso extremo de adaptación al dominio.
Naturalmente, hay que dar algún tipo de información auxiliar sobre estas clases de ZSL y este tipo de información puede ser de varios tipos.
La configuración ZSL anterior supone que, en el momento de la prueba, sólo se dan muestras de Zero-shot, es decir, muestras de nuevas clases no vistas. En el ZSL generalizado, en el momento de la prueba pueden aparecer muestras tanto de clases nuevas como conocidas. Esto plantea nuevos retos para los clasificadores en el momento de la prueba, porque es muy difícil estimar si una muestra dada es nueva o conocida. Algunos enfoques para manejar esto incluyen:
ZSL se ha aplicado a los siguientes campos: