DreamBooth es un modelo de generación de aprendizaje profundo que se utiliza para personalizar modelos de texto a imagen existentes mediante ajustes. Fue desarrollado por investigadores de Google Research y la Universidad de Boston en 2022. Desarrolladas originalmente utilizando el modelo de texto a imagen Imagen de Google, las implementaciones de DreamBooth se pueden aplicar a otros modelos de texto a imagen, donde pueden permitir que el modelo genere resultados más ajustados y personalizados después del entrenamiento en tres a cinco imágenes de un sujeto.[1][2][3]
Los modelos de difusión de texto a imagen previamente entrenados, aunque a menudo son capaces de ofrecer una amplia gama de diferentes tipos de salida de imágenes, carecen de la especificidad necesaria para generar imágenes de sujetos menos conocidos y tienen una capacidad limitada para representar sujetos conocidos en diferentes situaciones y situaciones. contextos.[1] La metodología utilizada para ejecutar implementaciones de DreamBooth implica el ajuste del componente UNet completo del modelo de difusión utilizando unas pocas imágenes (normalmente de 3 a 5) que representan un tema específico. Las imágenes se combinan con mensajes de texto que contienen el nombre de la clase a la que pertenece el sujeto, además de un identificador único. Como ejemplo, a photograph of a [Nissan R34 GTR] car
, siendo car
la clase); Se aplica una pérdida de preservación previa específica de la clase para alentar al modelo a generar diversas instancias del tema en función de lo que el modelo ya está entrenado para la clase original.[1] Se utilizan pares de imágenes de baja y alta resolución tomadas del conjunto de imágenes de entrada para ajustar los componentes de superresolución, lo que permite mantener los detalles minuciosos del sujeto.[1]
DreamBooth se puede utilizar para ajustar modelos como Stable Diffusion, donde puede aliviar una deficiencia común de Stable Diffusion al no poder generar adecuadamente imágenes de personas individuales específicas.[4] Sin embargo, este caso de uso requiere bastante VRAM y, por lo tanto, tiene un costo prohibitivo para los usuarios aficionados.[4] La adaptación de Stable Diffusion de DreamBooth en particular se lanza como un proyecto gratuito y de código abierto basado en la tecnología descrita en el artículo original publicado por Ruiz et. Alabama. en 2022.[5] Han surgido preocupaciones con respecto a la capacidad de los malos actores de utilizar DreamBooth para generar imágenes engañosas con fines maliciosos, y que su naturaleza de código abierto permite que cualquiera utilice o incluso realice mejoras en la tecnología.[6] Además, los artistas han expresado su aprensión con respecto a la ética del uso de DreamBooth para entrenar puntos de control de modelos que están específicamente destinados a imitar estilos artísticos específicos asociados con artistas humanos; Una de esas críticas es Hollie Mengert, ilustradora de Disney y Penguin Random House, cuyo estilo artístico se transformó en un modelo de punto de control a través de DreamBooth y se compartió en línea, sin su consentimiento.[7][8]