15.ai fue una aplicación webde inteligencia artificialgratuita y no comercial que generó voces de texto a voz naturales y emotivas de alta fidelidad a partir de una variedad de personajes ficticios de una variedad de fuentes de medios. Desarrollado por un investigador seudónimodel MIT bajo el nombre 15, el proyecto utilizó una combinación de algoritmos de síntesis de audio, redes neuronales profundasde síntesis de voz y modelos de análisis de sentimientos para generar y servir voces de personajes emotivas más rápido que en tiempo real, particularmente aquellos con un tamaño muy pequeño. cantidad de datos entrenables. Lanzado a principios de 2020, 15.ai comenzó como una prueba de concepto de democratización de la actuación de voz y el doblaje mediante la tecnología. Los usuarios han elogiado su naturaleza gratuita y no comercial (con la única condición de que el proyecto se acredite adecuadamente cuando se utilice), su facilidad de uso, la ausencia de requisitos de registro de cuenta de usuario y las mejoras sustanciales en las implementaciones actuales de texto a voz; sin embargo, algunos críticos y actores de voz han cuestionado la legalidad y ética de dejar dicha tecnología disponible públicamente y fácilmente accesible.
Características
editar
HAL 9000, conocido por su siniestra voz robótica, es uno de los personajes disponibles en 15.ai.[1]
El modelo de aprendizaje profundo utilizado por la aplicación no es determinista: cada vez que se genera un discurso a partir de la misma cadena de texto, la entonación del discurso será ligeramente diferente. La aplicación también admite la alteración manual de la emoción de una línea generada utilizando contextualizadores emocionales (término acuñado por este proyecto), una oración o frase que transmite la emoción de la toma y que sirve como guía para el modelo durante la inferencia. Los contextualizadores emocionales son representaciones del contenido emocional de una oración deducida mediante incrustacionesde emoji aprendidas mediante transferencia utilizando DeepMoji, un algoritmo de análisis de sentimiento de red neuronal profunda desarrollado por el MIT Media Lab en 2017. DeepMoji se entrenó en 1.200 millones de apariciones de emoji en datos de Twitter de 2013 a 2017, y se descubrió que supera a los seres humanos en la identificación correcta del sarcasmo en tweets y otros modos de comunicación en línea.
15.ai utiliza un modelo de múltiples hablantes: se entrenan cientos de voces simultáneamente en lugar de secuencialmente, lo que reduce el tiempo de entrenamiento requerido y permite que el modelo aprenda y generalice el contexto emocional compartido, incluso para voces sin exposición a dicho contexto emocional. En consecuencia, toda la gama de personajes de la aplicación funciona con un único modelo entrenado, a diferencia de varios modelos de un solo hablante entrenados en diferentes conjuntos de datos. El léxico utilizado por 15.ai ha sido extraído de una variedad de fuentes de Internet, incluidos los Diccionarios de Oxford, Wiktionary, el Diccionario de pronunciación CMU, 4chan, Reddit y Twitter . Las pronunciaciones de palabras desconocidas se deducen automáticamente utilizando reglas fonológicas aprendidas mediante el modelo de aprendizaje profundo.
La aplicación admite una versión simplificada de un conjunto de transcripciones fonéticas en inglés conocidas como ARPABET para corregir errores de pronunciación o dar cuenta de heterónimos : palabras que se escriben igual pero se pronuncian de manera diferente (como la palabra leído, que se puede pronunciar como /ˈrɛd/ o /ˈriːd/ dependiendo de su tiempo verbal ). Mientras que los códigos ARPABET originales desarrollados en la década de 1970 por la Agencia de Proyectos de Investigación Avanzada admiten 50 símbolos únicos para designar y diferenciar entre fonemas en inglés,[2] la convención ARPABET del Diccionario de pronunciación CMU (el conjunto de códigos de transcripción seguido de 15.ai ) reduce el conjunto de símbolos a 39 fonemas combinando realizaciones fonéticas alofónicas en un único estándar (p. ej. AXR/ER ; UX / UW ) y usar múltiples símbolos comunes juntos para reemplazar consonantes silábicas (p. ej. EN/AH0 N ).[3] Las cadenas ARPABET se pueden invocar en la aplicación envolviendo la cadena de fonemas entre llaves dentro del cuadro de entrada (por ejemplo, {AA1 RP AH0 B EH2 T} para denotar /ˈɑːrpəˌbɛt/, la pronunciación de la palabra ARPABET ). La siguiente es una tabla de fonemas utilizados por 15.ai y el Diccionario de pronunciación CMU:[4]
↑«The CMU Pronouncing Dictionary». CMU Pronouncing Dictionary. CMU Pronouncing Dictionary. 16 de julio de 2015. Archivado desde el original el 3 de junio de 2022. Consultado el 4 de junio de 2022.