Inteligencia artificial multimodal

Summary

La inteligencia artificial multimodal, también conocida como IA multimodal, es un tipo de inteligencia artificial que puede procesar e integrar datos de diferentes modalidades, como texto, imágenes, audio y video, para obtener una comprensión más completa y contextualizada de una situación.[1]​ La inteligencia artificial multimodal se inspira en la forma en que los humanos usan varios sentidos para percibir e interactuar con el mundo, y ofrece una forma más natural e intuitiva de comunicarse con la tecnología.

Ejemplo de mensaje que demuestra la capacidad de entrada visual de GPT-4

Los sistemas tradicionales de inteligencia artificial a menudo denominados sistemas unimodales, se limitan a procesar datos de una sola modalidad. Por ejemplo, una IA basada en texto sólo puede entender y responder al lenguaje escrito, mientras que una IA de reconocimiento de imágenes se centra únicamente en datos visuales. Estos sistemas unimodales, aunque eficaces en sus ámbitos específicos, carecen de la capacidad de integrar información procedente de múltiples fuentes, lo que puede limitar su comprensión y aplicación.[2]

Historia

editar

El origen de la IA multimodal se remonta a los inicios de la Inteligencia Artificial como disciplina. Ya en 1950, Alan Turing planteó la posibilidad de crear una máquina inteligente que pudiera comunicarse con los humanos mediante el lenguaje natural.[3][4]​ En 1968, Terry Winograd desarrolló un sistema llamado SHRDLU que podía manipular y razonar dentro de un mundo de bloques siguiendo instrucciones de un usuario.[1]​Este sistema combinaba el procesamiento del lenguaje natural y la visión por computadora para entender y generar respuestas.

A partir de los años 80, la IA multimodal empezó a explorar otras modalidades, como el audio, el video y el tacto. Algunos ejemplos de sistemas multimodales de esta época son el sistema de reconocimiento de voz de IBM (1982),[5]​ el sistema de reconocimiento facial de MIT (1988)[6]​ y el sistema de síntesis de voz de AT&T (1989).[7]​ Estos sistemas demostraron la capacidad de la IA para procesar y generar diferentes tipos de datos.

En los años 90, la IA multimodal se benefició del avance de las tecnologías de la información y la comunicación, que facilitaron el acceso y la transmisión de grandes cantidades de datos. Algunos ejemplos de sistemas multimodales de esta década son el sistema de traducción automática de IBM (1991) basado en traducción estadística automática,[8]​ el sistema de reconocimiento de gestos de Microsoft (1993) y el sistema de realidad virtual de Sony (1995).[9]​ Estos sistemas mostraron la capacidad de la IA para integrar y fusionar diferentes modalidades.

 
Una respuesta estándar de Microsoft Copilot sobre una cuestión ética largamente debatida

En el siglo XXI, la IA multimodal sigue avanzando gracias al desarrollo de los enfoques de aprendizaje automático y aprendizaje profundo, que han permitido crear modelos más potentes y precisos. Algunos ejemplos de sistemas multimodales de este siglo son el sistema de asistente virtual Siri de Apple (2011), el sistema de generación de imágenes GAN de Google (2014)[10]​ y el sistema de generación de texto GPT-4 de OpenAI (2023).[11]​ Estos sistemas han demostrado la capacidad de la IA para crear y comprender contenidos complejos y creativos.

Desafíos y limitaciones

editar

La IA multimodal tiene muchas aplicaciones potenciales en diversos campos. Sin embargo, también enfrenta varios desafíos y limitaciones, como los siguientes:

  • Complejidad de la integración de datos: La IA multimodal requiere integrar datos de diferentes fuentes, formatos y dimensiones, lo que implica una gran complejidad y un alto costo computacional. Además, los datos multimodales pueden tener una calidad variable, inconsistencias, ruido y falta de etiquetas, lo que dificulta su procesamiento y análisis. Para superar este desafío, se necesitan métodos eficientes y robustos para la extracción, fusión, alineación y representación de características multimodales.[12]
  • Necesidad de grandes conjuntos de datos para el entrenamiento: La IA multimodal depende en gran medida de los datos para el aprendizaje y la generación de modelos. Sin embargo, los datos multimodales son escasos, costosos y difíciles de obtener, especialmente para dominios específicos o tareas complejas. Además, los datos multimodales pueden tener problemas de privacidad, seguridad y ética, lo que limita su disponibilidad y uso.[1]
  • Falta de estándares para la interoperabilidad entre sistemas: La IA multimodal implica la interacción entre diferentes sistemas, dispositivos y plataformas, lo que requiere una interoperabilidad adecuada y una comunicación fluida. Sin embargo, no hay estándares universales o consensuados para la definición, el diseño, la implementación y la evaluación de los sistemas multimodales. Esto puede generar problemas de compatibilidad, integración, escalabilidad y rendimiento.[13]

Aplicaciones

editar
 
Amazon echo plus y Google Home

La IA multimodal tiene muchas aplicaciones potenciales en diversos campos, como la atención médica, el transporte, la educación y el entretenimiento.

Gemini

editar

Gemini es un modelo de lenguaje grande multimodal desarrollado por Google DeepMind. Se considera multimodal porque puede procesar y generar diferentes tipos de datos, como texto, imagen, audio, video y código. Esto le permite comprender y crear contenido en un espectro de dominios y tareas, como razonamiento, matemáticas, programación, conversación, narración, entretenimiento y más.[14]​Ha sido entrenado con una cantidad de datos multimodales, incluyendo transcripciones de videos de YouTube, imágenes de Google Images, código de GitHub y más.[14]

GPT-4o

editar
GPT-4o (siglas de «GPT-4» y «omni») es un transformador generativo multimodal y multilingüe preentrenado, diseñado por OpenAI. Fue anunciado por la CTO de OpenAI, Mira Murati, durante una demostración transmitida en vivo el 13 de mayo de 2024 y fue lanzado ese mismo día.[15]​ GPT-4o es de uso gratuito, aunque los suscriptores de ChatGPT Plus tienen un límite de uso que es 5 veces mayor.[16]​ Puede procesar y generar texto, imágenes y audio.[17]​ Su API es dos veces más rápida y la mitad de precio que su predecesor, GPT-4 Turbo.[15]
 
Tesla con el piloto automático activado, cerca del lago Tahoe

Autopilot de Tesla

editar

Tesla Autopilot es un sistema de conducción autónoma ofrecido por Tesla que utiliza la inteligencia artificial multimodal para controlar el vehículo en diferentes situaciones de tráfico. El autopilot de Tesla combina información de varias fuentes, como cámaras, radares, sensores láser y GPS, para detectar y responder a obstáculos, señales, carriles y otros vehículos.[18]​Al fusionar estas modalidades, el autopilot de Tesla puede generar una comprensión más completa y precisa de su entorno. El autopilot de Tesla utiliza diferentes técnicas de aprendizaje multimodal, como la fusión, la alineación y la fusión tardía, para integrar los datos de las modalidades y generar una salida adecuada.[19]

Referencias

editar
  1. a b c Jay (18 de noviembre de 2023). «Comprender la IA multimodal». HashDork. Consultado el 5 de febrero de 2024. 
  2. Elias, Greggory (1 de diciembre de 2023). «Qué es la IA Multimodal + Casos de uso de la IA Multimodal - Skim AI». Desnatado AI. Consultado el 5 de febrero de 2024. 
  3. «Historia de la Inteligencia Artificial». Consultado el 5 de febrero de 2024. 
  4. Valenzuela, Carolina González (15 de octubre de 2023). «Un viaje a los orígenes de la inteligencia artificial: ¿Sabes realmente cuándo nació esta tecnología?». Computer Hoy. Consultado el 5 de febrero de 2024. 
  5. «Speech recognition». www.ibm.com (en inglés estadounidense). Consultado el 5 de febrero de 2024. 
  6. «Historia del reconocimiento facial». Consultado el 5 de febrero de 2024. 
  7. SÍNTESIS DE VOZ. ONCE. Febrero, 2016. 
  8. Navarro, Andrea (1 de agosto de 2016). «Traducción estadística automática ¿Cómo funciona?». Junco TIC. Consultado el 5 de febrero de 2024. 
  9. «Sony intentó crear la realidad virtual en 1996: conozca las gafas que inventaron para ello». infobae. 25 de junio de 2022. Consultado el 5 de febrero de 2024. 
  10. Ruiz, PabloG Gutierrez (2 de noviembre de 2021). «Generación de imágenes con técnicas basadas en GANs - IIC». Instituto de Ingeniería del Conocimiento. Consultado el 5 de febrero de 2024. 
  11. «GPT-4». openai.com (en inglés estadounidense). Consultado el 5 de febrero de 2024. 
  12. Morales, Por Opy (29 de abril de 2023). «Los límites y desafíos de la inteligencia artificial». infobae. Consultado el 5 de febrero de 2024. 
  13. «¿Cuáles son los principales desafíos para la inteligencia artificial en 2024?». Agencia NOVA. Consultado el 5 de febrero de 2024. 
  14. a b «Gemini - Google DeepMind». deepmind.google (en inglés). Consultado el 5 de febrero de 2024. 
  15. a b Wiggers, Kyle (13 de mayo de 2024). «OpenAI debuts GPT-4o 'omni' model now powering ChatGPT». TechCrunch (en inglés estadounidense). Consultado el 13 de mayo de 2024. 
  16. Field, Hayden (13 de mayo de 2024). «OpenAI launches new AI model GPT-4o and desktop version of ChatGPT». CNBC (en inglés). Consultado el 14 de mayo de 2024. 
  17. Claburn, Thomas. «OpenAI unveils GPT-4o, a fresh multimodal AI flagship model». The Register (en inglés). Consultado el 18 de mayo de 2024. 
  18. «Autopiloto de Tesla». Consultado el 5 de febrero de 2024. 
  19. «Autopilot: qué es, qué funciones ofrece en España y cómo de seguro es». Motor.es. Consultado el 5 de febrero de 2024. 
  •   Datos: Q124464237