El reconocimiento de gestos forma parte de las ciencias de la computación y la tecnología del lenguaje y tiene como objetivo interpretar gestos humanos a través de algoritmos matemáticos. Los gestos pueden ser cualquier movimiento corporal o estado, pero comúnmente se originan a partir de la cara o la mano. Enfoques actuales en el campo incluyen reconocimiento de la emoción facial y el reconocimiento de gestos de la mano. Muchos enfoques que se han hecho hacen uso de cámaras y visión (por medio de cámaras) y se procesan por medio de algoritmos para interpretar el lengua de señas. Sin embargo, la identificación y el reconocimiento de la postura, la marcha, la proxémica, y los comportamientos humanos es también el tema de técnicas de reconocimiento de gestos.[1] El reconocimiento de gestos puede ser visto como una manera para que las computadoras empiecen a entender el lenguaje corporal humano, construyendo así una relación más sólida entre máquinas y seres humanos. Dejando atrás sistemas primitivos como las interfaces de usuario de texto o incluso GUIs (interfaces gráficas de usuario), que aún limitan la mayoría de las entradas informáticas al teclado y el ratón.
El reconocimiento de gestos permite a seres humanos comunicarse con la máquina (HMI) e interactuar naturalmente sin dispositivos mecánicos. Utilizando el concepto de reconocimiento de gestos, es posible usar los dedos en un espacio libre para relacionar movimientos del cursor con el movimiento del usuario. Esto podría hacer que los dispositivos convencionales de entrada, tales como ratón, teclados e incluso pantallas táctiles sean redundantes.
El Reconocimiento de gestos puede llevarse a cabo con técnicas de visión por medio de cámaras, webcams o dispositivos móviles y procesamiento de imágenes .
La siguiente literatura incluye trabajos en curso en el campo de la visión artificial en la captura de gestos o acciones más humanas en general y movimientos por cámaras conectadas a un ordenador.[2][3][4][5]
Esta tecnología no sólo va a reducir el impacto del hardware en el sistema, también aumentará el rango de usos aplicables desde un objeto en el mundo físico a un objeto en el mundo digital, como teclados, mouses, etc. El uso de esta tecnología que podemos implementar puede crear una nueva tesis de la creación de un nuevo hardware sin necesidad de monitores. Esta idea nos puede llevar a la creación de la pantalla holográfica. El plazo de reconocimiento de gestos se ha utilizado para referirse más estrechamente a los símbolos de escritura a mano, no son entradas de textos, como el entintado en una tableta gráfica, gestos multi-touch y movimientos de ratón. Ésta es la interacción del ordenador a través del dibujo de símbolos con un dispositivo cursor o señalador.[6][7][8]
En interfaces de ordenador, se distinguen dos tipos de gestos:[9] Consideramos gestos en línea, que también pueden ser consideradas como manipulaciones directas como escalar y rotar. Por el contrario, fuera los gestos en líneas, se procesan generalmente después de que la interacción está terminada; por ejemplo, se dibuja un círculo para activar un menú contextual.
La capacidad de realizar un seguimiento de los movimientos de una persona y determinar qué gestos pueden ser realizando se pueden lograr a través de diversas herramientas. Aunque hay una gran cantidad de investigaciones realizadas en la imagen / vídeo basado en el reconocimiento de gestos, hay una variación dentro de las herramientas y entornos utilizados entre implementaciones.
Guantes cableados. Estos pueden proporcionar datos de entrada a la computadora sobre la posición y la rotación de las manos utilizando dispositivos de seguimiento magnético o inercial. Además, algunos guantes pueden detectar los dedos con un alto grado de precisión (5-10 grados), o incluso proporcionar retroalimentación háptica del usuario, lo cual se convierte en lo que es una simulación del sentido del tacto. El primer dispositivo de seguimiento de mano de tipo guante disponible en el mercado fue el Dataglove,[10] un dispositivo de tipo guante que puede detectar la posición de la mano, el movimiento y los dedos, por separado. Esto utiliza cables de fibra óptica que se ejecutan en la parte posterior de la mano. Pulsos de luz son creados y cuando se doblan los dedos, fugas de luz a través de pequeñas grietas y la pérdida se registra, da una aproximación de la actitud de la mano. Cámaras de profundidad consciente. El uso de cámaras especializadas, como la luz estructurada o cámaras de tiempo de vuelo, se puede generar un mapa de profundidad de lo que se ve a través de la cámara a una distancia corta, y utilizar estos datos para aproximarse a una representación en 3D de lo que se está viendo. Estos pueden ser eficaces para la detección de gestos con las manos, debido a sus capacidades de corto alcance.[11]
Gestos basados en controlador. Estos controladores actúan como una extensión del cuerpo de modo que cuando se llevan a cabo gestos, algunos de su movimientos pueden ser capturados convenientemente mediante software. Los gestos del ratón son un ejemplo, donde el movimiento del ratón se correlaciona con un símbolo que está dibujado por una persona de mano, al igual que el mando de Wii o el Myo, que pueden estudiar los cambios en la aceleración en el tiempo para representar los gestos.[13][14][15] Los dispositivos, tales como la varita mágica de LG Electronics, el lazo y la primicia utilizar Hillcrest Laboratories ' tecnología Freespace, que utilizan acelerómetros MEMS, giroscopios y otros sensores para traducir los gestos en el movimiento del cursor. El software también compensa el temblor humano y el movimiento involuntario.[16][17][18] Los sensores inteligentes de estos cubos emisores de luz se pueden utilizar para detectar manos y dedos, así como otros objetos cercanos, y se pueden utilizar para procesar los datos. La mayoría de las aplicaciones son en la música y la síntesis de sonido,[19] pero pueden ser aplicados a otros campos.
Dependiendo del tipo de datos de entrada, el enfoque para interpretar un gesto podría hacerse de diferentes maneras. Sin embargo, la mayoría de las técnicas se basan en indicadores clave representados en un sistema de coordenadas 3D. Basado en el movimiento relativo de estos, el gesto puede ser detectado con una alta precisión, dependiendo de la calidad de la entrada y el enfoque del algoritmo.
Con el fin de interpretar los movimientos del cuerpo, uno tiene que clasificarlos de acuerdo a las propiedades comunes y el mensaje de los movimientos que pueden expresar. Por ejemplo, en lengua de signos cada gesto representa una palabra o frase. La taxonomía, que parece muy apropiada para la Interacción Persona-Ordenador, ha sido propuesto por Quek en "Hacia una interfaz de gesto de mano Vision-Based".[20] Se presentan varios sistemas de gestos interactivos con el fin de capturar todo el espacio de los gestos: 1. Manipulador; 2. Semafórico; 3. Conversacional.
Existen dos enfoques diferentes en el reconocimiento de gestos:. Un modelo basado en 3D y una por la apariencia[21] El método más importante hace uso de la información 3D de los elementos clave de las partes del cuerpo con el fin de obtener varios parámetros importantes, como la posición de palma o ángulos de las articulaciones. Por otro lado, los sistemas basados en apariencia utilizan imágenes o vídeos para la interpretación directa.
El enfoque de los modelos en 3D se puede utilizar para la creación de modelos volumétricos o esqueléticos, o incluso una combinación de los dos. Se han usado planteamientos volumétricos en gran medida en la industria de la animación por computadoras con fines de visión digital. Los modelos se crean generalmente con superficies 3D complicadas, como NURBS o mallas poligonales.
Este método es inconveniente ya que es de alta demanda computacional y los sistemas de análisis en vivo todavía se están desarrollando. Por el momento, un enfoque más interesante sería asignar objetos primitivos simples a más importantes partes del cuerpo de la persona (por ejemplo, cilindros de los brazos y el cuello, esfera para la cabeza) y analizar la forma en que éstos interactúan entre sí. Además, algunas estructuras abstractas como super-cuádricas y cilindros generalizados pueden ser aún más conveniente para la aproximación de las partes del cuerpo. Lo emocionante de este enfoque es que los parámetros para estos objetos son muy simples. Con el fin de modelar mejor la relación entre ellos, hacemos uso de las limitaciones y las jerarquías entre los objetos.
La versión esquelética (a la derecha) está modelando efectivamente la mano (izquierda). Esto tiene un menor número de parámetros que la versión volumétrica y es más fácil de calcular, por lo que es adecuado para sistemas de análisis de gesto en tiempo real.
En lugar de utilizar el procesamiento intensivo de los modelos 3D y hacer frente a una gran cantidad de parámetros, uno puede usar una versión simplificada de los parámetros de ángulo de la articulación junto con longitudes de segmento. Esto se conoce como una representación del esqueleto del cuerpo, donde se calcula un esqueleto virtual de la persona y las partes del cuerpo se asignan a determinados segmentos. El análisis se hace usando la posición y orientación de estos segmentos y la relación entre cada uno de ellos (por ejemplo, el ángulo entre las articulaciones y la posición relativa o la orientación).
Ventajas del uso de modelos esqueléticos:
Estos modelos no utilizan una representación espacial del cuerpo, porque se derivan los parámetros directamente de las imágenes o vídeos con una base en los datos de la plantilla. Algunos se basan en las plantillas 2D deformables de las partes del cuerpo humano, en particular de las manos. Las plantillas deformables son un conjunto de puntos en el contorno de un objeto, que se utilizan como nodos de interpolación para el contorno de aproximación del objeto. La función de interpolación más simple es lineal. La cual realiza una forma promedio del conjunto de puntos, y parámetros de deformación variable externos. Estos modelos basados en plantillas se utilizan sobre todo para la mano de seguimiento, pero también podrían ser de utilidad para la clasificación simple de gestos.
Un segundo enfoque en gesto de detectar el uso de modelos basados en apariencia utiliza secuencias de imágenes como plantillas gesto. Los parámetros para este método son o bien los propios, o ciertas características de las imágenes derivadas de estos. La mayoría del tiempo, sólo uno (monoscópico) o dos utilizan vistas estereoscópicas.
Hay muchos retos asociados con la precisión y utilidad del software de reconocimiento de gestos. Debido a que está basado en imágenes de gestos hay limitaciones en el equipo utilizado y en el ruido de las imágenes. Las imágenes o vídeos pueden no estar en condiciones de iluminación constante, o en el mismo lugar. Los antecedentes o rasgos distintivos de los usuarios pueden hacer más difícil el reconocimiento.
La variedad de implementaciones de la imagen basada en el reconocimiento de gestos también puede causar un problema para la viabilidad de la tecnología en el uso general. Por ejemplo, un algoritmo de calibrado para una cámara puede no funcionar para otra cámara. La cantidad de ruido de fondo también puede ser causa de seguimiento y de reconocimiento de dificultades, especialmente cuando se producen oclusiones (parciales y completas). Además, la distancia desde la cámara, la resolución y la calidad de la misma también causan variaciones en la precisión del reconocimiento.
Con el fin de captar los gestos humanos por sensores visuales, también se requieren métodos de visión robusta en computación, por ejemplo, para el seguimiento de la mano y el reconocimiento postura de la mano[22][23][24][25][26][27][28][29][30] o para la captura de movimientos de la cabeza, expresiones faciales o dirección de la mirada.
"Gorilla arm" era un efecto secundario de la pantalla táctil orientado verticalmente o con uso de la luz-pen. En periodos de uso prolongado, los brazos de los usuarios comenzaron a sentir fatiga y / o incomodidad. Este efecto sumado a la disminución de la entrada de pantalla táctil y pesaron en su popularidad inicial en la década de 1980.[31][32]
Con el fin de medir la fatiga del brazo y el efecto secundario brazo gorila, los investigadores desarrollaron una técnica llamada Consumer Endurance (Persistencia del consumidor).[33]
WiSee es una interfaz de interacción que potencia las transmisiones inalámbricas en curso en el ambiente (p.ej., WiFi) para posibilitar la percepción y reconocimiento en toda la casa de los gestos humanos.[34][35]