El seguimiento de objetos es el proceso de estimar en el tiempo la ubicación de uno o más objetos móviles mediante el uso de una cámara. La rápida mejora en cuanto a calidad y resolución de los sensores de imagen, juntamente con el dramático incremento en cuanto a la potencia de cálculo en la última década, ha favorecido la creación de nuevos algoritmos y aplicaciones mediante el seguimiento de objetos.
El seguimiento de objetos puede ser un proceso lento debido a la gran cantidad de datos que contiene un video. Además, la posible necesidad de utilizar técnicas de reconocimiento de objetos para realizar el seguimiento incrementa su complejidad.
Las cámaras de video capturan información sobre los objetos de interés en forma de conjunto de píxeles. Al modelar la relación entre el aspecto del objeto de interés y el valor de los píxeles correspondientes, un seguidor de objetos valora la ubicación de este objeto en el tiempo. La relación entre el objeto y la proyección de su imagen es muy compleja y puede depender de más factores que no sean solamente la posición del objeto, lo que implica que el seguimiento de objetos sea una tarea difícil.
Los principales retos que hay que tener en cuenta en el diseño de un seguidor de objetos están relacionados con la similitud de aspecto entre el objeto de interés y el resto de objetos en la escena, así como la variación de aspecto del propio objeto. Dado que el aspecto tanto del resto de objetos como el fondo puede ser similar al del objeto de interés, esto puede interferir en su observación. En ese caso, las características extraídas de esas áreas no deseadas puede ser difícil de diferenciar de las que se espera que el objeto de interés genere. Este fenómeno se conoce con el nombre de clutter.
Además del reto de seguimiento que causa el clutter, los cambios de aspecto del objeto en el plano de la imagen dificulta el seguimiento causado por uno o más de los siguiente factores siguientes:
En un escenario de seguimiento, un objeto se puede definir como cualquier cosa que sea de interés para su posterior análisis. Los objetos se pueden representar mediante sus formas y apariencias. A continuación se describen las representaciones de forma del objeto utilizadas generalmente:
También hay varias maneras de representar las características de aspecto de los objetos. Hay que tener en cuenta que las representaciones de forma también se pueden combinar con las de aspecto para llevar a cabo el seguimiento. Algunas de las representaciones de aspecto más comunes son:
Seleccionar las características adecuadas tiene un papel fundamental en el seguimiento. En general, la característica visual más deseada es la singularidad porque los objetos se pueden distinguir fácilmente en el espacio de características. Los detalles de las características más comunes son los siguientes:
Cada método de seguimiento requiere un mecanismo de detección de objetos, ya sea en cada fotograma o cuando el primer objeto aparece en el vídeo. Un método común para la detección de objetos es el uso de la información de un solo fotograma. No obstante, algunos métodos de detección de objetos hacen uso de la información temporal calculada a partir de una secuencia de imágenes para reducir así el número de falsas detecciones. Esta información temporal se calcula generalmente con la técnica frame differencing, que pone de manifiesto las regiones cambiantes en tramos consecutivos. Una vez se tiene en cuenta las regiones del objeto en la imagen, es entonces tarea del seguidor de realizar la correspondencia de objeto de un fotograma a otro para generar el seguimiento. Los métodos más populares en el contexto del seguimiento de objetos son:
Los detectores de puntos se utilizan para encontrar los puntos de interés en imágenes que tienen una textura expresiva en sus respectivas localidades. Los puntos de interés se han utilizado durante mucho tiempo en el contexto del movimiento y en los problemas de seguimiento. Una característica deseable en cuanto a los puntos de interés es su invariación en los cambios de iluminación y en el punto de vista de la cámara.
La detección de objetos se puede conseguir mediante la construcción de una representación de la escena llamada modelo de fondo y después encontrando las desviaciones del modelo para cada fotograma entrante. Cualquier cambio significativo en una región de la imagen del modelo de fondo representa un objeto en movimiento. Los píxeles que constituyen las regiones en proceso de cambio se marcan para su posterior procesamiento. En general, un algoritmo de componentes conectados se aplica para obtener regiones conectadas que corresponden a los objetos. Este proceso se conoce como la sustracción de fondo.
El objetivo de los algoritmos de segmentación de la imagen es dividir la imagen en regiones perceptualmente similares. Cada algoritmo de segmentación abarca dos problemas, los criterios para una buena partición y el método para conseguir la partición eficiente. Existen diferentes técnicas de segmentación de objetos en movimiento que se pueden separar en dos grandes grupos: las basadas en movimientos y las basadas en características espaciotemporales.
Estas técnicas hacen uso principalmente de la información de movimiento. Dentro de este grupo podemos diferenciar dos tipos: los que trabajan con el movimiento en dos dimensiones (2D) y los que lo hacen en tres (3D). Dentro de las técnicas en dos dimensiones encontramos:
Los modelos de movimiento en 2D son simples, pero menos realistas. Como consecuencia, los sistemas de segmentación en 3D son los más utilizados en la práctica. Dentro de los métodos en tres dimensiones se pueden distinguir dos algoritmos diferentes:
El SFM generalmente maneja escenas 3D que contienen información relevante de profundidad, mientras que en los métodos paramétricos no se asume esta profundidad. Otra diferencia importante entre los dos algoritmos es que en el SFM se asume un movimiento rígido, mientras que en los algoritmos paramétricos solo se asume rigidez de movimiento en partes de la escena.
Los métodos de segmentación basados únicamente en movimiento son sensibles a las inexactitudes de la valoración de movimiento. Para solucionar estos problemas, en los métodos espaciotemporales se propone complementar el movimiento mediante el uso de la información espacial. Hay dos enfoques dominantes:
El seguimiento de objetos es una tarea muy importante dentro del campo del procesado de vídeo. El objetivo principal de las técnicas de seguimiento de objetos es generar la trayectoria de un objeto a través del tiempo, posicionando éste dentro de la imagen. Podemos hacer una clasificación de técnicas según tres grandes grupos: seguimiento de puntos, seguimiento de núcleo (kernel) y seguimiento de siluetas.
Los objetos detectados en imágenes consecutivas están representados cada uno por uno o varios puntos y la asociación de éstos está basada en el estado del objeto en la imagen anterior, que puede incluir posición y movimiento. Se requiere de un mecanismo externo que detecte los objetos de cada fotograma. Esta técnica puede presentar problemas en escenarios donde le objeto presenta oclusiones y en las entradas y salidas de estos. Las técnicas de seguimiento de puntos se pueden clasificar también en dos grandes categorías:
Las técnicas de seguimiento del núcleo realizan un cálculo del movimiento del objeto, el cual está representado por una región inicial, de una imagen a la siguiente. El movimiento del objeto se expresa en general en forma de movimiento paramétrico (translación, rotación, afín...) o mediante el campo de flujo calculado en los siguientes fotogramas. Podemos distinguir dos categorías:
Estas técnicas se realizan mediante la valoración de la región del objeto en cada imagen utilizando la información que contiene. Esta información puede ser en forma de densidad de aspecto o de modelos de forma que son generalmente presentados con mapas de márgenes. Dispone de dos métodos:
El seguimiento de objetos de interés en vídeo es la base de muchas aplicaciones que van desde la producción de vídeo hasta la vigilancia remota, y desde la robótica hasta los juegos interactivos. Los seguidores de objetos se utilizan para mejorar la comprensión de ciertos conjuntos de datos de vídeo de aplicaciones médicas y de seguridad; para aumentar la productividad al reducir la cantidad de mano de obra que es necesaria para completar una tarea y par dar lugar a la interacción natural con máquinas.
(Dec. 2006)