reconocimiento de acciones humanas en video

Reconocimiento de Acciones Humanas en Video

Analí Alfaro AlfaroGRIMA – Machine Intelligence Group

Agenda

1. Motivación2. Propuesta

i. Problemaii. Hipótesisiii. Consideraciones y Problemasiv. Desarrollo del Método propuesto

3. Experimentos y Resultados4. Conclusiones5. Trabajos Futuros

Motivación

1.- Motivación

En la actualidad la información multimedia genera grandes volúmenes de datos.

Las cámaras de video producen datos en vivo y grabados de diversos ambientes, la cual inicialmente era útil para brindar seguridad.

Ejemplo : el subterráneo de Londres y el aeropuerto Heathrow cuenta en la actualidad con más de 5000 cámaras cada uno .

1.1. Aplicaciones del Reconocimiento en video

1.- Motivación

Propuesta

2.-Propuesta Problema:

Reconocer acciones humanas en video usando información de múltiples cámaras

Hipótesis: Es posible reconocer acciones humanas usando

información de movimiento y apariencia codificada en el video.

2.- Propuesta

Existen poses que modelan una actividad pues los seres humanosson capaces de reconocer una actividad observando sólo un

conjunto de poses.

2.- PropuestaDificultades Visuales:

2.Propuesta

2.Propuesta del Sistema :

Poses Representativas

A. Poses Representativas Sea un video V de n frames, acerca de una

actividad. Describir los frames de video usando

PHOG(Pyramidal Histogram of Oriented Gradient).

Clusterizar los frames descritos usando 5-means . Seleccionar los frames más cercanos a los 5 centroides Los frames seleccionados contienen poses

representativas de la actividad.

Ordenar los frames recuperados por tiempo.

A. Poses Representativas

Fig. Poses discriminativas de la acción Levantar la mano

B. Modelo de Apariencia El modelo de apariencia está dado por los 5

frames conteniendo poses representativas. Cada frame es representado por un descriptor PHOG (168 –dim).

Fig. Muestra las poses representativas de las actividades en la fila de arriba Levantar la mano y en la parte inferior voltear hacia atrás.

C. Modelo de Movimiento Busca describir el movimiento de una persona al

realizar una actividad. Usaremos el Flujo óptico para obtener la información del movimiento.

C. Modelo de Movimiento Como se observa en la imagen anterior los

canales son patrones que pueden ser

descritos de manera más sucinta. Para describirlos usaremos el filtro de Gabor.

Por cada componente calculamos su filtro de Gabor a diferentes escalas(S) y orientaciones (O). Así, cada componente genera SxO imágenes filtradas.

D. Clasificación Problemas:

Las poses representativas pueden repetirse entre clases diferentes…

Un enfoque de clasificación convencional puede producir confusión en el clasificador.

Una mejor solución puede ser emplear un enfoque de aprendizaje basado en Múltiples Instancias (MIL).

D. Clasificación Multiple Instance Learning (MIL):

MIL es un esquema de clasificación binaria. Una bolsa es positiva si al menos una instancia es

positiva y negativa si todas las instancias son negativas.

Usaremos los 5- frames representativos como instancias agrupados en una bolsa.

Experimentos y Resultados

3.- Experimentos y Resultados

Configuración de parámetros usados:

K= 5 , valor de frames de poses representativas. Para el modelo de apariencia usando PHOG , se

empleó 8 bins, 0-180 o y 3 escalas. Para el calculo de Gabor se usaron O= 4

orientaciones y S= 6 escalas.

3.- Experimentos y Resultados Configuración de MILBoost

Usamos varios clasificadores binarios en un ensamble.

Mayoría de Votos

MIL (1)

MIL (2)

MIL (3)

Acción

3.- Experimentos y Resultados Experimento 1

Base de Datos ClassRoom Usando un MilBoost independiente por cámara


Experimento 2: usando ensamble deMilBoost Base de Datos ClassRoom


Experimento 3: Base de datos KTH. Usando un clasificador multi-clase basado en

MilBoost binarios El desempeño alcanzado fue de 92.30 % usando

K=5


Base de datos KTH

Conclusiones

4.- Conclusiones

El problema de reconocer actividades es complicado. La combinación de apariencia y movimiento resulta

favorable y complementaria al reconocer actividades.

El enfoque MIL es útil para discriminar actividades que pueden ser muy similares (poses discriminativas).

Emplear información de varias cámaras puede beneficiar la robustez del sistema.

El flujo óptico es sensible a los procesos de codificación de los videos. Por eso resulta en detección de flujos que no existen.

Trabajos Futuros

4.- Trabajos Futuros

Experimentar más ampliamente con bases de datos estándares de múltiples cámaras.

Experimentar nuevas formas de obtener las poses representativas.

GRACIAS !!!

Preguntas ???

reconocimiento de acciones humanas en video

Education