eliminación de expresiones faciales 3d
DESCRIPTION
Disección en español del paper "Removal of 3D Facial Expressions"TRANSCRIPT
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 1/19
Alejandro Avilés del Moral
30 de mayo de 2011
Eliminación de ExpresionesMinería de datos
Alejandro Avilés
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 2/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 1
Introducción
La interacción entre tecnología y personas es un factor clave en muchas áreas de la
ciencia. A pesar de haberse visto algunas mejoras importantes en la última década con
respecto a la comunicación entre máquinas y seres humanos aún existe un abismo
insalvable en comparación a cómo interactúan las personas entre ellas.
Ha sido demostrado que la comunicación no verbal, en comparación con la
comunicación verbal, aunque depende de la situación [1], es de gran importancia en
las interacciones entre personas. Así como la mirada, las expresiones faciales son uno
de los factores de la comunicación no verbal que aporta más información acerca del
estado mental del interlocutor humano y del contexto del mensaje que ha sido
enviado. Aunque las expresiones pueden ser voluntarias, son el resultado de ligeras
variaciones de distintos músculos de la cara que reaccionan inconscientemente [2], por
lo tanto pueden mostrar lo que no dicen las palabras, revelar el estado emocional,
pensamientos internos y copar el mensaje de pequeños detalles que enriquecen la
comunicación de forma muy significativa.
Además, estas expresiones faciales, sean voluntarios o involuntarias, obstaculizan la
tarea de detectar/reconocer una cara, la cual es un proceso crucial para muchos
propósitos diferentes como pueden ser la vigilancia, seguridad, fotografía, etc…
En visión por computador, la expresión facial juega dos roles diferentes: en algunos
casos, estas expresiones son exactamente lo que los algoritmos están buscando, y se
conoce a este enfoque como “reconocimiento de expresiones faciales”. En otros casos,
la expresión facial dificulta la consecución de un objetivo distinto, como pudiera ser el
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 3/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 2
reconocimiento de caras, y es por ello que será necesario un método de
preprocesamiento para eliminar las expresiones faciales y así incrementar la precisión.
En este trabajo se pretende, a través de la explicación de propuestas novedosas que
resuelven estos problemas planteados, analizar qué papel juegan las técnicas de
minería de datos en tareas de visión por computador y mostrar algunos resultados. Se
ha elegido un artículo publicado en la conferencia de CVPR (Computer Vision and
Pattern Recognition) del pasado año 2010.
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 4/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 3
Eliminación de expresiones 3D
Removal of 3D Facial Expressions
CVPR 2010Gang Pan, Song Han, Zhaohui Wu, Yuting ZhangDepartment of Computer Science, Zhejiang University, China
Motivación
Éstas son algunas de las áreas que se podrían beneficiar de esta propuesta:
1. Mejorar el rendimiento del reconocimiento tridimensional de caras.
2. Perfeccionar los métodos de clasificación tridimensional de género.
Actualmente los algoritmos de clasificación tridimensional de género sólo
funcionan con caras neutrales, por consiguiente tratar con caras expresivas es
todavía un problema muy difícil de resolver.
3. Incrementar la precisión de métodos de reconocimiento de expresiones. La
mayor parte del trabajo desarrollado hasta ahora trata con expresiones
prototípicas, y, realmente, las expresiones son mucho más complejas,
presentan más diversidad y no son tan exageradas.
4. Mejorar la síntesis de caras, otro problema difícil de resolver en el área de
gráficos por computador. El objetivo es crear un modelo 3D de una cara y ser
capaz de generar expresiones. No obstante, la mayoría de los métodos actuales
sólo inciden en el proceso de deformar una cara neutral y no en generar
directamente los cambios expresivos.
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 5/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 4
Antecedentes
El objetivo de la eliminación de expresiones faciales es obtener una cara neutral que
preserve las características personales existentes en la cara expresiva teniendo en
cuenta que una expresión es una modificación de la forma de la cara neutral causada
por la tensión de los músculos.
Esta es probablemente uno de los primeros intentos en proponer un método de
eliminación de expresiones tridimensionales y hay poca documentación escrita para
esta propuesta hasta ahora. Sin embargo, podemos comparar la eliminación de
expresiones 3D a la síntesis de expresiones 3D, puesto que puede ser entendido como
el proceso inverso.
Las propuestas de síntesis de expresiones 3D se pueden clasificar en cuatro categorías:
1. Método basado en la interpolación. Una vez se definen el frame inicial y final
con dos expresiones diferentes se utilizan técnicas de interpolación para crear
el frame intermedio. Para la interpolación se asume que para ir de una
expresión a otra debe haber un movimiento y que se calcula una función que lo
especifica. Aunque el proceso es rápido la expresión generada no es muy
realista.
2. Método basado en músculos. Simula los estímulos de los músculos en una
malla para modelar las expresiones.
3. Método basado en ejemplos. Se utiliza aprendizaje automático para crear un
modelo relacional entre caras neutrales y caras expresivas. Por lo tanto, dada
una cara neutral el método aplica el modelo para añadir una expresión.
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 6/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 5
Resumen del procedimiento
Simplificando la idea, lo que queremos hacer es obtener un modelo geométrico de una
cara neutral a partir del de una cara expresiva. Esto puede explicarse metafóricamente
sustrayendo la expresión a una cara tal y como se muestra en la siguiente imagen:
Obviamente, primero necesitamos obtener la expresión para ser capaces de sustraerla
de la cara expresiva. Este proceso de sustracción no es trivial.
Como en todas las técnicas basadas en
aprendizaje máquina, el procedimiento
se divide en dos tareas principales,
entrenamiento y prueba, en donde tiene
lugar la eliminación de la expresión. Una
tercera tarea, el alineamiento, con
objeto de normalizar los modelos
geométricos se ejecuta antes que las
anteriores.
A la derecha podemos ver el diagrama del procedimiento empleado en esta técnica.
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 7/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 6
Alineamiento
Como entrada tenemos una nube de puntos, irregular y dependiente de la postura, por
consiguiente es necesario normalizarla. De otro modo, sería muy difícil mapear las
distintas caras de entrada y entonces el aprendizaje sería casi imposible.
Teniendo la nube de puntos de entrada vamos a
adaptar un modelo 3D genérico, de forma que la
envuelva, siguiendo un método llamado alineamiento
no rígido en dos pasos. Usaremos la siguiente
nomenclatura para futuras referencias.
El primer paso se trata de un ajuste guiado por marcas.
Dichas marcas son 11 puntos relevantes predefinidos de
forma manual tanto en el modelo genérico como en la
nube de puntos. La postura de O se ajustará hacia G
usando el algoritmo ICP (Iterative Closest Point).
Una vez que O y G están en la misma postura, el segundo paso consiste en deformar el
modelo G de modo que envuelva la forma de O usando un enfoque de minimización
de energía. En este método se consideran dos medidas de energía: el error geométrico
(Eg) y el error de fluidez (Es).
El error geométrico Eg mide cuan distinto es el modelo G del objetivo
O y el error de fluidez Es mide la fluidez del proceso de adaptación.
Para el cálculo de ambos se utiliza el algoritmo del vecino más cercano.
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 8/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 7
La función final de energía es una combinación lineal de los dos errores, con dos
variables λ y δ que ajustan el tiempo y precisión del proceso.
El algoritmo de ajuste irá modificando G buscando minimizar la función anterior hasta
que el error esté por debajo de un umbral predeterminado.
Como resultado de deformar G obtenemos M, el modelo
geométrico adaptado a la forma de O.
Entrenamiento
Una vez que la entrada se encuentra
normalizada podemos iniciar el proceso de
entrenamiento. Por cada cara expresiva, que se
almacenará en el “Espacio Normal”, habrá
asociada una cara neutral que se utiliza para
calcular la expresión residual, el cual será
almacenado en el “Espacio de Expresión Residual”.
El Espacio Normal recibe este nombre porque las mallas de triángulos que componen
los modelos M se almacenan en forma de vector normal.
Una expression facial, expresada como Δ(Mexpresional ,Mneutral), puede ser entendida
como la diferencia entre la cara expresiva y la cara neutral. Esta diferencia es la
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 9/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 8
expresión residual y se almacena en el Espacio de Expresión Residual como una
combinación de movimientos sobre cada triángulo del modelo de la cara neutral.
Cada movimiento se describe como una tupla con los 5
siguientes elementos:
Ángulo de azimut
Ángulo de elevación
Traslación en X
Traslación en Y
Traslación en Z
Una vez creados ambos espacios tenemos que crear el modelo relacional con el fin de,
dada una nueva instancia de cara expresiva inferir la expresión residual sin tener una
cara neutral. Este proceso no es sencillo y se abordará en dos pasos.
El Espacio Normal es demasiado grande y contiene información redundante y con
ruido. Este primer paso, con el fin de reducir la complejidad, se conoce como
Reducción de la Dimensionalidad del Espacio Normal y se realiza mediante PCA
(Principal Component Analysis).
El PCA [3], o análisis de componentes principales en español, es un procedimiento
matemático que utiliza una transformación ortogonal para convertir un conjunto de
observaciones de variables posiblemente relacionadas en un conjunto de variables
independientes, llamadas componentes principales. La técnica se utiliza normalmente
para reducir la dimensionalidad de un conjunto de datos, sobre todo en la
construcción de modelos predictivos, como es el caso.
La operación que revela la estructura interna de la información, haciendo emerger las
causas de la variabilidad de un conjunto de datos y ordenándolas por importancia.
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 10/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 9
Puede entenderse geométricamente, siendo cada variable del conjunto de datos una
dimensión, como una proyección en un espacio de menor dimensión de forma que los
datos del conjunto inicial queden mejor representados.
Con el fin de aplicar PCA y obtener los autovectores y autovalores que definen el
Espacio Normal, primero necesitamos calcular la matrix de covarianza del espacio tal y
como se especifica debajo.
Siendo ui el vector que define la i-ésima muestra de entrenamiento, conteniendo la
coordenada geodésica centrada C j de cada triángulo de la malla.
Una vez obtenida la matriz de covarianza podemos aplicar SVD (Singular Value
Decomposition) para obtener los autovectores (v1, …, vN) y autovalores (λ1, …, λN),
ordenados de mayor a menor. Después de esto construimos P = (v1, …, vV), un conjunto
de los autovectores más relevantes ordenados según sus autovalores. El número de
autovalores seleccionados sigue la siguiente expresión, en la cual ξ es un umbral de
precisión predefinido (Cuanto mayor sea este valor, mayor será la precisión del
modelo relacional, pero mayor será el tiempo que tome su cálculo).
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 11/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 10
Teniendo entonces la matriz original y la nueva matriz P:
Finalmente, la reducción tiene lugar aplicando la siguiente expresión:
El segundo y último paso de este proceso de aprendizaje es crear el modelo relacional,
el cual se logrará empleando un análisis de regresión RBF (Radial Basis Function).
Las redes RBF son redes neuronales capaces de
modelizar asociaciones complejas y que tienen la
ventaja de ser mucho más simples que las basadas en
perceptrones [4]. Estas redes neuronales reciben el
nombre porque usan funciones de base radial (como
se muestra en la imagen a la derecha) como funciones de activación en cada nodo, la
cuales son cualquier tipo de función para la cual la salida dependa sólo de la distancia
de la entrada a un centro predefinido.
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 12/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 11
En el método de eliminación de expresiones, la red neuronal tomará como entrada las
coordenadas geodésicas centradas Ci de una muestra del Espacio Normal reducido
(expresadas como ). Al tratarse de un conjunto de datos que puede no estar
uniformemente distribuido, los nodos intermedios implementarán como función radial
el cálculo de la distancia de Mahalanobis para aplicar la regresión RBF, utilizando como
centros las marcas predefinidas ya utilizadas en la fase de alineamiento.
En concreto, la red neuronal en este caso tiene la siguiente estructura, siendo n el
número de centros y k el número de variables de cada muestra del Espacio de
Expresión Residual:
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 13/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 12
La función de la red neuronal, expresada de forma matemática es la siguiente, siendo
las salidas Δi, los valores para cada una de las dimensiones (variables) de una muestra
del Espacio de Expresión Residual y la función k el cálculo local de la distancia de
Mahalanobis:
La red neuronal RBF también puede ser expresada de forma matricial:
Finalmente, comparando muestras del Espacio Normal y su correspondiente del
Espacio de Expresión Residual, la matriz W de pesos se irá ajustando durante el
entrenamiento mediante la técnica de mínimos cuadrados.
La técnica de mínimos cuadrados [5] intenta minimizar la suma de las distancias entre
los puntos generados por una función, la red neuronal en este caso, y los datos
esperados, instancias reales del Espacio de Expresión Residual.
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 14/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 13
Prueba
En el proceso de prueba, como
hemos explicado previamente,
intentamos sustraer la expresión
residual de una cara expresiva dada
para obtener una cara neutral. La
expresión matemática de este
objetivo es la siguiente:
Mneu = Mexp – Δ(Mexp ,Mneu)
Como podemos advertir, para calcular la expresión residual necesitaríamos la cara
neutral, que es exactamente lo que estamos intentando extraer. Por tanto, la
definición matemática debería ser revisada de forma que pudiésemos calcular la
expresión residual sin conocimiento previo acerca de la cara neutral.
Siendo Cexp la representación normal de Mexp, el modelo alineado de la cara expresiva,
sea Φ(Cexp) el resultado de una red neuronal RBF ante la nueva entrada. Φ(Cexp) será
pues la inferencia de Δ(Mexp ,Mneu) y podremos usarla como una aproximación. Por lo
tanto, la expresión matemática final queda tal que así:
Mneu = Mexp – Φ(Cexp)
Teniendo en cuento lo que ha sido explicado previamente, la expresión residual era un
conjunto de movimientos aplicados sobre cada triángulo de la malla, por lo que aplicar
esta expresión matemática nos dará como resultado una malla deformada. Esta malla
no tiene por qué ser necesariamente perfecta, y de hecho presentará algunas
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 15/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 14
imperfecciones y huecos de modo que los triángulos necesitarán ser unidos de nuevo.
Para ello se utiliza el modelo conocido como Poisson-based Reconstruction.
En la imagen inferior se muestra de forma visual en qué consiste esta reconstrucción.
Sin entrar en más detalles, podemos llevar a cabo esta técnica resolviendo la siguiente
ecuación:
AU = b
Siendo U las coordenadas de la malla deformada, b la divergencia del gradiente de
campos modificados y A una matriz dispersa definida así:
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 16/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 15
Experimentos:
Para evaluar el procedimiento propuesto se ha utilizado el BU-3DFED (Binghamton
University 3D Facial Expression Database). La base de datos fue construida con el
propósito de ayudar investigaciones basadas en las expresiones faciales de modelos
tridimensionales. En ella se encuentran 44 hombres y 56 mujeres con su cara neutra y
6 expresiones distintas: enfado, asco, miedo, felicidad, tristeza y sorpresa y cada una
de estas expresiones prototípicas con 4 niveles de intensidad. Para la evaluación del
rendimiento se han tenido en cuenta todos los modelos de las seis expresiones en su
más alta intensidad así como la expresión neutral, sumando en total un número de 700
modelos tridimensionales.
La medida cuantitativa elegida para medir el rendimiento del algoritmo de eliminación
de expresiones faciales es la RMS (root mean square / media cuadrática) y se define
para este problema así:
Donde la distancia se expresa:
Para ayudar a visualizar los resultados del método se ha construido un gráfico
comparando la distancia existente entre la cara expresiva y la cara neutral reales, y la
distancia de una cara neutral resultante del algoritmo de eliminación y la cara neutral
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 17/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 16
real. Puede observarse que tras aplicar el método la cara está mucho más cercana a la
cara neutral.
Debajo, se presentan algunas imagenes comparando, respectivamente, la cara
expresiva, la cara neutral real, y la cara neutral resultante de la eliminación de la
expresión.
Enfado
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 18/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 17
Asco
Miedo
Felicidad
Tristeza
5/13/2018 Eliminación de expresiones faciales 3D - slidepdf.com
http://slidepdf.com/reader/full/eliminacion-de-expresiones-faciales-3d 19/19
Minería de Datos Eliminación de Expresiones Faciales
Alejandro Avilés 18
Bibliografía
[1] Wikipedia. (4 de diciembre de 2010). The relative importance of
verbal and nonverbal communication. En Nonverbal communication
[Wiki]. Obtenido el 5 de diciembre de 2010 desde
http://en.wikipedia.org/wiki/Nonverbal_communication
[2] Wikipedia. (15 de noviembre de 2010). Facial expression [Wiki].
Obtenido el 5 de diciembre de 2010 desde
http://en.wikipedia.org/wiki/Facial_expression
[3] Wikipedia. (19 de mayo de 2011). Principal Component Analysis
[Wiki]. Obtenido el 29 de mayo de 2011 desde
http://en.wikipedia.org/wiki/Principal_component_analysis
[4] Poggio, T. & Girosi, F. (Septiembre de 1990). Network for
Approximation and Learning . Obtenido el 29 de mayo de 2011 desde
http://courses.cs.tamu.edu/rgutier/cpsc636_s10/poggio1990rbf2.pd
f
[5] Wikipedia. (6 de abril de 2011). Mínimos Cuadrados [Wiki].
Obtenido el 29 de mayo de 2011 desde
http://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados