diseÑo, implementaciÓn y evaluaciÓn de tÉcnicas de identificaciÓn de emociones a travÉs de la...
TRANSCRIPT
DISEÑO, IMPLEMENTACIÓN Y DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS EVALUACIÓN DE TÉCNICAS
DE IDENTIFICACIÓN DE DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA EMOCIONES A TRAVÉS DE LA
VOZVOZ
Autora: Carmen Rincón LlorenteTutor: Roberto Barra Chicote
Ponente: Juan Manuel Montero Martínez
ÍNDICE1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones
basados en información segmental6. Experimentos de identificación de emociones
basados en información prosódica7. Conclusiones8. Líneas futuras
1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones
basados en información segmental6. Experimentos de identificación de emociones
basados en información prosódica7. Conclusiones8. Líneas futuras
1. INTRODUCCIÓN
• ¿Qué es una emoción?
• Estado emocional variaciones en la voz (características segmentales y prosódicas)
• Comunicación verbal patrón específico y universal de las emociones
• Función comunicativa y valorativa de las emociones identificación para mejorar la interacción hombre-máquina
1. Introducción
2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones
basados en información segmental6. Experimentos de identificación de emociones
basados en información prosódica7. Conclusiones8. Líneas futuras
2. OBJETIVOS
• Identificación basada en rasgos segmentales• Identificación basada en rasgos prosódicos• Análisis de la naturaleza de las emociones
similitudes y diferencias entre castellano y alemán
• Aplicación de técnicas de normalización • Evaluación de resultados automáticos (con
entrenamiento) vs resultados perceptuales (oyentes no entrenados)
1. Introducción2. Objetivos
3. Descripción de las bases de datos3.1. SES3.2. EMODB
4. Descripción del sistema5. Experimentos de identificación de emociones basados
en información segmental6. Experimentos de identificación de emociones basados
en información prosódica7. Conclusiones8. Líneas futuras
• Base de datos en castellano• Monolocutor (varón) • Alegría, Enfado (en frío), Sorpresa, Tristeza y
voz Neutra• Composición del corpus:
– 56 párrafos (~ 39 minutos)– 210 frases grabadas de forma
independiente (~ 7 minutos)– 196 frases extraídas del párrafo cuarto
(~ 12,5 minutos)• Etiquetada fonética y prosódicamente
3.1. Spanish Emotional Speech (SES)
• Base de datos en alemán
• Multilocutor: 10 locutores
• Alegría, Enfado (en caliente), Tristeza, Aburrimiento, Asco, Miedo y voz Neutra
• Etiquetada fonéticamente
• 535 ficheros de audio (24,35 minutos)
3.2. Berlin Database of Emotional Speech
(EMODB) (I)
3.2. Berlin Database of Emotional Speech
(EMODB) (II)
1. Introducción2. Objetivos3. Descripción de las bases de datos
4. Descripción del sistema5. Experimentos de identificación de emociones
basados en información segmental6. Experimentos de identificación de emociones
basados en información prosódica7. Conclusiones8. Líneas futuras
• Modelo GMM:
• Clasificador bayesiano:
kkkt
jjt
t
jjttj EPExp
EPExp
xP
EPExpxEp
)()/(
)()/(
)(
)()/()/(
m
iiiijt xNExp
1
),;()/(
¿PARÁMETROS NORMALIZADOS?
NORMALIZACIÓNCMN/CVN
SI
NO
EMOCIÓN IDENTIFICA
DA
ENTRENAMIENTO
CLASIFICACIÓN
arg Maxj {p(Ej/x)}MODELOS
(GMM)
PARAMETRIZACIÓN
EMODBSES
DIAGRAMA DE BLOQUES
• Basada en características segmentales
Extraeremos 12 MFCC a partir de la señal de voz según el siguiente esquema:
4.1. Parametrización (I)
• Basada en características prosódicas– Prosodia: analiza y representa formalmente
elementos suprasegmentales de la expresión oral (acento, tono, ritmo, entonación).
– Características estudiadas:• Relacionadas con el contorno de F0:
– Valor medio de F0
– Máximo y mínimo de F0
– Rango de F0
– Pendiente ascendente y descendente de grupos acentuales
• Relacionadas con el ritmo: – Velocidad de locución de la frase
– Velocidad de cada grupo acentual
4.1. Parametrización (II)
Contorno de F0
Contorno de F0 interpolado
División en grupos acentuales
Señal de voz
GA1 GA2 GA3
Time (s)0 1.936
Time (s)0 1.936
-0.2748
0.4879
0
Time (s)0 1.936
50
200
Time (s)0 1.936
50
200
Time (s)0 1.936
50
200
Time (s)0 1.936
50
200
4.1. Parametrización (III)
• CMN (normalización respecto a la media)– Estimada sobre toda la voz del locutor– Estimada sobre la voz neutra del locutor
• CVN (normalización respecto a la varianza)– Estimada sobre toda la voz del locutor– Estimada sobre la voz neutra del locutor
• CMN/CVN (normalización respecto a la media y varianza)– Estimada sobre toda la voz del locutor– Estimada sobre la voz neutra del locutor
4.2. Normalización
1. Introducción2. Objetivos3. Descripción de las emociones4. Descripción del sistema
5. Experimentos de identificación de emociones basados en información segmental5.1. SES5.2. EMODB5.3. SES & EMODB
6. Experimentos de identificación de emociones basados en información prosódica
7. Conclusiones8. Líneas futuras
• Tipos de Experimentos
• Tasas de identificación medias
5.1. MFCCSES – Sin normalizar (I)
• Tasas de identificación para cada emoción
– Clasificación de frases
– Clasificación de párrafos• Experimento 4:
– Se identifica siempre la alegría, el enfado, la tristeza y la voz neutra.– La sorpresa se confunde con la alegría (50%).
• Experimento 5: – Se identifican siempre el enfado, la sorpresa, la tristeza y la voz neutra.– La alegría siempre se identifica salvo en uno de los párrafos, que se
confunde con la voz neutra.
5.1. MFCCSES – Sin normalizar (II)
• Experimento 2 (sin compartición de texto y adecuada distribución de los datos de entrenamiento y clasificación)
• Tasas de identificación medias:
Mejora relativa del error
Tasa de identificación
5.1. MFCCSES – Normalizando (I)
• Tasas de identificación para cada emoción– Emociones que mejor se identifican tristeza, enfado y voz
neutra– Emociones que peor se identifican alegría y sorpresa (se
confunden entre ellas)– Menor precisión del enfado (88%) frente a la tristeza y neutra
(96%)– Tasas de error y mejora relativa del error al emplear vectores
de características normalizados:
5.1. MFCCSES – Normalizando (II)
5.2. MFCC – EMODB (I)
• Metodología: – Entrenamiento con 9 locutores y clasificación con el
restante
• Tasas de identificación medias:
Mejora relativa del error
Tasa de identificación
5.2. MFCC – EMODB (II)
• Tasas de identificación para cada emoción (normalizando con CMN/CVN respecto a la voz del locutor):
a) Train SES – Test EMODB
b) Train EMODB – Test SES
EXPERIMENTOS: – Sin normalizar– Normalización respecto a la voz del locutor
• CMN, CVN y CMN/CVN
– Normalización respecto a la voz del neutra locutor
• CMN, CVN y CMN/CVN
5.3. MFCCSES & EMODB
• Tasas de identificación medias– Del orden de las que obteníamos sólo
con EMODB • 42% (1 gausiana) a 50% (5 gausianas)
– Mejor normalización CMN/CVN • respecto a la voz del locutor (9% de mejora
relativa)• respecto a la voz neutra del locutor (11,33%
de mejora relativa)
5.3. MFCCTrain SES – Test EMODB (I)
• normalizando CMN+CVN respecto a la voz del locutor
Reconocimiento de Emociones Independiente de Idioma
• Emoción que mejor se identifica tristeza (100%)
• Confusión de todas las emociones, salvo la tristeza, con la sorpresa– Enfado (81,10%)– Alegría (50,70%)– Miedo (46,38%)
• Cierta confusión con la alegría (asco, 45%)
5.3. MFCCTrain SES – Test EMODB (III)
(Similitud entre emociones de ambos idiomas)
• Mejoras al normalizar no significativas• Tasas de identificación para cada emoción
(clasificación de los párrafos de SES)– Tristeza y neutra siempre se identifican– Identificación elevada de la alegría,
confundiéndose con la voz neutra cuando no se identifica
– Confusión del enfado con la alegría y con la voz neutra
• Tasas de identificación para cada emoción (clasificación de las frases de SES)– La voz neutra siempre se identifica, pero el resto
de emociones se confunden con ella, por lo que su precisión es baja
5.3. MFCCTrain EMODB – Test SES
1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones basados
en información segmental
6. Experimentos de identificación de emociones basados en información prosódica
7. Conclusiones8. Líneas futuras
• Realizados sólo con SES (frases independientes)
• Tipos de experimentos:– Relacionados con el contorno de F0 – Relacionados con el ritmo (velocidad de locución
de la frase y velocidad de locución de los grupos acentuales)
• Experimentos con todos los grupos acentuales, sólo con los iniciales, sólo con los finales y sólo con los medios
6. Identificación basada en información prosódica
6.1. Experimentos relacionados con el contorno de F0 (I)
• Resultados de los experimentos empleando todos los GA:
Valor medio F0 Máximo F0 Mínimo F0 Rango F0Pendiente
ascendente GAPendiente
descendente GA
– Emoción que mejor se identifica sorpresa (97,77%) (la información principal de la sorpresa se encuentra en los GA iniciales y medios)
– La información prosódica de la tristeza se encuentra en los GA medios (92,3%)
– La alegría sólo se identifica usando los GA medios (51,27%)
– El enfado sólo se identifica usando los GA iniciales (46,8%)
– Confusión de la alegría con el enfado al emplear los GA iniciales (44,43%)
– La sorpresa nunca se confunde con la tristeza ni con la voz neutra, y viceversa
6.1. Experimentos relacionados con el contorno de F0 (II)
• Velocidad de locución de la frase:– Sólo se identifican la tristeza (80%) y la voz neutra (69%)– Confusiones:
• Enfado con sorpresa (42%) y tristeza (42%)• Sorpresa con tristeza (58%)• Alegría con voz neutra (58%)
– Precisiones bajas– Patrón unívoco para la tristeza y la voz neutra
• Velocidad de cada grupo acentual:– Emoción que mejor se identifica tristeza (87,17%)– Elevada tasa de confusión del enfado y la sorpresa, con la
tristeza baja precisión de la tristeza– Elevada tasa de identificación de la voz neutra empleando
todos los GA (74,77%) o los GA medios (72,77%)
6.2. Experimentos relacionados con el ritmo
1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones
basados en información segmental6. Experimentos de identificación de emociones
basados en información prosódica
7. Conclusiones8. Líneas futuras
7.1. CONCLUSIONES: MFCC - SES
• Importancia del estilo de interpretación de las emociones (párrafos/frases)
• Tasa de identificación media elevada ( 92%)
• Emociones que mejor se identifican– Tristeza (93%), enfado (92%) y voz neutra (92%)
• Emociones que peor se identifican – Alegría (80%) y sorpresa (89%)
• Mejor normalización– CMN/CVN respecto a la voz neutra del locutor ( 32%)
7.2. CONCLUSIONES: MFCC - EMODB
• Tasa de identificación media sin normalizar 46%
• Mejor normalización– CMN/CVN respecto a la voz del locutor
– Mejoras consistentes (18% relativo)• Emoción que mejor se identifica
– Tristeza (95%)
• Emociones que peor se identifican – Miedo (45%)– Alegría (42%). La alegría se confunde
principalmente con el enfado y el miedo.
7.3. CONCLUSIONES:MFCC – SES & EMODB
• Emoción que mejor se identifica – Tristeza características comunes en ambos
idiomas• Train SES, Test EMODB
– Tasas de identificación medias similares a cuando empleamos solamente EMODB (≈50%)
– Agrupamiento en alegría-enfado y tristeza-neutra• Train EMODB, Test SES
– Voz neutra en alemán la más cercana a las emociones en castellano
• Similitud entre emociones de ambos idiomas – Todas las emociones tienden a confundirse con la
sorpresa y con la alegría (excepto la tristeza)
7.4. CONCLUSIONES:Prosodia - SES
• Características relacionadas con el contorno de F0:– Emociones muy prosódicas sorpresa (97,77%),
tristeza (92,3%) y neutra (94,83%)– Emociones poco prosódicas alegría (51,27%) y
enfado (46,8%)
• Características relacionadas con el ritmo:– Se produce gran confusión– Elevada tasa de identificación de la tristeza
(87,17%)– Elevada tasa de confusión de la sorpresa
(75,57%) y el enfado (70%) con la tristeza
7.5. Comparativa con estudios anteriores
Conclusiones de este proyecto
Conclusiones de la tesisde Juan Manuel Montero
Neutra (común en ambos estudios)
+PROSÓDICA
SEGMENTAL
Neutra
Enfado
Alegría
Tristeza
Sorpresa
Enfado Tristeza
Sorpresa
-
+
-
Alegría
Entrenamiento
Alegría
Alegría
Otros estudios
1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones
basados en información segmental6. Experimentos de identificación de emociones
basados en información prosódica7. Conclusiones
8. Líneas futuras
8. LÍNEAS FUTURAS (I)• Aplicación de los experimentos realizados
sobre la futura base de datos SEV• Combinación de características prosódicas
y segmentales basadas en técnicas de combinación de clasificadores disponibles en el Grupo
• Identificación de emociones basada en información prosódica con datos de EMODB
• Aplicación de técnicas de normalización en los vectores de características basados en rasgos prosódicos
• Sustitución del modelo GMM por el modelo HMM, introduciendo la variación temporal
• Consideración de nuevas características prosódicas: – Contorno de F0 de los grupos acentuales– Características relacionadas con la intensidad– Evolución del máximo de F0 en los distintos
grupos acentuales– Derivada de la velocidad de locución
• Base de datos DES comparación entre el castellano, el alemán y el danés
8. LÍNEAS FUTURAS (II)
MUCHAS GRACIAS