diseÑo, implementaciÓn y evaluaciÓn de tÉcnicas de identificaciÓn de emociones a travÉs de la...

DISEÑO, IMPLEMENTACIÓN Y DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS EVALUACIÓN DE TÉCNICAS

DE IDENTIFICACIÓN DE DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA EMOCIONES A TRAVÉS DE LA

VOZVOZ

Autora: Carmen Rincón LlorenteTutor: Roberto Barra Chicote

Ponente: Juan Manuel Montero Martínez

ÍNDICE1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones

basados en información segmental6. Experimentos de identificación de emociones

basados en información prosódica7. Conclusiones8. Líneas futuras

1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones



1. INTRODUCCIÓN

• ¿Qué es una emoción?

• Estado emocional variaciones en la voz (características segmentales y prosódicas)

• Comunicación verbal patrón específico y universal de las emociones

• Función comunicativa y valorativa de las emociones identificación para mejorar la interacción hombre-máquina

1. Introducción

2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones



2. OBJETIVOS

• Identificación basada en rasgos segmentales• Identificación basada en rasgos prosódicos• Análisis de la naturaleza de las emociones

similitudes y diferencias entre castellano y alemán

• Aplicación de técnicas de normalización • Evaluación de resultados automáticos (con

entrenamiento) vs resultados perceptuales (oyentes no entrenados)

1. Introducción2. Objetivos

3. Descripción de las bases de datos3.1. SES3.2. EMODB

4. Descripción del sistema5. Experimentos de identificación de emociones basados

en información segmental6. Experimentos de identificación de emociones basados

en información prosódica7. Conclusiones8. Líneas futuras

• Base de datos en castellano• Monolocutor (varón) • Alegría, Enfado (en frío), Sorpresa, Tristeza y

voz Neutra• Composición del corpus:

– 56 párrafos (~ 39 minutos)– 210 frases grabadas de forma

independiente (~ 7 minutos)– 196 frases extraídas del párrafo cuarto

(~ 12,5 minutos)• Etiquetada fonética y prosódicamente

3.1. Spanish Emotional Speech (SES)

• Base de datos en alemán

• Multilocutor: 10 locutores

• Alegría, Enfado (en caliente), Tristeza, Aburrimiento, Asco, Miedo y voz Neutra

• Etiquetada fonéticamente

• 535 ficheros de audio (24,35 minutos)

3.2. Berlin Database of Emotional Speech

(EMODB) (I)

3.2. Berlin Database of Emotional Speech

(EMODB) (II)

1. Introducción2. Objetivos3. Descripción de las bases de datos

4. Descripción del sistema5. Experimentos de identificación de emociones



• Modelo GMM:

• Clasificador bayesiano:

kkkt

jjt

t

jjttj EPExp

EPExp

xP

EPExpxEp

)()/(

)()/(

)(

)()/()/(

m

iiiijt xNExp

1

),;()/(

¿PARÁMETROS NORMALIZADOS?

NORMALIZACIÓNCMN/CVN

SI

NO

EMOCIÓN IDENTIFICA

DA

ENTRENAMIENTO

CLASIFICACIÓN

arg Maxj {p(Ej/x)}MODELOS

(GMM)

PARAMETRIZACIÓN

EMODBSES

DIAGRAMA DE BLOQUES

• Basada en características segmentales

Extraeremos 12 MFCC a partir de la señal de voz según el siguiente esquema:

4.1. Parametrización (I)

• Basada en características prosódicas– Prosodia: analiza y representa formalmente

elementos suprasegmentales de la expresión oral (acento, tono, ritmo, entonación).

– Características estudiadas:• Relacionadas con el contorno de F0:

– Valor medio de F0

– Máximo y mínimo de F0

– Rango de F0

– Pendiente ascendente y descendente de grupos acentuales

• Relacionadas con el ritmo: – Velocidad de locución de la frase

– Velocidad de cada grupo acentual

4.1. Parametrización (II)

Contorno de F0

Contorno de F0 interpolado

División en grupos acentuales

Señal de voz

GA1 GA2 GA3

Time (s)0 1.936

Time (s)0 1.936

-0.2748

0.4879

0

Time (s)0 1.936

50

200

Time (s)0 1.936

50

200

Time (s)0 1.936

50

200

Time (s)0 1.936

50

200

4.1. Parametrización (III)

• CMN (normalización respecto a la media)– Estimada sobre toda la voz del locutor– Estimada sobre la voz neutra del locutor

• CVN (normalización respecto a la varianza)– Estimada sobre toda la voz del locutor– Estimada sobre la voz neutra del locutor

• CMN/CVN (normalización respecto a la media y varianza)– Estimada sobre toda la voz del locutor– Estimada sobre la voz neutra del locutor

4.2. Normalización

1. Introducción2. Objetivos3. Descripción de las emociones4. Descripción del sistema

5. Experimentos de identificación de emociones basados en información segmental5.1. SES5.2. EMODB5.3. SES & EMODB

6. Experimentos de identificación de emociones basados en información prosódica

7. Conclusiones8. Líneas futuras

• Tipos de Experimentos

• Tasas de identificación medias

5.1. MFCCSES – Sin normalizar (I)

• Tasas de identificación para cada emoción

– Clasificación de frases

– Clasificación de párrafos• Experimento 4:

– Se identifica siempre la alegría, el enfado, la tristeza y la voz neutra.– La sorpresa se confunde con la alegría (50%).

• Experimento 5: – Se identifican siempre el enfado, la sorpresa, la tristeza y la voz neutra.– La alegría siempre se identifica salvo en uno de los párrafos, que se

confunde con la voz neutra.

5.1. MFCCSES – Sin normalizar (II)

• Experimento 2 (sin compartición de texto y adecuada distribución de los datos de entrenamiento y clasificación)

• Tasas de identificación medias:

Mejora relativa del error

Tasa de identificación

5.1. MFCCSES – Normalizando (I)

• Tasas de identificación para cada emoción– Emociones que mejor se identifican tristeza, enfado y voz

neutra– Emociones que peor se identifican alegría y sorpresa (se

confunden entre ellas)– Menor precisión del enfado (88%) frente a la tristeza y neutra

(96%)– Tasas de error y mejora relativa del error al emplear vectores

de características normalizados:

5.1. MFCCSES – Normalizando (II)

5.2. MFCC – EMODB (I)

• Metodología: – Entrenamiento con 9 locutores y clasificación con el

restante

• Tasas de identificación medias:

Mejora relativa del error

Tasa de identificación

5.2. MFCC – EMODB (II)

• Tasas de identificación para cada emoción (normalizando con CMN/CVN respecto a la voz del locutor):

a) Train SES – Test EMODB

b) Train EMODB – Test SES

EXPERIMENTOS: – Sin normalizar– Normalización respecto a la voz del locutor

• CMN, CVN y CMN/CVN

– Normalización respecto a la voz del neutra locutor

• CMN, CVN y CMN/CVN

5.3. MFCCSES & EMODB

• Tasas de identificación medias– Del orden de las que obteníamos sólo

con EMODB • 42% (1 gausiana) a 50% (5 gausianas)

– Mejor normalización CMN/CVN • respecto a la voz del locutor (9% de mejora

relativa)• respecto a la voz neutra del locutor (11,33%

de mejora relativa)

5.3. MFCCTrain SES – Test EMODB (I)

• normalizando CMN+CVN respecto a la voz del locutor

Reconocimiento de Emociones Independiente de Idioma

• Emoción que mejor se identifica tristeza (100%)

• Confusión de todas las emociones, salvo la tristeza, con la sorpresa– Enfado (81,10%)– Alegría (50,70%)– Miedo (46,38%)

• Cierta confusión con la alegría (asco, 45%)

5.3. MFCCTrain SES – Test EMODB (III)

(Similitud entre emociones de ambos idiomas)

• Mejoras al normalizar no significativas• Tasas de identificación para cada emoción

(clasificación de los párrafos de SES)– Tristeza y neutra siempre se identifican– Identificación elevada de la alegría,

confundiéndose con la voz neutra cuando no se identifica

– Confusión del enfado con la alegría y con la voz neutra

• Tasas de identificación para cada emoción (clasificación de las frases de SES)– La voz neutra siempre se identifica, pero el resto

de emociones se confunden con ella, por lo que su precisión es baja

5.3. MFCCTrain EMODB – Test SES

1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones basados

en información segmental

6. Experimentos de identificación de emociones basados en información prosódica


• Realizados sólo con SES (frases independientes)

• Tipos de experimentos:– Relacionados con el contorno de F0 – Relacionados con el ritmo (velocidad de locución

de la frase y velocidad de locución de los grupos acentuales)

• Experimentos con todos los grupos acentuales, sólo con los iniciales, sólo con los finales y sólo con los medios

6. Identificación basada en información prosódica

6.1. Experimentos relacionados con el contorno de F0 (I)

• Resultados de los experimentos empleando todos los GA:

Valor medio F0 Máximo F0 Mínimo F0 Rango F0Pendiente

ascendente GAPendiente

descendente GA

– Emoción que mejor se identifica sorpresa (97,77%) (la información principal de la sorpresa se encuentra en los GA iniciales y medios)

– La información prosódica de la tristeza se encuentra en los GA medios (92,3%)

– La alegría sólo se identifica usando los GA medios (51,27%)

– El enfado sólo se identifica usando los GA iniciales (46,8%)

– Confusión de la alegría con el enfado al emplear los GA iniciales (44,43%)

– La sorpresa nunca se confunde con la tristeza ni con la voz neutra, y viceversa

6.1. Experimentos relacionados con el contorno de F0 (II)

• Velocidad de locución de la frase:– Sólo se identifican la tristeza (80%) y la voz neutra (69%)– Confusiones:

• Enfado con sorpresa (42%) y tristeza (42%)• Sorpresa con tristeza (58%)• Alegría con voz neutra (58%)

– Precisiones bajas– Patrón unívoco para la tristeza y la voz neutra

• Velocidad de cada grupo acentual:– Emoción que mejor se identifica tristeza (87,17%)– Elevada tasa de confusión del enfado y la sorpresa, con la

tristeza baja precisión de la tristeza– Elevada tasa de identificación de la voz neutra empleando

todos los GA (74,77%) o los GA medios (72,77%)

6.2. Experimentos relacionados con el ritmo



basados en información prosódica


7.1. CONCLUSIONES: MFCC - SES

• Importancia del estilo de interpretación de las emociones (párrafos/frases)

• Tasa de identificación media elevada ( 92%)

• Emociones que mejor se identifican– Tristeza (93%), enfado (92%) y voz neutra (92%)

• Emociones que peor se identifican – Alegría (80%) y sorpresa (89%)

• Mejor normalización– CMN/CVN respecto a la voz neutra del locutor ( 32%)

7.2. CONCLUSIONES: MFCC - EMODB

• Tasa de identificación media sin normalizar 46%

• Mejor normalización– CMN/CVN respecto a la voz del locutor

– Mejoras consistentes (18% relativo)• Emoción que mejor se identifica

– Tristeza (95%)

• Emociones que peor se identifican – Miedo (45%)– Alegría (42%). La alegría se confunde

principalmente con el enfado y el miedo.

7.3. CONCLUSIONES:MFCC – SES & EMODB

• Emoción que mejor se identifica – Tristeza características comunes en ambos

idiomas• Train SES, Test EMODB

– Tasas de identificación medias similares a cuando empleamos solamente EMODB (≈50%)

– Agrupamiento en alegría-enfado y tristeza-neutra• Train EMODB, Test SES

– Voz neutra en alemán la más cercana a las emociones en castellano

• Similitud entre emociones de ambos idiomas – Todas las emociones tienden a confundirse con la

sorpresa y con la alegría (excepto la tristeza)

7.4. CONCLUSIONES:Prosodia - SES

• Características relacionadas con el contorno de F0:– Emociones muy prosódicas sorpresa (97,77%),

tristeza (92,3%) y neutra (94,83%)– Emociones poco prosódicas alegría (51,27%) y

enfado (46,8%)

• Características relacionadas con el ritmo:– Se produce gran confusión– Elevada tasa de identificación de la tristeza

(87,17%)– Elevada tasa de confusión de la sorpresa

(75,57%) y el enfado (70%) con la tristeza

7.5. Comparativa con estudios anteriores

Conclusiones de este proyecto

Conclusiones de la tesisde Juan Manuel Montero

Neutra (común en ambos estudios)

+PROSÓDICA

SEGMENTAL

Neutra

Enfado

Alegría

Tristeza

Sorpresa

Enfado Tristeza

Sorpresa

-

+

-

Alegría

Entrenamiento

Alegría

Alegría

Otros estudios



basados en información prosódica7. Conclusiones

8. Líneas futuras

8. LÍNEAS FUTURAS (I)• Aplicación de los experimentos realizados

sobre la futura base de datos SEV• Combinación de características prosódicas

y segmentales basadas en técnicas de combinación de clasificadores disponibles en el Grupo

• Identificación de emociones basada en información prosódica con datos de EMODB

• Aplicación de técnicas de normalización en los vectores de características basados en rasgos prosódicos

• Sustitución del modelo GMM por el modelo HMM, introduciendo la variación temporal

• Consideración de nuevas características prosódicas: – Contorno de F0 de los grupos acentuales– Características relacionadas con la intensidad– Evolución del máximo de F0 en los distintos

grupos acentuales– Derivada de la velocidad de locución

• Base de datos DES comparación entre el castellano, el alemán y el danés

8. LÍNEAS FUTURAS (II)

MUCHAS GRACIAS

diseÑo, implementaciÓn y evaluaciÓn de tÉcnicas de identificaciÓn de emociones a travÉs de la...

Documents