![Page 1: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/1.jpg)
DISEÑO, IMPLEMENTACIÓN Y DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS EVALUACIÓN DE TÉCNICAS
DE IDENTIFICACIÓN DE DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA EMOCIONES A TRAVÉS DE LA
VOZVOZ
Autora: Carmen Rincón LlorenteTutor: Roberto Barra Chicote
Ponente: Juan Manuel Montero Martínez
![Page 2: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/2.jpg)
ÍNDICE1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones
basados en información segmental6. Experimentos de identificación de emociones
basados en información prosódica7. Conclusiones8. Líneas futuras
![Page 3: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/3.jpg)
1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones
basados en información segmental6. Experimentos de identificación de emociones
basados en información prosódica7. Conclusiones8. Líneas futuras
![Page 4: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/4.jpg)
1. INTRODUCCIÓN
• ¿Qué es una emoción?
• Estado emocional variaciones en la voz (características segmentales y prosódicas)
• Comunicación verbal patrón específico y universal de las emociones
• Función comunicativa y valorativa de las emociones identificación para mejorar la interacción hombre-máquina
![Page 5: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/5.jpg)
1. Introducción
2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones
basados en información segmental6. Experimentos de identificación de emociones
basados en información prosódica7. Conclusiones8. Líneas futuras
![Page 6: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/6.jpg)
2. OBJETIVOS
• Identificación basada en rasgos segmentales• Identificación basada en rasgos prosódicos• Análisis de la naturaleza de las emociones
similitudes y diferencias entre castellano y alemán
• Aplicación de técnicas de normalización • Evaluación de resultados automáticos (con
entrenamiento) vs resultados perceptuales (oyentes no entrenados)
![Page 7: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/7.jpg)
1. Introducción2. Objetivos
3. Descripción de las bases de datos3.1. SES3.2. EMODB
4. Descripción del sistema5. Experimentos de identificación de emociones basados
en información segmental6. Experimentos de identificación de emociones basados
en información prosódica7. Conclusiones8. Líneas futuras
![Page 8: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/8.jpg)
• Base de datos en castellano• Monolocutor (varón) • Alegría, Enfado (en frío), Sorpresa, Tristeza y
voz Neutra• Composición del corpus:
– 56 párrafos (~ 39 minutos)– 210 frases grabadas de forma
independiente (~ 7 minutos)– 196 frases extraídas del párrafo cuarto
(~ 12,5 minutos)• Etiquetada fonética y prosódicamente
3.1. Spanish Emotional Speech (SES)
![Page 9: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/9.jpg)
• Base de datos en alemán
• Multilocutor: 10 locutores
• Alegría, Enfado (en caliente), Tristeza, Aburrimiento, Asco, Miedo y voz Neutra
• Etiquetada fonéticamente
• 535 ficheros de audio (24,35 minutos)
3.2. Berlin Database of Emotional Speech
(EMODB) (I)
![Page 10: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/10.jpg)
3.2. Berlin Database of Emotional Speech
(EMODB) (II)
![Page 11: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/11.jpg)
1. Introducción2. Objetivos3. Descripción de las bases de datos
4. Descripción del sistema5. Experimentos de identificación de emociones
basados en información segmental6. Experimentos de identificación de emociones
basados en información prosódica7. Conclusiones8. Líneas futuras
![Page 12: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/12.jpg)
• Modelo GMM:
• Clasificador bayesiano:
kkkt
jjt
t
jjttj EPExp
EPExp
xP
EPExpxEp
)()/(
)()/(
)(
)()/()/(
m
iiiijt xNExp
1
),;()/(
¿PARÁMETROS NORMALIZADOS?
NORMALIZACIÓNCMN/CVN
SI
NO
EMOCIÓN IDENTIFICA
DA
ENTRENAMIENTO
CLASIFICACIÓN
arg Maxj {p(Ej/x)}MODELOS
(GMM)
PARAMETRIZACIÓN
EMODBSES
DIAGRAMA DE BLOQUES
![Page 13: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/13.jpg)
• Basada en características segmentales
Extraeremos 12 MFCC a partir de la señal de voz según el siguiente esquema:
4.1. Parametrización (I)
![Page 14: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/14.jpg)
• Basada en características prosódicas– Prosodia: analiza y representa formalmente
elementos suprasegmentales de la expresión oral (acento, tono, ritmo, entonación).
– Características estudiadas:• Relacionadas con el contorno de F0:
– Valor medio de F0
– Máximo y mínimo de F0
– Rango de F0
– Pendiente ascendente y descendente de grupos acentuales
• Relacionadas con el ritmo: – Velocidad de locución de la frase
– Velocidad de cada grupo acentual
4.1. Parametrización (II)
![Page 15: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/15.jpg)
Contorno de F0
Contorno de F0 interpolado
División en grupos acentuales
Señal de voz
GA1 GA2 GA3
Time (s)0 1.936
Time (s)0 1.936
-0.2748
0.4879
0
Time (s)0 1.936
50
200
Time (s)0 1.936
50
200
Time (s)0 1.936
50
200
Time (s)0 1.936
50
200
4.1. Parametrización (III)
![Page 16: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/16.jpg)
• CMN (normalización respecto a la media)– Estimada sobre toda la voz del locutor– Estimada sobre la voz neutra del locutor
• CVN (normalización respecto a la varianza)– Estimada sobre toda la voz del locutor– Estimada sobre la voz neutra del locutor
• CMN/CVN (normalización respecto a la media y varianza)– Estimada sobre toda la voz del locutor– Estimada sobre la voz neutra del locutor
4.2. Normalización
![Page 17: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/17.jpg)
1. Introducción2. Objetivos3. Descripción de las emociones4. Descripción del sistema
5. Experimentos de identificación de emociones basados en información segmental5.1. SES5.2. EMODB5.3. SES & EMODB
6. Experimentos de identificación de emociones basados en información prosódica
7. Conclusiones8. Líneas futuras
![Page 18: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/18.jpg)
• Tipos de Experimentos
• Tasas de identificación medias
5.1. MFCCSES – Sin normalizar (I)
![Page 19: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/19.jpg)
• Tasas de identificación para cada emoción
– Clasificación de frases
– Clasificación de párrafos• Experimento 4:
– Se identifica siempre la alegría, el enfado, la tristeza y la voz neutra.– La sorpresa se confunde con la alegría (50%).
• Experimento 5: – Se identifican siempre el enfado, la sorpresa, la tristeza y la voz neutra.– La alegría siempre se identifica salvo en uno de los párrafos, que se
confunde con la voz neutra.
5.1. MFCCSES – Sin normalizar (II)
![Page 20: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/20.jpg)
• Experimento 2 (sin compartición de texto y adecuada distribución de los datos de entrenamiento y clasificación)
• Tasas de identificación medias:
Mejora relativa del error
Tasa de identificación
5.1. MFCCSES – Normalizando (I)
![Page 21: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/21.jpg)
• Tasas de identificación para cada emoción– Emociones que mejor se identifican tristeza, enfado y voz
neutra– Emociones que peor se identifican alegría y sorpresa (se
confunden entre ellas)– Menor precisión del enfado (88%) frente a la tristeza y neutra
(96%)– Tasas de error y mejora relativa del error al emplear vectores
de características normalizados:
5.1. MFCCSES – Normalizando (II)
![Page 22: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/22.jpg)
5.2. MFCC – EMODB (I)
• Metodología: – Entrenamiento con 9 locutores y clasificación con el
restante
• Tasas de identificación medias:
Mejora relativa del error
Tasa de identificación
![Page 23: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/23.jpg)
5.2. MFCC – EMODB (II)
• Tasas de identificación para cada emoción (normalizando con CMN/CVN respecto a la voz del locutor):
![Page 24: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/24.jpg)
a) Train SES – Test EMODB
b) Train EMODB – Test SES
EXPERIMENTOS: – Sin normalizar– Normalización respecto a la voz del locutor
• CMN, CVN y CMN/CVN
– Normalización respecto a la voz del neutra locutor
• CMN, CVN y CMN/CVN
5.3. MFCCSES & EMODB
![Page 25: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/25.jpg)
• Tasas de identificación medias– Del orden de las que obteníamos sólo
con EMODB • 42% (1 gausiana) a 50% (5 gausianas)
– Mejor normalización CMN/CVN • respecto a la voz del locutor (9% de mejora
relativa)• respecto a la voz neutra del locutor (11,33%
de mejora relativa)
5.3. MFCCTrain SES – Test EMODB (I)
![Page 26: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/26.jpg)
• normalizando CMN+CVN respecto a la voz del locutor
Reconocimiento de Emociones Independiente de Idioma
![Page 27: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/27.jpg)
• Emoción que mejor se identifica tristeza (100%)
• Confusión de todas las emociones, salvo la tristeza, con la sorpresa– Enfado (81,10%)– Alegría (50,70%)– Miedo (46,38%)
• Cierta confusión con la alegría (asco, 45%)
5.3. MFCCTrain SES – Test EMODB (III)
(Similitud entre emociones de ambos idiomas)
![Page 28: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/28.jpg)
• Mejoras al normalizar no significativas• Tasas de identificación para cada emoción
(clasificación de los párrafos de SES)– Tristeza y neutra siempre se identifican– Identificación elevada de la alegría,
confundiéndose con la voz neutra cuando no se identifica
– Confusión del enfado con la alegría y con la voz neutra
• Tasas de identificación para cada emoción (clasificación de las frases de SES)– La voz neutra siempre se identifica, pero el resto
de emociones se confunden con ella, por lo que su precisión es baja
5.3. MFCCTrain EMODB – Test SES
![Page 29: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/29.jpg)
1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones basados
en información segmental
6. Experimentos de identificación de emociones basados en información prosódica
7. Conclusiones8. Líneas futuras
![Page 30: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/30.jpg)
• Realizados sólo con SES (frases independientes)
• Tipos de experimentos:– Relacionados con el contorno de F0 – Relacionados con el ritmo (velocidad de locución
de la frase y velocidad de locución de los grupos acentuales)
• Experimentos con todos los grupos acentuales, sólo con los iniciales, sólo con los finales y sólo con los medios
6. Identificación basada en información prosódica
![Page 31: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/31.jpg)
6.1. Experimentos relacionados con el contorno de F0 (I)
• Resultados de los experimentos empleando todos los GA:
Valor medio F0 Máximo F0 Mínimo F0 Rango F0Pendiente
ascendente GAPendiente
descendente GA
![Page 32: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/32.jpg)
– Emoción que mejor se identifica sorpresa (97,77%) (la información principal de la sorpresa se encuentra en los GA iniciales y medios)
– La información prosódica de la tristeza se encuentra en los GA medios (92,3%)
– La alegría sólo se identifica usando los GA medios (51,27%)
– El enfado sólo se identifica usando los GA iniciales (46,8%)
– Confusión de la alegría con el enfado al emplear los GA iniciales (44,43%)
– La sorpresa nunca se confunde con la tristeza ni con la voz neutra, y viceversa
6.1. Experimentos relacionados con el contorno de F0 (II)
![Page 33: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/33.jpg)
• Velocidad de locución de la frase:– Sólo se identifican la tristeza (80%) y la voz neutra (69%)– Confusiones:
• Enfado con sorpresa (42%) y tristeza (42%)• Sorpresa con tristeza (58%)• Alegría con voz neutra (58%)
– Precisiones bajas– Patrón unívoco para la tristeza y la voz neutra
• Velocidad de cada grupo acentual:– Emoción que mejor se identifica tristeza (87,17%)– Elevada tasa de confusión del enfado y la sorpresa, con la
tristeza baja precisión de la tristeza– Elevada tasa de identificación de la voz neutra empleando
todos los GA (74,77%) o los GA medios (72,77%)
6.2. Experimentos relacionados con el ritmo
![Page 34: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/34.jpg)
1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones
basados en información segmental6. Experimentos de identificación de emociones
basados en información prosódica
7. Conclusiones8. Líneas futuras
![Page 35: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/35.jpg)
7.1. CONCLUSIONES: MFCC - SES
• Importancia del estilo de interpretación de las emociones (párrafos/frases)
• Tasa de identificación media elevada ( 92%)
• Emociones que mejor se identifican– Tristeza (93%), enfado (92%) y voz neutra (92%)
• Emociones que peor se identifican – Alegría (80%) y sorpresa (89%)
• Mejor normalización– CMN/CVN respecto a la voz neutra del locutor ( 32%)
![Page 36: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/36.jpg)
7.2. CONCLUSIONES: MFCC - EMODB
• Tasa de identificación media sin normalizar 46%
• Mejor normalización– CMN/CVN respecto a la voz del locutor
– Mejoras consistentes (18% relativo)• Emoción que mejor se identifica
– Tristeza (95%)
• Emociones que peor se identifican – Miedo (45%)– Alegría (42%). La alegría se confunde
principalmente con el enfado y el miedo.
![Page 37: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/37.jpg)
7.3. CONCLUSIONES:MFCC – SES & EMODB
• Emoción que mejor se identifica – Tristeza características comunes en ambos
idiomas• Train SES, Test EMODB
– Tasas de identificación medias similares a cuando empleamos solamente EMODB (≈50%)
– Agrupamiento en alegría-enfado y tristeza-neutra• Train EMODB, Test SES
– Voz neutra en alemán la más cercana a las emociones en castellano
• Similitud entre emociones de ambos idiomas – Todas las emociones tienden a confundirse con la
sorpresa y con la alegría (excepto la tristeza)
![Page 38: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/38.jpg)
7.4. CONCLUSIONES:Prosodia - SES
• Características relacionadas con el contorno de F0:– Emociones muy prosódicas sorpresa (97,77%),
tristeza (92,3%) y neutra (94,83%)– Emociones poco prosódicas alegría (51,27%) y
enfado (46,8%)
• Características relacionadas con el ritmo:– Se produce gran confusión– Elevada tasa de identificación de la tristeza
(87,17%)– Elevada tasa de confusión de la sorpresa
(75,57%) y el enfado (70%) con la tristeza
![Page 39: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/39.jpg)
7.5. Comparativa con estudios anteriores
Conclusiones de este proyecto
Conclusiones de la tesisde Juan Manuel Montero
Neutra (común en ambos estudios)
+PROSÓDICA
SEGMENTAL
Neutra
Enfado
Alegría
Tristeza
Sorpresa
Enfado Tristeza
Sorpresa
-
+
-
Alegría
Entrenamiento
Alegría
Alegría
Otros estudios
![Page 40: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/40.jpg)
1. Introducción2. Objetivos3. Descripción de las bases de datos4. Descripción del sistema5. Experimentos de identificación de emociones
basados en información segmental6. Experimentos de identificación de emociones
basados en información prosódica7. Conclusiones
8. Líneas futuras
![Page 41: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/41.jpg)
8. LÍNEAS FUTURAS (I)• Aplicación de los experimentos realizados
sobre la futura base de datos SEV• Combinación de características prosódicas
y segmentales basadas en técnicas de combinación de clasificadores disponibles en el Grupo
• Identificación de emociones basada en información prosódica con datos de EMODB
• Aplicación de técnicas de normalización en los vectores de características basados en rasgos prosódicos
![Page 42: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/42.jpg)
• Sustitución del modelo GMM por el modelo HMM, introduciendo la variación temporal
• Consideración de nuevas características prosódicas: – Contorno de F0 de los grupos acentuales– Características relacionadas con la intensidad– Evolución del máximo de F0 en los distintos
grupos acentuales– Derivada de la velocidad de locución
• Base de datos DES comparación entre el castellano, el alemán y el danés
8. LÍNEAS FUTURAS (II)
![Page 43: DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote](https://reader036.vdocuments.co/reader036/viewer/2022062309/5665b4651a28abb57c912cbe/html5/thumbnails/43.jpg)
MUCHAS GRACIAS