Download - Reconocimiento Automático del Habla
![Page 1: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/1.jpg)
Reconocimiento Automático del Habla
Fonética/Fonología
Luis Villaseñor Pineda, Carlos Alberto Reyes
Laboratorio de Tecnologías del LenguajeCoordinación de Ciencias Computacionales,
Instituto Nacional de Astrofísica, Óptica y Electrónica
![Page 2: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/2.jpg)
Laboratorio de Tecnologías del Lenguaje 2
… pero y ¿ qué es el habla ? un pensamiento expresado en voz alta… el mandato abrumador de la conciencia… una canción de cuna… el llamado a la justicia en Irak… el saludo al despertar… la explicación paciente del profesor de primaria… el grito de auxilio de la víctima… la incomprensible anuncio de nuestra partida en el
aeropuerto… la grabación impersonal de nuestra contestadora… …
![Page 3: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/3.jpg)
Laboratorio de Tecnologías del Lenguaje 3
Según el diccionario…
Voz (l. voce) 1 Sustantivo femenino. Sonido que, en el hombre y
ciertos animales, produce el aire expelido de los pulmones al hacer vibrar las cuerdas vocales.
Hablar (l. fabulari) 1 Verbo intransitivo. Darse a entender por medio de
palabras.
![Page 4: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/4.jpg)
Laboratorio de Tecnologías del Lenguaje 4
Contenido
¿Qué es un reconocedor automático de habla? Forma y contenido del habla Principios físicos del sonido / habla Mecanismos del lenguaje humano
![Page 5: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/5.jpg)
Laboratorio de Tecnologías del Lenguaje 5
¿Qué es un reconocedor de habla?
Es un proceso que convierte una señal acústica (sonido) capturada por micrófono -u otro dispositivo- a un conjunto de palabras (texto) Es la identificacion de las palabras de una elocución (habla >> transcrición ortográfica)
Basado en técnicas de reconocimiento de patrones Dichos patrones son aprendidos a partir de grandes
conjuntos de datos, usando técnicas estocásticas
![Page 6: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/6.jpg)
Laboratorio de Tecnologías del Lenguaje 6
¿Para qué sirve un reconocedor de habla?
Su principal objetivo es facilitar/mejorar la comunicación entre el hombre y la computadora, ya que la comunicación hablada es un medio natural para intercambio de información
Además, casi toda actividad humana es social y el habla es parte esencial de esa actividad
![Page 7: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/7.jpg)
Laboratorio de Tecnologías del Lenguaje
Problemática El habla es una compleja combinación de procesos
a diferentes niveles que es usada para transmitir información
Variabilidad de la señal: Variabilidad intra-locutor: estado emocional, ambiente, estado
de salud, etc. Variabilidad inter-locutor: diferencias fisiológicas, acento,
dialectos, etc. Canal acústico: Teléfono, micrófono, ruido ambiental, etc.
![Page 8: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/8.jpg)
Laboratorio de Tecnologías del Lenguaje 8
Características de un Reconocedor
• Tipo de habla: aislada, continua
• Dependiente o Independiente del locutor
• Número de palabras que reconocen
• Tipo de texto que reconocen
• Tipo de canal
![Page 9: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/9.jpg)
Laboratorio de Tecnologías del Lenguaje
Características de un Reconocedor
Tipo de habla Hablantes Ambiente Vocabulario
Palabra aisladaDependiente del
locutorLibre de ruido Pequeño (<50)
Palabras conectadas
Multilocutor Oficina Mediano (<500)
Habla continuaIndependiente del
locutorTeléfono Grande (<5000)
Habla espontánea Con ruidoMuy grande
(>5000)
![Page 10: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/10.jpg)
Laboratorio de Tecnologías del Lenguaje 10
Dos grandes áreas:
Principios físicos del sonido en particular del habla
Mecanismos del lenguaje a diferentes niveles (los primeros)
![Page 11: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/11.jpg)
Laboratorio de Tecnologías del Lenguaje 11
Principios físicos del sonido
Todos los sonidos, incluyendo el habla, provocan el movimiento de las moléculas del aire
Algunos producen un movimiento del aire en patrones regulares: Al tocar una cuerda de una guitarra
Casos contrarios: Cerrar una puerta
Gráficamente representamos un sonido como una curva senoidal En un eje la presión del aire en otro eje el tiempo
![Page 12: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/12.jpg)
Laboratorio de Tecnologías del Lenguaje 12
![Page 13: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/13.jpg)
Laboratorio de Tecnologías del Lenguaje 13
Frecuencia y Amplitud
El número de vibraciones producidas por segundo es llamada frecuencia
Una vibración de 100 veces por segundo tiene una frecuencia de 100 ciclos por segundo o 100 Hertz (Hz)
Los sonidos agudos tienen una alta frecuencia los graves baja
La intensidad de un sonido es la cantidad de aire desplazado La intensidad se describe en términos de la amplitud de la
curva La amplitud es medida en decibeles dB
![Page 14: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/14.jpg)
Laboratorio de Tecnologías del Lenguaje 14
Frecuencia Dominante
Los ejemplos anteriores son tonos puros La mayoría de los sonidos son compuestos
Una frecuencia dominante o fundamental (pitch) Acompañada de un conjunto de frecuencias secundarias
(timbre) En particular para el habla ciertas frecuencias secundarias
llamadas formantes sirven para distinguir entre los fonemas
![Page 15: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/15.jpg)
Laboratorio de Tecnologías del Lenguaje 15
![Page 16: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/16.jpg)
Laboratorio de Tecnologías del Lenguaje 16
Visualización del sonido
Tiempo
Am
plitu
d
Tiempo
Fre
cuen
cia
Espectrograma
![Page 17: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/17.jpg)
Laboratorio de Tecnologías del Lenguaje
Transcripción ortográfica
•Comunícame con Javier
![Page 18: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/18.jpg)
Laboratorio de Tecnologías del Lenguaje
Transcripción ortográfica
• risas, ruidos, respiraciones, silencios, tartamudeos, etc.
![Page 19: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/19.jpg)
Laboratorio de Tecnologías del Lenguaje
Transcripción fonética
![Page 20: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/20.jpg)
Laboratorio de Tecnologías del Lenguaje
Transcripción fonética
![Page 21: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/21.jpg)
Laboratorio de Tecnologías del Lenguaje 21
Transcripción fonética
![Page 22: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/22.jpg)
Laboratorio de Tecnologías del Lenguaje 22
Fonética
Entrada Señal acústica
Salida Alfabeto fonético
Estudia: Formación de las consonantes y las vocales en el tracto vocal Clasificación de vocales, consonantes por su forma, posición de
la lengua y músculos bucales involucrados
![Page 23: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/23.jpg)
Laboratorio de Tecnologías del Lenguaje 23
Corpus DIMEx100
Todo inicia a partir de un corpus recolectado de la Web El Corpus230 (Villaseñor et al., 2004)
344,619 frases un vocabulario de 235,891 unidades léxicas 15 milliones de palabras
![Page 24: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/24.jpg)
Laboratorio de Tecnologías del Lenguaje 24
Corpus DIMEx100
Selección de 15,000 frases entre 5 y 15 palabras. Seleccionamos 7000 frases con las más pequeñas perplejidades
Aseguramos un corpus rico y balanceado Eliiminamos frases con palabras extranjeras o abreviaturas
Finalmente nos quedamos con 5010 frases El corpus fue grabado por 100 hablantes, cada uno con 50 frases
individuales + 10 frases grabadas por todos los hablantes. En resumen 6000 frases: 5000 frases diferentes grabadas una
vez y 10 frases grabadas 100 veces cada una.
![Page 25: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/25.jpg)
Laboratorio de Tecnologías del Lenguaje 25
Fonétizador : TranscríbEMex
![Page 26: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/26.jpg)
Laboratorio de Tecnologías del Lenguaje 26
Distribución fonética de DIMEx100
0%
2%
4%
6%
8%
10%
12%
p t k k_j b V d D g G tS f s s_[ z x dZ Z m n n_[ N n~ l r r( i j E e a a_2 a_j O o u w
![Page 27: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/27.jpg)
Laboratorio de Tecnologías del Lenguaje 27
Comparación con otros estudios
Phones Alophones Quilis Llisterri &
Mariño Pérez DIMEx100
/e/ [e] 14.67 13.73 14.13 10.94
[E] - - - 2.59
/a/ [a] 12.19 13.43 12.31 10.96
[a_j] - - - 0.49
[a_2] - - - 0.62
/o/ [o] 9.98 10.37 9.28 5.05
[O] - - - 4.26
/u/ [u] 3.33 1.98 3.05 1.87
[w] - 1.35 - 1.14
![Page 28: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/28.jpg)
Laboratorio de Tecnologías del Lenguaje 28
Fonología
Entrada: Secuencia de fonos/sonidos (en un alfabeto fonético)
Salida: Secuencia de fonemas (letras) en un alfabeto abstracto
Estudia: Las relaciones entre sonidos y fonemas (unidades las cuales
tienen una cierta función en el nivel superior) Por ejemplo: ocho
![Page 29: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/29.jpg)
Laboratorio de Tecnologías del Lenguaje 29
Relación grafema-fonema Algunos grafemas no
representan a ningún fonema
Un grafema puede representar diferentes fonemas en contextos diferentes
Diferentes grafemas pueden representar el mismo fonema
h hola
c /s/,/k/ cielo, casa
c,s,z /s/ cita, silla, zapato
![Page 30: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/30.jpg)
Laboratorio de Tecnologías del Lenguaje 30
Relación grafema-fonema
Pronunciación de diptongos: diptongo /io/ en kiosko hiato /i-o/ en tío
Acentos regionales: ocho es pronunciado como
[o tS o] o [o S o] zeta is pronunciado
como /seta/ o /Teta/
/io/ /i-o/
/otso/ /oSo/
![Page 31: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/31.jpg)
Laboratorio de Tecnologías del Lenguaje 31
Características de la Percepción Humana
El oído humano está especializado en el reconocimiento de voz Aunque es capaz de detectar frecuencias de
20 Hz a 20000 Hz Es mucho más sensible en el rango de la voz: 1000 Hz a
6000 Hz No procesa las frecuencias de forma individual, sino por
grupos de frecuencias
![Page 32: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/32.jpg)
Laboratorio de Tecnologías del Lenguaje 32
Ruido, voz y expectativa
Un oído especializado en el lenguaje Discriminar entre ruido y palabra
¡A pesar de que el ruido sea voz! Capacidad para reconstruir un mensaje
Y si yo viera… Que elocuente…
![Page 33: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/33.jpg)
Laboratorio de Tecnologías del Lenguaje 33
Ruido, voz y expectativa
Un oído especializado en el lenguaje Discriminar entre ruido y palabra
¡A pesar de que el ruido sea voz! Capacidad para reconstruir un mensaje
Y si yo viera… te mojabas Que elocuente… a todos los niños
![Page 34: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/34.jpg)
Laboratorio de Tecnologías del Lenguaje 34
Reconocer y Entender
RAH
El primer paso para entender es reconocer
En los seres humanos estos dos procesos están fuertemente entrelazados
RAH Entendimiento
![Page 35: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/35.jpg)
Laboratorio de Tecnologías del Lenguaje 35
Reconocer Adquisición de la señal hablada Extracción de características Clasificación y modelado de las señales
(dentro de esta parte se encuentran los modelos acústicos, léxicos y los de lenguaje).
Métodos de búsqueda y reconocimiento
![Page 36: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/36.jpg)
Laboratorio de Tecnologías del Lenguaje 36
Capturando la señal
La señal de voz es redundante y algunos datos irrelevantes para el proceso de reconocimiento
Para reducir la cantidad de datos: Usar filtros para eliminar frecuencias arriba de 3100 Hz y
debajo de 100 Hz
![Page 37: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/37.jpg)
Laboratorio de Tecnologías del Lenguaje 37
Capturando la señal...
El muestreo: Tomamos rebanadas muestras de la señal
(el cine es el mismo caso) El número de muestras depende de las
frecuencias que deseamos incluir en nuestro análisis: La tasa de muestreo mínima es el doble de la más alta
frecuencia de interés Para una frecuencia de 3100 Hz necesitamos 6200
muestras por segundo
![Page 38: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/38.jpg)
Laboratorio de Tecnologías del Lenguaje 38
Procesamiento de Señal
Extracción de características Llevar la señal digital a una representación matemática
simple con la cual trabajar Transformada de fourier discreta (DFT) o FFT
LPC MFCC
![Page 39: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/39.jpg)
Laboratorio de Tecnologías del Lenguaje 39
Reconocimiento a partir de Patrones
Comparación de patrones
Funcionamiento general de un comparador de patrones
![Page 40: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/40.jpg)
Laboratorio de Tecnologías del Lenguaje 40
Reconocimiento a partir de Patrones
Comparación de patrones Vocabularios pequeños Variabilidad fonética Operación a nivel de palabra Alineación temporal
![Page 41: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/41.jpg)
Laboratorio de Tecnologías del Lenguaje 41
Reconocimiento a partir de Patrones
Modelos estocásticos Selección no-determinística entre un conjunto de
posibilidades A diferencia del apareo de patrones no existe una
comparación entre los modelos almacenados y la entrada Un análisis probabilístico es la base de la selección
(modelos ocultos de Markov) Grandes cantidades de datos para entrenamiento Operación a nivel de fonemas y semi-fonemas
![Page 42: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/42.jpg)
Laboratorio de Tecnologías del Lenguaje 42
Reconocimiento a partir de Patrones
Modelos estocásticos Estructura típica de un modelos ocultos de Markov (HMM)
![Page 43: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/43.jpg)
Laboratorio de Tecnologías del Lenguaje 43
Creando un reconocedor para el Español Mexicano
Se tomaron los modelos acústicos del francés Para la gran mayoría de manera directa Para tres fonemas se crearon los modelos de español mezclando
modelos del francés /tS/ => campeche /x/ => tecnológico /L/ => desarrollo
![Page 44: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/44.jpg)
Laboratorio de Tecnologías del Lenguaje 44
Creando un reconocedor para el Español Mexicano
GrafíaSP.SAMPA
españolFR.SAMPA
francésSP.Janus3
españolmodelos
adaptados
k k k k k,k,k
g g g g g,g,g
ch tS t + S tS t,t,S
j x k + h x k,k,h
m m m m m,m,m
ñ J J NJ NJ,NJ,NJ
ll L j + J L j,j,NJ
r r R R R,R,R
rr rr R R R,R,R
Francés => Español Mexicano
![Page 45: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/45.jpg)
Laboratorio de Tecnologías del Lenguaje 45
Proceso iterativo
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
L NJ SIL a b d e f g i j k l m n o p r r s t tS u w x
initial (65,42%) iteration 1 (67,22%) iteration 2 (70,52%) iteration 3 (71,81%)
![Page 46: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/46.jpg)
Laboratorio de Tecnologías del Lenguaje 46
Fenómenos del habla espontánea
La enunciación de una locución es un proceso complejo donde la construcción de la oración y su pronunciación son procesos interdependientes
“Speech is more than just an audible version of text”
(M. Hunt)
![Page 47: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/47.jpg)
Laboratorio de Tecnologías del Lenguaje 47
utt3 : que me traiga no que me que muevas el <sil> (no sé cómo se le llama a las) gabinete (no sé) a esto que está en la pared izquierda
![Page 48: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/48.jpg)
Laboratorio de Tecnologías del Lenguaje 48
Fenómenos del habla espontánea
Expresiones incrustadas
utt96 : a ver este esa mesa (por favor) la puedes poner en el centro ?
utt119 : ah <sil> ah <sil> sabes qué este quiero que que la gires a a la mesa <sil> de tal forma que (ay dónde está el mouse ?) de tal forma que esta parte <sil> quede pegada a la ventana <sil> esta parte superior <ruido> bueno
utt7 : <ruido> eh puedes poner este <ruido> este estante lo puedes poner <sil> eh también en esta pared (pero <sil> no sé ) más o menos a esta altura en la pared de este lado en la pared de del fondo
![Page 49: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/49.jpg)
Laboratorio de Tecnologías del Lenguaje 49
Fenómenos del habla espontánea
Reparaciones / Abandonos
utt95 : bueno primero nos tra-traemos la / cómo se le llama a la parte de arriba de la estufa la que absorbe ?
utt80 : entonces el primero <no-vocal> el tercero perdón
![Page 50: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/50.jpg)
Laboratorio de Tecnologías del Lenguaje 50
Fenómenos del habla espontánea
Ambigüedad/Redundancia
utt39 : ahora sí <sil> el <sil> estante este que está aquí abajo <sil> lo puedes poner en esta esquina <sil> en la esquina de esta pared
utt73 : hay espacio para que este estante quede aquí en esta pared ?
utt121: puedes llevar esta alacena <sil> aquí a esta parte a la parte superior de esta esquina
![Page 51: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/51.jpg)
Laboratorio de Tecnologías del Lenguaje 51
Características sintácticas del habla espontánea
Orden de las palabras pon la estufa junto al refri pon junto al refri la estufa
Pronombres clíticos utt70 : u: puedes girarlo <sil> eh en el
mismo sentido ? utt61 : u: podrías mostrármelos ? utt9 : u: pónmelo <sil> aquí <sil> en esta
esquina
![Page 52: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/52.jpg)
Laboratorio de Tecnologías del Lenguaje 52
Características sintácticas del habla espontánea
Construcciones difíciles utt50 : u: pero a una altura más grande utt208: u: eh no tanto <sil> oh haz de
cuenta que no quede pegadita
Construcciones propias del español mexicano utt35 : u: ahorita ponla en cualquier lugar utt35 : u: enseguidita ajá utt187: quiero una que sea así largita
más o menos del tamaño del refri utt97 : u: este acá arribita
![Page 53: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/53.jpg)
Laboratorio de Tecnologías del Lenguaje 53
Aplicación: Búsqueda en Audio
Objetivo: Dado un término en forma textual deseamos localizar dicho
término en una colección de grabaciones (conversaciones, discursos, etc.)
Organizar las colecciones de audio por temas tratados, personajes entrevistados, etc.
![Page 54: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/54.jpg)
Laboratorio de Tecnologías del Lenguaje 54
Primer enfoque
Indexado a partir de la transcripción: Después de transformar el audio en texto, con ayuda de
un reconocedor gran vocabulario de habla continua, generamos un índice de las palabras presentes en la transcripción
Tratamos la transcripción con las técnicas actuales de recuperación y extracción de información.
![Page 55: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/55.jpg)
Laboratorio de Tecnologías del Lenguaje 55
Segundo enfoque
Indexado basado en fonemas: La transformación del audio sólo llega hasta la etapa de
fonemas, ésta es la base a partir de la cual se hará la búsqueda del texto deseado.
La búsqueda puede dar un mayor número de respuestas falsas que el enfoque anterior, pero tiene un mejor comportamiento con palabras fuera del diccionario (nombre de personas, lugares, términos extranjeros, etc.)
![Page 56: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/56.jpg)
Laboratorio de Tecnologías del Lenguaje 56
A notar…
El reconocimiento fonético aun está lejos de un reconocimiento perfecto
Usando información lingüística (modelos de lenguaje) es posible incrementar su rendimiento Un modelo de lenguaje captura (probabilísticamente) las
secuencias propias de un lenguaje “El que madruga … “A buen entendedor …
![Page 57: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/57.jpg)
Laboratorio de Tecnologías del Lenguaje 57
A notar…
El reconocimiento fonético aun está lejos de un reconocimiento perfecto
Usando información lingüística (modelos de lenguaje) es posible incrementar su rendimiento Un modelo de lenguaje captura (probabilísticamente) las
secuencias propias de un lenguaje “El que madruga, Dios le ayuda” “A buen entendedor, pocas palabras”
![Page 58: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/58.jpg)
Laboratorio de Tecnologías del Lenguaje 58
A notar…
Los modelos acústicos recuperan pistas auditivas las cuales son la base para la reconstrucción del mensaje.
Los modelos de lenguaje aportan información sobre el lenguaje y el contexto para la reconstrucción del lenguaje Un modelo de lenguaje es más fácil de construir mientras más
acotado sea el dominio
![Page 59: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/59.jpg)
Laboratorio de Tecnologías del Lenguaje 59
A notar…
El comportamiento de los reconocedores es mejor si el contexto es limitado. En noticieros de 5 a 20% de error Otros contenidos de 30 a 60% de error
Se puede indexar una hora de audio en 5 minutos (no se menciona la calidad)
Existen ya sistemas multilingües!
![Page 60: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/60.jpg)
Laboratorio de Tecnologías del Lenguaje 60
Una solución posible
Llegar a la transcripción pero apoyarse también en su información fonética
Proponer un método para recuperación de información en documentos orales enriqueciendo su representación a través de codificación fonética.
![Page 61: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/61.jpg)
Laboratorio de Tecnologías del Lenguaje 61
Speech Retrieval
CLEF SR (2005 – 2007)
Características: Colección de entrevistas Existen correferencias (No hay muchas
repeticiones) Habla espontánea (titubeos, correcciones) Los temas están más entrelazados
Universidad MAP
Ottawa 0.0855
Dublin 0.0787
Brown 0.0785
Chicago 0.0571
Ámsterdam 0.0444
![Page 62: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/62.jpg)
Laboratorio de Tecnologías del Lenguaje 62
Tipos Errores
Correcta Unix Sun War in Iraq
Transcrita Unique Some Ware in Irak
Correcta Osama Bin Laden Our slugger encourage
Transcrita Usama Bin Ladin Our sluggard emigrate
Correcta I helped Apple recognize speech
a country independent
Transcrita I helped Apple
wreck a nice beach
a country in the pendant
Substitución
Más complejos (Combinación Inserción+Substitución)
![Page 63: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/63.jpg)
Laboratorio de Tecnologías del Lenguaje 63
Ej. Codificación Fonética
Correcta Unix Sun War in Iraq
Transcrita Unique Some Ware in Irak
Soundex U520 S500 W600 I500 I620
Correcta Osama Bin Laden Our slugger encourage
Transcrita Usama Bin Ladin Our sluggard emigrate
Soundex O250 B500 L350
U250 B500 L350
O600 S426 E526
Mantiene la primera letra de la palabra Convierte las letras a dígitos
![Page 64: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/64.jpg)
Laboratorio de Tecnologías del Lenguaje 64
Método
1. Filtrar las transcripciones eliminando palabras vacías.
2. Codificar las transcripciones usando el algoritmo Soundex.
3. Obtener las frecuencias de los códigos en la colección
4. Eliminar códigos frecuentes.
5. Agregar la codificación resultante a la transcripción.
![Page 65: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/65.jpg)
Laboratorio de Tecnologías del Lenguaje 65
TranscripciónAutomática
just your early discussions was roll wallenberg uh any recollection of of uh where he came from and so
CodificaciónFonética
J23000 Y60000 E64000 D22520 W20000 R40000 W45162 U00000 A50000 R24235 O10000 O10000 U00000
W60000 H00000 C50000 F65000
RepresentaciónEnriquecida
{early, discussions, roll, wallenberg, recollection, came, E64000, D22520, R40000, W45162, R24235}
“Documento”:
“Consulta”: Personality and actions of Raoul Wallenberg
{personalities, actions, raoul, wallenberg, P62543, A23520, R40000, W45162 }
Ejemplo
![Page 66: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/66.jpg)
Laboratorio de Tecnologías del Lenguaje 66
Corpus (CLEF SR 2007)
8,104 documentos (589 horas de audio) 1 Transcripción automática (25% error a nivel palabra)
(ASR) 2 Conjuntos de palabras clave generadas automáticamente
(AK)
63 consultas de entrenamiento 33 consultas de prueba
![Page 67: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/67.jpg)
Laboratorio de Tecnologías del Lenguaje 67
Experimento 1 - RI
Comprobar las técnicas de recuperación de información Usando sólo Texto Usando sólo Soundex
![Page 68: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/68.jpg)
Laboratorio de Tecnologías del Lenguaje 68
Experimento 3 - Complementariedad
¿Tiene caso combinar los métodos? Documentos Relevantes Recuperados
Sin retroalimentaciónTotal: 2,294Comparten: 1674Complementarios: 27%
Con retroalimentaciónTotal: 2,641Comparten: 1832Complementarios: 31%
![Page 69: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/69.jpg)
Laboratorio de Tecnologías del Lenguaje 69
Experimento 4 - Combinando
Consulta sobre los documentos enriquecidos (Texto + Soundex)
Usar diferentes pesos en la consulta
Ejemplo de una consulta: #weight(2.0 palabra1 2.0 palabra2 1.0 código1 1.0 código2)
Asigna un peso de 2 a las palabras y un peso de 1 a los códigos
![Page 70: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/70.jpg)
Laboratorio de Tecnologías del Lenguaje 70
Mejora
Comparación con respecto a realizar la recuperación solo sobre el texto
![Page 71: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/71.jpg)
Laboratorio de Tecnologías del Lenguaje 71
Resultados (corpus de Prueba)
Precisión a 5: 19.4% (1 documento dentro de los 5 primeros)
Precisión a 10: 17.3% (casi 2 documentos dentro de los 10 primeros)
Universidad MAP
Ottawa 0.0855
Nuestro Método 0.0795
Dublin 0.0787
Brown 0.0785
Chicago 0.0571
Ámsterdam 0.0444
![Page 72: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/72.jpg)
Laboratorio de Tecnologías del Lenguaje 72
Discusión
La codificación fonética puede generar confusiones
Por eso se utilizó los códigos fonéticos junto con el texto
![Page 73: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/73.jpg)
Laboratorio de Tecnologías del Lenguaje 73
Trabajo Futuro
Ej. Palabra December en 3-gramas “decima, decent, decant” “embargo, embark, ember, embarras”, etc.
Aumentaría la cantidad de códigos frecuentes
![Page 74: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/74.jpg)
Laboratorio de Tecnologías del Lenguaje 74
Aplicación: Personalizando la Interfaz
• Una interfaz dinámica que cambie su apariencia o que proponga los elementos más comúnmente utilizados por un usuario específico
La señal de voz abarca diferentes tipos de información: Un mensaje. Un lenguaje. La emoción. El género. La edad. La identidad del hablante.
![Page 75: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/75.jpg)
Laboratorio de Tecnologías del Lenguaje 75
Reconocimiento del hablante
diferente a la Verificación de usuarios.
En la verificación del hablante lo que se desea es comprobar cuando la persona que habla es, o no es, la persona que afirma ser, en este caso, el sistema tiene información sobre la identidad del usuario.
Reconocimiento del hablante busca hacer una caracterización y reconocimiento de la identidad del hablante gracias a su señal de voz.
![Page 76: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/76.jpg)
Laboratorio de Tecnologías del Lenguaje 76
En particular
Deseamos contar con un sistema identificador de hablantes que cumpla con las siguientes restricciones: 1. Independiente del texto – el hablante no tenga que decir un
texto en específico 2. Independencia de un reconocedor fonético – No deseamos
segmentar la señal identificando los fonemas Podemos reconocer al hablante por como pronuncia, por su timbre,
por su “modismos”
![Page 77: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/77.jpg)
Laboratorio de Tecnologías del Lenguaje 77
Solución: aprendizaje automático
Tomamos un conjunto de grabaciones de los hablantes en cuestión (un corpus)
Caracterizamos las grabaciones – extraemos características acústicas de la señal de cada grabación
Le entregamos al algoritmo de aprendizaje las características para cada grabación distinguiendo entre usuarios
Obtenemos un clasificador
![Page 78: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/78.jpg)
Laboratorio de Tecnologías del Lenguaje 78
Corpus
Para las fases de entrenamiento y evaluación se usó el corpus DIMEx100.
Corpus oral para el español mexicano, conformado por grabaciones de 100 personas.
Cada una de ellas grabó 50 frases (44kHz). Los textos leídos son diferentes para cada individuo
3.5 seg. voz. Duración total del corpus es de 291 minutos de voz.
![Page 79: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/79.jpg)
Laboratorio de Tecnologías del Lenguaje 79
window
window
X1
X2
X13
… Cálculo de coeficientes MFCC ó LPC
Caracterización de la Señal de Voz
![Page 80: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/80.jpg)
Laboratorio de Tecnologías del Lenguaje 80
Sin solapamiento
Algoritmo 100ms 120ms 500ms
MFCC
knn (50) 29.35% 30.92% 32.70%
knn (60) 29.19% 30.88% 31.58%
LWR 56.42% 57.83% 47.11%
SVM 62.65% 63.57% 42.49 %
ANN 56.02% 55.78% 46.14%
![Page 81: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/81.jpg)
Laboratorio de Tecnologías del Lenguaje 81
Con solapamiento
Tamaño del segmento
Solapamiento 80ms 100ms 120ms
MFCC &
SVM
10ms64.13% 63.05% 63.05%
20ms68.80% 67.64% 64.41%
30ms65.54% 70.05% 69.20%
![Page 82: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/82.jpg)
Laboratorio de Tecnologías del Lenguaje 82
Conclusiones
Método sencillo basado en un procesamiento directo de la señal acústica
Los resultados alentadores: 70% al usar SVM 100 hablantes 3.5 seg de señal de voz
![Page 83: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/83.jpg)
Laboratorio de Tecnologías del Lenguaje 83
Trabajo futuro
Extender los experimentos incluyendo más información descriptiva de la señal acústica Deltas de los coeficientes Componente de energía
Usar otras metodologías en el aprendizaje Estudio de un Kernel no polinomial Uso de ensambles
Extender el tamaño de las muestras de señal acústica
![Page 84: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/84.jpg)
Laboratorio de Tecnologías del Lenguaje 84
Aplicación: Personalizando la Interfaz
• Una interfaz dinámica que cambie su apariencia o que proponga los elementos más comúnmente utilizados por un usuario específico
La señal de voz abarca diferentes tipos de información: Un mensaje. Un lenguaje. La emoción. El género. La edad. La identidad del hablante.
![Page 85: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/85.jpg)
Laboratorio de Tecnologías del Lenguaje 85
¿Cómo se ha abordado?
Primer enfoque: Basan la IAL en el empleo de características lingüísticas propias de cada lenguaje. Realizan segmentación de fonemas y utilizan modelos de lenguaje.
Sistemas basados en reconocimiento de fonemas
Segundo enfoque: Explotar directamente la señal acústica para la IAL, obteniendo características tales como la prosodia, ritmo, entonación, entre otras.
Sistemas no basados en reconocimiento de fonemas.
![Page 86: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/86.jpg)
Laboratorio de Tecnologías del Lenguaje 86
Dificultades del primer enfoque
Necesidad de un estudio previo de cada lenguaje Un módulo para la segmentación de la señal de voz en fonemas Un proceso de etiquetado manual realizado por expertos a nivel fonético
Necesidad de la creación de modelos de lenguaje Corpus grandes de texto y/o transcripciones ortográficas de grabaciones Estadística de todos las posibles combinaciones de fonemas
No son de utilidad para lenguas que no cuentan con convenciones claramente establecidas para su escritura
![Page 87: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/87.jpg)
Laboratorio de Tecnologías del Lenguaje 87
Segundo enfoque
Los lingüistas parten de que existe otro tipo de características las cuales no pueden segmentarse como los fonemas, porque actúan simultáneamente sobre más de un segmento.
Suprasegmentos: el acento, el tono (sucesión de ellos – entonación-) y la duración.
El acento: Español normalmente grave Francés normalmente agudo
![Page 88: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/88.jpg)
Laboratorio de Tecnologías del Lenguaje 88
Características suprasegmentales
Tono: como recurso de diferenciación léxica, para lenguas como el chino o el vietnamita.
Por ejemplo: /ma/ puede significar varias cosas: con un tono estático alto significa madre con tono dinámico ascendente significa cáñamo con un tono dinámico ascendente-descendente significa caballo con un tono descendente significa riña
Las lenguas de la familia congo-nigerianas, sino-tibetanas y algunas de las lenguas indígenas de México (otomí, mazahua, chichimeca entre otras)
![Page 89: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/89.jpg)
Laboratorio de Tecnologías del Lenguaje 89
Características suprasegmentales
Entonación: sucesión de tonos, como recurso de función expresiva, para lenguas románicas
Por ejemplo: ¿Cómo estás? ¿cómo? ¡estás!
Ritmo: es la pauta de tensión formada por la combinación de las sílabas tónicas y atonas, largas y breves Ritmos: stress timed, syllable timed, acentual y
silábico.
![Page 90: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/90.jpg)
Laboratorio de Tecnologías del Lenguaje 90
El problema Como extraer las características suprasegmentales del
habla, como la prosodia, el ritmo, la entonación entre otras.
•[Li 1994] Localizar automáticamente el núcleo-silábico (por ejemplo las vocales). Generar vectores espectrales de regiones cercanas al núcleo silábico, tanto para entrenamiento como prueba.
•[Itahasi 1994 y 1995] Uso la frecuencia fundamental (pitch) ya que su estimación es más robusta en ambientes ruidosos que los parámetros espectrales de Li
•[Thyme-Gobbel y Hutchins 1996] Caracterizaron la prosodia a través contornos del pitch y la amplitud entre una sílaba y otra
![Page 91: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/91.jpg)
Laboratorio de Tecnologías del Lenguaje 91
Estado del arte
Cummins et al 1999: El trabajo recae en la suposición de que las variaciones de amplitud en la frecuencia fundamental son importantes para percibir el ritmo en el habla.
Alemán Español Japonés Mandarín
Inglés 52 62 57 58
Alemán - 51 58 65
Español - - 66 47
Japonés - - - 60
![Page 92: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/92.jpg)
Laboratorio de Tecnologías del Lenguaje 92
Estado del arte Rouas et al 2003 y 2005: Propone un método para identificar los
lenguajes en bases a su entonación y ritmo: caracteriza el ritmo en función de intervalos vocálicos y consonánticos.
Alemán Español Mandarín Vietnamita Japonés Coreano Tamil Farsi
Inglés 60 68 75 68 68 79 77 76
Alemán _ 59 62 66 66 71 70 72
Español _ _ 81 62 63 76 65 67
Mandarín _ _ _ 50 51 74 74 76
Vietnamita _ _ _ _ 69 56 71 67
Japonés _ _ _ _ _ 66 59 67
Coreano _ _ _ _ _ _ 62 75
Tamil _ _ _ _ _ _ _ 70
![Page 93: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/93.jpg)
Laboratorio de Tecnologías del Lenguaje 93
Objetivo
Desarrollar un método para la identificación del lenguaje hablado sin recurrir a la representación fonética de la señal de voz, con un nuevo método de caracterización de los elementos suprasegmentales del habla.
Suposición: el ritmo puede ser una característica fundamental para la identificación y éste se localiza en las frecuencias bajas
![Page 94: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/94.jpg)
Laboratorio de Tecnologías del Lenguaje 94
Nueva caracterización del ritmo Procesamiento basado en Wavelets:
Hablante japonés Hablante español
![Page 95: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/95.jpg)
Laboratorio de Tecnologías del Lenguaje 95
Nueva caracterización
Uso de la transformada Daubechies 4 coeficientes
Muestras de 30 y 50 seg.
Reducción de la información por medio de truncado de aproximación con un umbral del 1%
![Page 96: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/96.jpg)
Laboratorio de Tecnologías del Lenguaje 96
Nueva caracterización del ritmo
Señal de vozLenguaje 1Inglés
Señal de vozLenguaje 2Español
Señal de vozLenguaje 1Inglés
Señal de vozLenguaje 9Farsi
AplicaciónTransformada wavelet
Aplicación Transformada wavelet
Truncadopor método deaproximación
Truncado por método deaproximación
AplicaciónTransformadawavelet
AplicaciónTransformadawavelet
Truncadopor método deaproximación
Truncadopor método deaproximación
Reducción de dimensionalidad:•Eliminar los coeficientes irrelevantes•Ganancia de información
Construccióndel clasificadorpara lenguajes 1 y 2
Reducción de Dimensionalidad:•Eliminar los coeficientes irrelevantes•Ganancia de información.
Clasificador BinarioLenguajes1 y 9
![Page 97: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/97.jpg)
Laboratorio de Tecnologías del Lenguaje 97
Nueva caracterización del ritmo Resultados entre paréntesis Rouas:
Alemán Español Mandarín Vietnamita Japonés Coreano Tamil Farsi
Inglés 97 (59.5) 97 (67.7) 93 (75.0) 94 (67.7) 96 (67.6) 95 (79.4) 99 (77.4) 96 (76.3)
Alemán - 93 (59.4) 94 (62.2) 93 (65.7) 98 (65.8) 98 (71.4) 94 (69.7) 91 (71.8)
Español - - 91 (80.6) 86 (62.1) 92 (62.5) 98 (75.9) 91 (65.4) 94 (66.7)
Mandarín - - - 95 (50.0) 95 (50.6) 93 (73.5) 89 (74.2) 94 (76.3)
Vietnamita - - - - 93 (68.6) 96 (56.2) 95 (71.4) 95 (66.7)
Japonés - - - - - 93 (65.7) 89 (59.4) 94 (66.7)
Coreano - - - - - - 95 (62.1) 91 (75.0)
Tamil - - - - - - - 90 (69.7)
![Page 98: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/98.jpg)
Laboratorio de Tecnologías del Lenguaje 98
Resultados promedio
50556065707580859095
100
Inglés Alemán Español J aponés Mandarín Vietnamita Coreano Tamil Farsi
Rouas wavelet 10 seg wavelet 50 seg
![Page 99: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/99.jpg)
Laboratorio de Tecnologías del Lenguaje 99
Nueva caracterización del ritmo
La nueva caracterización con wavelets obtiene mejores resultados que los alcanzados por Rouas.
Nos permite enfocarnos a las bajas frecuencias
Buenos resultados con muestra de señal de voz más grandes.
Umbral de truncado se obtuvo al procesar todos los idiomas, podría determinarse por pares de idiomas.
![Page 100: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/100.jpg)
Laboratorio de Tecnologías del Lenguaje 100
Trabajo futuro Extender el método para trabajar con clasificadores
multiclase. Con la finalidad de comparar nuestra técnica con los métodos que utilizan información fonotáctica de los lenguajes.
Mezclar diferentes extracciones de características de la señal de voz tales como el ritmo de Rouas con los coeficientes wavelet para generar características suprasegmentales del habla híbridas.
Utilizar los modelos de mezclas gaussianas, con la idea de probar los métodos propuestos en la tarea de verificación del idioma (NIST)
![Page 101: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/101.jpg)
Laboratorio de Tecnologías del Lenguaje 101
Lenguas indígenas mexicanas
Corpus utilizado: el archivo de lenguas indígenas de Latinoamérica, http://www.ailla.org
Náhuatl Zoque
Español
20 diferentes hablantes por cada lengua. Los tamaños de muestras variaron. El algoritmo de clasificación usado fue el de Naïve Bayes y
se utilizó la validación cruzada en 10 pliegues para su evaluación.
![Page 102: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/102.jpg)
Laboratorio de Tecnologías del Lenguaje 102
Resultados utilizando MFCC:
3 segundos 7 segundos 10 segundos
Náhuatl Español Náhuatl Español Náhuatl Español
Zoque 85 95 94 93 87 93
Náhuatl - 100 - 97 - 94
![Page 103: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/103.jpg)
Laboratorio de Tecnologías del Lenguaje 103
Un clasificador con los tres lenguajes.
Resultados multiclase
% Identificación de los tres lenguajes
3 segundos 85
7 segundos 89
10 segundos 88
% Identificación de los tres lenguajes
10 segundos 85
30 segundos 94
50 segundos 95
192 atributos de MFCC
Transformada wavelet
![Page 104: Reconocimiento Automático del Habla](https://reader035.vdocuments.co/reader035/viewer/2022062315/56815c2c550346895dca07c6/html5/thumbnails/104.jpg)
Laboratorio de Tecnologías del Lenguaje 104
Experimentos Lengua no materna
Grabaciones con la misma calidad Inglés 6 personas Francés 5 personas Español 6 personas
Método utilizado wavelet Daubechies con 4 coeficientes y truncado de aproximación
Clasificador Naïve Bayes
inglés-español español-francés inglés-francés91.67% 81.82% 100%
a b a b a b 5 1 a=inglés 5 1 a=español 6 0 a=inglés 0 6 b=español 1 4 b=francés 0 5 b=francés