grupo de tecnologías de las comunicaciones, universidad de zaragoza reconocimiento automático del...

Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza

Reconocimiento Automático del Habla

Eduardo Lleida Solano

Dpt. de Ingeniería Electrónica y Comunicaciones

Universidad de Zaragoza


Reconocimiento Automático del Habla

• Reconocimiento Automático del Habla: una historia reciente

• Dificultades en el RAH

• ¿Dónde estamos?, ¿a dónde vamos?

• ¿Cómo funciona? , las bases

• Consejos: ¿Dónde utilizar RAH?


Algunas Referencias Interesantes Libros genéricos:Libros genéricos:

John R. Deller, John G. Proakis, John H.L. Hansen“Discrete-Time Processing of Speech Signals”Macmillan Publishing Company, 1993

Douglas O’Shaughnessy“Speech Communications, Human and Machine”IEEE Press, 2000Libros avanzados:Libros avanzados:

Frederick Jelinek“Statistical Methods for Speech Recognition”MIT Press, 1997

Steve Young, Gerrit Bloothooft“Corpus-Based Methods in Language and Speech Processing”Kluwer Academic Publishers,1997Internet:Internet:

http://svr-www.eng.cam.ac.uk/comp.speechSocrates/Erasmus Thematic Network: Speech Communication SciencesSocrates/Erasmus Thematic Network: Speech Communication Sciences

http://tn-speech.essex.ac.uk/tn-speech


Reconocimiento Automático del Habla: una historia reciente

Los inicios: años 50 Bell Labs .... Reconocimiento de dígitos aislados monolocutor RCA Labs .... Reconocimiento de 10 sílabas monolocutor University College in England .... Reconocedor fonético MIT Lincoln Lab .... Reconocedor de vocales independiente del hablante

Los fundamentos: años 60 Comienzo en Japón (NEC labs) Dynamic time warping .... Vintsyuk (Soviet Union) CMU ... Reconocimiento del Habla Continua .... HAL 9000

Las primeras soluciones: años 70, el mundo probabilístico Reconocimiento de palabras aisladas

LPC, programación dinámica IBM: inicio proyecto reconocimiento de grandes vocabularios Gran inversión en los USA: proyectos DARPA Sistema HARPY (CMU) primer sistema con exito


una historia reciente Reconocimiento del Habla Continua: años 80, expansión

Algoritmos para el habla continua y grandes vocabularios Explosión de los métodos estadísticos: Modelos Ocultos de Markov

utilizados inicialmente por IBM y Dragon Systems popularizados por Bell Labs

Introducción de las Redes Neuronales en el reconocimiento de voz Sistema SPHINX

Empieza el negocio: años 90, primeras aplicaciones Ordenadores y procesadores baratos y rápidos Sistemas de dictado Integración entre reconocimiento de voz y procesado del lenguaje

natural.

¿Una realidad?: años 00, integración en el S.O. Integración teléfono y Voice Web browsers

VoiceXML estandard


Algunas impresiones recientes:


Dificultades:

1. ¿El sistema de RAH tiene que reconocer la voz de una persona o varias personas (incluyendo, quizas, cualquier persona)?

2. ¿Cual es el tamaño del vocabulario a reconocer?

3. Sobre el modo de dirigirse al sistema de RAH, ¿nos dirigiremos con palabras incluyendo pausas entre ellas o hablaremos de forma continua?

4. Variabilidad acústica y confusión acústica del vocabulario

5. Entorno acústico en el que se utilizará el sistema de RAH

7. ¿Qué conocimientos lingüísticos son necesarios incorporar en el sistema de RAH?

6. ¿Cómo activar o se activa el sistema de RAH?


¿Cómo funciona?, Las bases Formulación matemática simple: teoría probabilística

Sea O una secuencia de T medidas acústicas de la voz

Sea W una secuencia of N palabras pertenecientes a un vocabulario fijo y conocido.

P(W|O) es la probabilidad de que la secuencia de palabras W haya sido pronunciada, dado que la secuencia O de medidas acústicas ha sido observada

El reconocedor decidirá a favor de la secuencia de palabras W que satisfaga

W = arg maxW P(W|O)

Es decir, el reconocedor dará como resultado la secuencia mas probable de palabras dadas la medidas acústicas obtenidas.


Las Bases

Utilizando la fórmula de Bayes

)(

)()|()|(

OP

WPWOPOWP

P(W) ... Probabilidad de que la secuencia de palabras W sea pronunciada P(O|W) ... Probabilidad de que cuando una persona pronuncia la secuencia de palabras W obtengamos la secuencia de medidas acústicas O P(O) ... Probabilidad de la secuencia de medidas acústicas O

Fórmula del Reconocedor

)()|(arg WPWOPmaxWW

Modelo Acústico Modelo de Lenguaje


Hz

Componentes de un sistema de Reconocimiento

Procesado

Acústico

Voz

Algoritmo

de

Reconocimiento

Secuencia de Palabras

Modelado

Acústico

P(O|W)Modelado

Lenguaje

P(W)

texto

AnálisisLéxico

AnálisisGramatical

transcripción

voz

ProcesadoAcústico

ReconocimientoReconocimiento

EntrenamientoEntrenamiento

Aprendizajemodelos acústicos


Componentes de un sistema de Reconocimiento

Procesado

Acústico

voz

Algoritmo

de

Reconocimiento

Secuenciade Palabras

Modelado

Acústico

P(O|W)Modelado

Lenguaje

P(W)

texto

AnálisisLéxico

AnálisisGramatical

transcripción

voz

ProcesadoAcústico

Aprendizajemodelos acústicos

ReconocimientoReconocimiento

EntrenamientoEntrenamiento


¿Dónde estamos?

Sistemas de DictadoAdaptado al locutorGran vocabulario y ampliableHabla continua

Servicios TelefónicosAcceso a informaciónEncuestasTransacciones comercialesCentralitasmanos libres


¿A dónde vamos?


Y para ir terminando ....

Consejos: ¿Dónde y cuando utilizar RAH?Premisa:Las aplicaciones con RAH tienen éxito cuando el usuario está motivado en su uso

Limitaciones:1. Los sistemas de RAH no transcriben voz sin restricciones2. Los sistema de RAH comenten muchos errores

Necesidad:Verificar el resultado del reconocedor: confianza acústica


¿Dónde y cuando utilizar la voz?

Utilizar cuando ... Evitar cuando ...

No se dispone de un teclado,p.e,sobre la red telefónicaTareas que requieran la utilización de las manos del usuario, p.e. editores gráficosUsuarios que no pueden teclear o noestán acostrumbrados al uso de untecladoUsuarios con discapacidades físicasque limitan el uso de las manos

La tarea requiera que el usuario hablecon otras personas mientras utiliza laaplicaciónEl usuario trabaja en condiciones malasde ruido ambientalLas tareas se pueden realizar de unaforma mas sencilla y eficiente con unratón y teclado


tipos de errores

Rechazos: el usuario habla pero el RAH no entiende lo que dice

Sustituciones: el RAH reconoce palabras que son distintas a las queel usuario pronuncia

Falsas Alarmas: el usuario no dice nada y el RAH devuelve unapalabra reconocida


Causas

problema causa

El usuario pronuncia una o mas palabras no contenidas en el vocabulario

La frase pronunciada no se adapta a ninguna gramática activa

El usuario habla antes de que el sistema esté listo para reconocer

Palabras muy parecidas que producen confusión

Pausas muy largas en el medio de frases

El usuario habla con disfluencias (falsos comienzos,”umm”,”ehh”)

El usuario tiene un acento muy marcado o está resfriado

La voz del usuario difiere considerablemente del aprendizaje

El micrófono no está bien ajustado

Rechazoo

Sustituciones

Falsas AlarmasSonidos como risas, toses, etc.

Voces lejanas

El usuario está hablando con otra persona

grupo de tecnologías de las comunicaciones, universidad de zaragoza reconocimiento automático del...

Documents