reconocimiento de voz
Post on 28-Dec-2015
8 Views
Preview:
TRANSCRIPT
Reconocimiento de voz
Introducción
• Reconocimiento de voz: • Identificar las palabras pronunciadas.
• Ventajas:
• Comunicación rápida y agradable.• Libera otros “recursos” (manos, vista, …)• Permite movilidad (no es necesario teclado, …)• Facilita la reducción de los interfaces de control• Mejora la interacción a minusválidos
Problemática
• Problema mucho más complejo que la síntesis de voz
• Factores que determinan la complejidad:• Variabilidad locutor: Intralocutor e interlocutor.
• Forma de hablar: Habla continua…• Coarticulación: Los sonidos (silabas, fonemas, …) pronunciados en una palabra o de forma aislada tienen espectros distintos• Segmentación: es difícil separar silabas, fonemas, …
• Vocabulario: cuanto menor sea mejor funcionará el reconocedor. (palabras parecidas, mayor proceso, …)
• El entorno: ruido de fondo.
Clasificación
• Según el objetivo del reconocedor:• Palabras aisladas• Habla conectada• Habla continua
• Según el locutor:• Dependiente del locutor• Multilocutor• Independiente del locutor
Clasificación
• Según el vocabulario:• Pequeño (Menos de 100 palabras)• Mediano/Intermedio (Entre 100 y 1000 palabras)• Grande (Más de 1000 palabras)
• Según el medio:• Telefónico• Microfónico
Esquema de trabajo
• Un reconocedor tiene dos fases:
• Entrenamiento: • Se enseña al reconocedor los modelos o patrones del vocabulario
• Reconocimiento:• El reconocedor analiza el sonido recibido y lo clasifica asignándole (si es el caso) una palabra del vocabulario
Esquema de trabajo
• Diagrama de bloques genérico:
Voz
Segmentación
Extracción característic
as
ClasificaciónVocabulari
o
Preprocesado
Resultado
Esquema de trabajo
• Preprocesado:• Normalizar• Ecualizar• Eliminar ruido (sustracción espectral)
• Segmentación:• Dividir la señal en bloques (10-20ms)
• Extracción de características:• Transformar la información de un bloque en un conjunto reducido de parámetros (no es necesario recuperar luego la señal)• Vectores de características (feature vectors)
Esquema de trabajo
• Extracción de características:• En general se puede emplear todas las técnicas vistas en la parametrización de la señal de voz.
• Técnicas de extracción de características:• Banco de filtros• Transformadas (FFT, DCT, …)• Predicción lineal (LPC)• MFCC: Mel Frequency Cepstral Coefficients
Esquema de trabajo
• Diagrama de bloques genérico:
Voz
Segmentación
Extracción característic
as
ClasificaciónVocabulari
o
Preprocesado
Resultado
Técnicas de reconocimiento
• Ajuste de plantillas o patrones:• Alineamiento temporal óptimo • DTW: Dynamic Time Warping
• Redes Neuronales• NN: Neural Networks
• Modelos Ocultos de Markov • HMM: Hidden Markov Models
Ajuste de plantillas
• Ajuste de plantillas:• Comparar los vectores de características obtenidos con las plantillas (vectores característicos de las palabras del vocabulario)• El que menor distancia obtiene es la palabra elegida
• Problema:• Las palabras no duran siempre lo mismo• Ej: se puede hablar más despacio o más deprisa
• Solución: DTW
Ajuste de plantillas
• DTW:• Para cada plantilla del vocabulario intenta encontrar el mejor alineamiento entre los dos patrones a comparar
• Distancia entre dos patrones:• Distancia menor de todos los caminos posibles
• Distancia de un camino:• Suma de las distancias parciales a lo largo de dicho camino
Ajuste de plantillas
• Coste computacional:
• El coste es cuadrático con el número de segmentos de la palabra
• Además hay que calcular la distancia con todas las palabras del vocabulario: coste cúbico
• Válido para vocabularios pequeños
Ajuste de plantillas
• Ventajas: • Algoritmo sencillo de implementar
• Inconvenientes:• Funciona con palabras aisladas• Dependiente del locutor• Vocabularios reducidos
• De cada palabra debe haber varias realizaciones para paliar la variabilidad intralocutor
Arquitectura de un sistema de traducción voz a texto
La traducción voz a texto es un interesante campo en el que muchas empresas e instituciones están dedicando esfuerzos para lograr avances en la aplicabilidad de la técnica en los distintos dominios mencionados en la sección anterior. Reconocimiento automático del habla (ASR: Automatic Speech Recognition). Entrada de un SST es la voz del locutor que se desea traducir. El sistema de ASR convierte la voz origen en texto usando técnicas estadísticas de modelado acústico y decodificación
top related