análisis y síntesis de voz mediante ordenador

Análisis y síntesis de voz mediante ordenador

Objetivos

Aprender como “se forma” la voz y sus características principales.

Tener una idea básica sobre en que se basa el reconocimiento del habla y que técnicas son utilizadas para llevarlo a cabo.

Conocer el estado actual de tecnologías de interacción como la síntesis o el reconocimiento de voz.

Ver las aplicaciones actuales de esta tecnología.

Contenidos

Historia de estas tecnologías El concepto de voz Procesamiento digital Reconocimiento de voz

Introducción Modelado del tracto vocal Preprocesado de la señal de voz Procesamiento mediante LPC Alineamiento temporal (DTW) Cuantificación vectorial

…

Contenidos

Síntesis de la voz Introducción Sistemas de respuesta oral Vs convertidores

texto-voz Conversión texto-voz

Aplicaciones Aplicaciones

Contenidos



…

Historia del reconocimiento

Los inicios: años 50•Bell Labs .... Reconocimiento de dígitos aislados monolocutor

Los fundamentos: años 60•Comienzo en Japón (NEC labs)

Las primeras soluciones: años 70, el mundo probabilístico•Reconocimiento de palabras aisladas•LPC, programación dinámica•IBM: inicio proyecto reconocimiento de grandes vocabularios•Gran inversión en los USA: proyectos DARPA

Historia del reconocimiento

Reconocimiento del Habla Continua: años 80, expansión •Explosión de los métodos estadísticos: Modelos Ocultos de Markov

•Introducción de las Redes Neuronales en el reconocimiento de voz

Empieza el negocio: años 90, primeras aplicaciones•Ordenadores y procesadores baratos y rápidos•Sistemas de dictado

Actualidad, integración en el S.O.•VoiceXML standard•Sistema V2C (interacción voz-radio, voz-teléfono, voz-navegador)

Historia de la síntesis

Síntesis del Habla: Comienzos tempranos•El Papa Silvestre II (1003), Alberto Magno (1198-1280) y Roger Bacon (1214-1294) crearon ejemplos tempranos de 'cabezas parlantes'.

Fijación de las bases: siglo XIX, modelado de la voz•En 1779, el científico danés Christian Gottlieb Kratzenstein, construyó modelos del tracto vocal que podían producir las cinco vocales largas (a, e, i, o, u).

Y por fin: siglo XX, síntesis mediante computador•En los años 30, los laboratorios Bell Labs desarrollaron el VOCODER, un analizador y un sintetizador del habla operado por teclado.•Años 90 grandes avances en la síntesis debido principalmente al rápido desarrollo de los ordenadores.

Contenidos



…

El concepto de voz

Sistema fonador humano

Onda de presión acústica.

Los distintos sonidos se producen al pasar el aire emitido por los pulmones, a través de todo el sistema de producción.

El concepto de voz

Clasificación de sonidos Sonidos sonoros En ellos las cuerdas

vocales vibran y el aire pasa a través del tracto vocal sin impedimentos importantes.

Sonidos sordos En ellos las cuerdas vocales no vibran y existen restricciones importantes al paso del aire que proviene de los pulmones, por lo que son de amplitud menor y normalmente de naturaleza más ruidosa que los sonoros.

El concepto de voz

Análisis frecuencial (I) La mayor parte de la información de la señal de voz se encuentra en los

primeros 4 kHz.

Sonido sonoroSonido sordo

Contenidos



…

Procesamiento digital

El procesamiento digital de señal mediante un DSP, ordenador, etc.

Fase 1ª - Digitalización de voz

Etapas de digitalización: Recogida de información mediante un transductor. Filtrado antialiasing. Muestreo (Teorema de Nyquist).

Procesamiento digital

Fase 2ª - Codificación de voz Pretenden reducir el volumen de información necesario para almacenar o

transmitir una señal de voz. Minimizar la pérdida de calidad de la señal decodificada respecto a la señal

original.

Tipos de codificación: Codificación de forma de onda: intentan reproducir fielmente la forma

de la onda de la señal a codificar Codificación paramétrica(*): se basan en un modelo de producción del

habla, e intentan reproducir en el proceso de decodificación una señal que al escucharla se parezca a la original, aunque existan distorsiones en la forma de onda generada.

• (*)Nota: en el reconocimiento de voz, la codificación paramétrica es ampliamente utilizada.

Contenidos



…

Reconocimiento de voz

Introducción El reconocimiento de la voz constituye una parte importante del tratamiento

del habla. Técnicas de reconocimiento utilizadas:

Análisis de Predicción Lineal (LPC) Alineamiento Temporal (DTW) Modelos ocultos de Markov

Tipos de enfoque en el reconocimiento: Reconocer palabras aislados

Reconocer palabras conectadas

Reconocer fonemas y difonos (reconocimiento continuo de voz)

Contenidos



…


Modelado del tracto vocal (I) Como ya se vio, existen dos tipos de

señales, que pueden describir el proceso del habla:

Sonidos sonoros• Alta energía• 300-4000 Hz• Cierta periodicidad

• Matemáticamente modelables como un tren de impulsos

Sonidos sordos• Baja energía• Componente frecuencial uniforme• Cierta aleatoriedad

• Matemáticamente modelables como un ruido blanco


Modelado del tracto vocal (II) Teniendo presente la clasificación anterior y que el tracto vocal modelado se

manifiesta como un filtro variable en el tiempo, en el que únicamente existen dos posibles señales de entrada (sonoras o sordas), se puede hacer el siguiente sistema:

Contenidos



…


Preprocesado de la señal de voz 1ª- Preénfasis

La etapa de preénfasis se realiza con el propósito de suavizar el espectro y reducir las inestabilidades del cálculo asociadas con las operaciones aritméticas de precisión finita.Básicamente esta etapa consiste en un filtro digital de primer orden, cuya ecuación y repuesta en frecuencia corresponde a:


Preprocesado de la señal de voz 2ª- Segmentación y enventanado

La siguiente etapa del preprocesado, consiste en la segmentación de la señal de voz en tramas de 20 ó 30 mseg, con un desplazamiento típico de 10 mseg.


Preprocesado de la señal de voz 2ª- Segmentación y enventanado

Por último a cada trama generada se le aplica una ventana de Hamming, que elimina los problemas causados por los cambios rápidos de la señal en los extremos de cada trama de voz.

Contenidos



…


Procesamiento mediante LPC Permite parametrizar una señal con un número pequeño de patrones. Coste computacional pequeño.

●Problema: No sabemos como calcular los coeficientes ak del filtro


Procesamiento mediante LPC Autocorrelación en combinación con algoritmo de Levinson-

Durbin

Cálculo de los coeficientes del filtro FIR:

Contenidos



…


Alineamiento temporal (DTW) La siguiente etapa del análisis viene a ser la que se encarga de realizar la

comparación de patrones acústicos. Esta técnica tiene en cuenta la variación en la escala de tiempo de dos palabras a comparar.

Que problema se intenta resolver con el DTW?• El problema que se presenta cuando se pronuncia una palabra es que esta no siempre se

realiza a la misma velocidad, lo que produce importantes distorsiones.

Como resolverlo?• La forma de resolver este problema se realiza mediante algoritmos de programación

dinámica.

Contenidos



…


Cuantificación vectorial

Particionar el espacio vectorial en sectores, cada uno de los cuales será representado por un solo vector que puede ser el centroide. El conjunto de centroides viene a ser el libro índice (codebook) que conforman los niveles de cuantificación y a cada una se le asignará una etiqueta o una dirección.

Decisión: El funcionamiento básico de esta técnica se basa en la comparación de un vector de

entrada, con los vectores del codebook, intentando minimizar la distancia entre ambos vectores. La decisión se toma según un umbral de distorsión. Si resulta mayor se vuelve a comparar hasta que la de distancia total sea inferior al umbral.


Esquema de un reconocedor de cuantificación vectorial

Contenidos




Síntesis de la voz

Introducción

Características a tener en cuenta de un sintetizador:

Inteligibilidad: Está relacionada con la facilidad para comprender la señal oral.

Calidad: Es un indicador de la “naturalidad” de los sonidos.

Contenidos




Síntesis de la voz

Sistemas de respuesta oral vs convertidores texto-voz Tipos:

Sistemas de respuesta oral• Basados en la reproducción de segmentos de voz grabados previamente. Por ejemplo, en el

caso de información de telefónica.

Convertidores texto-voz• Sistemas capaces de convertir cualquier cadena de texto de entrada a una señal de voz.

Ventajas/Desventajas

Los sistemas de respuesta oral solo permiten sintetizar un número muy limitado de frases, mientras que los sintetizadores permiten un cualquier frase de entrada.

Los convertidores texto-voz son más complejos, pero ofrecen una mayor flexibilidad.

Los sistemas de respuesta oral requieren un menor gasto de memoria.

Contenidos




Síntesis de la voz

Conversión texto-voz. Esquema del sintetizador

Síntesis de la voz

Conversión texto-voz. 1ª - Etapa: Análisis del texto

Función: Realiza la conversión de los símbolos fonéticos que integran el texto escrito, usando

reglas gramaticales propias del lenguaje.

Síntesis de la voz

Conversión texto-voz. 2ª - Etapa: Generación de prosodia

Función: Se divide en dos bloques:

• Control suprasegmental: Trata la entonación de la frase en su conjunto.

• Control segmental: controla la micromelodía, o fenómenos locales de coarticulación, acentuación,...

Síntesis de la voz

Conversión texto-voz. 3ª - Etapa: Síntesis de la voz

Función: Genera la señal acústica a partir de los parámetros extraídos en los bloques

anteriores.

Unidades lingüísticas

Contenidos




Aplicaciones

Aplicaciones del reconocimiento de la voz:

Dictado automático

Control por comandos

Sistemas diseñados para discapacitados

etc

Aplicaciones

Aplicaciones de la síntesis:

Revisar grandes volúmenes de texto

Confirmación de órdenes y selecciones

Operar bajo condiciones en las que una visualización no es práctica

Oír el correo electrónico por teléfono

etc

Conclusiones

Obteniendo varios ejemplos de diferentes programas

de síntesis: Software 2000-2001: Software 2005-2006:

Universidad de Vigo: • Basada en técnica de corpus:• Basada en técnica de difonemas:

análisis y síntesis de voz mediante ordenador

Documents