el objetivo de esta práctica es:

Download El objetivo de esta práctica es:

If you can't read please download the document

Upload: phungkhuong

Post on 06-Jan-2017

221 views

Category:

Documents


2 download

TRANSCRIPT

El objetivo de esta prctica es:

Departamento de Seales, Sistemas y Radiocomunicaciones

Asignatura:Laboratorio de Tratamiento Digital de la Voz

PRCTICA 3TTULO: TCNICAS BSICAS DE ANLISIS LOCALIZADO EN FRECUENCIA

REQUISITOS/ CONOCIMIENTOS PREVIOSTransformada de Fourier de la voz. Caractersticas acsticas en el dominio de la frecuencia de los diferentes sonidos que componen el habla.

Transformada Localizada de Fourier. Clculo e interpretacin de espectrogramas.

Prediccin Lineal. Envolvente espectral. Estimas de posicin de Formantes.

INSTRUCCIONES GENERALESEn esta prctica se continuar utilizando la funcin MATLAB de anlisis localizado (ALOC), desarrollada en la prctica anterior, pero ahora aplicada al anlisis de Fourier de la voz. La evolucin tiempo-frecuencia de la voz se considerar haciendo uso de la funcin MATLAB SPECGRAM. Tambin en esta prctica se plantear la resolucin del anlisis de Prediccin Lineal partiendo de la autocorrelacin de un segmento de voz. A partir de los coeficientes de Prediccin Lineal utilizaremos la funcin FREQZ para representar la envolvente espectral de los diferentes sonidos, y las funciones ROOTS y ANGLE para estimar la posicin de los formantes de la voz.

OBJETIVOS GENERALESLos objetivos de esta prctica son:Obtener, analizar e interpretar medidas de anlisis localizado en frecuencia: tanto medidas locales de espectros de diferentes sonidos, como medidas de evolucin tiempo-frecuencia (espectrogramas) de los mismos.

Experimentar la aplicacin de la Prediccin Lineal sobre seales correspondientes a diferentes sonidos. Analizando tanto la envolvente espectral obtenida como la estima de los formantes de la voz.

Aplicar las medidas anteriores a la problemtica del clculo de trayectorias de formantes y reconocimiento automtico de vocales y de dgitos.

ACTIVIDADES1.Clculo de la Transformada de Fourier de diferentes segmentos de voz.

La medida de la Transformada de Fourier de una ventana de seal de voz nos da informacin tanto de la articulacin del sonido (envolvente espectral) como de la vibracin o no de las cuerdas vocales (estructura armnica o fina del espectro).

Una forma simple de obtencin y representacin del espectro del segmento de voz "x" en MATLAB sera:>>DFTx=fft(x);>>plot(20*log(abs(DFTx(1:length(x)/2))));

Nota: Representamos slo el mdulo en dB. Podramos haber utilizado SEMILOGY para evitar el clculo de 20*log( ). Es importante saber interpretar los valores que figuran en el eje X de la grfica.

Una vez resueltos los problemas de interpretacin bsica del clculo anterior, debemos concentrarnos en la interpretacin de la informacin espectral, asocindola a caractersticas articulatorias de los diferentes sonidos de la voz. Nos fijaremos, principalmente, en los segmentos correspondientes a vocales y fricativas.

Es muy importante tener presente cmo afectar a nuestra medida los parmetros siguientes:-Tipo de ventana de anlisis.

-Tamao de la ventana de anlisis.

-Nmero de puntos de la FFT.

Por ejemplo:-Un anlisis realizado con una ventana pequea no nos permitir ver la estructura fina del espectro de una vocal, slo nos permitir ver la envolvente del sonido.

-Si sobre la Transformada de Fourier medimos la frecuencia fundamental qu resolucin tendremos?

2.Clculo e interpretacin de espectrogramas.

La medida de la Transformada de Fourier de una ventana de seal de voz slo nos da informacin de un sonido aislado en la cadena hablada. Sin embargo la informacin principal de la voz se manifiesta cuando realizamos un anlisis tiempo-frecuencia.

Como segundo grupo de actividades de esta prctica haremos uso de la funcin SPECGRAM que proporciona MATLAB para calcular y representar espectrogramas de diferentes palabras o frases cortas.

Es importante, en primer lugar, analizar las posibilidades que ofrece la funcin SPECGRAM, ya que seleccionando diferentes tamaos de ventana, desplazamientos y nmero de puntos para la FFT podremos obtener espectrogramas de banda ancha y estrecha. Tambin puede ser importante la seleccin del mapa de colores de la representacin (funcin COLORMAP de MATLAB).

Nota: Recordad que los espectrogramas de banda ancha (que suelen ser los preferidos en el anlisis de voz) tienen buena resolucin en el tiempo y baja en frecuencia, mientras que los de banda estrecha tienen buena resolucin en frecuencia pero baja en el tiempo.

Tras tener clara la aplicacin de la funcin SPECGRAM se debern realizar prcticas de interpretacin de espectrogramas encaminadas a:

-Identificar formantes y su evolucin.

-Identificar diferentes sonidos o familias de sonidos.

-Localizar la informacin correspondiente a la frecuencia fundamental.

3.Anlisis de Prediccin Lineal.

Como ltima medida relacionada con el dominio de la frecuencia, recurriremos a la tcnica de Prediccin Lineal. En esta prctica nos fijaremos especialmente en las posibilidades que la Prediccin Lineal tiene como tcnica de Estimacin Espectral, dejando para la prctica siguiente otras consideraciones ms relacionadas con modelos de produccin de voz. Por ello, por ejemplo, en esta prctica no prestaremos atencin a temas relacionados con el error de prediccin.

Una forma simple de obtener en MATLAB P coeficientes de prediccin lineal sobre un segmento de seal x , mediante el mtodo de autocorrelacin, sera:

>>P= . (orden de prediccin elegido)>>Rs=xcorr(x);>>R=Rs(length(x):length(x)+P-1);>>r=Rs(length(x)+1:length(x)+P);>>RT=toeplitz(R);>>a=inv(RT)*r;

Partiendo del vector de coeficientes "a" obtenido, podramos representar la envolvente espectral del sonido x utilizando la funcin MATLAB FREQZ tal y como sigue:

>>[h,w]=freqz(1, [1 -a'], 512);>>plot(20*log(abs(h)))

De esta forma podremos comparar la transformada de Fourier de x con la envolvente obtenida, y ver la correspondencia entre ambas representaciones. Por qu hay un desajuste de energa entre las dos representaciones -Transformada de Fourier y Envolvente de Prediccin Lineal?. Cmo se debera tener presente la energa?

Finalmente, haciendo uso de las funciones MATLAB ROOTS y ANGLE podemos intentar obtener las raices del denominador del filtro que representa la envolvente espectral (funcin ROOTS) y la fase de dichas raices o polos (funcin ANGLE, que da la fase en radianes) que podrn corresponder a la posicin de los formantes.

EJERCICIO DE APLICACINComo ejercicio de aplicacin de esta prctica se propone la realizacin de una funcin MATLAB que permita realizar las funciones siguientes:-Estima de los formantes de la seal de voz.

-Identificacin y reconocimiento de vocales.

-Finalmente, como extensin al trabajo de reconocimiento realizado en la asignatura terica de Tratamiento Digital de Voz, intentar realizar un reconocedor de dgitos.

Se trata simplemente de un ejercicio sencillo sobre un problema de difcil solucin. Por tanto slo se espera obtener una primera aproximacin tanto a la estima de los formantes como al reconocimiento de dgitos.

Algunas consideraciones adicionales en la realizacin de este ejercicio seran:

-Para la identificacin de vocales podra ser de utilidad el uso de medidas de energa, tasas de cruces por cero o sonoridad de prcticas anteriores.

-Para el reconocimiento de vocales a partir de los dos primeros formantes puede intentar recurrirse a una carta de formantes como la que se esquematiza en la figura siguiente.

-Para la realizacin del reconocedor de dgitos sencillo, se podra partir de los resultados del reconocimiento de vocales, junto con alguna informacin ms de otros sonidos en la voz a reconocer: tramos fricativos, oclusivas, lquidas, nasales, etc..

-Tambin para el reconocedor de dgitos, podra realizarse un alineamiento temporal (DTW) a partir de las caractersticas o etiquetas que se asocien a cada trama de voz analizada.

Como se ha comentado ya, no es objetivo de esta prctica el uso de tcnicas de anlisis y clasificacin ms potentes, como el uso de cepstrum y modelos ocultos de Markov, que s podra ser planteado como actividad para la prctica final del laboratorio.

Como referencia base para la realizacin de los ejercicios de esta prctica puede ser til recordar los apartados 4.5 (seguimiento de formantes) y 7.2 (DTW) del libro:

-F.J. Owens, Signal Processing of Speech, MacMillan New Electronics, Hong-Kong, 1993.

CARTA DE FORMANTES APROXIMADA