cortez bedon paper dsp ieee a4 format

5
Análisis del Reconocimiento de voz desde el punto de vista de varios autores A. CORTEZ, J. F. BEDON Instituto de Postgrado y Educación Continua (IPEC) Escuela Superior Politécnica del Chimborazo (ESPOCH) Riobamba, Ecuador Telf.: +593 996183413 +593 996123181 [email protected] [email protected] Resumen —Este trabajo sintetiza de manera breve las técnica de extracción de características sobre la base de dos dimensiones de la transformada discreta del coseno (DTC_2D) y el método del escaneo en zig-zag del espectrograma, que son imágenes basadas en tiempo y en frecuencia de elocuciones fonemas 1 que nos permiten observar de manera más clara las diferencias en la pronunciación de una misma palabra, en comparación con los puntos de vista basados en el análisis de dimensión única como LPC (Linear Prediction Coefficients ), Cepstral, o FFT. Como una tarea de reconocimiento de fonemas, una serie de experimentos se llevaron a cabo en la búsqueda de la consonante oclusiva 2 ("b", "d", "g") de la base de datos TIMIT 3 [1] pronunciada por 630 personas (hombre y mujer). Los datos extraídos son la base de patrones de entrada para la formación de dos tipos de redes neuronales, la red semi-dinámica (TDNN), y una red estática (MLP). Las tasas de reconocimiento más alto de 77,5 y el 72,4 por ciento se registraron para TDNN y MLP, respectivamente. Esto contrasta con los resultados de un 72 por ciento citadas por Hwang y otros [3] para los mismos fonemas hablados por 40 mujeres. Abstract — This paper summarizes briefly the technique of feature extraction based on two-dimensional discrete cosine transform (DTC_2D) and the method of scanning zig-zag spectrogram, which are images based on time and frequency of utterances phonemes that allow us to see more clearly the differences in pronunciation of a word, compared to the view based on analysis of single dimension as LPC (Linear Prediction Coefficients), Cepstral, or FFT. As a task of phonemic awareness, a series of experiments were carried out in pursuit of the stop consonant ( "b", "d", "g") of the database TIMIT [1] spoken by 630 people ( man and woman). The extracted data are the basis of input patterns for the formation of two types of neural networks, semi-dynamic network (TDNN), and a static network (MLP). This contrasts with the results of a 72 percent cited by Hwang et al [3] for the same phonemes spoken by 40 women. Keywords—componentes; fonemas; espectrogramas; KLT ; DCT; pixcel, TIMIT, extración de características; 1 Son sonidos del habla que nos permiten distinguir palabras en una lengua determinada Ej. /p/ y /b/ son fonemas ya que solo al cambiar una letra puede cambiar todo el contexto en pata & bata 2 También llamadas oclusivas sonoras y se pronuncian con la vibración de las cuerdas vocales y determinan pausas en palabras I. INTRODUCCION La identificación de una persona es una forma eficaz de brindar seguridad a un sistema. El estudio de los rasgos conductuales del ser humano como reconocimiento de: iris del ojo, huellas dactilares, geometría de la palma de la mano, de voz, faciales; ha alcanzado un notable interés en el desarrollo en el campo de las TIC’S. En este trabajo se va a registrar datos referentes a indagaciones realizadas sobre técnica de voz y reconocimiento de voz, se hace notar que una persona capta el sonido de 20- 2000 Hz, siendo el resto de sonidos imperceptibles. El procesamiento de la señal de voz se segmenta, eliminando los datos que no forman parte de una palabra y/o fonema. Este proceso se lo realiza utilizando técnicas de filtrado, y otras técnicas expuestas por diferentes autores en su publicaciones científicas. Existen varios métodos (identificadores) para el reconocimiento de la voz, la figura 1 muestra algunas técnicas. IDENTIFICADORES REDES NEURALES NNS MAQUINAS DE SOPORTE DE VECTOR (SVMS) ESTOCASTICOS MODELOS DE PLANTILLA MLP VECTOR DE QUANTIZACION (VQ) MODELOS DE MESCLA GAUSSIANA (GMM) MODELOS OCULTOS DE MARKOV (HMM) DISTORSION EN TIEMPO DINAMICO (DTW) Fig. 1 Técnicas de Identificación [2] Con la aparición de las redes neuronales y el creciente desarrollo del reconocimiento automático de la voz red, varios 3 TIMIT base de datos que está diseñado para proporcionar datos de voz para los estudios acústicos-fonética y para el desarrollo y la evaluación de los sistemas de reconocimiento automático del habla. TIMIT contiene grabaciones de banda ancha de dialectos de Inglés Americano.

Upload: jose-bedon

Post on 11-Jul-2016

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cortez Bedon Paper DSP IEEE A4 Format

Análisis del Reconocimiento de voz desde el punto de vista de varios autores

A. CORTEZ, J. F. BEDON

Instituto de Postgrado y Educación Continua (IPEC) Escuela Superior Politécnica del Chimborazo (ESPOCH)

Riobamba, Ecuador Telf.: +593 996183413 +593 996123181

[email protected] [email protected]

Resumen —Este trabajo sintetiza de manera breve las técnica de extracción de características sobre la base de dos dimensiones de la transformada discreta del coseno (DTC_2D) y el método del escaneo en zig-zag del espectrograma, que son imágenes basadas en tiempo y en frecuencia de elocuciones fonemas1 que nos permiten observar de manera más clara las diferencias en la pronunciación de una misma palabra, en comparación con los puntos de vista basados en el análisis de dimensión única como LPC (Linear Prediction Coefficients ), Cepstral, o FFT.

Como una tarea de reconocimiento de fonemas, una serie de experimentos se llevaron a cabo en la búsqueda de la consonante oclusiva2 ("b", "d", "g") de la base de datos TIMIT3 [1] pronunciada por 630 personas (hombre y mujer). Los datos extraídos son la base de patrones de entrada para la formación de dos tipos de redes neuronales, la red semi-dinámica (TDNN), y una red estática (MLP). Las tasas de reconocimiento más alto de 77,5 y el 72,4 por ciento se registraron para TDNN y MLP, respectivamente. Esto contrasta con los resultados de un 72 por ciento citadas por Hwang y otros [3] para los mismos fonemas hablados por 40 mujeres.

Abstract — This paper summarizes briefly the technique of feature extraction based on two-dimensional discrete cosine transform (DTC_2D) and the method of scanning zig-zag spectrogram, which are images based on time and frequency of utterances phonemes that allow us to see more clearly the differences in pronunciation of a word, compared to the view based on analysis of single dimension as LPC (Linear Prediction Coefficients), Cepstral, or FFT.

As a task of phonemic awareness, a series of experiments were carried out in pursuit of the stop consonant ( "b", "d", "g") of the database TIMIT [1] spoken by 630 people ( man and woman). The extracted data are the basis of input patterns for the formation of two types of neural networks, semi-dynamic network (TDNN), and a static network (MLP). This contrasts with the results of a 72 percent cited by Hwang et al [3] for the same phonemes spoken by 40 women.

Keywords—componentes; fonemas; espectrogramas; KLT ; DCT; pixcel, TIMIT, extración de características;

1 Son sonidos del habla que nos permiten distinguir palabras en una lengua determinada Ej. /p/ y /b/ son fonemas ya que solo al cambiar una letra puede cambiar todo el contexto en pata & bata 2 También llamadas oclusivas sonoras y se pronuncian con la vibración de las cuerdas vocales y determinan pausas en palabras

I. INTRODUCCION La identificación de una persona es una forma eficaz de brindar seguridad a un sistema. El estudio de los rasgos conductuales del ser humano como reconocimiento de: iris del ojo, huellas dactilares, geometría de la palma de la mano, de voz, faciales; ha alcanzado un notable interés en el desarrollo en el campo de las TIC’S. En este trabajo se va a registrar datos referentes a indagaciones realizadas sobre técnica de voz y reconocimiento de voz, se hace notar que una persona capta el sonido de 20-2000 Hz, siendo el resto de sonidos imperceptibles. El procesamiento de la señal de voz se segmenta, eliminando los datos que no forman parte de una palabra y/o fonema. Este proceso se lo realiza utilizando técnicas de filtrado, y otras técnicas expuestas por diferentes autores en su publicaciones científicas. Existen varios métodos (identificadores) para el reconocimiento de la voz, la figura 1 muestra algunas técnicas.

IDENTIFICADORES

REDES NEURALES

NNS

MAQUINAS DE SOPORTE DE

VECTOR (SVMS)ESTOCASTICOS

MODELOS DE PLANTILLA

MLP

VECTOR DE QUANTIZACION

(VQ)

MODELOS DE MESCLA GAUSSIANA

(GMM)

MODELOS OCULTOS DE

MARKOV (HMM)

DISTORSION EN TIEMPO DINAMICO

(DTW)

Fig. 1 Técnicas de Identificación [2]

Con la aparición de las redes neuronales y el creciente desarrollo del reconocimiento automático de la voz red, varios

3 TIMIT base de datos que está diseñado para proporcionar datos de voz para los estudios acústicos-fonética y para el desarrollo y la evaluación de los sistemas de reconocimiento automático del habla. TIMIT contiene grabaciones de banda ancha de dialectos de Inglés Americano.

Page 2: Cortez Bedon Paper DSP IEEE A4 Format

estudios fueron realizados para acoplar esta tecnología a las redes neuronales [4]. Constituyéndose el principal objetivo de este descubrimiento desarrollar un sistema de voz y reconocimiento de voz independiente del texto. En la actualidad se han dado pasos gigantescos en este ámbito, siendo posible interactuar con los ordenadores fijos y móviles con sistemas como: SIRI (Apple), Cortana (Windows) y Google Now (Google), llamados asistentes de voz, en la actualidad estas herramientas hacen la vida más simple y divertida, con estas aplicaciones se observa mejoras significativas en la precisión del reconocimiento, así como la tasa de convergencia para el control y desarrollo. La figura 2 ilustra el modelo del sistema en general, en la siguiente sección se define los datos de entrada y se explica el procesamiento y el algoritmo de extracción de características, en la última sección se hace un análisis para las diferentes redes neuronales.

PREPROCESAMIENTO

PROCESAMIENTO DE IMAGEN REDES

NEURONALES

INGRESO VOZ

EXTRACION D E CARACTERISTICAS

TDNN & MLP

VOZRECONOCIDA

Fig. 2. El Sistema General de Reconocimiento de Voz

II. RECOLECCION DE DATOS Los datos de una consonante oclusiva (“b", "d", "g") fueron extraídos de una voz humana continua y natural, pronunciada por 630 hablantes de 8 regiones diferentes de la base de datos TIMIT [1]. Se seleccionaron más de 2.000 expresiones para el entrenamiento de las redes neuronales y se seleccionaron aproximadamente 1.250 expresiones en un total con una técnica para estimar el rendimiento del modelo predictivo (cross-validation) los datos de validación establecidos se dividieron en dos grupos:

1. Un pequeño conjunto de datos compuesto de 8 regiones diferentes donde cada uno hablo de 130 a 180 expresiones. 2. Un conjunto de datos grande contenidas todas las 8 regiones de 1250 enunciado. Los enunciados o expresiones para el entrenamiento y validación se tomaron un número similar de hombres y mujeres para ambos conjuntos

III. PROCESAMIENTO DE DATOS Y ESTRACCION DE CARACTERISITICAS

En la rama de la inteligencia artificial, el reconocimiento de patrones y en el procesamiento de imágenes, la extracción de características se inicia a partir de un conjunto inicial de datos que facilita las posteriores etapas de aprendizaje y de generalización y en algunos casos conduce a mejores interpretaciones humanas. La extracción de características se relaciona con la reducción de la dimensionalidad, existen La selección de características se refiere a la elección de ciertos atributos de una imagen, la figura 3 muestra los métodos para la extracción de característica

EXTRACCIONDE

CARACTERISTICAS

PERCEPTUAL LINEARPREDICTION (PLP)

LINEAR PREDICTIVE CEPSTRAL COEFICIENTS

(LPCC)

WAVELETS

NEURAL PREDICTIVE CODING

PREDICCION LINEAL DE CARACTERISITICAS

(LPC)

MEL-FREQUENCY CEPSTRUM COEFFICIENTS

(MFCC)

Fig. 3 Técnicas de Extracción de características [2]

El principio fundamental en el procesamiento de la imagen digital para el reconocimiento de patrones de voz es la capacidad de representar la imagen en un espacio en el que los atributos de la imagen no están correlacionados. La transformada ortogonal tiene propiedades distintas y diversas como: Se descorrelaciona la señal en el dominio de la transformada. Contiene mayor concentración de energía en el menor número de coeficientes de la Transformada. La Transformada Discreta del Coseno (DTC) [5] es la mejor transformada ortogonal mejorable en comparación con el KLT4 (Karhunen-Loève Transform) que se conoce como la trasformada más óptima. La transformada discreta del coseno esta defina para N puntos como:

4 Una representación de un proceso estocástico como una combinación lineal infinita de funciones ortogonales, análogas a una representación en serie de Fourier de una función en un intervalo acotado

(1)

Page 3: Cortez Bedon Paper DSP IEEE A4 Format

𝐶𝐶(𝑘𝑘) = � 2𝑥𝑥[𝑛𝑛]𝑐𝑐𝑐𝑐𝑐𝑐 �𝜋𝜋

2𝑁𝑁𝑘𝑘(2𝑛𝑛 + 1)� , 𝑘𝑘 = 0,1, … ,𝑁𝑁 − 1

𝑁𝑁−1

𝑛𝑛=0

La transformada inversa discreta del coseno esta defina como:

𝑥𝑥[𝑛𝑛] =1𝑁𝑁�𝜔𝜔[𝑘𝑘]𝐶𝐶[𝑘𝑘]𝑐𝑐𝑐𝑐𝑐𝑐 �

𝜋𝜋2𝑁𝑁

𝑘𝑘(2𝑛𝑛 + 1)� ,𝑁𝑁−1

𝑘𝑘=0𝑛𝑛 = 0,1, … ,𝑁𝑁 − 1

La ecuación (3) indica la ecuación de La Transformada Karhunen-Loève KLT. “La matriz de transformación de la KLT, suponiendo que el vector de coeficientes transformados también tiene media nula, la matriz de covarianza 𝑉𝑉�𝑌𝑌 del vector de coeficientes transformados resulta [6]”:

𝑉𝑉�𝑌𝑌 = 𝐸𝐸[𝑌𝑌�𝑌𝑌�𝑇𝑇] = 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑(𝜆𝜆0, 𝜆𝜆1, … , 𝜆𝜆𝑁𝑁−1) =

⎣⎢⎢⎢⎢⎡𝜆𝜆0

0

0

0

𝜆𝜆1⋮

0

0

0

𝜆𝜆𝑁𝑁−1⎦⎥⎥⎥⎥⎤

Donde 𝜆𝜆𝑢𝑢 , con 𝑢𝑢 = 0,1,…, N - 1, denota las varianzas de los coeficientes transformados. La Figura 3 ilustra el MSE5 de las transformadas ortogonales [6] en comparación con el tamaño del bloque. Como se puede ver en la Figura 2 los bloques más pequeños se eligen en lugar de toda la imagen por tres razones principales.

Fig. 3 MSE frente al tamaño de bloque para diferentes

transformadas ortogonales [8] En primer lugar, para aprovechar la redundancia en un conjunto de píxeles, en segundo lugar, el procesamiento de imágenes de pequeño número de bloques es computacionalmente menos

5 Error Medio Cuadrático (Mean Square Error) mide el promedio de los errores al cuadrado, es decir, la diferencia entre el valor estimado y lo que se estima

intensivo y reduce la restricción en tiempo real para los propósitos más prácticos. Finalmente, cualquier píxel en una imagen es probable que sea estrechamente relacionada con los cuatro píxeles que rodean y de manera similar cada uno de estos, son propensos a tener la misma relación con sus respectivos vecinos, pero el píxel original es poco probable de estar relacionado con uno que esté a larga distancia. Mediante la división de la imagen en una serie de bloques más pequeños se forman grupos de píxeles que están estadísticamente relacionadas con un alto nivel de redundancia. El espectrograma de banda ancha generada se divide en una serie de 𝑃𝑃𝑥𝑥𝑃𝑃 (8 ∗ 8) bloques de píxeles como se muestra en la figura 4, donde 𝑅𝑅 y 𝐶𝐶 son las dimensiones del espectrograma.

Espectrograma de Imagen

Seg1 Seg2

SegN

C

R

Q

P

Fig.4. Segmentación de la imagen [4] Una Transformada Discreta de Coseno en 2 Dimensiones (2D-DCT) de cada bloque de 8x8 se calcula, las características fundamentales de imagen se extraen utilizando el método escaneo en zigzag como se muestra en la figura, 5. La frecuencia aumenta a lo largo de la diagonal de partida en el elemento dc que está situado en el píxel 1 (ubicado en la parte superior izquierda) con menor frecuencia y termina en el pixel 64 (situado en la parte inferior derecha) con mayor frecuencia.

1

64

Fig.5. Método del escaneo en zigzag

0%

1%

2%

3%

4%

2x2 4x4 8x8 16x16 32x32 128x12864x64

FFT

DCT

KLT

(2)

(3)

(1)

Page 4: Cortez Bedon Paper DSP IEEE A4 Format

La mayor cantidad de datos en cada bloque de procesado se almacena en la región de baja frecuencia. El componente de 𝑑𝑑𝑐𝑐 se selecciona como la característica clave de cada bloque individual y se almacena en un archivo de patrones para el entrenamiento de las redes neuronales. El sistema global se compone de 3 particiones principales como se indica en la Fig. 6. En la etapa de pre-procesamiento los datos analógicos son convertidos en datos lineales de 16 bits. La segunda etapa representa el procesamiento de imágenes y la extracción de características clave y finalmente, en la última etapa los patrones generados son entrenados y probados por las dos redes neuronales.

IV. ESTRUCTURA DE LAS REDES NEURONALES Y RESULTADOS

Los datos seleccionados constituyen la base de patrones de entrada para las redes neuronales de formación. En este estudio una red neuronal semi-dinámica (Time-Delay Neural Network, TDNN) y una red estática (Multilayer Preceptors, MLP) son adiestradas para propósitos de reconocimiento. Estas dos redes se utilizaron con el fin de investigar si el espectrograma procesado necesita adaptarse al comportamiento dinámico de la señal de voz o las características extraídas son adecuadas para una simple red estática.

ADC EspectrogramaConvertidor de 16 Bits

LinealCon n puntos

Guardar como un archivo de patrones

Tomar m Caracterisiticas Escoger

Por cada segmento P,Q,m

REDES NEURONALESTDNN & MLP

Muestreo 8kHz8 Bits ley de

muFFT

(Escaneo en Zigzag)

Divida a los segmentos l,

número de PxQ

Hola

Pre-procesamiento

Clasificador

Extraction de CaracterísticasSeñal Analogica

Voz

Ronocer fonema o

plabra

Figura 6. El sistema de Reconocimiento de Voz [7]

El procedimiento propuesto reduce el número de los nodos de entrada en los patrones de entrenamiento y al mismo tiempo proporciona un número más importante de características del conjunto de datos. Por lo tanto para una red TDNN la reducción de las unidades de entrada de número se traduce en un menor número de nodos ocultos (disminuyendo el número total de conexiones), que a su vez resulta en un menor tiempo de formación y una mejor tasa de convergencia. En caso de MLP se usó el mismo número de entrada y salida, es decir, 72 y 3 respectivamente, pero sólo se usó una capa

oculta de nodos 20 en comparación con dos capas ocultas en la TDNN. Un conjunto completo de resultados se ilustran en la Tabla 1.

Tipos Redes neuronales

Entrenamiento Pruebas

TDNN 85 77.5 MLP 89 72.4

Tabla1 Resultados de la Base de Datos TIMIT [3]

Las tasas de reconocimiento más alto de 77,5 y 72,4 por ciento se registraron. TDNN y MLP, respectivamente, Estos resultados contrastan con resultado de 72 por ciento citado por Hwang et al [3] para los mismos fonemas hablados por sólo 40 hablantes femeninos. CONCLUCIONES Una Red Neuronal semi-dinámica (TDNN) y red estática (MLP) son herramientas óptimas para el reconocimiento de Voz. El reconocimiento de Voz parte de un razonamiento diferente ya que para reconocer fonemas (palabras oraciones silabas) de personas el sistema está reconociendo “imágenes” espectrogramas que son las representaciones de la voz en función del tiempo y la frecuencia utilizando la DCT o KLT en 2 dimensiones (si fuera 3 dimensiones la tercera dimensión representa el peso de la señal “El tono”) comparando patrones de puntos (pixeles) similares en regiones dividas del espectrograma. Cualquier tipo de sonido se puede representar con espectrogramas ya que se pueden discretizar y convertirlos en una función en el dominio del tiempo y la frecuencia. Tanto la transformada KLT como la DCT son funciones matemáticas muy útiles y su principal valor es que pueden descomponer las señales en función de coeficientes donde siempre la mayor parte de la energía está enfocada en los primeros. Las Redes TDNN y MLP se utilizan con el fin de investigar y determinar si el espectrograma procesado necesita adaptarse al comportamiento dinámico de la señal de voz o las características extraídas son adecuadas para una red estática simple El procedimiento analizado reduce el número de nodos de entradas en los patrones de entrenamiento y al mismo tiempo proporciona un número significativo de características del conjunto de información. Existen muchas técnicas de extracción de características y técnicas de identificación de reconocimiento de voz pero una de las más utilizadas es TDNN y MLP mediante el uso de la transformada de Karhunen-Loève (KLT) y la transforma de Discreta del Coseno (DCT)

Page 5: Cortez Bedon Paper DSP IEEE A4 Format

AGRADECIMIENTOS Este documento fue realizado con la colaboración del Msc. Kenneth Palacios B. profesor de la Universidad de Cuenca y profesor del ESPOCH quien nos ayudó con material y la documentación necesaria para realizar esta investigación. REFERENCIAS [1] Lopes Carla, Perdigão Fernando “Phone Recognition on the TIMIT Database” [2] García Guajardo, “Sistema de reconocimiento de voz usando perceptrón multicapa y Coeficientes Cepstrales de Mel. ” Pag 21-22 . (2014). [3] Hwang J, Li H, "Interactive Quary learning for Isolated Speech Recognition", Proc. Of IEEE Signal Processing, Network for Signal Processing II, Denmark 31 Aug. - 2 Sep. 1992, page 93-102. [4] Waibel A H, Hanazawa T, Hinton G,Shikano K, Lang K, "Phoneme Recognition Using Time-Delay Neural Networks.", lEEE Trans. on ASSP, Vol. ASSP-37, No. 3, March 1989. [5] Digital Signal Processing and Statistical Classification Miao G., Clements M. Pag. 116 [6]Valetin Cruz Rodriguez “Diseño de un codificador de imágenes adaptativo multitransformada mediante el uso de la transformada karhunen-loève ” Octubre 2012 Pag.35 Ref 2.62 [7] M Ahmadi, NJ Bailey, BS Hoyle, "Phoneme Recognition using Speech Image ( Spectrogram ).", lEEE Proceedings IWISP '96, 4–7 November 1996; Manchester, UK. Pag. 674 [8] Rao K R, Yip P, ''DCT. · Algorithm. Advantages, Applications."', Academic Press Inc., 1990.

José F. Bedon Nacido en Ambato el 26 de junio 1981. Realizó sus estudios secundarios en el Colegio Técnico “Guayaquil” y los estudios de pregrado en la Universidad Técnica de Ambato. Actualmente sigue la maestría en Sistemas de Telecomunicaciones en la Escuela Superior Politécnica de

Chimborazo en la ciudad de Riobamba. En el año desde el año 2009 hasta la presente fecha labora en la Corporación Nacional de Telecomunicaciones CNT EP

Agustín Cortez Manzano, Nacido en Tixán – Alausí el 11 de abril 1980. Realizó sus estudios secundarios en el Colegio Juan Francisco Yerovi y los estudios superiores cursó en la Escuela Superior Politécnica de Chimborazo. Actualmente sigue la maestría en Sistemas de Telecomunicaciones en la Escuela Superior Politécnica de

Chimborazo en la ciudad de Riobamba. En el año 2009 fue profesor en la Facultad de informática Electrónica en la Escuela Superior Politécnica de Chimborazo en la ciudad de Riobamba, desde el año 2008 hasta la presente fecha labora en la Corporación Nacional de Telecomunicaciones CNT EP