metodologÍa - investigar.cimogsys.cominvestigar.cimogsys.com/articulos_edicion/7tarticulo 2...

14

INTRODUCCIÓN

El procesamiento de la señal digital en las últimas dé-cadas ha evolucionado desarrollando microcontrola-dores cada vez más potentes que ofrecen diferentes aplicaciones como es el procesamiento de la señal de voz que permite interactuar los diferentes usua-rios mediante el reconocimiento de la señal de voz. Hoy en día existen diferentes empresas fabricantes de procesamiento de la señal digital DSP como Texas Instrumen, Analog Devices, Miicrochip, MathWorks que con la ayuda de hardware y software como es LabVIEW, FPGA, VHDL, Matlab se puede llegar a rea-lizar el análisis y procesamiento de la señal así tam-bién estos software dan la facilidad de graficar cada una de las señales que se obtienen en cada proceso. (Faúndez, 2000)

En el trabajo realizado por (Díaz y Yunga,2013) men-cionan que Kurzwei dice que el reconocimiento de voz es el proceso de convertir, por medio de una computadora, una señal acústica a una secuencia de palabras representadas en texto, estas palabras pueden servir de entrada a otros dispositivos que los requieren para realizar alguna acción, como activar dispositivos , estas técnicas se han logrado incorpo-rar en diferentes aplicaciones como es el caso del control automático de sillas de ruedas a través de co-mandos de voz que han ayudado a las personas que presentan dificultades físicas para poder movilizarse.

Los sistemas de reconocimiento de voz se han utili-zado por la necesidad de poder controlar dispositi-vos de una manera automática , debido al porcenta-je de personas que poseen una discapacidad física, en el trabajo de investigación realizado por (Ortega, Martínez y Mora) dan a conocer que estos sistemas pueden ser de gran ayuda y a su vez presentan difi-cultades al momento de la extracción de característi-cas de la voz es decir, como cuando una persona no puede pronunciar dos veces la misma palabra de una manera idéntica así también la manera de pronun-ciación , el estado de ánimo, la entonación, similitud entre las palabras o fonemas , la fuerza con la que se pronuncian las palabras o comandos de voz implican un problema en los sistemas de reconocimiento, sin embargo se han podido desarrollar algoritmos que permiten lograr tener un nivel alto de coincidencias. Otro factor que se pueden presentar en estos siste-mas es el ruido que se presentan en el ambiente y que pueden dificultar al momento de la realización del reconocimiento. El presente trabajo se enfoca en el procesamiento de comandos de señal de voz para niños para ello se utilizó el Software Matlab el cual brinda las herramientas para la realización del

procesamiento de la señal además facilita la deter-minación de cada uno de los procesos de una ma-nera gráfica, este software se utilizó para diferentes etapas como es la determinación del umbral de los niños y además para encontrar las características de los comandos de voz con la ayuda de la Codificación Predictiva Lineal (LPC) el cual se encarga de obtener características que se encuentran en el tracto vocal. Una vez realizado el procesamiento de las señal y obteniendo el reconocimiento de los respectivos co-mandos de voz, se procedió a realizar la implemen-tación del Módulo de reconocimiento de comandos de voz para niños en un Caso práctico para lo cual se utilizó la tarjeta de adquisición Arduino Uno.

METODOLOGÍA

Para la realización del software y módulo de recono-cimiento de comandos de voz para niños fue nece-sario conocer los fundamentos de la voz, modelo ge-neral de producción de voz, la clase de sonidos y los tipos de reconocimiento que existen para posterior-mente diseñar un algoritmo o diagrama de bloques y así ejecutar el algoritmo mostrado en la Fig.2 en el software Matlab para luego realizar la implementa-ción con la ayuda de la tarjeta de adquisición Arduino Uno y de esta manera comprobar su efectividad.

La palabra voz proviene del latín vox, es utilizada para nombrar al sonido que se produce cuando las cuerdas vocales vibran, dicha vibración se da cuan-do el aire sale desde los pulmones para dirigirse a la laringe. Entre las características fundamentales de la voz se destacan, la intensidad o potencia con la que un sonido es emitido, la duración o tiempo que se tarda en producir un sonido, por medio de esta se determina la velocidad con la que se emiten las pala-bras, el timbre considerado como el espectro

específico de la voz que permite diferenciar aquellas voces que tengan similitud de intensidad y tono.

En el análisis del habla para el reconocimiento se consideran los siguientes enfoques debido a su efi-ciencia:1) Articulación hace enfoque al análisis de la producción de sonidos que generan el habla huma-na; 2) Percepción Auditiva hace referencia al análisis de la manera en la cual el hombre procesa el habla; y 3) Señal Acústica analiza las ondas sonoras que pro-duce el ser humano (Alonso, 2011).

Otro aspecto importante es el modelo general de producción de voz que se enfoca en el tracto vocal para lo cual se utiliza un modelo de tubos que repre-senta al tracto vocal como una cavidad resonante, es

Implementación de un Módulo de Reconocimiento de Voz para Niños Mediante el Procesamiento de Señales.

15

decir un tubo acústico no uniforme sin perdidas en el cual un extremo representa la glotis y el otro extre-mo representa los labios. Cuando un sonido atravie-sa esta cavidad resonante se distingue diversas fre-cuencias a las que se les conoce como formantes, el número de formantes es proporcional al número de resonadores que posea el tracto vocal aunque para diferenciar los distintos tipos de sonidos se conside-ran solo los tres primeros formantes que cubren un rango de frecuencias entre 100 y 3500 Hz.

Figura.1: Modelo acústico del tracto vocal (G. Velásquez, 2008)

El reconocimiento de la voz permite la comunicación hombre máquina, tomando en cuenta una serie de parámetros de la voz que permitan realizar esta ta-rea entre los que se destacan el estilo, modalidad de habla, entrenamiento, dimensión del vocabulario, tipo de lenguaje, etc.

Estos sistemas de reconocimiento presentan dife-rentes modalidades: 1) Reconocimiento de Palabras Aisladas (RPA) que permite reconocer palabras es-pecíficas por medio de un entrenamiento, consiste en la comparación de la palabra a reconocer con una base de datos previamente ingresada; 2) Detección de Palabras Clave (DPC), permite reconocer palabras claves dentro de un grupo de fonemas; 3) Reconoci-miento de Palabras Conectadas (RPC), realiza el reco-nocimiento de un grupo pequeño de secuencias de palabras como por ejemplo oraciones; 4) Reconoci-miento Automático del Habla Continua (RAHC), este tipo de reconocimiento tiene como fin reconocer un flujo continuo de palabras es decir una conversación humana normal, por lo cual este es el más compli-cado.

En el Diagrama de Bloques de la Figura.2 se indican los pasos para el procesamiento de la señal de voz, que se utilizó en el Reconocimiento de comandos de voz de niños, para este análisis se consideró el sof-tware Matlab el cual brindo las herramientas nece-sarias para el procesamiento, así también facilito el análisis gráfico de cada señal obtenida, se tomaron como referencia cinco comandos de voz a recono-cer que fueron derecha, izquierda, adelante, atrás y para.

Este Módulo de reconocimiento de voz para niños está enfocado en Reconocimiento de Palabras Aisla-das, es decir reconoce palabras o comando de voz específicos por medio de un entrenamiento para posteriormente realizar una comparación entre el comando a reconocer con una base de datos previa-mente ingresada. Para la recolección de las señales de voz y realización del procesamiento de la misma se tomó en consideración tres niños ente las edades de 10 a 12 años.

Figura.2: Diagrama de Bloques Procesamiento y Reconocimiento de comandos de voz


16

1. Adquisición de voz

En la adquisición de la señal de voz se utilizó el Mi-crófono Stereo Headset modelo 662862 debido a su bajo costo y forma de grabación ya que al ser uni-direccional permite captar sonidos provenientes del locutor en una sola dirección.

2. Pre-procesamiento

La etapa de pre-procesamiento hace referencia a la eliminación de silencios de la señal de voz para de esta manera obtener una señal limpia, es decir se enfoca en la eliminación de ruido y de periodos en silencios permitiendo de esta manera obtener una señal que solo contenga información relevante, esta etapa engloba varios subprocesos descritos a conti-nuación:

2.1. Normalización: La normalización de la señal evi-ta que esta se distorsione ya que al aplicar una ga-nancia de 0dB a la señal de voz, las amplitudes de la señal toman valores desde -1 a 1.

2.2. Segmentación y enventanado de la señal: Al considerarse a la señal de voz como no estacionaria y aleatoria se necesita dividirla en pequeños segmen-tos dentro de los cuales se considera que la señal es estacionaria es decir que no sufren cambios bruscos en la señal de la voz, cada segmento tiene por lo general un tiempo de duración de 20ms a 40ms, de esta manera se agrupan los segmentos que tienen características similares lo que permite reducir el tiempo de análisis. Para la realizar la segmentación de la señal de voz se aplica la siguiente formula:

#Seg=(fm*tgrab)*t_intervalo (1)

fm: Frecuencia de Muestreo

tgrab: Tiempo de Grabación

Al proceso de multiplicar un segmento por una fun-ción limitada en el tiempo para eliminar valores que no se encuentren en dicho intervalo se denomina ventaneo, generalmente se busca que las ventanas contiguas estén solapadas entre sí para de esta ma-nera evitar pérdidas de información y garantizar con-tinuidad. Existen diferentes tipos de ventanas que se pueden aplicar a la señal de voz.

2.3 Energía de la señal: El umbral está representa-do por el cálculo de energía en determinada señal,

dependiendo del tono de voz de cada persona esta energía aumentará o disminuirá, en el caso de los ni-ños este umbral es relativamente bajo en referencia a un adulto. Este método de la energía permite elimi-nar silencios indeseados ya que una vez calculada la energía se puede realizar la comparación entre seg-mentos sonoros y periodos de silencios, consideran-do que los segmentos sonoros tienen mayor energía. Para ello se utilizó el método Cálculo de Energía (Mo-ral et al., 2011)

La energía promedio de un segmento (Es) está repre-sentada por:

las características fundamentales de la voz de los tres usuarios y no se elimina datos relevantes. Los valores de los umbrales de cada usuario se muestran en la Figura 3.

La energía promedio de una señal se representa

Figura.3: Cálculo y determinación de umbral


17

Para la eliminación de los periodos en silencios en la señal de voz se realizó una comparación entre el valor energético de cada segmento y el valor ener-gético completado por el umbral de la señal total, si este primer valor mencionado anteriormente es ma-yor entonces se almacena el segmento de la señal en el caso de ser el valor energético del segmento menor no se almacena por lo cual dicho segmento se considera como un periodo de silencio.

3. Filtro Preénfasis

El filtro preénfasis está representado como un filtro pasa alto de primer orden el cual tiene la función principal acentuar las frecuencias altas, es decir a las consonantes debido que en el proceso de elimi-nación se pudo haber perdido información, además este filtro realiza una comprensión de rango dinámi-co para compensar el proceso de filtración que se realiza en el tracto vocal. Este filtro preénfasis está representado con la siguiente ecuación la cual utiliza una constante de 0.95 debido a que este valor permi-te obtener una amplificación de 20dB.

Figura.4: Filtro Preénfasis

4. Reconocimiento: extracción de características

Para realizar el reconocimiento de la señal de voz se consideró la extracción de parámetros que caracteri-zan a la señal del usuario, para lo

cual se utilizó la técnica de Codificación Predictiva

Lineal que es una aproximación del sistema vocal hu-mano y se lo representa de forma matemática ya que permite encontrar dichos parámetros a través de la envolvente de la señal y la predicción de error (Oro-peza y Suarez, 2006).

4.1. Envolvente de la señal LPC

Para la obtención de la envolvente de la señal LPC se utiliza el Modelo Autorregresivo (AR) o todo-polo que describe la función de transferencia de un tubo formado por secciones distintas que representa el tracto vocal, esta técnica es una de las más usadas en el análisis de la voz ya que permite representar en forma comprimida la envolvente de una señal digital, para lo cual modela la fuente de sonido como un fil-tro con “n" polos. (Velásquez, 2008).

Figura.5: Modelo AR

Matemáticamente esta técnica representa la señal de voz como la sumatoria de muestras pasadas:

Si a la Ecuación (8) le añadimos una ganancia de ex-citación G u(n) que depende la naturaleza de la señal tendremos:

A su vez se puede representar la Ecuación (9) en do-minio Z lo que dará como resultado:

La Ecuación (10) conlleva a la función de transferen-cia: En la Ecuación (12) se puede ver la función de


18

transferencia H (z) la cual permite representar pará-metros del tracto vocal.

4.2 Modelo de radiación

Describe la impedancia de radiación vista por la pre-sión de aire cuando abandona los labios. Correspon-de a un filtro pasa alto de primer orden (6dB/octava).

4.3 Predicción de Error

Se tiene la señal de voz s(n) para lo cual se puede establecer una señal de predicción o predicha sp (n) con valores previos es decir valores que se aproxi-men a la señal de voz en donde el error sea el me-nor posible. El Filtro de Predicción es el filtro Inverso a H(z)=1/(A(z)), entonces este filtro corresponde a H(z)=A(z).

La Predicción de Error permite encontrar las caracte-rísticas de la señal que son de gran importancia para el reconocimiento de comandos de voz, debido a que se tiene la señal de voz obtenida a través del mi-crófono, uno de los inconvenientes que se presenta es encontrar las características que se forman en el

tarto vocal para ello es necesario realizar un análisis inverso para encontrar dichas características que co-rresponden a los coeficientes αk.

La señal s(n) pasa por el Filtro de Predicción y a su sa-lida se obtiene la señal de predicción sp (n). El error de predicción de una señal se representa matemáti-camente mediante la siguiente expresión, la cual re-presenta la excitación de la fuente del tracto vocal es decir e(n) = Gu(n).

Mediante el método de los mínimos cuadrados y la autocorrelación se puede determinar los coeficien-tes de predicción, minimizando el error cuadráti-co medio para ello se deriva el Error para cada α_k (Agardoña, 2008). El método de cálculo computacio-nal de coeficientes de predicción (αk ) más usado es el algoritmo de Levinson Durbin.

4.4 Número de Coeficientes LPC

Para la determinación del número de coeficientes LPC (p) de acuerdo a la frecuencia de muestreo (fs) se toma en consideración que el espectro de voz puede representarse con una densidad media de dos polos (1 polo por kHz), por lo cual el tracto vocal utili-za fs/1000 polos para poder representar el espectro de voz, sin embargo se pueden consideran de 3 a 4 polos adicionales que representaran a la fuente de excitación y radiación, aplicando la fórmula para el cálculo del número de coeficientes se obtuvieron 23 coeficientes LPC (Cobeta, 2013 ).

A la señal que fue eliminada los silencios y pasada por el filtro preénfasis de cada uno de los comandos a reconocer se le realizó el entrenamiento, es decir la obtención de las características de cada comando


19

a reconocer, para ello se tomaron 25 grabaciones de cada comando de los cuales se calcularon los 23 co-eficientes LPC y el promedio entre estos para de esta manera obtener una señal patrón en forma de vector de cada comando, que sirvieron de referencia para el reconocimiento. Cabe indicar que a la señal ingresa-da por el usuario a reconocer también se realiza el mismo procesamiento de eliminación de silencios, el preénfasis y la obtención de los coeficientes LPC los cuales se almacenan en otro vector.

5. Calculo de las distancias Euclidianas

En este proceso se calcula la distancia entre los vec-tores que almacenan los coeficientes LPC de cada señal de voz patrón y la señal de voz ingresada por el usuario, obteniendo un vector de cada comando a reconocer con las distancias entre cada uno de los coeficientes (Velásquez, 2008).

Una vez obtenida y almacenada la distancia en un vector con un total de 23 distancias se procedió a ob-tener la Distancia Total que es el sumatorio total de cada una de las distancias obtenidas el cual fue el fac-tor para la realización de la comparación. La distancia total se calcula utilizando la siguiente expresión:

6. Comparación de Distancias

Se elige como comando reconocido la menor distan-cia total entre la señal patrón y la señal de voz LPC ingresada por el usuario ya que en las señales que se aproximan al comando esta distancia será mínima.

7. Reconocimiento de voz para niños interfaz grá-fica

El programa de reconocimiento de voz para niños consta de dos interfaces graficas denominadas: Base de datos y Reconocimiento de voz para niños

7.1 Base de datos

Esta interfaz gráfica consta de 25 botones que al ser

accionados cumplen con los procesos de Adquisición de la voz y Pre-procesamiento, los cuales tiene los subprocesos de normalización y determinación del umbral, segmentación, cálculo de energía, elimina-ción de silencios y filtrado preénfasis. Con la obten-ción de estas señales de voz se realizó el entrena-miento para encontrar las señales patrón las cuales presentan diferentes características dependiendo del comando a reconocer.

Figura.8: Interfaz Gráfica Base de Datos

7.2 Reconocimiento de voz para niños

Esta interfaz gráfica consta de dos bloque el primero denominado Procesamiento de Señal el cual realiza el análisis gráfico de los procesos correspondientes a la adquisición de la señal de voz , Eliminación de si-lencios , Filtrado preénfasis y LPC opción que permite visualizar las gráficas de la señal de voz: En la primera se muestra la señal de voz sin silencios la cual ha sido normalizada y enventanada usando una ventana de hamming de 240 muestras, la señal predicha que ha sido reconstruida a partir de la señal enventanada utilizando los coeficientes LPC y el error de predicción obtenido de la resta de las dos señales mencionadas anteriormente. La segunda grafica corresponde a la señal de usuario con su respectiva envolvente LPC y la tercera grafica muestra los formantes de la señal. Y la opción de Distancias la cual visualiza las distancias entre cada señal patrón y la señal predicha. El segun-do bloque posee un panel que está conformado de tres botones que realizan los procesos respectivos:

1) Botón grabar: Adquisición de la voz, pre procesa-miento y filtrado preénfasis.


20

2) Botón Identificar: Extracción de características, cálculo de distancias y comparación de distancias. Cuando se acciona este botón aparece un mensaje donde se muestra la palabra que ha sido reconocida.

3) Botón salir: Permite salir del programa.

Figura.9: Reconocimiento de voz para niños

8. Caso Práctico

El Caso Práctico que se utilizó para la demostración del programa desarrollado en el software Matlab, consistió en el control de un Carro Robot 4wd el mis-mo que fue manipulado de acuerdo a las órdenes o comandos de voz ejecutadas y reconocidas en Mat-lab. Cada uno de los comandos de voz fueron codifi-cados de manera binara en el software Matlab para ser enviados a un Driver de Motores el cual se encar-gó del giro y velocidad de los motores DC, para ello se realizó el diseño e implementación de dos etapas correspondientes a la Transmisión y Recepción de los datos.

El Transmisor está constituido de dos placas o tarje-tas Arduino Uno, cinco leds indicadores de coman-do, un LCD y un bus I2C. El primer Arduino efectúa la comunicación o adquisición de datos entre Matlab y Arduino a través del paquete Arduino IO. Matlab envía datos digitales a los pines de Arduino, toman-do en consideración el comando reconocido. Este primer Arduino recibe los datos digitales, mostrando sus salidas a través de leds indicadores que varían de acuerdo al comando reconocido.

Figura.10: Módulo Tx en Proteus

Figura.11: Módulo de Reconocimiento de Voz Tx


21

Tabla 1: Salida del Primer Arduino.

El segundo Arduino se encarga de leer los datos del primer Arduino considerando los mismos pines de conexión que se utilizaron en el primero, estos datos fueron comparados para determinar cada uno de los comandos a reconocer y los mismos se visualizaron a través de un LCD 16x2 con un bus I2C. Para él envió de los datos al Receptor se utilizó el módulo de radio frecuencia NRF24L01 el cual permite establecer co-municación inalámbrica.

Tabla 1: E/S del segundo Arduino

Módulo Receptor permite receptar los datos que fueron enviados a través del transmisor, está consti-tuido de una tarjeta o placa Arduino, un módulo de radio frecuencia NRF24L01, un Regulador De Voltaje Lm2596, un driver para motor DC L298 y una batería Lipo de 7.4v a 2000mAh.

Figura.12: Diagrama del Rx en Proteus

Los datos recibidos por este Arduino son analizados para identificar el dato correspondiente, para dar como resultado las diferentes salidas de este Ardui-no, las cuales sirvieron de entradas para el Driver de motores DC L298N.

Figura.13: Módulo de Reconocimiento de Voz Rx

Tabla 2: E/S Arduino Rx.

Tabla 3: Entradas Driver de motores DC

9. Análisis De Gráficas

La gráfica mostrada en la interfaz de reconocimiento de voz representa la señal ingresada por el usuario correspondiente al comando de voz Derecha en fun-ción del tiempo, frecuencia y número de muestras, además se ha desglosado algunas gráficas para po-der realizar su análisis.


22

Figura.14: Señal original en función del tiempo

En la Figura.14 se puede observar la representación gráfica de la señal de voz en el dominio del tiempo, donde el tiempo de duración de la grabación es de 2 segundos y además se puede notar que el tiempo de duración correspondiente al comando derecha se encuentra aproximadamente entre los valores (1,143-0,2668) segundos dando un total de 0,87 s por lo cual el resto de la señal representa el ruido del ambiente o periodos en silencios. Los valores de Am-plitud se encuentran aproximadamente entre [-0,09 0.10]

Figura.15: Señal eliminada los Silencios en función del tiempo

En la Figura.15 se observa la representación de la se-ñal de voz normalizada en amplitud, en la cual se ha eliminado los silencios de acuerdo a la condición del umbral ya que los valores de energía que se encuen-tran por debajo del umbral son eliminados. La señal de voz se encuentra hasta 0,7981 segundos con lo cual si realiza una comparación con la figura anterior se corrobora que el ruido del ambiente y los periodos de silencios fueron eliminados. Los valores de Ampli-tud se encuentran aproximadamente entre [-0,8 1].

Figura.16: Señal original

Figura.17: Señal eliminada los Silencios

Tabla 4. Comparación en Función al número de muestras.

Figura.18: Señal Silencios sin filtro


23

Figura.19: Señal Silencios con filtro

La Figura.18 y Figura.19 muestran las señales en fun-ción al número de muestras, la Figura.18 correspon-de a la señal que ha sido eliminada los silencios, esta señal pasa por el filtro preénfasis y se puede denotar que este filtro realiza la acentuación de las frecuen-cias altas de la señal correspondientes a las conso-nantes (en este caso la ch) ya que corresponde a un sonido sordo es por ello que la acentuación de estas señales son parecidos a ruido, pero son generadas como un ruido gaussiano ya que posee información de la señal en estas frecuencias altas, así también mantiene una relación uniforme de la señal de voz. Para el análisis de LPC cabe recalcar que se lo reali-zo con la función lpc de Matlab y se obtuvieron los coeficientes LPC los cuales son de gran importancia para encontrar la envolvente de la señal de voz. A su vez dichos coeficientes fueron remplazados en las ecuaciones de Predicción de Error para la obtención de cada una de las gráficas correspondientes a ese proceso.

Figura.20: Señal Limpia Usuario enventanada

Figura.21: Error de Predicción

La Figura.20 representa la señal Limpia la cual ha sido enventanada a 240 muestras con una venta-na de hamming, la Figura.21 corresponde al Error de Predicción se tiene la Señal Limpia enventanada (amarilla), la Señal estimada (roja) ,se pude denotar que esta señal estimada o predicha si tiene una bue-na aproximación a la señal original dado que toma muestras pasadas y presentes para obtener dicha señal predicha , además se puede observar que el error entre estas dos señales es mínimo, esta señal de error de predicción también representa la señal de excitación la cual está conformada por sonidos sonoros y sordos , considerando que se va a tener mayor margen de error en los sonidos sordos.

Figura.22: Distancias Totales

La Figura.22 muestra las Distancias Totales entre la señal de voz ingresada por el usuario (Derecha) y las señales patrón. Dando como resultado el recono-cimiento del comando de voz Derecha ya que este posee una menor distancia en comparación de las demás distancias calculadas.

RESULTADOS.

Se realizaron tres pruebas diferentes con el Modulo de Reconocimiento de voz para niños, estas pruebas fueron realizadas con tres usuarios niños los cuales se le denominaron como Usuario 1 (niño), Usuario 2 (niña), Usuario 3 (niño) con las edades de 8,11 y 10 años respectivamente. Para la Prueba-1 los usua-rios realizaron 10 pronunciaciones de cada comando a reconocer dando un total de 50 pronunciaciones por usuario además se consideró un nivel de ruido aproximado entre 50-60 dB, el comando de voz del usuario se lo adquirió en tiempo real.


24

Tabla 5: Prueba-1 Usuario-1

Tabla 6: Prueba-1 Usuario-2

Tabla 7: Prueba1 Usuario-3


25

El resultado de la Prueba-1 realizada con el Modulo de Reconocimiento de voz se determinó que el por-centaje de fidelidad para el Usuario-1 fue de 88%, para el Usuario-2 84% y para el Usuario-3 86%, obte-niendo una fidelidad promedio de 86%.

Para la segunda prueba se consideró un total de 14 grabaciones por usuario considerando el mismo margen de ruido de la prueba anterior y se determi-nó que el porcentaje de fidelidad para el Usuario-1 es de 92,85%, para el Usuario-2 es de 85,71% y para el Usuario-3 es de 85,71% obteniendo una fidelidad promedio de 88,09%.

Tabla 8: Prueba2

En la tercera prueba se consideró un total de 5 graba-ciones por usuario considerando un margen de ruido de 70db debido a la emisión de ruido del Carro Robot 4wd. Esta tercera Prueba

arrojó un porcentaje de fidelidad para el Usuario-1 es de 100%, para el Usuario-2 es de 80% y para el Usuario-3 es de 60% obteniendo una fidelidad pro-medio de 80 %.

Tabla 9: Prueba-3

Tabla 10: Pruebas Totales

De acuerdo a las pruebas realizadas anteriormente se determinó que el Módulo de Reconocimiento de voz para Niños tiene una efectividad total de 84,70%

CONCLUSIONES.

Se logró la implementación de un módulo de reco-nocimiento de voz para niños con alto porcentaje de efectividad, al cual se le podría dar un sin número de aplicaciones. En el Reconocimiento de voz utilizado se presentaron algunos inconvenientes como el rui-do, distancia del micrófono y la similitud que existe entre algunas palabras los cuales dificultan el reco-nocimiento, es importante mencionar que el proce-samiento de la señal de voz tanto en adultos como niños se realiza de la misma manera pero se debe considerar que para el reconocimiento de comandos de voz uno de los aspectos importante es el umbral ya que en los niños este valor es relativo bajo en com-paración a la de un adulto. De acuerdo al análisis de cada etapa se pudo determinar que en el proceso de eliminación de silencios la determinación del umbral es pieza clave, debido a que se si se elige un umbral muy alto se eliminarían ciertos fonemas y al momen-to de comparar resultara una confusión entre pala-bras que se pronuncian de igual manera. En cuanto a la acentuación de frecuencias altas esta fase juega un papel importante en el reconocimiento debido a que comprime la señal de voz de manera que no se satu-re en amplitud y además acentúa frecuencias altas correspondientes a sonidos sordos que pueden ser eliminadas en el proceso de extracción de caracte-rísticas en el cual el uso de la Codificación Predictiva Lineal (LPC) permitió obtener las características del tracto vocal que corresponde a los coeficientes LPC los cuales son de gran importancia para el recono-cimiento ya que estos coeficientes contienen infor-mación específica de cada comando y a su vez per-mitieron obtener la envolvente ,los formantes de la señal y determinar el cálculo del margen de Error de


26

Predicción el cual fue mínimo logrado así una mejor eficiencia del Módulo. Es importante considerar que este programa de Reconocimiento de Voz basado en comandos de voz es independiente del estado físico y emocional del usuario debido a que se utiliza una base de datos para la obtención de una señal patrón, por lo tanto, si el usuario graba con un determinado tono e intenta acceder al sistema este no podrá re-conocer.

REFERENCIAS BIBLIOGRÁFICAS

[1] Alonso, A. (2011). La Voz Humana (4ª edi-cion) (pp 15-30). Madrid,España: Visión Libros.

[2] Argandoña, F. (2008). Implementación de un codificador de voz CELP mejorado para canales de banda angosta. Obtenido de la Tesis de Maestría, Universidad Nacional de Ingeniería, Facultad de Inge-niería Eléctrica y Electrónica. Lima-Perú

[3] Cobeta, M., Núñez, F & Fernández, S. (2016). Patología de la voz. Obtenido de: https://books.google.com.ec/books?id=OdFUAQAAQBA-J&printsec=frontcover&dq=patologia+de+la+voz+p-df&hl=es&sa=X&ved=0ahUKEwil24i7u6LQAhVh_IMKHa_uBAgQ6AEIGTAA#v=onepage&q&f=false

[4] De Luna, C. A., Martínez, J. (2006). Reconoci-miento de Voz con Redes Neuronales, DTW y Mode-los Ocultos de Markov. Red de Revistas Científicas de América Latina (pp 1-2). Obtenido de http://www.redalyc.org/articulo.oa?id=94403203; ISSN :1405-5597

[5] Díaz, M. & Yunga, D. (2013). Construcción de un Control Electrónico de movimiento de una silla de ruedas activado por la voz de usuario. Tesis de Titu-lación de pregrado, Escuela Politécnica Nacional, Es-cuela de Formación de Tecnólogos, Quito - Ecuador

[6] Duque, C. & Morales, M. (2007). Caracteri-zación de voz empleando análisis tiempo-frecuencia aplicada al reconocimiento de emociones. Tesis de Titulación, Universidad Tecnológica de Pereira, Fa-cultad de Ingenierías Eléctrica, Electrónica, Física y Ciencias de la Computación, Pereira-Colombia.

[7] Moral et al. (2011). Procesado digital de voz para el reconocimiento del hablante aplicado a dis-positivos móviles. Tesis de Titulación, Escuela Técnica Superior de Ingenieros Industriales y de Telecomuni-cación, Ingeniería Técnica de Telecomunicación, Es-pecialidad en Sonido e Imagen, Pamplona, España.

[8] Moumtadi, F., Granados, L & Delgado, J. (2013). Activación de funciones en edificios inteligen-tes utilizando comandos de voz desde dispositivos móviles. Ingeniería Investigación y Tecnología, 15(2) (pp 1-2). Obtenido dehttp://www.ingenieria.unam.mx/~revistafi/ejemplaresHTML/V15N2/V15N2_art02.php,ISSN:14057743

[9] Oropeza, J. L., & Suarez, S. (2006). Algorit-mos y Métodos para el Reconocimiento de Voz en Español Mediante Sílabas. Computación y Sistemas, 9 (3), 270-286 (2006).

[10] Velásquez, G., Sistema de reconocimiento de voz en Matlab, ISSN: 1405-5546. Tesis de Titulación, Universidad de San Carlos de Guatemala, Facultad de Ingeniería, Escuela de Ingeniería Mecánica Eléctrica, San Carlos, Guatemala. Obtenido de http://www.ejournal.unam.mx/cys/vol09-03/CYS09307.pdf


metodologÍa - investigar.cimogsys.cominvestigar.cimogsys.com/articulos_edicion/7tarticulo 2...

Documents