agradecimientos pinal...en este trabajo de tesis se implementa un sistema de reconocimiento...

137
1 AGRADECIMIENTOS A la Benemérita Universidad Autónoma de Puebla por permitirme realizar los estudios de Maestría empleando sus recursos materiales y humanos. En especial al Dr. Salvador Ayala Raggi por su tiempo y sus ideas para la conclusión de este trabajo, así como a los honorables miembros del jurado calificador por sus valiosas observaciones. Al Consejo Nacional de Ciencia y Tecnología por haberme concedido el apoyo financiero para la realización de este trabajo, además de haberme otorgado una beca mixta internacional a través de la beca no. 234963.

Upload: others

Post on 08-Feb-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • 1

    AGRADECIMIENTOS

    A la Benemérita Universidad Autónoma de Puebla por permitirme realizar los estudios de

    Maestría empleando sus recursos materiales y humanos. En especial al Dr. Salvador Ayala Raggi

    por su tiempo y sus ideas para la conclusión de este trabajo, así como a los honorables miembros

    del jurado calificador por sus valiosas observaciones.

    Al Consejo Nacional de Ciencia y Tecnología por haberme concedido el apoyo financiero para

    la realización de este trabajo, además de haberme otorgado una beca mixta internacional a través

    de la beca no. 234963.

  • 2

  • 3

    RESUMEN

    En este trabajo de tesis se implementa un sistema de reconocimiento automático del habla, el

    cual hace uso de un procesador de reconocimiento automático de patrones que en lugar de

    trabajar con técnicas del área de reconocimiento de la voz funciona en base a paradigmas de la

    Visión artificial, empleando para ello en las etapas de entrenamiento y generación de patrones,

    imágenes producidas en función de características intrínsecas extraídas de la voz, usando esta

    información para poder clasificar adecuadamente a dichas señales. No obstante se estudia y

    utiliza el estado de la técnica en el área de procesamiento digital de señales enfocado al procesado

    de la voz, imprescindible para generar los algoritmos de acondicionamiento de señales, así como

    los algoritmos de extracción de características del habla. Se usan y además se compara el

    rendimiento de cuatro métodos diferentes para la selección de características: Magnitud promedio

    de la señales, espectrogramas (tiempo-frecuencia), coeficientes de predicción lineal y por último se propone una

    técnica inédita llamada: análisis en tiempo corto de la señal fundamental. Para las etapas de

    entrenamiento y generación de patrones, se revisa el estado del arte en inteligencia artificial tanto

    para el área de Visión por computadora al igual que para el área de reconocimiento de la voz,

    haciendo énfasis en las técnicas de estadística multivariante. Enfocándose de manera particular

    al análisis por componentes principales, para posteriormente poder implementar el método de

    las eigenfaces, siendo un referente actual en el campo del reconocimiento facial y la técnica

    fundamental de reconocimiento de este trabajo. Posteriormente se hace una revisión rápida al

    estado del arte de los clasificadores automáticos y se propone una pequeña variante del algoritmo

    de los k-vecinos cercanos (k-nn) haciéndola adaptiva a las condiciones de los bancos de prueba. Por

    último se genera un banco de pruebas en Matlab®, donde se realiza la implementación final de

    los algoritmos y se ejecutan pruebas evolutivas en función de los espacios generados obteniendo

    así las tasas de reconocimiento del sistema. Para ello se emplea el corpus de voz TMW

    posibilitando así evaluar el desempeño final del sistema implementado.

  • 4

  • 5

    Tabla de Contenido

    AGRADECIMIENTOS .................................................................................................................................. 1

    RESUMEN ................................................................................................................................................. 3

    ÍNDICE DE FIGURAS ................................................................................................................................... 9

    CAPÍTULO 1 INTRODUCCIÓN ............................................................................................................ 11

    1.1 PREÁMBULO .......................................................................................................................................... 11

    1.2 MOTIVACIÓN ......................................................................................................................................... 12

    1.3 OBJETIVOS ............................................................................................................................................. 15

    1.3.1 Objetivo general ....................................................................................................................... 15

    1.3.2 Objetivos Particulares ............................................................................................................... 15

    1.4 CONTRIBUCIONES .................................................................................................................................... 16

    1.5 ORGANIZACIÓN DEL DOCUMENTO DE TESIS ................................................................................................... 16

    CAPÍTULO 2 REVISIÓN DE LA PRODUCCIÓN DE LA VOZ ..................................................................... 19

    2.1 HISTORIA DEL PROCESAMIENTO DEL HABLA ................................................................................................... 19

    2.2 APLICACIONES DEL PROCESAMIENTO DEL HABLA ............................................................................................ 22

    2.3 MODELOS DE PRODUCCIÓN DE VOZ. EL MODELO FUENTE-FILTRO ...................................................................... 25

    2.4 PERCEPCIÓN DE LA VOZ ............................................................................................................................ 31

    2.5 ESCALA MEL .......................................................................................................................................... 32

    CAPÍTULO 3 RECONOCIMIENTO AUTOMÁTICO DEL HABLA: ESTADO DEL ARTE ................................. 35

    3.1 INTRODUCCIÓN ....................................................................................................................................... 35

    3.2 PRE-PROCESAMIENTO DE LA SEÑAL ............................................................................................................. 38

    3.2.1 Filtro de pre-énfasis .................................................................................................................. 39

    3.2.2 Supresión de ruido de fondo ..................................................................................................... 40

    3.2.3 Supresión de silencios ............................................................................................................... 41

    3.2.4 Análisis en tiempo corto ........................................................................................................... 43

    3.2.5 Enventanamiento de los cuadros de una señal de voz ............................................................. 44

    3.2.6 Normalización y alineamiento .................................................................................................. 46

    3.3 EXTRACCIÓN DE CARACTERÍSTICAS .............................................................................................................. 48

    3.3.1 Características espectrales de tiempo corto ............................................................................. 51

    3.3.2 Otras medidas usadas como características ............................................................................. 55

    3.4 GENERACIÓN DE MODELOS Y SU CLASIFICACIÓN PARA LAS SEÑALES DE VOZ ......................................................... 55

  • 6

    3.4.1 Enfoque acústico-fonético ........................................................................................................ 56

    3.4.2 Enfoque orientado al reconocimiento de patrones .................................................................. 57

    3.4.3 Enfoque orientado a la inteligencia artificial ............................................................................ 59

    CAPÍTULO 4 REDUCCIÓN DE LA DIMENSIONALIDAD ......................................................................... 61

    4.1 INTRODUCCIÓN ....................................................................................................................................... 61

    4.2 REDUCCIÓN DE LA DIMENSIONALIDAD EN EL RECONOCIMIENTO AUTOMÁTICO DEL HABLA ...................................... 63

    4.3 LA MALDICIÓN DE LA DIMENSIONALIDAD ...................................................................................................... 64

    4.4 MÉTODOS PARA LA REDUCCIÓN DE LA DIMENSIONALIDAD ............................................................................... 67

    4.4.1 Métodos de reducción lineales ................................................................................................. 68

    4.4.2 Métodos de reducción no-lineales ............................................................................................ 69

    4.5 ANÁLISIS POR COMPONENTES PRINCIPALES (PCA) ......................................................................................... 69

    4.5.1 Cálculo de las componentes principales empleando el método de la covarianza .................... 73

    4.5.2 Análisis por componentes principales en el área del habla ...................................................... 76

    4.6 EL MÉTODO DE LAS EIGENFACES ................................................................................................................. 76

    4.6.1 Implementación práctica de las Eigenfaces .............................................................................. 78

    4.6.2 Representación de rostros en el espacio de las caras ............................................................... 81

    4.6.3 El método de las eigenfaces aplicado a los sistemas de reconocimiento automático del habla.

    Las “Eigenvoices” .................................................................................................................................... 82

    CAPÍTULO 5 IMPLEMENTACIÓN DEL SISTEMA PROPUESTO ............................................................... 85

    5.1 MÉTODO PROPUESTO .............................................................................................................................. 85

    5.2 IMPLEMENTACIÓN DE LA ETAPA DE PRE-PROCESAMIENTO ................................................................................ 88

    5.2.1 Implementación del filtro de pre-énfasis .................................................................................. 88

    5.2.2 Implementación de la etapa de supresión de silencios ............................................................. 90

    5.2.3 Implementación del algoritmo de análisis en tiempo corto ..................................................... 92

    5.2.4 Implementación de la etapa de enventanamiento de los cuadros de voz ................................ 93

    5.2.5 Implementación de la etapa de normalización y alineamiento ................................................ 93

    5.3 IMPLEMENTACIÓN DE LAS TÉCNICAS DE EXTRACCIÓN DE CARACTERÍSTICAS .......................................................... 95

    5.3.1 Implementación de la magnitud promedio de la señal de voz como vector de características 96

    5.3.2 Implementación del análisis tiempo-frecuencia como vectores de características .................. 97

    5.3.3 Implementación del análisis de coeficientes por predicción lineal como vectores de

    características de las señales de voz ....................................................................................................... 99

    5.3.4 Implementación del análisis en tiempo corto de la señal fundamental ................................. 103

    5.4 IMPLEMENTACIÓN DEL MÉTODO DE REDUCCIÓN DE LA DIMENSIONALIDAD A TRAVÉS DEL MÉTODO DE LAS EIGENFACES

    106

  • 7

    5.5 IMPLEMENTACIÓN DEL CLASIFICADOR K-NN. RECONOCIMIENTO DE LAS SEÑALES DE VOZ. .................................... 109

    CAPÍTULO 6 EXPERIMENTOS CON DATOS DE VOZ NATURAL ........................................................... 113

    6.1 CORPUS DE VOZ TMW .......................................................................................................................... 113

    6.2 VISUALIZACIÓN DE LA REDUCCIÓN DE LA DIMENSIONALIDAD........................................................................... 114

    6.3 TASAS DE RECONOCIMIENTO .................................................................................................................... 117

    6.4 ANÁLISIS DEL MÉTODO PROPUESTO ........................................................................................................... 119

    CAPÍTULO 7 CONCLUSIONES Y TRABAJO FUTURO ........................................................................... 121

    7.1 TRABAJO FUTURO ................................................................................................................................. 122

    APÉNDICE A. PUBLICACIONES REALIZADAS ............................................................................................ 123

    REFERENCIAS…………………………………………………………………………………………………………………………………………123

    5

  • 8

  • 9

    ÍNDICE DE FIGURAS

    FIGURA 1-1: SEÑAL DE VOZ MOSTRADA EN EL DOMINIO TEMPORAL ................................................................................. 12

    FIGURA 1-2: PRIMEROS 20MS DE UNA SEÑAL DE VOZ PARA 20 BANDAS FRECUENCIALES ..................................................... 13

    FIGURA 1-3: UNA VARIEDAD BIDIMENSIONAL INCRUSTADA DE MANERA NO-LINEAL EN UN ESPACIO TRIDIMENSIONAL ............... 14

    FIGURA 2-1: ESQUEMA DEL SISTEMA DE PRODUCCIÓN DE LA VOZ (APARATO FONADOR). .................................................... 26

    FIGURA 2-2: MODELO ESQUEMÁTICO DEL SISTEMA DEL TRACTO VOCAL ............................................................................ 27

    FIGURA 2-3: MEDICIONES DE LOS DOS PRIMEROS FORMANTES DE LAS VOCALES DEL IDIOMA ESPAÑOL ................................... 28

    FIGURA 2-4: MODELO FUENTE-FILTRO PARA UNA SEÑAL DE VOZ .................................................................................... 29

    FIGURA 2-5: ESQUEMA ANATÓMICO DEL OÍDO ........................................................................................................... 31

    FIGURA 2-6: RELACIÓN ENTRE ESCALAS FRECUENCIALES MEL Y HERTZ ............................................................................. 33

    FIGURA 3-1: SISTEMA ASR DONDE SE MUESTRA EL PARADIGMA CLÁSICO DE RECONOCIMIENTO DE PATRONES ......................... 38

    FIGURA 3-2: ETAPA DE PRE-PROCESADO DE SEÑAL PARA UN SISTEMA ASR. ...................................................................... 39

    FIGURA 3-3: DIAGRAMA A BLOQUES DE UN SISTEMA VAD GENÉRICO .............................................................................. 41

    FIGURA 3-4: SEGMENTACIÓN DE UNA SEÑAL DE VOZ DIVIDIDA EN TRES CUADROS DE 20 MS ................................................ 44

    FIGURA 3-5: COMPARATIVA ENTRE LOS ESPECTROS DE DOS VENTANAS ............................................................................ 46

    FIGURA 3-6: RESUMEN DE LAS CATEGORÍAS DE LAS CARACTERÍSTICAS DEL HABLA (VISTA DESDE SU INTERPRETACIÓN FÍSICA) ....... 50

    FIGURA 3-7: EXTRACCIÓN DE LA ENVOLVENTE ESPECTRAL USANDO ANÁLISIS CEPSTRAL Y PREDICCIÓN LINEAL ........................... 53

    FIGURA 3-8: RED FONÉTICA EN CELOSÍA PARA UNA PALABRA ......................................................................................... 57

    FIGURA 3-9: UN CLASIFICADOR DE PATRONES ............................................................................................................. 58

    FIGURA 4-1: IMÁGENES DE LA TETERA DE NEWPOT ROTADA EN UNA DIMENSIÓN ............................................................... 63

    FIGURA 4-2: INCREMENTO EN LA DISPERSIÓN DE LOS DATOS .......................................................................................... 65

    FIGURA 4-3: UNA ESFERA EMPOTRADA DENTRO DE UN CUBO EN UN ESPACIO DE TRES DIMENSIONES. .................................... 66

    FIGURA 4-4: LAS COMPONENTES PRINCIPALES DE UN CONJUNTO DE DATOS BIDIMENSIONAL ................................................ 70

    FIGURA 4-5: CARA EXISTENTE DEL CONJUNTO DE ENTRENAMIENTO RECONSTRUÍDA ............................................................ 78

    FIGURA 5-1: MÉTODO PROPUESTO PARA APLICAR REDUCCIÓN DE LA DIMENSIONALIDAD EN ESTE TRABAJO DE TESIS. ................ 86

    FIGURA 5-2: ETAPA DE PRE-PROCESAMIENTO DE LA SEÑAL ............................................................................................ 88

    FIGURA 5-3: ANÁLISIS DE ESTABILIDAD GRÁFICA PARA EL FILTRO DE PRE-ÉNFASIS ............................................................... 89

    FIGURA 5-4: RESPUESTA EN FRECUENCIA DEL FILTRO DE PRE-ÉNFASIS PROPUESTO ............................................................. 89

    FIGURA 5-5: SEÑAL DE VOZ PRE-ENFATIZADA ............................................................................................................. 90

    FIGURA 5-6: SEÑAL DE VOZ Y SU MAGNITUD PROMEDIO ............................................................................................... 91

    FIGURA 5-7: DETECCIÓN DE LAS ZONAS VOCALIZADAS EN UNA SEÑAL DE VOZ .................................................................... 91

    FIGURA 5-8: SEGMENTACIÓN DE UNA SEÑAL DE VOZ DIVIDIDA EN CUADROS DE 20MS ........................................................ 92

    FIGURA 5-9: SEÑAL DE VOZ ENVENTANDA .................................................................................................................. 93

  • 10

    FIGURA 5-10: ALINEACIÓN TEMPORAL LINEAL PARA DOS SECUENCIAS DE VOZ CON DIFERENTES DURACIONES. ......................... 94

    FIGURA 5-11: SEÑAL DE VOZ ALINEADA ..................................................................................................................... 95

    FIGURA 5-12: EXTRACCION DE CARACTERÍSTICAS DE LAS SEÑALES PRE-PROCESADAS DE VOZ ................................................ 96

    FIGURA 5-13: RESULTADO DE LA IMPLEMENTACIÓN DEL ALGORITMO DE LA MAGNITUD PROMEDIO ....................................... 97

    FIGURA 5-14: RESULTADO DEL ESPECTROGRAMA PURO SOBRE LA SEÑAL PRE-PROCESADA DE VOZ. ........................................ 98

    FIGURA 5-15: RESULTADO DE REPRESENTAR AL ESPECTROGRAMA EN DECIBELES ................................................................ 99

    FIGURA 5-16: SEÑAL DE VOZ RECONSTRUIDA ........................................................................................................... 102

    FIGURA 5-17: AUTOCORRELACIÓN DEL ERROR DE PREDICCIÓN ..................................................................................... 102

    FIGURA 5-18: IMAGEN GENERADA A PARTIR DE LOS COEFICIENTES DEL ANÁLISIS POR PREDICCIÓN LINEAL ............................. 103

    FIGURA 5-19: ANÁLISIS EN TIEMPO CORTO DE LA SEÑAL DE VOZ ................................................................................... 104

    FIGURA 5-20: SEÑAL FUNDAMENTAL EXTRAÍDA DE LA SEÑAL DE VOZ ............................................................................. 105

    FIGURA 5-21: IMAGEN SÓNICA GENERADA A PARTIR DEL ANÁLISIS EN TIEMPO CORTO DE LA SEÑAL FUNDAMENTAL ................. 105

    FIGURA 5-22: EL MÉTODO DE LAS EIGENFACES A LOS SÚPERVECTORES ........................................................................... 106

    FIGURA 5-23: CLASIFICACIÓN DE LAS VOCES QUE ENTRAN AL SISTEMA ........................................................................... 110

    FIGURA 5-24: GRÁFICO DE DISPERSIÓN DE DATOS ..................................................................................................... 112

    FIGURA 6-1: ESPACIOS DIMENSIONALES DE LA SEÑALES DE VOZ .................................................................................... 114

    FIGURA 6-2: ESPACIO DE 2 PALABRAS Y UTILIZANDO EL 99% DEL PODER DE REPRESENTACIÓN ........................................... 115

    FIGURA 6-3: ESPACIO DE 4 PALABRAS Y UTILIZANDO EL 99% DEL PODER DE REPRESENTACIÓN ........................................... 116

    FIGURA 6-4: ESPACIO DE 7 PALABRAS Y UTILIZANDO EL 99% DEL PODER DE REPRESENTACIÓN ........................................... 116

    FIGURA 6-5: TASAS DE RECONOCIMIENTO PARA ESPACIOS DE 2 PALABRAS ..................................................................... 118

    FIGURA 6-6: TASAS DE RECONOCIMIENTO PARA ESPACIOS DE 4 PALABRAS ..................................................................... 118

    FIGURA 6-7: TASAS DE RECONOCIMIENTO PARA ESPACIOS DE 7 PALABRAS ..................................................................... 119

  • 11

    Capítulo 1 INTRODUCCIÓN

    En este trabajo se implementa un sistema de reconocimiento automático del habla utilizando

    análisis por componentes principales para reducir la dimensionalidad de un conjunto de muestras

    de entrenamiento. Así mismo, se realiza un comparativo en el desempeño del reconocimiento

    cuando dichas muestras de entrenamiento son presentadas en diferentes dominios:

    Espectrogramas

    Envolvente de la señal

    Codificación por predicción lineal

    Análisis en tiempo corto de la señal fundamental

    En este capítulo se exponen los motivos por los que se propone que el habla es capaz de ser

    representada por medio de una estructura de datos de baja dimensionalidad la cual exhibirá las

    características esenciales con las que una máquina puede distinguir palabras de manera automática.

    1.1 Preámbulo

    El habla, ha permanecido como el medio de comunicación más deseable entre las personas. A

    pesar de los sofisticados servicios multimedia de alto desempeño emergentes en los últimos años

    las comunicaciones basadas en la voz permanecen como el medio predominante del intercambio

    de información entre humanos. La investigación, el desarrollo de productos y las nuevas

    aplicaciones para la codificación del habla han avanzado dramáticamente en los últimos veinte

    años, y es que durante las últimas cuatro décadas, el procesamiento digital de señales se ha

    consolidado como una disciplina reconocida, y mucho del ímpetu en este avance, ha sido derivado

    de la investigación en la representación, codificación, transmisión, almacenamiento y reproducción

    de la información de imágenes y del habla [1]. De manera particular, el interés en la investigación

    de la voz, ha implicado además importantes contribuciones al procesado digital de señales y a

    técnicas de transformaciones espectrales de tiempo discreto.

  • 12

    Pero a pesar de estos avances, aún no se ha alcanzado una calidad artificial comparada a la humana.

    Por eso es importante continuar con los procesos que involucran a la comunicación por voz, para

    que de esta manera se optimice el conocimiento existente y se desarrollen nuevas técnicas que

    fortalezcan a esta área.

    1.2 Motivación

    La voz, es una señal que viaja a través de aire perturbado, el cual es producido por funciones

    fisiológicas humanas que hacen uso de tres procesos físicos esenciales: la generación de aire

    presurizado, la regulación en la vibración de este aire y el control de la resonancia de la señal

    acústica obtenida. Este proceso fisiológico genera una señal que contiene una gran cantidad de

    información, la cual (vista desde el análisis estadístico multivariante) puede ser analizada como un

    flujo de información de alta dimensionalidad (Figura 1-1).

    Figura 1-1: señal de voz de la palabra ‘Arranca’ mostrada en el dominio temporal. Desde el punto de vista tradicional la señal reside en un plano bidimensional (tiempo contra voltaje). Sin embargo al hacer uso del análisis estadístico multivariable, la señal se halla embebida en un espacio dimensional de 26,624 coordenadas (1.1093s de duración con una frecuencia de muestreo de 24kHz).

    0 0.2 0.4 0.6 0.8 1

    -0.08

    -0.06

    -0.04

    -0.02

    0

    0.02

    0.04

    0.06

    Señal de voz

    Tiempo (segundos)

    Am

    plit

    ud (

    volts)

  • 13

    Una forma común de representar a las señales acústicas (incluyendo a las señales de voz), es medir

    la energía de la señal usando diferentes bandas frecuenciales y calculando dicha energía sobre

    pequeños y diferentes instantes de tiempo, de esta manera cada banda de frecuencias puede ser

    vista como una dimensión en un espacio multidimensional, con una dimensión igual al número de

    bandas de frecuencias. Desde esta perspectiva un segmento de una señal de voz puede

    representarse en un nuevo espacio dimensional, como se observa en la Figura 1-2:

    Figura 1-2: Primeros 20ms de la palabra ‘Arranca’ para 20 bandas frecuenciales. La misma señal se representa de diferente manera residiendo así en un espacio dimensional de 20 ejes (con esta técnica además, es posible extraer características particulares de la señal a analizar).

    Debido a las restricciones fisiológicas en los movimientos del cuerpo humano (mandíbulas,

    pulmones, tórax, lengua, etc.), el aparato fonador tiene grados de libertad limitados que pueden

    conllevar a una representación matemática reducida. Aunado a estas restricciones fisiológicas y

    desde el punto de vista fonético, solamente un pequeño subconjunto de sonidos de todos los

    que pueden ser producidos por un ser humano son los que efectivamente se usan en una

    comunicación hablada. Esto es una motivación en la investigación de estructuras (variedades) de

    baja dimensionalidad inherentes al habla, para que por medio de estos métodos sea posible

    obtener una parametrización en la variabilidad fundamental del flujo de datos de estas señales,

    usando solamente unas pocas características. Para este enfoque se puede concebir a la

    información contenida en las señales de voz como si fuera una variedad de baja dimensionalidad

    incrustada en un espacio dimensional superior (ver Figura 1-3).

    Usualmente algunas herramientas del procesado digital de señales tales como la transformada

    discreta de Fourier y la codificación por predicción lineal (linear prediction coding –LPC-) pueden ser

  • 14

    útiles al analizar a las señales de voz, con el fin de facilitar la extracción de particularidades que

    sean apropiadas para la separación de información relevante (por ejemplo la energía y las

    características espectrales de la señal) de aquella información que no sea considerada de interés,

    consiguiendo de esta manera una reducción de la dimensionalidad de la señal [2].

    Figura 1-3 [3]: Una variedad bidimensional incrustada de manera no-lineal en un espacio tridimensional. La hipotética existencia de una estructura de baja dimensionalidad en las señales de voz se fundamenta en estudios previos que se remontan hasta los primeros análisis del plano de formantes de las vocales en una señal de voz [4].

    La información extraída se transforma (de manera típica) hacia esquemas o dominios basados en

    enfoques perceptuales humanos con respecto a las señales de voz, consiguiendo así una

    representación más fiel del sistema de comunicación (como sucede con los esquemas de los

    coeficientes de predicción lineal perceptual y los coeficientes cepstrales en frecuencias mel [5]). Estas

    representaciones fundamentadas basadas en modelos perceptuales y acústicos se sustentan en el

    conocimiento e investigaciones de los aparatos fonador y auditivo humanos. El inconveniente de

    estas técnicas es que no intentan hallar de manera automática la estructura inherente de baja

    dimensionalidad del habla.

    De forma concurrente a los avances hechos en el procesamiento del habla, en el área de la

    estadística multivariable se han propuesto una cantidad considerable de técnicas de reducción de

    la dimensionalidad impulsadas con el propósito de transformar datos que residen en un espacio

    altamente dimensional hacia un espacio dimensional significativamente menor. Las aplicaciones

  • 15

    de estas técnicas incluyen a: la compresión y graficación de datos, la eliminación del ruido y la

    extracción de características significativas de datos en espacios de alta dimensionalidad [3].

    1.3 Objetivos

    1.3.1 Objetivo general

    El objetivo general de este trabajo es “Desarrollar un sistema de reconocimiento automático del

    habla que integre técnicas de procesamiento digital de señales, selección de características, técnicas

    de reducción de dimensionalidad y clasificación automática”, para ello se hace uso del estado del

    arte en el reconocimiento automático del habla y se integran paradigmas del área de

    reconocimiento facial para la etapa de reducción de la dimensionalidad, generando así un sistema

    híbrido, original y capaz de procesar los datos de manera eficaz.

    1.3.2 Objetivos Particulares

    Esta investigación se puntualiza por medio de cinco objetivos específicos:

    1) Analizar el estado del arte en el Tratamiento digital de la señal enfocado a la voz, con la

    finalidad de proponer y desarrollar un algoritmo que pueda transformar a las señales entrantes

    al sistema hacia un formato adecuado para la optimización de los procesos posteriores.

    2) Desarrollar una técnica automática de selección de características que consiga enfatizar las

    características propias y esenciales de las voces empleadas, y además elimine aquellas que no

    sean útiles para separar las diferentes clases de los conjuntos de entrenamiento.

    3) Investigar y proponer un algoritmo de reducción de dimensionalidad estadístico que permita

    eliminar la redundancia existente en los datos originales. El objetivo de este algoritmo será

    reducir el costo computacional para el reconocimiento de las voces por medio de la

    representación de los ejemplos de entrenamiento con un número de datos menor al original,

    y de manera eficiente.

    4) Desarrollar un algoritmo de clasificación que utilice los vectores de características obtenidos

    en el punto anterior y reconozca al conjunto al que pertenece una muestra de voz.

    5) Realizar los bancos de pruebas necesarios para verificar la tasa de reconocimiento del sistema.

  • 16

    1.4 Contribuciones

    La contribución principal de esta tesis es un método original para el reconocimiento automático

    del habla explotando la hipótesis en la cual se presume que la voz posee una estructura inherente

    de baja dimensionalidad basándose para ello en la reducción de la dimensionalidad usando el

    análisis por componentes principales. El siguiente es un resumen de las aportaciones adjuntas

    derivadas de este trabajo:

    Un método capaz de reconocer al habla a través de la construcción de imágenes

    aprovechándose de los vectores de características extraídas de las señales de voz.

    La aplicación de este método sobre procedimientos de extracciones de características

    clásicos en el procesamiento del habla para comprobar el funcionamiento del método y

    al mismo tiempo comparar el rendimiento y robustez de estos procedimientos

    tradicionales a través de este nuevo esquema.

    La creación de una técnica de extracción de características plasmando en una imagen

    señales fundamentales obtenidas a través del análisis a cuadros de una señal de voz.

    1.5 Organización del documento de tesis

    El resto de esta tesis está organizado de la siguiente manera:

    En el capítulo 2 se hace una reseña con antecedentes relevantes concernientes a la producción

    y percepción del habla. Así como un breve resumen histórico del estudio del habla y sus

    aplicaciones actuales.

    A continuación en el capítulo 3 se realiza una profunda revisión de las técnicas actuales

    pertenecientes al procesado de las señales de voz orientadas a los sistemas de reconocimiento

    automático del habla apoyándose para ello en una revisión de su estado del arte.

    Después en el capítulo 4 se describen los fundamentos de la base para este trabajo analizando

    el concepto de reducción de dimensionalidad y su aplicación en las señales de voz explorando el

    estado del arte del habla enfocado a este tópico.

  • 17

    El capítulo 5 se presenta el método propuesto a través del análisis de cada uno de sus sub-

    procesos: pre-procesamiento de la señal, extracción de características, reducción de la

    dimensionalidad y clasificación.

    En seguida en el capítulo 6 se reportan los experimentos llevados a cabo para la validación del

    sistema así como la comparación entre las distintas técnicas de extracción de características

    propuestas.

    Finalmente en el capítulo 7 se concluye el documento y se presentan los posibles trabajos

    futuros que puedan derivar de esta tesis.

  • 18

  • 19

    Capítulo 2 REVISIÓN DE LA PRODUCCIÓN DE LA VOZ

    En este capítulo se revisa la teoría detrás de la producción y percepción de la voz, iniciando con

    una breve historia sobre el desarrollo y aplicaciones en el área del procesamiento del habla.

    2.1 Historia del procesamiento del habla

    Los seres humanos han estado atraídos desde hace mucho tiempo a crear máquinas que puedan

    hablar. Los primeros intentos en el entendimiento de la producción de la voz, consistieron en la

    construcción de modelos mecánicos con la finalidad de imitar el aparato vocal humano. El primer

    par de ejemplos datan del siglo 13, cuando el filósofo alemán Alberto Magno y el científico inglés

    Roger Bacon, supuestamente construyeron cabezas metálicas hablantes (aunque no se cuenta con

    documentación existente sobre estos dispositivos). Los primeros intentos registrados en la

    construcción de máquinas hablantes se encuentran quinientos años más tarde, cuando en 1761

    Christian Gottlieb Kratzenstein construyó cavidades resonantes las cuales, cuando eran accionadas

    usando un carrizo vibratorio, producían los sonidos de las cinco vocales (a/e/i/o/u). De manera

    contemporánea e independiente a este trabajo, Wolfgang von Kempelen construyó un sintetizador

    mecánico que podía generar consonantes reconocibles, vocales y algunas pocas palabras

    conectadas. Su libro (publicado en 1971) donde se habla sobre esta investigación, puede ser

    considerado como el inicio en el comienzo del procesamiento del habla. Aproximadamente 40

    años después, Charles Wheatstone construyó una máquina basada esencialmente en las

    especificaciones de von Kempelen. El interés en analogías mecánicas del aparato vocal humano

    continuó hasta el siglo veinte, construyéndose emulaciones del tipo de la máquina de von

    Kempelen por mucha gente además de Wheatstone, como Joseph Faber, Richard Paget, R. R.

    Riesz, etc. [6].

    Se sabe que Alexander Graham Bell, tuvo la oportunidad de ver la implementación de Wheatstone,

    realizando también una máquina hablante de la misma naturaleza (aunque con diferente aplicación)

    conocida como teléfono, que proporcionó un ímpetu mayor al procesamiento de la voz moderno.

    Nadie supondría en aquel momento el impacto que el teléfono tendría, no solo en la manera en la

    que la gente se comunica, sino también en la investigación del procesamiento de la voz como una

  • 20

    ciencia por derecho propio. La disponibilidad de la forma de onda de la voz plasmada ahora en

    una señal eléctrica, trasladó el interés para su síntesis y procesado, emigrando de paradigmas

    basados en el uso de máquinas mecánicas hacia máquinas eléctricas.

    En las décadas de 1920 y 1930 se realizaron algunos intentos para sintetizar eléctricamente a las

    señales de voz, sin embargo, fue el trabajo de Homer Dudley en 1930, el que abrió paso a la era

    del procesamiento del habla moderno. Su contribución más importante fue determinar el

    entendimiento de la naturaleza portadora de la voz, desarrollando una analogía entre señales de

    voz y señales de radio portadoras/moduladas empleadas en la transmisión y la difusión de señales

    de audio. En el caso de la difusión para la señal de radio, el mensaje a ser transmitido es la señal de

    audio (la cual contiene frecuencias en un rango de 0 a 20 kHz), análogamente el mensaje a

    transmitir (en el caso de la voz) es portado principalmente por el apariencia variante en el tiempo

    del tracto vocal, el cual es una representación de los pensamientos que el hablante desea transferir al

    escucha. Los movimientos del tracto vocal se encuentran en tasas de cambio silábicas de una

    frecuencia entre 0 y 20 Hz [7]. Para los dos casos (el electromagnético y el acústico), el mensaje se

    halla en un rango de frecuencias inadecuado para la transmisión. La solución es imprimir el mensaje

    en una onda que pueda portarla. En el caso electromagnético la portadora es usualmente una onda

    sinusoidal de alta frecuencia. En el caso de la voz, la portadora es una de varias señales, (1) una

    señal cuasi-periódica generada por las cuerdas vocales para los sonidos vocalizados, (2) una señal

    similar al ruido producida por la turbulencia generada por la constricción ocasionada debido a los

    sonidos aspirados y fricativos, (3) una combinación de sonidos vocalizados fricativos. En efecto,

    la selección de la onda portadora, así como los cambios en la intensidad y la frecuencia fundamental

    de las cuerdas vocales, pueden ser convenientemente considerados como partes adicionales del

    mensaje [8].

    Al ser un ingeniero eléctrico, Dudley aprovechó sus conocimientos construyendo un sintetizador

    eléctrico de voz que prescindía de los artilugios mecánicos de la máquina de von Kempelen, usando

    para ello circuitos eléctricos para la generación de las señales portadoras, y montando al mensaje

    (p. ej. las propiedades del tracto vocal) en la señal portadora, al hacerlo pasar a través de un filtro

    variante en el tiempo cuya respuesta en frecuencia era modificada con el objetivo de simular las

    características transferentes del tracto vocal.

  • 21

    Con la colaboración de Richard Riesz y Stanley Watkins, Dudley implementó (en los laboratorios

    Bell) dos dispositivos muy aclamados que hacían uso de este principio, el voder y el vocoder. El

    voder fue la primera máquina hablante, siendo capaz de producir frases arbitrarias. Era un sistema

    en el cual una operadora maniobraba un teclado para controlar la fuente del sonido y un banco de

    filtros variante en el tiempo. Este sistema fue exhibido con gran éxito en la Feria Mundial de Nueva

    York de 1939 (como “Pedro the voder”), pudiendo producir una voz de mucha mejor calidad de lo

    que jamás había sido posible producir usando dispositivos mecánicos, sin embargo permaneció

    básicamente como una curiosidad.

    El vocoder, por otro lado tuvo un propósito más serio, fue el primer intento que se hizo para

    comprimir voz. Dudley consideró que toda vez que el mensaje en una señal de voz es portado por

    filtros cuyas variaciones temporales son lentas, entonces debería de ser posible enviar información

    adecuada para que un receptor fuera capaz de reconstruir una señal telefónica de la voz utilizando

    un ancho de banda de solo apenas 150 Hz (lo que es aproximadamente 1

    20 veces el ancho de banda

    requerido para transmitir la señal de voz original) [9]. Como el uso del ancho en las

    telecomunicaciones ya era costoso desde aquellos días, esta posibilidad era extremadamente

    atractiva desde el punto de vista comercial.

    En esta introducción, se ha destinado mucho espacio a la labor de Dudley debido a que sus ideas

    fueron la base de prácticamente todo el trabajo posterior realizado en el procesamiento de señales

    orientado a la voz: (1) la descripción de la voz en términos de una portadora (o función de

    excitación), (2) su modulación (o envolvente espectral variante en el tiempo) siendo aún 80 años

    después la representación básica usada en esta área. Los parámetros usados para cuantificar estos

    componentes afortunadamente han evolucionado de muchas maneras. Inventándose además del

    vocoder de canal (el nombre moderno para el vocoder de Dudley), muchos otros tipos de

    vocoders, como el vocoder formante y vocoder excitado por voz.

    Además de la compresión de la voz, el trabajo de Dudley fue utilizado para otras aplicaciones tales

    como sistemas de seguridad por voz, y el espectrógrafo sonoro. Desafortunadamente, la calidad

    conseguida con implementaciones analógicas en vocoders nunca consiguió una calidad aceptable

    para el estándar de la telefonía comercial (sin embargo se hallaron aplicaciones útiles en propósitos

    militares en donde era posible tolerar una calidad pobre de la señal de voz). La representación del

  • 22

    vocoder fue también la base de un sistema de encubrimiento basado en voz usado extensivamente

    durante la segunda guerra mundial.

    Otro ejemplo de una implementación analógica del modelo de Dudley es el espectrógrafo sonoro,

    el cual es un dispositivo que muestra la distribución de energía de una señal de voz como una

    función de la frecuencia, y la evolución de esta distribución en el tiempo. Esta herramienta ha sido

    extremadamente útil para investigar las propiedades de la señal de voz. Se intentó usar una versión

    en tiempo real del espectrógrafo aplicándolo como un medio de comunicación con personas

    discapacitadas auditivamente, sin embargo no se obtuvieron los resultados esperados, ya que muy

    pocas personas fueron capaces de identificar más de 300 palabras, tras haberse entrenado casi 100

    horas, era una tarea difícil para ser considerada práctica.

    Durante más de tres décadas posteriores al trabajo pionero de Dudley, una gran cantidad de

    investigaciones fueron realizadas en varios aspectos y propiedades de la voz, fundamentalmente

    en las propiedades de los mecanismos de la producción del habla, el sistema auditivo y la

    psicofísica. Sin embargo (exceptuando estas tres áreas), se hicieron progresos muy pequeños en el

    procesamiento de la voz y sus aplicaciones. La explotación de este campo tuvo que esperar al

    desarrollo de hardware digital a principios de la década de 1970. Desde entonces se han realizado

    muchos avances en análisis del habla, enfocándose en su: codificación, transmisión, síntesis,

    reconocimiento y asistencia auditiva.

    Hoy en día, el área de procesamiento del habla es aún extenso, aunque se ha realizado un gran

    progreso desde la invención del teléfono, la investigación en este campo se encuentra aún muy

    activo, existiendo aún muchos problemas desafiantes sin resolverse.

    2.2 Aplicaciones del procesamiento del habla

    Como se ha mencionado, una de las primeras metas del procesamiento del habla fue la codificación

    de la señal de voz para una transmisión eficiente. Ello se conceptualizó como sinónimo de la

    reducción del ancho de banda requerido para transmitir voz.

    Fueron necesarios avances esenciales en otras áreas antes de conseguir el éxito moderno en la

    codificación del habla:

  • 23

    Primero, las nociones en la teoría de la información, introducidas por Claude Shannon durante

    finales de la década de 1940 y la década de 1950 proporcionaron el entendimiento que el

    objetivo apropiado no consistía en reducir el ancho de banda de la señal, sino la reducción de

    su información [10] [11].

    Segundo, el hardware necesario para utilizar el teorema de Muestreo (Whittaker-Nyquist-

    Kotelnikov-Shannon) para convertir una señal continua limitada en banda estuvo disponible,

    así entonces la cuantización de las muestras permitieron la digitalización de la señal de voz

    haciéndola apta para ser procesada digitalmente.

    Finalmente, la descripción de la señal de voz en términos de coeficientes de predicción lineal (linear

    prediction coefficients –LPC-) proporcionaron una representación sumamente conveniente (la

    teoría de la codificación predictiva fue de hecho desarrollada en 1955, sin embargo su aplicación

    al procesamiento de señales de voz se registró hasta finales de la década de 1970).

    Una señal de voz telefónica limitada en frecuencia en el rango de 0 a 3.4kHz, requiere de 64kbps

    (kilobits por segundo) para ser transmitida sin pérdida de calidad [12] [13]. Con las técnicas

    modernas de compresión de voz, la tasa de bits (bitrate) puede ser reducida hasta 13kbps con muy

    poca degradación. Para la telefonía comercial un desafío latente es reducir dicho bitrate requerido

    sin sacrificar la calidad de la señal. Hoy en día la razón de bits puede disminuirse hasta 2.4kbps

    mientras se mantiene una alta inteligibilidad, pero con una pérdida de calidad significante; incluso,

    se han realizado algunos intentos para reducir el bitrate hasta 300bps (por ejemplo en

    comunicaciones de radio con submarinos) sin embargo la calidad e inteligibilidad conseguidas con

    estas tasas de bits tan bajas son muy pobres [14].

    Otra aplicación altamente exitosa en el procesado de la voz es el reconocimiento automático del habla

    (automatic speech recognition –ASR-). Los primeros intentos en ASR consistieron en crear

    modelos determinísticos de todas las palabras en un pequeño vocabulario (p. ej. 100 palabras) y

    reconocer una declaración de voz como la palabra cuyo modelo se acerque más al modelo

    almacenado. La introducción de modelos ocultos de Markov (hidden Markov models –HMMs-) a

    principio de la década de 1980, proporcionaron una herramienta muy poderosa para el

    reconocimiento de la voz [15]. Hoy en día, muchos productos han sido desarrollados y utilizan

    exitosamente a los ASR para comunicar a humanos y máquinas, el reconocimiento puede hacerse

  • 24

    para frases de voz continuas utilizando un vocabulario grande, y como si se tratara de un hablante

    independiente. El desempeño de estos dispositivos, sin embargo, se deteriora en presencia de

    reverberación e incluso ante bajos niveles de ruido ambiental. La robustez ante el ruido,

    reverberación y características del transductor, es aún un problema no resuelto.

    El objetivo del reconocimiento automático del habla independiente del hablante (ASR-SI -speaker

    independent-) es reconocer a la voz con precisión no importando del hablante del que se trate. El

    problema complementario es reconocer al hablante a través de su voz, siendo el campo conocido

    como reconocimiento automático del habla dependiente del hablante (ASR-SD –speaker dependent-),

    despreocupándose de las palabras que la persona diga. En el presente, este problema parece ser

    solucionable solo si el hablante pertenece a un conjunto (generalmente pequeño) de N-hablantes

    conocidos. Una variante del problema es la verificación del hablante, en el cual la finalidad es verificar

    automáticamente la supuesta identidad de un hablante. Mientras el reconocimiento de hablantes,

    requiere de la selección de uno entre n-posibles resultados, la verificación de hablantes requiere

    solamente de una única respuesta, sí o no. Este problema puede ser resuelto con un alto grado de

    precisión para espacios mayores. La verificación de hablantes converge en aplicaciones en donde

    algún dispositivo o conjunto de datos deban de ser controlados. El problema de un desempeño

    condicionado ante la presencia de ruido como lo es para los ASR, existe también en el

    reconocimiento y verificación de hablantes.

    Una tercera aplicación en el procesamiento de la voz es sintetizarla a través de un texto. Cuando

    se usa en conjunto con los ASR, la síntesis de voz permite una interacción entre humanos y

    máquinas en dos sentidos. La síntesis de voz es también una manera para comunicar personas que

    son incapaces de hablar (como por ejemplo lo hace el famoso físico Stephen Hawking).

    Los primeros intentos en la síntesis de la voz consistieron en derivar el espectro variante en el

    tiempo para una secuencia de fonemas (unidad fundamental del habla, siendo abstracciones

    mentales o formales de los sonidos del habla) en un texto, entonces se procedía a estimar el tracto

    vocal de la variación correspondiente para posteriormente sintetizar a la voz al excitar el tracto

    vocal variante en el tiempo ya sea con excitaciones periódicas o de ruido según fuera el caso. La

    calidad de la síntesis era significativamente mejorada al concatenar unidades pre-almacenadas (p.

    ej. segmentos cortos como monosílabos o bisílabos) después de modificarlos para encajar en el

    contexto. Hoy en día la señal de voz con mayor calidad es sintetizada por el método de selección

  • 25

    de unidades, en el cual las unidades son seleccionadas dentro de un gran número de voces

    almacenadas y concatenadas con muy poca o inclusive sin modificación alguna.

    Finalmente, cabe mencionar la aplicación del procesamiento del habla como ayuda para personas

    con capacidades reducidas. La tecnología en ayuda auditiva ha tenido progresos considerables en

    las últimas dos décadas, y parte de este progreso es debido a una lenta aunque incesante mejora en

    el entendimiento del mecanismo auditivo, siendo en buena parte a la disponibilidad de hardware

    digital de alta velocidad, lamentablemente en la actualidad el desempeño de la ayuda auditiva es

    todavía deficiente debido a condiciones ambientales de ruido y reverberación. Una aplicación

    potencialmente útil en el procesamiento de la voz es la ayuda a personas con capacidades reducidas

    es desplegar la forma del tracto vocal (labios y mandíbulas principalmente) mientras un hablante

    genera señales de voz, intentando igualar la forma del tracto de vocal hacia una forma gráfica, una

    persona sorda puede aprender su pronunciación correcta. Se han hecho algunos intentos para

    implementar esta idea, desafortunadamente todavía se encuentra en el campo de la investigación.

    Otra aplicación útil es la ayuda de lectura para ciegos. La idea es contar con un dispositivo que

    pueda escanear texto impreso de un libro, sintetizando el habla en función del texto escaneado,

    en conjunto con un sistema para modificar la tasa del habla, siendo una ayuda muy útil para las

    personas ciegas (existiendo ya productos que ofrecen esta prestación en el mercado).

    2.3 Modelos de producción de voz. El modelo fuente-filtro

    El sonido de la voz es una onda de aire que se genera debido a acciones complejas del cuerpo

    humano. La presión del aire proveniente de los pulmones (utilizado de manera particular para la

    generación de la voz), resulta de las funciones del sistema respiratorio durante una fase

    prolongada en la exhalación, después de una corta inhalación. Las vibraciones del aire para los

    sonidos vocalizados, se generan en las cuerdas vocales de la laringe, las cuales son controladas

    en conjunto por los músculos laríngeos y un flujo de aire proveniente de los pulmones. La

    oscilación de las cuerdas vocales convierte al aire expirado en un flujo de pulsos de aire

    intermitentes que dan lugar a un sonido silbante. Las estrechas constricciones del conducto del

    aire a través del tracto vocal que se generan sobre la laringe, producen también fuentes de sonido

    transitorias, cuya presión genera un flujo de aire con turbulencias o ráfagas de sonido. Los

    resonadores se constituyen en la parte superior del tracto respiratorio por las cavidades faríngeas,

  • 26

    orales y nasales. Dichas cavidades actúan como cámaras de resonancia acústica que transforman

    los sonidos silbantes laríngeos y los sonidos turbulentos, en sonidos con funciones lingüísticas

    especiales. Los articuladores primarios son la lengua, la mandíbula inferior, los labios y el paladar,

    generando patrones de movimientos que alteran las características resonantes del conducto del

    aire en la zona supra-laríngea, los procesos fisiológicos en la producción de la voz se realizan

    debido a la secuencia combinada entre las acciones de estos articuladores y los órganos del habla

    para la fonación. Estas actividades resultan en un fenómeno de propagación a través de tres

    niveles: cavidades sub-glotales, cavidades del tracto vocal, y cavidades nasales y paranasales (Figura 2-1).

    Figura 2-1: Esquema del sistema de producción de la voz (Aparato fonador).

    En la Figura 2-2 se muestra un esquema transversal de una sección longitudinal del mecanismo

    del tracto vocal humano. El diagrama resalta las características físicas esenciales de la anatomía

    humana que aparecen en las etapas finales del proceso de producción de la voz. Muestra al tracto

    vocal como un tubo de área no uniforme seccionado transversalmente y que está unido en uno de

    sus extremos por las cuerdas vocales y en el otro por la cavidad bucal. Este tubo funciona como

    un sistema de transmisión acústico para sonidos generados dentro del tracto vocal. Por otro lado

    para crear sonidos nasales (como los fonemas /M/, /N/ o /Ñ/ del español), un tubo con

  • 27

    derivación lateral (tracto nasal), se encuentra conectado a la línea principal acústica por una acción

    de trampa mecánica en el paladar, el camino de la derivación irradia sonido hacia las fosas nasales.

    La forma del tracto vocal (su forma en la sección transversal a lo largo del eje), varía en función

    del tiempo debido a los movimientos de los labios, la mandíbula, la lengua y el paladar. Aunque el

    tracto humano vocal real no está colocado en una línea recta como en la Figura 2-2, este tipo de

    modelo es una aproximación razonable para diferentes longitudes de onda en la voz.

    Figura 2-2: Modelo esquemático del sistema del tracto vocal [16].

    Los sonidos de la voz se clasifican principalmente de maneras:

    Sonidos vocalizados: (vocales, líquidas, deslizadas y nasales) se producen cuando el tubo del

    tracto vocal es excitado por pulsos de aire presurizado resultantes de una apertura y cierre cuasi-

    periódico en el orificio glotal (apertura entre las cuerdas vocales).

    Sonidos vocalizados fricativos: cuando el tracto vocal se encuentra parcialmente cerrado,

    causando un flujo turbulento debido a la constricción, y al mismo tiempo permitiendo un flujo

    cuasi-periódico debido a las vibraciones de las cuerdas vocales como en los fonemas /V/ y /Z/.

    Sonidos explosivos: tales como en los fonemas /P/, /T/ y /K/ y fricativos como /CH/, se

    forman por un cierre repentino del flujo de aire, permitiendo subir la presión antes del cierre para

    inmediatamente liberar dicha presión súbita y abruptamente.

  • 28

    Todas estas fuentes de sonido crean una señal de excitación banda ancha (desde el punto de vista

    frecuencial) en el sistema del tracto vocal, el cual actúa como una línea de transmisión acústica con

    ciertas resonancias dependientes de la forma de la forma de dicho tracto, haciendo que estas

    resonancias enfaticen algunas frecuencias de la excitación relativas a otras. Como ya se ha dicho,

    el carácter general de la señal de voz varía en una tasa de fonemas, el cual se encuentra en un orden

    alrededor de 10 a 12 fonemas por segundo, y mientras que las variaciones temporales detalladas

    para la forma de onda de la voz se encuentran en una tasa mayor (50/segundo). Esto es, los

    cambios en la configuración del tracto vocal ocurren relativamente lento comparadas contra las

    variaciones temporales detalladas en la señal de voz. Los sonidos creados en el tracto vocal se

    generan en el dominio frecuencial por la respuesta (en dicho dominio) del tracto vocal. Las

    frecuencias resonantes resultantes de una configuración en particular de los articuladores son los

    instrumentos fundamentales en la formación del sonido correspondiente a un fonema dado. Estas

    frecuencias resonantes son conocidas como frecuencias formantes del habla [17] (Figura 2-3).

    Figura 2-3: Mediciones de los dos primeros formantes de las vocales del idioma español [18]. Los formantes son las bandas de frecuencias en donde se concentra la mayor parte de energía sonora en las señales de voz. En muchas lenguas los primeros dos formantes permiten distinguir a la mayoría de los sonidos vocálicos del habla. Típicamente el primer formante (el de frecuencia más baja, está relacionado con la apertura vocal que a su vez se encuentra relacionada con la frecuencia de las ondas estacionarias que vibran verticalmente en la cavidad del tracto vocal. El segundo formante (el de frecuencia más alta), se relaciona con la vibración en dirección horizontal, relacionada a su vez con la anterioridad de la vocal, esto es, cuanta más frecuencia contenga el formante la lengua estará posicionada más hacia adelante.

  • 29

    En resumen, las estructuras a detalle de la forma de onda (en el dominio temporal) son generadas

    por las resonancias y las fuentes del sonido generadas por el tracto vocal, transformando a dichas

    fuentes de sonido en fonemas. El sistema de la Figura 2-2 puede ser descrito por medio de la teoría

    acústica, y pueden usarse técnicas numéricas para crear una simulación física completa de la

    generación y transmisión del sonido en el tracto vocal, sin embargo, para la mayoría de las

    aplicaciones, es suficiente modelar la producción de una señal de voz muestreada por un modelo

    de sistema en tiempo discreto como el que se muestra en la Figura 2-4:

    Señal de voz

    Señal de

    excitación e[n]

    Señal de voz

    s[n]

    Parámetros

    de excitación

    Generador de

    excitación

    Parámetros

    del tracto

    vocal

    Sistema lineal

    Señal de voz

    sintetizada

    Figura 2-4: Modelo fuente-filtro para una señal de voz. Este modelo se basa en una combinación de una fuente de sonido (las cuerdas vocales) y al tracto vocal y sus propiedades irradiantes (los labios), modelados por medio de un filtro acústico lineal.

    El generador de excitación (a la izquierda de la Figura 2-4), reproduce los diferentes modos de la

    generación de sonido en el tracto vocal, al asumir que la salida del sistema lineal variante en el

    tiempo son muestras de la señal de voz.

    En general, dicho modelo es conocido como modelo fuente-filtro o fuente-sistema de la

    producción de la voz. La respuesta en frecuencia en tiempo corto del sistema lineal aproxima la

    formación de frecuencias en el sistema del tracto vocal, y debido a que el tracto vocal cambia de

    manera relativamente lenta, es razonable asumir que la respuesta del sistema línea varía sobre

    intervalos de tiempo en el orden de alrededor de 15ms. Debido a ello es común caracterizar al

    sistema lineal discreto en tiempo por medio de una función de sistema de la forma:

  • 30

    𝐻(𝑍) =∑ 𝑏𝑘𝑧

    −𝑘𝑀𝑘=0

    1 − ∑ 𝑎𝑘𝑧−𝑘𝑁

    𝑘=0

    =𝑏0 ∏ (1 − 𝑑𝑘𝑧

    −1)𝑀𝑘=1∏ (1 − 𝑐𝑘𝑧

    −1)𝑁𝑘=1

    Ecuación 2-1

    En donde los coeficientes del filtro (ak y bk, etiquetados como los parámetros del tracto vocal en

    la Figura 2-4) cambian en una tasa del orden de 50-100 veces por segundo. Algunos de los polos

    (ak) de la función del sistema se encuentran cerca del círculo unitario (en la frecuencia compleja),

    creando resonancias en las frecuencias formantes del modelo. Para el modelado en detalle de la

    producción de la voz es frecuentemente útil usar ceros (ak) en la función del sistema con el

    propósito de poder modelar también sonidos nasales y fricativos [19].

    La frecuencia fundamental en las señales de voz (debida a la excitación glotal), determina el tono

    percibido por los humanos. Los pulsos glotales individuales de duración finita poseen un espectro

    pasa-bajas que depende de varios factores, por lo tanto la secuencia periódica de pulsos glotales

    suaves tiene un espectro de líneas harmónicas con componentes que decrecen en amplitud cuando

    la frecuencia aumenta. A menudo es conveniente fusionar la contribución del espectro de pulsos

    glotales en el modelo del sistema del tracto vocal.

    Para sonidos de señales de voz no-vocalizados, el sistema lineal es excitado por medio de un

    generador de números aleatorios, produciendo una señal de ruido en el dominio temporal discreto,

    generando de esta manera un espectro frecuencial plano.

    Este modelo del habla concebido por el uso de: (1) un filtro digital variante en el tiempo, y por (2)

    una excitación capaz de capturar la naturaleza en la producción de la señal de voz (sonidos

    vocalizadas/no-vocalizados), es la base para modelar a las señales de voz (siendo el arquetipo de

    referencia por excelencia hasta la fecha). Esta representación ha sido plasmada a través de una

    amplia variedad de implementaciones digitales para las señales de voz, permitiendo formar a estas

    señales con los parámetros del modelo en lugar de utilizar una forma de onda muestreada.

    Al asumir que las propiedades de la señal de voz (y del modelo) son constantes en intervalos de

    tiempo corto, es posible calcular, medir y estimar los parámetros del modelo simplemente

    analizando segmentos muestrales cortos de la señal de voz [20]. Es a través de estas técnicas de

    modelado y análisis que es posible reflejar las propiedades del proceso de la producción de la voz

    por medio de una implementación de un sistema digital.

  • 31

    2.4 Percepción de la voz

    Cuando se analiza a la voz es deseable poder entender no solo el sistema que la genera sino además

    el sistema que responde a ella. En la Figura 2-5 se pueden observar las tres regiones principales

    que conforman al oído humano (sistema fisiológico encargado de pre-procesar a las ondas

    acústicas portadoras de la voz):

    Figura 2-5: Esquema anatómico del oído, donde se muestran los 3 segmentos principales: Externo (Canal), Medio (Tímpano, Martillo y Yunque) e Interno (sistema Coclear y sistema Nervioso) [21].

    • Oído externo: consiste en la parte externa del oído, localizado fuera de la cabeza y conocido

    como Pina, también conformado por el canal externo. El propósito del oído externo es canalizar

    las ondas acústicas hacia el oído medio.

    • Oído medio: esta zona del oído convierte las ondas acústicas (capturadas previamente) en

    vibraciones mecánicas que viajan a través de la ventana oval hacia el oído interno.

    • Oído interno: es una cámara llena de fluido que contiene a la cóclea (la cual tiene forma de

    caracol) y a una membrana basilar. Las vibraciones de la ventana oval crean ondas estacionarias

    en el fluido el cual hace vibrar a los vellos delgados que residen en la membrana basilar. Las

    frecuencias de estas vibraciones se encuentran en función de las frecuencias existentes en la onda

  • 32

    acústica del sonido original. Los vellos, conocidos como estereocílios, están conectados al nervio

    auditivo y en esencia convierten las vibraciones mecánicas en impulsos eléctricos para poder ser

    procesados por el sistema nervioso. Sin embargo la respuesta en frecuencia de la membrana

    basilar no es lineal, su resolución en frecuencia disminuye cuando la frecuencia incrementa, por

    ello se han propuesto diversos enfoques a su respuesta no-lineal, como es el caso de la escala

    mel.

    2.5 Escala Mel

    La escala mel (llamada así por Stevens, Volkman y Newman en 1937) es una escala perceptual de

    tonos equidistantes (frecuencialmente), y evaluados por diferentes escuchas. El punto de referencia

    entre esta escala de frecuencias y la escala lineal se define al asignar un tono perceptual de 1000

    mels a un tono de 1000 Hertz a 40dB sobre el umbral de escucha de una persona. Por encima de

    500 Hz se necesitan intervalos cada vez más grandes para que un escucha perciba incrementos de

    tonos iguales. Como resultado, cuatro octavas en la escala de Hertz sobre 500 Hz se interpretan

    como dos octavas en la escala mel. Con este experimento se demostró que el sistema auditivo

    humano es más sensible a diferencias de frecuencias en rangos de frecuencias bajas, debajo de

    1kHz que en rangos de frecuencias más altas. Debido a ello, la escala mel es aproximadamente

    lineal debajo de 1 kHz y logarítmica por encima de este valor. El nombre mel proviene de la palabra

    melodía para indicar que la escala está basada en comparaciones de tonos.

    La escala mel y la escala en Hertz se relacionan por medio de la Ecuación 2-2:

    𝑚𝑒𝑙𝑠 = 2595 log10 (1 +𝑓

    700)

    Ecuación 2-2

    En la Figura 2-6 se muestra la relación entre las dos escalas:

  • 33

    Figura 2-6: Relación entre escalas frecuenciales mel y Hertz. El sistema auditivo humano no interpreta los tonos de manera lineal. La interpretación humana de los tonos crece conforme la frecuencia decrece. La escala mel surgió para compensar esta característica. Su propósito es modelar al sistema auditivo humano con una escala no-lineal. Los tonos se perciben de manera lineal en el rango de frecuencias de 0 a 1000 Hz. Después de 1000 Hz la escala se vuelve logarítmica.

    0 1000 2000 3000 4000 5000 6000 7000 80000

    500

    1000

    1500

    2000

    2500

    Relación Escala lineal vs Escala Mel

    Frecuencia (Hertz)

    Fre

    cuencia

    (M

    els

    )

  • 34

  • 35

    Capítulo 3 RECONOCIMIENTO AUTOMÁTICO DEL

    HABLA: ESTADO DEL ARTE

    3.1 Introducción

    La investigación en el reconocimiento del habla ha estado activo durante más de 80 años, periodo

    en el cual se pueden identificar al menos cinco generaciones basándose en el uso de diferentes

    metodologías:

    1. Primera generación (1930 a 1950): uso de métodos ad-hoc para reconocer palabras o

    pequeños vocabularios de palabras aisladas. Estas tareas se realizaban basándose en el uso

    de gramática nodal simple de una palabra o un conjunto pequeño de palabras sin tomar en

    cuenta las disimilitudes en del habla.

    2. Segunda generación (1950 a 1960): uso de metodologías basadas en la acústica-fonética

    para reconocer fonemas, Sílabas o vocabularios de dígitos. Incorporaron el uso de

    gramática estadística y se utilizaron redes de estados Finitios (Finite State Networks –FSN-)

    para modelar características acústicas, sintácticas y semánticas en conjunto con un modelo

    integral simple capaz de ser configurado para tomar en cuenta eventos acústicos no-

    gramaticales, pudiendo realizar una búsqueda óptima para encontrar el mejor camino

    correspondiente a una frase hablada consistente con la tarea gramatical y semántica (y con

    posibilidad de realizar tareas pragmáticas).

    3. Tercera generación (1960 a 1980): uso de reconocimiento de patrones enfocado al

    reconocimiento del habla en vocabularios pequeños a medianos de secuencias de palabras

    aisladas y conectadas. Se incluyó el uso de la codificación lineal predictiva como método básico

    del análisis espectral y el uso de sus distancias para calificar la similitud entre los patrones

    generados, el uso de la programación dinámica para la alineación de patrones, el uso de

    métodos de reconocimiento de patrones para la agrupación de múltiples patrones en

    patrones de Referencia y el uso de Libros de Códigos (Codebooks) basados en la Cuantización

    vectorial para la reducción de datos y recursos computacionales.

  • 36

    4. Cuarta generación (1980 a 2000): uso de métodos estadísticos a través de modelos ocultos

    de Markov (hidden Markov models –HMM-), con el propósito de modelar la dinámica y

    estadística del habla para sistemas ASR continuos, uso de métodos de entrenamiento de

    adelanto-atraso y de k-medias segmentales, uso de métodos de alineamiento de Viterbi,

    uso de Estimaciones de Máxima Verosimilitud (Maximum Likelihood –ML-) entre otros

    criterios de desempeño y métodos con la finalidad de optimizar a los modelos estadísticos.

    Métodos basados en redes neuronales (neural Networks –NN-) para estimar Densidades de

    Probabilidad Condicional, uso y adaptación de métodos que modifiquen tanto a los

    parámetros asociados con la señales de voz así como con sus modelos estadísticos con el

    propósito de mejorar la compatibilidad entre el modelo y el dato original, incrementando

    de esta manera la precisión del reconocimiento.

    5. Quinta generación (2000 a 2020): uso de métodos de procesamiento en paralelo para

    incrementar la exactitud en las decisiones del reconocimiento, combinaciones de HMMs y

    técnicas acústicas-fonéticas para detectar y corregir irregularidades lingüísticas, robustez

    incrementada para sistemas ASR en presencia de ruido, aprendizaje de máquina para

    combinaciones óptimas de modelos.

    Estas generaciones no están desligadas unas con otras, debido a que la mayoría de las ideas

    fundamentales que las generaron surgieron en generaciones anteriores. Sin embargo, los

    periodos indicados para cada generación representan los momentos en los cuales la mayoría de

    la investigación se llevó a cabo y los momentos en los que las tecnologías resultantes se

    convirtieron en estándares para la mayoría de los sistemas de reconocimiento automático del

    habla en dichas épocas.

    Debido a su interdisciplinariedad, el reconocimiento automático del habla se basa en la voz

    humana como objeto de investigación. El reconocimiento del habla hace posible que una

    máquina convierta a una señal de voz en texto o comandos a través de un proceso de

    identificación y entendimiento. El reconocimiento del habla abarca muchas áreas del

    conocimiento como lo son: la fisiología, psicología, lingüística, ciencias de la computación y el

    procesado de señales, incluso se encuentra relacionado con el lenguaje corporal de una persona,

    y su objetivo máximo es conseguir una comunicación natural entre hombres y máquinas. La

  • 37

    tecnología de reconocimiento del habla se ha convertido gradualmente en una tecnología clave

    en las interfaces de máquina en las Tecnologías de la información (TI).

    En el Capítulo 2 se realizó una reseña histórica sobre el procesamiento del habla. Como se

    mencionó (Capítulo 2.1, página 19), el trabajo de investigación formal comenzó en la década de

    1950 en los laboratorios Bell, siendo el sistema Audrey el primero en identificar los diez números

    del idioma inglés, esto marcó un hito y generó un progreso substancial en la investigación de las

    décadas posteriores. En la década de 1960 si bien los sistemas de reconocimiento automático del

    habla ya existían comercialmente, sus costos (los cuales rondaban entre los $10,000 y $100,000

    dólares [22]) los hacían solo accesibles para los profesionales en TI. Posteriormente a principios

    de la década de 1980, los modelos ocultos de Markov (hidden Markov models –HMM-) y las redes

    neuronales artificiales (artificial neural Networks –ANN-) se emplearon exitosamente en el

    reconocimiento del habla. En el año de 1987 [11], se utilizó exitosamente la técnica de cuantización

    vectorial (vector quantization –VQ-) para obtener un sistema continuo de reconocimiento del habla-

    SI (independiente del hablante) llamado SPHINX, el cual es conocido como el primer sistema

    ASR moderno de alto desempeño [23].

    Los sistemas actuales de reconocimiento del habla se han trasladado de los laboratorios hacia el

    mundo práctico. Muchos países desarrollados como estados Unidos, Japón, Corea del Sur, así

    como grandes empresas como IBM, Apple, Microsoft y AT&T generan fuertes investigaciones y

    desarrollos de sistemas de reconocimiento automático del habla.

    Un sistema típico de reconocimiento automático del habla (Figura 3-1), es esencialmente un

    sistema de reconocimiento de patrones, el cual incluye: una etapa de extracción de características, una

    etapa de asociación de parámetros y una Librería donde se halla la base del conocimiento (producto

    del resultado de los entrenamientos realizados).

    La voz a analizar pasa a través de un piezo-eléctrico (micrófono), el cual transforma las

    perturbaciones del aire en señales eléctricas, con el propósito de ser procesadas por la máquina,

    posteriormente el sistema establece un modelo de la voz de acuerdo a sus características al analizar

    y extraer los rasgos particulares de dichas señales (que generalmente se hallan ocultos), para

    finalmente generar un patrón que se usará en la etapa de reconocimiento.

  • 38

    Señal de voz

    Pre-

    procesamiento

    de la señal

    Extracción de

    características

    Asociación de

    Patrones

    Entrenamiento

    Identificación

    Base de

    Conocimiento

    (librería)

    Resultados del

    reconocimiento

    Proceso fuera de línea

    Proceso en línea

    Figura 3-1: Sistema ASR donde se muestra el paradigma clásico de reconocimiento de patrones, el cual involucra comparar los parámetros o representación de características de la palabra pronunciada con patrones de referencia para cada palabra en la librería de vocabularios. La etapa de entrenamiento suele ejecutarse previamente (proceso fuera de línea) a la etapa de identificación (proceso en línea).

    La máquina se encarga del proceso de reconocimiento al trabajar con los patrones de las voces

    (generados previamente), y comparándolos con las características de la señal a identificar. Las

    estrategias de búsqueda y asociación para identificar el rango óptimo en una voz entrante al sistema

    se basan en la asociación con estos patrones definidos.

    En los subcapítulos siguientes se hace un estudio del estado del arte para los sistemas de

    reconocimiento automático del habla que incluye los métodos y las técnicas actuales que se

    emplean en cada una de los procesos de dichos sistemas.

    3.2 Pre-procesamiento de la señal

    Una de las primeras decisiones que se deben realizan en el diseño de un sistema ASR es la manera

    de digitalizar y representar a las señales de voz para poder ser interpretadas por una máquina [22].

    Los primeros pasos en la etapa de pre-procesamiento de la señal son: la división de bloques de voz

    en secuencias de señales separadas por pausas, y la normalización de la señal para reducir la

    variabilidad debido al ruido (condiciones del entorno y de los canales de comunicación) y al

    hablante (rapidez de pronunciación, salud física, emociones, etc.).

  • 39

    La representación digital más simple para la voz es la Modulación por Impulsos codificados (Pulse Code

    Modulation –PCM-) en donde la señal de voz es muestreada y digitalizada por una computadora

    empleando para ello un Convertidor analógico-digital (analogic to digital Converter -ADC-). La señal

    de voz es muestreada entre 6 a 20 veces por segundo en sistemas ASR, dependiendo de la

    frecuencia de respuesta deseada [2]. Típicamente [24], una etapa de pre-procesamiento de la señal

    se compone de los bloques que se ilustran en la Figura 3-2 y que se revisan en las sub-secciones

    siguientes.

    Señal de vozFiltro de

    Pre-énfasis

    Supresión de

    ruido de fondo

    Supresión de

    silencios

    Normalización y

    alineamientoEnventanado

    Señal

    pre-procesada

    Análisis a

    cuadros

    Opcional

    Figura 3-2: Etapa de pre-procesado de señal para un sistema ASR.

    3.2.1 Filtro de pre-énfasis

    Un filtro de pre-énfasis juega un rol crítico en la captura de las características de las muestras de

    la señales de voz en un sistema ASR [25].

    Este filtro surge debido a que generalmente en el proceso de captura de la voz existe una

    atenuación de las componentes de altas frecuencias, ya que el micrófono se comporta como un

    filtro pasa-bajas, esto genera fenómenos adversos tales como atenuación, distorsión y saturación.

    Este filtro se usa con el propósito de suavizar el espectro frecuencial de la señal, al incrementar

    la magnitud en una banda de frecuencias (en las señales de voz las frecuencias más altas) con

    respecto de otras frecuencias (las de baja frecuencia), con el propósito de mejorar la relación

    señal-a-ruido total, haciendo que el filtro de pre-énfasis ayude a reducir las inestabilidades en los

    cálculos posteriores en los sistemas de procesado de voz generados por errores con operaciones

    matemáticas de precisión finita, evitando de esta manera errores por truncamiento numérico, al

    permitir que los coeficientes de una transformada rápida de Fourier (si existiera) o alguna otra

  • 40

    transformación frecuencial, puedan portar también a las componentes de altas frecuencias,

    generando de esta forma una magnitud mayor en estas frecuencias, lo cual es una aproximación

    más fiel de la señal real, consiguiendo de esta manera hacer un mejor uso del rango dinámico de

    la señal original.

    Explícitamente en el área del análisis de la voz, las técnicas LPC o de modelado sinusoidal, buscan

    los parámetros de un modelo que minimicen la distancia del modelo a la señal original. Cuando se

    aplican estas técnicas en señales de voz que no han sido pre-enfatizadas, el modelo desperdiciará

    la mayor parte de su capacidad (polos, sinusoides, etc.) tratando de sobre-ajustar las primeras

    armónicas mientras que se ignoran las de órdenes superiores (pudiendo ser importantes para la

    inteligibilidad de la señal de voz o para la discriminación de fonemas). Aplicando un filtrado de

    pre-énfasis a la señal generalmente se asegura que el modelo se ajuste al espectro de manera más

    uniforme.

    El filtro de pre-énfasis consiste en un filtro digital de primer orden, con una función de sistema:

    𝐻(𝑍) = 1 − 𝑎𝑧−1

    Ecuación 3-1

    3.2.2 Supresión de ruido de fondo

    La existencia de ruido es inevitable. En todas las aplicaciones concernientes a la voz desde

    grabaciones de sonido, telecomunicaciones y tele-colaboraciones, hasta interfaces hombre-

    máquina, las señales de interés que se obtienen de un micrófono generalmente se encuentran

    contaminadas por ruido. Por lo que es deseable que esta señal sea limpiada con técnicas basadas

    en procesado digital de señales (antes de ser almacenada, analizada, transmitida o reproducida).

    El proceso de limpieza (conocida comúnmente como reducción de ruido), ha originado una cantidad

    considerable de investigación y desarrollo por varias décadas. Se han hecho grandes avances, y

    se mantiene un continuo progreso con la ayuda de creación de nuevos procesadores que pueden

    extraer la señal de voz deseada. Basándose en su origen teórico, los algoritmos de reducción de

    ruido se categorizan en tres clases fundamentales: técnicas de filtrado, Restauración espectral, y Métodos

    basados en modelos [15].

  • 41

    3.2.3 Supresión de silencios

    Una forma de clasificar a las señales de voz (desde un análisis temporal), es categorizando sus

    regiones en tres categorías diferentes: vocalizadas, no-vocalizadas y Silencios [26]. Las regiones

    vocalizadas y no-vocalizadas contienen información del habla, mientras que las partes de Silencio

    contienen ruido que generalmente carece de información. Un Detector de actividad de la voz (Voice

    Activity Detector –VAD-) (Figura 3-3), es un sistema capaz de localizar las regiones de sonidos

    vocalizados y no-vocalizados en presencia de ruido de fondo en una señal de voz [27] .

    Señal de vozExtracción de

    características

    Decisión del

    VAD

    Corrección de

    decisión del

    VAD

    Cálculo de

    umbral

    Señal de voz útil

    Figura 3-3: Diagrama a bloques de un sistema VAD genérico [28].

    Un VAD fiable aumenta la exactitud de un sistema ASR. El problema de hallar el inicio y el final

    en una señal de voz, se puede concebir como un proceso secuencial (o un proceso por partes),

    en donde las pronunciaciones son generalmente muy pequeñas (de unos cuantos segundos) en

    sistemas ASR. A pesar de que los sistemas VAD pueden implementarse usando diferentes

    algoritmos y técnicas, generalmente poseen algunas características semejantes con las que es

    posible evaluar su desempeño:

    • Extracción de características: es necesario un buen criterio en la selección de características

    para la segmentación de las señales de voz. Generalmente la complejidad del VAD es

    directamente proporcional al criterio de extracción de características. Cabe destacar que la

    extracción de características basadas en técnicas temporales, a menudo son menos complejas

    que las basadas en técnicas frecuenciales.

    • Selección de umbral: es precisa una adecuada elección en el umbral de detección para la

    correcta segmentación del habla y la eliminación de regiones de silencio. En las partes de voz es

    necesario también segmentar la porción de voz de las partes vocalizadas y no-vocalizadas. Por

  • 42

    lo tanto estos umbrales por naturaleza deben de ser robustos y estables para que puedan

    segmentar a la voz ante diferentes tipos de ruido. Típicamente estos umbrales se inicializan en

    los algoritmos al analizar el ruido de fondo empleando algún criterio, sin embargo en la mayoría

    de las ocasiones la inicialización se realiza con algunas pre-muestras o muestras tempranas de la

    señal de voz. Existen dos tipos de inicialización para el nivel de umbral: uno empleando una

    grabación previa de ruido de fondo, y el segundo es tomar los primeros 200ms de una muestra

    de una señal de voz (evidentemente, estas aproximaciones no pueden ser empleadas para

    sistemas en tiempo real).

    • Complejidad: para implementaciones en tiempo real el VAD debe conservar una baja

    complejidad. Los VAD basados en técnicas temporales son de una naturaleza menos compleja

    que los basados en dominios frecuenciales [29]. Sin embargo, también es cierto que los VAD

    basados en técnicas frecuenciales inherentemente son más robustos.

    • Perceptibilidad: después de la segmentación, el VAD debe demostrar poseer una buena

    calidad perceptible (inteligibilidad en la señal de voz procesada). Una valoración subjetiva puede

    medir la perceptibilidad del VAD. Después de haberse ejecutado las operaciones del VAD, los

    archivos con las voces procesadas son entregados a jueces, quienes otorgarán una valoración en

    función de su apreciación subjetiva.

    • Porcentaje de compresión: es la razón del número de muestras inactivas divido entre el

    número total de muestras. Un VAD debe tener un porcentaje alto de compresión, pero no tan

    alto que reduzca su Perceptibilidad.

    • Detección errónea: Entendida como el Objetivo de la Evaluación. Para poder valorar a esta

    característica de un VAD, se debe segmentar manualmente a una señal de voz en regiones

    vocalizadas y no-vocalizadas. Y se obtiene al calcular la razón de muestras ocupadas por la voz

    pero habiendo sido clasificadas como silencio sobre el número total de muestras.

    Para los VAD basados en el dominio temporal, se encuentran los que utilizan técnicas de: tasas

    de cruce por cero [30] [31], periodicidad [32], energía de la señal [33], energía lineal [34] y energía lineal

    adaptiva [29], entre otros más. Para los que utilizan métodos frecuenciales se tienen los basados

    en: coeficientes cepstrales [35], Entropía espectral [36], Medición de la periodicidad de Mínimos Cuadrados

    [37], coeficientes de transformación wavelet [38], etc.

  • 43

    3.2.4 Análisis en tiempo corto

    En el procesamiento de la voz, muy a menudo es conveniente dividir a la señal en cuadros para

    conseguir estacionaridad estadística, definida como un proceso estocástico cuya distribución de

    probabilidad conjunta en un instante de tiempo fijo o posición es la misma para todos los

    instantes de tiempo o posiciones [39]. Por lo tanto, parámetros tales como la media y la varianza

    (si existen) no varían a lo largo del tiempo o posición. Para el procesado de señales (como la voz)

    se emplea la estacionaridad débil o estacionaridad en sentido amplio (wide-sense stationarity –WSS-), la

    cual solo requiere que el primer y segundo momento estadístico (la media y la varianza

    respectivamente), no varíen en función del tiempo [40].

    Una señal de voz no es estacionaria per se, pero analizándola en instantes de tiempo corto se

    aproxima lo suficientemente bien como para llevar a cabo un análisis estadístico. Esta propiedad

    se debe a que el sistema fisiológico humano (específicamente el proceso glotal), no cambia de

    manera inmediata. Los estudios indican que una señal de voz típicamente es estacionaria en

    intervalos de tiempo de 20ms [7