sintetizador básico de voz - 148.206.53.84148.206.53.84/tesiuami/uami12844.pdf · sintetizador...

Sintetizador Básico de Voz

Silvia Montiel Gaspar

M. C. Alma Edith Martínez Licona

Universidad Autónoma Metropolitana – Iztapalapa

Marzo de 2006

2

Índice

Página

Capítulo 1- Generalidades .......................................................................................... 4

1.1 Introducción .................................................................................................... 4 1.2 Antecedentes históricos ........................................................................ 5 1.3 El procesamiento de voz en la actualidad ........................................... 6 1.4 Conocimientos previos ...................................................................................... 6

1.4.1 Características físicas del habla ......................................................... 6 1.4.2 Coarticulación y prosodia ......................................................... 7 1.4.3 Generación del habla ......................................................... 8

1.5 Síntesis de voz .................................................................................................... 9

1.5.1 Estructura general de un conversor texto-habla ........................................... 10 1.5.2 Requisitos de la síntesis de voz ........................................... 11 1.5.3 Unidades lingüísticas en la síntesis de voz ........................................... 11 1.5.4 Clasificación de los sintetizadores de voz ........................................... 12

1.6 Técnicas de síntesis de voz ......................................................................... 13

1.6.1 La codificación y almacenamiento de la onda sonora .............................. 13 1.6.2 La síntesis con técnicas de concatenación de unidades almacenadas mediante síntesis paramétrica ............................. 15

1.6.2.1 La síntesis por LPC ........................................... 16 1.6.2.2 Los sintetizadores por formantes ........................................... 16

1.6.3 La síntesis por reglas ............................. 17

1.7 Selección de una técnica de síntesis .......................................................... 18

1.8 Justificación .................................................................................................... 19

1.9 Objetivos .................................................................................................... 20

Capítulo 2 - Segmentación de las palabras en sílabas ....................................... 21

2.1. - Las letras y su clasificación ......................................................................... 21

2.2. - Normas del idioma español para la formación de sílabas ............................. 22

2.3.- Clasificación de las sílabas ........................................................................ 25

2.4. – Un algoritmo para dividir una palabra en sílabas ........................................... 27

3

Página

2.4.1.- Algoritmo para el caso en que el inicio de sílaba es vocal ............... 27 2.4.2.- Algoritmo para el caso en que el inicio de sílaba es consonante + vocal 29 2.4.3.- Algoritmo para el caso en que el inicio de sílaba es consonante + consonante 31

Capítulo 3 - Arquitectura y desarrollo del sintetizador básico de voz ............... 32

3.1.- Construcción del silabicador ........................................................................ 32

3.2.- Grabación del diccionario de sílabas .......................................................... 33

3.3.- Creación de la interfaz de usuario ........................................................................ 37

Resultados y conclusiones ............................................................................................ 39

Referencias .................................................................................................................... 40

4

Capítulo 1

Generalidades

1.1 Introducción

Un sintetizador de voz es un sistema que simula el proceso humano de leer en voz alta, es decir, convierte una entrada escrita en palabras a una salida pronunciada. [WEB 1]. Los sintetizadores de voz construidos hasta el momento tienen dos módulos [WEB 2] que interactúan para realizar la síntesis de voz y que son ilustrados en la figura 1.1. El primer módulo es un convertidor de texto a segmento, es decir, recibe el texto de entrada y lo separa en partes más pequeñas llamadas segmentos. En el segundo módulo, llamado sintetizador de segmentos a voz, se convierten dichos segmentos a sonidos, generando una voz artificial, que interpreta el texto de entrada.

Figura 1.1: Sistema de texto a voz

La síntesis de voz involucra un conjunto extenso de conocimientos que conciernen a diferentes ramas de la ciencia, como la acústica, la fisiología, la lingüística, la inteligencia artificial, las ciencias de la computación, el procesamiento de señales, la teoría de la comunicación y la teoría de la información. En la primera parte de este documento se describe brevemente algunos de los términos relacionados con la síntesis de voz. El segundo capítulo contiene información relacionada con las sílabas, que es el segmento utilizado para desarrollar el sintetizador básico de voz descrito en este informe. La arquitectura del sintetizador se detalla en el tercer capítulo.

Sintetizador de segmentos

a voz

Texto en segmentos

Convertidor de texto en segmentos

Módulo 1 Módulo 2

Sistema de Síntesis de Voz

Texto de entrada en palabras

Voz

5

1.2 Antecedentes históricos

La imitación de la voz humana por medio de máquinas es un tema que ha interesado mucho a lo largo de la historia. Ejemplo de este interés son los proyectos que se mencionan en la tabla siguiente, que además es una muestra de la evolución de la síntesis de voz.

Fecha Descripción Ejemplo Siglo XVIII

Kempelen publica el mecanismo de una máquina de hablar y Alberto Magno construye un autómata de figura humana que abre la puerta y saluda a la gente.

1939 Se desarrollan los primeros ensayos eléctricos.

- Voder, desarrollado por los Laboratorios Bell.

1965

Surgen las primeras implementaciones controladas por computadora.

- Sintetizador de Klatt.

Finales de la década de 1970

Gracias a la existencia de la microelectrónica aparecen las primeras máquinas para convertir texto en voz.

- Kurzweil Reading Machine. - Prose 2000 de Telesensory

Systems Inc. - Speak'n Spell de Texas

Instruments. - Votrax de Federal Screw

Works . Década de 1980

Comienzan a desarrollarse grandes proyectos nacionales. Se obtienen sintetizadores de alta calidad en idiomas como el español, francés, sueco, alemán e italiano.

- Advanced Man-Machine Communication Through Spoken Language (Japón).

- Alvey (Gran Bretaña, Francia, Alemania y Holanda)

- Programa ESPRIT (Comunidad Europea).

- Amiga 1000 Década de 1990

Comienza la búsqueda del lenguaje no robotizado. Empiezan a venderse tarjetas de sonido baratas, que junto con el multimedia contribuyen a revivir el interés en la tecnología del habla. Se tienen limitaciones como el tamaño de la memoria y la velocidad de las computadoras.

Cuadro 1.1: Historia de la síntesis de voz.

6

1.3 El procesamiento de voz en la actualidad

La Tecnología del habla puede dividirse en 4 tecnologías básicas principales, que son:

1. La síntesis de voz 2. El reconocimiento de voz o reconocimiento del Habla 3. El reconocimiento de locutores 4. La codificación de voz

La síntesis de voz es el tema principal de este documento y será desarrollado con detalle más adelante.

El Reconocimiento de Voz o Reconocimiento del Habla es un proceso que consiste en la conversión de un mensaje hablado a texto, y permite al usuario una comunicación con la máquina. Esta tecnología ha tenido un gran avance en los últimos años. En un principio sólo permitía reconocer a un hablante, dentro de un vocabulario muy limitado, en la actualidad se cuenta con prototipos que tienen la capacidad de reconocer a cualquier hablante sobre vocabularios flexibles compuestos por miles de palabras.

El Reconocimiento de Locutores es un proceso que a partir de la señal de voz permite identificar o verificar la identidad de un hablante de forma automática. Esta tecnología tiene grado de desarrollo inferior al del reconocimiento y síntesis de voz

La tecnología de codificación de voz tiene como objetivo el almacenamiento y/o transmisión de señales de voz en formato digital, con la condición de que las representaciones utilizadas tengan la mayor calidad posible y el menor número de bits por muestra. Esta tecnología tiene un alto grado de desarrollo y cuenta actualmente con un número importante de procedimientos estandarizados.

1.4 Conocimientos previos

1.4.1 Características físicas del habla

En términos físicos, el habla es una onda acústica, sus características van cambiando a lo largo del tiempo, aunque en pequeños periodos de la señal (~30 ms) mantiene sus características y puede considerarse estacionaria. Las características del espectro1 del habla varían dependiendo del fonema que se está pronunciando. En el caso de fonemas sonoros, la onda es periódica y rica en armónicos2, con un periodo fundamental que se conoce con el nombre de Pitch3. El pitch medio es característico de cada hablante y es función de la frecuencia a la que vibran sus cuerdas vocales. En el caso de los hombres la frecuencia

1 Cualquier distribución ordenada producida por el análisis de un fenómeno complejo. Un sonido complejo, como por ejemplo un ruido, puede analizarse como un espectro acústico formado por tonos puros de diferentes frecuencias. 2 Serie de vibraciones subsidiarias que acompañan a una vibración primaria o fundamental de movimiento ondulatorio, especialmente en los instrumentos musicales. Los armónicos aparecen cuando un cuerpo vibra. 3 Periodo fundamental del espectro del habla.

7

fundamental oscila entre 80 y 200 Hz frente a la de las mujeres que se encuentra entre los 150 y los 400 Hz. Las pequeñas variaciones en el pitch permiten la entonación del habla. Tanto los sonidos sonoros1 como los sonidos sordos2 presentan unas bandas de frecuencia denominadas formantes3 donde se concentra la energía de la señal y que caracterizan el tipo de fonema que se está pronunciando. El cuadro 1.2 muestra algunas de las características de los diferentes tipos de sonido.

Tipo de sonido Características Sonoro Señal no periódica y ruidosa.

Sus ondas tienen mayor amplitud y su forma es periódica. La mayor parte de su energía se concentra en las frecuencias más altas de la banda característica del habla

Sordo Sus ondas tienen amplitud o energía muy baja y presentan aspecto ruidoso.

Oclusivo Tienen un silencio de pocos milisegundos y una explosión de energía de corta duración.

Cuadro 1.2: Características de los diferentes tipos de sonidos

En la figura 1.2 puede observarse la evolución del espectro, o del reparto de la energía en frecuencia a lo largo del tiempo en la frase "Buenos días Hipócrates". Las manchas más oscuras son las formantes. La evolución de estas bandas de energía es continua de un fonema a otro y es difícil determinar cuándo termina uno y comienza el otro.

Figura 1.2: Evolución del espectro en la frase “Buenos días Hipócrates”

1.4.2 Coarticulación y prosodia

Debido a la continuidad del habla el tracto vocal está cambiando continuamente de forma y mientras pronunciamos un fonema se va adaptando a la pronunciación del siguiente. A este fenómeno se le conoce con el nombre de coarticulación y convierte al habla en una señal con cambios suaves y continuos. Otro fenómeno importante para la comprensión del habla es la prosodia. La prosodia engloba los aspectos melódicos del 1 Sonidos en los que al pasar el aire a través de las cuerdas vocales éstas están tensas y la presión del aire las hace vibrar con mucha rapidez: /m/, /d/. 2 Sonidos que no provocan vibración al pasar el aire a través de las cuerdas vocales: /f/, /t/. 3 Las frecuencias de mayor energía cuya disposición caracteriza a los distintos fonemas.

8

habla: el ritmo, el tono y el volumen. Mediante el control de estos tres parámetros se da sentido al mensaje y se transmiten emociones, se hacen preguntas, se realizan exclamaciones, se enfatizan trozos del discurso etc.

1.4.3 Generación del habla

El aparato fonador del ser humano está compuesto por la boca, la nariz, la faringe, la laringe, la tráquea, los pulmones y el diafragma. Algunos de estos órganos son mostrados en la figura 1.3.

En la generación del habla intervienen los pulmones, la tráquea y el tracto vocal. El aire emitido por los pulmones atraviesa la tráquea y alcanza la laringe donde, en el caso de la generación de sonidos sonoros, se producirá la sonorización de la onda. Las cuerdas vocales se encuentran en el centro de la laringe, son dos repliegues musculares en forma de V, rodeadas de una estructura de cartílago y músculo que forma una hendidura: la glotis. Mediante estos músculos la glotis, que durante la respiración permanece abierta, se puede cerrar y mediante la presión del aire proveniente de los pulmones se abre periódicamente generando un tren de pulsos de aire que dan lugar a los sonidos sonoros. El aire emitido por los pulmones y el cierre de la glotis, produce un aumento de la presión subglotal, sobrepasando los 40-60 Pa1, y pudiendo alcanzar los 200 Pa. Debido a la presión, las cuerdas vocales se separan, el aire fluye, su velocidad aumenta y la presión subglotal disminuye. Por efecto de la tensión de las cuerdas, de nuevo superior a la presión subglotal, la glotis vuelve a cerrarse y el ciclo comienza de nuevo. La frecuencia de vibración de las cuerdas marca la frecuencia fundamental del sonido producido y es función tanto de características físicas de las cuerdas, como su longitud y grosor, como de la tensión que la persona aplique a los músculos adyacentes.

Figura 1.3: Anatomía de la boca .

1 Un Pascal (Pa) es una medida de presión que equivale a un newton por metro cuadrado.

9

En la generación de los sonidos sordos las cuerdas vocales permanecen abiertas dejando fluir el aire libremente. Tanto en el caso de la producción de sonidos sordos, como en la producción de sonidos sonoros, el aire atraviesa el resto del tracto vocal, que actúa como cavidad resonante atenuando unas frecuencias y permitiendo pasar otras. Mediante movimientos de la boca y la lengua se varía la forma de la cavidad resonante y con ello las bandas de paso y atenuación de energía, dando lugar a los diferentes sonidos que producimos al hablar. En la generación de vocales, interviene la vibración de las cuerdas, y el tracto vocal se mantiene durante su producción, destacándose generalmente tres frecuencias de resonancia que las caracterizan.

Tipo de vocal Características Fricativas y silbantes

Las cuerdas vocales no intervienen en la generación de la vocal. Se produce un estrechamiento del tracto en alguno de sus puntos, lo que genera turbulencias de aire con energía en altas frecuencias

Oclusivas

Las cuerdas vocales pueden intervenir o no, dependiendo de si se trata de oclusivas sonoras o sordas. Se caracterizan por una evolución del tracto vocal, que inicialmente permanece cerrado provocando un silencio y a continuación se abre súbitamente, produciendo una explosión de energía repartida en frecuencia, dependiendo de la posición del tracto previo a la apertura, del lugar del cierre del tracto y de su posición final tras su apertura

Nasales

La cavidad nasal se acopla a la cavidad oral, produciendo resonancias y antiresonancias adicionales

Cuadro 1.3: Clasificación de las vocales.

1.5 Síntesis de voz

La síntesis de voz también se conoce como síntesis del habla o síntesis del discurso, y es una tecnología que consiste en producir lenguaje oral sin utilizar directamente la voz humana. En la actualidad esta tecnología cuenta con excelentes resultados, de modo que su principal objetivo es aumentar la calidad de la voz sintetizada. En general, se denomina sintetizador de voz a aquel sistema capaz de producir habla artificial, ya sea una aplicación informática implementada sobre una computadora o algún tipo de dispositivo hardware. Los sintetizadores de voz tienen aplicaciones diversas, algunos ejemplos son los sistemas de respuesta automatizada en los bancos, los sistemas telefónicos automáticos, los sistemas multimedia, la enseñanza de lenguas extranjeras, el monitoreo de procesos con salida vocal y el auxilio a personas con discapacidades.

10

1.5.1Estructura general de un conversor texto-habla

A grosso modo, un conversor texto a voz está compuesto por dos módulos (figura 1.4), que son: el Módulo de Análisis y el Módulo de Síntesis de Voz.

Figura 1.4: Componentes de un sintetizador de voz

El módulo de análisis debe ser capaz de producir una trascripción fonética del texto que leyó, incluyendo números, abreviaciones, acrónimos e idiomáticos1. Además, la trascripción debe contribuir a una buena entonación y ritmo. Para lograr este objetivo realiza las siguientes operaciones:

- Normalización de texto y de abreviaturas - Análisis sintáctico - Análisis semántico - Silabicación - Acentuación - Conversión a grafema-alófono2

El resultado del análisis del texto es un conjunto de parámetros textuales que constituyen la entrada del módulo de síntesis. Como ejemplo consideremos el texto

“El Sr. Torres le dijo a su hija Nora que la quería.” El módulo de análisis puede hacer lo siguiente:

- Traducir Sr. por señor - Indicar que la segunda sílaba de la palabra señor debe ir acentuada - Eliminar la letra h en la palabra hija, ya que no se pronuncia. - Marcar lugares posibles de cambio prosódicos en el habla, por ejemplo detrás del

punto. El módulo de síntesis de voz consta fundamentalmente de dos partes, la síntesis prosódica y la síntesis segmental. La síntesis prosódica se encarga de generar los parámetros de duración y entonación de los sonidos conforme a la sintaxis de la frase, al estilo del habla y la emoción del conversor. En cuanto a la síntesis segmental existen varios tipos de tecnologías, entre las que podemos mencionar la síntesis por formantes y la síntesis por concatenación. Estas técnicas son descritas más adelante. 1 Propio y peculiar de una lengua determinada. 2 La unidad más elemental del sonido.

11

1.5.2 Requisitos de la síntesis de voz La síntesis de voz no solo consiste en la reproducción de palabras pregrabadas, un sistema ideal de síntesis de voz debería ofrecer:

• Una calidad elevada de la voz sintética producida, tanto en lo que se refiere a la naturalidad como a la inteligibilidad de la voz. Entendiendo por naturalidad la medida en que la salida sonora se asemeja a la voz de un humano y por inteligibilidad a la facilidad con que la salida del sistema puede ser entendida.

• Versatilidad, es decir, ser capaz de producir cualquier mensaje. • Conseguir una voz agradable para el usuario. • Permitir transmitir emociones con el discurso. • Simplicidad en el proceso inverso, es decir, el procesamiento de voz debería ser

relativamente simple. Los procedimientos actuales buscan que la voz sintética obtenida a partir de este proceso cumpla los requerimientos mencionados, ya que cada día el público usuario es más exigente, sin embargo ninguno cubre a la vez estos tres objetivos, cada uno presenta ventajas y desventajas ya sea en la calidad obtenida o los procedimientos utilizados. Incluso en los sistemas más avanzados, la síntesis del habla carece todavía de la entonación y la complejidad habituales en el lenguaje real, y resulta en cierto modo un sonido sin vida propia. Cuando una persona lee un texto introduce información como el timbre de los sonidos, la altura, la intensidad, la duración, la entonación y el acento. La calidad de la lectura depende en gran medida del lector, quien determina hasta con su estado de animo el contenido o sentido del mensaje. Debido a esto algunos investigadores consideran que estamos aún lejos de un programa de síntesis de voz que reproduzca fielmente la variación fonética presente en el habla y que ofrezca al mismo tiempo un procesamiento poco complejo y un buen nivel de calidad y flexibilidad.

1.5.3 Unidades lingüísticas en la síntesis de voz

Cuando se va a diseñar un sistema de síntesis es importante considerar las unidades que van a utilizarse. Ejemplos de unidades lingüísticas son las frases, las palabras y las sílabas. En síntesis de voz suelen utilizarse unidades como el difonema, trifonema o cuatrifonema o unidades menores como fonemas o alófonos.

Un difonema es un segmento acústico que incluye la transición entre dos fonemas consecutivos, está formado por la parte estacionaria del primero, la transición del primero al segundo y la parte estacionaria del segundo:

Ejemplo: /kasa/ -/k/+/ka/+/as/+/sa/+/a/ Además existen unidades como las semisílabas o las tramas. Una semisílaba es el fragmento de sílaba comprendido entre su inicio y el centro de la vocal o entre el centro de la vocal y su final. Las tramas o frames son fragmentos de la señal acústica que presentan características uniformes (transición, segmento estacionario)

12

Hay tres factores que determinan los criterios para escoger una determinada unidad. Estos son: el tamaño, la variabilidad y la relación con modelos de producción de la onda sonora o con teorías lingüísticas. En general, en ningún caso se toma en cuenta solamente uno de ellos, decidirse por una u otra unidad depende de la aplicación en la que se utilizará el sistema y de los criterios de flexibilidad, calidad y complejidad de procesamiento. Mientras mayor sea la unidad, se requiere un mayor número de ellas para la producción de un conjunto de mensajes. Tomemos como primer ejemplo a la frase. Con los procedimientos actuales la codificación de frases completas permite obtener una voz muy natural e inteligible, pero se tiene la desventaja de que sólo se consigue la síntesis de un número limitado de mensajes. Sin embargo esta unidad se considera adecuada para las aplicaciones que no necesitan producir un número ilimitado de enunciados, como las aplicaciones de uso doméstico. Si lo que se necesita es convertir en voz una entrada sin restricciones, entonces conviene elegir unidades pequeñas, como los fonemas, ya que a partir de ellos pueden formarse unidades mayores. La reducción del tamaño disminuye también el número de unidades que se necesitan. Aunque una lengua natural tiene entre 20 y 37 elementos básicos, llamados fonemas que pueden combinarse para formar un conjunto infinito de enunciados, se tiene la desventaja de que estas unidades son difícilmente identificables, ya que suenan diferente dependiendo de los sonidos entre los que se encuentra, por ejemplo, el sonido de la letra b no se pronuncia igual en posición inicial, como en baúl, que en posición media, como en sabía. Si se utilizan unidades pequeñas como los fonemas se tendrá como consecuencia un alto grado de variabilidad en la síntesis obtenida. Como ya se dijo, esto se debe a que estas unidades son influidas por los segmentos adyacentes. La concatenación de este tipo de unidades es más difícil, pues en las fronteras con las otras unidades debe modelarse de alguna manera el proceso de coarticulación que caracteriza al habla natural. El cuadro 1.4 muestra una comparación entre algunas de las unidades mencionadas previamente.

1.5.4 Clasificación de los sintetizadores de voz Una clasificación de los sintetizadores de voz es aquella que los divide en sistemas de vocabulario limitado y de vocabulario ilimitado[WEB 4]. Esta clasificación toma en cuenta el tamaño del vocabulario que utilizan. Los sistemas limitados usan palabras o sílabas como unidades y se llaman así porque cuentan con un número finito o limitado de unidades en su diccionario. Los sintetizadores de vocabulario ilimitado pueden sintetizar un número ilimitado de palabras y para lograr este objetivo generalmente emplean unidades más pequeños que la sílaba, como el fonema, el difonema o la demisilaba.

13

Unidad

Ventajas

Desventajas

Tamaño del diccionario

Total en Kbytes

Frase/palabra

Ofrecen una calidad alta

Requisitos de memoria elevados

Requieren una prosodia adecuada al mensaje en el que se insertan

Utilizadas en los sistemas de grabación-reproducción

Fonemas

alófonos

y tramas (frames)

Inventario reducido para cada lengua

Degradación de la calidad producida por los problemas de concatenación

Obligan a generar la prosodia artificialmente

Fonema: 29 Alófono: 100

Unidades utilizadas preferentemente en los sistemas de síntesis por reglas.

Fonema:

0.174

Alofono:

0.6

Difonemas

200- 500

Usadas preferentemente en los sistemas de concatenación

15

Semisílabas Minimiza los efectos de la coarticulación

750-2000

96

Morfema 10000 1800

Cuadro 1.4: Comparación entre las unidades de síntesis.

1.6 Técnicas de síntesis de voz Las técnicas de síntesis de voz puede dividirse en tres grandes bloques:

1. Técnicas de codificación y almacenamiento de la señal sonora 2. Técnicas de concatenación de unidades almacenadas mediante síntesis

paramétrica 3. Técnicas de síntesis articulatoria (síntesis por reglas).

1.6.1 La codificación y almacenamiento de la onda sonora

Esta técnica agrupa procedimientos sofisticados de " grabación - reproducción " de mensajes. En general, consiste en la grabación digital de las palabras o frases que el sistema debe ser capaz de generar. Como se muestra en la figura 1.5, para realizar la grabación se utiliza un conversor analógico / digital (A/D) que hace uso de un proceso conocido como muestreo y

14

cuantificación, tras el cual convierte una onda sonora continua en una serie de elementos discretos (bits) que son manejables por la computadora. Una vez que se tiene el conjunto de bits, se le pueden aplicar técnicas de procesamiento digital de señales que tienen como objetivo principal reducir el número de bits necesarios para el almacenamientos de las señales digitalizadas. Los señales obtenidas generalmente se guardan en la ROM1 de la computadora para que cuando el sistema necesite emitir un mensaje se lleve a cabo el proceso inverso, es decir la decodificación y conversión digital / analógica ( A/D) y luego la reproducción a través de un amplificador y un altavoz. Figura 1.5: Proceso de síntesis de voz, utilizando la técnica de codificación y almacenamiento de la onda sonora.

Estas técnicas generalmente utilizan como unidades lingüísticas las frases, palabras o partes de palabras. No requieren información sobre la estructura del tracto vocal ni sobre la estructura lingüística. Este tipo de sistemas son útiles cuando se trata de aplicaciones que requieren un número reducido de mensajes. Generalmente se emplean cuando se desea conservar las características originales de la voz del locutor o cuando el procesamiento debe hacerse en tiempo real con un costo económico reducido. Pero, tienen la desventaja de que ofrecen poca flexibilidad y un consumo de memoria mucho más elevado que el de las dos técnicas que más adelante se explicarán . En base a la técnica empleada para la cuantificación de las muestras de la señal, los procedimientos de codificación de la onda sonora pueden agruparse en tres grandes familias: Los métodos lineales Los métodos diferenciales Los métodos adaptativos En el primer caso las muestras se cuantifican directamente, de modo que la amplitud de la onda sonora se divide en un número finito de niveles y cada nivel queda representado por un número binario; dos de las técnicas lineales más empleadas son la PCM (Pulse Code Modulation) y la DM (Delta Modulation). En los procedimientos diferenciales se tiene el cuenta el hecho de que, en general, la amplitud de las ondas sonoras del habla varía muy lentamente, por lo que la diferencia entre dos muestras consecutivas de una señal suele ser pequeña; la codificación de esta

1 Read Only Memory, memoria de sólo lectura

Conversor Analógico /

Digital

Sonido analógico

(onda sonora)

Bits Procesamiento Digital de Señales

Bits

(menor cantidad)

Memoria de Computadora

15

diferencia lleva consigo un ahorro de memoria . Un ejemplo es la DPCM (Differential Pulse Code Modulation) El rasgo que caracteriza las técnicas adaptativas es que el tamaño del escalón de cuantificación varía proporcionalmente a la amplitud de la onda sonora que se está codificando, de modo que éste es pequeño cuando se dan cambios bruscos en la amplitud y más grande cuando la amplitud se mantiene constante. Ejemplos de esta técnica son la ADPCM (Adaptive Differential Pulse Code Modulation) y la ADM (Adaptive Delta Modulation). Los sistemas de respuesta vocal y los sistemas de distribución de mensajes suelen basarse en está técnica. Los mensajes están almacenados y codificados y, cuando el sistema recibe la orden de activar un determinado mensaje, éste es decodificado y distribuido.

1.6.2 La síntesis con técnicas de concatenación de unidades almacenadas mediante síntesis paramétrica

El método de síntesis por concatenación utiliza una base de datos de alófonos previamente grabada y el proceso de síntesis consiste en el peor de los casos en la concatenación simple y llana de estos alófonos. Dependiendo del método de concatenación y de la magnitud de la base de datos, puede ser necesaria una búsqueda costosa para seleccionar el mejor alófono de la base de datos que cumple las condiciones de síntesis, tanto en su aspecto prosódico como en su aspecto contextual (un alófono suena diferente según el contexto de los alófonos anteriores y posteriores al mismo que deben pronunciarse). En el caso de que no se disponga de un alófono de las características deseadas, es necesario modificar adecuadamente (sintetizar) el más cercano que se disponga, con el objeto de generar una voz lo más natural posible.[2] El principal objetivo de los métodos de síntesis paramétrica es reducir la información que debe almacenarse para producir un mensaje oral. La diferencia entre esta técnica y la analizada previamente radica en la estrategia empleada. Los procedimientos de codificación no analizan los elementos que forman la onda sonora. La síntesis paramétrica sí lo hace, esto permite ofrecer una mayor flexibilidad, ya que se trabaja a partir de elementos de la onda sonora que pueden ser fácilmente modificados. Otra de las ventajas de la síntesis paramétrica consiste en que la codificación de la onda sonora se lleva a cabo partiendo del modelo fuente filtro descrito en el punto número 1.4.3 Partiendo de este modelo - al que habría que añadir otros elementos como la radiación producida en los labios – se puede determinar que para la codificación de la onda sonora se seleccionan parámetros relacionados con las características de la fuente o con la función de transferencia propia del filtro. La diferencia con los procedimientos de codificación no paramétricos es doble ya que el procedimiento de parametrización debe descomponer la señal en fuente y filtro y el decodificador debe consistir en un modelo de producción que permita reproducir la señal original a partir de los elementos en que se ha dividido. Existen tres modelos de síntesis parámetrica: la síntesis por LPC, la síntesis por formantes y la síntesis a partir de modelos articulatorios. A continuación se describen los dos primeros.

16

1.6.2.1 La síntesis por LPC

Los fundamentos teóricos de este modelo se remontan a estudios de fines del siglo XVIII, pero su aplicación al análisis del habla comenzó a finales de los años de 1960. La codificación por predicción lineal ( Linear Predictive Coding o LPC) es un procedimiento matemático que permite predecir los sucesos futuros de un sistema lineal - es decir, sin ramificaciones - a partir de los acontecimientos ya pasados. La idea básica de este tipo de sintetizadores es modelar el tracto vocal con una serie de cilindros huecos de diámetro variable; cada uno de los cilindros condiciona la forma de la onda sonora al entrar en el siguiente, de modo que las propiedades de la onda sonora después de haber pasado por todos ellos pueden predecirse; este es un cálculo complejo que se simplifica utilizando la predicción lineal y aprovechando la característica de que las ondas sonoras son periódicas. En un sistema de síntesis por LPC se siguen los siguientes pasos:

1. Elección de las unidades que se desee utilizar 2. Codificación de las unidades 3. Almacenamiento en una ROM de los parámetros obtenidos. 4. Decodificación por medio de un sintetizador LPC cuando debe producirse un mensaje

Una vez codificada la fuente, la función de transferencia del tracto bucal en un punto determinado de la producción sonora queda resumida en un conjunto de coeficientes - de predicción o de reflexión - cuyo número fija el investigador según la precisión que desee dar al sistema, aunque normalmente oscila entre 10 y 20 para obtener una buena caracterización de la envolvente espectral, base de una adecuada reproducción de la voz así codificada. Un sintetizador LPC permite obtener una mayor naturalidad en los enunciados sintetizados, ya que ésta viene dada por la evolución temporal de la frecuencia de vibración de las cuerdas vocales ( frecuencia fundamental ) y puede, por lo tanto, modificarse alterando la frecuencia del generador de impulsos. Generalmente este tipo de sintetizadores han estado ligados a aplicaciones comerciales. Un sintetizador LPC consiste de lo siguiente:

- Un generador de impulsos periódicos para simular las cuerdas vocales - Un generador de ruido que haga la función de una fuente aperiódica - Un filtro que sea excitado por los coeficientes de predicción o de reflexión

1.6.2.2 Los sintetizadores por formantes

Un sintetizador de este tipo emplea los formantes1 como procedimiento de codificación, e imita el tracto vocal aplicando el modelo de la fuente y el filtro, que utiliza conocimientos relacionados con fonética para la parametrización de las unidades de síntesis.

1 Prominencias en el espectro de un sonido.

17

Los primeros sintetizadores utilizaban este método de síntesis, además de utilizar módulos de las otras etapas muy rudimentarios. El modelo mencionado consiste de

1. Una fuente que imita las cuerdas vocales mediante la generación de una señal compleja.

2. Un filtro que imita las resonancias del tracto vocal, modificando así las características de la fuente.

Existen diferentes tipos de fuente y filtro, pero un sintetizador por formantes puede estar compuesto de:

• Una fuente sonora periódica • Una fuente sonora aperiódica • Un filtro para cada uno de los formantes • Filtros adicionales para modelar las resonancias introducidas por la cavidad nasal o

por los sonidos fricativos

Los filtros pueden estar en serie o en paralelo. Si se colocan en serie - o en cascada - de modo que la salida de cada uno de ellos sea la entrada del siguiente entonces es posible aproximar el mecanismo de producción del habla en el tracto vocal. Una ventaja de esta colocación es que la amplitud de cada formante puede predecirse automáticamente a partir de su frecuencia, con lo que se simplifica el control del sintetizador. Si se colocan los filtros en paralelo se tiene la desventaja de que se debe especificar la amplitud de cada uno de los formantes, pero se logra una mayor precisión en la definición del espectro de los sonidos generados por el sintetizador al tiempo que ofrecen mejores resultados en la síntesis de sonidos con una estructura acústica compleja como las nasales o las fricativas sonoras. Existen documentos en los que se demuestra que utilizando un sintetizador en paralelo es posible generar enunciados con un alto grado de naturalidad. En general, los sintetizadores por formantes se han desarrollado como herramientas de investigación, pero también se han implementado en chips, circuitos integrados o tarjetas de síntesis debido a la facilidad para relacionar los parámetros de control - frecuencia y amplitud de los formantes - con los resultados del análisis acústico.

1.6.3 La síntesis por reglas

Esta técnica trata de imitar la producción de habla natural, se le conoce con el nombre de síntesis por reglas porque para la producción de cada sonido en cada contexto es necesaria la aplicación de un número elevado de reglas. Con esta técnica se genera una señal similar a la que generan los pulmones junto con la laringe y, mediante filtros digitales, se trata de simular el comportamiento del tracto vocal. Para ello es necesario conocer los parámetros necesarios para la producción de cada sonido como las frecuencias de resonancia del tracto, la periodicidad del sonido, el ancho de banda, la energía, la evolución en el tiempo y cómo modificarlos para pasar de un fonema a otro. Este método analiza los datos acústicos de la voz y los utiliza para sintetizarla.

18

Esta técnica sigue el siguiente procedimiento:

1. Se crea un corpus fonético representativo de las transiciones y coarticulaciones a estudiar.

2. Se realiza una grabación 3. Mediante un analizador de voz se parametriza la señal separando la contribución de

las cuerdas y del tracto y se presenta en forma más compacta y adecuada. De este análisis se obtienen una serie de parámetros y reglas que nos describen el habla. La calidad depende de la eficiencia de las reglas, la calidad del corpus, tanto en la elección como en la grabación y el modelo del habla que se utilice en el análisis.

Este método describe el habla como evolución dinámica de hasta 60 parámetros, la mayoría relacionados con las frecuencias centrales de formantes (máximos de la envolvente espectral) y antiformantes (mínimos de la envolvente espectral) y sus anchos de banda y forma. Como resultado, dicha técnica está casi libre de errores internos de modelización. En oposición a esto el amplio número de parámetros complica el análisis. Además, las frecuencias de las formantes son inherentemente difíciles de estimar a partir de los datos de voz. La síntesis se consigue mediante un banco de filtros digitales conectados bien en serie o en paralelo, cuyos parámetros y señal de excitación (ruidosa o periódica) se ajustan con los datos obtenidos del analizador de voz (Ver figura 1.6).

Figura 1.6: Diagrama de bloques de un sintetizador por reglas.

1.7 Selección de una técnica de síntesis

Actualmente, los sistemas de mayor calidad son los sintetizadores por concatenación, debido a que es posible contar con una gran cantidad de memoria a precio razonable, por lo que se puede crear una base de datos donde se almacenen muchos ejemplos de alófonos de un locutor en distintos contextos prosódicos y léxicos. Así, es más factible que el alófono a sintetizar se encuentre disponible.

19

Los sistemas basados en formantes tienen la dificultad de generar por regla los parámetros que controlan los filtros del sintetizador, tanto para un único alófono como para todas las combinaciones posibles de alófonos. Sin embargo tienen la ventaja de que requieren poca memoria. La selección de una determinada técnica está determinada en gran parte por la aplicación que se quiera desarrollar. Por ejemplo, un juego de computadora doméstica requiere una salida vocal con muy poca flexibilidad, su costo debe mantenerse bajo y, a la larga, debe primar la naturalidad sobre la inteligibilidad, por lo tanto necesita un hardware y un software muy simples. En el caso de una alarma industrial la inteligibilidad es esencial. Otro ejemplo es una máquina lectora para invidentes, que necesita un sintetizador de voz fácilmente comprensible, que no produzca fatiga y que sea capaz de tratar cualquier mensaje. En este caso se requiere, de forma imprescindible, la intervención del lingüista.

1.8 Justificación

La Licenciatura en Computación se imparte actualmente en la Universidad Autónoma Metropolitana Unidad Iztapalapa (UAM-I) y pertenece a la División de Ciencias Básicas e Ingeniería, específicamente al Departamento de Ingeniería Eléctrica Electrónica. Alumnos de las diversas licenciaturas que pertenecen a este departamento han desarrollado proyectos de investigación relacionados con el reconocimiento y síntesis de voz. Estos últimos, generalmente han utilizado herramientas de síntesis que son propiedad de otras instituciones. Se considera conveniente que la UAM-I cuente con un sintetizador de voz propio, ya que esto proporcionaría beneficios económicos y sociales para la misma. Se pretende desarrollar un sistema de conversión texto a audio que sea una forma de comunicación entre la computadora y el hombre, es decir que sea capaz de leer cualquier texto en el idioma español. En el caso de las personas con discapacidades, el conversor texto a voz podría ser útil en el control de luces, puertas, persianas, teléfono y televisión, además facilitaría el acceso a la lectura, a los juegos y a Internet. Otras posibles aplicaciones son la enseñanza de idiomas y el apoyo, en ambientes laborales, a personas que tienen su vista ocupada y simultáneamente reciben información de los procesos que realizan. El desarrollo de sistemas de conversión texto a audio no es un proceso sencillo. Sistemas como AMIGO de Telefónica I & D, MULTILINGUIA TTS SYSTEMS de Laboratorios BELL, entre otros, han requerido varios años de investigación y desarrollo y una gran inversión en recursos humanos y técnicos, por lo tanto, se planea que el proyecto mencionado en el párrafo anterior se lleve a cabo en varías etapas, la primera de ellas consiste en crear la base del conversor texto a audio, misma que podrá mejorarse con recursos humanos y técnicos de la Universidad Autónoma Metropolitana. En la primera etapa, que es la que nos concierne, se buscará que el sistema produzca una voz "natural", sin embargo no será el objetivo principal, ya que este logro requiere una gran cantidad de recursos para obtener sonidos naturales, inflexión vocal, ritmo, acentuación, coarticulación entre sílabas, velocidad adecuada de pronunciación de las sílabas, no uniformidad en tono y volumen de cada sílaba, y pausas entre una sílaba y otra.

20

1.9 Objetivos

Objetivo general Diseñar e implementar la base de un sistema informático que permita convertir texto a audio.

Objetivo específico El programa desarrollado debe funcionar para palabras aisladas pertenecientes a un dominio restringido de vocabulario del idioma español, es decir, no se incluyen signos de puntuación, siglas, extranjerismos, abreviaturas, números ni apóstrofos.

21

Capítulo 2

Segmentación de las palabras en sílabas

Al analizar la estructura de las palabras del idioma español, se puede observar que cada una de ellas puede dividirse en una o más sílabas, esta es una de las razones para que en este proyecto se tenga la sílaba como unidad lingüística de síntesis. Otra razón es que la sílaba es un conjunto de sonidos que pueden ser pronunciados en una sola emisión de voz. El fonema también tiene esta característica, pero tiene la desventaja de que para unir dos fonemas es muy importante la coarticulación entre ellos. En este capítulo se describe qué son las sílabas, así como su estructura, clasificación y reglas del idioma español para su formación. Una sílaba es un grupo fónico constituido por una sola vocal, un diptongo o un triptongo, o por la combinación de una vocal y una o varias consonantes que le preceden o siguen y que se pronuncian en un solo golpe de voz. El límite entre las sílabas se marca con una disminución de perceptibilidad, generalmente en las consonantes. La sílaba tiene significante pero no significado, aunque a veces puede ocurrir que una palabra está compuesta por una sola sílaba, en cuyo caso es una sílaba y al mismo tiempo una palabra, por ejemplo: sol, té.

2.1. - Las letras y su clasificación

En el idioma español existen 30 letras que, de acuerdo a su pronunciación, se clasifican en vocales y consonantes. La figura 2.1 muestra una clasificación desde el punto de vista fonético (propiedades articulatorias y acústicas). El grupo de las vocales está formado por seis letras. En su pronunciación no se dificulta la salida del aire y la boca actúa como una caja de resonancia abierta en menor o mayor grado, de acuerdo a esto, las vocales se clasifican en abiertas, semiabiertas o cerradas. El grupo de las consonantes está formado por veinticuatro letras, de las cuales tres se denominan compuestas debido a que son dobles en su escritura, las letras restantes se conocen como simples.

Figura 2.1 Clasificación de las letras del idioma español

CompuestasCompuestasCompuestasCompuestas ll, rr, ch

AbiertasAbiertasAbiertasAbiertas a

SemiabiertasSemiabiertasSemiabiertasSemiabiertas e, o

CerradasCerradasCerradasCerradas i, y, u

SimplesSimplesSimplesSimples b, c, d, f, g, h, j, k, l, m, n, ñ, p, q, r, s, t, v, w, x, z

VocalesVocalesVocalesVocales (6)

ConsonantesConsonantesConsonantesConsonantes(24)

LetrasLetrasLetrasLetras (30)

22

2.2. - Normas del idioma español para la formación de sílabas

Las normas o reglas que existen en el idioma español para separar una palabra en sílabas, junto con algunos ejemplos y sus excepciones, se describen a continuación[Díaz, 1970], [Cabral, 1978].

Regla 1.- Una sílaba tiene al menos una vocal. Es decir, una sola vocal sí puede formar una silaba, pero una consonante requiere combinarse al menos con una vocal para pronunciarse y formar una sílaba. Regla 2.- El siguiente grupo de consonantes recibe el nombre de inseparables ya que al dividir una palabra en sílabas no pueden ser separadas.

Regla 3.- Cuando una consonante se encuentra entre dos vocales, se une a la segunda vocal.

Palabra Sílabas ala a + la

Regla 4.- Cuando hay dos consonantes entre dos vocales, cada vocal se une a una consonante.

Palabra Sílabas árbol Ár + bol componer com + po + ner

Excepción: La regla no se aplica al grupo de consonantes inseparables de la regla 2.

Palabra Sílabas obligar o + bli + gar atleta a + tle + ta abrazo a + bra + zo aprender a + pren + der afrenta a + fren + ta

Regla 5.- Si tres consonantes aparecen entre dos vocales, las dos primeras se asociarán con la primera vocal y la tercera con la segunda vocal.

bl, br, cl, cr, ch, dr, fl, fr, gl, gr, kr, ll, pr, pl, qu, rr, tl, tr

23

Palabra Sílabas constante cons + tan + te transporte trans + por + te

Excepción.- La regla no se cumple cuando la segunda y tercera consonante forman parte del grupo de consonantes inseparables de la regla 2.

Palabra Sílabas cumple cum + ple

Regla 6.- Si aparecen juntas cuatro consonantes entre vocales, las dos primeras se agrupan con la primera vocal y las dos restantes con la que le sigue.

Palabra Sílabas adscripción ads + crip + ción

Regla 7.- Las palabras que contienen una h precedida o seguida de otra consonante, se dividen separando ambas letras.

Palabra Sílabas anhelo An + he + lo

Regla 8.- El diptongo es la unión inseparable de dos vocales. Hay tres tipos de diptongos:

• Tipo 1: Una vocal abierta + una vocal cerrada • Tipo 2: Una vocal cerrada + una vocal abierta • Tipo 3: Una vocal cerrada + una vocal cerrada

Únicamente son diptongos las siguientes parejas de vocales:

Palabra Sílabas tapia ta + pia pie pie novio no + vio jaula jau + la pleito plei + to

ia, ie, io, ua, ue, uo, ai, ay, ei, oi, oy, ey, au, eu, ou, iu, ui, uy

24

La unión de dos vocales abiertas o semiabiertas no forman diptongo, es decir, al segmentar la palabra en sílabas deben separarse. Pueden quedar solas o unidas a una consonante.

Palabra Sílabas aéreo a + é + re + o caos ca + os

Regla 9.- La h entre dos vocales, no destruye un diptongo.

Palabra Sílabas ahuyentar ahu + yen + tar

Regla 10.- La acentuación sobre la vocal cerrada de un diptongo provoca su destrucción.

Palabra Sílabas María Ma + rí + a

Regla 11.- La unión de tres vocales forma un triptongo. Las únicas disposiciones posibles para la formación de triptongos son:

Vocal cerrada + vocal abierta + vocal cerrada Vocal cerrada + vocal semiabierta + vocal cerrada

Sólo las siguientes combinaciones de vocales, forman un triptongo:

iai, iei, uai, uei, uey, iau, uau

25

2.3.- Clasificación de las sílabas

El siguiente cuadro muestra algunas de las clasificaciones que existen para las sílabas.

Criterio de la clasificación

Nombre Característica Ejemplos

Monolítera Tiene 1 letra A + ca + bar Bílitera Tiene 2 letras A + ca + bar Trilítera Tiene 3 letras A + ca + bar Cuadrilítera Tiene 4 letras Ve + ra + cruz

Número de letras que la componen

Pentalítera Tiene 5 letras Trans + por + te Simple Tiene una sola vocal O + cu + par Número de

vocales que contiene

Compuesta Tiene más de una vocal Cuauh + té + moc

Libre o abierta Termina en Vocal

Trans + por + te Tipo de terminación

Trabada o cerrada

Termina en consonante Trans + por + te

Tónica Recibe el acento de la palabra

So + lu + ción Posesión de acento

Atona No recibe el acento de la palabra

So + lu + ción

Cuadro 2.1: Algunas clasificaciones para las sílabas.

Además existen otras clasificaciones, por ejemplo, de acuerdo a las reglas mencionadas en el punto 2.2 las sílabas se dividen de la siguiente manera:

Clasificación Ejemplos V Vocal(1 ó 2) a, o VC Vocal(1 ó 2) + consonante(1) un, es, en CV Consonante (1 ó 2) + Vocal(1, 2 ó 3) ta, pia, cua CVC Consonante (1 ó 2) + Vocal(1, 2 ó 3) + consonante (1 ó 2) ral, vid, cuauh

La clasificación que nos interesa, en su forma general es la siguiente:

Clasificación VX Inicia con vocal CVX Inicia con consonante + vocal CCX Inicia con consonante + consonante

26

La tabla siguiente contiene algunas de las combinaciones posibles para el caso en que el inicio de sílaba es vocal, además muestra un ejemplo de cada combinación y el número de regla para la formación de sílabas aplicada. La tabla excluye los casos VVV y VVVC, debido a que en 9000 palabras que fueron analizadas no se encontró ninguna coincidencia[Camacho,

1978].

Combinación Ejemplo Número de regla aplicada

V E + jem + plo 1 VC An + tes 4 VV Au + to + mo+ vil 3 VVC Aun + que 8, 4

El siguiente caso por analizar es el de las sílabas que inician con consonante + vocal. La tabla que sigue describe este caso y muestra algunos ejemplos.


C Y 1 CV Lo + ma 1 CVC Las + tre 1 CVCC Cons + tan + te 5 CVV Lau + ra 8 CVVC Cuan + tos 4, 8 CVVV Cuau + tla 11 CVVVC Cuauh + té + moc 7, 11

Finalmente se muestra el análisis del caso en que el inicio de sílaba es consonante + consonante. Las posibles combinaciones para este caso y sus ejemplos respectivos se encuentran en la tabla siguiente.


CCV Cri + men 2 CCVC Tram + pa 2,4 CCVCC Trans + bor +da +dor 2, 5 CCVV Flau + ta 2, 8 CCVVC Claus + tro + fo + bia 2, 5, 8

27

2.4. – Un algoritmo para dividir una palabra en sílabas

La notación utilizada en esta sección se presenta en la siguiente tabla.

Símbolo Descripción ¤ Fin de palabra, o carácter diferente a vocal o consonante (‘,’, ‘.’, ‘1’, etc.) [CV] Las siguientes dos letras son CV [CCV] Las siguientes dos letras pertenecen al grupo de consonantes inseparables V* Vocal acentuada | Utilizada para establecer posibilidades alternativas Li I - ésima letra de la sílaba o palabra P Palabra que se va a dividir en sílabas

El diagrama de flujo de la figura 2.2 corresponde al algoritmo para dividir una palabra en sílabas, el cual puede sintetizarse en los siguientes tres pasos: 1. - Se toman las dos primeras letras (L1 y L2 respectivamente) de la palabra. 2.- Si la primer letra (L1) es vocal, la sílaba a obtener pertenece al caso uno. 3.- Si la segunda letra (L2) es vocal, entonces la sílaba a obtener es del caso dos. De lo contrario la sílaba pertenece al caso tres.

2.4.1.- Algoritmo para el caso en que el inicio de sílaba es vocal

A continuación se muestran las posibilidades para este caso. Es conveniente explicar el uso de esta tabla, por lo que tomaremos como ejemplo su primer renglón (indicado por la referencia C1, 1).

Referencia Sílaba Posibles casos de termino de la sílaba

C1, 1 V ¤ | [CV] | [CCV] | V* C1, 2 VC ¤ | [CV] | [CCV] C1, 3 VV ¤ | [CV] | [CCV] C1, 4 VVC ¤ | [CV] | [CCV]

Ejemplo 1. Sea P = a, de acuerdo con la regla 1 se considera que la primera sílaba es a y su caso de terminación fue [¤]. Ejemplo 2 Sea P = ala, de acuerdo con la regla 3, se determina que la primera sílaba es a y su caso de terminación fue [CV]. Ejemplo 3

28

Sea P = otro, como tr pertenece al grupo de consonantes inseparables (Regla 2, sección 2.2), se considera que la primera sílaba es o y terminó debido al caso [CCV]. Ejemplo 4 Sea P = aérea, que tiene la forma VV*CVV, de acuerdo a la regla 10, sección 2.2, se determina que la primera sílaba es a y terminó por el caso V* El pseudocódigo para este caso hace referencia a la tabla anterior y se presenta a continuación. Función segmenta_caso_1 ( entrada: Palabra salida: sílaba ) comienza comienza comienza comienza si si si si (L1 = V) comienzacomienzacomienzacomienza sisisisi(se cumple algún caso de termino de sílaba de la referencia C1, 1 ) comienza comienza comienza comienza sílaba ← L1 //la sílaba es V ir a FIN terminaterminaterminatermina otrootrootrootro comienza comienza comienza comienza si si si si(L 2 es C) sisisisi(se cumple algún caso de termino de sílaba de la referencia C1, 2 ) comienzacomienzacomienzacomienza sílaba ← L1L2 //la sílaba es VC ir a FIN comienzacomienzacomienzacomienza otro otro otro otro comienza comienza comienza comienza si si si si(L2 es V) si si si si (se cumple algún caso de termino de sílaba de la referencia C1, 3 ) comienzacomienzacomienzacomienza sílaba ←L1L2 //la sílaba es VV ir a FIN terminaterminaterminatermina otro otro otro otro si si si si(L3 es C) si si si si(Se cumple algún caso de termino de sílaba de la referencia C1, 4 ) comienzacomienzacomienzacomienza sílaba ←L1L2L3 // la sílaba es VVC ir a FIN termina termina termina termina otro otro otro otro ERROR ERROR ERROR ERROR //palabra incorrecta terminaterminaterminatermina termina termina termina termina termina termina termina termina FIN FIN FIN FIN : termina esta función terminaterminaterminatermina

29

Figura 2.2 Diagrama de flujo para determinar el caso al que pertenece una sílaba.

2.4.2.- Algoritmo para el caso en que el inicio de sílaba es consonante + vocal

Estas son las posibilidades para este caso:

Referencia Sílaba Casos de termino de la sílaba C2, 1 CV ¤ | [CV] | [CCV] C2, 2 CVC ¤ | [CV] | [CCV] C2, 3 CVCC ¤ | [CV] C2, 4 CVV ¤ | [CV] | [CCV] C2, 5 CVVC ¤ | [CV] | [CCV] C2, 6 CVVV ¤ | [CV] | [CCV] C2, 7 CVVVC ¤ | [CV] | [CCV]

El pseudocódigo correspondiente hace referencia a la tabla anterior y se describe a continuación:

L1 es ¤

L1 es V

L2 es V

Sí

Sí

Sí

No

No

No

Fin

Inicio

Entrada: palabra

L1 primera letra de palabra L2 segunda letra de palabra

Caso 1: V

Caso 2: CV

Caso 3: CC

silaba = Encontrar_Fin_Silaba (palabra)

palabra = palabra - silaba

30

Función segmenta_caso_2 ( entrada: Palabra salida: sílaba ) comienzacomienzacomienzacomienza si si si si(LLLL1 = C ANDANDANDAND L2 = V) comienza comienza comienza comienza si si si si(se cumple algún caso de termino de sílaba de la referencia C2,1) comienzacomienzacomienzacomienza sílaba ← L1L2 // La sílaba es CV ir a FIN terminaterminaterminatermina otro otro otro otro si si si si(L3 es C) comienza comienza comienza comienza si si si si( se cumple algún caso de termino de sílaba de la referencia C2,2) comienza comienza comienza comienza sílaba ← L1L2L3 //La sílaba es CVC ir a FIN termina termina termina termina otro otro otro otro si si si si(L4 es C) comienza comienza comienza comienza si si si si(se cumple algún caso de termino de sílaba de la referencia C2,3) comienza comienza comienza comienza sílaba ← L1L2L3L4 // La sílaba es CVCC ir a FIN termina termina termina termina termina termina termina termina terminaterminaterminatermina otro otro otro otro // L3 no es C comienzacomienzacomienzacomienza si si si si(se cumple algún caso de termino de sílaba de la referencia C2,4) comienza comienza comienza comienza sílaba ← L1L2L3 //La sílaba es CVV ir a FIN termina termina termina termina otro otro otro otro comienza comienza comienza comienza si si si si(L4 es C) comienza comienza comienza comienza si si si si(se cumple algún caso de termino de sílaba de la referencia C2,5) comienza comienza comienza comienza sílaba ← L1L2L3L4 //La sílaba es CVVC ir a FIN termina termina termina termina otro otro otro otro comienzacomienzacomienzacomienza si si si si(L4 es V) comienza comienza comienza comienza si si si si(se cumple algún caso de termino de sílaba de la ref. C2,6) comienza comienza comienza comienza sílaba ← L1L2L3L4 //La sílaba es CVVV ir a FIN termina termina termina termina otro otro otro otro comienza comienza comienza comienza si si si si(L5 es C) comienza comienza comienza comienza si si si si(se cumple algún caso de termino de sílaba de la ref. C2, 7) comienza comienza comienza comienza sílaba ← L1L2L3L4L5 //La sílaba es CVVVC ir a FIN termina termina termina termina termina termina termina termina otro otro otro otro ERROR ERROR ERROR ERROR //palabra incorrecta termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina FIN FIN FIN FIN : termina esta función terminaterminaterminatermina

31

2.4.3.- Algoritmo para el caso en que el inicio de sílaba es consonante + consonante

En la tabla que sigue se describen las posibles terminaciones para el tercer caso (CCV). El pseudocódigo correspondiente hace referencia a la tabla 2.7 y se describe a continuación.

Referencia Sílaba Casos de termino de la sílaba C3, 1 CCV ¤ | [CV] | [CCV] C3, 2 CCVC ¤ | [CV] | [CCV] C3, 3 CCVCC ¤ | [CV] C3, 4 CCVV ¤ | [CV] | [CCV] C3, 5 CCVVC ¤ | [CV] | [CCV]

Función segmenta_caso_3 ( entrada: Palabra salida: sílaba ) comienzacomienzacomienzacomienza si si si si(L1 = C ANDANDANDAND L2 = C) comienza comienza comienza comienza si si si si(L3 = V) comienza comienza comienza comienza sisisisi(se cumple algún caso de termino de sílaba de la referencia C3, 1) comienza comienza comienza comienza sílaba ← L1L2L3 // La sílaba es de la forma CCV ir a FIN. termina termina termina termina otro otro otro otro comienza comienza comienza comienza si si si si (L4 es C) comienza comienza comienza comienza si si si si(se cumple algún caso de termino de sílaba de la referencia C3, 2) comienza comienza comienza comienza sílaba ← L1L2L3L4 //La silaba es de la forma CCVC ir a FIN termina termina termina termina otro otro otro otro comienza comienza comienza comienza si si si si(se cumple algún caso de termino de sílaba de la referencia C3, 3) comienza comienza comienza comienza sílaba ← L1L2L3L4L5 //La sílaba es de la forma CCVCC ir a FIN termina termina termina termina termina termina termina termina termina termina termina termina otro otro otro otro comienza comienza comienza comienza si si si si(se cumple algún caso de termino de sílaba de la referencia C3, 4) comienza comienza comienza comienza sílaba ← L1L2L3L4 //La sílaba es de la forma CCVV ir a FIN termina termina termina termina otro otro otro otro comienza comienza comienza comienza si si si si(se cumple algún caso de termino de sílaba de la referencia C3, 5)

comienza comienza comienza comienza sílaba ← L1L2L3L4L5 //La sílaba es de la forma CCVVC ir a FIN termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina termina otro otro otro otro //L3 no es V, la palabra es incorrecta, no existen sílabas de la forma CCC ERROR ERROR ERROR ERROR termina termina termina termina FIN FIN FIN FIN : termina esta función terminaterminaterminatermina

32

Capítulo 3

Arquitectura y desarrollo del sintetizador básico de voz

El sintetizador básico de voz utiliza el método de síntesis por concatenación, como se mencionó en el punto 1.6.2, este método utiliza una base de datos de unidades previamente grabada. El proceso de síntesis consiste en la concatenación de estas unidades. Dado que la unidad de síntesis elegida fue la silaba, la primera fase del desarrollo del sintetizador fue la construcción de un silabicador, posteriormente se realizó la grabación del diccionario de sonidos y finalmente se creó la interfaz de usuario. A continuación se describe cada una de las fases mencionadas.

3.1 Construcción del silabicador Se creó un módulo en lenguaje C que recibe una palabra y la divide en sílabas. A las silabas que componen la palabra se les concatena la cadena ‘.wav’ y se guardan en un archivo de texto. Un ejemplo se muestra en la figura 3.1, se tiene la palabra ‘sintetizador’ como entrada del silabicador, que genera un archivo de texto llamado silabas.txt que contiene las silabas a reproducir:

Figura 3.1: Funcionamiento del silabicador

En este módulo se consideran las reglas descritas en el punto 2.2 de este documento. El programa utilizado fue Visual C++ 6.0, que permite exportar código para crear una librería dinámica o DLL (Dinamic Link Library). Una DLL tiene la característica principal de que permite agrupar el código de un programa en módulos separados, cada uno con una función especial. En este caso se tiene un programa llamado silabiza.dll que trabaja con la palabra recibida para dividirla en sílabas. La librería se llama silabiza.dll y, por ejemplo, tiene funciones que sirven para saber si

‘Sintetizador’

silabas.txt sin.wav te.wav ti.wav za.wav dor.wav

Silabiza.dll

33

una letra es vocal o consonante, si dos letras forman un diptongo o pertenecen al grupo de letras inseparables, etc.

3.2 Grabación del diccionario de sonidos El diccionario es un directorio que contiene archivos de sonido. Cada archivo es una sílaba grabada con el formato WAV (Waveform Audio File). En la primera versión del sintetizador, cada uno de los archivos que conforma el diccionario es la grabación de una silaba aislada, es decir, para crear un archivo, el locutor dice una sílaba y ésta es grabada para su posterior reproducción. Esto se puede ver gráficamente a continuación.

Figura 3.2:Grabación de las sílabas de la palabra autónoma en la primera versión del sintetizador.

Para grabar las sílabas se utilizó el programa Wasp, que cuenta con la siguiente interfaz para realizar la grabación.

Figura 3.3: Interfaz de Wasp previa a la grabación

A

U

To

No

Ma

a.wav

u.wav

to.wav

no.wav

ma.wav

34

Figura 3.4: Interfaz de Wasp durante la grabación

En la mayoría de las grabaciones obtenidas con Wasp se tienen espacios sin voz al principio y al final de los archivos, ya que el locutor comienza a hablar después de que se oprime el botón Record y no se oprime el botón Stop al mismo tiempo que él termina de hablar. Debido a que este espacio sin voz contiene información de sonido que no es primordial se le denomina vacío (ver figura 3.5).

Figura 3.5: Señal de voz con vacío al inicio y al final.

Para eliminar el vacío del inicio y fin de la señal se pueden utilizar algunas de las herramientas del programa Wasp, como se observa en las figuras 3.6 y 3.7.

Vacío Vacío

35

Figura 3.6: Recortando la señal para eliminar vacíos.

El recorte de los vacíos elimina los espacios entre una sílaba y otra. Si dicho recorte no se hiciera entonces, al momento de concatenar las sílabas para su reproducción final, el vacío del final de una sílaba se sumaría con el vacío del inicio de la siguiente disminuyendo la naturalidad. Otra de las ventajas del recorte es la disminución del espacio que cada archivo ocupa en el disco duro. Aún así, con un diccionario de estas características las palabras reproducidas por el sintetizador carecen de naturalidad.

Figura 3.7: Señal de voz sin vacíos.

36

Buscando un aumento en la naturalidad de la reproducción se creó una nueva versión del sintetizador. Dicha versión está basada en el hecho de que una sílaba suena diferente dependiendo de la posición que tiene en una palabra. Por ejemplo consideremos la frase siguiente.

“La casaca de María es demasiado hermosa. ” Observemos que la silaba ‘ca’ tiene 2 versiones: La primera es para la primera silaba de la palabra ‘casaca’ y es del tipo inicio. La segunda es para la ultima silaba de la palabra ‘casaca’ y es del tipo fin. En el caso de la silaba ‘sa’, se tienen también 2 versiones: La primera es para la palabra ‘casaca’ y es del tipo medio. La segunda es para la ultima silaba de la palabra ‘hermosa’ y es del tipo fin. La silaba ‘de’ requiere: Una silaba del tipo unica para la palabra ‘de’. Una versión del tipo inicio para la palabra ‘demasiado’. Para la silaba ‘ma’ se tiene: Una silaba del tipo inicio en la palabra María. Una silaba del tipo medio en la palabra ‘demasiado’. Entonces, esta versión del sintetizador cuenta con un diccionario dividido en cuatro subdirectorios como se observa en la siguiente figura, es decir, cada sílaba tiene tres o cuatro versiones en el diccionario.

Figura 3.8. Estructura del diccionario de sílabas.

Otra característica de esta versión es que las sílabas no se grabaron de manera aislada. Buscando una mejora en la naturalidad, se grabaron frases completas en Wasp, que después se dividieron en palabras y a su vez en sílabas. Lo descrito anteriormente puede representarse gráficamente con el siguiente ejemplo.

Diccionario

37

Figura 3.9. Ejemplo de grabación de sílabas para la segunda versión del sintetizador.

3.3 Creación de la interfaz de usuario El sistema debe ejecutarse en una computadora personal bajo el sistema operativo MS-Windows. La computadora debe contar con una tarjeta de sonido que permita la entrada y salida de voz. Para desarrollar la interfaz con el usuario se utilizó el programa Microsoft Visual Basic 6.0. El proyecto en Visual Basic consta de dos formularios y un módulo. El formulario principal es el ilustrado en la figura 3.10. El usuario escribe en la caja de texto la palabra que desea que la computadora lea, luego deberá oprimir el botón Reproduce Frase. El sintetizador recibe como entrada una palabra aislada perteneciente a un dominio restringido de vocabulario del idioma español, es decir, no se incluyen signos de puntuación, siglas, extranjerismos, abreviaturas, números ni apóstrofos. Como salida se tiene la pronunciación de la palabra por parte de la computadora. Para saber qué silabas debe reproducir, la aplicación en VB utiliza el archivo de texto generado por la librería silabiza.dll mencionada en el punto 3.1.

inicio medio fin unica

Universidad Autónoma Metropolitana, casa abierta al tiempo.

unversidad.wav autónoma.wav

metropolitana.wav casa.wav

abierta.wav al.wav

tiempo.wav

u.wav a.wav me.wav ca.wav tiem.wav

ni.wavver.wavsi.wavu.wavto.wavno.wavtro.wavpo.wavli.wav

ta.wavbier.wav

dad.wavma.wavna.wavsa.wavta.wavpo.wav

al.wav

38

Figura 3.10. Interfaz de usuario de la segunda versión del sintetizador.

Figura 3.11. Ventana del menú AyudaAyudaAyudaAyuda→→→→Acerca de Reproductor de SílabasAcerca de Reproductor de SílabasAcerca de Reproductor de SílabasAcerca de Reproductor de Sílabas de la segunda versión del sintetizador.

39

Resultados y conclusiones

El programa de síntesis desarrollado en este proyecto requiere aún de muchas mejoras para lograr reproducir fielmente la variación fonética propia del habla y ofrecer un buen nivel de calidad y flexibilidad a cambio de un procesamiento poco complejo. Es necesario que el sistema genere prosodia, ya que la pronunciación con que cuenta actualmente es poco natural, pues no se considera el problema de la coarticulación y el contexto. Algunos factores como la entonación, la velocidad de pronunciación y el timbre harían más natural la emisión de voz. Para resolver estos problemas se necesita modelar la forma de incluir dichos elementos en la construcción de una palabra, o incluso de una frase completa. Es posible que la pronunciación mejore si se uniforma el volumen de cada sílaba del diccionario. Quizá el problema de la mala coarticulación disminuya si se traslapan de alguna forma la señal de voz del fin de una sílaba con la siguiente sílaba. Por otra parte, falta considerar la acentuación fonética, el tratamiento de acrónimos y secuencias impronunciables, así como el deletreo en el caso de palabras como ftp, www o mx. La calidad del sintetizador básico de voz es aún limitada, si se desea mejorarla será necesario destinar mayores recursos a su desarrollo, pues incluso los sistemas más avanzados carecen todavía de la entonación y la complejidad habituales en el lenguaje real, y resulta en cierto modo un sonido robotizado.

40

Referencias

[Díaz, 1970] Dra. Delia Díaz de Villar "Lengua Española 6". Ed. Edime organización gráfica. 1970. [Camacho, 1978] José Camacho. "Diccionario ilustrado de la lengua española". Ed. Ramón Sopena, 1978. WEB 1] http://www.speech.su.oz.au/comp.speech/Section5/Q5.1.html WEB 2] http://www.cse.ogi.edu/CSLU/research/TTS/research/index.html WEB 3] http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol52/artic1/1.html WEB 4] http://www.speech.su.oz.au/comp.speech/Section5/Q5.1.html WEB 5] http://es.wikipedia.org/wiki/S%C3%ADntesis_del_discurso WEB 6] http://www.verbio.com/reference/es/guide/tts-basic.html WEB 7] http://liceu.uab.es/~joaquim/publicacions/Tutorial_SEPLN/tutorial__sepln_88.html WEB 8] http://www.udlap.mx/~sistemas/tlatoa/courses/tutorial/sld012.htm WEB 9] http://www.ucm.es/info/fgu/foro/2pardo.pdf WEB 10] http://www.goto1982.net/Historia/CommodoreHistoria.htm

sintetizador básico de voz - 148.206.53.84148.206.53.84/tesiuami/uami12844.pdf · sintetizador...

Documents