introduccion · web viewpor lo tanto, asumen que los contornos carecen de estructura jerárquica....

22
MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Carlos Martín Valle 3 Estudio de la entonación 3.1 Introducción Para una correcta comprensión del modelo de entonación que se usa en este proyecto, se ha considerado oportuno incluir este capítulo, el cual está dedicado a repasar más detenidamente la entonación en el habla. Para ello, se realizará el estudio de la entonación de acuerdo con dos campos relacionados con ella: la prosodia, como parte de la Lingüística, y la conversión texto-voz, como parte de la Tecnología del Habla. Para el primero de ellos se definirán los conceptos y teoría acerca de la entonación, que nos servirán para expresar las ideas relativas a la misma, vista ya desde el prisma de la conversión texto-voz. 3.2 Definiciones A continuación, se van a explicar unos conceptos básicos acerca de la entonación; conceptos que se utilizarán a lo largo de toda la memoria de este proyecto. Muchos de ellos les resultarán conocidos al lector, sin embargo, conviene recordarlos. Más información sobre este tema se puede encontrar en [Saiz-00]. o Prosodia: es la parte de la Gramática que abarca el estudio de las leyes de la estructura métrica y las cuestiones relacionadas con el ritmo de la poesía, pero también se ocupa Capítulo 3: Estudio de la Entonación Página 29

Upload: others

Post on 29-Dec-2019

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

3 Estudio de la entonación

3.1 IntroducciónPara una correcta comprensión del modelo de entonación que se usa en este

proyecto, se ha considerado oportuno incluir este capítulo, el cual está dedicado a

repasar más detenidamente la entonación en el habla.

Para ello, se realizará el estudio de la entonación de acuerdo con dos campos

relacionados con ella: la prosodia, como parte de la Lingüística, y la conversión texto-voz,

como parte de la Tecnología del Habla.

Para el primero de ellos se definirán los conceptos y teoría acerca de la entonación,

que nos servirán para expresar las ideas relativas a la misma, vista ya desde el prisma de

la conversión texto-voz.

3.2 DefinicionesA continuación, se van a explicar unos conceptos básicos acerca de la entonación;

conceptos que se utilizarán a lo largo de toda la memoria de este proyecto. Muchos de

ellos les resultarán conocidos al lector, sin embargo, conviene recordarlos. Más

información sobre este tema se puede encontrar en [Saiz-00].

o Prosodia: es la parte de la Gramática que abarca el estudio de las leyes de la

estructura métrica y las cuestiones relacionadas con el ritmo de la poesía, pero

también se ocupa de todos los procedimientos que afectan a la articulación

melódica del texto literario. Tiene en cuenta el timbre de los sonidos, la altura, la

intensidad, la duración, la entonación (ascendente o descendente) y el acento.

o Entonación: es la línea melódica con que se pronuncian las unidades lingüísticas

de un mensaje. Lo esencial en la entonación son las variaciones tonales. Cuando

se comienza a hablar, las cuerdas vocales se ponen en tensión y se produce una

elevación más o menos rápida del tono, y al terminar la emisión, el relajamiento de

las cuerdas vocales origina el descenso tonal.

Las unidades menores de la entonación son el grupo fónico, el tonema y la pausa,

que se definen a continuación.

Capítulo 3: Estudio de la Entonación Página 29

Page 2: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

o Grupo fónico: un grupo fónico es la parte del discurso que se pronuncia entre dos

pausas sucesivas. Así, la siguiente oración consta de tres grupos fónicos, que se

separan con rayas verticales:

Desde tu llegada | siempre que estamos juntos | recordamos a María.

La extensión del grupo fónico es variable, desde grupos fónicos de una sílaba

hasta de veinte sílabas, que es el fragmento de cadena fónica considerado como

límite en una pronunciación normal no forzada. En español, el grupo fónico medio

consta de ocho sílabas, lo cual explica que el verso octosílabo sea el más antiguo

e importante de la poesía española.

o Tonema: el tonema es la parte final de la curva melódica de cada uno de los

grupos fónicos en que se divide el discurso. Es la parte más significativa de la

entonación, lo realmente distintivo de la entonación, y se da frecuentemente a

partir de la última sílaba acentuada. En español, se pueden distinguir,

básicamente, tres tipos de tonemas:

El tonema horizontal: se produce sólo en suspensión. Es propio de las

oraciones entrecortadas e inacabadas:

Dime con quién andas...

El tonema descendente: puede ser de dos tipos, de cadencia y de

semicadencia. Encontramos su diferencia en que el descenso del segundo es

menos pronunciado que el del primero.

El tonema ascendente: como en el caso anterior, también éste puede ser de

dos tipos, de anticadencia y de semianticadencia. La diferencia entre ambos

estriba en que el segundo alcanza una altura menor que el primero.

o Pausa: las pausas son las interrupciones que se hacen al final de la emisión de

cada grupo fónico. Están motivadas por razones fisiológicas -necesitamos respirar

y recuperar el aire para la fonación- y por razones lingüísticas –las pausas son

unidades significativas que marcan el final de una expresión con significación-.

o Modalidad oracional: con las oraciones podemos manifestar contenidos objetivos

o representativos, pero podemos, asimismo, adoptar posturas subjetivas de duda,

mandato, extrañeza y otras. En las oraciones emitimos dos factores: por un lado

“lo que se dice”, o sea, el contenido objetivo, y por otro, la actitud subjetiva del que

Capítulo 3: Estudio de la Entonación Página 30

Page 3: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

habla. De esta forma, ante un mismo contenido, el hablante puede manifestar

actitudes diferentes tales como las de aseverar, negar, dudar, mandar, desear,

preguntar, exclamar, manifestar asombro, temor, etc.

Según este criterio, se tiende a clasificar las oraciones en enunciativas,

interrogativas, exclamativas o admirativas (con sus variantes de sorpresa, temor,

alegría, etc.), exhortativas (o de mandato), desiderativas (o de deseo), y

dubitativas (con sus grados de duda, posibilidad, probabilidad).

3.3 La entonación vista desde la prosodiaUna vez que ya están aclarados los términos fundamentales acerca de la entonación,

se pasa a su estudio, en el que se verá, en primer lugar, la prosodia.

3.3.1 Funciones de la entonaciónLas funciones que realiza la entonación son varias:

o Función distintiva: la entonación permite distinguir la modalidad oracional:

Saldrá ¿Saldrá? ¡Saldrá!

o Función integradora: la entonación integra las palabras que forman la oración en

una unidad significativa:

El niño estudia la lección.

o Función delimitadora: se pueden agrupar las palabras en unidades oracionales

menores de significación o relación sintáctica:

El niño / estudia / la lección.

3.3.2 La entonación como medio para transmitir la informaciónLa entonación juega un papel fundamental en la naturalidad de la voz, entendida ésta

como elemento de información suprasegmental.

Los tonos agudos suelen asociarse con estados anímicos emocionales, y los graves

con situaciones depresivas. El ascenso del tono se utiliza para despertar el interés a

través del interlocutor, lo que explica que el ascenso tonal caracterice a los enunciados

no terminados, a las preguntas, a las expresiones afectivas. Por el contrario, el descenso

Capítulo 3: Estudio de la Entonación Página 31

Page 4: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

del tono marca el final del enunciado afirmativo (tonema descendente), al no ser

necesario mantener el interés y la atención del oyente.

Se podría decir que cada hablante tiene su propio tono; las características de

pronunciación de cada individuo varían según su estado de ánimo y hábitos de

pronunciación. El oído de las personas es muy sensible a las características tonales, de

tal manera que se puede identificar a las personas por sus características de

pronunciación. También la entonación tiene en cada región cierta fisonomía propia. Así,

se dan hábitos de pronunciación peculiares a los que llamamos acentos; por ejemplo, se

pueden distinguir los acentos de un aragonés, de un gallego, de un catalán, de un

argentino,...

Por lo tanto, el conjunto de tonos, que forman la línea melódica o entonación,

adquiere valores lingüísticos significativos. Se trata de una de las principales

características lingüísticas de la oración y hace posible que las palabras, que forman la

oración, adquieran valor como unidad de sentido expresivo.

La prosodia considera la independencia de varios niveles de descripción

suprasegmental y de sus respectivos efectos sobre la entonación. Estos niveles se

resumen en el acento de las palabras y la entonación de las oraciones. Para mayor

información al respecto, se puede consultar [Saiz-00].

3.3.3 El acento en las palabrasLa entonación de la palabra aislada, que es la unidad lingüística más simple desde el

punto de vista gramatical, viene marcada por el acento. Así, el tono es mayor en la sílaba

tónica (acentuada) que en las sílabas átonas.

Por otro lado, mientras que la entonación se mantiene constante hasta la sílaba

acentuada, a partir de la subida experimentada en ésta, el tono decrece suavemente

hasta el final de la palabra. El primer efecto se hace notable cuanto mayor sea el número

de sílabas, mientras que el segundo destaca de forma especial en las palabras

esdrújulas.

Capítulo 3: Estudio de la Entonación Página 32

Page 5: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

3.3.4 La entonación en las oracionesEn el ámbito oracional, para cada grupo fónico, la entonación viene caracterizada por

una subida inicial, por un descenso suave en el medio, y por el tonema, que será

ascendente o descendente, dependiendo de la modalidad oracional y de la posición del

grupo fónico dentro de la oración.

Decíamos más arriba que ciertas modalidades oracionales se diferencian por la

función distintiva de la entonación. Nosotros veremos tres modalidades oracionales

diferentes por ser sus entonaciones respectivas también diferentes:

Se echó a llorar.

¿Se echó a llorar?

¡Se echó a llorar!

3.3.4.1 Entonación de las oraciones enunciativas

o Si la oración enunciativa consta de un solo grupo fónico, su línea melódica termina

en cadencia. El tono decae a partir de la última sílaba acentuada.

o Si la oración enunciativa consta de dos grupos fónicos, mientras que el primero

termina en anticadencia (o semianticadencia), el segundo lo hace en cadencia.

o En el caso de que la oración enunciativa esté compuesta por más de dos grupos

fónicos, pueden darse distintas configuraciones de la curva melódica. Entre ellas,

destacamos el caso en que todos los grupos fónicos acaban en anticadencia. Otra

posibilidad surge cuando uno de los grupos fónicos es un inciso parentético, al

cual le corresponde un tonema de semicadencia, mientras que los anteriores

aparecen configurados con tonemas de semianticadencia (o suspensión), y el

último, como siempre, termina en cadencia.

3.3.4.2 Entonación de las oraciones interrogativas

o En las interrogativas directas totales, la curva melódica se caracteriza por una

elevación de la voz por encima del tono normal desde la primera sílaba

acentuada, con un descenso posterior hasta la penúltima sílaba, para elevarse

luego en la última con un tonema de anticadencia. Esta conformación de la línea

Capítulo 3: Estudio de la Entonación Página 33

Page 6: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

melódica con ese ascenso inicial por encima del tono normal, justifica en español

el uso de los signos de interrogación no sólo al final, como en otras lenguas, sino

también al principio.

o En las interrogativas directas parciales, el tonema desciende terminando en

cadencia. La no terminación en anticadencia, como en el caso anterior, se debe a

que el elemento tónico inicial (pronombre o adverbio interrogativo) indica por sí

solo la interrogación.

o Si se trata de interrogativas disyuntivas, el primer miembro termina en

anticadencia, y el segundo en cadencia.

3.3.4.3 Entonación de las oraciones admirativas

Como se ha indicado anteriormente, este tipo de oraciones ofrece una gama muy

variada de estados anímicos en el hablante, lo que hace compleja la descripción de su

línea melódica. No obstante, en general, se caracterizan por ascensos tonales rápidos

seguidos de descensos bruscos; los descensos dependen de las palabras que se quieren

destacar.

3.4 La entonación vista desde la conversión texto-vozSe va a estudiar, en este capítulo, la entonación desde otro punto de vista: el de la

conversión texto-voz. A partir de este momento, se va a hacer especial hincapié en los

aspectos físicos de la entonación, que se analizarán mediante modelos matemáticos.

3.4.1 Información y entonación en la conversión texto-vozComo ya se sabe, la entonación es uno de los elementos más importantes para

conseguir mayor naturalidad en la conversión que aquí se trata. La causa de esto se

encuentra en que, en la mayoría de las lenguas, la entonación juega un papel

fundamental en la transmisión de la información, tanto lingüística (acento en las palabras,

estructura sintáctica, modalidad oracional, etc.) como no lingüística (naturalidad, emoción,

identidad del hablante, etc.). Por tanto, para generar una curva de frecuencia fundamental

de calidad lo más próxima posible a la natural, cabe desear partir de un modelo de

entonación por reglas que represente cuantitativamente las relaciones entre la entonación

y su información prosódica subyacente.

Capítulo 3: Estudio de la Entonación Página 34

Page 7: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

La característica acústica de la entonación más importante en la transmisión de la

información prosódica, es la evolución temporal de la frecuencia fundamental,

comúnmente denominada contorno de f0. Otros rasgos prosódicos, como la duración de

los sonidos que componen la frase, o la curva de energías de la señal acústica, son

menos importantes desde el punto de vista perceptivo [Saiz-00].

3.4.1.1 Análisis y síntesis de contornos de f0

Según lo expuesto anteriormente, para llegar a obtener un modelo de entonación que

sea capaz de reproducir lo mejor posible esta faceta del habla, a través de un conjunto de

reglas de control de la frecuencia fundamental, el contorno de f0 deberá relacionarse

adecuadamente con las características lingüísticas del texto. Sin embargo, a causa de las

dificultades que se dan tanto en la realización de análisis precisos, como en la obtención

de descripciones cuantitativas, estas relaciones no parecen estar del todo claras. Su

esclarecimiento requiere:

o Seleccionar parámetros que sean capaces de describir los rasgos principales del

contorno de f0.

o Generar un método para extraer estos parámetros a partir de un contorno de f0.

o Extraer la información lingüística relevante del texto, a partir de conocimientos

lingüísticos y fonéticos sobre sus propiedades prosódicas.

o Estudiar correlaciones entre los parámetros del contorno de f0 y las características

lingüísticas del texto a procesar.

3.4.1.2 Modelos de entonación

El modelado de la entonación se realizó sobre varios idiomas (entre otros, el alemán,

danés, francés, inglés, japonés y sueco), y con diferentes aproximaciones teóricas.

Algunos de los modelos más usados en lo que a prosodia y conversión texto-voz se

refiere son los siguientes:

o Modelo de Aix, para inglés y francés.

o Modelos de Fujisaki, para japonés, inglés británico, chino, alemán, español,

griego, francés, portugués y gallego.

Capítulo 3: Estudio de la Entonación Página 35

Page 8: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

o Modelo IPO, para holandés, inglés británico, alemán, ruso, italiano, francés y

español.

o Modelo de Kohler, para alemán.

o Modelo de Ladd, para inglés británico.

o Modelo de Lund, para sueco, chino, griego, francés y hausa.

o Modelo de O’Shaughnessy y Allen, para inglés americano.

o Modelo de Pierrehumbert, para inglés americano, japonés y español.

o Modelo de Thorsen, para danés.

Como se puede observar, solamente en tres casos (Fujisaki, IPO y Pierrehumbert) se

ha intentado modelar la entonación del español. A continuación, se desarrollarán

brevemente aquellos que se han aplicado al español así como los desarrollados en el

GTH.

3.4.1.2.1 Clasificación

Como ya se dijo anteriormente, la prosodia considera la independencia de varios

niveles de descripción suprasegmental y de sus respectivos efectos sobre la entonación.

Así, se debe ver la principal función de los modelos de entonación en la capacidad de

determinar los efectos e interacciones de cada nivel individual. Desde este punto de vista,

lo que variará de unos modelos de entonación a otros será la forma de interpretar la

estructura de la entonación, entendiendo ésta como el modo en que se integran los

distintos componentes de la misma. De esta manera, cada modelo dispondrá de su

propia parametrización de las características de f0, que se relacionará de forma

adecuada con los rangos lingüísticos del texto.

Se clasifican los modelos entonativos en dos tipos según la interpretación que hagan

de la estructura de la entonación:

o Modelos lineales: sostienen que los contornos de f0 se obtienen de una

secuencia de tonos fonológicamente distintos, asignados a cada sílaba, mediante

la aplicación de determinadas reglas. Los modelos de Ladd, Pierrehumbert y los

que se han desarrollado en el GTH se engloban dentro de este modelo.

Capítulo 3: Estudio de la Entonación Página 36

Page 9: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

o Modelos jerárquicos: tienen una organización superposicional, e interpretan los

contornos de f0 como una estructura compleja resultante de la superposición de

estructuras de diferentes niveles (oración, palabra, sílaba, segmento, etc.).

Modelos de este tipo son los de Fujisaki, O’Shaughnessy y Allen, Lund y IPO.

La principal diferencia entre estos dos tipos de modelos se encuentra en el modo en

que definen la relación entre las variaciones locales y las tendencias globales del

contorno de la frecuencia fundamental. Es decir, se distinguen en la forma de ver la

relación del contorno de f0 con el acento en las palabras y la entonación en las oraciones.

El problema que surge de todo esto es que, en los aspectos prosódicos, tanto de las

palabras como de las oraciones, se expresan mediante la misma característica acústica:

la variación de la frecuencia fundamental en función del tiempo. No hay forma de decidir,

ya sea por medidas acústicas, o por criterios perceptivos, si las variaciones de f0 vienen

motivadas por la acentuación de las palabras o por la entonación de las oraciones.

Aunque estos efectos se pueden separar en un plano lingüístico (como ya se vio

anteriormente), aquí, los modelos que establecen las reglas que se pueden formular

predicen, o bien independencia entre el acento y la entonación, o bien interacción mutua

entre ambos.

3.4.1.2.2 Modelos lineales

Estos modelos suponen que los contornos de f0 se generan en un solo ciclo, de

izquierda a derecha, mediante la concatenación de movimientos de f0. Por lo tanto,

asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las

curvas melódicas son el resultado de un proceso de interpolación entre valores de f0

sucesivos, que son la realización fonética de segmentos tonales. Además, consideran

que no hay diferentes niveles.

A continuación, y como ejemplos de estos modelos, se van a explicar brevemente los

modelos de Pierrehumbert, de picos y valles y el modelo neuronal.

3.4.1.2.2.1 Modelo de Pierrehumbert

Se trata de un modelo desarrollado inicialmente por Janet Pierrehumbert, el cual tuvo

aportaciones posteriores de Mark Liberman y de Mary Beckman. Es un modelo

multilingüe ya que para él, se han utilizado datos de diferentes lenguas, sobre todo inglés

Capítulo 3: Estudio de la Entonación Página 37

Page 10: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

americano y japonés; el cual ha demostrado su validez con su aplicación al sistema de

conversión texto-habla de Olive.

Los componentes especificados por el modelo son:

1. Una línea de base (baseline).

2. Una serie de tonos:

o Tonos de límite (boundary tones): aparecen en los límites de diferentes

constituyentes: H%, L%.

o Acentos de tono (pitch accents): pueden darse los siguientes casos:

Dos acentos de tono simples: H* (un acento de tono que primero crece y

después puede caer) y L* (un acento de tono que primero disminuye y luego

puede crecer), que aportan a la variación de la frecuencia fundamental una

dicotomía simple.

Cinco acentos de tono compuestos: H*+L, H+L*, L*+H, L+H*, H*+H, que

tratan de compensar la variación temporal en los lugares de los acentos

relacionados con el comienzo de la vocal silábica.

o Acentos de frase (phrase accents): H, L.

Los contornos de f0 se formarán mediante la concatenación sobre la línea base de

los siguientes elementos:

a) Un tono de límite inicial (que puede no aparecer).

b) Una serie de acentos de tono, que dependerá de la longitud de la frase.

c) Un acento de frase.

d) Un tono de límite final.

3.4.1.2.2.2 Modelo de picos y valles

Los picos se corresponden con aquellas sílabas que están acentuadas, a las que,

por tanto, se les asocia una mayor frecuencia fundamental. Los valles, por el contrario,

son las sílabas que preceden a los picos. La unidad de asignación de valores de

frecuencia fundamental es la sílaba.

Capítulo 3: Estudio de la Entonación Página 38

Page 11: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

La curva de tono se divide en tres tramos bien definidos:

o Zona inicial: comprende el contorno de f0 desde el principio del grupo fónico

hasta la primera sílaba tónica. En ella, se asigna un valor de frecuencia

fundamental a la primera sílaba del grupo fónico en función del signo de

puntuación que se encuentra al final del grupo fónico (un punto, una coma, un

punto y coma, un signo de admiración o de interrogación, etc.).

o Zona intermedia: abarca desde la primera sílaba tónica hasta la penúltima. En

esta zona se asignan valores de f0 a las sílabas tónicas, o picos, y a las sílabas

que se denominan valles, y a partir de estos valores se calcula la curva de

entonación para la zona intermedia:

Picos: el modelo se basa en aplicar una recta con dos puntos fijos, los valores

de la primera y la última tónica, e interpolar linealmente para calcular el valor

de frecuencia fundamental de la otras sílabas tónicas, hasta la penúltima.

Valles: se usa un algoritmo similar, aunque con valores de f0 más bajos y

distinta pendiente. Se aplica otra recta entre dos puntos fijos: el valor del

primer valle y el del último, variando la pendiente según el número de tónicas

que haya dentro del grupo fónico.

Al resto de las sílabas de la zona intermedia se les asigna un valor de f0 siguiendo

una interpolación lineal entre los valores de los picos y los valles.

o Zona final: corresponde a la curva de frecuencia fundamental que va desde la

penúltima tónica hasta el final del grupo fónico. Esta es la zona más importante del

contorno de f0, ya que es la que realmente marca la entonación de la frase y da

sentido y significado al resto de la frase.

Se asigna un valor de f0 al último valle, a la última tónica y a la última sílaba, y se

hace una interpolación lineal para el resto de las sílabas pertenecientes a esta

zona. Estos valores varían no sólo en función del signo de puntuación del grupo

fónico, como en la zona inicial, sino también dependiendo de la posición de la

sílaba tónica en la última palabra del grupo fónico: se asignan valores de f0

diferentes según la terminación sea oxítona (palabras agudas) o no (palabras

llanas y esdrújulas).

Capítulo 3: Estudio de la Entonación Página 39

Page 12: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

A cada uno de los valores de tono de cada fonema obtenidos mediante el algoritmo,

se les suma un valor aleatorio (±5 hertzios) que permite una cierta variabilidad.

3.4.1.2.2.3 Modelo neuronal

Este modelo, realizado mediante una Red Neuronal, también toma la sílaba como

unidad básica para la asignación de valores de frecuencia fundamental. Por tanto, la

información con que se alimenta la Red Neuronal está basada en dicha unidad.

Conjuntamente, se realiza un enventanado de los parámetros de entrada, que consiste

en incluir, además de los parámetros del núcleo silábico de interés, también los de un

cierto número de sílabas anteriores y posteriores a la misma.

Los parámetros que recibe la Red Neuronal como entradas son los siguientes:

o Un parámetro llamado “zscore”, que indica a la Red si se va a usar o no la

codificación correspondiente al mismo.

o El modo de normalización (media y rango).

o Indicación sobre si la sílaba es inicial o no. Será inicial si está comprendida entre

la primera sílaba de la frase y la primera acentuada, ambas inclusive.

o Indicación sobre si la sílaba es final o no. Lo será si está comprendida entre la

anterior a la última tónica y la última sílaba, ambas inclusive.

o Acento en la sílaba. Lo que indica si la sílaba es tónica o no.

o Tipo de terminación del grupo fónico al que pertenece la sílaba.

o Tipo de terminación más la posibilidad de añadir información sobre el comienzo

del grupo fónico.

o Codificación de las sílabas.

o Indicación sobre si la sílaba en cuestión forma parte de una palabra función o no.

o Indicación del número de palabras que componen el grupo fónico.

o Información acerca de si la sílaba pertenece a la última palabra o no.

o Indicación de si la sílaba es final de palabra o no.

Capítulo 3: Estudio de la Entonación Página 40

Page 13: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

o Tamaño del enventanado que se va a considerar.

o Tamaño de la capa oculta de la Red Neuronal.

o Información de la frecuencia anterior.

o Información codificada acerca del número de frases totales que componen los

experimentos.

3.4.1.2.3 Modelos jerárquicos

En contraposición a los modelos lineales, los modelos jerárquicos, o de organización

superposicional, se prestan a una aproximación cuantitativa: los contornos de f0

generados por estos modelos resultan de una superposición aditiva de componentes que,

en principio, son independientes entre sí.

Un modelo de entonación que facilite componentes para la acentuación, por un lado,

y entonación de la frase, por otro, y que genere las reglas pertinentes en términos de

comandos parametrizados, se presenta bastante tentador. Como un modelo jerárquico

satisface el principio de superposición, se puede determinar el efecto de un componente

dado de la entonación mediante una unidad prosódica definida, tal como una frase o una

sílaba acentuada. De esta manera, los factores que contribuyen a la variabilidad de los

contornos de f0 se pueden investigar por separado, relacionándolos con las

características lingüísticas del texto, para establecer reglas que permitan calcular, en el

proceso de síntesis, el valor resultante de f0 para todos los instantes de tiempo en el

curso de la pronunciación sintetizada.

3.4.1.2.3.1 Modelo IPO

Toma el nombre del instituto en el que fue desarrollado: el Institute for Perception

Research (IPO) de Eindhoven (Holanda). Inicialmente sólo se aplicó al holandés, aunque,

más tarde, también se desarrolló para el inglés británico, alemán, ruso, italiano, francés y

español. Los componentes del modelo son los que se enumeran a continuación:

o Unas líneas de declinación, que marcarían los hipotéticos límites inferior y

superior de los contornos de f0:

Línea de declinación alta.

Capítulo 3: Estudio de la Entonación Página 41

Page 14: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

Línea de declinación baja.

Línea de declinación intermedia.

o Una serie de movimientos relevantes de tono, que se definen en función de

una serie de rasgos:

Dirección del cambio:

- más incremento: ascendente.

- menos incremento: descendente.

Número de sílabas que cubre:

- más extensión: el movimiento está asociado con dos o más sílabas.

- menos extensión: abarca una sola sílaba.

Final del movimiento con respecto al inicio de la parte sonora de la sílaba:

- temprano: final del movimiento cerca del inicio de la parte sonora.

- tardío: final del movimiento cerca del final de la parte sonora.

Rango del movimiento:

- más amplio: cubre el rango entre las líneas superior e inferior de

declinación.

- menos amplio: el movimiento cubre un rango menor.

Velocidad del cambio:

- rápida.

- lenta.

El modelo IPO proporciona una descripción y un modelado bastante completos de la

entonación de un lenguaje. Sin embargo, tiene el defecto de no relacionar las curvas

resultantes con la información lingüística y paralingüística de la entonación, tan

importantes en la consecución de naturalidad para la entonación.

Capítulo 3: Estudio de la Entonación Página 42

Page 15: Introduccion · Web viewPor lo tanto, asumen que los contornos carecen de estructura jerárquica. Según este enfoque, las curvas melódicas son el resultado de un proceso de interpolación

MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO

Carlos Martín Valle

3.4.1.2.3.2 Modelo de Fujisaki

Se trata de la única aproximación que saca provecho del principio de superposición

en un sentido estrictamente matemático. Como los componentes en que divide el

contorno de f0 se corresponden directamente con la acentuación y la entonación de las

oraciones, este modelo se presenta como una solución del problema que se planteaba

más arriba, sobre la necesidad de una integración entre las características lingüísticas y

las de los contornos de f0.

El modelo de Fujisaki tiene, junto con la cualidad que se acaba de mencionar, la

ventaja de que reduce grados de libertad por el uso de un número limitado de parámetros

para definir la frecuencia fundamental, lo que es importante para la construcción de un

módulo de análisis de contornos de f0 observados. Esta reducción de la cantidad de

datos constituye un importante aspecto para determinadas aplicaciones, y en concreto,

para la conversión texto-voz. El contorno suave resultante de la superposición de los

componentes del modelo es, asimismo, apropiado para aproximar los contornos de f0

producidos en el habla natural.

Estas características favorables hacen del modelo de Fujisaki una herramienta muy

útil para el análisis y síntesis de contornos de f0 en varios idiomas. Por ello, se ha

utilizado ampliamente tanto en la investigación como en el desarrollo de conversores

texto-voz.

La información de este capítulo está extraída de [Saiz-00], aquí se puede consultar

para obtener más información sobre la entonación.

Capítulo 3: Estudio de la Entonación Página 43