2-modelovoz

16
1 Modelo de producción de la voz Fonética y fonémica Fonema: Unidad teórica básica para describir cómo la voz transporta un significado lingüístico. Sonido: Realización práctica de un fonema Fonémica: Estudio de las unidades abstractas (fonemas) y sus relaciones en una lengua

Upload: japaoli

Post on 02-Feb-2016

219 views

Category:

Documents


0 download

DESCRIPTION

Modelo de producción de voz

TRANSCRIPT

Page 1: 2-ModeloVoz

1

Modelo de producciónde la voz

Fonética y fonémica Fonema: Unidad teórica básica para describir

cómo la voz transporta un significadolingüístico.

Sonido: Realización práctica de un fonema Fonémica: Estudio de las unidades

abstractas (fonemas) y sus relaciones en unalengua

Page 2: 2-ModeloVoz

2

Fonética y fonémica Fonética: Estudio de los sonidos

reales: Fonética articulatoria Fonética acústica Fonética auditiva

Alófonos: Representan pequeñasvariaciones sobre cada fonema,permitidas en cada lenguaje.

Sistema de producción de la voz

Órganos del sistema deproducción de la voz: Pulmones: Fuente Laringe: Contiene las cuerdas

vocales Cavidad faríngea y cavidad

oral, agrupadas en el tractovocal

Cavidad nasal (tracto nasal)

Page 3: 2-ModeloVoz

3

Anatomía de la laringe

Las cuerdas vocales

Page 4: 2-ModeloVoz

4

Sistema de producción de la voz

Órganos:

Función:

Clasificación del sonido Según el tipo de excitación:

Sonoros: cuando las cuerdas vocales vibran. Ejemplos: /a/, /e/, etc.

Sordos: Cuando las cuerdas vocales no vibran. Ejemplos: /s/

Oclusivos: Cuando se interpone un obstáculo alflujo del aire, que desaparece de pronto.

Ejemplos: /b/, /p/, /t/

Combinaciones de los anteriores Ejemplos: /z/ en “cebras”

Page 5: 2-ModeloVoz

5

Formantes Son resonancias producidas en las cavidades

de los órganos de producción Las frecuencias a las que se producen los

formantes dependen de: Longitud total del tracto faríngeo-oral Posición de los estrechamientos o constricciones

en el tracto Grado de estos estrechamientos

Ejemplo: vocales

/a/

/e/

/a/ cerrada

/i/

/o/

/u/

Page 6: 2-ModeloVoz

6

Formantes Reglas que relacionan las frecuencias de los

formantes y las características del tractovocal: La frecuencia de F1 es proporcional al

estrechamiento en la mitad frontal del tracto vocal La frecuencia de F1 se eleva al estrechar la

faringe La frecuencia de F2 disminuye con las

constricciones producidas por la lengua La frecuencia de todos los formantes disminuye

con la constricción formada por los labios.

Clasificación de vocales Modo de articulación (formante 1)

Cerradas (i, u) Medias (e, o) Abiertas (a)

Lugar de articulación (formante 2) Anteriores (i, e) Centrales (a) Posteriores (o, u)

Page 7: 2-ModeloVoz

7

Triángulo vocálico

500

1000

1500

2000

2500

3000

200 300 400 500 600 700 800 9001000

freq

. 2o

form

ante

(Hz)

freq. 1er formante (Hz)

/a//o//u/

/i/ /e/

Pronunciación de vocales

Page 8: 2-ModeloVoz

8

Semivocales y consonantes Semivocales:

Constituido por el grupo /w/, /l/, /r/, /y/ Consonantes:

Representan sonidos producidos con un mayor grado deconstricción que las vocales.

Pueden producirse con cualquier tipo de excitación: sorda,sonora, etc.

Se clasifican en: Oclusivas Fricativas Nasales

Clasificación de las consonantes Según el modo de

articulación: Oclusivas: (b, d, g, p, t, k) Fricativas: (s, f, z, x, y,) Africadas: (ch) Nasales: (m, n, ñ) Líquidas:

Laterales (l, ll) Vibrantes (r, R)

Según el lugar dearticulación: Bilabiales (b, p, m) Labiodentales (f) Linguodentales (t, d) Linguointerdentales (z) Linguoalveolares (s, n, l, r, R) Linguopalatares (y, ch, ñ, ll) Linguovelares (k, g, x)

Page 9: 2-ModeloVoz

9

Ejemplo: consonantes sonoras

/l/

/R/

/y/

/m/

/n/

/ñ/

Ejemplo: consonantes fricativas

Page 10: 2-ModeloVoz

10

Fonemas del español

Algunas curiosdades (I)

Page 11: 2-ModeloVoz

11

Algunas curiosidades (II)

La señal de voz La señal de voz se puede ver como un

proceso estocástico no estacionario. Características básicas:

Ancho de banda principal: 4 kHz Pronunciación de fonemas: 4 a 20 por segundo Tiempo mínimo de duración de un fonema: 50 ms Tiempo de consideración de señal estacionaria

(por convenio): 20ms

Page 12: 2-ModeloVoz

12

La señal de voz

La señal de voz

Page 13: 2-ModeloVoz

13

Modelo del tracto vocal Suponemos:

Que el sonido se propaga en el tracto en una soladirección. Los tejidos blandos evitan lapropagación radial.

Que las ondas sonoras son ondas planas que sepropagan desde la glotis a los labios.

Que el tracto vocal se puede modelar por unaserie de tubos acústicos de paredes duras y sinpérdidas.

Modelo del tracto vocal

Page 14: 2-ModeloVoz

14

Modelo del tracto vocal La función de transferencia glotal se puede modelar

como un filtro todo polos:

Podemos modelar por tanto la señal de voz como:

!

H(z) =G

1+ ak z"k

k=1

p

#

!

s[n] =G x[n]" ak s[n " k]k=1

p

#

!

x[n] =

Ruido blanco y gaussiano Voz sonora1

N0

" n # rN0[ ]r

$ Voz sorda

%

& '

( '

Modelo del tracto vocal Con todo lo anterior, podemos elegir el conjunto de

coeficientes ak que minimicen:

Derivando e igualando a cero, obtenemos un sistemade ecuaciones con el que es posible obtener losparámetros ak.

!

E = s[n]+ ak s[n " k]k=1

p

#$

% &

'

( )

2

n="*

*

#

Page 15: 2-ModeloVoz

15

Modelo de producción Voz:

Aire producido en los pulmones Si el sonido es sonoro, es modulado por las cuerdas vocales, que vibran a

la frecuencia fundamental (pitch) Modificado por el tracto vocal En sonidos nasales una parte del aire fluye por orificios nasales

Modelo de pulso glotal

Page 16: 2-ModeloVoz

16

Codificador LPC-10

Voz Original

Análisis:• Decisión sonoro/sordo• Pitch (sólo sonoro)• Potencia de señal

(Ganancia)• Parámetros del filtro

G

Tren de impulsos

Ruido aleatorio

Modelo del

tracto

V/U

Voz sintética

DecodificadorPotencia de señal

Pitch

Codificador

Codificador LPC-10 Utiliza tramas de 180 muestras (44.44 tramas/segundo para fs=8.000

Hz y 16 bits por muestra) El régimen binario final es de 2,4 kbps (54 bits por trama): El pitch se codifica con 7 bits.

La decisión sordo-sonoro se realiza con la tasa de cruces por cero y secodifica con un solo bit.

La ganancia del modelo se codifica con 5 bits Se calculan y transmiten 10 coeficientes de reflexión para una trama

catalogada como sonora Los dos primeros se codifican como parámetros LAR’s con cinco bits cada

uno. El resto se codifican linealmente

Descrito en: “Federal Standard 1015, Telecommunications: Analog toDigital Copnversion of Radio Voice By 2400 Bit/Second LinearPredictive Coding, National Communication System, Office Technologyand Standards, Nov. 1984