Download - 2-ModeloVoz
1
Modelo de producciónde la voz
Fonética y fonémica Fonema: Unidad teórica básica para describir
cómo la voz transporta un significadolingüístico.
Sonido: Realización práctica de un fonema Fonémica: Estudio de las unidades
abstractas (fonemas) y sus relaciones en unalengua
2
Fonética y fonémica Fonética: Estudio de los sonidos
reales: Fonética articulatoria Fonética acústica Fonética auditiva
Alófonos: Representan pequeñasvariaciones sobre cada fonema,permitidas en cada lenguaje.
Sistema de producción de la voz
Órganos del sistema deproducción de la voz: Pulmones: Fuente Laringe: Contiene las cuerdas
vocales Cavidad faríngea y cavidad
oral, agrupadas en el tractovocal
Cavidad nasal (tracto nasal)
3
Anatomía de la laringe
Las cuerdas vocales
4
Sistema de producción de la voz
Órganos:
Función:
Clasificación del sonido Según el tipo de excitación:
Sonoros: cuando las cuerdas vocales vibran. Ejemplos: /a/, /e/, etc.
Sordos: Cuando las cuerdas vocales no vibran. Ejemplos: /s/
Oclusivos: Cuando se interpone un obstáculo alflujo del aire, que desaparece de pronto.
Ejemplos: /b/, /p/, /t/
Combinaciones de los anteriores Ejemplos: /z/ en “cebras”
5
Formantes Son resonancias producidas en las cavidades
de los órganos de producción Las frecuencias a las que se producen los
formantes dependen de: Longitud total del tracto faríngeo-oral Posición de los estrechamientos o constricciones
en el tracto Grado de estos estrechamientos
Ejemplo: vocales
/a/
/e/
/a/ cerrada
/i/
/o/
/u/
6
Formantes Reglas que relacionan las frecuencias de los
formantes y las características del tractovocal: La frecuencia de F1 es proporcional al
estrechamiento en la mitad frontal del tracto vocal La frecuencia de F1 se eleva al estrechar la
faringe La frecuencia de F2 disminuye con las
constricciones producidas por la lengua La frecuencia de todos los formantes disminuye
con la constricción formada por los labios.
Clasificación de vocales Modo de articulación (formante 1)
Cerradas (i, u) Medias (e, o) Abiertas (a)
Lugar de articulación (formante 2) Anteriores (i, e) Centrales (a) Posteriores (o, u)
7
Triángulo vocálico
500
1000
1500
2000
2500
3000
200 300 400 500 600 700 800 9001000
freq
. 2o
form
ante
(Hz)
freq. 1er formante (Hz)
/a//o//u/
/i/ /e/
Pronunciación de vocales
8
Semivocales y consonantes Semivocales:
Constituido por el grupo /w/, /l/, /r/, /y/ Consonantes:
Representan sonidos producidos con un mayor grado deconstricción que las vocales.
Pueden producirse con cualquier tipo de excitación: sorda,sonora, etc.
Se clasifican en: Oclusivas Fricativas Nasales
Clasificación de las consonantes Según el modo de
articulación: Oclusivas: (b, d, g, p, t, k) Fricativas: (s, f, z, x, y,) Africadas: (ch) Nasales: (m, n, ñ) Líquidas:
Laterales (l, ll) Vibrantes (r, R)
Según el lugar dearticulación: Bilabiales (b, p, m) Labiodentales (f) Linguodentales (t, d) Linguointerdentales (z) Linguoalveolares (s, n, l, r, R) Linguopalatares (y, ch, ñ, ll) Linguovelares (k, g, x)
9
Ejemplo: consonantes sonoras
/l/
/R/
/y/
/m/
/n/
/ñ/
Ejemplo: consonantes fricativas
10
Fonemas del español
Algunas curiosdades (I)
11
Algunas curiosidades (II)
La señal de voz La señal de voz se puede ver como un
proceso estocástico no estacionario. Características básicas:
Ancho de banda principal: 4 kHz Pronunciación de fonemas: 4 a 20 por segundo Tiempo mínimo de duración de un fonema: 50 ms Tiempo de consideración de señal estacionaria
(por convenio): 20ms
12
La señal de voz
La señal de voz
13
Modelo del tracto vocal Suponemos:
Que el sonido se propaga en el tracto en una soladirección. Los tejidos blandos evitan lapropagación radial.
Que las ondas sonoras son ondas planas que sepropagan desde la glotis a los labios.
Que el tracto vocal se puede modelar por unaserie de tubos acústicos de paredes duras y sinpérdidas.
Modelo del tracto vocal
14
Modelo del tracto vocal La función de transferencia glotal se puede modelar
como un filtro todo polos:
Podemos modelar por tanto la señal de voz como:
!
H(z) =G
1+ ak z"k
k=1
p
#
!
s[n] =G x[n]" ak s[n " k]k=1
p
#
!
x[n] =
Ruido blanco y gaussiano Voz sonora1
N0
" n # rN0[ ]r
$ Voz sorda
%
& '
( '
Modelo del tracto vocal Con todo lo anterior, podemos elegir el conjunto de
coeficientes ak que minimicen:
Derivando e igualando a cero, obtenemos un sistemade ecuaciones con el que es posible obtener losparámetros ak.
!
E = s[n]+ ak s[n " k]k=1
p
#$
% &
'
( )
2
n="*
*
#
15
Modelo de producción Voz:
Aire producido en los pulmones Si el sonido es sonoro, es modulado por las cuerdas vocales, que vibran a
la frecuencia fundamental (pitch) Modificado por el tracto vocal En sonidos nasales una parte del aire fluye por orificios nasales
Modelo de pulso glotal
16
Codificador LPC-10
Voz Original
Análisis:• Decisión sonoro/sordo• Pitch (sólo sonoro)• Potencia de señal
(Ganancia)• Parámetros del filtro
G
Tren de impulsos
Ruido aleatorio
Modelo del
tracto
V/U
Voz sintética
DecodificadorPotencia de señal
Pitch
Codificador
Codificador LPC-10 Utiliza tramas de 180 muestras (44.44 tramas/segundo para fs=8.000
Hz y 16 bits por muestra) El régimen binario final es de 2,4 kbps (54 bits por trama): El pitch se codifica con 7 bits.
La decisión sordo-sonoro se realiza con la tasa de cruces por cero y secodifica con un solo bit.
La ganancia del modelo se codifica con 5 bits Se calculan y transmiten 10 coeficientes de reflexión para una trama
catalogada como sonora Los dos primeros se codifican como parámetros LAR’s con cinco bits cada
uno. El resto se codifican linealmente
Descrito en: “Federal Standard 1015, Telecommunications: Analog toDigital Copnversion of Radio Voice By 2400 Bit/Second LinearPredictive Coding, National Communication System, Office Technologyand Standards, Nov. 1984