f contenidos señales y sistemas -...

Señales y Sistemas

Procesamiento de la señal de voz

H. Leonardo Rufiner y Gastón Schlotthauer

lrufiner@bioingenieria.edu.ar

Laboratorio de Cibernética – Facultad de Ingeniería

Universidad Nacional de Entre Ríos

http://www.bioingenieria.edu.ar/grupos/cibernetica/

30 de abril de 2013

Introducción Aparato fonador Percepción de la voz Análisis Cepstral Estimación de la F0

Contenidos

1 Introducción

2 Aparato fonador

3 Percepción de la voz

4 Análisis Cepstral

5 Estimación de la F0

Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 2 / 46

Contenidos

1 Introducción

2 Aparato fonador

Introducción

Hablante Aire Oyente

Comprens ión de l

mensa je

Transducc ión

neurona l

Decodi f icac ión

Mov imien to

membrana

basilar

Formulac ión de l

mensa je

Codif icación

Acc iones neuro -

muscu la res

Fuen te

del sonido

acús t icaT r a c t o

voca l

Ru ido

ambien te

! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !

"#$#% & ' % ()* + &,- ./0 - 12* 34% 5 % 67' 12* 89% - ' 0 &21

:;<,= 0 >,1

Mecanismo de producción del habla

Área de�

Broca�

Corteza�Auditiva�Primaria�

Área de�Asociación�Auditiva�

Corteza�Visual�

Área de�

Wernicke�

Área de�Asociación�Visual�

Área de�Asociación�Sensorial�

Corteza�Somatosensorial�

Corteza�Motora�

Fasciculo�arqueado�

Producción del habla

Restricciones para la comunicación

Acústico: Tracto vocal humano.

Fonológico: No todos los sonidos posibles de generar son fonemas.

Fonético: La realización particular de un fonema depende delcontexto.

Morfológico: las unidades de significación se combinanapropiadamente para formar palabras (plurales, conjugaciones).

Léxico: Define las palabras válidas y su sentido.

Producción del habla

Restricciones para la comunicación

Sintáctico: No todas las combinaciones de palabras tienen sentido.

Prosódico: Relativo a la acentuación y entonación.

Semántico: No todas las frases gramaticalmente válidas tienensentido.Is the baby crying

Is the bay bee crying

Contextual/pragmático: Una respuesta debe cobrar sentido en laconversación.It is easy to recognize speech

It is easy to wreck on nice beach

Contenidos

1 Introducción

2 Aparato fonador

Aparato fonador

Transforma energía muscular en energía acústica.

Puede modelizarse como un sistema de filtros que modifica a una omás fuentes de sonidos.

Si H(ω) es la función de transferencia del filtro que representa eltracto vocal y X(ω) la fuente de excitación (perturbación acústica dela corriente de aire pulmonar), el sonido resultante puederepresentarse como Y (ω) = H(ω)X(ω).

Puede agregarse el efecto de radiación producido en los labios(pasa-altos).

Aparato fonador

Corte esquemático del aparato fonador

Aparato fonador

Diagrama esquemático del aparato fonador

Aparato fonador

Mecanismos de excitación del tracto vocal

El sistema respiratorio es la principal fuente de energía para producirsonidos en el aparato fonador, en forma de flujo de aire y presiones.Existen tres mecanismos de excitación del tracto vocal:

1 Generación de pulsos cuasiperiódicos: las cuerdas vocales modulan elflujo de aire.

2 Generación de ruido de banda ancha: el flujo procedente de lospulmones pasa por una constricción del tracto vocal.

3 Excitación de tipo plosivo: el flujo produce una presión en un puntode oclusión total del tracto vocal y se libera rápidamente.

Aparato fonador

Laringe

!!Vestibulo!

de la!

laringe!

Cuerda!

vocal!

Ligamentos!

y músculos!

Espacio!

infraglótico!

Tráquea!

Cartílago!

tiroide! ""##Cartílago!

cricoide!

Epiglotis!

Pliegue!

vestibular!Tiempo!

Aparato fonador

Función fonatoria de la laringe

Intervienen las cuerdas vocales, los cartílagos en los que se insertan ylos músculos laríngeos intrínsecos.

La forma de onda de los pulsos generados puede representarse enforma simplificada como una onda triangular. Un modelo másadecuado es el de Rosemberg, donde estos pulsos tienen la siguienteforma:

ug[n] =

2[1− cos (πn/N1)] 0 ≤ n ≤ N1

cos [π(n−N1)/2N2] N1 ≤ n ≤ N1 +N2

0 en otro caso.

Aparato fonador

Función fonatoria de la laringe

En el hombre, la frecuencia de esta onda varía entre 100 y 170 Hz, enlas mujeres entre 180 y 280 Hz y en los niños puede superar los 300Hz.

Los valores de esta frecuencia glótica se modifican en formavoluntaria y son los responsables de la frecuencia fundamental(denominada F0) que se percibe como "tono".

Aparato fonador

Función transferencia H(ω)

H(ω) =Ul(ω)

Ug(ω)=

cos(ωLc)

donde U(ω) es la transformadade Fourier de u(t):U(ω) = F{u(t)}ug(t): flujo en la glotis.ul(t): flujo en los labios.L: longitud del tracto vocal(≈ 17,5 cm).c : velocidad del sonido en airehúmedo a 37 oC (≈ 350 m/s).

Sonidos y fonemas

Fonema

Es el conjunto mínimo de unidades que permite decir cualquier palabra enun idioma dado. Dos fonemas son diferentes si al cambiar uno por otro,cambia la palabra. Ejemplo boda vs. moda.

Vocales: /a/ /e/ /i/ /o/ /u/ Fricativos: /f/ /s/ /j/ /y/ Africados: /ch/ Oclusivos: /b/ /d/ /g/ /p/ /t/ /k/ Nasales: /n/ /m/ /ñ/ Vibrantes: /r/ /rr/ Laterales: /l/ /ll/

�� Consonantes

Producción de la señal de voz

Laringe

Producción de la señal de voz

Modelo Fuente - Filtro

Generador

del tren de

impulsos

Modelo de

glótico G(z)

Generador

de ruido

aleatorio

Modelo del

tracto vocal

Modelo de

radiación

Interruptor

vocalizado / no vocalizado

Ganancia de la

fuente de ruido

Ganancia de la

fuente de voz

Período de pitch

Parámetros del

tracto vocal

Voz s[n]

ug [n]

Análisis de la señal de voz

Vocal sostenida - Período y Frecuencia fundamental (F0)- Formantes

0 5 10 15 20 25 30 35 40 45 50

t (ms)

500 1000 1500 2000 2500 3000 3500 4000 4500 5000

f (Hz)

Vocal sostenida - Período y Frecuencia fundamental (F0) - Formantes

La frecuencia fundamental F0 corresponde a la frecuencia glótica, presenteen los fonemas sonoros, y es una componente importante de la entonaciónen el habla.Las frecuencias formantes (F1, F2, F3, · · · ) permiten discriminar entre lasvocales. Su variación temporal posibilita también diferenciar entre losdiferentes fonemas sonoros.

Sonograma y espectrograma

Formantes

0� 200� 400� 600� 800� 1000�0�

500�

1000�

1500�

2000�

2500�

3000�

F 1 �

(Hz)�

F 2� (

cerradas� medias� abiertas�

anteriores�

centrales

posteriores�

F 1�

F 2�

Abertura de la cavidad bucal�

nto�

/a/�/o/�/u/�/e/�/i/�

Triángulo de las vocales�

Modelo AR del tracto vocal

Modelo

H(z) =G

1−p∑

akz−k

Análisis por tramos

Tomamos ventanas de la señal s(n): sm(n) = s(m+ n)w(n), sm(n)idénticamente cero fuera de 0 ≤ n ≤ N − 1, w(n) es una ventana, comopor ejemplo la ventana de Hamming. Estimamos:rm(k) =

∑N−1−kn=0

sm(n)sm(n+ k),

Modelo AR del tracto vocal

Solución

Se resuelve hallando la solución de la ecuación

rm(0) rm(1) rm(2) · · · rm(p− 1)rm(1) rm(0) rm(1) · · · rm(p− 2)rm(2) rm(1) rm(0) · · · rm(p− 3)

......

...rm(p− 1) rm(p− 2) rm(p− 3) · · · rm(0)

a1a2a3...ap

rm(1)rm(2)rm(3)

...rm(p)

Un método eficiente es el de Levinson-Durbin que aprovecha el hecho de que lamatriz dada es Toeplitz.

Contenidos

1 Introducción

2 Aparato fonador

Audición

Pabellón�auditivo�

! ! ! !! ! ! !

Conducto�auditivo�

Trompa de�Eustaquio�

Ventana oval�

Ventana�redonda�

Martillo�

Yunque�

Estribo�

Cóclea�

Externo� Medio� Interno�

Tímpano�

Nervio�auditivo�

Base�

Ápex�

Membrana�basilar�

AIRE�LÍQUIDO�

AIRE�

Frecuencia y Pitch

A menudo confundidos en la literatura, el pitch no es igual a la frecuenciafundamental. La frecuencia, intensidad y las propiedades espectrales de unsonido interactúan en formas muy complejas para dar una percepción depitch que puede ser un reflejo muy pobre de la F0. El pitch percibidocambia con la intensidad.El pitch se refiere a un atributo perceptual del sonido, generalmente enuna escala continua. La frecuencia es un atributo físico de las señales. LaAmerican Standards Association define al pitch como ”aquel atributo de lasensación auditiva por la cual los sonidos pueden ordenarse según unaescala musical”.

Frecuencia y Pitch

La unidad del pitch percibido de un tono puro es el mel. No se correspondelinealmente con la frecuencia física del tono. Stevens y Volkman (1940)establecieron arbitrariamente :

1000 Hz = 1000 mel

Frecuencia y Pitch

Fant (1973) (la más utilizada)

Fmel =1000

log 2log

1 +FHz

O’Shaugnessy (1987)

Fmel = 2595 log

1 +FHz

Umesh (1999)

Fmel =FHz

0,00024FHz + 0,741

Frecuencia y Pitch

Frecuencia (Hz)

Pitch (

O'Shaughnessy

Stevens

Contenidos

1 Introducción

2 Aparato fonador

Procesamiento Homomórfico

Sistemas homomórficos

Los sistemas homomórficos obedecen a un “principio de superposicióngeneralizado”.Decimos que un sistema y[n] = h[n] ∗ x[n] es homomórfico para laconvolución si obedece a un principio de superposición donde la adición sereemplaza por la convolución:

H{x[n]} = H{x1[n] ∗ x2[n]}

= H{x1[n]} ∗H{x2[n]}

= y1[n] ∗ y2[n].

Cepstrum

Cepstrum Real (Bogert, 1963)

Definición:

c[n] =1

log∣

∣X(ejω)∣

∣ ejωndω

donde X(ejω) es la transformada discreta de Fourier de la señal x[n].

c[n] = IDTFT(log |DTFT(x[n])|)

Vocabulario

Spectrum → CepstrumFrequency → QuefrencyFilter → LifterPhase → Saphe

Amplitude → GamnitudeHarmonic → RahmonicPeriod → Repiod

Cepstrum

Cepstrum Complejo

Definición:

γ[n] =1

X(ejω)}

ejωndω

donde X(ejω) es la transformada discreta de Fourier de la señal x[n].Cómo calculamos log

X(ejω)}

= log∣

∣X(ejω)∣

∣+ j arg{X(ejω)}

Cepstrum

Preguntas...

Es posible revertir el proceso y volver a obtener x[n] ?

Cómo haría un liftrado ?

Qué podría hallar con el liftrado?

Elegiría para ello el cepstrum real, el complejo o no habría diferencia?

Cepstrum

Aplicación del Cepstrum real: estimación de F0 (Noll, 1967)

Consideremos un análisis por tramos o ventanas de una señal de voz x[n].Sea G(ω) la transformada de fourier de la señal de excitación del tractovocal y H(ω) la respuesta en frecuencia de dicho tracto. Sean cx[n], cg[n],y ch[n] sus cepstra respectivamente. Entonces: cx[n] = cg[n] + ch[n].

cg[n] y ch[n] ocupan partes diferentes del eje de cuefrencias. Podemosseparar la parte que varía rápidamente (correspondiente a la excitación deltracto vocal) de la que varía lentamente (la respuesta en frecuencia deltracto).

Cepstrum

0 5 10 15 20 25 30 35 40 45 50

t (ms)

0 1 2 3 4 5 6 7 8 9 10-0.2

t (ms)

T0 = 8.26 ms

Contenidos

1 Introducción

2 Aparato fonador

Método de la autocorrelación

El fundamento de la técnica de extracción de F0 basada en laautocorrelación es que si la señal es periódica, entonces su función deautocorrelación muestra un pico en el retardo correspondiente al período,valiendo menos en todos los otros retardos (salvo en cero).

Método de la autocorrelación

0 10 20 30 40 50 60 70 80 90 100-1

1� n[ �]

0 10 20 30 40 50 60 70 80 90 100-1

1� n[ �]

0 10 20 30 40 50 60 70 80 90 100-1

Retardo �� n[ �]� = 82� = 82� = 82

En rojo se indica la función de autocorrelación sesgada y en verde la función de

autocorrelación sin sesgo. Se utilizaron tres longitudes diferentes de señal: (a) 401

datos, (b) 251 datos y (c) 125 datos.Rufiner – Schlotthauer (UNER) FI-UNER - Bioingeniería 30 de abril de 2013 41 / 46

Método de la autocorrelación y clipping

El principal problema de la utilización directa de la autocorrelación es quela frecuencia de la primera formante, que está a menudo cerca o aún pordebajo de la frecuencia fundamental, puede interferir con esta detección.Un problema secundario es que la señal de voz es en realidad sólo “cuasiperiódica”, causando que los picos de la función de autocorrelación seanmenos prominentes y así dificultar la detección de los picos.Para disminuir estos efectos se emplean técnicas de “aplanamiento delespectro”, consistentes en aplicar un operador no lineal sobre la señal devoz

Método de la autocorrelación y clipping

Center Clipping

La técnica más habitual es la llamada clipping. La función clipping máscomún, llamada center clipping, está definida de la siguiente manera:

C (xs[n]) =

xs[n]− C+, xs[n] > C+

0, C− ≤ xs[n] ≤ C+

xs[n]− C−, xs[n] < C−.

Habitualmente, los límites C+ y C− se fijan desde ±30% hasta ±50% delmáximo del valor absoluto de la forma de onda.

Método de la autocorrelación con clipping

0 10 20 30 40 50

t (ms)

0 10 20 30 40 50

t (ms)

0 20 40 60 80 100-1

Retardo �� n[ �]0 20 40 60 80 100

Retardo �� n[ �]

c) d)� = 82 � = 82

Método de la autocorrelación pesada (AP)

AP [τ, q] =

N−|τ |

N−1∑

xs[q + n]xs[q + n+ τ ]

ǫ+q+N−1∑

|xm[n]− xm[n+ τ ]|

0 20 40 60 80 100 120

Retardo �AP

[ �, q] � = 82

Bibliografía

J. Deller, J. Proakis, J. Hansen, “Discrete Time Processing of SpeechSignals”. Macmillan Publishing, NewYork, 1993.

J. Makhoul, “Linear Prediction: A Tuturial Review,” Proc. IEEE, vol63, no. 4, pp. 561-580, apr. 1975.

J. W. Piccone, “Signal Modeling Techniques in Speech Recognition”,Proceedings of the IEEE, Vol. 81, N◦9, pp. 1215-1247, 1993.

H.L. Rufiner, “Análisis y modelado digital de la voz: Técnicasrecientes y aplicaciones”, Editorial UNL, 2009. (Capítulo 3).

f contenidos señales y sistemas -...

Documents

respiratorio y fonador

el sistema de resonancia y el aparato fonador

fonética. el aparato fonador

anatomia y fisiologia del aparato fonador

l'aparell fonador

seÑales -...

a)?bioingenieria1.wdfiles.com/local--files/descargas/idsistlpc2013.pdf ·...

aparato fonador 3 medios parte 2

anatomía y fisiología aparato fonador (1)

temas a tratar análisis de fourier dft/fft transformada...

modelización de sistemas biológicos (parte...

apunte largo de modelos ocultos de markov (diego...

enfermedades del aparato fonador. laringología

el aparato fonador .pdf

enfermedades del aparato fonador - biurrun - art

aparato fonador - técnica vocal

funcionamiento del aparato fonador

“es con la intuición que se puede introducción y...

temas a tratar análisis de fourier dft/fft transformada...

anatomofisiología del aparato fonador