análisis acústico de la voz

29
02-06-2015 1 Análisis Acústico de la Voz Claudio E. Pedemonte Solanich Docente U. MAYOR TEMUCO Tipologías de Señales. Tono puro o periódico simple Corresponde a una variación de presión sinusoidal. Amplitud. Frecuencia. Periodo.

Upload: claudio-e-pedemonte-solanich

Post on 14-Sep-2015

119 views

Category:

Documents


1 download

DESCRIPTION

Análisis Acústico de La Voz

TRANSCRIPT

  • 02-06-2015

    1

    Anlisis Acstico de la VozClaudio E. Pedemonte Solanich

    Docente U. MAYOR

    TEMUCO

    Tipologas de Seales. Tono puro o peridico simple

    Corresponde a una variacin de presin sinusoidal.

    Amplitud.

    Frecuencia.

    Periodo.

  • 02-06-2015

    2

    Tipologas de Seales

    Tono peridico complejo

    Est compuesto por una frecuencia fundamental y un grupo determinado de armnicos

    Sonidos producidos por instrumentos musicales de afinacin definida.

    Sonidos producidos por el sistema fonatorio con vibracin de pliegues voclicos.

    Amplitud, Frecuencia, Periodo.

    Tipologas de Seales. Tono peridico complejo

    TEOREMA DE FOURIERToda seal peridica compleja se

    puede descomponer en una sumatoria de tonos simples

    La frecuencia fundamental de un tono peridico complejo

    corresponde a la menor de sus componentes.

  • 02-06-2015

    3

    Tipologas de Seales Sonidos aleatorios o ruido

    Compuestos por muchas frecuencias cuyos valores son impredecibles

    Ruido blanco

    Ruido generado por una cascada de agua

    Ruido rosa

    Amplitud

    Representaciones grficas del sonidoAnlisis Acstico de la Voz

  • 02-06-2015

    4

    Oscilograma o forma de onda (waveform) Es una representacin grfica en que se muestra la variacin de energa

    eje vertical- de una onda con respecto al tiempo eje horizontal-.

    Anlisis de amplitud, periodo, duracin.

    Oscilograma Tono Puro 440 Hz, Software PRAAT

    Oscilograma o forma de onda (waveform)

    Oscilograma Voz Normal, fonema /a/, software PRAAT

  • 02-06-2015

    5

    Espectro FFT o Spectrum

    Algoritmo informtico que nos permite obtener el espectro de frecuencia de una seal tanto peridica compleja como no peridica en tiempo real.

    Representacin grfica en la que se muestra la relacin de energa (amplitud) de las diferentes componentes o armnicos de un sonido, o concentraciones de energa en ciertos rangos de frecuencias.

    Representacin de la frecuencia -eje horizontal- y la amplitud -eje vertical- de los armnicos en un instante o intervalo de tiempo de la seal sonora del habla.

    Anlisis de la intensidad y de la estructura formntica (timbre).

    No es preciso para determinar el valor de los formantes.

    Espectro FFT o Spectrum(Fast Fourier Transformation ) FILTRO DE BANDA ANCHA

    Anlisis espectral realizando con una ventana temporal pequea.

    Menor cantidad de lneas espectrales para la representacin del espectro.

    Se visualizan zonas de concentracin de energa.

    Mala resolucin para los armnicos y componentes del sonido

    FILTRO DE BANDA ESTRECHA Anlisis espectral realizado con una ventana temporal grande.

    Mayor cantidad de lneas espectrales para la representacin del espectro

    Buena resolucin para los armnicos y componentes del sonido.

  • 02-06-2015

    6

    FFT

    Forma de onda

    Espectro FFT o SpectrumFFT Sonido Armnico

    Onda Peridica

    Espectro

    Espectro Discreto

    FFT

    Forma de onda

    Espectro FFT o SpectrumFFT Sonido Armnico

    Onda no Peridica

    Espectro

    Espectro Continuo

  • 02-06-2015

    7

    Espectro FFT o Spectrum

    Spectrum Voz Normal, fonema /a/, Filtro de banda anchasoftware PRAAT

    Espectro FFT o Spectrum

    Spectrum Voz Normal, fonema /a/, Filtro de banda estrechasoftware PRAAT

  • 02-06-2015

    8

    Espectrograma

    Es una representacin que nos permite observar la concentracin de energa en rango o componentes particulares de frecuencia y la evolucin temporal de esta.

    Representacin de las variaciones intensidad escala de colores o grises- de las frecuencias eje vertical- con respecto al tiempo eje horizontal-.

    Anlisis de la duracin y estructura formntica, amplitud.

    Espectrogramas de Banda Ancha y Banda estrecha

    La resolucin de un espectro depende del largo de la ventana FFT.

    Con una buena resolucin se pueden observar y medir la F0 y los armnicos.

    Con una resolucin menor, se pueden apreciar mejor los formantes y los pulsos glticos.

    A los espectrogramas de buena resolucin se les llama de Banda Estrecha. Los de menor resolucin se llaman de Banda Ancha.

    En Praat, una buena resolucin o espectro de banda estrecha se obtiene con Windows length = 0,1 segundo.

    Un espectro de banda ancha se obtiene con Windows length = 0,005 segundos.

    Espectrogramas

  • 02-06-2015

    9

    Espectrograma

    Oscilograma y Espectrograma Voz Normal, fonema /a/, Filtro de banda anchasoftware PRAAT

    Espectrograma

    Oscilograma y Espectrograma Voz Normal, fonema /a/, Filtro de banda estrechasoftware PRAAT

  • 02-06-2015

    10

    Espectrograma

    Oscilograma y Espectrograma Plipos, fonema /a/, Filtro de banda estrechasoftware PRAAT

    Espectrograma

    Oscilograma y Espectrograma de secuencia voclica /i, e, a, o, u/Filtro de banda Ancha

    software PRAAT

  • 02-06-2015

    11

    Espectro Promedio a Largo Plazo (LTAS) Long-term Average Spectrum es el espectro promedio de muchos

    espectros obtenidos durante un cierto intervalo de tiempo, mientras el paciente habla, lee un texto o canta una cancin.

    Es especialmente til para obtener caractersticas tanto de la fuente (cuerdas vocales), como del filtro (tracto vocal).

    A travs del LTAS es posible obtener varias variables relacionadas con la distribucin de la energa espectral de la voz, por medio de pendientes espectrales.

    Espectro Promedio a Largo Plazo (LTAS)

    LTAS Voz Resonante

  • 02-06-2015

    12

    Espectro Promedio a Largo Plazo (LTAS)

    LTAS Voz Opaca

    Espectro Promedio a Largo Plazo (LTAS)

    LTAS Voz severamente Disfnica

  • 02-06-2015

    13

    Espectro LPC

    La LPC (Lineal Predicting Coding) muestra una envolvente del espectro.

    Facilita la identificacin de formantes y su estudio

    No permite ver los armnicos

    Se puede graficar de dos formas como corte LPC y como historia formntica

    Espectro LPC

    Frequency (Hz)

    0 2.205104

    So

    und

    pre

    ssure

    lev

    el (

    dB/

    Hz)

    20

    40

    60

    Corte LPC de vocal /a/

  • 02-06-2015

    14

    Espectro LPC

    Frequency (Hz)

    0 2.205104

    So

    und

    pre

    ssure

    lev

    el (

    dB/

    Hz)

    20

    40

    60

    Espectro FFT y Corte LPC de vocal /a/ juntos

    Espectro LPC

    Oscilograma, Espectrograma e Historial Formntica deserie voclica /i, e, a, o, u/

  • 02-06-2015

    15

    Anlisis de ndices acsticosAnlisis Acstico de la Voz

    MDVP

    El Multi-Dimensional Voice Program (MDVP) es un software que trabaja enconjunto con el Computerized Speech Lab (CSL) ambos de la firma KayPENTAX.

    El MDVP permite la adquisicin, anlisis y clculo de ms de 33 parmetros de lavoz a partir de una vocalizacin sostenida de un fonema sonoro

    Herramientas de Anlisis

  • 02-06-2015

    16

    MDVP

    Herramientas de Anlisis

    PRAAT

    Praat es una herramienta para el anlisis fontico del habla desarrollada por Paul Boersma y David Weenink en el Instituto de Ciencias Fonticas de la Universidad de msterdam.

    Puede descargarse gratuitamente para varios sistemas operativos desde la pgina del programa, en la que se encuentra tambin la documentacin necesaria para utilizarlo:http://www.praat.org

    Herramientas de Anlisis

  • 02-06-2015

    17

    Jitter

    Mide la perturbacin o variacin del periodo de la frecuenciafundamental entre cada ciclo vocal en una emisin sostenida.

    Se tolera cierta variabilidad porque es imposible la ausencia devariacin tonal.

    PRAAT nos entrega 5 tipos de Jitter, pero generalmente se utilizansolo dos:

    Parmetros de Anlisis Medidas de Perturbacin

    Jitter (local) Es el promedio absoluto de las diferencias entre periodos consecutivos dividido por

    el periodo promedio (MDVP Jitt)

    1,04 % es el umbral patolgico.

    Jitter (local, absolute) Es el promedio absoluto de las diferencias entre periodos consecutivos (MDVP

    Jita)

    83.200 s es el umbral para patologas.

    Para entender bien el concepto utilizaremos un tono puro.

    Parmetros de AnlisisMedidas de Perturbacin

  • 02-06-2015

    18

    T=0.01151

    T=0.01153

    T=0.01154

    Parmetros de AnlisisMedidas de Perturbacin

    Shimmer

    Mide la perturbacin o variacin de la amplitud entre ciclo y ciclo de fonacin.

    Se presenta como porcentaje de variacin de la amplitud entre ciclos o perodosde frecuencia.

    Shimmer (local)

    Es el promedio de las diferencias absolutas entre la amplitud de periodos consecutivos, dividido por la amplitud promedio. (MDVP Shim),

    3.810% umbral patolgico.

    Shimmer (local, dB)

    Es el logaritmo de base 10 del promedio absoluto de las diferencias entre las amplitudes de periodos consecutivos multiplicado por 20. (MDVP ShdB),

    0.350 dB umbral patolgico

    Parmetros de AnlisisMedidas de Perturbacin

  • 02-06-2015

    19

    Parmetros de AnlisisMedidas de Perturbacin

    HNR (ndice armnico-ruido)

    Aunque un sonido se produzca por vibracin de cuerdas vocales, siempre presenta un componente de ruido en el sonido.

    En una fonacin adecuada, el ruido queda enmascarado.

    Razn entre la energa del ruido propio de la seal entre 1500-4500 Hz y las componentes armnicas ubicadas entre 70-4500Hz

    La amplitud de los armnicos, mltiplos de la frecuenciafundamental, depende de un correcto cierre de las cuerdasvocales y supone un sonido peridico.

    Parmetros de Anlisis

  • 02-06-2015

    20

    HNR (ndice armnico-ruido)

    Ruido es toda seal que contamina la emisin vocal y que essolo aire o energa no armnica que se puede producir porflujos turbulentos de aire producto del cierre parcial de lascuerdas vocales al vibrar.

    Entonces, el ndice armnico ruido es la relacin entre laenerga armnica y la energa del ruido.

    Valores bajos de este parmetro se pueden asociar a vibraciones irregulares de las cuerdas, presencia de escape de aire, presencia de sub-armnicos y/o quiebres en la voz.

    Un valor indicador de fonacin adecuada es 20 dB o ms.

    Ante la presencia de hiatus, el valor HNR disminuye a valores menores a 20 dB.

    Parmetros de Anlisis

    DIENTE DE SIERRA + RUDIO BLANCOHNR=30 dB

    DIENTE DE SIERRA + RUDIO BLANCOHNR=20 dB

    DIENTE DE SIERRA + RUDIO BLANCOHNR=10 dB

    HNR (ndice armnico-ruido)

  • 02-06-2015

    21

    Jitter

    Shimmer

    NHR

    Parmetros de Anlisis

    Tiempo de Ataque

    Todo sonido presenta un ataque, decaimiento, sostenimiento y decaimiento. Esto se conoce como envolvente del sonido.

    El ataque es el inicio del sonido vocal. Es representado por la pendiente inicial de intensidad del sonido.

    Se mide a partir del fonema /a/ como inicio de una palabra.

    Se propone medir el tiempo de ataque a partir de las palabras ala, rbol, amigo. Con esto se caracterizan distintas coarticulaciones.

    Entonces, se obtiene el tiempo de ataque promedio.

    Estabilidad de la F0

  • 02-06-2015

    22

    Tiempo de Ataque

    Estabilidad de la F0

    Ataque vocal

    Tiempo de Ataque

    Estabilidad de la F0

    Ataque vocal

  • 02-06-2015

    23

    El national center for voice and speech (Titze 1995) sugiere una clasificacin de las voces segn el grado de perturbacin. Lo que permite determinar el tipo de estudio o anlisis idneo para cada caso.

    TIPO 1: voz con vibraciones casi peridicas. Perturbacin menor al 5%. Puede ser analizada por medio de los parmetros de perturbacin a corto plazo (Jitter,Shimmer,HNR).

    TIPO 2: voces con subarmnicos y modulaciones. Perturbacin mayor al 5%. No puede ser analizada de forma fiable con los parmetros anteriores. Debe estudiarse con un mtodo perceptual, un mtodo visual como el espectrograma y caracterizacin espectral.

    TIPO 3: voces caticas o random. Solo pueden ser estudiadas por mtodos perceptuales,

    Clasificacin de los tipos de seales de voz.

  • 02-06-2015

    24

    LTAS (Long Time Average Spectrum)

    Espectro Promedio de Largo Plazo.

    Se obtienen bandas de frecuencia promedio con anchos de banda determinados por el usuario.

    Se obtiene en un contexto de Habla o Canto segn los aspectos que se deseen caracterizar.

    En un contexto hablado, se sugiere utilizar un texto fonticamente balanceado.

    Considera aportes de la emisin larngea y de las resonancias del tracto.

    Aporta a la discriminacin y caracterizacin de distintos tipos de emisin vocal o mordente.

    Aporta a la discriminacin y caracterizacin del timbre o color de la voz.

    Caracterizacin del espectro vocal

    LTAS (Long Time Average Spectrum)

    Caracterizacin del espectro vocal

    LTAS graficado enbandas defrecuencia (bin)con ancho debanda igual a 178Hz

  • 02-06-2015

    25

    LTAS (Long Time Average Spectrum)

    Caracterizacin del espectro vocal

    LTAS graficado conuna curva deinterpolacin entrelos valores de cadabin.

    LTAS (Long Time Average Spectrum)

    Caracterizacin del espectro vocal

    LTAS graficado conuna curva deinterpolacin ybins

  • 02-06-2015

    26

    Inclinacin espectral (Spectral Tilt)

    Lnea que representa la tendencia o inclinacin del espectro LTAS.

    En trminos comparativos, la inclinacin espectral nos sirve para comparar distintos timbres de voz.

    Caracterizacin del espectro vocal

    Inclinacin espectral (Spectral Tilt)

    Caracterizacin del espectro vocal

  • 02-06-2015

    27

    R (alfa ratio) Es la relacin entre el nivel de energa promedio que existe entre la

    banda de 1000 Hz 5000 Hz y 50 Hz y 1000 Hz.

    Para una anlisis pre y post es necesario controlar la intensidad de la emisin vocal, puesto que diferentes intensidades afectan la anergia de altas frecuencias.

    En PRAAT se puede obtener la energa por banda de frecuencia a partir de un objeto LTAS.

    Un aumento de intensidad no produce un aumento lineal de frecuencia

    Caracterizacin del espectro vocal

    H1 H2

    Es la diferencia entre la amplitud del primer armnico (F0) y el segundo armnico.

    Los valores de amplitud se pueden medir directamente de un espectro simple.

    Tambin pueden medirse a partir de un LTAS considerando la amplitud del bin 1 y del bin 2.

    En este ltimo caso, el ancho de banda de cada bin, debe considerar el rango de variacin de ambos armnicos.

    Generalmente, F0 o H1 presenta mayor amplitud.

    Esto cambia si la voz es estridente.

    Caracterizacin del espectro vocal

  • 02-06-2015

    28

    L1-L0

    Es la relacin de energa entre las bandas de 300 Hz a 800 Hz y de 50 Hz a 300 Hz.

    Es una medida del grado de contacto gltico. (Sundberg)

    Relacin entre los armnicos afectados por el primer formante y la energa de F0.

    Pendiente negativa cuando la voz es soplada.

    Pendiente positiva cuando la voz es resonante o apretada.

    Hay que mantener controlada la intensidad.

    Caracterizacin del espectro vocal

    1K-5K 5K-8K

    Es la relacin de energa entre las banda de 1 kHz a 5kHz y la de 5 kHz a 8 kHz.

    Medida de ruido gltico.

    Pendientes negativas.

    En voces sopladas menor pendiente (mayor ruido gltico)

    En voces apretadas mayor pendiente. (menor ruido gltico)

    Caracterizacin del espectro vocal

  • 02-06-2015

    29

    Formantes

    Son las resonancias del tracto vocal.

    Se denominan F1, F2, , FN.

    En su estudio, se busca realizar una correlacin entre aspectos articulatorios (normalidad o trastorno) y las resonancias del tracto vocal.

    Por los general, para un anlisis fontico basta con evaluar F1 y F2.

    Para analizar el mordiente y el color de la voz, se estudia F3, F4 y F5.

    Caracterizacin de las resonancias

    Propiedades de los Formantes

    Las formantes varan las amplitudes del espectro del sonido madre, pero no

    desplazan las frecuencias propias del mismo.

    Se analizan normalmente entre 3 y 5 formantes.

    El formante F1 generalmente controla la amplitud del sonido y depende de el

    grado de apertura del tracto vocal. A mayor apertura, mayor valor frecuencia de

    F1.

    El formante F2 depende de la posicin del punto articulatorio. Mientras ms

    anterior, mayor frecuencia de F2.

    El formante F3 depende de las dimensiones de la cavidad que se forme por

    delante del pex lingual; cuanto ms pequea, mayor frecuencia de F3.

    F4 y F5 varan con la anchura y longitud del tracto vocal; cuanto ms corto y

    estrecho el tracto, mayor frecuencia de F4 y F5.

    Todos los formantes tienen un ancho de banda definido donde se aprecia el

    fenmeno de resonancia

    Caracterizacin de las resonancias