una vision practica herramienta para el analisis espectral de la voz

8/17/2019 Una Vision Practica Herramienta Para El Analisis Espectral de La Voz

1/30

UN VISIÓN PRÁCTIC EN EL USO DE

L

TR NSFORM D DE FOURIER COMO

HERR MIENT P R EL NÁLISIS

ESPECTR L DE

L

VOZ

[1] Jesús Bernal, [2] Pedro Gómez

y [1]

Jesús Bobadilla

[1]

Departamento de Informática Aplicada

Universidad Politécnica de Madrid

Ctra.

e

Valencia Km. 7, 28031 Madrid

Tfn: 34.913367860, Fax: 34.913367527

e-mail: jbernal@eui.upm.es.jbobi@eui.upm.es

[2]

Departamento de Arquitectura y Tecnología de Sistemas Informáticos

Universidad Politécnica de Madrid

Campus de Montegancedo, s/n, Boadilla del Monte, 28660 Madrid

Tfn: 34.913367384, Fax: 34.913367412

e-mail: pedro@pino.datsi.fi.upm.es


2/30

Una visión práctica en l uso de la Transformada e ourier ...

77

RESUMEN

Prácticamente todas las herramientas de análisis espectral utilizadas

en la actualidad

s

realizan a través de ordenador. Ello nos proporciona

la flexibilidad de cambiar el valor de algunos parámetros en el cálculos

de la Transformada de Fourier. Pensamos que es importante comprender

el efecto que tiene cada uno para establecer valores que optimicen los

resultados que buscamos.

Este artículo nos realiza un estudio de los parámetros que

intervienen en l cálculo de la Transformada de Fourier aportando

ilustraciones prácticas de los efectos provocados en los espectros. Los

parámetros que se estudian son: frecuencia de muestreo tamaño de la

ventana tipo de ventana números de ceros por ventana y forma de

representación. Realiza unas recomendaciones basadas en una

combinación de estudios teóricos y empíricos.

Finalmente realiza una referencia a diferentes métodos que se han

utilizado para la mejorar del espectro describiendo los tipos de filtros

utilizados.

BSTR CT

The majority

ofth

actual spectra analysis tools use computers then

it is possible to change the Fourier Transform main parameters.

This article studies the parameters used in the Fourier Transform

including graphics showing the effects obtained varying the main

variables. The studied parameters are: sampling frequency windows

size type windows number of zeros in the window and the

representation

formo

Finally the article references different methods used in order to

enhance the spectra describing the covered filters.


3/30

78

J Bernal P. Gómez y J Bobadilla

1 INTRODU IÓN

Con el presente artículo queremos mostrar una visión práctica en la

utilización de la Transformada de Fourier TF) como una herramienta

útil para el estudio de la fonética acústica.

La Transformada de Fourier [Bri88] es una herramienta de análisis

muy utilizada en el campo científico acústica, ingeniería biomédica,

métodos numéricos, procesamiento de señal, radar, electromagnetismo,

comunicaciones, etc.). Transforma una señal representada en el dominio

del tiempo

l

dominio de la frecuencia pero sin alterar su contenido de

información, sólo es una forma diferente de representarla. La potencia

del análisis de Fourier radica en que nos permite descomponer una señal

compleja en un conjunto de componentes de frecuencia única; sin

embargo, no nos indica el instante en que han ocurrido. Por ello, esta

descomposición es útil para señales estacionarias: las componentes de las

frecuencia que forman la señal compleja no cambian a lo largo del

tiempo.

Aunque

se

han realizado estudios fonéticos utilizando el análisis

espectral mediante la distribución de

WIGNER

[Ran95], lo cierto es que

la mayoría de los fonólogos utilizan los espectrogramas para la

realización de sus investigaciones.

Para señales no estacionarias nos vemos obligados a tomar tramos o

ventanas en donde

se

pueda considerar estacionaria y así poder aplicar la

Transformada de Fourier. Para realizar el análisis completo debemos

tomar una secuencia de ventanas para observar la evolución de la

frecuencias de la señal original. Nos podemos plantear una pregunta

fundamental: ¿Cuál es tamaño ideal de una ventana?

La TF debe aplicarse de - a ; para tomar tramos debemos

multiplicar la señal por una ventana temporal que nos aísle la parte

requerida. Este hecho nos provoca una distorsión en el espectro obtenido,

ya que el resultado

es

la convolución

de

la transformada de la señal con

la transformada de la ventana. Nos podemos plantear una segunda

pregunta: ¿Cuál es

el

mejor tipo de ventana?


4/30

Una visión práctica en el uso de la Transformada de Fourier

79

Todos los cálculos se realizarán mediante ordenador; para ello

debemos trabajar con modelos discretos y fmitos. Nos podemos plantear

una tercera pregunta: ¿Cuál es el número idóneo de valores para realizar

la TF discreta?

Descriptores: Transformada de Fourier, Espectro, Espectrograma,

Fonética Acústica.

2

LA TRANSFORMADA E FOURIER

Se parte de la base de que toda señal genérica, por compleja que sea

se puede descomponer en una suma de funciones periódicas simples de

distinta frecuencia. En definitiva, la Transformada de Fourier visualiza

los coeficientes de las funciones sinusoidales que foiman la señal

original.

. D D , ~ U - ~

r- \]

\ / ~ \ j

:f J\APv

p

\ \

D

\ l

: VVVl

Vl

~ W M

.........

o

2

_·

1

Figura l Una señal genérica se forma

por

un sumatorio de señales

sinusoidales

Si aplicáramos la transformada a la señal genérica de la figura

anterior nos daría como resultado una proporción de los coeficientes que

hemos utilizado para generarla.


5/30

8

J

Bernal,

P

Gómez y

J

Bobadilla

La Transformada

de

Fourier se defme como:

X f )

= [

x t)e-

j21ift

dt . En general X f) es una función compleja:

X f)

= R f)

+

jI

f)

=

X f ~ ¿ r p f ) . A partir de la señal en el dominio

de la frecuencia se puede recuperar la señal en

el

dominio

en

el tiempo

aplicando la Transformada inversa de Fourier:

X f )

=

c x t)e

j21ift

dt .

A continuación vamos a presentar la Transformada de Fourier de

cuatro funciones básicas:


6/30

Una visión práctica en el uso de la Transformada de Fourier ... 81

A

X f )

=

A

sen 2nTof) 1

2ATo

nf

o

•

TF

02

-1 0

. J.s

0.5

To

x t) = LS t - nT

1

n

X j)

L S j

--

T n ~

T

o

•

o

•

0.6

TF

o•

0.4

o>

- 00

-

00

Figura 2. Transformada de Fourier de cuatro funciones básicas.

Para la función coseno, la Transformada sólo tiene parte real y para

la función seno parte imaginaria. Todas las funciones representadas sólo

tiene parte real.

Propiedades de la Transformada de Fourier:

• Linealidad.

Si las

funciones

x t)

y

y t)

tienen como

transformada a X

f )

Y Y f ) , respectivamente, entonces la

suma de ambas tiene como transformada a X f ) Y f ) .

• Simetría. Si

X f )

es la transformada de x t), la transformada

de X t) es x - f ) .

• Escalado en el tiempo y en la frecuencia. Si realizamos un

escalado de la variable t mediante la constante

k

la transformada

1

t

da: jkjx ¡;)

X lif).


7/30

82

J. Bemol, P. Gómez

y

J. Bobadilla

Igualmente, si realizamos un escalado de la frecuencia mediante

la constante k la transformada inversa nos da:

x kt) x {).

• Desplazamiento en tiempo y en frecuencia. Si desplazamos el

tiempo según la constante

tO,

la transformada nos

queda:

X(t - to) x(/)e-

j2ttfto

•

Si desplazamos la frecuencia con la constante fo,la transformada

inversa nos queda:

x(t)e-

j2

rifo

X f -

lo)

Multiplicación frente a convolución. Definiendo la operación de

convolución entre dos .funciones

como:

x(t)·

y(t) = f lO x -r:)y t--r:)dr, se cumple que

si

multiplicamos dos funciones

en

el tiempo y calculamos la

transfonnada, equivale a realizar la operación de convolución

*:

operador de convolución entre· las transformadas de

ambas

funciones; la operación

de

convolución

en el

tiempo equivale a la

multiplicación en frecuencias.

x t)y t) X f ) · Y(f)

x(t)· y(t)

X(f)Y(f)

3. MUESTREODE ONDAS

Como todas las operaciones se realizarán por ordenador, no

podemos trabajar con funciones continuas; por

l l o ~

10

primero

que

debemos realizar

es

un muestreo de la

seílal

de voz.

En definitiva, para muestrear la señal x t) debemos multiplicarla

00

por un tren de deltas: x(t)5(t - T) =¿x(nT)5(t - nT) =x[nT] ,

00

siendo el período de muestreo de T. x[nT] representa una secuencia

infinita de impulsos equidistantes, cada uno de los cuales tiene una

amplitud que corresponde con el valor de x(t) en el tiempo

correspondiente al impulso.


8/30

Una visión práctica en el uso de la Transformada e Fourier ... 83

2

•

•

T

•

T

•

T

•

*

j

·J Ji ilit

5 _ . I . ~ L i

0.6 1

5

Figura 3 Proceso de muestreo de una señal

Como ya mencionamos muestrear una señal es equivalente

matemáticamente a multiplicar por un tren de deltas; además una

multiplicación en el dominio del tiempo equivale a una convolución en

el dominio de la frecuencia. La transformada de un tren de deltas cuya

distancia entre deltas es T es otro tren de deltas cuya separación es . .

T

Por otra parte la convolución de una función cualquiera por un tren de

deltas da como resultado una copia de la función en la posición de cada

delta. Nos queda que la transformada de una señal muestreada es un tren

de funciones cada una de las cuales representa la transformada de la

señal sin muestrear separadas por sus centros en la frecuencia de

muestreo.


9/30

84

J Bernal P Gómez y J Bobadilla

Para conservar la transfonnada de la función original se debe

muestrear a una frecuencia en la que no se produzcan solapamientos,

siendo ésta a más del doble del ancho de banda de la señal o frecuencia

de corte; se conoce a este requisito como criterio de NYQUIST o teorema

del muestreo de

SHANNON.

Observese en la figura que si no se sigue

dicha teoría se juntaría el· espectro· de la señal original con su copia,

produciéndose una distorsión de la misma.

Para estudiar el espectro de una función muestreada sólo tendremos

en cuenta el rango de frecuencias que sea menor a la frecuencia máxima

o de corte.

4 T DISCRETA. VISIÓN PRÁCTICA

La Transfonnada de Fourier es una herramienta muy útil cuando se

trabaja con modelos matemáticos, pero si queremos trabajar con señales

reales fisicas y operando mediante ordenador debemos trabajar con

modelos finitos y discretos.

Lo .primero que debemos hacer es muestrear la señal de voz a

analizar. Es importante saber la frecuencia de muestreo que debemos

aplicar y para ello debemos saber el ancho de banda de la onda original.

Teniendo en cuenta lo descrito en el apartado 3, un muestreo de 11.025

Hz

puede ser suficiente para representar la voz se capturaría hasta

frecuencias de 5.512

Hz).

Se toma esta frecuencia por ser estándar en

ficheros con fonnatos WA V.

Una vez muestreada debemos convertirla en fmita. Para ello

limitaremos el número de puntos que se toman. Matemáticamente es

multiplicar la señal por una ventana temporal; el efecto que provocamos

es convolucionar el espectro de la señal muestreada con el espectro de la

ventana. Por ello conviene elegir un tipo de ventana que produzca una

menor distorsión. Aunque en el modelo hayamos aplicado una ventana,

seguimos teniendo infinitas muestras que valen cero, obteniendo un

espectro continuo; como última decisión debemos limitar el número de

puntos muestras mas ceros) que tomamos, lo que provocará un espectro

discreto.


10/30


La Transfonnada de Fourier discreta se define como:

G ~ )

=

g k T ) e - j ~ 1 m k ,n

=

ON

1 donde es la frecuencia

NT

k O

NT

de estudio, g

kT

es el valor de cada muestra,

T

es el período de

muestreo de la señal original y es

el

número de puntos que se toman

incluyendo los ceros).

Parte Real parte Imaginaria y Módulo

Al calcular el espectro de una señal, los resultados obtenidos a

través de la TF son valores complejos. Aquí nos debemos plantear una

cuestión: ¿Qué partes vamos a representar en el espectro?

Si partimos de una señal original de única frecuencia, al calcular el

espectro nos interesaría ver energía en la frecuencia que la compone. Al

calcular la TF de una ventana obtenemos unos resultados con parte real y

parte imaginaria; al cambiar de ventana obtenemos otros resultados.

Según la propiedad del desplazamiento temporal, la diferencia entre

ambos resultados

se

encuentra en que

se

obtiene distinta fase, pero el

módulo permanece constante. Por ello, debemos a calcular

exclusivamente

l

módulo, para que los resultados sean independientes

de la posición de la ventana respecto a la señal a analizar.

Número de muestras por ventana

Al ser la voz una señal

no

estacionaria, debemos tomar ventanas

relativamente pequeñas para que dentro de cada una se pueda considerar

cuasi estacionaria. Por otra parte, si tomamos ventanas pequeñas la

resolución en frecuencias resulta pobre; notar que en la TF discreta se

calcula la amplitud en las frecuencias YNT siendo el rango

n O N -1 por 1 tanto, se estudian tantas frecuencias como sea el

valor de N Por lo tanto, cuanto mayor sea

l

número de muestras por

ventana mejor es la resolución del espectro. Aquí nos encontramos con

un doble compromiso que debemos equilibrar.


11/30

86

J Bemal P. Gómez

y

J Bobadilla

En cuanto al calculo de

n

=

O 1 es suficiente con la mitad, ya

que la segunda parte resulta ser la simétrica de la primera. Supongamos

que la onda

g t)

tiene una frecuencia máxima de fmax y muestreamos al

doble de su frecuencia máxima,

T =

_ 1 _ ; si calculamos las

2fmax

frecuencias desde

n

= O.N -1 se obtiene el espectro que buscamos y

el simétrico. Por ello, debe calcularse hasta

n =

N - 1 si N es par,

y

2

hasta n =parte entera

~

si n es impar. El cálculo de la siguiente

N 1

mitad sería redundante. La frecuencia máxima de estudio sería _

NT

para N par). El efecto de aumentar de tamaño la ventana hace que el

número de frecuencias que se estudian sea mayor, a costa de disminuir la

distancia entre ellas y obteniendo una mejor precisión, pero no cambia el

límite de la frecuencia máxima: para un tamaño de ventana infinita sería

1

de - que es fmax

2T

En la figura siguiente tenemos tres ejemplos demostrativos del

espectro obtenido de una misma señal original de frecuencia única

2.000 Hz) Y ventanas con un número diferente de muestras.


12/30

Una visión práctica en el uso de la Transformada de Fourier

...

87

,11 m1

11m

i

I 1

; i ~

. L,,,,,,

¡

1f h

I

I

i i i ¡

¡ i

¡ ¡

1

¡

i

i

¡

i

¡ i i ¡

i

i ; i i

i

Figura

4

En la gráfica superior se han tomado 50 puntos en la intermedia

200

y

en la inferior 800. Los tres casos corresponden

al

módulo del espectro

de una función sinusoidalpura de 2.000 z de frecuencia muestreada a

11.025 Hz.

La razón matemática es que cuanto más ancha sea la ventana, más

estrecha resulta la función Sinc, que es la transformada de la ventana,

produciendo una menor distorsión

al

espectro de la función original. El

límite sería un pulso de ancho infinito cuyo espectro es una delta, y así

no .

e

produciría ninguna distorsión (gráfica inferior izquierda de la

Figura 2).

A veces se habla de ancho de banda al aplicar la TF. Se entiende por

ello la frecuencia de muestreo divido por el tamaño de la ventana de

muestras. Así, cuando hablamos de la TF en banda ancha (300 Hz) nos

referimos a que si muestreamos a 11.025 Hz se toma un tamaño de

ventana de 37 puntos.


13/30

88

J Bernal, P Gómez y J Babadilla

Tipos de ventana

Hasta ahora hemos hablado de ventanas rectangulares. Se define

{

y;

l ~ l t l ; ; ~

corno: h t)

=

ª

O ~ l t l ~

2

Recordemos que el hecho de utilizar ventanas hace que se

convolucione la transformada de la señal con la transformada de la

ventana. Por

lo

tanto debernos elegir aquella ventana que produzca

menor distorsión.

Existen otros tipos de ventana cuyas transformadas pueden producir

menos distorsión. Entre ellas tenernos la Harnrning Hanning y la Parzen.

Se definen corno:

.

{0154 O 46co

J

2m

tl

;

1 0

Hammmg: h t)

= \

1 0 2

1:

~

tl

>-º-

2

¡

[

27rt)] 11

1 0

1 cos - t

;

Hanning:

h t) =

2

1 0 1:

2

~

tl

>-º-

2

Parzen: h t) =


14/30

Una visión práctica en el uso de la Transformada de Fourier 89

Figura

5

Ventana rectangular T en

db

~ \

:/ \

..

Figura 6 Ventana Hamming TF en db.

/ \

\'

Figura

7

Ventana Hanning TF en db

Figura

8

Ventana Parzen

t

en db


15/30

9

J.

Bernal,

P

Gómezy

J.

Bobadilla

Entre los distintos tipos de ventanas expuestas es la ventana

Hannning la más utilizada.

Número de puntos de

una

ventana

Otra cuestión interesante es el número de ceros que se toman para el

cálculo de la TF. Este aspecto es diferente al número de muestras de la

ventana, detalle mencionado anteriormente. Por las características de la

voz, debíamos tomar un número reducido de muestras; llamemos a este

número

M.

Para cuestiones de cálculo, trabajaremos con la expresión

g kT)h kT)

,

siendo h kT) la ventana utilizada. Ahora nos queda por

definir la variable

N

que es el número de puntos con que aplicamos la

TF discreta. Podría tener un rango de M M siendo M finito); para

cualquier valor de N fmito obtendremos un muestreo del espectro

· ·

d 1 1

contmuo, con una lstancla entre muestras e . Norma mente se

NT

toma un N > para dar una mejor visión del espectro.

En la figura posterior tenemos un ejemplo del efecto de añadir ceros

al cálculo de la Transformada de Fourier.


16/30

Una visión práctica en el uso de la Transformada e Fourier ...

91

l ,

l.

:958618 1 Hz 2 Hz

i

i i ,

10:1093361

1000Hz OOUR:

I

ir

I

lU l09J5 J4 lOOO z 2 Hz

. , ,a . ,

3 Hz

4 Hz

i ¡

i

3 Hz

i

i i

4 Hz

¡ ; I ;

i

i ; j I

3 Hz

4 Hz

. .

5 Hz

i

i

5 Hz

¡

i ;

5 Hz

Figura 9. Corresponde a una función sinusoidal de 2.000 Hz de frecuencia

mustreada a 11.025 Hz y con un ancho de ventana rectangular de 200

muestras. En la gráfica superior N=200 puntos en la intermedia N=800 yen

la inferior N=3200.

Corno observarnos en la figura aunque al añadir ceros aumentarnos

el rango de frecuencias visualizadas no mejorarnos la resolución del

espectro aspecto que

si

se observa en la Figura

4.

Un caso particular es cuando tornarnos un tamaño de ventana que

sea un múltiplo del período de la señal original. En tal caso obtenernos

un espectro ideal ya que se muestrea

el

espectro continuo en los puntos

donde la función Sinc resultante de la ventana vale cero con lo que la

distorsión queda oculta. En la gráfica siguiente se ha tornado un número

de ceros suficiente para apreciar el espectro completo.


17/30

92

J

Bernal,

P

Gómez y

J

Bobadilla

Figura 10. Esta representa un espectro bien definido de la señal original.

Es

una función sinusoidal de 500 Hz defrecuencia y muestreada a 11.025 Hz.

Un

período completo contiene

20

muestras.

En la Figura se han tomado tres casos; en la gráfica superior

coincide el número de muestras con el período de la señal original; en la

intermedia se desfasa en un cuarto de período y en la inferior en medio

período.

l

1

.

1 :11 24

l.

:1 11268

• • • • i

• •

1 Hz

2 Hz

¡ • • • •

1 Hz 2 Hz

.

.

.

.

3 Hz

4 Hz

'I,. a,

3 Hz

4 Hz

t . . . . J I t ~ E ~ P -

~ ~

•• . ~ ¡ ~

~ . ~ . ~ •• . r -

:752668 1 OOOHz

2 Hz

3 Hz 4 Hz

Figura 11. En la gráfica superior se

ha

tomado un múltiplo del período de la

señal original 200 muestras), en la intermedia se ha tomado un cuarto de

período más 205 muestras) yen la inferior medio período de más 210

muestras), este último sería

el

peor de los casos.


18/30

Una visión práctica

en el

uso

e

la Transformada

e

Fourier ...

93

La

gráfica superior sería

la

más deseable, pero

para

ello deberíamos

conocer con precisión el periodo de

la e ñ l

original.

s

ESPECTROS

VAmANTES EN EL

TIEMPO

Hasta ahora hemos visto el espectro de una sola ventana. Pero para

observar la evolución de la señal de voz debemos visualizar una

secuencia

de

espectros, uno por cada ventana

. Existen dos alternativas básicas:

l Utilizar una tercera dimensión que represente el tiempo,

presentando gráficos en tres dimensiones la tercera dimensión

sería

la

secuencia de ventanas).

2. Utilizar el color como tercera dimensión, presentando gráficos

en color y en dos dimensiones.

Consideramos que

la

segunda solución es más fácil de interpretar y

será la que tomemos.

En

la figura siguiente tenemos un ejemplo general

de

cómo se

va

formando

el

espectro variante

en

el tiempo.

l

l

l

l

AV

tv

______________________

t

Figura 12 Esquema de cómo

se

forma

el

espectro variante

en el

tiempo


19/30

94

J Bemal P Gómez y J Bobadi/la

Al aplicar la TF a una ventana nos da como resultado un conjunto de

valores que corresponden a las amplitudes de las distintas frecuencias. Es

el módulo de esta amplitud el que se codifica en colores. Como la

diferencia de las amplitudes es muy diferente, normalmente se aplica una

escala logarítmica para la codificación. Además, se establece un nivel

mínimo de señal, debajo de la cual se considera ruido y se elimina, y

nivel máximo para la codificación de colores.

Las ventanas pueden estar solapadas, contiguas o separadas. Todo

dependen de la intensidad de información que queramos visualizar; pero

no hay que olvidar el coste de computo que supone.

6 REALZAMIENTO DEL ESPECTROGRAMA

Aunque se han realizado estudios fonéticos utilizando el análisis

espectral mediante la distribución de WIGNER [Ran95], lo cierto es que

ia mayoría de los fonólogos utilizan los espectrogramas para la

realización de sus investigaciones.

Posteriormente al espectrógrafo han surgido equipos que mejoran la

obtención del espectrograma [Mar87]. El analizador de

BRÜEL

KJAER

obtiene el espectro por

el

cálculo de la Transformada rápida de Fourier,

permitiendo la programación de algunos de los parámetros tamaño de

ventana, tipo de ventana ). Existen otras herramientas y equipos, pero

en definitiva se reducen a acelerar el proceso y facilitar cierto control

para la realización del cómputo.

Por su parte R

BRISTON-JOHNSON

[Bri95] realiza un estudio

comparativo de la distorsión que produce el uso de distintos tipos de

ventanas.

Además se ha estudiado un gran conjunto de representaciones

espectrales

FOURIER,

WIGNER, CHOI-WILLIAMS ) estableciendo las

propiedades de cada una, comparándolas para establecer sus ventajas e

inconvenientes [RiI89] [Jon92].


20/30

Una visión práctica en l uso de la Transformada de ourier

...

95

Prácticamente se repite en todas las referencias la problemática del

espectrograma: en banda ancha se dispone de una resolución en

frecuencia pobre, y en banda estrecha una resolución temporal pobre.

P BASILE capítulo 13 de [Co093]) plantea aplicar una escala

logarítmica en frecuencias; con ello se consigue una mejor

representación de las frecuencias bajas y una peor en las frecuencias

altas. El problema no se resuelve ya que se sigue teniendo una

representación pobre temporal en las frecuencias bajas. Por otra parte

pensamos que es adecuado aplicar la escala logarítmica,

y

que es así

como percibimos acústicamente las distintas frecuencias.

En cualquiera de los casos, el nivel de ruido que aparece es muy

elevado, con una calidad de presentación de las características acústicas

deficiente. Es notoria la importancia que en fonética y fonología tiene la

experimentación, ya que es un método válido para incrementar la

información de cuestiones lingüísticas [SoI84].

Encontramos una necesidad de investigar sobre dicho tema,

buscando como objetivo general obtener un espectro más legible.

En vista de las referencias encontradas, podemos agrupar en tres las

técnicas utilizadas para mejorar el espectro:

1 Combinación del espectro en banda ancha y estrecha.

2

Utilizar un filtro espacial de la imagen completa.

3

Reasignamiento de la energía.

Por combinación de espectro se entiende el trabajo de

S

CHEUNG

[Che91]. Consiste en utilizar banda ancha y banda estrecha de forma

simultánea para obtener una buena resolución en tiempo y en

frecuencias.

Se define c como espectro combinado,

X

e

como espectro de banda

estrecha y a como espectro de banda ancha. La combinación queda:

Se utiliza una ventana tipo Hamming.


21/30

96 J. Bernal, P. Gómez y J. Bobadilla

Presenta un ejemplo con la frase: ''These shoes were black and

brown , pero en nuestra opinión produce una mejora escasa;

Y. SHIN

[Shi97] por su parte también opina que los resultados no son

satisfactorios.

T. G. TROMAS [Tb094] no aporta nada nuevo a la idea de S.

CHEUNG, plantea calcular un espectro combinado con una formulación

similar.

A continuación vamos a describir el concepto básico de la

aplicación de

filtros espaciales [Gon87] [Mar93]. Sea

X f

t) el

espectro resultante de la señal temporal

x t).

Veamos a

X f,t)

como

una imagen en dos dimensiones, donde el tiempo es un eje, la frecuencia

otro,

y

el valor

de

la intensidad

se

codifica en intensidad del pixel

de

la

imagen. La relación entre las variables

n, v y f, t

depende

de

la

frecuencia

de

muestreo, tamaño de la ventana aplicado

y

el

desplazamiento temporal

de

las ventanas.

La

variable

n

hace referencia a

la posición del pixel en el eje y, representando una frecuencia

determinada

y

la variable v hace referencia a la posición en

el

eje

X,

representando tiempo.

f

X(n,v)

X'(n,v)

n=1

h n;v)

n O

v=O

v l

Figura

13.

Imagen de dos dimensiones.

La función

de

filtrado se describe en la parte derecha de la Figura

13,

siendo

h n,v)

la respuesta del filtro a la función impulso. Debemos

convolucionar ambas funciones para obtener la salida:


22/30

Una visión práctica en el uso de la Transformada de Fouríer

'

97

X (n,v)

=

X(n, v)*h(n,

v)

=

¿X(i , j )h(n- i ,v-

j).

i j

Se aplica el filtro espacial cuando h(n,v) tiene un rango reducido;

por ejemplo h 2,2).

El uso de filtros espaciales se describe en la referencia de Y SHIN

[Shi97]. Propone el filtro de la Figura

14

Utiliza una escala de grises de

256 niveles y una ventana Hamming.

1

1

1

1/9

1

~

1

1 1

1

Figura 14. Pesos del filtro.

Presenta

el

ejemplo con la frase red and blue shoes . Se aprecia que

la imagen mejora, pero consideramos que sigue teniendo excesivo ruido

de fondo.

Más interesante nos parece la aportación de

V R

CHARI [Cha95].

Plantea

un

método adaptativo para mejorar el espectro de Fourier. Se

basa en que el cambio de frecuencias y amplitud de los formantes se

produce de forma lenta (en rangos de tiempo entre 2ms y 8ms). Describe

un algoritmo que enfatiza los formantes, no los extrae. El procedimiento

que describe está formado por tres etapas:

1 Aísla las zonas que corresponden a sonido de voz.

2. Determina las regiones donde existen cambios bruscos. Se

pretende aplicar el algoritmo a las regiones que no contengan

cambios bruscos.

3 Se aplica el algoritmo de suavizado que se describe a

continuación.

Se trabaja con el espectro como un esquema bidimensional, donde el

eje x es el tiempo y l eje y las frecuencias. Por cada punto se define un

rectángulo

(w (r) de

longitud R y se calcula


23/30

98

J.

Bernal,

P.

Gómez

y J.

Bobadilla

1

d

n

k B)

= -

¿a n

+

entero(rcos(B»,k

+

entero(rsen(B»)w (r)

, R r=-oo

donde a(n,k) = X(nL,k)1

2

•

La ventana rota 45° con respecto del eje de

abscisas. Se busca el ángulo que hace mínima la expresión

la(n,k) -dn,k(B)I, que corresponde a la máxima correlación. Se defme

el nuevo valor como a (n,k) =dn k B

o

) siendo

Bo

el ángulo

anteriormente calculado. Este nuevo valor se almacena en otra tabla para

que no afecte a cálculos posteriores. El método demuestra cierta eficacia.

El método de reasignamiento fue propuesto por K. KODERA

[Kod78]. Describe cuatro métodos (MS, ME, MWM Y MMWM),

llegando a la conclusión de que los mejores resultados se obtienen con el

método MMWM; consiste en asignar el valor del espectrograma

al

centro de gravedad del valor de la energía de la ventana, en lugar del

centro de la ventana como el método MWM. Los nuevos puntos de

reasignamiento vienen definidos por:

, 1

8


24/30


siendo h

=

t· h t),

y Dh

=

: STFT

h

es la Transformada de

Fourier utilizando la ventana h h representa la ventana multiplicada por

t

y

h

la derivada respecto a t

En los resultados obtenidos aparecen dos efectos: por una parte,

realza los formantes y, por otra, permite discriminar entre dos formantes

que estaban fusionados, aunque consideramos que el ruido que

permanece es muy elevado.

La primera cuestión que nos debemos plantear es la elección del

tamaño de la ventana. Hasta ahora siempre

se

ha hablado de banda ancha

300Hz) y banda estrecha 45Hz); algunos autores proponen una

combinación de ambas. Pensamos que estos valores extremos son

herencia del espectrógrafo, pero en principio podriamos tomar cualquier

tamaño. Para obtener siempre el mismo número de frecuencias,

rellenaremos con ceros hasta un total de 256 puntos normalmente se

toman 256 o 512 puntos).

Se ha realizado un conjunto de pruebas cambiando el tamaño de la

ventana desde su valor más pequeño 300Hz) hasta su valor más grande

45Hz). En la figura siguiente tenemos tres espectros representativos.

Para que los resultados se puedan comparar con mayor facilidad se ha

normalizado la energía y el número total de ventanas temporales

calculadas.


25/30

1

A):

5000

4000

3000

2000

1000

3000

2000

1000

B):

se9· 0 1

se9· 0 1

Bernal P. Gómez

y

Bobadilla

0 2 0 3 0 4

0 1

0.2

0 3 0 4


26/30

Una visión práctica en el uso de la Transform a de Fourier

.

..

101

5

000

Hz

C):

5e9 ·

0,1

0,2

0 3 0,4

o

D):

Figura 15. Comparación de espectros de distin to tamaño de ventana.

Corresponde a la secuencia ia

.

Figura A: 7 muestras, figura B: 245

muestras figura C: 90 muestras. Figura D: paleta de colores utilizada.

La sensación visual del espectro en banda ancha

es

que existe

un

rayado vertical, y en banda estrecha que existe un rayado horizontal,

mientras que para

el

espectro de ancho de banda de 123Hz 90 muestras

de señal) parece equilibrado.

Nuestra conclusión es que el tamaño de ventana que da unos

resultados más exactos

es

el correspondiente

al

período del fundamental

(pitch),

conclusión que coincide con la opinión de R SMITS [Smi94].

La cuestión que se plantea a continuación es

si

utilizamos ventanas

variables que se adapten continuamente a la frecuencia fundamental. Ello

generaría el problema de extraer el pitch de forma automática y

provocaría inexactitudes por los errores de la extracción.


27/30

102 J Berna , P. Gómez y J Bobadilla

Después de analizar

el

estado de los detectores del fundamental se

comprobó que ésta era una cuestión compleja. Se realizaron un conjunto

de pruebas comprobando que utilizando un tamaño constante similar l

valor de la frecuencia del fundamental media daba unos resultados lo

suficientemente buenos para no introducir una etapa de captura

automática del

mismo.

Respecto

l

número de ceros se considera que con rellenar hasta

256 da una calidad suficiente. Se podría utilizar 512 o 1.024 pero es una

cuestión de definición de pantalla del ordenador más que una cuestión

de claridad del espectro.

5 Hz

4 Hz

3 Hz

2 Hz

lOOOH


28/30

Una

visión práctica en el uso de

la

Transformada de Fourier ... 103

s

Figura 1

6.

Espectro de la secuencia ia . Tamaño de ventana 90 muestras.

Fr ecuencia de muestreo

11

.025 Hz . Izquierda: 128 puntos, centr

o:

256

puntos derecha

512 u t

os.

7.

ON LUSIONES

Hemos descrito de una fonna general práctica la Transfonnada de

Fourier para su uso correcto mediante la implementación con ordenador,

mencionando el efecto que nos produce los distintos parámetros que

intervienen en el cálculo de los espectros variantes en el tiempo.

Prácticamente en todas las referencias se habla de espectros en

banda ancha 300Hz) banda estrecha 40Hz); algunos autores proponen

la combinación de ambas. Pensamos que son herencia de los

espectrógrafos recomendamos

un

tamaño equivalente al periodo del

fundamental. Dependería de la voz en cuestión, pero sería válido

considerar, después de

un

conjunto de pruebas empíricas, que 110Hz


29/30

104 J Bemal P. Gómez y J Bobadilla

podría ser una media válida. Ello nos lleva a ventanas de 100 muestras

para un periodo de muestreo de 11025Hz. El número de ceros que

recomendamos es rellenar hasta 256. Elegimos esta cifra por se

fácilmente computable mediante la Transformada Rápida de Fourier.

La ventana tipo Hamming es la que mejores resultados nos ha dado

y es la utilizada en general por todas la publicaciones.

El aspecto general de los espectros es muy ruidoso, y los métodos

utilizados para realzarlos no consiguen

el

nivel de calidad deseable.

Consideramos que este es un tema importante y que existen muchos

aspectos por investigar. El espectro es una herramienta muy importante

para el estudio de la fonética acústica y por lo tanto es un campo de

interés para una mayor investigación.

8

REFERENCIAS

[Aug94] F Auger P Flandrin, Then Why and How

of

Time

Frequency Reassignment ,

IEEE Symp. On Time-Frequency nd

Time-ScaleAnalysis octubre 1994, pp. 197-200.

[Bri88] E

O

Brigham, The Fast Fourier Translorm nd it{ Applications

Prentice-Hall, Gran Bretaña, 1988.

[Bri95] R Briston-Johnson,

A

detailed Analysis of a time-domain

format-corrected pitch-shifting algorithm , 1 Audio Eng. Soc. vol.

43(5), mayo 1995, pp. 340-352.

[Coh89] L. Cohen, Time-Frequency Distributions - A Review , Proc.

IEEE vol. 77(7), julio 1989, pp. 941-981.

[Coo93] M Cooke, S. Beet M. Crawford,

Visual Representations 01

Speech Signals Wiley, Inglaterra, 1993.

[Cha95]

V

R Chari C. Y. Espy-Wilson, Adaptative Enhancement oí

Fourier Spectra ,

IEEE Trans. Speech and Audio Processing

vol.

3(1), enero 1995, pp. 35-39.


30/30

Una visión práctica en

l

uso de la Transformada de Fourier '

105

[Che91] S. Cheung J. S. Lim, Combined Multi-Resolution

(Wideband/Narrowband) Spectogram , Proc. ICASSP 91, 1991, pp.

457-460.

[Shi97] Y. Shin, H. Choi Ch. Kim,

A New

Method

For

Enhanced

Spectrogram ofSpeech ,

Proc. ICSP 97,

agosto 1997, pp. 623-628.

[Gon87]

R C.

Gonzalez P. Wintz,

Digital Image Processing,

Addison-Wesley, EE.UU., 1987.

[Mar87] J. Martí Roca, FFT como herramienta de análisis en fonética ,

Estudios defonética experimental,

mayo 1987.

[pla95] F. Plante W. A Ainsworth, Formant Tracking Using

Reassigned Spectrum ,

Proc. EUROSPEECH 95,

septiembre 1995,

pp. 741-744.

[Rab93]

L. R

Rabiner B.

H.

Juang,

Fundamentals of Speech

Recognition,

Prentice-Hall, New Jersey, 1993.

[Ran95] M. Rangoussi A. De1opoulos, Recognition

ofunvoiced

stops

from their time-frequency representation ,

Proc. ICASSP 95,

vol.

1

1995, pp. 792-795.

[Smi94] R Smits, Accuracy of quasistationary analysis of high1y

dynamic speech signals ,

JASA,

vol. 96(6), diciembre 1994, pp.

3401-3415.

[So184] M. J. Solé Sabater,

La

experimentación en fonética y

fonología ,

Estudios

e

o n é t i ~ experimental, vo1.

1, pp. 1-70.

[Th094] T. G. Thomas, P. C. Pandey S. D. Agashe,

A

PC-Based

Multi-resolution Spectrograph ,

Inst. Electronics Telecom. Engrs.,

vol. 40(2 3), marzo-junio 1994, pp.105-108.

una vision practica herramienta para el analisis espectral de la voz

Documents

analisis espectral

informe análisis espectral voz

analisis modal espectral

vision y voz capítulo 04 clase 2 revisado

vision y voz capítulo 03 clase 2 revisado

vision y voz capítulo 10 clase 3 revisado

vision y voz capitulo 2 clase 2 revisado

vision y voz capítulo 10 clase 2 revisado

practico analisis espectral

vision y voz capítulo 10 clase 4 revisado

vision y voz capitulo 09 clase 1

vision y voz capitulo 09 clase 5 revisado

vision y voz capítulo 06 clase 4 revisado

vision y voz capítulo 04 clase 3 revisado

vision y voz capitulo 07 clase 3 revisado

vision y voz capitulo 1 clase 2 revisado

música espectral 2

vision y voz capítulo 07 clase 5 revisado

vision y voz capitulo 1 clase 1 revisado

modal espectral