generación sintética de sonido direccional

Universidad de Sevilla

Departamento de Teoría de la Señal y Comunicaciones

Escuela Superior de Ingenieros Ingeniería de Telecomunicación

PROYECTO FIN DE CARRERA

GENERACIÓN SINTÉTICA DE SONIDO

DIRECCIONAL.

Autor: Antonio Emilio Muñoz Yélamo

Director: Prof. Dr. José Ramón Cerquides Bueno

a mis padres

Quiero agradecer especialmente a D. José

Ramón Cerquides Bueno por darme la posibilidad de

realizar este proyecto en el Departamento del Área

de la Señal.

A Mónica, porque eres lo mejor que me ha

pasado y no entiendo la vida sin ti.

Gracias a mis padres y hermanos por

ayudarme y comprenderme en la distancia, sin

vosotros no estaría hoy aquí.

Quiero también mostrar mi gratitud a

Mammen, Mary y Marcos, me habéis dado un apoyo

que sólo una verdadera familia sabe dar.

Gracias a mis amigos de Córdoba, del

Colegio Mayor y de la Escuela, el estar con vosotros

hace que me sienta afortunado.

I

Generación Sintética de Sonido Direccional

ÍNDICE DE CONTENIDOS

1.- INTRODUCCIÓN Y OBJETIVOS...........................................................................................................1 1.1.- Introducción.............................................................................................................................1 1.1.- Objetivos .................................................................................................................................3

2.- ACÚSTICA. .............................................................................................................................................4 2.1.- Introducción.............................................................................................................................4

2.1.1. Reseña Histórica ..........................................................................................................5 2.1.2.- Áreas de Trabajo en Acústica .....................................................................................7

2.2.- Características de las Ondas Acústicas ..................................................................................8 2.2.1.- Ecuación de Onda.......................................................................................................9 2.2.2.- Ondas Planas............................................................................................................10 2.2.3.- Ondas Esféricas ........................................................................................................12

2.3.- Características del Sonido ....................................................................................................13 2.3.1.- Velocidad ..................................................................................................................13 2.3.2.- Longitud de onda.......................................................................................................14 2.3.3.- Presión Acústica........................................................................................................16 2.3.4.- Nivel de Presión sonora (SPL) ..................................................................................16 2.3.5.- Intensidad Sonora .....................................................................................................17 2.3.6.- Nivel de Intensidad Sonora (IL) .................................................................................18 2.3.7.- Nivel de Potencia Acústica (PWL).............................................................................18

2.4.Micrófonos...............................................................................................................................20 2.4.1.- Transductores básicos ..............................................................................................21 2.4.2.- Direccionabilidad. Patrones básicos de los micrófonos.............................................28 2.4.3.- Micrófonos de Configuración variable .......................................................................31

3.- CIENCIAS BÁSICAS DEL SONIDO 3D................................................................................................34 3.1.- Perspectiva Físico Acústica ..................................................................................................35 3.2.- Perspectiva Psicoacústica.....................................................................................................39 3.3.- Perspectiva Neurofisiológica .................................................................................................43

3.3.1.- Sistema periférico......................................................................................................43 3.3.2.- Fisiología del Sistema Auditivo .................................................................................44

4.- MÉTODO DE ANÁLISIS 1. MODELO DE PROPAGACIÓN DE ONDAS ESFÉRICAS ......................65 4.1.- Introducción...........................................................................................................................65 4.2.- Ángulo y distancia .................................................................................................................65 4.3.- Modelo de fuente cercana y fuente lejana.............................................................................66

4.3.1.- Modelo Fuente Cercana............................................................................................66 4.3.2.- Modelo Fuente Lejana...............................................................................................67 4.3.3.- Intensidad Sonora .....................................................................................................68

4.4.- Cuantificación y retardos enteros..........................................................................................69 4.5.- Movimiento............................................................................................................................73

II


5.- MÉTODO DE ANÁLISIS 2. HEAD RELATED TRANSFER FUNCTION. (HRTF)...............................75 5.1.- Técnicas de medida de HRTF...............................................................................................75

5.1.1.- Modelo de cabeza esférica .......................................................................................75 5.1.2.- Modelado de Eco-Oreja ............................................................................................77 5.1.3.- Modelado empírico....................................................................................................77

5.2.- Colaboración con la Universidad de Wisconsin ....................................................................79 5.3.- Montaje .................................................................................................................................80

5.3.1.- Técnicas de Medida ..................................................................................................81 5.3.2.- Procedimiento de Medida..........................................................................................83 5.3.3.- Medidas de Altavoz y auriculares..............................................................................84 5.3.4.- Los datos...................................................................................................................85

5.4 Características de la HRTF .....................................................................................................86 5.4.- Diferencias individuales.........................................................................................................92 5.5.- Reproducción estéreo del sonido 3D ....................................................................................95 5.6.- La Reproducción estéreo de los Sonidos 3D ........................................................................96

5.6.1.- Filtrado Direccional....................................................................................................97 5.7.- Procesado .............................................................................................................................99

5.7.1.- Estático .....................................................................................................................99 5.7.2.- Dinámico ...................................................................................................................99

6.- INTERFAZ DE USUARIO....................................................................................................................103 6.1.- Requisitos básicos ..............................................................................................................103 6.2 Funcionamiento.....................................................................................................................105

6.2.1.- Análisis Estático ......................................................................................................106 6.2.2.- Análisis Dinámico ....................................................................................................113 6.2.3.- Estadísticas.............................................................................................................117

7.- CONCLUSIONES Y LÍNEAS DE DESARROLLO ..............................................................................125 7.1 Conclusiones.........................................................................................................................125 7.2.- Líneas de desarrollo............................................................................................................126

8.- BIBLIOGRAFÍA Y REFERENCIAS.....................................................................................................128

ANEXO I : POSICIONES ANGULARES Y RESULTADOS DE LAS PRUEBAS.....................................132

ANEXO II : TIEMPOS DE PROCESADO.................................................................................................137

1


1.- Introducción y Objetivos

1.1.- Introducción

El sonido y su tratamiento digital han experimentado en los últimos años

un importante desarrollo debido en gran parte, a una mejora notable en los

sistemas de obtención y reproducción del sonido. El sector multimedia y los

sistemas de vídeo y DVD domésticos se han visto ampliamente mejorados.

En la actualidad los hogares se ven invadidos por electrodomésticos

potentes y de prestaciones elevadas, en la mayoría de los casos acompañados

de un elevado número de altavoces, que hacen que surja la necesidad de

sacar rendimiento a esta inversión.

Los ordenadores cada vez son más potentes, no son sólo las

herramientas para llevar las cuentas o procesadores de texto para escribir

cartas, se convierten en elementos que aportan características multimedia

donde los niños, y los no tan niños, juegan y se divierten. Es muy común que

los PC´s traigan incorporados un DVD y un numeroso juego de altavoces, esta

evolución trae consigo una necesidad de mercado dedicada a la investigación

de imagen y sonido. Es precisamente el sonido el tema fundamental de este

proyecto y concretamente el papel que tiene la direccionalidad del mismo en la

época en la que vivimos.

2


Los sistemas de sonido denominados “Home Cinema” cada vez son más

habituales en los hogares. Estas inversiones tanto del consumidor al comprar

los equipos, como del fabricante en investigación y desarrollo, exigen un

desarrollo paralelo en las técnicas de reproducción que saquen el máximo

rendimiento a estos sistemas multicanal, y el sonido direccional es uno de los

aspectos fundamentales en este desarrollo.

El proyecto pretende implementar un sistema alternativo de sonido

direccional y sensación espacial para ser reproducido en auriculares. Esto

tiene la dificultad añadida de que sólo disponemos de 2 fuentes de sonido, en

lugar de hasta 6 como los sistemas 5.1. Mediante los dos minialtavoces

situados dentro de los auriculares pretendemos emular un entorno

tridimensional.

La reproducción estéreo tradicional provoca alguna información espacial,

pero no recrea lo suficiente la dimensionalidad completa como si estuviésemos

en una habitación (por ejemplo en un concierto de música real), más bien

provoca una sensación como si estuvieses en un espacio tridimensional. La

reproducción por medio de altavoces crea la impresión de que estás en frente

de un espacio de sonido, y la reproducción mediante auriculares crea la

impresión de que la fuente de sonido está en la propia cabeza.

Es complicado que cuando escuchamos un sonido grabado de la forma

habitual podamos recibir la información sensorial sobre los “eventos”

almacenados en el archivo, no podemos interactuar con esos fenómenos

grabados para actualizar, testear y refrescar nuestro entorno cognoscitivo (no

podemos mover la cabeza para asegurarnos de donde viene un sonido, o para

ver la fuente del mismo). Estamos relegados al rol de un observador inmóvil

con imposibilidad de mejorar nuestra información sensorial.

3


1.1.- Objetivos

Las señales de sonido monofónicas van a ser tratadas mediante dos

algoritmos para convertirlas en estereofónicas, de modo que se recibirán en

cada unos de los oídos señales distintas, procesadas según:

• La teoría de propagación de ondas esféricas

• Procesado mediante Funciones de Transferencia relativas a la

cabeza o HRTF (Head Related Transfer Functions)

Estas señales de salida estereofónicas serán testeadas por una serie de

voluntarios que medirán la bondad de la direccionalidad creada por los

algoritmos implementados.

La herramienta de análisis y reproducción de sonidos direccionales

presentada en este proyecto permite, de una manera fácil e intuitiva, la carga,

procesado, reproducción y visualización de las señales de sonido de entrada y

salida. También habilita la posibilidad de que cualquier persona que quiera

comprobar la direccionalidad del sonido pueda hacerlo, e incluso pueda

participar en la elaboración de las estadísticas convirtiéndose en voluntario del

experimento.

El objetivo final del proyecto es comprobar cómo de buenos son estos

tratamientos a la señal de sonido, para proporcionar direccionalidad en el

espacio. También se desarrollará un método para crear sensación de

movimiento sobre un sonido monofónico. Este algoritmo emulará el

movimiento al que se somete una fuente de sonido al realizar una traslación a

lo largo de una curva.

4


2.- Acústica.

2.1.- Introducción

La Acústica es la ciencia que estudia la producción, transmisión y

percepción del sonido tanto en el intervalo de la audición humana como en las

frecuencias ultrasónicas e infrasónicas.

Dada la variedad de situaciones donde el sonido es de gran importancia,

son muchas las áreas de interés para su estudio: voz, música, grabación y

reproducción de sonido, telefonía, refuerzo acústico, audiología, acústica

arquitectónica, control de ruido, acústica submarina, aplicaciones médicas, etc..

Por su naturaleza constituye una ciencia multidisciplinaria ya que sus

aplicaciones abarcan un amplio espectro de posibilidades, tal como se observa

en la Figura 2.1.

5


Figura 2.1 Ciencias relacionadas con la Acústica.

2.1.1. Reseña Histórica

En la antigüedad, filósofos griegos como Chrysippus (c. 240 AC) y

Aristoteles (c. 384-322 AC) así como el arquitecto romano Vetruvius (c. 25 AC)

teorizaban sobre la naturaleza del sonido.

En 1657 Gaspare P. Schotto en su libro Magiae Universalis publicado en

Herbipoli, actual Wurzburg, describió ejemplos de análisis de ondas sonoras

así como su generación mediante instrumentos basados en agua.

Se considera que el comienzo del estudio científico de las ondas

acústicas corresponde a Marin Mersenne (1988-1648), un Francés considerado

6


el padre de las acústica, y a Galileo Galilei (1564-1642) con su "Discursos

Matemáticos concernientes a dos nuevas ciencias" (1638).

Isaac Newton (1642-1727) desarrolló la teoría matemática de la

propagación del sonido en su "Principia" en 1686.

Habrían de transcurrir muchos años hasta que, en el siglo XIX, los

trabajos realizados por Stokes, Thomson, Lamb, König, Tyndall, Kundt y otros

precedieron el importante desarrollo de Helmholtzen su Teoría fisiológica de la

música en 1868 para luego llegar al gran tratado de dos volúmenes de Lord

Rayleigh " Teoría del Sonido" en 1877 y 1878.

Habría que esperar hasta el período de 1900-1915 para que, como

señala Leo L Beranek, W.C. Sabine, en una serie de artículos, eleve la acústica

arquitectónica al grado de Ciencia. Es de destacar también, el enorme aporte

de los laboratorios BELL a la Acústica, Electroacústica y Psicoacústica durante

la primera mitad de este siglo.

W. Herschell observaba en el siglo pasado que, en general, el

fenómeno sonoro estaba acompañado de una serie de eventos:

• La comunicación de dicho movimiento al aire o a cualquier otro

intermediario interpuesto entre el cuerpo sonoro y el oído.

• La propagación de este movimiento, que pasa de una molécula a otra

del cuerpo intermediario en una sucesión adecuada.

• La transmisión de dicho movimiento del medio ambiente al oído.

• La transmisión que se produce desde el oído a los nervios auditivo

por determinado mecanismo.

• La producción de la sensación.

7


Estos puntos determinan aún hoy , los capítulos básicos de la acústica

moderna: Generación, Irradiación y Propagación del sonido así como también

su interacción con el ambiente mediante los fenómenos de Absorción,

Reflexión o Difracción del sonido, y por último su Percepción.

2.1.2.- Áreas de Trabajo en Acústica

Algunas de las áreas de trabajo en acústica son:

Acústica Arquitectónica. Estudia la interacción del sonido con las

construcciones. Participa en el diseño de: salas de conciertos,

auditorios, teatros, estudios de grabación, iglesias, salas de reuniones,

salones de clases, etc.

Ingeniería Acústica. Estudia el diseño y utilización de transductores e

instrumentos de medición de sonido. Incluye la instrumentación para

diagnóstico médico, sísmico, grabación y reproducción de voz y música.

Una rama de la Ingeniería Acústica es la Electroacústica la cual trata con

micrófonos y Altavoces.

Acústica Musical. Combina elementos de Arte y de Ciencia al incluir el

diseño de instrumentos, el uso de sistemas de grabaciones, la

modificación electrónica de la música con el estudio de su percepción.

Su campo de trabajo está en la Industria de la grabación de música y

cine, y en la Industria de la construcción de instrumentos. A esta área

pertenece el llamado Ingeniero de Sonido.

Control de Ruido y Vibraciones. Esta área cobra cada vez mayor

importancia dado el aumento en el reconocimiento del ruido como un

factor de contaminación que afecta seriamente la salud. Su campo de

trabajo está en las fábricas, en los organismos de control gubernamental

y en asesorías a los arquitectos. También tiene un campo importante en

8


el mantenimiento preventivo de maquinarias mediante el análisis de sus

vibraciones.

Bioacústica y Acústica médica. Estudia la interacción entre las ondas

sonoras y los cuerpos humanos y animales. Se ha desarrollado

enormemente el uso de ultrasonido como herramienta de diagnóstico y

de tratamiento. También es importante el campo de las ayudas auditivas

y de implantes para personas con defectos en la audición.

Se verá a continuación los fenómenos que ocurren en la Generación,

Transmisión, Recepción, Tratamiento acústico y Electrónico y Percepción por el

sistema auditivo de las señales de audio con el fin de poder intervenir en su

incidencia en el entretenimiento, calidad de comunicación, confort o en la salud

de las personas expuestas a sus excesos.

2.2.- Características de las Ondas Acústicas

El sonido se produce mediante un tipo de ondas longitudinales, esto es,

las moléculas de un medio que vibran en la misma dirección de propagación.

Figura 2.2 Propagación del sonido en el aire.

9


2.2.1.- Ecuación de Onda

Para caracterizar ondas acústicas basta con describir el desplazamiento

instantáneo de las moléculas o su velocidad. Para obtener la ecuación que

define el comportamiento de las ondas acústicas tenemos que de acuerdo con

la conservación del momento:

tvpgrad

∂∂

−= 0)( ρ (2.1)

donde:

p = Presión sonora.

v = Vector de velocidad de partícula.

t = Tiempo.

ρ0 = Densidad estática del gas.

y de acuerdo con la ley de conservación de la masa:

tvdiv

∂∂

=ρ

ρ )(0 (2.2)

donde r es la porción dependiente del tiempo de la densidad del gas.

En estas ecuaciones se asume que los cambios en p y en r son

pequeños comparados con los valores estáticos y que además, la velocidad de

partícula v es mucho menor que la velocidad del sonido.

Si suponemos que el gas es ideal tendremos:

273100 +ΘΘ

−==

δκ

κρρ

κpp

(2.3)

10


donde:

κ = constante adiabática ( 1.4 para el aire )

Θ = Temperatura °C.

δΘ = Variación de temperatura.

Con las ecuaciones anteriores se puede eliminar el vector de velocidad

de partícula y la parte variable de la densidad r , lo cual resulta en la siguiente

ecuación diferencial:

tppc 2

22

∂∂

=∆ (2.4)

donde:

0

02

ρκpc = (2.5)

donde p0 = Presión atmosférica.

Esta es la "Ecuación de Onda" que define la propagación de las ondas

acústicas.

2.2.2.- Ondas Planas

En el caso en que se tengan frentes de ondas planos en una sola

dirección la ecuación de onda se convierte en:

2

2

2

22

tp

xpc

∂∂

=∂∂

(2.6)

cuya solución general es :

11


)()(),( xctGxctFtxp ++−= (2.7)

donde c es la velocidad del sonido.

Si hacemos que F y G sean funciones exponenciales con argumentos

imaginarios tendremos:

)()( ˆˆ),( kxtixctik epeptxp −− == ω (2.8)

donde:

ck ω

= (2.9)

w=2pf= frecuencia angular

Cuya parte real es:

)cos(ˆ),( kxtptxp −= ω (2.10)

Tomando en cuenta la ecuación (2.1) tenemos que la velocidad de

partícula tiene, para las ondas planas, una sola componente paralela al eje x:

cppk

xp

ivv x

000

11ρωρρω

==∂∂

−== (2.11)

donde: ροc se define como la impedancia característica del medio que, en el

caso del aire es igual a 414 Kgm-2s-1.

12


Figura 2.3 Ejemplo de ondas Planas

2.2.3.- Ondas Esféricas

En el caso de las ondas esféricas la ecuación (2.4) se convierte en:

2

2

2

2 122 t

pcr

prr

p∂∂

=∂∂

+∂∂

(2.12)

y, suponiendo señales armónicas, tenemos:

022

22

=+∂∂

+∂∂ pk

rp

rrp

(2.13)

Una solución de esta ecuación es:

reCtrp

krti )(

),(−

=ω

(2.14)

donde C es una constante.

13


Con la ecuación (2.14) y la (2.1) tenemos que:

+=−=

ikrcp

drdp

icvr

1111

00 ρωρ (2.15)

donde se observa que si r es muy grande vr se iguala a vx, lo cual significa que,

para distancias grandes, los frentes de ondas esféricos se pueden aproximar

por frentes de ondas planos.

2.3.- Características del Sonido

2.3.1.- Velocidad

La Velocidad del sonido depende de la masa y la elasticidad del medio

de Propagación.

En el aire se tiene que:

ρ04,1 Pc = (2.16)

donde :

c = velocidad del sonido

P0 = Presión atmosférica.

ρ = Densidad del aire

A 22 C° se tiene que

P0 = 105 newtons/m2.

ρ = 1,18 Kg/m3

14


por lo cual c = 344 m/s.

Asumiendo que el aire se comporta como un gas ideal tenemos que:

2731332 tc += (2.17)

Donde t = temperatura en C°.

Figura 2.4 Variación de la velocidad del sonido con la temperatura

2.3.2.- Longitud de onda

Consiste en la distancia que separa a dos moléculas que vibren en fase,

en un ciclo se cumple que:

fc/ =λ (2.18)

donde:

c = Velocidad del sonido en m/s

f = frecuencia de la onda sonora en Hz

λ = longitud de onda en m

15


Figura 2.5 Variación de la longitud de onda del sonido con la frecuencia.

En la Figura 2.5 se observa que, para el rango de audición, las

longitudes de ondas del sonido van desde los 17.2 metros para 20 Hz hasta

1.72 cm para 20KHz, siendo este un parámetro fundamental a tomar en cuenta

en la Acústica Arquitectónica ya que el comportamiento de un dispositivo de

control acústico es dependiente de la longitud de onda del sonido.

Como la Velocidad del sonido es dependiente de la temperatura, es

importante que se tome en cuenta la incidencia de una variación de esta en la

longitud de onda del sonido.

Figura 2.6 Variación de la longitud de onda del sonido con la temperatura para una frecuencia de

100 Hz.

16


2.3.3.- Presión Acústica

Al aplicar una fuerza sinusoidal a las partículas de aire, éstas se

comprimen y se expanden alternadamente, lo que se refleja en pequeñas

variaciones de la presión atmosférica lo cual se mide en unidades llamadas

Pascal ( 1 Pascal = 1 Newton/m2) .

Además se tiene que 105 Pascal = 1 atmósfera. El mínimo sonido que se

puede percibir es de 2x10-5 Pascal.

2.3.4.- Nivel de Presión sonora (SPL)

Es una medida que relaciona el valor RMS de la presión acústica con el

mínimo audible promedio.

0

log20PPSPL rms= (2.19)

donde

PascalP 50 10*2 −= (2.20)

17


Figura 2.7 Niveles de presión sonora.

2.3.5.- Intensidad Sonora

Es el valor medio de la energía que cruza una unidad de área

perpendicular a la dirección de propagación.

Figura 2.8 Definición de la Intensidad Sonora.

18


Este valor depende del campo acústico donde se encuentre el sonido:

a) Para una onda acústica plana progresiva (plana o esférica) se tiene que

la transferencia de energía ocurre en la dirección de propagación luego:

cpIρ

2

= (2.21)

b) En campo difuso cerca de las paredes se tiene que:

cpIρ4

2

= (2.22)

2.3.6.- Nivel de Intensidad Sonora (IL)

Es una medida relativa a una referencia:

0log10 I

IIL = (2.23)

donde la referencia es:

212

0 10mwI −= (2.24)

2.3.7.- Nivel de Potencia Acústica (PWL)

Consiste en una medida relativa a un valor de referencia de potencia y

se define como:

0

log10WWPWL = (2.25)

donde

watiosW 120 10−= (2.26)

19


y W es la potencia irradiada por la fuente

Figura 2.9 Niveles típicos de potencia acústica.

Recordando que W es la potencia total generada mientras que I es la

porción que fluye por una unidad de área se tiene que, para una fuente puntual

que irradia ondas esféricas:

24 rWIπ

= (2.27)

donde r = distancia de medición.

Además se tiene que como:

cprIrW

ρπ

π22

2 44 == (2.28)

Se cumple que:

=

cWprPWL

ρπ

0

224log10 (2.29)

20


por lo cual:

+

=

cWPr

PpPWL

ρπ

0

20

2

20

2 4log10log10 (2.30)

dBrSPLPWL 11)log(20 ++= (2.31)

dBrPWLSPL 11)log(20 −−= (2.32)

Donde se deduce que, en campo libre, cada vez que se dobla la

distancia el nivel de presión sonora disminuye 6 dB.

2.4.Micrófonos

Los micrófonos son los transductores encargados de transformar

energía acústica en energía eléctrica, permitiendo por lo tanto el registro,

almacenamiento, transmisión y procesamiento electrónico de las señales de

audio. Son dispositivos ligados intrínsecamente a los altoparlantes (altavoces y

auriculares), constituyendo ambos transductores los elementos mas

significativos en cuanto a las características sonoras que aportan a las señales

de audio.

21


Figura 2.10 Familia de micrófonos

No existe el micrófono ideal, debido a la razón de que no se tiene un

solo ambiente acústico o un solo tipo de música. Es por ello que, el ingeniero

de sonido tiene a su disposición una amplia gama de micrófonos, cada uno de

los cuales sirve para ciertos casos particulares.

2.4.1.- Transductores básicos

Los Micrófonos se pueden clasificar de acuerdo con la forma de

transducción, en otras palabras, dependiendo de la forma como se transforma

la señal acústica en eléctrica.

2.4.1.1.- Micrófonos de Carbón

Fueron los micrófonos utilizados durante mucho tiempo en los teléfonos,

su principio de funcionamiento se basa en el cambio de resistencia en los

granos de carbón al ser comprimidos por el diafragma al recibir este las

variaciones de presión sonora.

22


Figura 2.11 Micrófono de carbón

Figura 2.12 Respuesta del Micrófono de carbón

De la curva del micrófono de carbón se deducen sus pobres

características frecuenciales que han hecho posible su casi desaparición del

mercado (excepto en teléfonos económicos).

2.4.1.2.- Micrófonos Piezoeléctricos

Estos micrófonos se basan en la capacidad que tienen los cristales

piezoeléctricos de generar cargas eléctricas al ser sometidos a presión (En

griego piezein = presión).

23


Figura 2.13. Micrófono piezoeléctrico

Figura 2.14 Respuesta de frecuencia de un Micrófono piezoeléctrico

Aunque su respuesta es mejor que el micrófono de carbón, no llega a

ser suficientemente bueno para grabaciones profesionales, por lo que se utiliza

sólo en micrófonos pequeños para voz.

2.4.1.3.- Micrófonos Dinámicos (Bobina móvil)

Se basan en el principio de inducción electromagnética ( son la versión

dual de los Parlantes de bobina móvil), según el cual si un hilo conductor se

mueve dentro de un campo magnético, en el conductor se inducirá un voltaje

de acuerdo con:

Blv e = (2.33)

24


donde:

e = potencial inducido, en voltios.

B = Densidad de flujo magnético, en teslas.

l = longitud del conductor, en metros.

v = velocidad del movimiento, en metros/s.

Son micrófonos muy utilizados por su resistencia, confiabilidad y buena

respuesta en frecuencia.

Figura 2.15 Esquema de un Micrófono dinámico

Figura 2.16 Micrófono Dinámico

2.4.1.4.- Micrófono de Cinta

Este tipo de micrófono también trabaja bajo el principio de inducción

magnética y responde a la diferencia de presión sonora entre los dos lados de

25


la cinta y por eso recibe también el nombre de micrófono de gradiente de

presión o de velocidad o bidireccional.

Figura 2.17 Micrófono de Cinta (Ribbon).

Debido a que responde a la diferencia de presión, este micrófono tiene

una respuesta polar con un máximo en el eje perpendicular a la lámina,

mientras que no responde a los sonidos laterales.

Figura 2.18 Respuesta frontal de un micrófono de Cinta

26


Figura 2.19 Respuesta lateral de un micrófono de Cinta

La respuesta polar es bidireccional y está indicada en la figura 2.22.

2.4.1.5.- Micrófono Capacitor (Condensador)

Recordemos que un Condensador almacena carga cuando se le

suministra un potencial eléctrico. La ecuación que describe el fenómeno es:

CVQ = (2.34)

donde:

Q = carga, en coulombs.

C = capacitancia, en faradios.

V = potencial, en voltios.

En un micrófono capacitivo la placa posterior está fija, mientras que la

otra (el diafragma) se desplaza al recibir variaciones de presión, ya que el

interior del micrófono está a un presión constante igual a la presión

atmosférica.

La variación de la capacitancia, al cambiar la distancia entre las placas,

producirá una variación de voltaje:

27


CCQVV

∆+=∆+ (2.35)

Este tipo de micrófono produce la mejor respuesta de frecuencia por lo

cual son los mas utilizados en grabaciones profesionales. Debido a que

responde a variaciones de presión se clasifican en los micrófonos de presión, y

como consecuencia de ello tienen una respuesta onmidireccional.

Figura 2.20 Micrófono Capacitivo.

2.4.1.6.- Micrófono Eléctret

Un material Electret tiene como característica su capacidad de mantener

carga sin necesidad de una fuente de polarización, por lo cual tiene cada vez

mayor popularidad por razones económicas.

Figura 2.21 Micrófono Electret

28


2.4.2.- Direccionabilidad. Patrones básicos de los micrófonos

Una de las características mas importante de los micrófonos es su

direccionalidad ya que, de acuerdo con cada tipo ambiente acústico o del

programa a grabar, se requerirá un patrón polar distinto.

Existen tres tipos básicos de patrones: unidireccional, bidireccional y

omnidireccional, aunque se pueden conseguir otros patrones combinando los

tipos básicos.

La ecuación polar, en su forma general es:

θρ cosBA+= (2.36)

donde A+B=1

Los valores particulares de A y B definirán el tipo de respuesta. Por lo

cual tenemos que:

Figura 2.22 Patrón Omnidireccional. ρ=1

29


Figura 2.23 Patrón bidireccional ρ=cos(q)

Figura 2.24 Patrón Cardioide ρ=0.5+0.5cos(q)

Figura 2.25 Patrón Super Cardioide ρ=0.375+0.625cos(q)

30


Figura 2.26 Patrón Hiper Cardioide ρ=0.25+0.75cos(q).

Las características fundamentales de los diversos patrones se resumen

en la Figura 2.27.

Figura 2.27 Sumario de micrófonos de primer orden

En la Figura 2.27 se define REE (" Random Energy Efficiency") como la

cantidad de ruido ambiente que capta el micrófono en relación a lo que captaría

un micrófono omnidireccional a la misma distancia y con la misma sensibilidad

(se indica en dB). El Factor de Distancia DF se refiere a cuanto se debe alejar

31


un micrófono para que capte la misma relación de sonido directo respecto a

ruido ambiente teniendo como referencia a un micrófono omnidireccional

colocado a un metro de la fuente.

2.4.3.- Micrófonos de Configuración variable

Existen configuraciones de micrófonos que combinan elementos de

gradiente y de presión, de manera de poder elegir la respuesta polar

cambiando el grado de participación de cada elemento. Un ejemplo de ello lo

constituye el sistema Brunmühl-Weber.

En la Figura 2.28 se tiene la operación del micrófono como elemento de

captación de presión sonora.

Figura 2.28 Sistema Brunmühl-Weber en modo presión

Se puede destacar en la Figura 2.28 que cualquier diferencia de presión

a cada lado del micrófono no producirá voltaje de salida ya que se

compensaría. (Una de las placas produciría una corriente en un sentido sobre

la resistencia mientras que la otra lo haría en sentido contrario).

32


La configuración de Gradiente de presión o velocidad, se consigue

cambiando la polaridad de una de las fuentes, tal como se puede observar en

la Figura 2.29.

Figura 2.29 Sistema Brunmühl-Weber en modo gradiente de presión

En la configuración de gradiente de presión se tiene que, si las láminas

se acercan o se alejan al mismo tiempo, no se producirá ninguna variación de

corriente en la resistencia.

Por último se tiene que si se configura la fuente como en la Figura 2.30

se tendrá un dispositivo con patrón polar variable cambiando solamente el

interruptor para elegir cuanto de captación de presión y cuanto de gradiente se

desea en la respuesta total (Figura 2.31).

33


Figura 2.30 Sistema Brunmühl-Weber.

Figura 2.31 Sistema Brunmühl-Weber. Patrones resultantes.

34


3.- Ciencias básicas del Sonido 3D

Las ciencias básicas en las que se basa el sonido 3-D están

representadas en la literatura como tres disciplinas claramente separadas:

Física Acústica, Psicoacústica y Neurofisiología. La Física Acústica se enfoca

en las ondas sonoras que reciben los oídos del oyente y el fenómeno acústico

que determina sus propiedades específicas. La Psicoacústica estudia las

relaciones ente las ondas acústicas y los oídos y la percepción de una imagen

espacial representada por el oyente y la Neurofisiología está relacionada con la

comprensión de las estructuras neurológicas que nos permiten alcanzar la

experiencia del sonido.

La consideración del sonido 3-D desde la perspectiva de cada una de las

3 disciplinas la resolveremos viéndolas por separado. El conocimiento

conseguido por cada una de ellas por separado es insuficiente para

comprender muchos de los fenómenos que suceden en nuestra vida diaria, y la

tecnología 3-D del sonido continuará desarrollándose hasta alcanzar este

conocimiento. El numero de profesionales que se necesitan aumenta a medida

que aparecen más fuentes de información en esta ciencia multidisciplinar.

35


3.1.- Perspectiva Físico Acústica

Cuando un evento acústico sucede en el un ambiente natural, las ondas

sonoras se propagan en todas direcciones. Las ondas encuentran obstáculos

en el entorno con los cuales interactúan y provocan reflexión o difracción. La

interferencia constructiva o destructiva de todas ellas crea una textura sonora

enriquecida con las múltiples nuevas fuentes de sonido.

Figura 3.1 Descripción de un evento sonoro en un entorno determinado. Hay un trazado de ondas

directas (línea gruesa) entre fuente y destino , y multitud de trazados indirectos ( líneas finas)

Uno de los objetos potenciales que podemos encontrar en el entorno es

el propio oyente. Desde la posición del oyente, las ondas sonoras están

llegando desde diferentes direcciones. Como se muestra en la Figura 3.1, hay

típicamente una línea recta a lo largo de la cual las ondas iniciales del sonido

llegan antes al oyente. Este sonido inicial proporciona una información

comprometida sobre la dirección del evento sonoro. Después las ondas

sonoras son reflejadas en los objetos del entorno con lo cual nos llegan ondas

sonoras desde muchas otras direcciones del espacio y con distintos retardos.

Estos sonidos indirectos proveen al oyente de información sobre la posición

relativa de evento de sonido y del entorno y en especial de la distancia desde el

oyente a la fuente de sonido. Cuanta mayor sea la persistencia del sonido más

percepción de las cualidades del mismo tendrá el oyente. Si las ondas sonoras

36


directas e indirectas son simultáneas, será prácticamente imposible

distinguirlas.

Cuando una onda sonora encuentra al oyente hay dos fenómenos acústicos

resultantes dependiendo de la frecuencia.

• Alta frecuencia. La energía se refleja especularmente hacia fuera

• Baja frecuencia. La energía se difracta y se curva alrededor del oyente.

En medio de ambos extremos hay una banda de transición centrada

alrededor de 1500 Hz, en cuyas frecuencias la longitud de onda es

aproximadamente igual al diámetro de la cabeza. El fenómeno acústico podría

ser similar al de las olas en el océano golpeando las rocas de un embarcadero:

las pequeñas olas rebotan mientras que las grandes curvan alrededor y luego

pasan por encima.

Las ondas sonoras que llegan a ambos oídos del oyente son afectadas por

la interacción de la onda del sonido original y el torso, cabeza, orejas y

conducto auditivo del oyente. La mezcla de estas propiedades podría ser

medida de un modo más o menos exacto por medio de una “Función de

Transferencia Relacionada con la cabeza” ( “Head-Related Transfer Function”),

en adelante HRTF que son sus siglas en inglés. La complejidad de la

interacción de las ondas sonoras con la acústica del cuerpo del oyente

conforma la HRTF que en cada oído depende fuertemente de la dirección del

sonido.

Cuando un sonido es equidistante de los dos oídos, el sonido llega

exactamente al mismo tiempo y desde la misma dirección, con lo que las

HRTFs son muy parecidas (pero no idénticas debido a las asimetrías de la

cabeza). La región en la cual las fuentes de sonido son equidistantes es

denominada plano medio (la similitud de la información acústica es, a veces,

obtenida de la razón por la cual la precisión de la localización es pobre en el

37


plano medio). Hay otros dos nombres por los cuales nos referimos a los planos

en el espacio 3-D. Uno es el plano horizontal que divide la cabeza del oyente

horizontalmente, y el otro es el plano frontal (o lateral) que divide la cabeza

verticalmente de atrás hacia adelante. Ambos planos están ilustrados en la

Figura 3.2.

Figura 3.2 Relación entre los planos mediano, horizontal y frontal(lateral) de la cabeza del oyente.

Cuando la fuente no es equidistante de ambos oídos, las señales llegan

a cada oreja desde diferente dirección y las HRTFs están lejos de ser idénticas.

La oreja más cercana a la fuente de sonido es llamada oreja ipsilateral y la más

lejana oreja colateral. La posición de la fuente de sonido relativa al centro de la

cabeza del oyente es conveniente considerarla como un vector expresado en

términos de dos ángulos, Azimuth y elevación, y un escalar que es la distancia

como se puede apreciar en la Figura 3.3.

Figura 3.3 Especificación de la posición de un evento de sonido en términos de azimuth, alevación y

distancia

Azimuth es la medida del ángulo entre la proyección del vector en el

plano horizontal y el vector extendido directamente desde el oyente hacia el

38


frente. Un movimiento progresivo desde 0º hasta 360º llevaría a la fuente a dar

una vuelta completa alrededor de la cabeza del oyente, aunque no suele haber

consenso respecto a si 90º de azimuth representan la derecha o izquierda del

oyente. A lo largo del proyecto se describen como ángulos positivos aquellos

que partiendo del frente del oyente se despliegan hacia la derecha y negativos

los que lo hacen hacia la izquierda. La elevación es la medida del ángulo

formado entre el vector y el plano horizontal, estando el rango comprendido

entre los 90º (arriba) y los –90º (abajo).

39


3.2.- Perspectiva Psicoacústica

El sentido de la dirección de un sonido para un oyente está dominado

principalmente por el sonido que le llega por el camino más corto, rápido y

directo (de otro modo el juicio de la direccionalidad del evento podría ser

ambiguo debido al sonido indirecto). Esta preferencia proporciona al sonido

inicial lo que se denomina “efecto precedente” (Wallach an 1949) o la “ley del

primer frente de onda” (Blauert 1971). A veces estas ondas de sonido iniciales

son transformadas radicalmente en comparación con las del sonido original. El

sonido que llega a cada oído es modificado espectralmente por las HRTF,

cada oreja realiza una transformación diferente, y las transformaciones

cambian cuando la cabeza y/o el sonido se mueven. El sistema auditivo

desempeña las tareas para la integración de la información que llega a los dos

oídos en una única imagen perceptual para fundir el evento acústico en el

espacio: el sistema auditivo extrae la información direccional y reconstruye una

estimación del espectro de la fuente origen. Estas observaciones, sin embargo,

no bastan para proporcionar suficiente explicación para la localización humana

del sonido.

El sonido que llega a la oreja ipsilateral es generalmente más intenso

que el que llega a la oreja contralateral, esta diferencia entre la intensidad de

ambos oídos es denominada “ Diferencia de Intensidad Interaural “ (“Interaural

Intensity Difference”) y la diferencia de tiempo entre ambos oídos es la

“Diferencia de Tiempo Interaural” (“Interaural Time Difference”), en adelante IID

y ITD de sus siglas en inglés. IID y ITD sólo afectan para la lateralización de la

fuente de sonido, que es la posición percibida a lo largo del eje interaural, el eje

derecha/izquierda entre las orejas. Con solo ITD y IID, una persona no puede

juzgar la procedencia de un evento acústico respecto a su posición de delante,

atrás, arriba o abajo. Esta ambigüedad de localización en unos grados de

40


lateralización es llamada “cono de confusión”(Woodworh 1954) descrita en la

Figura 3.4.

Figura 3.4 El cono de confusión (basado en Woodworth 1954, adaptado por Kendall en 1990)

En la actualidad es común aceptar que asemeja una localización

espacial incierta en forma de cono, la cual dejaría de ser ambigua mediante la

complejidad añadida de las HRTFs. El experimento psicoacústico clásico

soporta la teoría dúplex de localización, sin utilizar la dependencia frecuencial

de la diferencia de magnitud y fase interaural típica de las HRTFs. Por tanto la

teoría dúplex ignora la influencia de las pistas alternativas temporales por

encima de los 1500 Hz. Los eventos acústicos en entornos naturales también

presentan perturbaciones que ayudan a comprender fenómenos temporales.

Los estímulos psicoacústicos clásicos se encuentran reducidos, y los

resultados son sólo parcialmente útiles para la comprensión de la localización

en situaciones de escucha diarias.

Experimentos psicoacústicos actuales han cambiado su atención a la

escucha binaural y el papel de las HRTFs en la localización espacial del

sonido. Dentro de un contexto, binaural significa la información combinada de

ambos oídos (en contraposición con monoaural que significa que sólo usa la

información de cada oído independientemente). El uso de la palabra binaural

también implica la dependencia con la frecuencia que existe en las pistas

interaurales típicas de las HRTFs. Este cambio en el enfoque de la

41


investigación está acompañado por un cambio hacia el uso de estímulos de

banda ancha en vez de ondas sinusoidales.

Aún cuando las HRTFs son muchas veces muy ricas en detalles

acústicos, las investigaciones perceptuales sugieren que el sistema auditivo

sea selectivo en la información acústica que recibe para realizar el juicio de la

dirección del sonido. Las pruebas revelan que la información de fase

monoaural es irrelevante para la percepción espacial y que la información de

fase interaural es extremadamente importante. Wightman y Kistler (1992) han

demostrado que a baja frecuencia la ITD es la pista fundamental para la

localización del origen de sonidos que contengan energía por debajo de 2.5

kHz. Para sonidos que carecen de esta baja frecuencia, IID proporciona más

información para la localización.

Aún no está claro cómo de significativa es la influencia de las altas

frecuencias en las diferencias temporales, desde que los experimentos han

mostrado que las envolventes temporales de sonidos de alta frecuencia son

detectados bastante bien (Henning 1974). A pesar de que la mayoría de los

focos de investigación se basan en las pistas binaurales, se está investigando

el espectro de las pistas monoaurales que aportan información significativa

para las fuentes de sonido laterales (Musicant as Butler 1985). Hay también

evidencias de que la elevación en particular está influenciada por el contenido

espectral de la fuente de sonido en sí misma (que es recibida por ambos

oídos), con lo que sonidos que tienen altos pitch/bright son típicamente

localizados mejor que aquellos sonidos que poseen bajos pitch/dark.

Hay diferencias importantes entre las dimensiones verticales y

horizontales en la resolución con la cual las personas pueden resolver la

localización espacial de una fuente de sonido, éste es un efecto que Blauert

denomina “Localization Blur” (Blauer 1974). La mayor resolución la

encontramos en el plano horizontal, especialmente en frente del oyente donde

42


existe un ángulo mínimo de audibilidad de 2 grados o menos dependiendo de

la naturaleza exacta del experimento. Este ángulo incrementa a cerca de los

10 grados en los lados y decrece a cerca de los 6 grados en la nuca. Por

comparación, la resolución en el plano vertical es un poco menor. El ángulo

mínimo vertical audible en frente del oyente está cerca de los 9 grados y

incrementa firmemente hasta encima de la cabeza donde alcanza los 22

grados. La precisión espacial no es tan importante aparentemente en la

percepción auditiva como lo es en el sistema visual.

Figura 3.5 Movimiento dinámico de la cabeza hacia la derecha provoca la eliminación de la

ambigüedad en el oyente para la posición delante/detrás

Mientras las discriminación delante/detrás es posible mediante las bases

de una completa información acústica implementada en las HRTFs, está claro

también, que el movimiento de la cabeza tiene un papel fundamental para

resolver las confusiones delante/detrás (Wallach 1940). Esto tiene una

importancia particular para fuentes de sonido situadas cerca del plano medio

donde otras informaciones acústicas pueden provocar pequeñas interferencias

interaurales. La Figura 3.5 nos muestra cómo se elimina la ambigüedad

provocada por un sonido situado el la parte delantera del oyente. Esta

ambigüedad se elimina mediante un giro de la cabeza hacia la derecha que

provoca en el primer caso que el oído izquierdo reciba la señal antes y con

mayor intensidad que el derecho. Para un sonido situado en la parte trasera

del oyente (segunda figura) pasa lo contrario. Los experimentos clásicos de

43


Wallach muestran que las pistan interaurales dinámicas podrían sustituir a las

HRTFs.

3.3.- Perspectiva Neurofisiológica

Aunque la neurofisiología no es parte de la base educacional de la

mayoría de los campos de la música y profesionales del audio, es un área de

dónde continúan viniendo muchas de las más importantes ideas y

descubrimientos sobre la audición. Esto es especialmente cierto en el área de

la escucha direccional. Estas terminologías y perspectivas son bastante

distintas desde el punto de vista de la Física Acústica y la Psicoacústica.

El propósito de esta sección es familiarizar al lector con este importante

contexto de la comprensión de la escucha direccional y en particular, en el

punto de la adaptación especial en el sistema auditivo de la localización del

sonido. Aunque la terminología es introducida delicadamente, es

indudablemente útil que el lector tenga alguna familiaridad básica en el campo,

especialmente en el de la fisiología del sistema auditivo.

3.3.1.- Sistema periférico

Mientras que el pabellón auditivo está claramente adaptado para la

escucha direccional, el sistema neurológico periférico tiene poca o ninguna

especialización para ello. El sistema neurológico periférico transforma las

señales acústicas provenientes de la oreja en una actividad neural que parece

claramente diseñada para capturar la descomposición espectrotemporal de las

ondas acústicas entrantes. La función principal de la descomposición debe ser

la identificación de la fuente de sonido. Esto condiciona firmemente la

estructura de los mecanismos neurales y pone por debajo la localización,

44


puesto que, desde el punto de vista del sistema neurológico periférico, la fuente

de información se mezcla con la información espacial.

3.3.2.- Fisiología del Sistema Auditivo

Se va a examinar la estructura y funcionamiento del oído, con el fin de

lograr una mejor comprensión de los fenómenos y modelos Neurofisiológicos y

Psicoacústicos. Se estudia la anatomía y la fisiología del aparato auditivo,

haciendo énfasis en aquellas partes y estructuras del mismo más importantes

para el desarrollo de modelos perceptuales.

3.3.2.1.- El sentido de la audición y el sistema auditivo

La generación de sensaciones auditivas en el ser humano es un proceso

extraordinariamente complejo, el cual se desarrolla en tres etapas básicas:

1. Captación y procesamiento mecánico de las ondas sonoras.

2. Conversión de la señal acústica (mecánica) en impulsos nerviosos, y

transmisión de dichos impulsos hasta los centros sensoriales del

cerebro.

3. Procesamiento neural de la información codificada en forma de impulsos

nerviosos.

La captación, procesamiento y transducción de los estímulos sonoros se

llevan a cabo en el oído propiamente dicho, mientras que la etapa de

procesamiento neural, en la cual se producen las diversas sensaciones

auditivas, se encuentra ubicada en el cerebro. Así pues, se pueden distinguir

dos regiones o partes del sistema auditivo: la región periférica, en la cual los

estímulos sonoros conservan su carácter original de ondas mecánicas hasta el

45


momento de su conversión en señales electroquímicas y la región central, en la

cual se transforman dichas señales en sensaciones.

En la región central también intervienen procesos cognitivos, mediante

los cuales se asigna un contexto y un significado a los sonidos, es decir,

permiten reconocer una palabra o determinar que un sonido dado corresponde

a un violín o a un piano.

Se analizarán y estudiarán solamente los aspectos perceptuales del

sistema auditivo, esto es, aquellos que son independientes del contexto y del

significado y que, en buena parte, se localizan en la región periférica.

3.3.2.2.- Región periférica del sistema auditivo

El oído o región periférica se divide usualmente en tres zonas, llamadas

oído externo, oído medio y oído interno, de acuerdo a su ubicación en el

cráneo, como puede verse en la Figura 3.6.

Figura 3.6 Anatomía del oído humano.

46


Los estímulos sonoros se propagan a través de estas zonas, sufriendo

diversas transformaciones hasta su conversión final en impulsos nerviosos.

Tanto el procesamiento mecánico de las ondas sonoras como la conversión de

éstas en señales electroquímicas son procesos no lineales, lo cual dificulta la

caracterización y modelado de los fenómenos perceptuales.

En las siguientes secciones se estudia la anatomía y funcionamiento de

estas tres zonas del oído, así como la propagación y procesamiento del sonido

a través de las mismas.

3.3.2.3.- Oído externo

• Anatomía y funcionamiento

El oído externo está formado por el pabellón auricular u oreja, el cual

dirige las ondas sonoras hacia el conducto auditivo externo a través del

orificio auditivo. El otro extremo del conducto auditivo se encuentra

cubierto por la membrana timpánica o tímpano, la cual constituye la

entrada al oído medio. La función del oído externo es la de recolectar las

ondas sonoras y encauzarlas hacia el oído medio. Asimismo, el

conducto auditivo tiene dos propósitos adicionales: proteger las

delicadas estructuras del oído medio contra daños y minimizar la

distancia del oído interno al cerebro, reduciendo el tiempo de

propagación de los impulsos nerviosos.

• Respuesta en frecuencia y localización de las fuentes de sonido

El conducto auditivo es un "tubo" de unos 2 cm de longitud, el cual

influye en la respuesta en frecuencia del sistema auditivo. Dada la

velocidad de propagación del sonido en el aire (aprox. 334 m/s), dicha

longitud corresponde a 1/4 de la longitud de onda de una señal sonora

de unos 4 kHz. Este es uno de los motivos por los cuales el aparato

47


auditivo presenta una mayor sensibilidad a las frecuencias cercanas a

los 4 kHz, como se verá más adelante.

Adicionalmente el pabellón auricular, junto con la cabeza y los hombros,

contribuye a modificar el espectro de la señal sonora. Las señales

sonoras que entran al conducto auditivo externo sufren efectos de

difracción debidos a la forma del pabellón auricular y la cabeza, y estos

efectos varían según la dirección de incidencia y el contenido espectral

de la señal, de este modo se altera el espectro sonoro debido a la

difracción. Estas alteraciones, en forma de "picos" y "valles" en el

espectro, son usadas por el sistema auditivo para determinar la

procedencia del sonido en el llamado "plano medio" (plano imaginario

perpendicular a la recta que une ambos tímpanos).

3.3.2.4.- Oído medio

• Anatomía

El oído medio (Figura 3.7) está constituido por una cavidad llena de aire,

dentro de la cual se encuentran tres huesecillos, denominados martillo,

yunque y estribo, unidos entre sí en forma articulada. Uno de los

extremos del martillo se encuentra adherido al tímpano, mientras que la

base del estribo está unida mediante un anillo flexible a las paredes de la

ventana oval, orificio que constituye la vía de entrada del sonido al oído

interno.

Finalmente, la cavidad del oído medio se comunica con el exterior del

cuerpo a través de la trompa de Eustaquio, la cual es un conducto que

llega hasta las vías respiratorias y que permite igualar la presión del aire

a ambos lados del tímpano.

48


• Propagación del sonido y acople de impedancias

Los sonidos, formados por oscilaciones de las moléculas del aire, son

conducidos a través del conducto auditivo hasta el tímpano. Los cambios

de presión en la pared externa de la membrana timpánica, asociados a

la señal sonora, hacen que dicha membrana vibre siguiendo las

oscilaciones de dicha señal.

Las vibraciones del tímpano se transmiten a lo largo de la cadena de

huesecillos, la cual opera como un sistema de palancas, de forma tal

que la base del estribo vibra en la ventana oval. Este huesecillo se

encuentra en contacto con uno de los fluidos contenidos en el oído

interno; por lo tanto, el tímpano y la cadena de huesecillos actúan como

un mecanismo para transformar las vibraciones del aire en vibraciones

del fluido.

Figura 3.7 Propagación del sonido a través del oído medio e interno.

Ahora bien, para lograr que la transferencia de potencia del aire al fluido

sea máxima, debe efectuarse un acoplamiento entre la impedancia

mecánica característica del aire y la del fluido, puesto que esta última es

mucho mayor que la primera.

49


Un equivalente mecánico de un transformador (el acoplador de

impedancias eléctricas) es precisamente, una palanca; por ende, la

cadena de huesecillos actúa como acoplador de impedancias. Además,

la relación entre las superficies del tímpano y de la base del estribo (en

la ventana oval) introduce un efecto de acoplamiento adicional,

lográndose una transformación de impedancias del orden de 1:20, con lo

cual se minimizan las pérdidas por reflexión.

El máximo acoplamiento se obtiene en el rango de frecuencias medias,

en torno a 1 kHz. En la Figura 3.8 se representa en forma esquemática

la transmisión del sonido del oído externo al interno, a través del oído

medio.

Figura 3.8 Esquema de la propagación del sonido a través del oído medio.

• Reflejo timpánico o acústico

Cuando se aplican sonidos de gran intensidad (> 90 dB SPL) al tímpano,

los músculos tensores del tímpano y el estribo se contraen de forma

automática, modificando la característica de transferencia del oído medio

y disminuyendo la cantidad de energía entregada al oído interno.

Este "control de ganancia" se denomina reflejo timpánico o auditivo y

tiene como propósito proteger a las células receptoras del oído interno

50


frente a sobrecargas que puedan llegar a destruirlas. Este reflejo no es

instantáneo, sino que tarda de 40 a 160 ms en producirse.

El reflejo timpánico debe ser tomado en cuenta en cualquier modelo

matemático del procesamiento del sonido en el aparato auditivo, siempre

que se trabaje con sonidos de gran intensidad, puesto que es un

mecanismo no lineal que introduce un término cuadrático en la relación

entrada-salida del oído medio.

• Respuesta en frecuencia combinada del oído externo y el oído medio

El conjunto formado por el oído externo y el oído medio forman un

sistema cuya respuesta en frecuencia es del tipo paso de baja, como se

muestra en la Figura 3.9. En el intervalo cercano a los 4 kHz se observa

un pequeño efecto de ganancia, debido a las características del

conducto auditivo.

Esta respuesta sólo es válida cuando el sistema se comporta de modo

lineal, es decir, cuando la intensidad del sonido no es muy elevada, para

evitar que actúe el reflejo timpánico.

Figura 3.9 Respuesta en frecuencia combinada del oído externo y el oído medio

51


3.3.2.5.- Oído interno

El oído interno representa el final de la cadena de procesamiento mecánico

del sonido, y en él se llevan a cabo tres funciones primordiales: filtraje de la

señal sonora, transducción y generación probabilística de impulsos nerviosos.

• Anatomía

En el oído interno se encuentra la cóclea o caracol, la cual es un

conducto rígido en forma de espiral de unos 35 mm de longitud, lleno

con dos fluidos de distinta composición.

El interior del conducto está dividido en sentido longitudinal por la

membrana basilar y la membrana de Reissner, las cuales forman tres

compartimientos o escalas que pueden observarse en la Figura 3.10. La

escala vestibular y la escala timpánica contienen un mismo fluido

(perilinfa), puesto que se interconectan por una pequeña abertura

situada en el vértice del caracol, llamada helicotrema. Por el contrario, la

escala media se encuentra aislada de las otras dos escalas, y contiene

un líquido de distinta composición a la perilinfa (endolinfa).

La base del estribo, a través de la ventana oval, está en contacto con el

fluido de la escala vestibular, mientras que la escala timpánica

desemboca en la cavidad del oído medio a través de otra abertura

(ventana redonda) sellada por una membrana flexible (membrana

timpánica secundaria).

En la Figura 3.11 podemos observar que sobre la membrana basilar y en

el interior de la escala media se encuentra el órgano de Corti, el cual se

extiende desde el vértice hasta la base de la cóclea y contiene las

células ciliares que actúan como transductores de señales sonoras a

impulsos nerviosos. Sobre las células ciliares se ubica la membrana

52


tectorial, dentro de la cual se alojan las prolongaciones o cilios de las

células ciliares externas.

Dependiendo de su ubicación en el órgano de Corti, se pueden distinguir

dos tipos de células ciliares: internas y externas. Existen alrededor de

3500 células ciliares internas y unas 20000 células externas. Ambos

tipos de células presentan conexiones o sinapsis con las fibras nerviosas

aferentes (que transportan impulsos hacia el cerebro) y eferentes (que

transportan impulsos provenientes del cerebro), las cuales conforman el

nervio auditivo.

Sin embargo, la distribución de las fibras es muy desigual: más del 90%

de las fibras aferentes inervan a las células ciliares internas, mientras

que la mayoría de las 500 fibras eferentes inervan a las células ciliares

externas. El propósito de ambos tipos de células y de la distribución de

las conexiones nerviosas se estudia más adelante.

Figura 3.10 Corte transversal de la cóclea o caracol.

53


Figura 3.11 Órgano de Corti.

• Propagación del sonido en la cóclea

Las oscilaciones del estribo provocan oscilaciones en el fluido de la

escala vestibular (perilinfa). La membrana de Reissner, la cual separa

los fluidos de la escala vestibular y la escala media, es sumamente

delgada y, en consecuencia, los líquidos en ambas escalas pueden

tratarse como uno solo desde el punto de vista de la dinámica de los

fluidos. Así, las oscilaciones en la perilinfa de la escala vestibular se

transmiten a la endolinfa y de ésta a la membrana basilar, la membrana

basilar, a su vez, provoca oscilaciones en el fluido de la escala

timpánica.

Puesto que tanto los fluidos como las paredes de la cóclea son

incompresibles, es preciso compensar el desplazamiento de los fluidos;

esto se lleva a cabo en la membrana de la ventana redonda, la cual

permite "cerrar el circuito hidráulico".

54


Figura 3.12 Corte transversal de un conducto de la cóclea.

La propagación de las oscilaciones del fluido en la escala vestibular a la

timpánica no sólo se lleva a cabo a través de la membrana basilar; para

sonidos de muy baja frecuencia, las vibraciones se transmiten a través

de la abertura situada en el vértice de la cóclea (helicotrema).

En conclusión, el sonido propagado a través del oído externo y medio

llega hasta la cóclea, donde las oscilaciones en los fluidos hacen vibrar a

la membrana basilar y a todas las estructuras que ésta soporta.

3.3.2.6.- La cóclea como analizador en frecuencia

La membrana basilar es una estructura cuyo espesor y rigidez no es

constante: cerca de la ventana oval, la membrana es gruesa y rígida, pero a

medida que se acerca hacia el vértice de la cóclea se vuelve más delgada y

flexible.

La rigidez decae casi exponencialmente con la distancia a la ventana

oval, esta variación de la rigidez en función de la posición afecta la velocidad

de propagación de las ondas sonoras a lo largo de ella, y es responsable en

55


gran medida de un fenómeno muy importante: la selectividad en frecuencia del

oído interno.

• Ondas viajeras y transformación de frecuencia a posición

Las ondas de presión generadas en la perilinfa a través de la ventana

oval tienden a desplazarse a lo largo de la escala vestibular. Debido a

que el fluido es incompresible la membrana basilar se deforma, y la

ubicación y amplitud de dicha deformación varía en el tiempo a medida

que la onda de presión avanza a lo largo de la cóclea.

Para comprender el modo de propagación de las ondas de presión,

supóngase que se excita el sistema auditivo con una señal sinusoidal de

una frecuencia dada:

La membrana basilar vibrará sinusoidalmente, pero la amplitud de

la vibración irá en aumento a medida que se aleja de la ventana

oval (debido a la variación en la velocidad de propagación), hasta

llegar a un punto en el cual la deformación de la membrana

basilar sea máxima; en ese punto de "resonancia", la membrana

basilar es acústicamente "transparente" (es decir, se comporta

como si tuviera un orificio), de modo que la amplitud de la

vibración y por tanto, la transmisión de la energía de la onda al

fluido de la escala timpánica es máxima en dicho punto.

A partir de esa región, la onda no puede propagarse

eficientemente, de modo que la amplitud de la vibración se atenúa

muy rápidamente a medida que se acerca al helicotrema. En la

Figura 3.13 se observa la onda en la membrana basilar en un

instante de tiempo.

56


Figura 3.13 Onda viajera en la membrana basilar.

En este modo de propagación, las ondas de presión son ondas viajeras,

en las cuales (a diferencia de las ondas estacionarias) no existen nodos.

En la Figura 3.14 se puede apreciar la amplitud de oscilación de la

membrana basilar en dos instantes de tiempo, junto con la envolvente de

la onda viajera, en función de la distancia al estribo.

La ubicación del máximo de la envolvente de la onda viajera depende de

la frecuencia de la señal sonora, como puede observarse en la Figura

3.15: mientras menor es la frecuencia del tono, mayor es la distancia que

viaja la onda a lo largo de la membrana antes de ser atenuada y

viceversa. De esta forma, la membrana basilar dispersa las distintas

componentes de una señal de espectro complejo en posiciones bien

definidas respecto a la ventana oval.

57


Figura 3.14 Ondas viajeras para un tono de 200 Hz.

Figura 3.15 Transformación de frecuencia a posición en la membrana basilar.

• Selectividad en frecuencia de la membrana basilar

Como se ha visto, las altas frecuencias contenidas en un estímulo

sonoro se atenúan a medida que la onda se desplaza hacia el

helicotrema. Así, se puede considerar a la membrana basilar como un

filtro paso de baja de parámetros distribuidos. Por otro lado, si se

midiese la respuesta en frecuencia en un punto dado de dicha

membrana, se obtendría una respuesta de tipo paso banda.

Este comportamiento de la membrana basilar puede modelarse, con un

grado de aproximación razonable, como una línea de transmisión no

uniforme, representada en la Figura 3.16.

58


Cada etapa en paralelo representa un segmento corto de la membrana

basilar. La corriente suministrada por la fuente corresponde a la

velocidad del estribo. Los inductores en serie y en paralelo representan

las masas del fluido y de segmentos de la membrana basilar,

respectivamente; los condensadores representan la rigidez de la

membrana, y se asume que su valor varía exponencialmente según la

posición. Las resistencias representan pérdidas en la membrana.

Figura 3.16. Representación de la membrana basilar como una línea de transmisión.

Este modelo pasivo presenta varios inconvenientes: no considera

fenómenos activos y no lineales de la membrana, no es capaz de

generar una respuesta paso banda tan estrecha como las observadas

experimentalmente en tejidos vivos y además, no toma en cuenta el

hecho de que la membrana basilar es una estructura en tres

dimensiones. A pesar de ello, permite representar fácilmente los

fenómenos de resonancia y de ondas viajeras.

En apartados posteriores se discute un modelo análogo al anterior pero

que resulta más útil en la elaboración de modelos perceptuales, en el

cual se representa el efecto de la membrana basilar como el de un

banco de filtros paso banda. Si bien los parámetros que definen dicho

banco de filtros se obtendrán a partir de consideraciones psicoacústicas,

59


y no físicas o fisiológicas, se debe tener en mente que tal modelo está

basado en las propiedades físicas observables de la membrana basilar y

del oído interno en general.

3.3.2.7.- Mecanismo de transducción

• Interacción entre las membranas basilar y tectorial

El proceso de transducción o conversión de señal mecánica a

electroquímica se desarrolla en el órgano de Corti, situado sobre la

membrana basilar.

Las vibraciones de la membrana basilar hacen que ésta se mueva en

sentido vertical. A su vez la membrana tectorial, ubicada sobre las

células ciliares (los transductores), vibra igualmente; sin embargo, dado

que los ejes de movimiento de ambas membranas son distintos, el

efecto final es el de un desplazamiento "lateral" de la membrana tectorial

con respecto a la membrana basilar.

Como resultado, los cilios de las células ciliares externas se "doblan"

hacia un lado u otro (hacia la derecha, en la Figura 3.17, cuando la

membrana basilar "sube").

En el caso de las células internas, aun cuando sus cilios no están en

contacto directo con la membrana tectorial, los desplazamientos del

líquido y su alta viscosidad (relativa a las dimensiones de los cilios)

hacen que dichos cilios se doblen también en la misma dirección.

60


Figura 3.17 Desplazamiento relativo de las membranas basilar y tectorial.

• Células ciliares y potenciales eléctricos

La diferencia fundamental entre los dos fluidos de la cóclea, la perilinfa y

la endolinfa, estriba en las distintas concentraciones de iones en los dos

fluidos. De esta manera, la endolinfa se encuentra a un potencial

eléctrico ligeramente positivo (ver Figura 3.18) respecto a la perilinfa.

Figura 3.18 Potenciales eléctricos en el órgano de Corti y los fluidos de la cóclea.

Por otro lado, los movimientos de los cilios en una dirección determinada

hacen que la conductividad de la membrana de las células ciliares

aumente. Debido a las diferencias de potencial existentes, los cambios

61


en la membrana modulan una corriente eléctrica que fluye a través de

las células ciliares.

La consiguiente disminución en el potencial interno de las células

internas provoca la activación de los terminales nerviosos aferentes,

generándose un impulso nervioso que viaja hacia el cerebro. Por el

contrario, cuando los cilios se doblan en la dirección opuesta, la

conductividad de la membrana disminuye y se inhibe la generación de

dichos impulsos.

Se pueden destacar dos aspectos de este proceso de transducción:

primero, que la generación de impulsos nerviosos es un fenómeno

probabilístico; segundo, que el proceso se comporta como un rectificador

de media onda, puesto que la probabilidad de activación de las fibras

nerviosas "sigue" a las porciones "positivas" de la señal sonora

(equivalentes a desplazamientos hacia "arriba" de la membrana basilar),

mientras que se hace cero en las porciones "negativas" de la onda.

• Interacción entre células ciliares internas y externas

Las fibras aferentes están conectadas mayormente con las células

ciliares internas, por lo que es posible concluir con certeza que éstas son

los verdaderos "sensores" del oído. Por el contrario, el papel de las

células ciliares externas (más numerosas que las internas) era objeto de

especulaciones hasta hace pocos años.

Recientemente se ha comprobado que dichas células no operan como

receptores, sino como "músculos", es decir, como elementos móviles

que pueden modificar las oscilaciones en la membrana basilar.

62


La actuación de las células ciliares externas parece ser la siguiente: para

niveles de señal elevados, el movimiento del fluido que rodea los cilios

de las células internas es suficiente para doblarlos, y las células externas

se saturan. Sin embargo, cuando los niveles de señal son bajos, los

desplazamientos de los cilios de las células internas son muy pequeños

para activarlas; en este caso, las células externas se "alargan",

aumentando la magnitud de la oscilación hasta que se saturan.

Este es un proceso no lineal de realimentación positiva de la energía

mecánica, de modo que las células ciliares externas actúan como un

control automático de ganancia, aumentando la sensibilidad del oído.

Este nuevo modelo del mecanismo de transducción nos indica que el

conjunto formado por la membrana basilar y sus estructuras anexas

forman un sistema activo, no lineal y con realimentación, y permite

explicar dos fenómenos asociados al oído interno: el "tono de

combinación", generado a partir de dos tonos de distinta frecuencia por

un elemento no lineal que contiene un término cúbico, y las "emisiones

otoacústicas", las cuales consisten en tonos generados en el oído

interno en forma espontánea o estimulada, y que pueden llegar a ser

audibles.

• Selectividad en frecuencia de la cóclea

Debido a la acción de filtraje de la membrana basilar, cada célula

transductora procesa una versión del estímulo sonoro filtrada de modo

diferente. Esta acción de filtraje de la membrana basilar por sí sola

equivale a la de filtros cuya respuesta en frecuencia es relativamente

"ancha". Ahora bien, la realimentación positiva provocada por las células

ciliares externas contribuye a aumentar la selectividad del sistema

auditivo.

63


Esto puede comprobarse midiendo la respuesta de una única fibra

nerviosa ante variaciones en la frecuencia y la amplitud del estímulo

sonoro; las curvas de sintonía así obtenidas indican una respuesta de

tipo paso banda mucho más angosta que la debida al efecto de la

membrana basilar como elemento pasivo.

Adicionalmente, experimentos recientes han permitido determinar que la

selectividad del oído interno es virtualmente idéntica a la selectividad del

sistema auditivo en su totalidad, estimada por métodos psicoacústicos.

3.3.2.8.- Procesamiento a nivel neural

Los impulsos nerviosos generados en el oído interno contienen (en

forma codificada) información acerca de la amplitud y el contenido espectral de

la señal sonora; estos dos parámetros están representados por la tasa de

impulsos y la distribución de los mismos en las distintas fibras,

respectivamente.

Las fibras nerviosas aferentes llevan esta información hasta diversos

lugares del cerebro. En éste se encuentran estructuras de mayor o menor

complejidad, encargadas de procesar distintos aspectos de la información.

Por ejemplo, en los centros "inferiores" del cerebro se recibe, procesa e

intercambia información proveniente de ambos oídos, con el fin de determinar

la localización de las fuentes del sonido en el plano horizontal en función de los

retardos interaurales, mientras que en los centros "superiores" de la corteza

existen estructuras más especializadas que responden a estímulos más

complejos. La información transmitida por el nervio auditivo se utiliza finalmente

para generar lo que se conoce como "sensaciones".

64


Hasta ahora se ha visto que las distintas partes del sistema auditivo son

susceptibles de ser modeladas matemáticamente, en términos de su

comportamiento como sistemas físicos.

Se podría por tanto pensar que el modelo perceptual ideal es aquel que

simula, en términos de los procesos físicos y fisiológicos, todas las etapas del

sistema auditivo, incluyendo la etapa de procesamiento neural en el cerebro.

Sin embargo, la comprensión que se tiene acerca de lo que ocurre en las

estructuras cerebrales es muy limitada, especialmente en lo relativo a los

centros "superiores" del cerebro. Por lo tanto, es necesario recurrir a la

descripción psicoacústica de los fenómenos perceptuales y de las sensaciones.

65


4.- Método de Análisis 1. Modelo de Propagación de Ondas Esféricas

4.1.- Introducción

Podemos aplicar una serie de transformaciones a nuestra señal de

entrada de modo que a la salida provoque una cierta sensación de

direccionalidad. Si no queremos tratar con Funciones de Transferencia de

difícil obtención, podemos aplicar a nuestra señal dos transformaciones básicas

en función del ángulo y la distancia, basándonos en el principio de propagación

de ondas esféricas. Dichas transformaciones son simplemente una diferencia

de amplitud entre la señal original y la recibida por el oído derecho e izquierdo y

una diferencia de temporalización o retardo entre ambos oídos.

4.2.- Ángulo y distancia

Desde el punto de vista actual sólo podemos tener en cuenta dos

variables: la atenuación y el retardo. Debido a esta limitación, debemos

centrarnos en identificar un sonido que proviene sólo del semiplano delantero

horizontal, ya que el trasero horizontal provocará el mismo retardo y atenuación

que para el mismo ángulo y distancia en el semiplano horizontal delantero.

66


Figura 4.1 Retardo y atenuación idénticas en semiplano horizontal delantero y trasero

4.3.- Modelo de fuente cercana y fuente lejana

En función de la distancia de la fuente al destino podemos aplicar el

modelo de fuente cercana o el de fuente lejana, siendo el último bastante más

simple.

4.3.1.- Modelo Fuente Cercana

Figura 4.2 Modelo de Fuente Cercana

67


Mediante trigonometría, teorema del coseno, y sabiendo la distancia y el

ángulo desde el foco al centro de la cabeza, podemos calcular la diferencia de

longitud de camino recorrido por la onda sonora desde el origen a cada uno de

los oídos, para posteriormente calcular el tiempo de retardo de uno respecto a

otro sabiendo la velocidad del sonido.

−+= αcos)

2(2)

2( 22 auralaural

dd

dd

dD (4.1)

−−+= )cos()

2(2)

2( 22 απauralaural d

dd

dDi (4.2)

di DDp −= (4.3)

sonidoVptardo =Re (4.4)

4.3.2.- Modelo Fuente Lejana

Para el modelo de fuente lejana suponemos que la fuente de sonido está

a una distancia suficientemente grande para que se pueda considerar que los

rayos directos desde al foco a cada uno de los oídos describen unas

trayectorias prácticamente paralelas entre sí y paralelas con el eje central de la

cabeza, como se muestra en la Figura 4.3. Este modelo es bastante más

simple y empieza tener resultados bastante similares al modelo real a partir de

los 2 metros y medio.

68


Figura 4.3 Modelo Fuente Lejana

)cos(* αdauralp =

(4.5)

sonidoVptardo =Re (4.6)

4.3.3.- Intensidad Sonora

La Intensidad sonora podemos definirla en ambos casos como:

24 RPI

π= (4.7)

69


Por tanto el cociente entre ambos oídos es el coeficiente de amplitud

que tendremos que aplicar.

2

2

2

4

4

===

i

d

d

i

RR

RPRP

IdIiA

π

π (4.8)

En función del modelo que hallamos aplicado tendremos que disponer

de unas distancias u otras.

4.4.- Cuantificación y retardos enteros

Debido a que la señal de sonido es una señal muestreada y cuantizada,

y por tanto discreta, los retardos deben ser discretos también, de modo que

para una serie de retardos en un continuo obtenemos los mismos retardo

cuando se procede a la cuantificación. Esto nos provoca que tengamos zonas

de reconocimiento angular definidas y estáticas en función de la frecuencia de

muestreo de la señal de sonido original. Cuanto mayor frecuencia de muestreo

tengamos, más definida quedará angularmente nuestra posición.

El retardo máximo queda determinado por la distancia interaural y por la

frecuencia de muestreo de la señal sonora. Si suponemos una velocidad del

sonido de 340 m/s y una frecuencia de muestreo de 8000 muestras/s, el

retardo máximo en metros es la distancia interaural, y en muestras es:

8000 muestras / sg 340 metros /s

X muestras D. Interaural

70


Para una distancia interaural de 0.2 metros y una Frecuencia de 8000 Hz

tenemos un retardo máximo de 5 muestras.

En las gráficas siguientes podemos observar la diferencia entre el ángulo

original y continuo y el ángulo discreto obtenido después de la cuantización.

Observamos que a mayor frecuencia, mayor parecido con los ángulos

originales.

71


Figura 4.4 Angulo Original, Cuantizado y Error para Frecuencia de 8000 Hz



72


Los ángulos posibles en función de la frecuencia son los representados

el las siguientes figuras. Aquí también podemos apreciar que la distribución

angular no es lineal, siendo para unos ángulos mayor que para otros.

Figura 4.7 Reparto Angular para frecuencias de 8000 Hz



73


4.5.- Movimiento

Podemos aplicar lo visto hasta ahora para desarrollar una

transformación lineal de modo que podamos representar una fuente sonora

realizando un movimiento a lo largo de una trayectoria. Para ello lo único que

debemos hacer es definir este trayecto y aplicar las transformaciones de

Atenuación-Retardo a cada uno de los puntos que definen dicho recorrido. Al

tratar con frecuencias de muestreo lo suficientemente grandes y debido a la

limitación misma del oído humano, podemos asegurar que no existen saltos

apreciables en los cambios de ángulo debidos al movimiento.

El proceso es el siguiente:

• Se toma cada una de las muestras de la señal original.

• A cada muestra se le asigna una posición en el espacio. Dicha

posición la podemos definir por la duración de la señal de sonido y

por la trayectoria del recorrido. Se tomará una trayectoria con

velocidad constante, aunque se puede modificar en caso de desear

otro tipo de movimiento.

• Se le aplica la atenuación de potencias correspondiente a la

localización de cada muestra, con lo que se obtiene una señal

parecida a la original, pero con las muestras atenuadas según

criterios individuales, cada punto es atenuado independientemente.

• Se le aplica el retardo a cada muestra, de modo que cambiamos de

posición respecto a la señal original.

• Al aplicar este nuevo posicionamiento, se dejan espacios en blanco

que deben rellenarse. El relleno es la media aritmética de las

posiciones adyacentes. También es posible el solape de puntos,

para solucionar el problema se hace la media aritmética de los

puntos que se solapan.

74


Figura 4.10 Creación de movimiento mediante Propagación de Ondas Esféricas para cada los dos

oídos

Oído Izquierdo

Oído Derecho

Yi (n)

Yd (n)

Y(n) sn(n)

Procesado Potencia

Duración señal

Procesado Retardo

Y’(n) Sn’(n)

75


5.- Método de Análisis 2. Head Related Transfer Function. (HRTF)

5.1.- Técnicas de medida de HRTF

5.1.1.- Modelo de cabeza esférica

En teoría sería posible calcular la HRTF mediante la resolución de la

ecuación de ondas sometida a las condiciones presentadas por el pecho,

cabeza y orejas. No es necesario decir que es difícil de alcanzar

analíticamente y que el cálculo computacional es enorme. Hace unos 100

años, Lord Rayleigh obtuvo una notablemente buena aproximación de baja

frecuencia obteniendo una solución exacta al problema simple de la difracción

de una onda plana acústica sobre una esfera rígida. Entre otras cosas, esta

solución mostraba que:

1. Los efectos IID de sombra-cabeza comienzan a aparecer alrededor

de los 1 KHz.

2. La ITD varía sinusoidalmente con el azimuth y gradualmente aunque

con complejidad con la frecuencia.

76


A pesar de que el modelo de Rayleigh era simple, su solución no lo era,

y varias aproximaciones han sido propuestas. Una de ellas es la que se

expone a continuación, que se ajusta bastante bien a la solución de Rayleigh.

El modelo es el siguiente:

RTj

R ejjH ω

ωταωτθω −

++

=1

21),( (5.1)

LTjL e

jjH ω

ωτωταθω −

+−+

=1

)1(21),( (5.2)

Donde

)1(21 θα sin+= (5.3)

)(21

ca=τ (5.4)

τα )1( −=RT (5.5)

ατ=LT (5.6)

Este modelo se adapta bastante bien a la solución de Rayleigh a

frecuencias inferiores a 2 kHz. Cuando se escucha un sonido binaural

sintetizado con este filtro, la localización aparente se mueve suavemente desde

el oído izquierdo al derecho cuando θvaría de –90º a 90º. Sin embargo, este

77


modelo no proporciona ninguna dependencia con la elevación, y la localización

aparente no es externa, parece que está dentro de la cabeza.

5.1.2.- Modelado de Eco-Oreja

Hace aproximadamente 25 años, Batteau demostró que la forma de la

oreja jugaba un papel fundamental para determinar el ángulo de elevación de la

fuente sonora. El razonamiento era debido a los dos pliegues principales que

presenta la oreja, dichos pliegues producen distintos ecos debido a las

múltiples reflexiones que se desarrollan en las distintas superficies que

conforman el pabellón auditivo. Esto conduce a una FdT de la oreja de forma:

)1()1(

21

2121

ρρρρ ωτωτ

++++

=−− jeje

Hp (5.7)

Donde ambos coeficientes de reflexión ρi y los retrasos de eco τi pueden

variar con el azimuth y la elevación. A pesar de que los modelos de oreja-eco

han sido criticados por la excesiva simplificación del complicado proceso de

difracción, sus curvas de respuesta frecuencial muestran vanos de filtro peine

parecidos a los obtenidos de modo experimental, y los test psicoacústicos

indican una fuerte correlación entre las frecuencias de vanos y la percepción de

la elevación

5.1.3.- Modelado empírico.

La otra manera de obtener unas HTRF con cierta garantía de una forma

totalmente empírica, de modo que se realizan una serie de pruebas en

laboratorio sobre personas normales y maniquíes y los resultados obtenidos

son procesados para desarrollar las Funciones de Transferencia que

posteriormente serán utilizadas.

78


Las HRTFs son medidas generalmente mediante la grabación de unas

señales de test de uno de estos 3 modos:

• En la entrada de uno de los canales auditivos con un micrófono en

miniatura en forma de cápsula bloqueando el canal.

• A través del canal auditivo con un tubo sonda.

• En la posición de la oreja en la cabeza de un muñeco de pruebas

(maniquí).

En los tres casos, la cabeza debe permanecer completamente quieta

durante la prueba de medida para eliminar el sonido medioambiental existente.

Las medidas realizadas en cada posición tienen una relación estable y firme

con las medidas realizadas en otras posiciones. Por ejemplo, las medidas

realizadas con un tubo sonda situado al menos a 15 mm en el interior del canal

auditivo estarán cerca relativamente de aquellas realizadas en la posición del

canal auditivo.

Hay un ratio fijo entre la magnitud espectral de ambas hasta alrededor de

los 7000Hz . Por encima de los 7000Hz ( y a veces debajo) los notches en las

dos medidas son descompensados en cada uno y se crean diferencias

espectrales ( hay una relación señal a ruido pobre en general en los notches la

cual puede causar equivocaciones cuando se transforma un tipo de medida en

la otra).

Las mediciones realizadas en los oídos pueden ser procesadas con el

propósito de aislar la parte que representa las actuales HRTFs. Las señales

acústicas medidas en los oídos pueden ser representadas como el producto de

la función de transferencia dela fuente, S(w), y el equipo de grabación, T(w),

con el oído ipsilateral, Hi(w), o el oído contralateral, Hc(w):

79


S(w) T(w) Hi(w) S(w) T(w) Hc(w) (5.8)

Una medida de referencia sin sujeto humano es el producto de la fuente

y equipo de grabación solamente, S(w) y T(w). Por consiguiente, las HRTFs

pueden ser aisladas por la división de las referencias medidas desde los oídos.

S(w) T(w) Hi(w) = Hi(w) y S(w) T(w) Hc(w) = Hc(w) S(w) T(w) S(w) T(w) (5.9)

Este cálculo está típicamente desempeñado mediante una

transformación desde el dominio temporal al frecuencial por medio de la FFT

donde la distribución del valor complejo puede ser desarrollada directamente.

Alternativamente, los datos frecuenciales complejos pueden ser

convertidos a magnitud y fase. La respuesta impulsiva para la HRTF es

calculada por la transformación de la HRTF desde el dominio de la frecuencia

al dominio del tiempo mediante la FFT inversa.

5.2.- Colaboración con la Universidad de Wisconsin

Las HRTFs utilizadas para la realización del estudio han sido facilitadas

por la Universidad de Wisconsin. Gracias a un acuerdo previamente

establecido entre dicha Univeridad y la Hispalense, hemos podido tener acceso

a gran parte de los estudios realizados en sus instalaciones. Mediante esta

colaboración, desde Sevilla hemos podido definir nuestras necesidades para

que realizaran las pruebas que necesitábamos y mediante un servidor FTP

pudimos descargarlas usando Internet.

80


5.3.- Montaje

Se ha realizado medidas de Head-Related Transfer Function (HRTF)

sobre una serie de 5 voluntarios, cada uno de ellos posee una HRTF

característica y diferente del resto dependiendo de su fisonomía. En la

siguiente tabla se muestra el sexo y la altura de cada uno de los sujetos que

participaron en este estudio.

Voluntario Sexo Altura(pies) AFW Femenino 68.5"

SJX Femenino 68.0"

SOU Femenino 65.0"

SOS Masculino 74.0"

SOW Masculino 75.0"

Las medidas consisten en adquirir las respuestas impulsivas en los

oídos derecho e izquierdo a sonidos emitidos desde un altavoz “Realistic

Optimus Pro 7” montado a 1,4 metros de la cabeza de los voluntarios. Han sido

usadas secuencias binarias pseudoaleatorias de máxima longitud (ML) para

obtener las respuestas impulsivas a una tasa de muestreo de 44.1 kHz. Se

han elegido para el estudio 505 posiciones diferentes obtenidas mediante la

combinación de azimuth entre –170º y 180º y de elevación entre –50º y 90º.

El sistema de referencias angular que vamos a tomar durante todo el

proyecto es:

• Azimuth igual a cero para el frente.

• Ángulos de azimuth positivos hacia la derecha.

• Ángulos de azimuth negativos hacia la izquierda.

• Elevación cero para el plano horizontal.

• Elevación positiva para alturas mayores a cero.

• Elevación negativa para alturas menores a cero.

81


5.3.1.- Técnicas de Medida

Figura 5.1 Esquema de montaje en Laboratorio (I)

Las medidas se han realizado mediante el uso de un ordenador

Macintosh Quadra equipado con una tarjeta DSP Audiomedia II, con

convertidores estero digitales A/D y D/A de 16 bits que operan a 44.1 kHz de

tasa de muestreo. Uno de los canales de salida de audio es enviado a un

amplificador que conduce directamente a un altavoz ‘Realistic Optimus Pro 7’.

Este es un pequeño altavoz de dos vías con woofer de 4 pulgadas y tweeter de

1 pulgada.

Los voluntarios disponen de micrófonos y preamplificadores Etymotic

ER-11. Las salidas de los preamplificadores se conectan directamente a las

entradas estéreo de la tarjeta Audiomedia.

Desde el punto de vista de la tarjeta de sonido, una señal enviada a

través de la salida de audio corresponde con una señal que aparece en la

entrada de audio. Las medidas de la respuesta impulsiva de este sistema

Micrófonos y Preamplificadores

Etymotic ER-11

Altavoz Realistic

Optimus Pro7 Macintosh

Quadra

Audiomedia DSP

Amplificador

82


corresponden con la respuesta impulsiva combinada del sistema constituido

por los convertidores A/D y D/A y los filtros antialias de la tarjeta de sonido, el

amplificador, el altavoz, la habitación donde se han realizado las medidas y lo

más importante, la respuesta de los voluntarios combinada con los microfonos

y preamplificadores. Podemos eliminar las interferencias debidas a las

reflexiones de la habitación asegurándonos que ninguna reflexión sucede antes

de que ocurra la respuesta temporal de la cabeza, que es cuestión de

milisegundos. Medimos la respuesta impulsiva del altavoz de forma

independiente, de este modo podemos compensar la respuesta no uniforme del

mismo mediante un filtro inverso de modo que al aplicarlo la las medidas de

HRTF ecualiza la respuesta del altavoz poniéndola plana.

Las respuestas impulsivas han sido obtenidas usando secuencias ML.

La longitud de la secuencia es N = 16.383 muestras, correspondientes a un

registro generado de 14 bits. Dos copias de la secuencia son concatenadas

para formar un sonido de 2*N muestras que es reproducido desde la tarjeta de

sonido Audiomedia. Simultáneamente 2*N muestras son grabadas en los

canales correspondientes a los oídos derecho e izquierdo. Para cada canal de

entrada se ha procedido del siguiente modo para recuperar la respuesta

impulsiva.

• Las primeras N muestras del resultado han sido descartadas.

• Las restantes N muestras han sido duplicadas para volver a formar

una secuencia de 2*N.

• Esta señal es croscorrelada con la señal de original ML de N

muestras usando convolución FFT de bloques, formando una señal

de salida de 3*N-1 muestras.

• Las N muestras de la respuesta impulsiva fueron extraídas partiendo

de la muestra N-1 de la señal de salida.

83


5.3.2.- Procedimiento de Medida

Las medidas han sido realizadas en la cámara anecoica de la

Universidad de Wisconsin. Los voluntarios se sientan en una silla regulable en

altura que está fija sobre una plataforma giratoria controlada por ordenador, de

este modo podemos seleccionar con exactitud la medida del azimuth. El

altavoz está anclado en una plataforma móvil que recorre un riel en forma de

semicírculo de 1.4 metros de radio, partiendo desde la base de la silla hasta

una altura de 2.8 metros, lo cual permite posicionar con precisión el altavoz en

cualquier ángulo de elevación.

Figura 5.2 Esquema de montaje en Laboratorio (II)

De este modo las medidas se realizan a un ángulo de altura fija, rotando

el ángulo de azimuth mediante control por ordenador para esta elevación fijada.

Con la cara del voluntario mirando hacia delante, el altavoz es posicionado de

forma que un hipotético rayo normal proyectado desde el centro de la cara

frontal del altavoz dividiría en dos el eje interaural del sujeto a una distancia de

1.4 m

1.4 m

1.4 m

84


1.4 metros. Conseguimos esto usando una cinta métrica, un péndulo, una

calculadora, una vara de 1.4 metros y el riel instalado para el experimento.

Queremos que el altavoz está siempre en la posición deseada con un error de

0.5 pulgadas, lo cual corresponde a un error angular de ± 0.5 grados.

El espacio esférico alrededor del sujeto está muestreado en 36 espacios

regulares de 10º cada uno en el plano horizontal y en 15 espacios regulares de

10º cada uno desde el –50º al 90º de elevación en el ángulo de elevación. La

tabla siguiente muestra las posiciones desde donde se han obtenido las

HRTFs.

Elevación Número de Medidas Incremento Azimuth

-40

-30

-20

-10

0

10

20

30

40

50

60

70

80

90

36

36

36

36

36

36

36

36

36

36

36

36

36

X

10º

10º

10º

10º

10º

10º

10º

10º

10º

10º

10º

10º

10º

X

Si las personas fuésemos totalmente simétricas sólo necesitaríamos el

hemisferio derecho o izquierdo, pero como no lo somos necesitamos obtener

las HRTFs de ambos oídos para todos los ángulos de la esfera.

5.3.3.- Medidas de Altavoz y auriculares

La respuesta impulsiva del altavoz Optimus Pro 7 ha sido medida en la

cámara anecoica usando un micrófono Kmi 84 a una distancia de 1.4 metros.

85


La técnica de medida ha sido exactamente la misma que para las medidas de

HRTF. La respuesta impulsiva ha podido ser usada para crear un filtro inverso

con la idea de ecualizar las medidas de HRTF.

5.3.4.- Los datos

Como se ha descrito anteriormente, cada HRTF medida consiste en una

respuesta impulsiva de 16.383 puntos muestreada a 44.1 kHz. La mayoría de

estos datos son irrelevantes. Los 1.4 metros de viaje aéreo corresponden

aproximadamente a 180 muestras, y existe un retraso adicional de 50 muestras

inherentes al sistema de reproducción/grabación. Como consecuencia, en

cada respuesta impulsiva, hay un retardo de aproximadamente 230 muestras

antes de que la respuesta del cuerpo se produzca. Dicha respuesta persiste

durante muchos cientos de muestras, y es seguida por varias reflexiones de los

objetos de la cámara anecóica (incluidos altavoces, cables…etc). Para reducir

el tamaño del conjunto de datos, se ha procedido a eliminar las primeras 200

muestras, y conservar las 256 siguientes. Cada HRTF tiene por tanto 256

muestras de longitud.

Los datos han sido almacenados a priori en 10 archivos, cada uno con

505 funciones de Transferencia de 256 coeficientes procedentes de los dos

oídos de cada voluntario. Para poder trabajar de forma más rápida y cómoda,

se ha procedido a dividir estos archivos de la siguiente manera:

• Habrá 505 archivos WKX (Lotus 123) por cada voluntario.

• Cada archivo es una hoja de cálculo editable con Microsoft Excel que

posee dos columnas, una para cada oído.

• Estarán etiquetados del siguiente modo:

XXX_TT_PP.wkx

86


Donde:

XXX: nombre abreviado del voluntario.

TT: Ángulo Tetha.

PP: Ángulo Phi.

De este modo quedan totalmente definidos los 2525 archivos resultantes

de esta descomposición. Como se puede suponer, esto reduce

considerablemente el tiempo de carga de las HRTF a la hora de trabajar con

las mismas.

5.4 Características de la HRTF

Las HRTF presentan una serie de características importantes tanto en el

dominio del tiempo como en el de la frecuencia. Estas características

determinan un comportamiento determinado en las señales sonoras que son

afectadas por ellas.

Como se muestra en la Figura 5.3, las señales que llegan a los

pabellones auditivos pueden ser examinadas desde dos perspectivas distintas,

el dominio del tiempo y el de la frecuencia.

Si nosotros imaginamos que el evento sonoro es un simple impulso,

podemos fácilmente identificar el hecho de que depende solamente de la

acústica del oyente.

87


Figura 5.3 Representación de HRTFs en el dominio de la frecuencia y del tiempo en oidos

ipsilateral y contralateral (adaptados por Kebdall en 1990)

Desde el punto de vista del dominio del tiempo, se puede considerar a

las señales que llegan a los oídos como impulsos sonoros. La energía ha sido

dispersada alrededor de 1-3 milisegundos por la interacción con el cuerpo del

oyente. Cuando una fuente de sonido está exactamente a 90º azimuth en el

plano horizontal, la ITD llega a su máximo, estando éste entre 7 y 8

milisegundos.

Una comparación de medidas impulsionales de un mismo sujeto desde

diferentes localizaciones revelará patrones significativos.

88


Figura 5.4 Curvas de respuesta impulsiva medidas en el oído izquierdo de un voluntario para 36 ángulos distintos de azimuth en el plano horizontal. La curva de abajo representa 0 grados

azimuth (frente) y las siguientes curvas proceden de aumentar el ángulo alrededor de la cabeza hasta llegar a 350º (de Kendall 1990)

Figura 5.5 Curvas de respuesta impulsiva medidas en el oído izquierdo de un voluntario para 14 ángulos distintos del plano vertical con 30º de azimuth. La primera curva de abajo representa 80 grados ( arriba ) y las siguientes curvas proceden de disminuir el ángulo alrededor de la cabeza

hasta llegar a –50º

La Figura 5.4 muestra las curvas de respuesta impulsiva medidas en la

oreja de uno de los voluntarios para 36 ángulos distintos de azimuth en el plano

horizontal. Significativamente podemos observar la variación del retraso del

sonido inicial que acompaña el cambio de azimuth. Cuando el oyente se sitúa

alrededor de 270 grados (de distancia del lado contralateral) la simetría del

sonido alrededor de la cabeza en ambas direcciones difiere en los patrones de

89


los picos (el sonido retrasado reduce la ganancia entre 150 y 270 grados,

probablemente reflejando una reducción del sonido desde la oreja.)

La Figura 5.5 muestra las curvas correspondientes a un ángulo de 30º

de azimuth y recorre la elevación desde los 90º hasta los –50º.

En el dominio de la frecuencia las Figura 5.6 y 5.7 revelan que la

magnitud del perfil de las HRTF varía tremendamente con la frecuencia.

Comparando los dos oídos podemos observar que las magnitudes son más

similares cuando menor es la frecuencia del sonido y mas dispares a medida

que la frecuencia es mayor. La diferencia es significativa y se incrementa

notablemente por encima de los 1500 Hz ( la longitud de onda que coincide con

el diámetro de la cabeza), porque la cabeza empieza a bloquear las ondas

sonoras a estas frecuencias mayores.

Figura 5.6 HRTFs medidas en la posición del oído izquierdo en un sujeto voluntario para 36

ángulos distintos de azimuth en el plano horizontal.

90


Figura 5.7 HRTFs medidas en la posición del oído derecho en un sujeto voluntario para 36 ángulos

distintos de azimuth en el plano horizontal.

Hay numerosos factores acústicos que añaden complejidad y riqueza a

las HRTF´s, como por ejemplo el pico de gran amplitud que nos encontramos

en una zona de alrededor de los 3.000 Hz que está causado por la resonancia

del canal auditivo. Hay también vanos y otros finos detalles en la magnitud de

la respuesta causados por las interferencias constructivas y destructivas de la

onda directa con el sonido reflejado en el cuerpo. El sonido reflejado en torno a

2000Hz está causado principalmente por el torso, y el de 4000 HZ es debido a

la oreja, en medio hay una región de influencia superpuesta de ambos

interferentes.

Una comparación de HRTFs medidas en direcciones adyacentes

revelará muchos patrones significativos. La Figuras 5.6 y 5.7 muestran los

patrones que pueden ser observados en la magnitud de la respuesta de los

oído en el plano horizontal entre 0 y 360 grados de azimuth. Por ejemplo, el

ancho de banda del pico espectral cerca de los 3000 Hz se ensancha cuando

la fuente de sonido se mueve desde el frente hacia atrás. Un desvanecimiento

91


profundo en los 8000 Hz emigra hacia arriba en las frecuencias donde la fuente

se mueve hacia atrás y entonces desaparece virtualmente.

Figura5.8 HRTFs de los dos oído (izquierdo y derecho respectivamente) de un sujeto. El sonido incrementa en elevación ,-50º (línea negra), 0º (línea azul) y 70º (línea roja)

92


En la figura 5.8 se puede observar las diferencias de las HRTF de un

individuo al aumentar el grado de elevación, con un ángulo fijo de azimuth de

30º. Estas gráficas son aún más específicas de cada persona que las

mostradas anteriormente para el recorrido alrededor del ángulo Theta.

Cuando la distancia del evento origen del sonido está a más de dos

metros de la cabeza, al moverse éste o el oyente, producen pequeños cambios

de la HRTF. Las ondas sonoras, a esta distancia, vienen del evento sonoro en

forma aproximadamente plana (esto significa que las HRTFs provocadas por

eventos de menos de dos metros de distancia de la cabeza puedan ser

utilizadas para simular fuentes de sonido lejanas (a condición de que los

indicios del entorno a esa distancia también estén presentes). A menos de dos

metros de la cabeza, las ondas sonoras procedentes del evento acústico son

más esféricas, el ángulo efectivo entre el evento sonoro y el oído del individuo

cambia, y las HRTFs divergen significativamente de aquellos sonidos más

lejanos.

5.4.- Diferencias individuales

Actualmente hay un debate concerniente al impacto de las diferencias

individuales para extrapolar una HRTFs general con la que localizar el sonido

para todos los individuos, ya que cada uno posee una HRTF particular.

Las HRTFs varían muchísimo entre las personas y las diferencias

interaurales son afectadas de manera importante por las diferencias en el

tamaño de la cabeza y la orientación de las orejas. Esto implica que algunas

HRTF implementadas sobre algunos individuos puedan variar notablemente la

precisión de localización ( Butler & Belendiuk, 1977; Wightman & Kistler, 1989),

pero esas grandes diferencias en el tamaño de la cabeza pueden socavar la

localización (Morimoto & Ando, 1983). Wenzel en 1993 comunicó que el juicio

93


de la elevación y la diferencia entre adelante/atrás son propensas as

degradarse con el uso no individualizado de las HRTFs.

Del mismo modo parece que la localización efectiva puede ocurrir en

muchos casos en los cuales los oídos reciban funciones de transferencia

direccionales (DTFs) cuyos detalles difieran significativamente de las medidas

en las HRTFs. Kendall y Rodgers(1982) usaron filtros de orden bajo para crear

figuras de las FdT como aproximaciones de las HRTFs naturales mientras que

Martens (1987) y Kendall (1988) describen el uso de un análisis de

componentes principales para crear las DTFs artificiales.

Figura 5.9 Representacion de las HTRF de dos individuos (azul y rojo) y el error entre ambas para un ángulo de 50º azimuth y 0º de elevación. Oídos Izquierdo

94


Figura 5.10 Representacion de las HTRF de dos individuos (azul y rojo) y el error entre ambas

para un ángulo de 50º azimuth y 0º de elevación. Oídos Derecho

Comparando la respuesta en frecuencia de HRTFs de diferentes

individuos se puede observar que los rasgos espectrales no son exactamente

los mismos para todos. La magnitud de las HRTFs individuales variará en

términos generales y también en pequeños detalles. Las Figuras 5.9 y 5.10

comparan las HRTF de los oído izquierdo y derecho de dos individuos para un

ángulo de 50º azimuth y 0º de elevación.

Y aunque hay considerables diferencias en forma y detalle, pueden

verse como en general se parecen bastante. Por ejemplo, individualmente

ambas muestran la misma tónica en la transición de subida de las frecuencias

notch (por ejemplo, ambos individuos muestran las mismas tendencias en la

migración desde las frecuencias del vano hasta los picos más elevados). Esto

sugiere que mientras los individuos poseen cabezas de diferentes tamaños y

orejas de distintos tipos, el proceso acústico que se realiza para conseguir las

HRTF es el mismo para todos. No obstante , la diferencia de fase interaural

95


será afectada especialmente por una separación entre oídos. La magnitud de

los fenómenos de fase interaural será un poco distinta en niños que en adultos.

La comparación de los resultados sugiere lo siguiente:

1. Las personas generalmente localizan mejor los sonidos con sus propias

HRTFs que con las generales (o las de otros).

2. Algunos individuos tienen HRTFs que son superiores , y esas HRTFs

pueden algunas veces mejorar las localizaciones de otros individuos .

3. Para trabajar un individuo con la HRTF de otro, el tamaño de la cabeza

debe ser aproximadamente el mismo.

4. La localización puede ser lograda con DTFs sintéticas cuyos detalles

difieran de las HRTFs medidas.

5.5.- Reproducción estéreo del sonido 3D

Muchos sonidos 3D recrean una visión de un sistema de audio ideal que

podría incluir un motor computacional con suficiente potencia para sintetizar

completamente la acústica 3D de un entorno simulado. De hecho, ambientes

simulados simultáneamente parecen ser requeridos para situar cada sonido en

el entorno más apropiado. Cada fuente de sonido simulada y cada reflexión

simulada podría ser procesada por un par de filtros direccionales con los que

capturar las propiedades direccionales de la cabeza del oyente. Estos filtros

podrían cambiar instantáneamente en respuesta al movimiento de la cabeza

del oyente (o debido a cambios del entorno simulado). Si hubiese más de un

oyente, los cambios podrían ocurrir independientemente de cada persona. Los

filtros direccionales estarían basados en la HRTF de cada uno de los oyentes.

Algunas influencias del equipo de reproducción o del entorno podrían ser

eliminados.

96


Hay muchos factores que nos mantienen lejos de la realización de este

proyecto hoy en día. Uno de los factores es la enorme carga computacional

requerida para desarrollar este sistema, que parece no tener límite.

Necesitarán ser incorporadas muchas herramientas de ingeniería antes de que

un sistema práctico pueda acercarse a la funcionalidad descrita anteriormente.

Realizar un sistema de que comunique eficientemente al oyente es

probablemente más importante que representar la acústica de una realidad

física, ya conocemos entonces que el sistema auditivo es selectivo en cuanto a

la información que utiliza. Un factor aún más importante es que la

implementación actual de los filtros direccionales está lejos de ser perfecta.

5.6.- La Reproducción estéreo de los Sonidos 3D

Cohen (1989) y Begault (1991) han planteado señales para advertir la

carencia de discusiones realistas para áreas problemáticas y sobre

predicciones demasiado optimistas y argumentaciones para el sonido 3D,

especialmente para desarrollos comerciales.

Algunos problemas cruciales son la discriminación del sonido

delantero/trasero, decoloraciones de timbre, diferencias en la interpretación del

oyente y diferencias debidas a la acústica de la fuente de sonido. La

reproducción de sonido 3D puede ser un asunto complicado. Por ejemplo,

mientras unos auriculares y un altavoz tienen un sistema de reproducción

tecnológicamente similar y buscan los mismo objetivos, algunas veces

presentan algunos problemas muy diferentes y requieren soluciones prácticas

distintas.

97


5.6.1.- Filtrado Direccional

Tanto si la reproducción sucede en altavoces como en auriculares , hay

una serie de aspectos esenciales de la simulación computacional que sirven

para ambas opciones. Por ejemplo, como se muestra en la Figura 5.11, cada

fuente de sonido potencial y cada reflexión simulada empiezan como una señal

monofónica que eventualmente debe ser dividida en forma de un par estéreo

derecha/izquierda. Cada canal del par estéreo debe ser procesado mediante

filtros direccionales dependientes que cambian en respuesta a la proyección de

la localización de la fuente de sonido.

Todos los resultados de los pares estéreo derecha/izquierda resultantes

son sumados juntos para formar una señal de salida estereofónica compuesta

que finalmente es reproducida en los altavoces o auriculares. Estos filtros

direccionales pueden ser implementados de cualquiera de las maneras

tradicionales.

Figura 5.11 Una fuente simple y monofónica es dividida para formar un par derecha/izquierda

estéreo el cual es procesado mediante filtros digitales con dependencia direccional y sumados para formar una señal de salida estereofónica compuesta.

Este es el modelo de implementación de Escucha Direccional mediante

HRTF utilizado en este proyecto.

I I

I

I

D

D

D

D

Filtros con

Dependencia Direccional

Señal de Fuente

Monofónica

Otras Fuentes

Otras Fuentes

Señales Estereofónicas de Salida

Azimuth y Elevación

98


La Figura 5.12 muestra los detalles de una implementación más

compleja. Hay filtros FIR de derecha e izquierda cuyos coeficientes son las

respuestas impulsivas HRTF´s sacadas de una librería de HRTF´s. En las

HRTF´s normalmente estarían incorporados los retrasos interaurales y las

diferencias de intensidad, pero esto puede ser implementado de forma

separada mediante controles de ganancia y retraso, (esta separación puede

reducir el número de coeficientes necesarios para implementar los filtros FIR).

Figura 5.12 Detalles de la implementación con filtros FIR y retrasos interaurales independientes

con control de ganancia

D


Filtro FIR

Señal de Fuente Monofónica

Filtro FIR

Retraso Interaural

Ganancia Interaural y tabla de retrasos

Librería de HRTF


I

Ganancia I

Ganancia D

99


5.7.- Procesado

5.7.1.- Estático

Para el procesado de una señal de audio mediante la técnica de HRTF

usamos una señal monofónica. Dependiendo de los ángulos de azimuth y

elevación escogeremos la Respuesta Impulsiva mas parecida entre las 505 que

disponemos. Una vez elegida convolucionamos nuestra señal de sonido con

las h(n) correspondientes a los filtro de las HRTF del oído izquierdo y derecho.

De este modo tenemos dos señales de salida que conjuntamente forman la

señal estereofónica de salida.

Figura 5.13 Esquema de generación de señales direccionales mediante HRTF

5.7.2.- Dinámico

Mediante el procesado dinámico se pretende dar una sensación de

direccionalidad de una fuente de sonido en movimiento. Al tratar con HRTF

obtenidas a una distancia fija, solamente podremos describir el movimiento de

una curva en la superficie de una esfera de radio 1,4 metros.


I

D

Filtros con

Dependencia Direccional

Señal de Fuente

Monofónica


100


Figura 5.14 Representación de movimiento esférico a partir de uno lineal

Debemos dividir la trayectoria de la fuente de sonido en tantos intervalos

como cambios de sectores angulares encontremos, de este modo podemos

aplicar una transformación simple a la señal por cada uno de los intervalos

correspondientes a ángulos testeados en las pruebas y por tanto

pertenecientes a una de las 505 Respuestas Impulsivas conocidas.

Figura 5.15 Generación de sonido dinámico (I)

Destino Origen

h(1) h(2) h(3)

h(4)

101


Figura 5.16 Generación de sonido dinámico (II)

De cada intervalo i obtenemos una señal de salida estática yi(n).

Mediante una combinación estas yi(n) podemos recrear un movimiento a través

de la curva del modo que muestra la Figura 5.15.

El proceso que se realiza, y que puede verse en la figura 5.17, es el

siguiente:

• Se definen cada uno de los intervalos por los que pasa el

recorrido.

• Se divide la longitud total de la señal por el número de

intervalos. Esto genera un desplazamiento con velocidad

constante, aunque se podría modificar en caso de querer otro

tipo de movimiento.

• Se aplican los algoritmos de sonido direccional para cada uno

de estos intervalos.

Y1(n)

Yn(n)

Y2(n)

y1(n)

Y2(n)

Yn(n)

θ1

θn

θ2

θ1

θ2

θn

Señales Estereofónicas

de Salida

I

D

Procesado Recorrido

Señal de Fuente

Monofónica


Filtros Direccionales

Oído Izquierdo

Filtros Direccionales Oído Derecho

Algoritmo de

Combinación

Algoritmo de

Combinación

102


• Se cogen por orden los subintervalos de las salidas,

correspondientes a cada intervalo y se ponen ordenadamente

en las salidas correspondientes a los oídos izquierdo y

derecho.

• En caso de no coincidir las longitudes se procede a un relleno

de ceros al final de la señal.

Figura 5.17 Creación de movimiento mediante HRTF para cada uno de los oídos

Salida

Y1(n)

Y2(n)

Y3(n)

Y4(n)

H1(n)*sn(n)

H2(n) *sn(n)

H3(n) *sn(n)

H4(n) *sn(n)

Duración señal

103


6.- Interfaz de usuario

Para facilitar la obtención y visualización de resultados se ha creado una

interfaz gráfica con el programa MATLAB 5.3®.

La interfaz de usuario está dividida en tres grandes grupos o

aplicaciones:

• Análisis de archivos de sonido y procesado direccional estático.

• Análisis de archivos de sonido y procesado direccional dinámico.

• Generación y presentación de estadísticas y gráficas.

Durante el desarrollo del capitulo se verá con mayor detalle cada una de

ellas.

6.1.- Requisitos básicos

• Al tratarse de una aplicación realizada con el programa MATLAB 5.3®, el

PC donde se ejecute ha de tener dicho programa instalado. También

funciona en versiones posteriores del mismo ( MATLAB 6.0® y MATLAB

6.1® ).

• La interfaz lleva asociada una base de datos realizada con el programa

Microsoft Access para la cual se necesita crear el origen de datos ODBC.

104


Si el sistema operativo es el Windows la manera de proceder será la

siguiente:

1. Ir a panel de control.

2. Seleccionar Fuentes de Datos ODBC.

3. Pestaña DSN de sistema y pulsar ‘Agregar’.

Figura 6.1 Elección del origen de datos

4. Seleccionar Microsoft Access Driver y pulsar ‘Finalizar’.

5. Introducir la ruta y el nombre del origen de datos (nombre de la base de

datos de los voluntarios), que en este caso es ‘Escucha’ y pulsar ‘Aceptar’.

Figura 6.2 Elección del origen de datos II

105


6.2 Funcionamiento

Tras situarse en el programa MATLAB® y seleccionar el directorio donde

se encuentra la herramienta matemática diseñada, tecleamos

“escucha_direccional”. Aparece entonces la pantalla de presentación

siguiente:

Figura 6.3 Ventana de Presentación

Pulsamos ‘Continuar’ para acceder al programa. Se presenta ahora en pantalla

una elección que definirá tres caminos diferentes en la aplicación:

1. ANÁLISIS ESTÁTICO

Realiza un procesado de la señal de sonido para una direccionalidad

estática.

106


2. ANÁLISIS DINÁMICO

Realiza un procesado de la señal de sonido para una direccionalidad

dinámica.

3. ESTADÍSTICAS

Generación y presentación de estadísticas y gráficas comparativas entre

distintos factores que afectan a la direccionalidad.

Figura 6.4 Ventana de elección principal

Veremos cada una de ellas por separado. Alguna de las partes

contienen bastantes similitudes, así que se desarrollará primero el procesado

estático y luego el dinámico explicando de éste último sólo las partes que sean

diferentes al primero.

6.2.1.- Análisis Estático

Tras pulsar ‘ANÁLISIS ESTÁTICO’ aparece la pantalla principal del

procesado. Inicialmente se muestran deshabilitados algunos botones, los

107


cuales se irán activando conforme carguemos el archivo de sonido, el ángulo a

estudiar o procesemos la señal de entrada.

Figura 6.5 Ventana procesado estático

Barra de menú

La mayoría de las pantallas que se describen a continuación tienen una

barra de menú similar con una serie de opciones comunes.

• Ventana

Aparece un menú desplegable con las opciones ‘Inicio’, ‘Estático’,

‘Dinámico’ y ‘Estadísticas’ que conducen directamente a la pantalla a

la cual hace referencia.

108


Figura 6.6 Menú ventana

• Carga

El desplegable contiene las opciones ‘Carga Sujeto’, ‘Carga Ángulo’ y

‘Carga Sonido’ que se explicarán a continuación.

Figura 6.7 Menú Cargar

• Salir

Aparece la siguiente ventana de diálogo con dos posibles opciones:

Figura 6.8 Salir

Carga de Datos

• Carga sonido

Aparece una ventana de diálogo de Windows para seleccionar el

archivo de sonido a procesar. Esta ventana se ejecutará tanto

109


pulsando en el botón ‘Carga Sonido’ de la propia interfaz o en el

menú de opciones.

Figura 6.9 Ventana procesado estático. Carga Sonido

El archivo de sonido debe contener una señal monofónica, en el caso

de ser estereofónica, el programa se quedará sólo con el primer

canal, y procesará los algoritmos sobre una única señal. El sonido es

cargado y se prepara en el cuadro indicado de la pantalla. Además

se habilita el botón ‘Original’ que si lo pulsamos reproducirá el sonido

que hemos elegido.

• Carga Ángulo

Pulsando en el botón de la pantalla ‘Cargar Ángulo’ o en la barra de

menú se abre otra ventana diferente a la anterior donde se podrá

110


elegir la localización virtual de la fuente de sonido a implementar. En

la parte derecha podemos definir los ángulos Theta y Phi que definen

la dirección del sonido, mientras que en la derecha encontramos el

botón ‘Vista Previa’ el cual cargará en los cuadros inferiores unos

gráficos que nos ayudarán a situar la fuente de sonido en el espacio

mediante dos vistas, una en el plano XY y otra en 3 dimensiones.

El botón ‘Aceptar’ admite los ángulos y nos hace volver a la pantalla

principal donde se cargan automáticamente los gráficos vistos

anteriormente.

Figura 6.10 Venta carga ángulos

111


• Cargar Sujeto

En la barra de menú existe la opción de ‘Cargar’. En el desplegable

se puede elegir ‘Cargar Sujeto’, con esta acción aparece una nueva

ventana en la que hay una cuadro de opciones donde elegir el sujeto

cuyas HRTF serán utilizadas en la implementación del sonido

direccional. Una vez elegido el sujeto sólo tenemos que pulsar

‘Aceptar’ para volver a la pantalla principal y observar que en cuadro

superior de la misma aparece el nombre de la persona voluntaria que

se ha elegido.

Figura 6.11 Elección sujeto

Procesado

Cuando se ha concluido el proceso de elección de voluntario, sonido y

dirección, se habilita la opción de ‘Procesado’. Al pulsar sobre este botón y tras

esperar el tiempo necesario para la realización de este procesado de la señal

original, se habilitan el resto de los botones.

112


Figura 6.12 Procesado estático completo

Ahora están los botones ‘Original’, ‘RA’ y ‘HRTF’ que reproducen la

señal original, la procesada mediante la propagación de ondas esféricas y la

procesada mediante las HRTF respectivamente.

• Gráficos

El botón ‘Gráficos’ conduce a una pantalla donde se pueden

comparar la señal de entrada con las salidas de ambos oídos

procesadas por los dos algoritmos o incluso las mismas señales de

salida entre sí.

113


Figura 6.13 Resultados gráficos del análisis estático

6.2.2.- Análisis Dinámico

Pulsando ‘ANÁLISIS DINÁMICO’ en la ventana de elección principal

aparece la pantalla de procesado dinámico. Inicialmente se muestran

deshabilitados algunos botones, los cuales se irán activando conforme

carguemos el archivo de sonido, el ángulo a estudiar o procesemos la señal de

entrada para los dos algoritmos estudiados.

114


Figura 6.14 Ventana procesado dinámico

Se describe a continuación las ventanas, pantallas y opciones que son

distintas a la opción “PROCESADO ESTÁTICO” que se ha visto en el apartado

anterior.

Barra de menú

La barra de menú es idéntica a la pantalla anterior, aunque las ventanas

a las que conducen tienen algunas diferencias notables que se describirán a

continuación.

115


Carga de Datos

• Carga Ángulo

Al disponer sólo de HRTF medidas a una distancia fija, el único

movimiento que podemos describir con éste método es el recorrido

de una curva a través de una esfera de radio 1,4 metros.

En cuanto a la propagación de ondas esféricas, no tiene sentido

definir un ángulo de elevación, puesto que consideramos que la

direccionalidad que puede conseguir este algoritmo es sólo en el

plano horizontal frontal. Con ánimo de poder comparar la eficacia de

los dos algoritmos empleados, se define el movimiento como la curva

que recorre una circunferencia de radio 1,4 metros desde un punto

inicial definido por una ‘Theta inicial’ hasta un punto final definido por

una ‘Theta final’.

116


Figura 6.15 Carga ángulos procesado dinámico

Si se pulsa el botón ‘Vista Previa’ puede distinguirse el recorrido

en la gráfica situada en la ventana. Como opción complementaria se

puede definir el sentido del recorrido, horario o antihorario, desde el

punto inicial al final.

En la Figura 6.15 se muestra la ventana en la que se elige el ángulo

de partida y el de fin.

Procesado

Una vez concluida la elección de los parámetros, se habilitan las

opciones de ‘Procesado HRTF’ y ‘Procesado RA’ que realizarán la

ejecución de las funciones cuyo resultado es la señal de salida

procesada. Se han separado ambas funciones de procesado por el

tiempo de computo que puede llegar a ser un poco elevado.

Figura 6.16 procesado dinámico completo

117


Al igual que en el caso anterior, tras el procesado se activan los

botones ‘Original, ‘RA’ y ‘HRTF’ que nos permiten escuchar la señal

original y las procesadas.

6.2.3.- Estadísticas

Pulsando ‘ESTADÍSTICAS’ en la pantalla de elección principal aparece

una ventana donde podremos elegir de nuevo 4 opciones:

Figura 6.17 Elección estadística

1. GENERACIÓN ESTADÍSTICAS

2. ANÁLISIS ESTADÍSTICO

3. RECORRIDOS ANGULARES

4. COMPARACIÓN SUJETOS

118


Generación de Estadísticas

Al cargar esta pantalla se muestra un cuadro de texto donde se

informa del sistema de referencias utilizado, para facilitar el relleno de

los cuadros de texto que posteriormente se utilizan para realizar las

estadísticas.

Figura 6.18 Cuadro de texto de sistema de referencias

La ventana principal presenta una serie de botones etiquetados

como ‘Test X’ donde X es un número, si es pulsado uno de estos

botones, se reproducirá un sonido previamente procesado por HRTF o

por Propagación de Ondas Esféricas.

El usuario voluntario debe anotar en los cuadros de texto adjuntos

al botón los ángulos Theta y Phi que considere apropiados desde su

punto de vista. Como referencia se puede escuchar en todo momento la

señal original presionando sobre el botón correspondiente.

119


Figura 6.19 Generación de estadísticas

Una vez rellenos todos los cuadros de texto, presionamos

‘Aceptar’, esto conduce a una nueva pantalla donde se deben introducir

los datos del voluntario. Estos datos personales irán a almacenarse a la

Base de Datos ‘Escucha’, establecida en el origen de datos ODBC

mientras que los datos obtenidos en el test de sonido son almacenados

en una hoja de cálculo ‘LOTUS 123 WK1’ que puede ser editada con

cualquier programa de Hojas de Cálculo como por ejemplo ‘Microsoft

Excel’.

120


Figura 6.20 Introducción de datos en la BdD

Análisis Estadístico

En esta ventana se presentará el análisis estadístico de los

resultados guardados en la hoja de cálculo. En la parte derecha

tenemos una imagen donde se muestran las posiciones de los puntos

del test y los algoritmos utilizados en cada uno de los puntos.

Se puede ver las medias de las respuestas dadas por todos los

voluntarios y también los valores de un usuario en concreto, solo

necesitamos que introduzca su DNI en una pantalla que se muestra al

presionar el Botón ‘Carga Sujeto’.

121


Figura 6.21 Presentación de resultados estadísticos

Recorridos Angulares

El objetivo de esta opción es mostrar una comparativa entre

distintas respuestas impulsionales de un mismo sujeto desde distintas

posiciones. Se puede elegir el sujeto, el oído y el recorrido, siendo este

último una de estas dos opciones:

Recorrido Theta. Con una elevación de 0º (plano horizontal),

se establece un recorrido del ángulo Theta desde 0º hasta

360º, siguiendo el sistema de referencias establecido para

todo el proyecto (0º frente y grados positivos hacia la derecha).

Recorrido Phi. Se fija un azimuth de 30º (configurable a otro

cualquiera si lo deseamos), y se recorre el ángulo de elevación

desde 90º hasta –50º.

122


Figura 6.22 Recorrido del ángulo Theta

Figura 6.23 Recorrido del ángulo Phi

123


Comparación sujetos

En esta última opción se comparan las respuestas impulsionales

de distintos sujetos para una misma dirección. Las posibles elecciones

son los dos ángulos que determinan la posición de la fuente y los dos

voluntarios cuyas HRTF van a ser comparadas. Una vez elegidos los

parámetros y tras pulsar ‘Aceptar’ se representarán en los cuadros

inferiores las gráficas correspondientes a los oídos izquierdo y derecho,

siendo el significado de los colores el siguiente:

Azul. Color de la FdT procedente del sujeto de la

izquierda.

Rojo Color de la FdT procedente del sujeto de la derecha.

Verde Color de la resta de ambas FdT. Mediante esta

gráfica podemos apreciar lo parecidas que son las

dos HRTF.

124


Figura 6.24 Comparación distintos sujetos

125


7.- Conclusiones y Líneas de Desarrollo

7.1 Conclusiones

El análisis presentado en este proyecto permite obtener de una forma

cualitativa las señales estereofónicas de salida tras el procesado de una señal

monofónica de entrada. Podemos apreciar la diferencia entre las señales

procedentes del procesado a través de HRTF y por medio del método de la

propagación de ondas esféricas.

La direccionalidad del sonido esta ligada intrínsecamente al entorno. En

la vida real tenemos la posibilidad de localizar un sonido mediante un

movimiento de la cabeza o simplemente por la situación real en la que nos

encontramos. La creación de sonido sintético mediante ordenador nos impide

realizar este movimiento y, por tanto, localizar de manera eficaz la fuente de

sonido. No obstante los resultados obtenidos mediante el procesado de la

señal de sonido son bastante aceptables.

Mediante los dos algoritmos implementados podemos decir que en el

semiplano delantero horizontal está determinada la direccionalidad con un

rango bastante bueno. Si escuchamos un sonido procesado en distintas

posiciones podremos localizar sin dificultad cada una de estos lugares y

posicionar los focos de sonidos con un rango angular de 10-15 grados.

126


El método de la propagación de ondas esféricas mantiene limpia la señal

origen, ya que sólo hace una traslación de las muestras y las atenúa según un

coeficiente constante. Mediante el procesado de HRTF podemos observar la

introducción de una distorsión y una atenuación no uniforme debido a que son

dos señales convolucionadas lo que obtenemos a la salida del filtro.

La direccionalidad adelante/atrás y arriba/abajo sólo podemos obtenerla

mediante el método de las HRTF. Con este proyecto hemos podido determinar

que estás direccionalidades están ligadas intrínsecamente con la persona, y

que dependen muchísimo de sus características físicas exteriores e interiores.

Es por ello que con una función de transferencia obtenida de un sujeto, sólo

proporcionará direccionalidad arriba/abajo y adelante/atrás a este sujeto,

mientras que los demás sujetos que escuche un sonido que procede del

tratamiento de una señal con las HRTF de este sujeto, sólo podrá apreciar una

direccionalidad en el semiplano horizontal delantero.

7.2.- Líneas de desarrollo

7.2.1. Realizar HRTF individuales

Debido a la importancia de las HRTF individuales, la mejor opción para

conseguir una direccionalidad mejor es implementar FdT específicas para cada

indivíduo. Esto se consigue mediante loa obtención de las HRTF específicas e

indivuduales de cada persona. Lo ideal sería conseguir estos sin necesidad de

introducir al sujeto dentro de una cámara anecóica.

7.2.1 Convertir a un programa ejecutable

Tanto los algoritmos diseñados como la interfaz gráfica de usuario sólo

funcionan bajo el entorno MATLAB®. Sería interesante poder convertirlo a un

127


programa ejecutable (MATLAB® contiene herramientas específicas para la

compilación) y así se permitiría la encriptación de los códigos y la utilización en

cualquier PC, sin necesidad de que tenga instalado el programa MATLAB®.

128


8.- Bibliografía y Referencias

[1] Estorff O. V.: Boundary elements in acoustics : advances and

applications, Wit Press, 2000.

[2] Frank F.: Foundations of engineering acoustics, Academic Press. 2000.

[3] Haykin S.: Communication systems, John Wiley and Sons, 2000.

[4] Haykin S.: Adaptive filter theory, Prentice Hall, 1996.

[5] Kinsler L.E.: Fundamentals of acoustics, John Wiley & Sons, 2000.

Kinsler-Sanders, Coppens-Frey .

[6] Kinsler L.E.: Fundamentos de acústica, Limusa, 1990.

[7] Manilakis D.G., Proakis J.G.: Digital signal processing : principles,

algorithms, and applications, NJ Prentice-Hall PTR, 1996.

[8] Oppenheim Alan V., Schafer R.W.: Discrete-time signal processing.,

Prentice-Hall International, 1999.

[9] Oppenheim A. V., Willsky A. S.: Señales y sistemas Alan S.: Prentice-

Hall Hispanoamericana, 1998.

129


[10] Proakis J.G.: Digital communications, McGraw-Hill, 2001.

[11] Rosenhouse G.: Active noise control : fundamentals for acoustic design,

GWit Press, 2001

[12] Scott C. R.: Acousto-optic signal processing devices, Artech House,

1992.

[13] The Math Works Inc.: Matlab., Student Edition of MATLAB Version 5 for

Windows, Prentice Hall,1997.

[14] Williams E.G.: Fourier acoustics : sound radiation and nearfield

acoustical holography, Press, 1999.

[15] Duda R.: Modeling Head Related Transfer Functions, Twenty-Seventh

Asilomar Conference on Signals, Sistems & Computers, Asilomar, 1993.

[16] Pulkki V.: Uniform Spreading Amplitude Pannen Virtual Sources,

Workshop on Aplications of Signal Processing to Audio and Acoustics,

New York, 1999.

[17] Riederer K.: Investigation of multisensory spatial hearing: from the sense

of audition to multisensory interactions, Campfire: Acoustic Rendering for

Virtual Environments. Snowbird, Utah, 2001.

[18] Tollin D. J., Yin T. C. T.: Investigation of spatial location coding in the

lateral superior olive using virtual space simulation, Physiological and

Phychophysical Bases of Auditory Function, Maastricht, 2001.

130


Referencias en Internet

[19] Madariaga Imanol: Electroacústica. Apuntes de clase.

http://bips.bi.ehu.es/users/imanol/akustika/ElektroAkustikaApunteak.pdf

[20] Hartmann W. M.: How we Localize Sound, Physics Today On de Web.

www.aip.org/pt/nov99/locsound.html

[21] Researchers Uncover the Neural Details of How Barn Owls Locate

Sound Sources, Physics Today On Line.

http://www.physicstoday.com/pt/vol-54/iss-6/p20.html

[22] Mock J.E.: Experiments in Psychoacoustics.

http://wug.physics.uiuc.edu/courses/phys398emi/Student_Projects/Spring01/JM

ock/Jason_Mock_Paper

[23] Kendall G.: Directional Hearing and Stereo Reproduction.

http://www.northwestern.edu/musicschool/classes/3D/pages/sndPrmGK.html

131


[24] Stereo Recording Techniques, Deutsche Welle Radio Training

Centre.

http://www.dwelle.de/rtc/infotheque/stereo/stereo_recording.pdf

[25] Site Ouèbe de Jérôme Daniel.

http://gyronymo.free.fr/

[26] The Music, Mind and Machine Group, Instrument Identification and

Cochlear Implants.

http://sound.media.mit.edu/index.html

[27] La importancia de tener dos oídos, Viviendo, oyendo y oliendo el Mundo.

http://www.hhmi.org/senses-esp/c220.html

[28] Gacetilla Matemática. Notas matemáticas

http://www.arrakis.es/~mcj/notas.htm

[29] Equivalencias de medida, Enciclopedia de la construcción.

http://www.construir.com/Econsult/C/Consulta/RENISON/document/medidas

132


ANEXO I : Posiciones angulares y resultados de las pruebas

Se presentan a continuación las posiciones angulares de las pruebas

realizadas así como los resultados obtenidos en las mismas. Como medida

estadística tomaremos la media aritmética ± 3 veces la desviación típica.

Las pruebas realizadas consisten en un grupo de 13 señales de sonido

modificadas mediante los algoritmos de propagación de ondas esféricas y

mediante HRTF. Los resultados corresponden a 15 voluntarios que han

escuchados estos sonidos y han dispuesto las posiciones angulares de las que

les parecía provenir el sonido.

En la siguiente Figura 9.1 se muestran las posiciones reales de la fuente

de sonido. Se muestran en el plano horizontal, con lo que observamos sólo el

grado azimuth. Para el plano elevación se ha elegido elevación igual a cero

para todas las pruebas, con el objeto de poder comparar los resultados de

ambos algoritmos, ya que como hemos comentado la propagación de ondas

esféricas no tiene la posibilidad de implementar altura.

133


Figura 9.1 Disposición angular de las pruebas realizadas.

A continuación se muestran los resultados obtenidos por los 15

voluntarios. En el eje horizontal podemos observar los test efectuados, cada

134


uno caracterizado por un número al que se puede hacer referencia mirando la

Figura... y en vertical tenemos los resultados obtenidos por los voluntarios para

cada uno de estos archivos de sonido. Presentamos dos tablas, una para el

ángulo de azimuth y otra para el ángulo de elevación.

T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 T13

A -30 -80 30 -45 20 80 -20 20 -90 70 -60 15 90

B 20 -90 70 -60 20 100 -70 70 -70 45 -45 0 90

C 20 -70 60 -30 0 70 -45 25 -70 30 -30 0 70

D 0 -90 50 -50 0 90 -50 50 -90 50 -50 0 90

E 15 -80 40 -50 0 90 -70 50 -70 60 -50 10 90

F 10 -90 45 -45 10 90 -50 60 -80 70 -60 10 80

G -20 -70 45 -45 0 90 -60 40 -80 50 -40 0 75

H -30 -90 50 -50 0 80 -75 30 -90 40 -50 0 80

I 15 -90 60 -60 20 75 -30 60 -90 30 -45 0 90

J 30 -80 40 -70 -20 80 -20 70 -80 50 -50 15 80

K -20 -70 30 -70 -10 75 -40 30 -70 50 -60 30 90

L 10 -80 70 -50 -30 90 -50 50 -90- 60 -55 20 90

M 20 -90 50 -30 0 90 -65 40 -75 70 -45 -20 80

N 15 -80 40 -40 0 85 -75 60 -90 80 -60 -30 75

O -30 -90 30 -45 10 90 -40 50 -90 50 -30 010 80

Tabla 9.1 Resultados obtenidos para el ángulo de azimuth

135


T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 T13

A -45 10 0 0 15 30 40 -15 -20 15 0 0 0

B -30 0 0 0 0 10 45 10 45 0 0 0 0

C 10 -15 0 0 0 0 0 0 0 0 -15 0 10

D 30 15 20 15 0 -30 -50 -30 -50 45 -45 30 60

E -45 10 0 0 10 45 10 45 -45 10 0 0 10

F -30 0 0 0 0 0 0 0 -30 0 0 0 0

G 10 -15 0 0 -30 -50 -30 -50 10 -15 0 0 -30

H 30 15 20 15 15 30 40 -15 -20 15 20 15 30

I -45 10 0 0 0 10 45 10 45 0 0 -30 -50

J -30 0 0 0 0 0 0 0 0 20 15 30 40

K 10 -15 0 0 0 -30 -50 -30 -50 0 10 45

L 30 15 30 40 -15 -20 -30 0 15 30 40 -15 -20

M 0 0 0 0 10 45 0 0 0 0 45 10 45

N 0 -30 -50 -30 0 0 0 -30 -50 -30 0 0 0

O 10 45 10 45 -30 -50 10 45 10 45 -50 -30 -50

Tabla 9.2 Resultados obtenidos para el ángulo de elevación

Debido a la disparidad de los datos obtenidos en la pruebas en el caso

de la elevación, se ha concluido que este valor es específico de las HRTF y

que sólo puede apreciarse si el voluntario escucha la señal de origen

procesada con su propia función de transferencia.

Como se puede observar, la mayoría de los voluntarios han interpretado

que la fuente de sonido está situada en el plano horizontal delantero. Para no

falsear datos en la media, aquellos resultados que se sitúen en el plano

horizontal trasero, se les modificará el valor de modo que estén en el plano

horizontal delantero, de este modo los datos estadísticos serán más fáciles de

interpretar.

136


A continuación de muestran los datos estadísticos de los resultados del

ángulo azimuth y elevación.

Azimuth Elevación

Media ± σ Media ± σ

T1 1.66 ±21.43 -6.33 ±28.37

T2 -82.66 ±7.98 3 ±17.8

T3 47.33 ±13.21 2 ±17.4

T4 -49.33 ±11.93 5.66 ±17.91

T5 1.33 ±14.07 -1.66 ±13.71

T6 85 ±8.01 -0.66 ±30.75

T7 -50.666 ±18.5 2 ±31.83

T8 47 ±15.78 -4 ±26.26

T9 -81.047 ±8.8 -9.33 ±32.06

T10 53 ±14.69 9 ±20.37

T11 -48 ±9.9 1.33 ±25.45

T12 4 ±14.9 3.66 ±20.65

T13 83.33 ±6.98 3.21 ±33.37

Tabla 9.3 Análisis estadístico para los ángulos de azimuth y elevación

En la tabla 9.3 se puede observar que la elevación es muy dispar en la

mayoría de las pruebas. Por el contrario encontramos unos resultados

bastante precisos en el ángulo de azimuth, teniendo en cuenta que siempre

nos referimos al semiplano horizontal delantero.

137


ANEXO II : Tiempos de procesado

El ordenador utilizado para la realización de este proyecto tiene las

siguientes características técnicas.

• Pentium III 500 MHz.

• 128 MB de memoria RAM.

• Sistema Operativo Windows 98.

• MATLAB® 5.3.

• Placa base Winex2

• Tarjeta de sonido integrada en placa base.

Los tiempos de procesado en este equipo han sido para una señal de

sonido de 2,701 segundos de duración a una frecuencia de muestreo de

22.050 Hz, lo que hace un total de 59.561muestras

Propagación de ondas esféricas:

• Posicionado estático: 0.11 segundos

• Posicionado dinámico 0º - 50º: 980 segundos



HRTF:

• Posicionado estático: 1,59 segundos

• Posicionado dinámico 0º - 50º: 10,71 segundos


138



• Recorrido azimuth: 5,55 segundos

• Recorrido elevación: 5,22 segundos

Y para una señal de sonido de 17,12 segundos de duración a una

frecuencia de muestreo de 7.200, con un total de 123.298 muestras:

Propagación de ondas esféricas:





HRTF:





• Recorrido azimuth: 5,55 segundos

• Recorrido elevación: 5,22 segundos

generación sintética de sonido direccional

Documents