generación sintética de sonido direccional
TRANSCRIPT
Universidad de Sevilla
Departamento de Teoría de la Señal y Comunicaciones
Escuela Superior de Ingenieros Ingeniería de Telecomunicación
PROYECTO FIN DE CARRERA
GENERACIÓN SINTÉTICA DE SONIDO
DIRECCIONAL.
Autor: Antonio Emilio Muñoz Yélamo
Director: Prof. Dr. José Ramón Cerquides Bueno
a mis padres
Quiero agradecer especialmente a D. José
Ramón Cerquides Bueno por darme la posibilidad de
realizar este proyecto en el Departamento del Área
de la Señal.
A Mónica, porque eres lo mejor que me ha
pasado y no entiendo la vida sin ti.
Gracias a mis padres y hermanos por
ayudarme y comprenderme en la distancia, sin
vosotros no estaría hoy aquí.
Quiero también mostrar mi gratitud a
Mammen, Mary y Marcos, me habéis dado un apoyo
que sólo una verdadera familia sabe dar.
Gracias a mis amigos de Córdoba, del
Colegio Mayor y de la Escuela, el estar con vosotros
hace que me sienta afortunado.
I
Generación Sintética de Sonido Direccional
ÍNDICE DE CONTENIDOS
1.- INTRODUCCIÓN Y OBJETIVOS...........................................................................................................1 1.1.- Introducción.............................................................................................................................1 1.1.- Objetivos .................................................................................................................................3
2.- ACÚSTICA. .............................................................................................................................................4 2.1.- Introducción.............................................................................................................................4
2.1.1. Reseña Histórica ..........................................................................................................5 2.1.2.- Áreas de Trabajo en Acústica .....................................................................................7
2.2.- Características de las Ondas Acústicas ..................................................................................8 2.2.1.- Ecuación de Onda.......................................................................................................9 2.2.2.- Ondas Planas............................................................................................................10 2.2.3.- Ondas Esféricas ........................................................................................................12
2.3.- Características del Sonido ....................................................................................................13 2.3.1.- Velocidad ..................................................................................................................13 2.3.2.- Longitud de onda.......................................................................................................14 2.3.3.- Presión Acústica........................................................................................................16 2.3.4.- Nivel de Presión sonora (SPL) ..................................................................................16 2.3.5.- Intensidad Sonora .....................................................................................................17 2.3.6.- Nivel de Intensidad Sonora (IL) .................................................................................18 2.3.7.- Nivel de Potencia Acústica (PWL).............................................................................18
2.4.Micrófonos...............................................................................................................................20 2.4.1.- Transductores básicos ..............................................................................................21 2.4.2.- Direccionabilidad. Patrones básicos de los micrófonos.............................................28 2.4.3.- Micrófonos de Configuración variable .......................................................................31
3.- CIENCIAS BÁSICAS DEL SONIDO 3D................................................................................................34 3.1.- Perspectiva Físico Acústica ..................................................................................................35 3.2.- Perspectiva Psicoacústica.....................................................................................................39 3.3.- Perspectiva Neurofisiológica .................................................................................................43
3.3.1.- Sistema periférico......................................................................................................43 3.3.2.- Fisiología del Sistema Auditivo .................................................................................44
4.- MÉTODO DE ANÁLISIS 1. MODELO DE PROPAGACIÓN DE ONDAS ESFÉRICAS ......................65 4.1.- Introducción...........................................................................................................................65 4.2.- Ángulo y distancia .................................................................................................................65 4.3.- Modelo de fuente cercana y fuente lejana.............................................................................66
4.3.1.- Modelo Fuente Cercana............................................................................................66 4.3.2.- Modelo Fuente Lejana...............................................................................................67 4.3.3.- Intensidad Sonora .....................................................................................................68
4.4.- Cuantificación y retardos enteros..........................................................................................69 4.5.- Movimiento............................................................................................................................73
II
Generación Sintética de Sonido Direccional
5.- MÉTODO DE ANÁLISIS 2. HEAD RELATED TRANSFER FUNCTION. (HRTF)...............................75 5.1.- Técnicas de medida de HRTF...............................................................................................75
5.1.1.- Modelo de cabeza esférica .......................................................................................75 5.1.2.- Modelado de Eco-Oreja ............................................................................................77 5.1.3.- Modelado empírico....................................................................................................77
5.2.- Colaboración con la Universidad de Wisconsin ....................................................................79 5.3.- Montaje .................................................................................................................................80
5.3.1.- Técnicas de Medida ..................................................................................................81 5.3.2.- Procedimiento de Medida..........................................................................................83 5.3.3.- Medidas de Altavoz y auriculares..............................................................................84 5.3.4.- Los datos...................................................................................................................85
5.4 Características de la HRTF .....................................................................................................86 5.4.- Diferencias individuales.........................................................................................................92 5.5.- Reproducción estéreo del sonido 3D ....................................................................................95 5.6.- La Reproducción estéreo de los Sonidos 3D ........................................................................96
5.6.1.- Filtrado Direccional....................................................................................................97 5.7.- Procesado .............................................................................................................................99
5.7.1.- Estático .....................................................................................................................99 5.7.2.- Dinámico ...................................................................................................................99
6.- INTERFAZ DE USUARIO....................................................................................................................103 6.1.- Requisitos básicos ..............................................................................................................103 6.2 Funcionamiento.....................................................................................................................105
6.2.1.- Análisis Estático ......................................................................................................106 6.2.2.- Análisis Dinámico ....................................................................................................113 6.2.3.- Estadísticas.............................................................................................................117
7.- CONCLUSIONES Y LÍNEAS DE DESARROLLO ..............................................................................125 7.1 Conclusiones.........................................................................................................................125 7.2.- Líneas de desarrollo............................................................................................................126
8.- BIBLIOGRAFÍA Y REFERENCIAS.....................................................................................................128
ANEXO I : POSICIONES ANGULARES Y RESULTADOS DE LAS PRUEBAS.....................................132
ANEXO II : TIEMPOS DE PROCESADO.................................................................................................137
1
Generación Sintética de Sonido Direccional
1.- Introducción y Objetivos
1.1.- Introducción
El sonido y su tratamiento digital han experimentado en los últimos años
un importante desarrollo debido en gran parte, a una mejora notable en los
sistemas de obtención y reproducción del sonido. El sector multimedia y los
sistemas de vídeo y DVD domésticos se han visto ampliamente mejorados.
En la actualidad los hogares se ven invadidos por electrodomésticos
potentes y de prestaciones elevadas, en la mayoría de los casos acompañados
de un elevado número de altavoces, que hacen que surja la necesidad de
sacar rendimiento a esta inversión.
Los ordenadores cada vez son más potentes, no son sólo las
herramientas para llevar las cuentas o procesadores de texto para escribir
cartas, se convierten en elementos que aportan características multimedia
donde los niños, y los no tan niños, juegan y se divierten. Es muy común que
los PC´s traigan incorporados un DVD y un numeroso juego de altavoces, esta
evolución trae consigo una necesidad de mercado dedicada a la investigación
de imagen y sonido. Es precisamente el sonido el tema fundamental de este
proyecto y concretamente el papel que tiene la direccionalidad del mismo en la
época en la que vivimos.
2
Generación Sintética de Sonido Direccional
Los sistemas de sonido denominados “Home Cinema” cada vez son más
habituales en los hogares. Estas inversiones tanto del consumidor al comprar
los equipos, como del fabricante en investigación y desarrollo, exigen un
desarrollo paralelo en las técnicas de reproducción que saquen el máximo
rendimiento a estos sistemas multicanal, y el sonido direccional es uno de los
aspectos fundamentales en este desarrollo.
El proyecto pretende implementar un sistema alternativo de sonido
direccional y sensación espacial para ser reproducido en auriculares. Esto
tiene la dificultad añadida de que sólo disponemos de 2 fuentes de sonido, en
lugar de hasta 6 como los sistemas 5.1. Mediante los dos minialtavoces
situados dentro de los auriculares pretendemos emular un entorno
tridimensional.
La reproducción estéreo tradicional provoca alguna información espacial,
pero no recrea lo suficiente la dimensionalidad completa como si estuviésemos
en una habitación (por ejemplo en un concierto de música real), más bien
provoca una sensación como si estuvieses en un espacio tridimensional. La
reproducción por medio de altavoces crea la impresión de que estás en frente
de un espacio de sonido, y la reproducción mediante auriculares crea la
impresión de que la fuente de sonido está en la propia cabeza.
Es complicado que cuando escuchamos un sonido grabado de la forma
habitual podamos recibir la información sensorial sobre los “eventos”
almacenados en el archivo, no podemos interactuar con esos fenómenos
grabados para actualizar, testear y refrescar nuestro entorno cognoscitivo (no
podemos mover la cabeza para asegurarnos de donde viene un sonido, o para
ver la fuente del mismo). Estamos relegados al rol de un observador inmóvil
con imposibilidad de mejorar nuestra información sensorial.
3
Generación Sintética de Sonido Direccional
1.1.- Objetivos
Las señales de sonido monofónicas van a ser tratadas mediante dos
algoritmos para convertirlas en estereofónicas, de modo que se recibirán en
cada unos de los oídos señales distintas, procesadas según:
• La teoría de propagación de ondas esféricas
• Procesado mediante Funciones de Transferencia relativas a la
cabeza o HRTF (Head Related Transfer Functions)
Estas señales de salida estereofónicas serán testeadas por una serie de
voluntarios que medirán la bondad de la direccionalidad creada por los
algoritmos implementados.
La herramienta de análisis y reproducción de sonidos direccionales
presentada en este proyecto permite, de una manera fácil e intuitiva, la carga,
procesado, reproducción y visualización de las señales de sonido de entrada y
salida. También habilita la posibilidad de que cualquier persona que quiera
comprobar la direccionalidad del sonido pueda hacerlo, e incluso pueda
participar en la elaboración de las estadísticas convirtiéndose en voluntario del
experimento.
El objetivo final del proyecto es comprobar cómo de buenos son estos
tratamientos a la señal de sonido, para proporcionar direccionalidad en el
espacio. También se desarrollará un método para crear sensación de
movimiento sobre un sonido monofónico. Este algoritmo emulará el
movimiento al que se somete una fuente de sonido al realizar una traslación a
lo largo de una curva.
4
Generación Sintética de Sonido Direccional
2.- Acústica.
2.1.- Introducción
La Acústica es la ciencia que estudia la producción, transmisión y
percepción del sonido tanto en el intervalo de la audición humana como en las
frecuencias ultrasónicas e infrasónicas.
Dada la variedad de situaciones donde el sonido es de gran importancia,
son muchas las áreas de interés para su estudio: voz, música, grabación y
reproducción de sonido, telefonía, refuerzo acústico, audiología, acústica
arquitectónica, control de ruido, acústica submarina, aplicaciones médicas, etc..
Por su naturaleza constituye una ciencia multidisciplinaria ya que sus
aplicaciones abarcan un amplio espectro de posibilidades, tal como se observa
en la Figura 2.1.
5
Generación Sintética de Sonido Direccional
Figura 2.1 Ciencias relacionadas con la Acústica.
2.1.1. Reseña Histórica
En la antigüedad, filósofos griegos como Chrysippus (c. 240 AC) y
Aristoteles (c. 384-322 AC) así como el arquitecto romano Vetruvius (c. 25 AC)
teorizaban sobre la naturaleza del sonido.
En 1657 Gaspare P. Schotto en su libro Magiae Universalis publicado en
Herbipoli, actual Wurzburg, describió ejemplos de análisis de ondas sonoras
así como su generación mediante instrumentos basados en agua.
Se considera que el comienzo del estudio científico de las ondas
acústicas corresponde a Marin Mersenne (1988-1648), un Francés considerado
6
Generación Sintética de Sonido Direccional
el padre de las acústica, y a Galileo Galilei (1564-1642) con su "Discursos
Matemáticos concernientes a dos nuevas ciencias" (1638).
Isaac Newton (1642-1727) desarrolló la teoría matemática de la
propagación del sonido en su "Principia" en 1686.
Habrían de transcurrir muchos años hasta que, en el siglo XIX, los
trabajos realizados por Stokes, Thomson, Lamb, König, Tyndall, Kundt y otros
precedieron el importante desarrollo de Helmholtzen su Teoría fisiológica de la
música en 1868 para luego llegar al gran tratado de dos volúmenes de Lord
Rayleigh " Teoría del Sonido" en 1877 y 1878.
Habría que esperar hasta el período de 1900-1915 para que, como
señala Leo L Beranek, W.C. Sabine, en una serie de artículos, eleve la acústica
arquitectónica al grado de Ciencia. Es de destacar también, el enorme aporte
de los laboratorios BELL a la Acústica, Electroacústica y Psicoacústica durante
la primera mitad de este siglo.
W. Herschell observaba en el siglo pasado que, en general, el
fenómeno sonoro estaba acompañado de una serie de eventos:
• La comunicación de dicho movimiento al aire o a cualquier otro
intermediario interpuesto entre el cuerpo sonoro y el oído.
• La propagación de este movimiento, que pasa de una molécula a otra
del cuerpo intermediario en una sucesión adecuada.
• La transmisión de dicho movimiento del medio ambiente al oído.
• La transmisión que se produce desde el oído a los nervios auditivo
por determinado mecanismo.
• La producción de la sensación.
7
Generación Sintética de Sonido Direccional
Estos puntos determinan aún hoy , los capítulos básicos de la acústica
moderna: Generación, Irradiación y Propagación del sonido así como también
su interacción con el ambiente mediante los fenómenos de Absorción,
Reflexión o Difracción del sonido, y por último su Percepción.
2.1.2.- Áreas de Trabajo en Acústica
Algunas de las áreas de trabajo en acústica son:
Acústica Arquitectónica. Estudia la interacción del sonido con las
construcciones. Participa en el diseño de: salas de conciertos,
auditorios, teatros, estudios de grabación, iglesias, salas de reuniones,
salones de clases, etc.
Ingeniería Acústica. Estudia el diseño y utilización de transductores e
instrumentos de medición de sonido. Incluye la instrumentación para
diagnóstico médico, sísmico, grabación y reproducción de voz y música.
Una rama de la Ingeniería Acústica es la Electroacústica la cual trata con
micrófonos y Altavoces.
Acústica Musical. Combina elementos de Arte y de Ciencia al incluir el
diseño de instrumentos, el uso de sistemas de grabaciones, la
modificación electrónica de la música con el estudio de su percepción.
Su campo de trabajo está en la Industria de la grabación de música y
cine, y en la Industria de la construcción de instrumentos. A esta área
pertenece el llamado Ingeniero de Sonido.
Control de Ruido y Vibraciones. Esta área cobra cada vez mayor
importancia dado el aumento en el reconocimiento del ruido como un
factor de contaminación que afecta seriamente la salud. Su campo de
trabajo está en las fábricas, en los organismos de control gubernamental
y en asesorías a los arquitectos. También tiene un campo importante en
8
Generación Sintética de Sonido Direccional
el mantenimiento preventivo de maquinarias mediante el análisis de sus
vibraciones.
Bioacústica y Acústica médica. Estudia la interacción entre las ondas
sonoras y los cuerpos humanos y animales. Se ha desarrollado
enormemente el uso de ultrasonido como herramienta de diagnóstico y
de tratamiento. También es importante el campo de las ayudas auditivas
y de implantes para personas con defectos en la audición.
Se verá a continuación los fenómenos que ocurren en la Generación,
Transmisión, Recepción, Tratamiento acústico y Electrónico y Percepción por el
sistema auditivo de las señales de audio con el fin de poder intervenir en su
incidencia en el entretenimiento, calidad de comunicación, confort o en la salud
de las personas expuestas a sus excesos.
2.2.- Características de las Ondas Acústicas
El sonido se produce mediante un tipo de ondas longitudinales, esto es,
las moléculas de un medio que vibran en la misma dirección de propagación.
Figura 2.2 Propagación del sonido en el aire.
9
Generación Sintética de Sonido Direccional
2.2.1.- Ecuación de Onda
Para caracterizar ondas acústicas basta con describir el desplazamiento
instantáneo de las moléculas o su velocidad. Para obtener la ecuación que
define el comportamiento de las ondas acústicas tenemos que de acuerdo con
la conservación del momento:
tvpgrad
∂∂
−= 0)( ρ (2.1)
donde:
p = Presión sonora.
v = Vector de velocidad de partícula.
t = Tiempo.
ρ0 = Densidad estática del gas.
y de acuerdo con la ley de conservación de la masa:
tvdiv
∂∂
=ρ
ρ )(0 (2.2)
donde r es la porción dependiente del tiempo de la densidad del gas.
En estas ecuaciones se asume que los cambios en p y en r son
pequeños comparados con los valores estáticos y que además, la velocidad de
partícula v es mucho menor que la velocidad del sonido.
Si suponemos que el gas es ideal tendremos:
273100 +ΘΘ
−==
δκ
κρρ
κpp
(2.3)
10
Generación Sintética de Sonido Direccional
donde:
κ = constante adiabática ( 1.4 para el aire )
Θ = Temperatura °C.
δΘ = Variación de temperatura.
Con las ecuaciones anteriores se puede eliminar el vector de velocidad
de partícula y la parte variable de la densidad r , lo cual resulta en la siguiente
ecuación diferencial:
tppc 2
22
∂∂
=∆ (2.4)
donde:
0
02
ρκpc = (2.5)
donde p0 = Presión atmosférica.
Esta es la "Ecuación de Onda" que define la propagación de las ondas
acústicas.
2.2.2.- Ondas Planas
En el caso en que se tengan frentes de ondas planos en una sola
dirección la ecuación de onda se convierte en:
2
2
2
22
tp
xpc
∂∂
=∂∂
(2.6)
cuya solución general es :
11
Generación Sintética de Sonido Direccional
)()(),( xctGxctFtxp ++−= (2.7)
donde c es la velocidad del sonido.
Si hacemos que F y G sean funciones exponenciales con argumentos
imaginarios tendremos:
)()( ˆˆ),( kxtixctik epeptxp −− == ω (2.8)
donde:
ck ω
= (2.9)
w=2pf= frecuencia angular
Cuya parte real es:
)cos(ˆ),( kxtptxp −= ω (2.10)
Tomando en cuenta la ecuación (2.1) tenemos que la velocidad de
partícula tiene, para las ondas planas, una sola componente paralela al eje x:
cppk
xp
ivv x
000
11ρωρρω
==∂∂
−== (2.11)
donde: ροc se define como la impedancia característica del medio que, en el
caso del aire es igual a 414 Kgm-2s-1.
12
Generación Sintética de Sonido Direccional
Figura 2.3 Ejemplo de ondas Planas
2.2.3.- Ondas Esféricas
En el caso de las ondas esféricas la ecuación (2.4) se convierte en:
2
2
2
2 122 t
pcr
prr
p∂∂
=∂∂
+∂∂
(2.12)
y, suponiendo señales armónicas, tenemos:
022
22
=+∂∂
+∂∂ pk
rp
rrp
(2.13)
Una solución de esta ecuación es:
reCtrp
krti )(
),(−
=ω
(2.14)
donde C es una constante.
13
Generación Sintética de Sonido Direccional
Con la ecuación (2.14) y la (2.1) tenemos que:
+=−=
ikrcp
drdp
icvr
1111
00 ρωρ (2.15)
donde se observa que si r es muy grande vr se iguala a vx, lo cual significa que,
para distancias grandes, los frentes de ondas esféricos se pueden aproximar
por frentes de ondas planos.
2.3.- Características del Sonido
2.3.1.- Velocidad
La Velocidad del sonido depende de la masa y la elasticidad del medio
de Propagación.
En el aire se tiene que:
ρ04,1 Pc = (2.16)
donde :
c = velocidad del sonido
P0 = Presión atmosférica.
ρ = Densidad del aire
A 22 C° se tiene que
P0 = 105 newtons/m2.
ρ = 1,18 Kg/m3
14
Generación Sintética de Sonido Direccional
por lo cual c = 344 m/s.
Asumiendo que el aire se comporta como un gas ideal tenemos que:
2731332 tc += (2.17)
Donde t = temperatura en C°.
Figura 2.4 Variación de la velocidad del sonido con la temperatura
2.3.2.- Longitud de onda
Consiste en la distancia que separa a dos moléculas que vibren en fase,
en un ciclo se cumple que:
fc/ =λ (2.18)
donde:
c = Velocidad del sonido en m/s
f = frecuencia de la onda sonora en Hz
λ = longitud de onda en m
15
Generación Sintética de Sonido Direccional
Figura 2.5 Variación de la longitud de onda del sonido con la frecuencia.
En la Figura 2.5 se observa que, para el rango de audición, las
longitudes de ondas del sonido van desde los 17.2 metros para 20 Hz hasta
1.72 cm para 20KHz, siendo este un parámetro fundamental a tomar en cuenta
en la Acústica Arquitectónica ya que el comportamiento de un dispositivo de
control acústico es dependiente de la longitud de onda del sonido.
Como la Velocidad del sonido es dependiente de la temperatura, es
importante que se tome en cuenta la incidencia de una variación de esta en la
longitud de onda del sonido.
Figura 2.6 Variación de la longitud de onda del sonido con la temperatura para una frecuencia de
100 Hz.
16
Generación Sintética de Sonido Direccional
2.3.3.- Presión Acústica
Al aplicar una fuerza sinusoidal a las partículas de aire, éstas se
comprimen y se expanden alternadamente, lo que se refleja en pequeñas
variaciones de la presión atmosférica lo cual se mide en unidades llamadas
Pascal ( 1 Pascal = 1 Newton/m2) .
Además se tiene que 105 Pascal = 1 atmósfera. El mínimo sonido que se
puede percibir es de 2x10-5 Pascal.
2.3.4.- Nivel de Presión sonora (SPL)
Es una medida que relaciona el valor RMS de la presión acústica con el
mínimo audible promedio.
0
log20PPSPL rms= (2.19)
donde
PascalP 50 10*2 −= (2.20)
17
Generación Sintética de Sonido Direccional
Figura 2.7 Niveles de presión sonora.
2.3.5.- Intensidad Sonora
Es el valor medio de la energía que cruza una unidad de área
perpendicular a la dirección de propagación.
Figura 2.8 Definición de la Intensidad Sonora.
18
Generación Sintética de Sonido Direccional
Este valor depende del campo acústico donde se encuentre el sonido:
a) Para una onda acústica plana progresiva (plana o esférica) se tiene que
la transferencia de energía ocurre en la dirección de propagación luego:
cpIρ
2
= (2.21)
b) En campo difuso cerca de las paredes se tiene que:
cpIρ4
2
= (2.22)
2.3.6.- Nivel de Intensidad Sonora (IL)
Es una medida relativa a una referencia:
0log10 I
IIL = (2.23)
donde la referencia es:
212
0 10mwI −= (2.24)
2.3.7.- Nivel de Potencia Acústica (PWL)
Consiste en una medida relativa a un valor de referencia de potencia y
se define como:
0
log10WWPWL = (2.25)
donde
watiosW 120 10−= (2.26)
19
Generación Sintética de Sonido Direccional
y W es la potencia irradiada por la fuente
Figura 2.9 Niveles típicos de potencia acústica.
Recordando que W es la potencia total generada mientras que I es la
porción que fluye por una unidad de área se tiene que, para una fuente puntual
que irradia ondas esféricas:
24 rWIπ
= (2.27)
donde r = distancia de medición.
Además se tiene que como:
cprIrW
ρπ
π22
2 44 == (2.28)
Se cumple que:
=
cWprPWL
ρπ
0
224log10 (2.29)
20
Generación Sintética de Sonido Direccional
por lo cual:
+
=
cWPr
PpPWL
ρπ
0
20
2
20
2 4log10log10 (2.30)
dBrSPLPWL 11)log(20 ++= (2.31)
dBrPWLSPL 11)log(20 −−= (2.32)
Donde se deduce que, en campo libre, cada vez que se dobla la
distancia el nivel de presión sonora disminuye 6 dB.
2.4.Micrófonos
Los micrófonos son los transductores encargados de transformar
energía acústica en energía eléctrica, permitiendo por lo tanto el registro,
almacenamiento, transmisión y procesamiento electrónico de las señales de
audio. Son dispositivos ligados intrínsecamente a los altoparlantes (altavoces y
auriculares), constituyendo ambos transductores los elementos mas
significativos en cuanto a las características sonoras que aportan a las señales
de audio.
21
Generación Sintética de Sonido Direccional
Figura 2.10 Familia de micrófonos
No existe el micrófono ideal, debido a la razón de que no se tiene un
solo ambiente acústico o un solo tipo de música. Es por ello que, el ingeniero
de sonido tiene a su disposición una amplia gama de micrófonos, cada uno de
los cuales sirve para ciertos casos particulares.
2.4.1.- Transductores básicos
Los Micrófonos se pueden clasificar de acuerdo con la forma de
transducción, en otras palabras, dependiendo de la forma como se transforma
la señal acústica en eléctrica.
2.4.1.1.- Micrófonos de Carbón
Fueron los micrófonos utilizados durante mucho tiempo en los teléfonos,
su principio de funcionamiento se basa en el cambio de resistencia en los
granos de carbón al ser comprimidos por el diafragma al recibir este las
variaciones de presión sonora.
22
Generación Sintética de Sonido Direccional
Figura 2.11 Micrófono de carbón
Figura 2.12 Respuesta del Micrófono de carbón
De la curva del micrófono de carbón se deducen sus pobres
características frecuenciales que han hecho posible su casi desaparición del
mercado (excepto en teléfonos económicos).
2.4.1.2.- Micrófonos Piezoeléctricos
Estos micrófonos se basan en la capacidad que tienen los cristales
piezoeléctricos de generar cargas eléctricas al ser sometidos a presión (En
griego piezein = presión).
23
Generación Sintética de Sonido Direccional
Figura 2.13. Micrófono piezoeléctrico
Figura 2.14 Respuesta de frecuencia de un Micrófono piezoeléctrico
Aunque su respuesta es mejor que el micrófono de carbón, no llega a
ser suficientemente bueno para grabaciones profesionales, por lo que se utiliza
sólo en micrófonos pequeños para voz.
2.4.1.3.- Micrófonos Dinámicos (Bobina móvil)
Se basan en el principio de inducción electromagnética ( son la versión
dual de los Parlantes de bobina móvil), según el cual si un hilo conductor se
mueve dentro de un campo magnético, en el conductor se inducirá un voltaje
de acuerdo con:
Blv e = (2.33)
24
Generación Sintética de Sonido Direccional
donde:
e = potencial inducido, en voltios.
B = Densidad de flujo magnético, en teslas.
l = longitud del conductor, en metros.
v = velocidad del movimiento, en metros/s.
Son micrófonos muy utilizados por su resistencia, confiabilidad y buena
respuesta en frecuencia.
Figura 2.15 Esquema de un Micrófono dinámico
Figura 2.16 Micrófono Dinámico
2.4.1.4.- Micrófono de Cinta
Este tipo de micrófono también trabaja bajo el principio de inducción
magnética y responde a la diferencia de presión sonora entre los dos lados de
25
Generación Sintética de Sonido Direccional
la cinta y por eso recibe también el nombre de micrófono de gradiente de
presión o de velocidad o bidireccional.
Figura 2.17 Micrófono de Cinta (Ribbon).
Debido a que responde a la diferencia de presión, este micrófono tiene
una respuesta polar con un máximo en el eje perpendicular a la lámina,
mientras que no responde a los sonidos laterales.
Figura 2.18 Respuesta frontal de un micrófono de Cinta
26
Generación Sintética de Sonido Direccional
Figura 2.19 Respuesta lateral de un micrófono de Cinta
La respuesta polar es bidireccional y está indicada en la figura 2.22.
2.4.1.5.- Micrófono Capacitor (Condensador)
Recordemos que un Condensador almacena carga cuando se le
suministra un potencial eléctrico. La ecuación que describe el fenómeno es:
CVQ = (2.34)
donde:
Q = carga, en coulombs.
C = capacitancia, en faradios.
V = potencial, en voltios.
En un micrófono capacitivo la placa posterior está fija, mientras que la
otra (el diafragma) se desplaza al recibir variaciones de presión, ya que el
interior del micrófono está a un presión constante igual a la presión
atmosférica.
La variación de la capacitancia, al cambiar la distancia entre las placas,
producirá una variación de voltaje:
27
Generación Sintética de Sonido Direccional
CCQVV
∆+=∆+ (2.35)
Este tipo de micrófono produce la mejor respuesta de frecuencia por lo
cual son los mas utilizados en grabaciones profesionales. Debido a que
responde a variaciones de presión se clasifican en los micrófonos de presión, y
como consecuencia de ello tienen una respuesta onmidireccional.
Figura 2.20 Micrófono Capacitivo.
2.4.1.6.- Micrófono Eléctret
Un material Electret tiene como característica su capacidad de mantener
carga sin necesidad de una fuente de polarización, por lo cual tiene cada vez
mayor popularidad por razones económicas.
Figura 2.21 Micrófono Electret
28
Generación Sintética de Sonido Direccional
2.4.2.- Direccionabilidad. Patrones básicos de los micrófonos
Una de las características mas importante de los micrófonos es su
direccionalidad ya que, de acuerdo con cada tipo ambiente acústico o del
programa a grabar, se requerirá un patrón polar distinto.
Existen tres tipos básicos de patrones: unidireccional, bidireccional y
omnidireccional, aunque se pueden conseguir otros patrones combinando los
tipos básicos.
La ecuación polar, en su forma general es:
θρ cosBA+= (2.36)
donde A+B=1
Los valores particulares de A y B definirán el tipo de respuesta. Por lo
cual tenemos que:
Figura 2.22 Patrón Omnidireccional. ρ=1
29
Generación Sintética de Sonido Direccional
Figura 2.23 Patrón bidireccional ρ=cos(q)
Figura 2.24 Patrón Cardioide ρ=0.5+0.5cos(q)
Figura 2.25 Patrón Super Cardioide ρ=0.375+0.625cos(q)
30
Generación Sintética de Sonido Direccional
Figura 2.26 Patrón Hiper Cardioide ρ=0.25+0.75cos(q).
Las características fundamentales de los diversos patrones se resumen
en la Figura 2.27.
Figura 2.27 Sumario de micrófonos de primer orden
En la Figura 2.27 se define REE (" Random Energy Efficiency") como la
cantidad de ruido ambiente que capta el micrófono en relación a lo que captaría
un micrófono omnidireccional a la misma distancia y con la misma sensibilidad
(se indica en dB). El Factor de Distancia DF se refiere a cuanto se debe alejar
31
Generación Sintética de Sonido Direccional
un micrófono para que capte la misma relación de sonido directo respecto a
ruido ambiente teniendo como referencia a un micrófono omnidireccional
colocado a un metro de la fuente.
2.4.3.- Micrófonos de Configuración variable
Existen configuraciones de micrófonos que combinan elementos de
gradiente y de presión, de manera de poder elegir la respuesta polar
cambiando el grado de participación de cada elemento. Un ejemplo de ello lo
constituye el sistema Brunmühl-Weber.
En la Figura 2.28 se tiene la operación del micrófono como elemento de
captación de presión sonora.
Figura 2.28 Sistema Brunmühl-Weber en modo presión
Se puede destacar en la Figura 2.28 que cualquier diferencia de presión
a cada lado del micrófono no producirá voltaje de salida ya que se
compensaría. (Una de las placas produciría una corriente en un sentido sobre
la resistencia mientras que la otra lo haría en sentido contrario).
32
Generación Sintética de Sonido Direccional
La configuración de Gradiente de presión o velocidad, se consigue
cambiando la polaridad de una de las fuentes, tal como se puede observar en
la Figura 2.29.
Figura 2.29 Sistema Brunmühl-Weber en modo gradiente de presión
En la configuración de gradiente de presión se tiene que, si las láminas
se acercan o se alejan al mismo tiempo, no se producirá ninguna variación de
corriente en la resistencia.
Por último se tiene que si se configura la fuente como en la Figura 2.30
se tendrá un dispositivo con patrón polar variable cambiando solamente el
interruptor para elegir cuanto de captación de presión y cuanto de gradiente se
desea en la respuesta total (Figura 2.31).
33
Generación Sintética de Sonido Direccional
Figura 2.30 Sistema Brunmühl-Weber.
Figura 2.31 Sistema Brunmühl-Weber. Patrones resultantes.
34
Generación Sintética de Sonido Direccional
3.- Ciencias básicas del Sonido 3D
Las ciencias básicas en las que se basa el sonido 3-D están
representadas en la literatura como tres disciplinas claramente separadas:
Física Acústica, Psicoacústica y Neurofisiología. La Física Acústica se enfoca
en las ondas sonoras que reciben los oídos del oyente y el fenómeno acústico
que determina sus propiedades específicas. La Psicoacústica estudia las
relaciones ente las ondas acústicas y los oídos y la percepción de una imagen
espacial representada por el oyente y la Neurofisiología está relacionada con la
comprensión de las estructuras neurológicas que nos permiten alcanzar la
experiencia del sonido.
La consideración del sonido 3-D desde la perspectiva de cada una de las
3 disciplinas la resolveremos viéndolas por separado. El conocimiento
conseguido por cada una de ellas por separado es insuficiente para
comprender muchos de los fenómenos que suceden en nuestra vida diaria, y la
tecnología 3-D del sonido continuará desarrollándose hasta alcanzar este
conocimiento. El numero de profesionales que se necesitan aumenta a medida
que aparecen más fuentes de información en esta ciencia multidisciplinar.
35
Generación Sintética de Sonido Direccional
3.1.- Perspectiva Físico Acústica
Cuando un evento acústico sucede en el un ambiente natural, las ondas
sonoras se propagan en todas direcciones. Las ondas encuentran obstáculos
en el entorno con los cuales interactúan y provocan reflexión o difracción. La
interferencia constructiva o destructiva de todas ellas crea una textura sonora
enriquecida con las múltiples nuevas fuentes de sonido.
Figura 3.1 Descripción de un evento sonoro en un entorno determinado. Hay un trazado de ondas
directas (línea gruesa) entre fuente y destino , y multitud de trazados indirectos ( líneas finas)
Uno de los objetos potenciales que podemos encontrar en el entorno es
el propio oyente. Desde la posición del oyente, las ondas sonoras están
llegando desde diferentes direcciones. Como se muestra en la Figura 3.1, hay
típicamente una línea recta a lo largo de la cual las ondas iniciales del sonido
llegan antes al oyente. Este sonido inicial proporciona una información
comprometida sobre la dirección del evento sonoro. Después las ondas
sonoras son reflejadas en los objetos del entorno con lo cual nos llegan ondas
sonoras desde muchas otras direcciones del espacio y con distintos retardos.
Estos sonidos indirectos proveen al oyente de información sobre la posición
relativa de evento de sonido y del entorno y en especial de la distancia desde el
oyente a la fuente de sonido. Cuanta mayor sea la persistencia del sonido más
percepción de las cualidades del mismo tendrá el oyente. Si las ondas sonoras
36
Generación Sintética de Sonido Direccional
directas e indirectas son simultáneas, será prácticamente imposible
distinguirlas.
Cuando una onda sonora encuentra al oyente hay dos fenómenos acústicos
resultantes dependiendo de la frecuencia.
• Alta frecuencia. La energía se refleja especularmente hacia fuera
• Baja frecuencia. La energía se difracta y se curva alrededor del oyente.
En medio de ambos extremos hay una banda de transición centrada
alrededor de 1500 Hz, en cuyas frecuencias la longitud de onda es
aproximadamente igual al diámetro de la cabeza. El fenómeno acústico podría
ser similar al de las olas en el océano golpeando las rocas de un embarcadero:
las pequeñas olas rebotan mientras que las grandes curvan alrededor y luego
pasan por encima.
Las ondas sonoras que llegan a ambos oídos del oyente son afectadas por
la interacción de la onda del sonido original y el torso, cabeza, orejas y
conducto auditivo del oyente. La mezcla de estas propiedades podría ser
medida de un modo más o menos exacto por medio de una “Función de
Transferencia Relacionada con la cabeza” ( “Head-Related Transfer Function”),
en adelante HRTF que son sus siglas en inglés. La complejidad de la
interacción de las ondas sonoras con la acústica del cuerpo del oyente
conforma la HRTF que en cada oído depende fuertemente de la dirección del
sonido.
Cuando un sonido es equidistante de los dos oídos, el sonido llega
exactamente al mismo tiempo y desde la misma dirección, con lo que las
HRTFs son muy parecidas (pero no idénticas debido a las asimetrías de la
cabeza). La región en la cual las fuentes de sonido son equidistantes es
denominada plano medio (la similitud de la información acústica es, a veces,
obtenida de la razón por la cual la precisión de la localización es pobre en el
37
Generación Sintética de Sonido Direccional
plano medio). Hay otros dos nombres por los cuales nos referimos a los planos
en el espacio 3-D. Uno es el plano horizontal que divide la cabeza del oyente
horizontalmente, y el otro es el plano frontal (o lateral) que divide la cabeza
verticalmente de atrás hacia adelante. Ambos planos están ilustrados en la
Figura 3.2.
Figura 3.2 Relación entre los planos mediano, horizontal y frontal(lateral) de la cabeza del oyente.
Cuando la fuente no es equidistante de ambos oídos, las señales llegan
a cada oreja desde diferente dirección y las HRTFs están lejos de ser idénticas.
La oreja más cercana a la fuente de sonido es llamada oreja ipsilateral y la más
lejana oreja colateral. La posición de la fuente de sonido relativa al centro de la
cabeza del oyente es conveniente considerarla como un vector expresado en
términos de dos ángulos, Azimuth y elevación, y un escalar que es la distancia
como se puede apreciar en la Figura 3.3.
Figura 3.3 Especificación de la posición de un evento de sonido en términos de azimuth, alevación y
distancia
Azimuth es la medida del ángulo entre la proyección del vector en el
plano horizontal y el vector extendido directamente desde el oyente hacia el
38
Generación Sintética de Sonido Direccional
frente. Un movimiento progresivo desde 0º hasta 360º llevaría a la fuente a dar
una vuelta completa alrededor de la cabeza del oyente, aunque no suele haber
consenso respecto a si 90º de azimuth representan la derecha o izquierda del
oyente. A lo largo del proyecto se describen como ángulos positivos aquellos
que partiendo del frente del oyente se despliegan hacia la derecha y negativos
los que lo hacen hacia la izquierda. La elevación es la medida del ángulo
formado entre el vector y el plano horizontal, estando el rango comprendido
entre los 90º (arriba) y los –90º (abajo).
39
Generación Sintética de Sonido Direccional
3.2.- Perspectiva Psicoacústica
El sentido de la dirección de un sonido para un oyente está dominado
principalmente por el sonido que le llega por el camino más corto, rápido y
directo (de otro modo el juicio de la direccionalidad del evento podría ser
ambiguo debido al sonido indirecto). Esta preferencia proporciona al sonido
inicial lo que se denomina “efecto precedente” (Wallach an 1949) o la “ley del
primer frente de onda” (Blauert 1971). A veces estas ondas de sonido iniciales
son transformadas radicalmente en comparación con las del sonido original. El
sonido que llega a cada oído es modificado espectralmente por las HRTF,
cada oreja realiza una transformación diferente, y las transformaciones
cambian cuando la cabeza y/o el sonido se mueven. El sistema auditivo
desempeña las tareas para la integración de la información que llega a los dos
oídos en una única imagen perceptual para fundir el evento acústico en el
espacio: el sistema auditivo extrae la información direccional y reconstruye una
estimación del espectro de la fuente origen. Estas observaciones, sin embargo,
no bastan para proporcionar suficiente explicación para la localización humana
del sonido.
El sonido que llega a la oreja ipsilateral es generalmente más intenso
que el que llega a la oreja contralateral, esta diferencia entre la intensidad de
ambos oídos es denominada “ Diferencia de Intensidad Interaural “ (“Interaural
Intensity Difference”) y la diferencia de tiempo entre ambos oídos es la
“Diferencia de Tiempo Interaural” (“Interaural Time Difference”), en adelante IID
y ITD de sus siglas en inglés. IID y ITD sólo afectan para la lateralización de la
fuente de sonido, que es la posición percibida a lo largo del eje interaural, el eje
derecha/izquierda entre las orejas. Con solo ITD y IID, una persona no puede
juzgar la procedencia de un evento acústico respecto a su posición de delante,
atrás, arriba o abajo. Esta ambigüedad de localización en unos grados de
40
Generación Sintética de Sonido Direccional
lateralización es llamada “cono de confusión”(Woodworh 1954) descrita en la
Figura 3.4.
Figura 3.4 El cono de confusión (basado en Woodworth 1954, adaptado por Kendall en 1990)
En la actualidad es común aceptar que asemeja una localización
espacial incierta en forma de cono, la cual dejaría de ser ambigua mediante la
complejidad añadida de las HRTFs. El experimento psicoacústico clásico
soporta la teoría dúplex de localización, sin utilizar la dependencia frecuencial
de la diferencia de magnitud y fase interaural típica de las HRTFs. Por tanto la
teoría dúplex ignora la influencia de las pistas alternativas temporales por
encima de los 1500 Hz. Los eventos acústicos en entornos naturales también
presentan perturbaciones que ayudan a comprender fenómenos temporales.
Los estímulos psicoacústicos clásicos se encuentran reducidos, y los
resultados son sólo parcialmente útiles para la comprensión de la localización
en situaciones de escucha diarias.
Experimentos psicoacústicos actuales han cambiado su atención a la
escucha binaural y el papel de las HRTFs en la localización espacial del
sonido. Dentro de un contexto, binaural significa la información combinada de
ambos oídos (en contraposición con monoaural que significa que sólo usa la
información de cada oído independientemente). El uso de la palabra binaural
también implica la dependencia con la frecuencia que existe en las pistas
interaurales típicas de las HRTFs. Este cambio en el enfoque de la
41
Generación Sintética de Sonido Direccional
investigación está acompañado por un cambio hacia el uso de estímulos de
banda ancha en vez de ondas sinusoidales.
Aún cuando las HRTFs son muchas veces muy ricas en detalles
acústicos, las investigaciones perceptuales sugieren que el sistema auditivo
sea selectivo en la información acústica que recibe para realizar el juicio de la
dirección del sonido. Las pruebas revelan que la información de fase
monoaural es irrelevante para la percepción espacial y que la información de
fase interaural es extremadamente importante. Wightman y Kistler (1992) han
demostrado que a baja frecuencia la ITD es la pista fundamental para la
localización del origen de sonidos que contengan energía por debajo de 2.5
kHz. Para sonidos que carecen de esta baja frecuencia, IID proporciona más
información para la localización.
Aún no está claro cómo de significativa es la influencia de las altas
frecuencias en las diferencias temporales, desde que los experimentos han
mostrado que las envolventes temporales de sonidos de alta frecuencia son
detectados bastante bien (Henning 1974). A pesar de que la mayoría de los
focos de investigación se basan en las pistas binaurales, se está investigando
el espectro de las pistas monoaurales que aportan información significativa
para las fuentes de sonido laterales (Musicant as Butler 1985). Hay también
evidencias de que la elevación en particular está influenciada por el contenido
espectral de la fuente de sonido en sí misma (que es recibida por ambos
oídos), con lo que sonidos que tienen altos pitch/bright son típicamente
localizados mejor que aquellos sonidos que poseen bajos pitch/dark.
Hay diferencias importantes entre las dimensiones verticales y
horizontales en la resolución con la cual las personas pueden resolver la
localización espacial de una fuente de sonido, éste es un efecto que Blauert
denomina “Localization Blur” (Blauer 1974). La mayor resolución la
encontramos en el plano horizontal, especialmente en frente del oyente donde
42
Generación Sintética de Sonido Direccional
existe un ángulo mínimo de audibilidad de 2 grados o menos dependiendo de
la naturaleza exacta del experimento. Este ángulo incrementa a cerca de los
10 grados en los lados y decrece a cerca de los 6 grados en la nuca. Por
comparación, la resolución en el plano vertical es un poco menor. El ángulo
mínimo vertical audible en frente del oyente está cerca de los 9 grados y
incrementa firmemente hasta encima de la cabeza donde alcanza los 22
grados. La precisión espacial no es tan importante aparentemente en la
percepción auditiva como lo es en el sistema visual.
Figura 3.5 Movimiento dinámico de la cabeza hacia la derecha provoca la eliminación de la
ambigüedad en el oyente para la posición delante/detrás
Mientras las discriminación delante/detrás es posible mediante las bases
de una completa información acústica implementada en las HRTFs, está claro
también, que el movimiento de la cabeza tiene un papel fundamental para
resolver las confusiones delante/detrás (Wallach 1940). Esto tiene una
importancia particular para fuentes de sonido situadas cerca del plano medio
donde otras informaciones acústicas pueden provocar pequeñas interferencias
interaurales. La Figura 3.5 nos muestra cómo se elimina la ambigüedad
provocada por un sonido situado el la parte delantera del oyente. Esta
ambigüedad se elimina mediante un giro de la cabeza hacia la derecha que
provoca en el primer caso que el oído izquierdo reciba la señal antes y con
mayor intensidad que el derecho. Para un sonido situado en la parte trasera
del oyente (segunda figura) pasa lo contrario. Los experimentos clásicos de
43
Generación Sintética de Sonido Direccional
Wallach muestran que las pistan interaurales dinámicas podrían sustituir a las
HRTFs.
3.3.- Perspectiva Neurofisiológica
Aunque la neurofisiología no es parte de la base educacional de la
mayoría de los campos de la música y profesionales del audio, es un área de
dónde continúan viniendo muchas de las más importantes ideas y
descubrimientos sobre la audición. Esto es especialmente cierto en el área de
la escucha direccional. Estas terminologías y perspectivas son bastante
distintas desde el punto de vista de la Física Acústica y la Psicoacústica.
El propósito de esta sección es familiarizar al lector con este importante
contexto de la comprensión de la escucha direccional y en particular, en el
punto de la adaptación especial en el sistema auditivo de la localización del
sonido. Aunque la terminología es introducida delicadamente, es
indudablemente útil que el lector tenga alguna familiaridad básica en el campo,
especialmente en el de la fisiología del sistema auditivo.
3.3.1.- Sistema periférico
Mientras que el pabellón auditivo está claramente adaptado para la
escucha direccional, el sistema neurológico periférico tiene poca o ninguna
especialización para ello. El sistema neurológico periférico transforma las
señales acústicas provenientes de la oreja en una actividad neural que parece
claramente diseñada para capturar la descomposición espectrotemporal de las
ondas acústicas entrantes. La función principal de la descomposición debe ser
la identificación de la fuente de sonido. Esto condiciona firmemente la
estructura de los mecanismos neurales y pone por debajo la localización,
44
Generación Sintética de Sonido Direccional
puesto que, desde el punto de vista del sistema neurológico periférico, la fuente
de información se mezcla con la información espacial.
3.3.2.- Fisiología del Sistema Auditivo
Se va a examinar la estructura y funcionamiento del oído, con el fin de
lograr una mejor comprensión de los fenómenos y modelos Neurofisiológicos y
Psicoacústicos. Se estudia la anatomía y la fisiología del aparato auditivo,
haciendo énfasis en aquellas partes y estructuras del mismo más importantes
para el desarrollo de modelos perceptuales.
3.3.2.1.- El sentido de la audición y el sistema auditivo
La generación de sensaciones auditivas en el ser humano es un proceso
extraordinariamente complejo, el cual se desarrolla en tres etapas básicas:
1. Captación y procesamiento mecánico de las ondas sonoras.
2. Conversión de la señal acústica (mecánica) en impulsos nerviosos, y
transmisión de dichos impulsos hasta los centros sensoriales del
cerebro.
3. Procesamiento neural de la información codificada en forma de impulsos
nerviosos.
La captación, procesamiento y transducción de los estímulos sonoros se
llevan a cabo en el oído propiamente dicho, mientras que la etapa de
procesamiento neural, en la cual se producen las diversas sensaciones
auditivas, se encuentra ubicada en el cerebro. Así pues, se pueden distinguir
dos regiones o partes del sistema auditivo: la región periférica, en la cual los
estímulos sonoros conservan su carácter original de ondas mecánicas hasta el
45
Generación Sintética de Sonido Direccional
momento de su conversión en señales electroquímicas y la región central, en la
cual se transforman dichas señales en sensaciones.
En la región central también intervienen procesos cognitivos, mediante
los cuales se asigna un contexto y un significado a los sonidos, es decir,
permiten reconocer una palabra o determinar que un sonido dado corresponde
a un violín o a un piano.
Se analizarán y estudiarán solamente los aspectos perceptuales del
sistema auditivo, esto es, aquellos que son independientes del contexto y del
significado y que, en buena parte, se localizan en la región periférica.
3.3.2.2.- Región periférica del sistema auditivo
El oído o región periférica se divide usualmente en tres zonas, llamadas
oído externo, oído medio y oído interno, de acuerdo a su ubicación en el
cráneo, como puede verse en la Figura 3.6.
Figura 3.6 Anatomía del oído humano.
46
Generación Sintética de Sonido Direccional
Los estímulos sonoros se propagan a través de estas zonas, sufriendo
diversas transformaciones hasta su conversión final en impulsos nerviosos.
Tanto el procesamiento mecánico de las ondas sonoras como la conversión de
éstas en señales electroquímicas son procesos no lineales, lo cual dificulta la
caracterización y modelado de los fenómenos perceptuales.
En las siguientes secciones se estudia la anatomía y funcionamiento de
estas tres zonas del oído, así como la propagación y procesamiento del sonido
a través de las mismas.
3.3.2.3.- Oído externo
• Anatomía y funcionamiento
El oído externo está formado por el pabellón auricular u oreja, el cual
dirige las ondas sonoras hacia el conducto auditivo externo a través del
orificio auditivo. El otro extremo del conducto auditivo se encuentra
cubierto por la membrana timpánica o tímpano, la cual constituye la
entrada al oído medio. La función del oído externo es la de recolectar las
ondas sonoras y encauzarlas hacia el oído medio. Asimismo, el
conducto auditivo tiene dos propósitos adicionales: proteger las
delicadas estructuras del oído medio contra daños y minimizar la
distancia del oído interno al cerebro, reduciendo el tiempo de
propagación de los impulsos nerviosos.
• Respuesta en frecuencia y localización de las fuentes de sonido
El conducto auditivo es un "tubo" de unos 2 cm de longitud, el cual
influye en la respuesta en frecuencia del sistema auditivo. Dada la
velocidad de propagación del sonido en el aire (aprox. 334 m/s), dicha
longitud corresponde a 1/4 de la longitud de onda de una señal sonora
de unos 4 kHz. Este es uno de los motivos por los cuales el aparato
47
Generación Sintética de Sonido Direccional
auditivo presenta una mayor sensibilidad a las frecuencias cercanas a
los 4 kHz, como se verá más adelante.
Adicionalmente el pabellón auricular, junto con la cabeza y los hombros,
contribuye a modificar el espectro de la señal sonora. Las señales
sonoras que entran al conducto auditivo externo sufren efectos de
difracción debidos a la forma del pabellón auricular y la cabeza, y estos
efectos varían según la dirección de incidencia y el contenido espectral
de la señal, de este modo se altera el espectro sonoro debido a la
difracción. Estas alteraciones, en forma de "picos" y "valles" en el
espectro, son usadas por el sistema auditivo para determinar la
procedencia del sonido en el llamado "plano medio" (plano imaginario
perpendicular a la recta que une ambos tímpanos).
3.3.2.4.- Oído medio
• Anatomía
El oído medio (Figura 3.7) está constituido por una cavidad llena de aire,
dentro de la cual se encuentran tres huesecillos, denominados martillo,
yunque y estribo, unidos entre sí en forma articulada. Uno de los
extremos del martillo se encuentra adherido al tímpano, mientras que la
base del estribo está unida mediante un anillo flexible a las paredes de la
ventana oval, orificio que constituye la vía de entrada del sonido al oído
interno.
Finalmente, la cavidad del oído medio se comunica con el exterior del
cuerpo a través de la trompa de Eustaquio, la cual es un conducto que
llega hasta las vías respiratorias y que permite igualar la presión del aire
a ambos lados del tímpano.
48
Generación Sintética de Sonido Direccional
• Propagación del sonido y acople de impedancias
Los sonidos, formados por oscilaciones de las moléculas del aire, son
conducidos a través del conducto auditivo hasta el tímpano. Los cambios
de presión en la pared externa de la membrana timpánica, asociados a
la señal sonora, hacen que dicha membrana vibre siguiendo las
oscilaciones de dicha señal.
Las vibraciones del tímpano se transmiten a lo largo de la cadena de
huesecillos, la cual opera como un sistema de palancas, de forma tal
que la base del estribo vibra en la ventana oval. Este huesecillo se
encuentra en contacto con uno de los fluidos contenidos en el oído
interno; por lo tanto, el tímpano y la cadena de huesecillos actúan como
un mecanismo para transformar las vibraciones del aire en vibraciones
del fluido.
Figura 3.7 Propagación del sonido a través del oído medio e interno.
Ahora bien, para lograr que la transferencia de potencia del aire al fluido
sea máxima, debe efectuarse un acoplamiento entre la impedancia
mecánica característica del aire y la del fluido, puesto que esta última es
mucho mayor que la primera.
49
Generación Sintética de Sonido Direccional
Un equivalente mecánico de un transformador (el acoplador de
impedancias eléctricas) es precisamente, una palanca; por ende, la
cadena de huesecillos actúa como acoplador de impedancias. Además,
la relación entre las superficies del tímpano y de la base del estribo (en
la ventana oval) introduce un efecto de acoplamiento adicional,
lográndose una transformación de impedancias del orden de 1:20, con lo
cual se minimizan las pérdidas por reflexión.
El máximo acoplamiento se obtiene en el rango de frecuencias medias,
en torno a 1 kHz. En la Figura 3.8 se representa en forma esquemática
la transmisión del sonido del oído externo al interno, a través del oído
medio.
Figura 3.8 Esquema de la propagación del sonido a través del oído medio.
• Reflejo timpánico o acústico
Cuando se aplican sonidos de gran intensidad (> 90 dB SPL) al tímpano,
los músculos tensores del tímpano y el estribo se contraen de forma
automática, modificando la característica de transferencia del oído medio
y disminuyendo la cantidad de energía entregada al oído interno.
Este "control de ganancia" se denomina reflejo timpánico o auditivo y
tiene como propósito proteger a las células receptoras del oído interno
50
Generación Sintética de Sonido Direccional
frente a sobrecargas que puedan llegar a destruirlas. Este reflejo no es
instantáneo, sino que tarda de 40 a 160 ms en producirse.
El reflejo timpánico debe ser tomado en cuenta en cualquier modelo
matemático del procesamiento del sonido en el aparato auditivo, siempre
que se trabaje con sonidos de gran intensidad, puesto que es un
mecanismo no lineal que introduce un término cuadrático en la relación
entrada-salida del oído medio.
• Respuesta en frecuencia combinada del oído externo y el oído medio
El conjunto formado por el oído externo y el oído medio forman un
sistema cuya respuesta en frecuencia es del tipo paso de baja, como se
muestra en la Figura 3.9. En el intervalo cercano a los 4 kHz se observa
un pequeño efecto de ganancia, debido a las características del
conducto auditivo.
Esta respuesta sólo es válida cuando el sistema se comporta de modo
lineal, es decir, cuando la intensidad del sonido no es muy elevada, para
evitar que actúe el reflejo timpánico.
Figura 3.9 Respuesta en frecuencia combinada del oído externo y el oído medio
51
Generación Sintética de Sonido Direccional
3.3.2.5.- Oído interno
El oído interno representa el final de la cadena de procesamiento mecánico
del sonido, y en él se llevan a cabo tres funciones primordiales: filtraje de la
señal sonora, transducción y generación probabilística de impulsos nerviosos.
• Anatomía
En el oído interno se encuentra la cóclea o caracol, la cual es un
conducto rígido en forma de espiral de unos 35 mm de longitud, lleno
con dos fluidos de distinta composición.
El interior del conducto está dividido en sentido longitudinal por la
membrana basilar y la membrana de Reissner, las cuales forman tres
compartimientos o escalas que pueden observarse en la Figura 3.10. La
escala vestibular y la escala timpánica contienen un mismo fluido
(perilinfa), puesto que se interconectan por una pequeña abertura
situada en el vértice del caracol, llamada helicotrema. Por el contrario, la
escala media se encuentra aislada de las otras dos escalas, y contiene
un líquido de distinta composición a la perilinfa (endolinfa).
La base del estribo, a través de la ventana oval, está en contacto con el
fluido de la escala vestibular, mientras que la escala timpánica
desemboca en la cavidad del oído medio a través de otra abertura
(ventana redonda) sellada por una membrana flexible (membrana
timpánica secundaria).
En la Figura 3.11 podemos observar que sobre la membrana basilar y en
el interior de la escala media se encuentra el órgano de Corti, el cual se
extiende desde el vértice hasta la base de la cóclea y contiene las
células ciliares que actúan como transductores de señales sonoras a
impulsos nerviosos. Sobre las células ciliares se ubica la membrana
52
Generación Sintética de Sonido Direccional
tectorial, dentro de la cual se alojan las prolongaciones o cilios de las
células ciliares externas.
Dependiendo de su ubicación en el órgano de Corti, se pueden distinguir
dos tipos de células ciliares: internas y externas. Existen alrededor de
3500 células ciliares internas y unas 20000 células externas. Ambos
tipos de células presentan conexiones o sinapsis con las fibras nerviosas
aferentes (que transportan impulsos hacia el cerebro) y eferentes (que
transportan impulsos provenientes del cerebro), las cuales conforman el
nervio auditivo.
Sin embargo, la distribución de las fibras es muy desigual: más del 90%
de las fibras aferentes inervan a las células ciliares internas, mientras
que la mayoría de las 500 fibras eferentes inervan a las células ciliares
externas. El propósito de ambos tipos de células y de la distribución de
las conexiones nerviosas se estudia más adelante.
Figura 3.10 Corte transversal de la cóclea o caracol.
53
Generación Sintética de Sonido Direccional
Figura 3.11 Órgano de Corti.
• Propagación del sonido en la cóclea
Las oscilaciones del estribo provocan oscilaciones en el fluido de la
escala vestibular (perilinfa). La membrana de Reissner, la cual separa
los fluidos de la escala vestibular y la escala media, es sumamente
delgada y, en consecuencia, los líquidos en ambas escalas pueden
tratarse como uno solo desde el punto de vista de la dinámica de los
fluidos. Así, las oscilaciones en la perilinfa de la escala vestibular se
transmiten a la endolinfa y de ésta a la membrana basilar, la membrana
basilar, a su vez, provoca oscilaciones en el fluido de la escala
timpánica.
Puesto que tanto los fluidos como las paredes de la cóclea son
incompresibles, es preciso compensar el desplazamiento de los fluidos;
esto se lleva a cabo en la membrana de la ventana redonda, la cual
permite "cerrar el circuito hidráulico".
54
Generación Sintética de Sonido Direccional
Figura 3.12 Corte transversal de un conducto de la cóclea.
La propagación de las oscilaciones del fluido en la escala vestibular a la
timpánica no sólo se lleva a cabo a través de la membrana basilar; para
sonidos de muy baja frecuencia, las vibraciones se transmiten a través
de la abertura situada en el vértice de la cóclea (helicotrema).
En conclusión, el sonido propagado a través del oído externo y medio
llega hasta la cóclea, donde las oscilaciones en los fluidos hacen vibrar a
la membrana basilar y a todas las estructuras que ésta soporta.
3.3.2.6.- La cóclea como analizador en frecuencia
La membrana basilar es una estructura cuyo espesor y rigidez no es
constante: cerca de la ventana oval, la membrana es gruesa y rígida, pero a
medida que se acerca hacia el vértice de la cóclea se vuelve más delgada y
flexible.
La rigidez decae casi exponencialmente con la distancia a la ventana
oval, esta variación de la rigidez en función de la posición afecta la velocidad
de propagación de las ondas sonoras a lo largo de ella, y es responsable en
55
Generación Sintética de Sonido Direccional
gran medida de un fenómeno muy importante: la selectividad en frecuencia del
oído interno.
• Ondas viajeras y transformación de frecuencia a posición
Las ondas de presión generadas en la perilinfa a través de la ventana
oval tienden a desplazarse a lo largo de la escala vestibular. Debido a
que el fluido es incompresible la membrana basilar se deforma, y la
ubicación y amplitud de dicha deformación varía en el tiempo a medida
que la onda de presión avanza a lo largo de la cóclea.
Para comprender el modo de propagación de las ondas de presión,
supóngase que se excita el sistema auditivo con una señal sinusoidal de
una frecuencia dada:
La membrana basilar vibrará sinusoidalmente, pero la amplitud de
la vibración irá en aumento a medida que se aleja de la ventana
oval (debido a la variación en la velocidad de propagación), hasta
llegar a un punto en el cual la deformación de la membrana
basilar sea máxima; en ese punto de "resonancia", la membrana
basilar es acústicamente "transparente" (es decir, se comporta
como si tuviera un orificio), de modo que la amplitud de la
vibración y por tanto, la transmisión de la energía de la onda al
fluido de la escala timpánica es máxima en dicho punto.
A partir de esa región, la onda no puede propagarse
eficientemente, de modo que la amplitud de la vibración se atenúa
muy rápidamente a medida que se acerca al helicotrema. En la
Figura 3.13 se observa la onda en la membrana basilar en un
instante de tiempo.
56
Generación Sintética de Sonido Direccional
Figura 3.13 Onda viajera en la membrana basilar.
En este modo de propagación, las ondas de presión son ondas viajeras,
en las cuales (a diferencia de las ondas estacionarias) no existen nodos.
En la Figura 3.14 se puede apreciar la amplitud de oscilación de la
membrana basilar en dos instantes de tiempo, junto con la envolvente de
la onda viajera, en función de la distancia al estribo.
La ubicación del máximo de la envolvente de la onda viajera depende de
la frecuencia de la señal sonora, como puede observarse en la Figura
3.15: mientras menor es la frecuencia del tono, mayor es la distancia que
viaja la onda a lo largo de la membrana antes de ser atenuada y
viceversa. De esta forma, la membrana basilar dispersa las distintas
componentes de una señal de espectro complejo en posiciones bien
definidas respecto a la ventana oval.
57
Generación Sintética de Sonido Direccional
Figura 3.14 Ondas viajeras para un tono de 200 Hz.
Figura 3.15 Transformación de frecuencia a posición en la membrana basilar.
• Selectividad en frecuencia de la membrana basilar
Como se ha visto, las altas frecuencias contenidas en un estímulo
sonoro se atenúan a medida que la onda se desplaza hacia el
helicotrema. Así, se puede considerar a la membrana basilar como un
filtro paso de baja de parámetros distribuidos. Por otro lado, si se
midiese la respuesta en frecuencia en un punto dado de dicha
membrana, se obtendría una respuesta de tipo paso banda.
Este comportamiento de la membrana basilar puede modelarse, con un
grado de aproximación razonable, como una línea de transmisión no
uniforme, representada en la Figura 3.16.
58
Generación Sintética de Sonido Direccional
Cada etapa en paralelo representa un segmento corto de la membrana
basilar. La corriente suministrada por la fuente corresponde a la
velocidad del estribo. Los inductores en serie y en paralelo representan
las masas del fluido y de segmentos de la membrana basilar,
respectivamente; los condensadores representan la rigidez de la
membrana, y se asume que su valor varía exponencialmente según la
posición. Las resistencias representan pérdidas en la membrana.
Figura 3.16. Representación de la membrana basilar como una línea de transmisión.
Este modelo pasivo presenta varios inconvenientes: no considera
fenómenos activos y no lineales de la membrana, no es capaz de
generar una respuesta paso banda tan estrecha como las observadas
experimentalmente en tejidos vivos y además, no toma en cuenta el
hecho de que la membrana basilar es una estructura en tres
dimensiones. A pesar de ello, permite representar fácilmente los
fenómenos de resonancia y de ondas viajeras.
En apartados posteriores se discute un modelo análogo al anterior pero
que resulta más útil en la elaboración de modelos perceptuales, en el
cual se representa el efecto de la membrana basilar como el de un
banco de filtros paso banda. Si bien los parámetros que definen dicho
banco de filtros se obtendrán a partir de consideraciones psicoacústicas,
59
Generación Sintética de Sonido Direccional
y no físicas o fisiológicas, se debe tener en mente que tal modelo está
basado en las propiedades físicas observables de la membrana basilar y
del oído interno en general.
3.3.2.7.- Mecanismo de transducción
• Interacción entre las membranas basilar y tectorial
El proceso de transducción o conversión de señal mecánica a
electroquímica se desarrolla en el órgano de Corti, situado sobre la
membrana basilar.
Las vibraciones de la membrana basilar hacen que ésta se mueva en
sentido vertical. A su vez la membrana tectorial, ubicada sobre las
células ciliares (los transductores), vibra igualmente; sin embargo, dado
que los ejes de movimiento de ambas membranas son distintos, el
efecto final es el de un desplazamiento "lateral" de la membrana tectorial
con respecto a la membrana basilar.
Como resultado, los cilios de las células ciliares externas se "doblan"
hacia un lado u otro (hacia la derecha, en la Figura 3.17, cuando la
membrana basilar "sube").
En el caso de las células internas, aun cuando sus cilios no están en
contacto directo con la membrana tectorial, los desplazamientos del
líquido y su alta viscosidad (relativa a las dimensiones de los cilios)
hacen que dichos cilios se doblen también en la misma dirección.
60
Generación Sintética de Sonido Direccional
Figura 3.17 Desplazamiento relativo de las membranas basilar y tectorial.
• Células ciliares y potenciales eléctricos
La diferencia fundamental entre los dos fluidos de la cóclea, la perilinfa y
la endolinfa, estriba en las distintas concentraciones de iones en los dos
fluidos. De esta manera, la endolinfa se encuentra a un potencial
eléctrico ligeramente positivo (ver Figura 3.18) respecto a la perilinfa.
Figura 3.18 Potenciales eléctricos en el órgano de Corti y los fluidos de la cóclea.
Por otro lado, los movimientos de los cilios en una dirección determinada
hacen que la conductividad de la membrana de las células ciliares
aumente. Debido a las diferencias de potencial existentes, los cambios
61
Generación Sintética de Sonido Direccional
en la membrana modulan una corriente eléctrica que fluye a través de
las células ciliares.
La consiguiente disminución en el potencial interno de las células
internas provoca la activación de los terminales nerviosos aferentes,
generándose un impulso nervioso que viaja hacia el cerebro. Por el
contrario, cuando los cilios se doblan en la dirección opuesta, la
conductividad de la membrana disminuye y se inhibe la generación de
dichos impulsos.
Se pueden destacar dos aspectos de este proceso de transducción:
primero, que la generación de impulsos nerviosos es un fenómeno
probabilístico; segundo, que el proceso se comporta como un rectificador
de media onda, puesto que la probabilidad de activación de las fibras
nerviosas "sigue" a las porciones "positivas" de la señal sonora
(equivalentes a desplazamientos hacia "arriba" de la membrana basilar),
mientras que se hace cero en las porciones "negativas" de la onda.
• Interacción entre células ciliares internas y externas
Las fibras aferentes están conectadas mayormente con las células
ciliares internas, por lo que es posible concluir con certeza que éstas son
los verdaderos "sensores" del oído. Por el contrario, el papel de las
células ciliares externas (más numerosas que las internas) era objeto de
especulaciones hasta hace pocos años.
Recientemente se ha comprobado que dichas células no operan como
receptores, sino como "músculos", es decir, como elementos móviles
que pueden modificar las oscilaciones en la membrana basilar.
62
Generación Sintética de Sonido Direccional
La actuación de las células ciliares externas parece ser la siguiente: para
niveles de señal elevados, el movimiento del fluido que rodea los cilios
de las células internas es suficiente para doblarlos, y las células externas
se saturan. Sin embargo, cuando los niveles de señal son bajos, los
desplazamientos de los cilios de las células internas son muy pequeños
para activarlas; en este caso, las células externas se "alargan",
aumentando la magnitud de la oscilación hasta que se saturan.
Este es un proceso no lineal de realimentación positiva de la energía
mecánica, de modo que las células ciliares externas actúan como un
control automático de ganancia, aumentando la sensibilidad del oído.
Este nuevo modelo del mecanismo de transducción nos indica que el
conjunto formado por la membrana basilar y sus estructuras anexas
forman un sistema activo, no lineal y con realimentación, y permite
explicar dos fenómenos asociados al oído interno: el "tono de
combinación", generado a partir de dos tonos de distinta frecuencia por
un elemento no lineal que contiene un término cúbico, y las "emisiones
otoacústicas", las cuales consisten en tonos generados en el oído
interno en forma espontánea o estimulada, y que pueden llegar a ser
audibles.
• Selectividad en frecuencia de la cóclea
Debido a la acción de filtraje de la membrana basilar, cada célula
transductora procesa una versión del estímulo sonoro filtrada de modo
diferente. Esta acción de filtraje de la membrana basilar por sí sola
equivale a la de filtros cuya respuesta en frecuencia es relativamente
"ancha". Ahora bien, la realimentación positiva provocada por las células
ciliares externas contribuye a aumentar la selectividad del sistema
auditivo.
63
Generación Sintética de Sonido Direccional
Esto puede comprobarse midiendo la respuesta de una única fibra
nerviosa ante variaciones en la frecuencia y la amplitud del estímulo
sonoro; las curvas de sintonía así obtenidas indican una respuesta de
tipo paso banda mucho más angosta que la debida al efecto de la
membrana basilar como elemento pasivo.
Adicionalmente, experimentos recientes han permitido determinar que la
selectividad del oído interno es virtualmente idéntica a la selectividad del
sistema auditivo en su totalidad, estimada por métodos psicoacústicos.
3.3.2.8.- Procesamiento a nivel neural
Los impulsos nerviosos generados en el oído interno contienen (en
forma codificada) información acerca de la amplitud y el contenido espectral de
la señal sonora; estos dos parámetros están representados por la tasa de
impulsos y la distribución de los mismos en las distintas fibras,
respectivamente.
Las fibras nerviosas aferentes llevan esta información hasta diversos
lugares del cerebro. En éste se encuentran estructuras de mayor o menor
complejidad, encargadas de procesar distintos aspectos de la información.
Por ejemplo, en los centros "inferiores" del cerebro se recibe, procesa e
intercambia información proveniente de ambos oídos, con el fin de determinar
la localización de las fuentes del sonido en el plano horizontal en función de los
retardos interaurales, mientras que en los centros "superiores" de la corteza
existen estructuras más especializadas que responden a estímulos más
complejos. La información transmitida por el nervio auditivo se utiliza finalmente
para generar lo que se conoce como "sensaciones".
64
Generación Sintética de Sonido Direccional
Hasta ahora se ha visto que las distintas partes del sistema auditivo son
susceptibles de ser modeladas matemáticamente, en términos de su
comportamiento como sistemas físicos.
Se podría por tanto pensar que el modelo perceptual ideal es aquel que
simula, en términos de los procesos físicos y fisiológicos, todas las etapas del
sistema auditivo, incluyendo la etapa de procesamiento neural en el cerebro.
Sin embargo, la comprensión que se tiene acerca de lo que ocurre en las
estructuras cerebrales es muy limitada, especialmente en lo relativo a los
centros "superiores" del cerebro. Por lo tanto, es necesario recurrir a la
descripción psicoacústica de los fenómenos perceptuales y de las sensaciones.
65
Generación Sintética de Sonido Direccional
4.- Método de Análisis 1. Modelo de Propagación de Ondas Esféricas
4.1.- Introducción
Podemos aplicar una serie de transformaciones a nuestra señal de
entrada de modo que a la salida provoque una cierta sensación de
direccionalidad. Si no queremos tratar con Funciones de Transferencia de
difícil obtención, podemos aplicar a nuestra señal dos transformaciones básicas
en función del ángulo y la distancia, basándonos en el principio de propagación
de ondas esféricas. Dichas transformaciones son simplemente una diferencia
de amplitud entre la señal original y la recibida por el oído derecho e izquierdo y
una diferencia de temporalización o retardo entre ambos oídos.
4.2.- Ángulo y distancia
Desde el punto de vista actual sólo podemos tener en cuenta dos
variables: la atenuación y el retardo. Debido a esta limitación, debemos
centrarnos en identificar un sonido que proviene sólo del semiplano delantero
horizontal, ya que el trasero horizontal provocará el mismo retardo y atenuación
que para el mismo ángulo y distancia en el semiplano horizontal delantero.
66
Generación Sintética de Sonido Direccional
Figura 4.1 Retardo y atenuación idénticas en semiplano horizontal delantero y trasero
4.3.- Modelo de fuente cercana y fuente lejana
En función de la distancia de la fuente al destino podemos aplicar el
modelo de fuente cercana o el de fuente lejana, siendo el último bastante más
simple.
4.3.1.- Modelo Fuente Cercana
Figura 4.2 Modelo de Fuente Cercana
67
Generación Sintética de Sonido Direccional
Mediante trigonometría, teorema del coseno, y sabiendo la distancia y el
ángulo desde el foco al centro de la cabeza, podemos calcular la diferencia de
longitud de camino recorrido por la onda sonora desde el origen a cada uno de
los oídos, para posteriormente calcular el tiempo de retardo de uno respecto a
otro sabiendo la velocidad del sonido.
−+= αcos)
2(2)
2( 22 auralaural
dd
dd
dD (4.1)
−−+= )cos()
2(2)
2( 22 απauralaural d
dd
dDi (4.2)
di DDp −= (4.3)
sonidoVptardo =Re (4.4)
4.3.2.- Modelo Fuente Lejana
Para el modelo de fuente lejana suponemos que la fuente de sonido está
a una distancia suficientemente grande para que se pueda considerar que los
rayos directos desde al foco a cada uno de los oídos describen unas
trayectorias prácticamente paralelas entre sí y paralelas con el eje central de la
cabeza, como se muestra en la Figura 4.3. Este modelo es bastante más
simple y empieza tener resultados bastante similares al modelo real a partir de
los 2 metros y medio.
68
Generación Sintética de Sonido Direccional
Figura 4.3 Modelo Fuente Lejana
)cos(* αdauralp =
(4.5)
sonidoVptardo =Re (4.6)
4.3.3.- Intensidad Sonora
La Intensidad sonora podemos definirla en ambos casos como:
24 RPI
π= (4.7)
69
Generación Sintética de Sonido Direccional
Por tanto el cociente entre ambos oídos es el coeficiente de amplitud
que tendremos que aplicar.
2
2
2
4
4
===
i
d
d
i
RR
RPRP
IdIiA
π
π (4.8)
En función del modelo que hallamos aplicado tendremos que disponer
de unas distancias u otras.
4.4.- Cuantificación y retardos enteros
Debido a que la señal de sonido es una señal muestreada y cuantizada,
y por tanto discreta, los retardos deben ser discretos también, de modo que
para una serie de retardos en un continuo obtenemos los mismos retardo
cuando se procede a la cuantificación. Esto nos provoca que tengamos zonas
de reconocimiento angular definidas y estáticas en función de la frecuencia de
muestreo de la señal de sonido original. Cuanto mayor frecuencia de muestreo
tengamos, más definida quedará angularmente nuestra posición.
El retardo máximo queda determinado por la distancia interaural y por la
frecuencia de muestreo de la señal sonora. Si suponemos una velocidad del
sonido de 340 m/s y una frecuencia de muestreo de 8000 muestras/s, el
retardo máximo en metros es la distancia interaural, y en muestras es:
8000 muestras / sg 340 metros /s
X muestras D. Interaural
70
Generación Sintética de Sonido Direccional
Para una distancia interaural de 0.2 metros y una Frecuencia de 8000 Hz
tenemos un retardo máximo de 5 muestras.
En las gráficas siguientes podemos observar la diferencia entre el ángulo
original y continuo y el ángulo discreto obtenido después de la cuantización.
Observamos que a mayor frecuencia, mayor parecido con los ángulos
originales.
71
Generación Sintética de Sonido Direccional
Figura 4.4 Angulo Original, Cuantizado y Error para Frecuencia de 8000 Hz
Figura 4.5 Angulo Original, Cuantizado y Error para Frecuencia de 11025 Hz
Figura 4.6 Angulo Original, Cuantizado y Error para Frecuencia de 44100 Hz
72
Generación Sintética de Sonido Direccional
Los ángulos posibles en función de la frecuencia son los representados
el las siguientes figuras. Aquí también podemos apreciar que la distribución
angular no es lineal, siendo para unos ángulos mayor que para otros.
Figura 4.7 Reparto Angular para frecuencias de 8000 Hz
Figura 4.8 Reparto Angular para frecuencias de 11025 Hz
Figura 4.9 Reparto Angular para frecuencias de 44100 Hz
73
Generación Sintética de Sonido Direccional
4.5.- Movimiento
Podemos aplicar lo visto hasta ahora para desarrollar una
transformación lineal de modo que podamos representar una fuente sonora
realizando un movimiento a lo largo de una trayectoria. Para ello lo único que
debemos hacer es definir este trayecto y aplicar las transformaciones de
Atenuación-Retardo a cada uno de los puntos que definen dicho recorrido. Al
tratar con frecuencias de muestreo lo suficientemente grandes y debido a la
limitación misma del oído humano, podemos asegurar que no existen saltos
apreciables en los cambios de ángulo debidos al movimiento.
El proceso es el siguiente:
• Se toma cada una de las muestras de la señal original.
• A cada muestra se le asigna una posición en el espacio. Dicha
posición la podemos definir por la duración de la señal de sonido y
por la trayectoria del recorrido. Se tomará una trayectoria con
velocidad constante, aunque se puede modificar en caso de desear
otro tipo de movimiento.
• Se le aplica la atenuación de potencias correspondiente a la
localización de cada muestra, con lo que se obtiene una señal
parecida a la original, pero con las muestras atenuadas según
criterios individuales, cada punto es atenuado independientemente.
• Se le aplica el retardo a cada muestra, de modo que cambiamos de
posición respecto a la señal original.
• Al aplicar este nuevo posicionamiento, se dejan espacios en blanco
que deben rellenarse. El relleno es la media aritmética de las
posiciones adyacentes. También es posible el solape de puntos,
para solucionar el problema se hace la media aritmética de los
puntos que se solapan.
74
Generación Sintética de Sonido Direccional
Figura 4.10 Creación de movimiento mediante Propagación de Ondas Esféricas para cada los dos
oídos
Oído Izquierdo
Oído Derecho
Yi (n)
Yd (n)
Y(n) sn(n)
Procesado Potencia
Duración señal
Procesado Retardo
Y’(n) Sn’(n)
75
Generación Sintética de Sonido Direccional
5.- Método de Análisis 2. Head Related Transfer Function. (HRTF)
5.1.- Técnicas de medida de HRTF
5.1.1.- Modelo de cabeza esférica
En teoría sería posible calcular la HRTF mediante la resolución de la
ecuación de ondas sometida a las condiciones presentadas por el pecho,
cabeza y orejas. No es necesario decir que es difícil de alcanzar
analíticamente y que el cálculo computacional es enorme. Hace unos 100
años, Lord Rayleigh obtuvo una notablemente buena aproximación de baja
frecuencia obteniendo una solución exacta al problema simple de la difracción
de una onda plana acústica sobre una esfera rígida. Entre otras cosas, esta
solución mostraba que:
1. Los efectos IID de sombra-cabeza comienzan a aparecer alrededor
de los 1 KHz.
2. La ITD varía sinusoidalmente con el azimuth y gradualmente aunque
con complejidad con la frecuencia.
76
Generación Sintética de Sonido Direccional
A pesar de que el modelo de Rayleigh era simple, su solución no lo era,
y varias aproximaciones han sido propuestas. Una de ellas es la que se
expone a continuación, que se ajusta bastante bien a la solución de Rayleigh.
El modelo es el siguiente:
RTj
R ejjH ω
ωταωτθω −
++
=1
21),( (5.1)
LTjL e
jjH ω
ωτωταθω −
+−+
=1
)1(21),( (5.2)
Donde
)1(21 θα sin+= (5.3)
)(21
ca=τ (5.4)
τα )1( −=RT (5.5)
ατ=LT (5.6)
Este modelo se adapta bastante bien a la solución de Rayleigh a
frecuencias inferiores a 2 kHz. Cuando se escucha un sonido binaural
sintetizado con este filtro, la localización aparente se mueve suavemente desde
el oído izquierdo al derecho cuando θvaría de –90º a 90º. Sin embargo, este
77
Generación Sintética de Sonido Direccional
modelo no proporciona ninguna dependencia con la elevación, y la localización
aparente no es externa, parece que está dentro de la cabeza.
5.1.2.- Modelado de Eco-Oreja
Hace aproximadamente 25 años, Batteau demostró que la forma de la
oreja jugaba un papel fundamental para determinar el ángulo de elevación de la
fuente sonora. El razonamiento era debido a los dos pliegues principales que
presenta la oreja, dichos pliegues producen distintos ecos debido a las
múltiples reflexiones que se desarrollan en las distintas superficies que
conforman el pabellón auditivo. Esto conduce a una FdT de la oreja de forma:
)1()1(
21
2121
ρρρρ ωτωτ
++++
=−− jeje
Hp (5.7)
Donde ambos coeficientes de reflexión ρi y los retrasos de eco τi pueden
variar con el azimuth y la elevación. A pesar de que los modelos de oreja-eco
han sido criticados por la excesiva simplificación del complicado proceso de
difracción, sus curvas de respuesta frecuencial muestran vanos de filtro peine
parecidos a los obtenidos de modo experimental, y los test psicoacústicos
indican una fuerte correlación entre las frecuencias de vanos y la percepción de
la elevación
5.1.3.- Modelado empírico.
La otra manera de obtener unas HTRF con cierta garantía de una forma
totalmente empírica, de modo que se realizan una serie de pruebas en
laboratorio sobre personas normales y maniquíes y los resultados obtenidos
son procesados para desarrollar las Funciones de Transferencia que
posteriormente serán utilizadas.
78
Generación Sintética de Sonido Direccional
Las HRTFs son medidas generalmente mediante la grabación de unas
señales de test de uno de estos 3 modos:
• En la entrada de uno de los canales auditivos con un micrófono en
miniatura en forma de cápsula bloqueando el canal.
• A través del canal auditivo con un tubo sonda.
• En la posición de la oreja en la cabeza de un muñeco de pruebas
(maniquí).
En los tres casos, la cabeza debe permanecer completamente quieta
durante la prueba de medida para eliminar el sonido medioambiental existente.
Las medidas realizadas en cada posición tienen una relación estable y firme
con las medidas realizadas en otras posiciones. Por ejemplo, las medidas
realizadas con un tubo sonda situado al menos a 15 mm en el interior del canal
auditivo estarán cerca relativamente de aquellas realizadas en la posición del
canal auditivo.
Hay un ratio fijo entre la magnitud espectral de ambas hasta alrededor de
los 7000Hz . Por encima de los 7000Hz ( y a veces debajo) los notches en las
dos medidas son descompensados en cada uno y se crean diferencias
espectrales ( hay una relación señal a ruido pobre en general en los notches la
cual puede causar equivocaciones cuando se transforma un tipo de medida en
la otra).
Las mediciones realizadas en los oídos pueden ser procesadas con el
propósito de aislar la parte que representa las actuales HRTFs. Las señales
acústicas medidas en los oídos pueden ser representadas como el producto de
la función de transferencia dela fuente, S(w), y el equipo de grabación, T(w),
con el oído ipsilateral, Hi(w), o el oído contralateral, Hc(w):
79
Generación Sintética de Sonido Direccional
S(w) T(w) Hi(w) S(w) T(w) Hc(w) (5.8)
Una medida de referencia sin sujeto humano es el producto de la fuente
y equipo de grabación solamente, S(w) y T(w). Por consiguiente, las HRTFs
pueden ser aisladas por la división de las referencias medidas desde los oídos.
S(w) T(w) Hi(w) = Hi(w) y S(w) T(w) Hc(w) = Hc(w) S(w) T(w) S(w) T(w) (5.9)
Este cálculo está típicamente desempeñado mediante una
transformación desde el dominio temporal al frecuencial por medio de la FFT
donde la distribución del valor complejo puede ser desarrollada directamente.
Alternativamente, los datos frecuenciales complejos pueden ser
convertidos a magnitud y fase. La respuesta impulsiva para la HRTF es
calculada por la transformación de la HRTF desde el dominio de la frecuencia
al dominio del tiempo mediante la FFT inversa.
5.2.- Colaboración con la Universidad de Wisconsin
Las HRTFs utilizadas para la realización del estudio han sido facilitadas
por la Universidad de Wisconsin. Gracias a un acuerdo previamente
establecido entre dicha Univeridad y la Hispalense, hemos podido tener acceso
a gran parte de los estudios realizados en sus instalaciones. Mediante esta
colaboración, desde Sevilla hemos podido definir nuestras necesidades para
que realizaran las pruebas que necesitábamos y mediante un servidor FTP
pudimos descargarlas usando Internet.
80
Generación Sintética de Sonido Direccional
5.3.- Montaje
Se ha realizado medidas de Head-Related Transfer Function (HRTF)
sobre una serie de 5 voluntarios, cada uno de ellos posee una HRTF
característica y diferente del resto dependiendo de su fisonomía. En la
siguiente tabla se muestra el sexo y la altura de cada uno de los sujetos que
participaron en este estudio.
Voluntario Sexo Altura(pies) AFW Femenino 68.5"
SJX Femenino 68.0"
SOU Femenino 65.0"
SOS Masculino 74.0"
SOW Masculino 75.0"
Las medidas consisten en adquirir las respuestas impulsivas en los
oídos derecho e izquierdo a sonidos emitidos desde un altavoz “Realistic
Optimus Pro 7” montado a 1,4 metros de la cabeza de los voluntarios. Han sido
usadas secuencias binarias pseudoaleatorias de máxima longitud (ML) para
obtener las respuestas impulsivas a una tasa de muestreo de 44.1 kHz. Se
han elegido para el estudio 505 posiciones diferentes obtenidas mediante la
combinación de azimuth entre –170º y 180º y de elevación entre –50º y 90º.
El sistema de referencias angular que vamos a tomar durante todo el
proyecto es:
• Azimuth igual a cero para el frente.
• Ángulos de azimuth positivos hacia la derecha.
• Ángulos de azimuth negativos hacia la izquierda.
• Elevación cero para el plano horizontal.
• Elevación positiva para alturas mayores a cero.
• Elevación negativa para alturas menores a cero.
81
Generación Sintética de Sonido Direccional
5.3.1.- Técnicas de Medida
Figura 5.1 Esquema de montaje en Laboratorio (I)
Las medidas se han realizado mediante el uso de un ordenador
Macintosh Quadra equipado con una tarjeta DSP Audiomedia II, con
convertidores estero digitales A/D y D/A de 16 bits que operan a 44.1 kHz de
tasa de muestreo. Uno de los canales de salida de audio es enviado a un
amplificador que conduce directamente a un altavoz ‘Realistic Optimus Pro 7’.
Este es un pequeño altavoz de dos vías con woofer de 4 pulgadas y tweeter de
1 pulgada.
Los voluntarios disponen de micrófonos y preamplificadores Etymotic
ER-11. Las salidas de los preamplificadores se conectan directamente a las
entradas estéreo de la tarjeta Audiomedia.
Desde el punto de vista de la tarjeta de sonido, una señal enviada a
través de la salida de audio corresponde con una señal que aparece en la
entrada de audio. Las medidas de la respuesta impulsiva de este sistema
Micrófonos y Preamplificadores
Etymotic ER-11
Altavoz Realistic
Optimus Pro7 Macintosh
Quadra
Audiomedia DSP
Amplificador
82
Generación Sintética de Sonido Direccional
corresponden con la respuesta impulsiva combinada del sistema constituido
por los convertidores A/D y D/A y los filtros antialias de la tarjeta de sonido, el
amplificador, el altavoz, la habitación donde se han realizado las medidas y lo
más importante, la respuesta de los voluntarios combinada con los microfonos
y preamplificadores. Podemos eliminar las interferencias debidas a las
reflexiones de la habitación asegurándonos que ninguna reflexión sucede antes
de que ocurra la respuesta temporal de la cabeza, que es cuestión de
milisegundos. Medimos la respuesta impulsiva del altavoz de forma
independiente, de este modo podemos compensar la respuesta no uniforme del
mismo mediante un filtro inverso de modo que al aplicarlo la las medidas de
HRTF ecualiza la respuesta del altavoz poniéndola plana.
Las respuestas impulsivas han sido obtenidas usando secuencias ML.
La longitud de la secuencia es N = 16.383 muestras, correspondientes a un
registro generado de 14 bits. Dos copias de la secuencia son concatenadas
para formar un sonido de 2*N muestras que es reproducido desde la tarjeta de
sonido Audiomedia. Simultáneamente 2*N muestras son grabadas en los
canales correspondientes a los oídos derecho e izquierdo. Para cada canal de
entrada se ha procedido del siguiente modo para recuperar la respuesta
impulsiva.
• Las primeras N muestras del resultado han sido descartadas.
• Las restantes N muestras han sido duplicadas para volver a formar
una secuencia de 2*N.
• Esta señal es croscorrelada con la señal de original ML de N
muestras usando convolución FFT de bloques, formando una señal
de salida de 3*N-1 muestras.
• Las N muestras de la respuesta impulsiva fueron extraídas partiendo
de la muestra N-1 de la señal de salida.
83
Generación Sintética de Sonido Direccional
5.3.2.- Procedimiento de Medida
Las medidas han sido realizadas en la cámara anecoica de la
Universidad de Wisconsin. Los voluntarios se sientan en una silla regulable en
altura que está fija sobre una plataforma giratoria controlada por ordenador, de
este modo podemos seleccionar con exactitud la medida del azimuth. El
altavoz está anclado en una plataforma móvil que recorre un riel en forma de
semicírculo de 1.4 metros de radio, partiendo desde la base de la silla hasta
una altura de 2.8 metros, lo cual permite posicionar con precisión el altavoz en
cualquier ángulo de elevación.
Figura 5.2 Esquema de montaje en Laboratorio (II)
De este modo las medidas se realizan a un ángulo de altura fija, rotando
el ángulo de azimuth mediante control por ordenador para esta elevación fijada.
Con la cara del voluntario mirando hacia delante, el altavoz es posicionado de
forma que un hipotético rayo normal proyectado desde el centro de la cara
frontal del altavoz dividiría en dos el eje interaural del sujeto a una distancia de
1.4 m
1.4 m
1.4 m
84
Generación Sintética de Sonido Direccional
1.4 metros. Conseguimos esto usando una cinta métrica, un péndulo, una
calculadora, una vara de 1.4 metros y el riel instalado para el experimento.
Queremos que el altavoz está siempre en la posición deseada con un error de
0.5 pulgadas, lo cual corresponde a un error angular de ± 0.5 grados.
El espacio esférico alrededor del sujeto está muestreado en 36 espacios
regulares de 10º cada uno en el plano horizontal y en 15 espacios regulares de
10º cada uno desde el –50º al 90º de elevación en el ángulo de elevación. La
tabla siguiente muestra las posiciones desde donde se han obtenido las
HRTFs.
Elevación Número de Medidas Incremento Azimuth
-40
-30
-20
-10
0
10
20
30
40
50
60
70
80
90
36
36
36
36
36
36
36
36
36
36
36
36
36
X
10º
10º
10º
10º
10º
10º
10º
10º
10º
10º
10º
10º
10º
X
Si las personas fuésemos totalmente simétricas sólo necesitaríamos el
hemisferio derecho o izquierdo, pero como no lo somos necesitamos obtener
las HRTFs de ambos oídos para todos los ángulos de la esfera.
5.3.3.- Medidas de Altavoz y auriculares
La respuesta impulsiva del altavoz Optimus Pro 7 ha sido medida en la
cámara anecoica usando un micrófono Kmi 84 a una distancia de 1.4 metros.
85
Generación Sintética de Sonido Direccional
La técnica de medida ha sido exactamente la misma que para las medidas de
HRTF. La respuesta impulsiva ha podido ser usada para crear un filtro inverso
con la idea de ecualizar las medidas de HRTF.
5.3.4.- Los datos
Como se ha descrito anteriormente, cada HRTF medida consiste en una
respuesta impulsiva de 16.383 puntos muestreada a 44.1 kHz. La mayoría de
estos datos son irrelevantes. Los 1.4 metros de viaje aéreo corresponden
aproximadamente a 180 muestras, y existe un retraso adicional de 50 muestras
inherentes al sistema de reproducción/grabación. Como consecuencia, en
cada respuesta impulsiva, hay un retardo de aproximadamente 230 muestras
antes de que la respuesta del cuerpo se produzca. Dicha respuesta persiste
durante muchos cientos de muestras, y es seguida por varias reflexiones de los
objetos de la cámara anecóica (incluidos altavoces, cables…etc). Para reducir
el tamaño del conjunto de datos, se ha procedido a eliminar las primeras 200
muestras, y conservar las 256 siguientes. Cada HRTF tiene por tanto 256
muestras de longitud.
Los datos han sido almacenados a priori en 10 archivos, cada uno con
505 funciones de Transferencia de 256 coeficientes procedentes de los dos
oídos de cada voluntario. Para poder trabajar de forma más rápida y cómoda,
se ha procedido a dividir estos archivos de la siguiente manera:
• Habrá 505 archivos WKX (Lotus 123) por cada voluntario.
• Cada archivo es una hoja de cálculo editable con Microsoft Excel que
posee dos columnas, una para cada oído.
• Estarán etiquetados del siguiente modo:
XXX_TT_PP.wkx
86
Generación Sintética de Sonido Direccional
Donde:
XXX: nombre abreviado del voluntario.
TT: Ángulo Tetha.
PP: Ángulo Phi.
De este modo quedan totalmente definidos los 2525 archivos resultantes
de esta descomposición. Como se puede suponer, esto reduce
considerablemente el tiempo de carga de las HRTF a la hora de trabajar con
las mismas.
5.4 Características de la HRTF
Las HRTF presentan una serie de características importantes tanto en el
dominio del tiempo como en el de la frecuencia. Estas características
determinan un comportamiento determinado en las señales sonoras que son
afectadas por ellas.
Como se muestra en la Figura 5.3, las señales que llegan a los
pabellones auditivos pueden ser examinadas desde dos perspectivas distintas,
el dominio del tiempo y el de la frecuencia.
Si nosotros imaginamos que el evento sonoro es un simple impulso,
podemos fácilmente identificar el hecho de que depende solamente de la
acústica del oyente.
87
Generación Sintética de Sonido Direccional
Figura 5.3 Representación de HRTFs en el dominio de la frecuencia y del tiempo en oidos
ipsilateral y contralateral (adaptados por Kebdall en 1990)
Desde el punto de vista del dominio del tiempo, se puede considerar a
las señales que llegan a los oídos como impulsos sonoros. La energía ha sido
dispersada alrededor de 1-3 milisegundos por la interacción con el cuerpo del
oyente. Cuando una fuente de sonido está exactamente a 90º azimuth en el
plano horizontal, la ITD llega a su máximo, estando éste entre 7 y 8
milisegundos.
Una comparación de medidas impulsionales de un mismo sujeto desde
diferentes localizaciones revelará patrones significativos.
88
Generación Sintética de Sonido Direccional
Figura 5.4 Curvas de respuesta impulsiva medidas en el oído izquierdo de un voluntario para 36 ángulos distintos de azimuth en el plano horizontal. La curva de abajo representa 0 grados
azimuth (frente) y las siguientes curvas proceden de aumentar el ángulo alrededor de la cabeza hasta llegar a 350º (de Kendall 1990)
Figura 5.5 Curvas de respuesta impulsiva medidas en el oído izquierdo de un voluntario para 14 ángulos distintos del plano vertical con 30º de azimuth. La primera curva de abajo representa 80 grados ( arriba ) y las siguientes curvas proceden de disminuir el ángulo alrededor de la cabeza
hasta llegar a –50º
La Figura 5.4 muestra las curvas de respuesta impulsiva medidas en la
oreja de uno de los voluntarios para 36 ángulos distintos de azimuth en el plano
horizontal. Significativamente podemos observar la variación del retraso del
sonido inicial que acompaña el cambio de azimuth. Cuando el oyente se sitúa
alrededor de 270 grados (de distancia del lado contralateral) la simetría del
sonido alrededor de la cabeza en ambas direcciones difiere en los patrones de
89
Generación Sintética de Sonido Direccional
los picos (el sonido retrasado reduce la ganancia entre 150 y 270 grados,
probablemente reflejando una reducción del sonido desde la oreja.)
La Figura 5.5 muestra las curvas correspondientes a un ángulo de 30º
de azimuth y recorre la elevación desde los 90º hasta los –50º.
En el dominio de la frecuencia las Figura 5.6 y 5.7 revelan que la
magnitud del perfil de las HRTF varía tremendamente con la frecuencia.
Comparando los dos oídos podemos observar que las magnitudes son más
similares cuando menor es la frecuencia del sonido y mas dispares a medida
que la frecuencia es mayor. La diferencia es significativa y se incrementa
notablemente por encima de los 1500 Hz ( la longitud de onda que coincide con
el diámetro de la cabeza), porque la cabeza empieza a bloquear las ondas
sonoras a estas frecuencias mayores.
Figura 5.6 HRTFs medidas en la posición del oído izquierdo en un sujeto voluntario para 36
ángulos distintos de azimuth en el plano horizontal.
90
Generación Sintética de Sonido Direccional
Figura 5.7 HRTFs medidas en la posición del oído derecho en un sujeto voluntario para 36 ángulos
distintos de azimuth en el plano horizontal.
Hay numerosos factores acústicos que añaden complejidad y riqueza a
las HRTF´s, como por ejemplo el pico de gran amplitud que nos encontramos
en una zona de alrededor de los 3.000 Hz que está causado por la resonancia
del canal auditivo. Hay también vanos y otros finos detalles en la magnitud de
la respuesta causados por las interferencias constructivas y destructivas de la
onda directa con el sonido reflejado en el cuerpo. El sonido reflejado en torno a
2000Hz está causado principalmente por el torso, y el de 4000 HZ es debido a
la oreja, en medio hay una región de influencia superpuesta de ambos
interferentes.
Una comparación de HRTFs medidas en direcciones adyacentes
revelará muchos patrones significativos. La Figuras 5.6 y 5.7 muestran los
patrones que pueden ser observados en la magnitud de la respuesta de los
oído en el plano horizontal entre 0 y 360 grados de azimuth. Por ejemplo, el
ancho de banda del pico espectral cerca de los 3000 Hz se ensancha cuando
la fuente de sonido se mueve desde el frente hacia atrás. Un desvanecimiento
91
Generación Sintética de Sonido Direccional
profundo en los 8000 Hz emigra hacia arriba en las frecuencias donde la fuente
se mueve hacia atrás y entonces desaparece virtualmente.
Figura5.8 HRTFs de los dos oído (izquierdo y derecho respectivamente) de un sujeto. El sonido incrementa en elevación ,-50º (línea negra), 0º (línea azul) y 70º (línea roja)
92
Generación Sintética de Sonido Direccional
En la figura 5.8 se puede observar las diferencias de las HRTF de un
individuo al aumentar el grado de elevación, con un ángulo fijo de azimuth de
30º. Estas gráficas son aún más específicas de cada persona que las
mostradas anteriormente para el recorrido alrededor del ángulo Theta.
Cuando la distancia del evento origen del sonido está a más de dos
metros de la cabeza, al moverse éste o el oyente, producen pequeños cambios
de la HRTF. Las ondas sonoras, a esta distancia, vienen del evento sonoro en
forma aproximadamente plana (esto significa que las HRTFs provocadas por
eventos de menos de dos metros de distancia de la cabeza puedan ser
utilizadas para simular fuentes de sonido lejanas (a condición de que los
indicios del entorno a esa distancia también estén presentes). A menos de dos
metros de la cabeza, las ondas sonoras procedentes del evento acústico son
más esféricas, el ángulo efectivo entre el evento sonoro y el oído del individuo
cambia, y las HRTFs divergen significativamente de aquellos sonidos más
lejanos.
5.4.- Diferencias individuales
Actualmente hay un debate concerniente al impacto de las diferencias
individuales para extrapolar una HRTFs general con la que localizar el sonido
para todos los individuos, ya que cada uno posee una HRTF particular.
Las HRTFs varían muchísimo entre las personas y las diferencias
interaurales son afectadas de manera importante por las diferencias en el
tamaño de la cabeza y la orientación de las orejas. Esto implica que algunas
HRTF implementadas sobre algunos individuos puedan variar notablemente la
precisión de localización ( Butler & Belendiuk, 1977; Wightman & Kistler, 1989),
pero esas grandes diferencias en el tamaño de la cabeza pueden socavar la
localización (Morimoto & Ando, 1983). Wenzel en 1993 comunicó que el juicio
93
Generación Sintética de Sonido Direccional
de la elevación y la diferencia entre adelante/atrás son propensas as
degradarse con el uso no individualizado de las HRTFs.
Del mismo modo parece que la localización efectiva puede ocurrir en
muchos casos en los cuales los oídos reciban funciones de transferencia
direccionales (DTFs) cuyos detalles difieran significativamente de las medidas
en las HRTFs. Kendall y Rodgers(1982) usaron filtros de orden bajo para crear
figuras de las FdT como aproximaciones de las HRTFs naturales mientras que
Martens (1987) y Kendall (1988) describen el uso de un análisis de
componentes principales para crear las DTFs artificiales.
Figura 5.9 Representacion de las HTRF de dos individuos (azul y rojo) y el error entre ambas para un ángulo de 50º azimuth y 0º de elevación. Oídos Izquierdo
94
Generación Sintética de Sonido Direccional
Figura 5.10 Representacion de las HTRF de dos individuos (azul y rojo) y el error entre ambas
para un ángulo de 50º azimuth y 0º de elevación. Oídos Derecho
Comparando la respuesta en frecuencia de HRTFs de diferentes
individuos se puede observar que los rasgos espectrales no son exactamente
los mismos para todos. La magnitud de las HRTFs individuales variará en
términos generales y también en pequeños detalles. Las Figuras 5.9 y 5.10
comparan las HRTF de los oído izquierdo y derecho de dos individuos para un
ángulo de 50º azimuth y 0º de elevación.
Y aunque hay considerables diferencias en forma y detalle, pueden
verse como en general se parecen bastante. Por ejemplo, individualmente
ambas muestran la misma tónica en la transición de subida de las frecuencias
notch (por ejemplo, ambos individuos muestran las mismas tendencias en la
migración desde las frecuencias del vano hasta los picos más elevados). Esto
sugiere que mientras los individuos poseen cabezas de diferentes tamaños y
orejas de distintos tipos, el proceso acústico que se realiza para conseguir las
HRTF es el mismo para todos. No obstante , la diferencia de fase interaural
95
Generación Sintética de Sonido Direccional
será afectada especialmente por una separación entre oídos. La magnitud de
los fenómenos de fase interaural será un poco distinta en niños que en adultos.
La comparación de los resultados sugiere lo siguiente:
1. Las personas generalmente localizan mejor los sonidos con sus propias
HRTFs que con las generales (o las de otros).
2. Algunos individuos tienen HRTFs que son superiores , y esas HRTFs
pueden algunas veces mejorar las localizaciones de otros individuos .
3. Para trabajar un individuo con la HRTF de otro, el tamaño de la cabeza
debe ser aproximadamente el mismo.
4. La localización puede ser lograda con DTFs sintéticas cuyos detalles
difieran de las HRTFs medidas.
5.5.- Reproducción estéreo del sonido 3D
Muchos sonidos 3D recrean una visión de un sistema de audio ideal que
podría incluir un motor computacional con suficiente potencia para sintetizar
completamente la acústica 3D de un entorno simulado. De hecho, ambientes
simulados simultáneamente parecen ser requeridos para situar cada sonido en
el entorno más apropiado. Cada fuente de sonido simulada y cada reflexión
simulada podría ser procesada por un par de filtros direccionales con los que
capturar las propiedades direccionales de la cabeza del oyente. Estos filtros
podrían cambiar instantáneamente en respuesta al movimiento de la cabeza
del oyente (o debido a cambios del entorno simulado). Si hubiese más de un
oyente, los cambios podrían ocurrir independientemente de cada persona. Los
filtros direccionales estarían basados en la HRTF de cada uno de los oyentes.
Algunas influencias del equipo de reproducción o del entorno podrían ser
eliminados.
96
Generación Sintética de Sonido Direccional
Hay muchos factores que nos mantienen lejos de la realización de este
proyecto hoy en día. Uno de los factores es la enorme carga computacional
requerida para desarrollar este sistema, que parece no tener límite.
Necesitarán ser incorporadas muchas herramientas de ingeniería antes de que
un sistema práctico pueda acercarse a la funcionalidad descrita anteriormente.
Realizar un sistema de que comunique eficientemente al oyente es
probablemente más importante que representar la acústica de una realidad
física, ya conocemos entonces que el sistema auditivo es selectivo en cuanto a
la información que utiliza. Un factor aún más importante es que la
implementación actual de los filtros direccionales está lejos de ser perfecta.
5.6.- La Reproducción estéreo de los Sonidos 3D
Cohen (1989) y Begault (1991) han planteado señales para advertir la
carencia de discusiones realistas para áreas problemáticas y sobre
predicciones demasiado optimistas y argumentaciones para el sonido 3D,
especialmente para desarrollos comerciales.
Algunos problemas cruciales son la discriminación del sonido
delantero/trasero, decoloraciones de timbre, diferencias en la interpretación del
oyente y diferencias debidas a la acústica de la fuente de sonido. La
reproducción de sonido 3D puede ser un asunto complicado. Por ejemplo,
mientras unos auriculares y un altavoz tienen un sistema de reproducción
tecnológicamente similar y buscan los mismo objetivos, algunas veces
presentan algunos problemas muy diferentes y requieren soluciones prácticas
distintas.
97
Generación Sintética de Sonido Direccional
5.6.1.- Filtrado Direccional
Tanto si la reproducción sucede en altavoces como en auriculares , hay
una serie de aspectos esenciales de la simulación computacional que sirven
para ambas opciones. Por ejemplo, como se muestra en la Figura 5.11, cada
fuente de sonido potencial y cada reflexión simulada empiezan como una señal
monofónica que eventualmente debe ser dividida en forma de un par estéreo
derecha/izquierda. Cada canal del par estéreo debe ser procesado mediante
filtros direccionales dependientes que cambian en respuesta a la proyección de
la localización de la fuente de sonido.
Todos los resultados de los pares estéreo derecha/izquierda resultantes
son sumados juntos para formar una señal de salida estereofónica compuesta
que finalmente es reproducida en los altavoces o auriculares. Estos filtros
direccionales pueden ser implementados de cualquiera de las maneras
tradicionales.
Figura 5.11 Una fuente simple y monofónica es dividida para formar un par derecha/izquierda
estéreo el cual es procesado mediante filtros digitales con dependencia direccional y sumados para formar una señal de salida estereofónica compuesta.
Este es el modelo de implementación de Escucha Direccional mediante
HRTF utilizado en este proyecto.
I I
I
I
D
D
D
D
Filtros con
Dependencia Direccional
Señal de Fuente
Monofónica
Otras Fuentes
Otras Fuentes
Señales Estereofónicas de Salida
Azimuth y Elevación
98
Generación Sintética de Sonido Direccional
La Figura 5.12 muestra los detalles de una implementación más
compleja. Hay filtros FIR de derecha e izquierda cuyos coeficientes son las
respuestas impulsivas HRTF´s sacadas de una librería de HRTF´s. En las
HRTF´s normalmente estarían incorporados los retrasos interaurales y las
diferencias de intensidad, pero esto puede ser implementado de forma
separada mediante controles de ganancia y retraso, (esta separación puede
reducir el número de coeficientes necesarios para implementar los filtros FIR).
Figura 5.12 Detalles de la implementación con filtros FIR y retrasos interaurales independientes
con control de ganancia
D
Señales Estereofónicas de Salida
Filtro FIR
Señal de Fuente Monofónica
Filtro FIR
Retraso Interaural
Ganancia Interaural y tabla de retrasos
Librería de HRTF
Azimuth y Elevación
I
Ganancia I
Ganancia D
99
Generación Sintética de Sonido Direccional
5.7.- Procesado
5.7.1.- Estático
Para el procesado de una señal de audio mediante la técnica de HRTF
usamos una señal monofónica. Dependiendo de los ángulos de azimuth y
elevación escogeremos la Respuesta Impulsiva mas parecida entre las 505 que
disponemos. Una vez elegida convolucionamos nuestra señal de sonido con
las h(n) correspondientes a los filtro de las HRTF del oído izquierdo y derecho.
De este modo tenemos dos señales de salida que conjuntamente forman la
señal estereofónica de salida.
Figura 5.13 Esquema de generación de señales direccionales mediante HRTF
5.7.2.- Dinámico
Mediante el procesado dinámico se pretende dar una sensación de
direccionalidad de una fuente de sonido en movimiento. Al tratar con HRTF
obtenidas a una distancia fija, solamente podremos describir el movimiento de
una curva en la superficie de una esfera de radio 1,4 metros.
Señales Estereofónicas de Salida
I
D
Filtros con
Dependencia Direccional
Señal de Fuente
Monofónica
Azimuth y Elevación
100
Generación Sintética de Sonido Direccional
Figura 5.14 Representación de movimiento esférico a partir de uno lineal
Debemos dividir la trayectoria de la fuente de sonido en tantos intervalos
como cambios de sectores angulares encontremos, de este modo podemos
aplicar una transformación simple a la señal por cada uno de los intervalos
correspondientes a ángulos testeados en las pruebas y por tanto
pertenecientes a una de las 505 Respuestas Impulsivas conocidas.
Figura 5.15 Generación de sonido dinámico (I)
Destino Origen
h(1) h(2) h(3)
h(4)
101
Generación Sintética de Sonido Direccional
Figura 5.16 Generación de sonido dinámico (II)
De cada intervalo i obtenemos una señal de salida estática yi(n).
Mediante una combinación estas yi(n) podemos recrear un movimiento a través
de la curva del modo que muestra la Figura 5.15.
El proceso que se realiza, y que puede verse en la figura 5.17, es el
siguiente:
• Se definen cada uno de los intervalos por los que pasa el
recorrido.
• Se divide la longitud total de la señal por el número de
intervalos. Esto genera un desplazamiento con velocidad
constante, aunque se podría modificar en caso de querer otro
tipo de movimiento.
• Se aplican los algoritmos de sonido direccional para cada uno
de estos intervalos.
Y1(n)
Yn(n)
Y2(n)
y1(n)
Y2(n)
Yn(n)
θ1
θn
θ2
θ1
θ2
θn
Señales Estereofónicas
de Salida
I
D
Procesado Recorrido
Señal de Fuente
Monofónica
Azimuth y Elevación
Filtros Direccionales
Oído Izquierdo
Filtros Direccionales Oído Derecho
Algoritmo de
Combinación
Algoritmo de
Combinación
102
Generación Sintética de Sonido Direccional
• Se cogen por orden los subintervalos de las salidas,
correspondientes a cada intervalo y se ponen ordenadamente
en las salidas correspondientes a los oídos izquierdo y
derecho.
• En caso de no coincidir las longitudes se procede a un relleno
de ceros al final de la señal.
Figura 5.17 Creación de movimiento mediante HRTF para cada uno de los oídos
Salida
Y1(n)
Y2(n)
Y3(n)
Y4(n)
H1(n)*sn(n)
H2(n) *sn(n)
H3(n) *sn(n)
H4(n) *sn(n)
Duración señal
103
Generación Sintética de Sonido Direccional
6.- Interfaz de usuario
Para facilitar la obtención y visualización de resultados se ha creado una
interfaz gráfica con el programa MATLAB 5.3®.
La interfaz de usuario está dividida en tres grandes grupos o
aplicaciones:
• Análisis de archivos de sonido y procesado direccional estático.
• Análisis de archivos de sonido y procesado direccional dinámico.
• Generación y presentación de estadísticas y gráficas.
Durante el desarrollo del capitulo se verá con mayor detalle cada una de
ellas.
6.1.- Requisitos básicos
• Al tratarse de una aplicación realizada con el programa MATLAB 5.3®, el
PC donde se ejecute ha de tener dicho programa instalado. También
funciona en versiones posteriores del mismo ( MATLAB 6.0® y MATLAB
6.1® ).
• La interfaz lleva asociada una base de datos realizada con el programa
Microsoft Access para la cual se necesita crear el origen de datos ODBC.
104
Generación Sintética de Sonido Direccional
Si el sistema operativo es el Windows la manera de proceder será la
siguiente:
1. Ir a panel de control.
2. Seleccionar Fuentes de Datos ODBC.
3. Pestaña DSN de sistema y pulsar ‘Agregar’.
Figura 6.1 Elección del origen de datos
4. Seleccionar Microsoft Access Driver y pulsar ‘Finalizar’.
5. Introducir la ruta y el nombre del origen de datos (nombre de la base de
datos de los voluntarios), que en este caso es ‘Escucha’ y pulsar ‘Aceptar’.
Figura 6.2 Elección del origen de datos II
105
Generación Sintética de Sonido Direccional
6.2 Funcionamiento
Tras situarse en el programa MATLAB® y seleccionar el directorio donde
se encuentra la herramienta matemática diseñada, tecleamos
“escucha_direccional”. Aparece entonces la pantalla de presentación
siguiente:
Figura 6.3 Ventana de Presentación
Pulsamos ‘Continuar’ para acceder al programa. Se presenta ahora en pantalla
una elección que definirá tres caminos diferentes en la aplicación:
1. ANÁLISIS ESTÁTICO
Realiza un procesado de la señal de sonido para una direccionalidad
estática.
106
Generación Sintética de Sonido Direccional
2. ANÁLISIS DINÁMICO
Realiza un procesado de la señal de sonido para una direccionalidad
dinámica.
3. ESTADÍSTICAS
Generación y presentación de estadísticas y gráficas comparativas entre
distintos factores que afectan a la direccionalidad.
Figura 6.4 Ventana de elección principal
Veremos cada una de ellas por separado. Alguna de las partes
contienen bastantes similitudes, así que se desarrollará primero el procesado
estático y luego el dinámico explicando de éste último sólo las partes que sean
diferentes al primero.
6.2.1.- Análisis Estático
Tras pulsar ‘ANÁLISIS ESTÁTICO’ aparece la pantalla principal del
procesado. Inicialmente se muestran deshabilitados algunos botones, los
107
Generación Sintética de Sonido Direccional
cuales se irán activando conforme carguemos el archivo de sonido, el ángulo a
estudiar o procesemos la señal de entrada.
Figura 6.5 Ventana procesado estático
Barra de menú
La mayoría de las pantallas que se describen a continuación tienen una
barra de menú similar con una serie de opciones comunes.
• Ventana
Aparece un menú desplegable con las opciones ‘Inicio’, ‘Estático’,
‘Dinámico’ y ‘Estadísticas’ que conducen directamente a la pantalla a
la cual hace referencia.
108
Generación Sintética de Sonido Direccional
Figura 6.6 Menú ventana
• Carga
El desplegable contiene las opciones ‘Carga Sujeto’, ‘Carga Ángulo’ y
‘Carga Sonido’ que se explicarán a continuación.
Figura 6.7 Menú Cargar
• Salir
Aparece la siguiente ventana de diálogo con dos posibles opciones:
Figura 6.8 Salir
Carga de Datos
• Carga sonido
Aparece una ventana de diálogo de Windows para seleccionar el
archivo de sonido a procesar. Esta ventana se ejecutará tanto
109
Generación Sintética de Sonido Direccional
pulsando en el botón ‘Carga Sonido’ de la propia interfaz o en el
menú de opciones.
Figura 6.9 Ventana procesado estático. Carga Sonido
El archivo de sonido debe contener una señal monofónica, en el caso
de ser estereofónica, el programa se quedará sólo con el primer
canal, y procesará los algoritmos sobre una única señal. El sonido es
cargado y se prepara en el cuadro indicado de la pantalla. Además
se habilita el botón ‘Original’ que si lo pulsamos reproducirá el sonido
que hemos elegido.
• Carga Ángulo
Pulsando en el botón de la pantalla ‘Cargar Ángulo’ o en la barra de
menú se abre otra ventana diferente a la anterior donde se podrá
110
Generación Sintética de Sonido Direccional
elegir la localización virtual de la fuente de sonido a implementar. En
la parte derecha podemos definir los ángulos Theta y Phi que definen
la dirección del sonido, mientras que en la derecha encontramos el
botón ‘Vista Previa’ el cual cargará en los cuadros inferiores unos
gráficos que nos ayudarán a situar la fuente de sonido en el espacio
mediante dos vistas, una en el plano XY y otra en 3 dimensiones.
El botón ‘Aceptar’ admite los ángulos y nos hace volver a la pantalla
principal donde se cargan automáticamente los gráficos vistos
anteriormente.
Figura 6.10 Venta carga ángulos
111
Generación Sintética de Sonido Direccional
• Cargar Sujeto
En la barra de menú existe la opción de ‘Cargar’. En el desplegable
se puede elegir ‘Cargar Sujeto’, con esta acción aparece una nueva
ventana en la que hay una cuadro de opciones donde elegir el sujeto
cuyas HRTF serán utilizadas en la implementación del sonido
direccional. Una vez elegido el sujeto sólo tenemos que pulsar
‘Aceptar’ para volver a la pantalla principal y observar que en cuadro
superior de la misma aparece el nombre de la persona voluntaria que
se ha elegido.
Figura 6.11 Elección sujeto
Procesado
Cuando se ha concluido el proceso de elección de voluntario, sonido y
dirección, se habilita la opción de ‘Procesado’. Al pulsar sobre este botón y tras
esperar el tiempo necesario para la realización de este procesado de la señal
original, se habilitan el resto de los botones.
112
Generación Sintética de Sonido Direccional
Figura 6.12 Procesado estático completo
Ahora están los botones ‘Original’, ‘RA’ y ‘HRTF’ que reproducen la
señal original, la procesada mediante la propagación de ondas esféricas y la
procesada mediante las HRTF respectivamente.
• Gráficos
El botón ‘Gráficos’ conduce a una pantalla donde se pueden
comparar la señal de entrada con las salidas de ambos oídos
procesadas por los dos algoritmos o incluso las mismas señales de
salida entre sí.
113
Generación Sintética de Sonido Direccional
Figura 6.13 Resultados gráficos del análisis estático
6.2.2.- Análisis Dinámico
Pulsando ‘ANÁLISIS DINÁMICO’ en la ventana de elección principal
aparece la pantalla de procesado dinámico. Inicialmente se muestran
deshabilitados algunos botones, los cuales se irán activando conforme
carguemos el archivo de sonido, el ángulo a estudiar o procesemos la señal de
entrada para los dos algoritmos estudiados.
114
Generación Sintética de Sonido Direccional
Figura 6.14 Ventana procesado dinámico
Se describe a continuación las ventanas, pantallas y opciones que son
distintas a la opción “PROCESADO ESTÁTICO” que se ha visto en el apartado
anterior.
Barra de menú
La barra de menú es idéntica a la pantalla anterior, aunque las ventanas
a las que conducen tienen algunas diferencias notables que se describirán a
continuación.
115
Generación Sintética de Sonido Direccional
Carga de Datos
• Carga Ángulo
Al disponer sólo de HRTF medidas a una distancia fija, el único
movimiento que podemos describir con éste método es el recorrido
de una curva a través de una esfera de radio 1,4 metros.
En cuanto a la propagación de ondas esféricas, no tiene sentido
definir un ángulo de elevación, puesto que consideramos que la
direccionalidad que puede conseguir este algoritmo es sólo en el
plano horizontal frontal. Con ánimo de poder comparar la eficacia de
los dos algoritmos empleados, se define el movimiento como la curva
que recorre una circunferencia de radio 1,4 metros desde un punto
inicial definido por una ‘Theta inicial’ hasta un punto final definido por
una ‘Theta final’.
116
Generación Sintética de Sonido Direccional
Figura 6.15 Carga ángulos procesado dinámico
Si se pulsa el botón ‘Vista Previa’ puede distinguirse el recorrido
en la gráfica situada en la ventana. Como opción complementaria se
puede definir el sentido del recorrido, horario o antihorario, desde el
punto inicial al final.
En la Figura 6.15 se muestra la ventana en la que se elige el ángulo
de partida y el de fin.
Procesado
Una vez concluida la elección de los parámetros, se habilitan las
opciones de ‘Procesado HRTF’ y ‘Procesado RA’ que realizarán la
ejecución de las funciones cuyo resultado es la señal de salida
procesada. Se han separado ambas funciones de procesado por el
tiempo de computo que puede llegar a ser un poco elevado.
Figura 6.16 procesado dinámico completo
117
Generación Sintética de Sonido Direccional
Al igual que en el caso anterior, tras el procesado se activan los
botones ‘Original, ‘RA’ y ‘HRTF’ que nos permiten escuchar la señal
original y las procesadas.
6.2.3.- Estadísticas
Pulsando ‘ESTADÍSTICAS’ en la pantalla de elección principal aparece
una ventana donde podremos elegir de nuevo 4 opciones:
Figura 6.17 Elección estadística
1. GENERACIÓN ESTADÍSTICAS
2. ANÁLISIS ESTADÍSTICO
3. RECORRIDOS ANGULARES
4. COMPARACIÓN SUJETOS
118
Generación Sintética de Sonido Direccional
Generación de Estadísticas
Al cargar esta pantalla se muestra un cuadro de texto donde se
informa del sistema de referencias utilizado, para facilitar el relleno de
los cuadros de texto que posteriormente se utilizan para realizar las
estadísticas.
Figura 6.18 Cuadro de texto de sistema de referencias
La ventana principal presenta una serie de botones etiquetados
como ‘Test X’ donde X es un número, si es pulsado uno de estos
botones, se reproducirá un sonido previamente procesado por HRTF o
por Propagación de Ondas Esféricas.
El usuario voluntario debe anotar en los cuadros de texto adjuntos
al botón los ángulos Theta y Phi que considere apropiados desde su
punto de vista. Como referencia se puede escuchar en todo momento la
señal original presionando sobre el botón correspondiente.
119
Generación Sintética de Sonido Direccional
Figura 6.19 Generación de estadísticas
Una vez rellenos todos los cuadros de texto, presionamos
‘Aceptar’, esto conduce a una nueva pantalla donde se deben introducir
los datos del voluntario. Estos datos personales irán a almacenarse a la
Base de Datos ‘Escucha’, establecida en el origen de datos ODBC
mientras que los datos obtenidos en el test de sonido son almacenados
en una hoja de cálculo ‘LOTUS 123 WK1’ que puede ser editada con
cualquier programa de Hojas de Cálculo como por ejemplo ‘Microsoft
Excel’.
120
Generación Sintética de Sonido Direccional
Figura 6.20 Introducción de datos en la BdD
Análisis Estadístico
En esta ventana se presentará el análisis estadístico de los
resultados guardados en la hoja de cálculo. En la parte derecha
tenemos una imagen donde se muestran las posiciones de los puntos
del test y los algoritmos utilizados en cada uno de los puntos.
Se puede ver las medias de las respuestas dadas por todos los
voluntarios y también los valores de un usuario en concreto, solo
necesitamos que introduzca su DNI en una pantalla que se muestra al
presionar el Botón ‘Carga Sujeto’.
121
Generación Sintética de Sonido Direccional
Figura 6.21 Presentación de resultados estadísticos
Recorridos Angulares
El objetivo de esta opción es mostrar una comparativa entre
distintas respuestas impulsionales de un mismo sujeto desde distintas
posiciones. Se puede elegir el sujeto, el oído y el recorrido, siendo este
último una de estas dos opciones:
Recorrido Theta. Con una elevación de 0º (plano horizontal),
se establece un recorrido del ángulo Theta desde 0º hasta
360º, siguiendo el sistema de referencias establecido para
todo el proyecto (0º frente y grados positivos hacia la derecha).
Recorrido Phi. Se fija un azimuth de 30º (configurable a otro
cualquiera si lo deseamos), y se recorre el ángulo de elevación
desde 90º hasta –50º.
122
Generación Sintética de Sonido Direccional
Figura 6.22 Recorrido del ángulo Theta
Figura 6.23 Recorrido del ángulo Phi
123
Generación Sintética de Sonido Direccional
Comparación sujetos
En esta última opción se comparan las respuestas impulsionales
de distintos sujetos para una misma dirección. Las posibles elecciones
son los dos ángulos que determinan la posición de la fuente y los dos
voluntarios cuyas HRTF van a ser comparadas. Una vez elegidos los
parámetros y tras pulsar ‘Aceptar’ se representarán en los cuadros
inferiores las gráficas correspondientes a los oídos izquierdo y derecho,
siendo el significado de los colores el siguiente:
Azul. Color de la FdT procedente del sujeto de la
izquierda.
Rojo Color de la FdT procedente del sujeto de la derecha.
Verde Color de la resta de ambas FdT. Mediante esta
gráfica podemos apreciar lo parecidas que son las
dos HRTF.
125
Generación Sintética de Sonido Direccional
7.- Conclusiones y Líneas de Desarrollo
7.1 Conclusiones
El análisis presentado en este proyecto permite obtener de una forma
cualitativa las señales estereofónicas de salida tras el procesado de una señal
monofónica de entrada. Podemos apreciar la diferencia entre las señales
procedentes del procesado a través de HRTF y por medio del método de la
propagación de ondas esféricas.
La direccionalidad del sonido esta ligada intrínsecamente al entorno. En
la vida real tenemos la posibilidad de localizar un sonido mediante un
movimiento de la cabeza o simplemente por la situación real en la que nos
encontramos. La creación de sonido sintético mediante ordenador nos impide
realizar este movimiento y, por tanto, localizar de manera eficaz la fuente de
sonido. No obstante los resultados obtenidos mediante el procesado de la
señal de sonido son bastante aceptables.
Mediante los dos algoritmos implementados podemos decir que en el
semiplano delantero horizontal está determinada la direccionalidad con un
rango bastante bueno. Si escuchamos un sonido procesado en distintas
posiciones podremos localizar sin dificultad cada una de estos lugares y
posicionar los focos de sonidos con un rango angular de 10-15 grados.
126
Generación Sintética de Sonido Direccional
El método de la propagación de ondas esféricas mantiene limpia la señal
origen, ya que sólo hace una traslación de las muestras y las atenúa según un
coeficiente constante. Mediante el procesado de HRTF podemos observar la
introducción de una distorsión y una atenuación no uniforme debido a que son
dos señales convolucionadas lo que obtenemos a la salida del filtro.
La direccionalidad adelante/atrás y arriba/abajo sólo podemos obtenerla
mediante el método de las HRTF. Con este proyecto hemos podido determinar
que estás direccionalidades están ligadas intrínsecamente con la persona, y
que dependen muchísimo de sus características físicas exteriores e interiores.
Es por ello que con una función de transferencia obtenida de un sujeto, sólo
proporcionará direccionalidad arriba/abajo y adelante/atrás a este sujeto,
mientras que los demás sujetos que escuche un sonido que procede del
tratamiento de una señal con las HRTF de este sujeto, sólo podrá apreciar una
direccionalidad en el semiplano horizontal delantero.
7.2.- Líneas de desarrollo
7.2.1. Realizar HRTF individuales
Debido a la importancia de las HRTF individuales, la mejor opción para
conseguir una direccionalidad mejor es implementar FdT específicas para cada
indivíduo. Esto se consigue mediante loa obtención de las HRTF específicas e
indivuduales de cada persona. Lo ideal sería conseguir estos sin necesidad de
introducir al sujeto dentro de una cámara anecóica.
7.2.1 Convertir a un programa ejecutable
Tanto los algoritmos diseñados como la interfaz gráfica de usuario sólo
funcionan bajo el entorno MATLAB®. Sería interesante poder convertirlo a un
127
Generación Sintética de Sonido Direccional
programa ejecutable (MATLAB® contiene herramientas específicas para la
compilación) y así se permitiría la encriptación de los códigos y la utilización en
cualquier PC, sin necesidad de que tenga instalado el programa MATLAB®.
128
Generación Sintética de Sonido Direccional
8.- Bibliografía y Referencias
[1] Estorff O. V.: Boundary elements in acoustics : advances and
applications, Wit Press, 2000.
[2] Frank F.: Foundations of engineering acoustics, Academic Press. 2000.
[3] Haykin S.: Communication systems, John Wiley and Sons, 2000.
[4] Haykin S.: Adaptive filter theory, Prentice Hall, 1996.
[5] Kinsler L.E.: Fundamentals of acoustics, John Wiley & Sons, 2000.
Kinsler-Sanders, Coppens-Frey .
[6] Kinsler L.E.: Fundamentos de acústica, Limusa, 1990.
[7] Manilakis D.G., Proakis J.G.: Digital signal processing : principles,
algorithms, and applications, NJ Prentice-Hall PTR, 1996.
[8] Oppenheim Alan V., Schafer R.W.: Discrete-time signal processing.,
Prentice-Hall International, 1999.
[9] Oppenheim A. V., Willsky A. S.: Señales y sistemas Alan S.: Prentice-
Hall Hispanoamericana, 1998.
129
Generación Sintética de Sonido Direccional
[10] Proakis J.G.: Digital communications, McGraw-Hill, 2001.
[11] Rosenhouse G.: Active noise control : fundamentals for acoustic design,
GWit Press, 2001
[12] Scott C. R.: Acousto-optic signal processing devices, Artech House,
1992.
[13] The Math Works Inc.: Matlab., Student Edition of MATLAB Version 5 for
Windows, Prentice Hall,1997.
[14] Williams E.G.: Fourier acoustics : sound radiation and nearfield
acoustical holography, Press, 1999.
[15] Duda R.: Modeling Head Related Transfer Functions, Twenty-Seventh
Asilomar Conference on Signals, Sistems & Computers, Asilomar, 1993.
[16] Pulkki V.: Uniform Spreading Amplitude Pannen Virtual Sources,
Workshop on Aplications of Signal Processing to Audio and Acoustics,
New York, 1999.
[17] Riederer K.: Investigation of multisensory spatial hearing: from the sense
of audition to multisensory interactions, Campfire: Acoustic Rendering for
Virtual Environments. Snowbird, Utah, 2001.
[18] Tollin D. J., Yin T. C. T.: Investigation of spatial location coding in the
lateral superior olive using virtual space simulation, Physiological and
Phychophysical Bases of Auditory Function, Maastricht, 2001.
130
Generación Sintética de Sonido Direccional
Referencias en Internet
[19] Madariaga Imanol: Electroacústica. Apuntes de clase.
http://bips.bi.ehu.es/users/imanol/akustika/ElektroAkustikaApunteak.pdf
[20] Hartmann W. M.: How we Localize Sound, Physics Today On de Web.
www.aip.org/pt/nov99/locsound.html
[21] Researchers Uncover the Neural Details of How Barn Owls Locate
Sound Sources, Physics Today On Line.
http://www.physicstoday.com/pt/vol-54/iss-6/p20.html
[22] Mock J.E.: Experiments in Psychoacoustics.
http://wug.physics.uiuc.edu/courses/phys398emi/Student_Projects/Spring01/JM
ock/Jason_Mock_Paper
[23] Kendall G.: Directional Hearing and Stereo Reproduction.
http://www.northwestern.edu/musicschool/classes/3D/pages/sndPrmGK.html
131
Generación Sintética de Sonido Direccional
[24] Stereo Recording Techniques, Deutsche Welle Radio Training
Centre.
http://www.dwelle.de/rtc/infotheque/stereo/stereo_recording.pdf
[25] Site Ouèbe de Jérôme Daniel.
http://gyronymo.free.fr/
[26] The Music, Mind and Machine Group, Instrument Identification and
Cochlear Implants.
http://sound.media.mit.edu/index.html
[27] La importancia de tener dos oídos, Viviendo, oyendo y oliendo el Mundo.
http://www.hhmi.org/senses-esp/c220.html
[28] Gacetilla Matemática. Notas matemáticas
http://www.arrakis.es/~mcj/notas.htm
[29] Equivalencias de medida, Enciclopedia de la construcción.
http://www.construir.com/Econsult/C/Consulta/RENISON/document/medidas
132
Generación Sintética de Sonido Direccional
ANEXO I : Posiciones angulares y resultados de las pruebas
Se presentan a continuación las posiciones angulares de las pruebas
realizadas así como los resultados obtenidos en las mismas. Como medida
estadística tomaremos la media aritmética ± 3 veces la desviación típica.
Las pruebas realizadas consisten en un grupo de 13 señales de sonido
modificadas mediante los algoritmos de propagación de ondas esféricas y
mediante HRTF. Los resultados corresponden a 15 voluntarios que han
escuchados estos sonidos y han dispuesto las posiciones angulares de las que
les parecía provenir el sonido.
En la siguiente Figura 9.1 se muestran las posiciones reales de la fuente
de sonido. Se muestran en el plano horizontal, con lo que observamos sólo el
grado azimuth. Para el plano elevación se ha elegido elevación igual a cero
para todas las pruebas, con el objeto de poder comparar los resultados de
ambos algoritmos, ya que como hemos comentado la propagación de ondas
esféricas no tiene la posibilidad de implementar altura.
133
Generación Sintética de Sonido Direccional
Figura 9.1 Disposición angular de las pruebas realizadas.
A continuación se muestran los resultados obtenidos por los 15
voluntarios. En el eje horizontal podemos observar los test efectuados, cada
134
Generación Sintética de Sonido Direccional
uno caracterizado por un número al que se puede hacer referencia mirando la
Figura... y en vertical tenemos los resultados obtenidos por los voluntarios para
cada uno de estos archivos de sonido. Presentamos dos tablas, una para el
ángulo de azimuth y otra para el ángulo de elevación.
T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 T13
A -30 -80 30 -45 20 80 -20 20 -90 70 -60 15 90
B 20 -90 70 -60 20 100 -70 70 -70 45 -45 0 90
C 20 -70 60 -30 0 70 -45 25 -70 30 -30 0 70
D 0 -90 50 -50 0 90 -50 50 -90 50 -50 0 90
E 15 -80 40 -50 0 90 -70 50 -70 60 -50 10 90
F 10 -90 45 -45 10 90 -50 60 -80 70 -60 10 80
G -20 -70 45 -45 0 90 -60 40 -80 50 -40 0 75
H -30 -90 50 -50 0 80 -75 30 -90 40 -50 0 80
I 15 -90 60 -60 20 75 -30 60 -90 30 -45 0 90
J 30 -80 40 -70 -20 80 -20 70 -80 50 -50 15 80
K -20 -70 30 -70 -10 75 -40 30 -70 50 -60 30 90
L 10 -80 70 -50 -30 90 -50 50 -90- 60 -55 20 90
M 20 -90 50 -30 0 90 -65 40 -75 70 -45 -20 80
N 15 -80 40 -40 0 85 -75 60 -90 80 -60 -30 75
O -30 -90 30 -45 10 90 -40 50 -90 50 -30 010 80
Tabla 9.1 Resultados obtenidos para el ángulo de azimuth
135
Generación Sintética de Sonido Direccional
T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 T13
A -45 10 0 0 15 30 40 -15 -20 15 0 0 0
B -30 0 0 0 0 10 45 10 45 0 0 0 0
C 10 -15 0 0 0 0 0 0 0 0 -15 0 10
D 30 15 20 15 0 -30 -50 -30 -50 45 -45 30 60
E -45 10 0 0 10 45 10 45 -45 10 0 0 10
F -30 0 0 0 0 0 0 0 -30 0 0 0 0
G 10 -15 0 0 -30 -50 -30 -50 10 -15 0 0 -30
H 30 15 20 15 15 30 40 -15 -20 15 20 15 30
I -45 10 0 0 0 10 45 10 45 0 0 -30 -50
J -30 0 0 0 0 0 0 0 0 20 15 30 40
K 10 -15 0 0 0 -30 -50 -30 -50 0 10 45
L 30 15 30 40 -15 -20 -30 0 15 30 40 -15 -20
M 0 0 0 0 10 45 0 0 0 0 45 10 45
N 0 -30 -50 -30 0 0 0 -30 -50 -30 0 0 0
O 10 45 10 45 -30 -50 10 45 10 45 -50 -30 -50
Tabla 9.2 Resultados obtenidos para el ángulo de elevación
Debido a la disparidad de los datos obtenidos en la pruebas en el caso
de la elevación, se ha concluido que este valor es específico de las HRTF y
que sólo puede apreciarse si el voluntario escucha la señal de origen
procesada con su propia función de transferencia.
Como se puede observar, la mayoría de los voluntarios han interpretado
que la fuente de sonido está situada en el plano horizontal delantero. Para no
falsear datos en la media, aquellos resultados que se sitúen en el plano
horizontal trasero, se les modificará el valor de modo que estén en el plano
horizontal delantero, de este modo los datos estadísticos serán más fáciles de
interpretar.
136
Generación Sintética de Sonido Direccional
A continuación de muestran los datos estadísticos de los resultados del
ángulo azimuth y elevación.
Azimuth Elevación
Media ± σ Media ± σ
T1 1.66 ±21.43 -6.33 ±28.37
T2 -82.66 ±7.98 3 ±17.8
T3 47.33 ±13.21 2 ±17.4
T4 -49.33 ±11.93 5.66 ±17.91
T5 1.33 ±14.07 -1.66 ±13.71
T6 85 ±8.01 -0.66 ±30.75
T7 -50.666 ±18.5 2 ±31.83
T8 47 ±15.78 -4 ±26.26
T9 -81.047 ±8.8 -9.33 ±32.06
T10 53 ±14.69 9 ±20.37
T11 -48 ±9.9 1.33 ±25.45
T12 4 ±14.9 3.66 ±20.65
T13 83.33 ±6.98 3.21 ±33.37
Tabla 9.3 Análisis estadístico para los ángulos de azimuth y elevación
En la tabla 9.3 se puede observar que la elevación es muy dispar en la
mayoría de las pruebas. Por el contrario encontramos unos resultados
bastante precisos en el ángulo de azimuth, teniendo en cuenta que siempre
nos referimos al semiplano horizontal delantero.
137
Generación Sintética de Sonido Direccional
ANEXO II : Tiempos de procesado
El ordenador utilizado para la realización de este proyecto tiene las
siguientes características técnicas.
• Pentium III 500 MHz.
• 128 MB de memoria RAM.
• Sistema Operativo Windows 98.
• MATLAB® 5.3.
• Placa base Winex2
• Tarjeta de sonido integrada en placa base.
Los tiempos de procesado en este equipo han sido para una señal de
sonido de 2,701 segundos de duración a una frecuencia de muestreo de
22.050 Hz, lo que hace un total de 59.561muestras
Propagación de ondas esféricas:
• Posicionado estático: 0.11 segundos
• Posicionado dinámico 0º - 50º: 980 segundos
• Posicionado dinámico 0º - 90º: 999 segundos
• Posicionado dinámico 0º - 180º: 995 segundos
HRTF:
• Posicionado estático: 1,59 segundos
• Posicionado dinámico 0º - 50º: 10,71 segundos
• Posicionado dinámico 0º - 90º: 14,66 segundos
138
Generación Sintética de Sonido Direccional
• Posicionado dinámico 0º - 180º: 27,08 segundos
• Recorrido azimuth: 5,55 segundos
• Recorrido elevación: 5,22 segundos
Y para una señal de sonido de 17,12 segundos de duración a una
frecuencia de muestreo de 7.200, con un total de 123.298 muestras:
Propagación de ondas esféricas:
• Posicionado estático: 0,27 segundos
• Posicionado dinámico 0º - 45º: 1570 segundos
• Posicionado dinámico 0º - 90º: 1720 segundos
• Posicionado dinámico 0º - 180º: 1649 segundos
HRTF:
• Posicionado estático: 1,48 segundos
• Posicionado dinámico 0º - 45º: 16,20 segundos
• Posicionado dinámico 0º - 90º: 24,94 segundos
• Posicionado dinámico 0º - 180º: 24 segundos
• Recorrido azimuth: 5,55 segundos
• Recorrido elevación: 5,22 segundos