Di r ecci ó n:Di r ecci ó n: Biblioteca Central Dr. Luis F. Leloir, Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires. Intendente Güiraldes 2160 - C1428EGA - Tel. (++54 +11) 4789-9293
Co nta cto :Co nta cto : [email protected]
Tesis Doctoral
Estudio de la percepción tímbrica enEstudio de la percepción tímbrica ensonidos con modulación mediantesonidos con modulación mediante
experimentos psicofísicos yexperimentos psicofísicos ymodelado de la periferia auditivamodelado de la periferia auditiva
Riera, Pablo Ernesto
2015-03-30
Este documento forma parte de la colección de tesis doctorales y de maestría de la BibliotecaCentral Dr. Luis Federico Leloir, disponible en digital.bl.fcen.uba.ar. Su utilización debe seracompañada por la cita bibliográfica con reconocimiento de la fuente.
This document is part of the doctoral theses collection of the Central Library Dr. Luis FedericoLeloir, available in digital.bl.fcen.uba.ar. It should be used accompanied by the correspondingcitation acknowledging the source.
Cita tipo APA:
Riera, Pablo Ernesto. (2015-03-30). Estudio de la percepción tímbrica en sonidos conmodulación mediante experimentos psicofísicos y modelado de la periferia auditiva. Facultadde Ciencias Exactas y Naturales. Universidad de Buenos Aires.
Cita tipo Chicago:
Riera, Pablo Ernesto. "Estudio de la percepción tímbrica en sonidos con modulación medianteexperimentos psicofísicos y modelado de la periferia auditiva". Facultad de Ciencias Exactas yNaturales. Universidad de Buenos Aires. 2015-03-30.
UNIVERSIDAD DE BUENOS AIRES
Facultad de Ciencias Exactas y Naturales
Departamento de Fısica
Estudio de la percepcion tımbrica en sonidos con
modulacion mediante experimentos psicofısicos y
modelado de la periferia auditiva
Tesis presentada para optar al tıtulo de
Doctor de la Universidad de Buenos Aires en el area Ciencias Fısicas
Por
Lic. Pablo Ernesto Riera
Director de tesis: Dr. Manuel Camilo Eguıa
Consejero de estudios: Dr. Mariano Sigman
Lugar de trabajo: Laboratorio de Acustica y Percepcion Sonora,
Departamento de Ciencias Sociales, Universidad Nacional de Quilmes.
Buenos Aires, 30 de Marzo de 2015
Estudio de la percepcion tımbrica en sonidos con
modulacion mediante experimentos psicofısicos y
modelado de la periferia auditiva
Pablo Ernesto Riera
Buenos Aires, 2015
Resumen
La percepcion tımbrica es uno de los fenomenos mas complejos que realiza el sistemaauditivo. El timbre, originalmente establecido como la cualidad que permite discriminarinstrumentos musicales entre sı, en la actualidad se encuentra mas vinculado con el con-cepto ecologico de identificacion de las fuentes sonoras en un entorno natural. Su inherentecaracter multidimensional, hace que la relacion entre la forma de onda de un sonido y eltimbre percibido sea una relacion compleja, en la cual distintas partes del sistema auditi-vo estan involucradas. A pesar de estas limitaciones, es sabido que hay ciertos atributosacusticos temporales y espectrales que suelen destacarse en la percepcion tımbrica. Losmas relevantes son, por un lado, el tiempo de ataque de la envolvente como caracterısticatemporal y por otro el brillo o centroide espectral como caracterıstica espectral.
En este trabajo se utilizaron dos metodologıas para estudiar el timbre. Por un lado, serealizaron dos experimentos psicofısicos de comparacion de pares de sonidos y, por otro, lostimbres fueron estudiados mediante tecnicas de procesamiento de senales y el modelado dela periferia auditiva. Uno de los experimentos fue realizado utilizando sonidos de amplitudmodulada sinusoidalmente como estımulos y llevado a cabo masivamente a traves de In-ternet, mientras que para el otro experimento, se utilizaron multifonicos del saxo alto enun ambiente controlado. Estas dos familias de sonidos poseen modulaciones como atributotemporal caracterıstico a diferencia de los que son utilizados en muchos de los estudios depercepcion tımbrica donde la principal caracterıstica temporal es el tiempo de ataque.
Los experimentos demostraron que la modulacion temporal fue un atributo salientejunto con el centroide espectral para ambos conjuntos de sonidos. Ademas, se observo quesonidos que se encontraban agrupados en un espacio de parametros de control se encontra-ban agrupados tambien, en la mayor parte de los casos, en los correspondientes espaciosperceptuales. En cambio, las distancias entre los grupos en estos espacios se vieron modi-ficadas.
Por otra parte, los sonidos fueron analizados en base al procesamiento de sus senalesy mediante simulaciones de la periferia auditiva. Para esto se desarrollo un modelo dela periferia auditiva con enfasis en la mecanica coclear, donde se opto por un modelodinamico no lineal y con alimentacion lateral. Este modelo fue desarrollado teniendo enconsideracion la capacidad de reproducir los factores dominantes de la transduccion coclearcomo la saturacion en intensidad, el mecanismo activo de amplificacion y las curvas deenmascaramiento entre otros. Los parametros fueron ajustados de manera satisfactoriapara reproducir respuestas clasicas de experimentos psicoacusticos en humanos y datos deexperimentos fisiologicos in vivo en mamıferos.
Palabras Clave: psicoacustica, percepcion tımbrica, sistema auditivo, mecanica co-clear.
Studies of timbre perception of modulated sounds
through psychophysics experiments and auditory
periphery models
Abstract
Timbre perception is one of the most complex tasks the auditory system performs.Timbre, originally defined as the quality that allows the discrimination of musical instru-ments, it is nowadays more related to the ecological concept of the identification of soundsources in natural environments. Because of its inherently multidimensional character, therelationship between the sound wave and the perceived timbre is a complex matter, wheredifferent parts of the auditory systems are involved. Besides this limitations, it is knownthat there are certain temporal and spectral acoustic features that are fundamental to theperception of timbre. The most relevant are the attack time of the envelope as a temporalfeature and the brightness or spectral centroid as a spectral feature.
In this work we use two methodologies for studying timbre. Firstly, two psychophysicalexperiments of sound pairs comparison were done, and secondly the timbres were analyzedby signal processing techniques and through a model of the auditory periphery. One ofthe experiments was carried out using sinusoidally amplitude modulated sounds as stimuli,massively through internet and the other experiment was done using alto saxophone mul-tiphonics but in a controlled environment. These two families of sounds have modulationsas a characteristic temporal feature which is not present on many timbre studies, wherethe attack time is more common.
The experiments showed that the temporal modulation was a salient feature, alongwith the spectral centroid for both sound families. In addition, it was observed that soundsgrouped in a control parameter space were also grouped, in most cases, in the correspondingperceptual spaces. In contrast, it were the distances between the groups within these spacesthat changed.
Also the sounds were analysed by signal processing techniques and through auditoryperiphery simulations. To this end, we developed an auditory periphery model with emp-hasis on the cochlear mechanics, using a non linear dynamical model with feedforward andfeedbackward properties. This model was developed with the aim of reproducing dominantfactors of cochlear transduction, for example, the saturation with intensity, the active me-chanism of amplification and the masking curves among other capabilities. The parameterswhere successfully adjusted to reproduce typical human psychoacoustical experiments anddata from physiological in vivo mammals experiments.
Keywords: psychoacoustics, timbre perception, auditory system, cochlear mechanics.
Indice general
1. Introduccion 1
1.1. Definiciones del timbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1. Espacios tımbricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.2. Atributos acusticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2. Experimentos de percepcion tımbrica . . . . . . . . . . . . . . . . . . . . . 9
1.2.1. Identificacion de timbres . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2. Comparacion de timbres y espacios tımbricos . . . . . . . . . . . . . 11
1.3. Procesamiento del sonido en la periferia auditiva . . . . . . . . . . . . . . . 16
1.3.1. El oıdo interno y la descomposicion en frecuencias . . . . . . . . . . 16
1.3.2. Filtros auditivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4. Percepcion de tonos con modulacion . . . . . . . . . . . . . . . . . . . . . . 22
1.4.1. Tonos SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.4.2. Rugosidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2. Multifonicos del saxofon 33
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2. Analisis acustico de los multifonicos . . . . . . . . . . . . . . . . . . . . . . 41
2.2.1. Procedimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3. Experimento de comparacion de multifonicos . . . . . . . . . . . . . . . . . 48
2.3.1. Desarrollo experimental . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.3.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3. Tonos de amplitud modulada sinusoidalmente 55
3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2. Metodo experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4. Modelado de la periferia auditiva 71
4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.1.1. Oıdo externo y medio . . . . . . . . . . . . . . . . . . . . . . . . . . 72
ix
x Indice general
4.1.2. Oıdo interno y la coclea . . . . . . . . . . . . . . . . . . . . . . . . . 734.1.3. Mecanica coclear . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.2. Modelo de la coclea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 834.2.1. Sistema pasivo: osciladores con acoplamiento hidrodinamico . . . . 844.2.2. Sistema activo: alimentacion lateral . . . . . . . . . . . . . . . . . . 894.2.3. Oıdo medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 924.2.4. Celulas ciliadas internas y sinapsis . . . . . . . . . . . . . . . . . . . 92
4.3. Resultados numericos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 934.3.1. Coclea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 934.3.2. Celulas ciliadas internas y sinapsis . . . . . . . . . . . . . . . . . . . 99
4.4. Resultados con tonos modulados . . . . . . . . . . . . . . . . . . . . . . . . 1004.4.1. Modelo temporal de la rugosidad . . . . . . . . . . . . . . . . . . . . 1024.4.2. Espacios tımbricos de modulacion . . . . . . . . . . . . . . . . . . . 108
4.5. Resumen y discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5. Conclusiones generales 115
A. Apendices 119A.1. Escalamiento multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . 119A.2. Cocleograma de banco de filtros gammatones . . . . . . . . . . . . . . . . . 121A.3. Modelo espectral de rugosidad . . . . . . . . . . . . . . . . . . . . . . . . . 122A.4. Hidrodinamica de la coclea . . . . . . . . . . . . . . . . . . . . . . . . . . . 123A.5. Relacion de dispersion del sistema activo . . . . . . . . . . . . . . . . . . . . 126
Bibliografıa 131
Agradecimientos 145
Capıtulo 1
Introduccion
I think the definition of timbre by the
American Standards Association should
be this: “We do not know how to define
timbre, but it is not loudness and it is
not pitch.” Albert S. Bregman.
Esta tesis esta dedicada al estudio del timbre en sonidos con modulacion en amplitud.
El abordaje de este tema se realiza tanto desde el analisis de los parametros acusticos,
como de la realizacion de experimentos psicofısicos y el modelado de la respuesta de la
periferia auditiva. Teniendo en cuenta la variedad de enfoques a adoptar, este capıtulo esta
dedicado a introducir las herramientas que se utilizaran en cada uno de estos enfoques y
a revisar los antecedentes en la literatura en los campos de estudio respectivos. La intro-
duccion esta organizada de la siguiente manera: primero se establece el concepto de timbre
y las problematicas que subyacen al tratar de definirlo, luego, se exponen las diferentes
clases de experimentos psicofısicos que existen para estudiar el timbre y en particular los
metodos usados en este trabajo y finalmente se detallan las principales caracterısticas del
procesamiento del sonido en el sistema auditivo que influyen la percepcion tımbrica.
1
2 Capıtulo 1. Introduccion
1.1. Definiciones del timbre
El uso de la palabra timbre intenta identificar de una manera un tanto sencilla y vaga
a un conjunto complejo de fenomenos psicoacusticos y musicales. Una manera practica de
definir el timbre es diciendo lo que no es. En ese sentido, el timbre abarcarıa los parametros
de la percepcion que no estan dados por la altura musical, la intensidad sonora, la posicion
espacial, la duracion e incluso las caracterısticas del espacio como la reverberacion y otros
fenomenos. Esto se ve reflejado en la definicion dada por el American National Standards
Institute [56]: “El timbre es aquella caracterıstica del sentido auditivo por el cual un sujeto
puede evaluar dos sonidos con la misma nota y misma intensidad como distintos”.
Por otro lado, es difıcil tratar de definir el timbre por lo que sı es, dado que tiene un
caracter multidimensional. No es posible medir el timbre utilizando una sola dimension a
diferencia de lo que ocurre con otros atributos sonoros, como por ejemplo la altura musical
que permite ordenar los sonidos de mas graves a mas agudos en una escala.
Aunque historicamente se utilizo la palabra timbre para describir aquello que permite
distinguir los instrumentos musicales entre sı, actualmente entendemos que el timbre tie-
ne varias acepciones diferentes. Podemos empezar mencionando dos enfoques basicamente
distintos de definir el timbre [77]
1. El timbre hace referencia a un gran conjunto de atributos perceptuales, algunos que
pueden ser variados continuamente (por ejemplo el brillo, velocidad de ataque, armo-
nicidad, etc) y otros que son mas bien discretos o categoricos (p. ej. las consonantes
en el habla)
2. El timbre es la principal herramienta para el reconocimiento, identificacion y segui-
miento en el tiempo de las fuentes sonoras (por ejemplo lo que permite distinguir al
viento, un perro ladrando, un clarinete, etc.).
La primera definicion relaciona al timbre con un proceso de construccion en el cual el
sonido es analizado en base a su informacion acustica a traves de los atributos perceptuales
que son extraıdos por el sistema nervioso. Podemos pensar de manera idealizada que esta
definicion es la que rige en los ambientes controlados de la musica y de los laboratorios,
1.1. Definiciones del timbre 3
en los cuales el sonido se puede modificar de manera precisa para controlar el timbre. Las
tecnicas de sıntesis permiten cambiar el timbre del sonido de manera continua.
La segunda definicion, en cambio, concibe al timbre como aquella cualidad del sonido que
permite establecer las identidades de las fuentes sonoras en lo cotidiano y en los ambientes
naturales. Esto se asocia con la idea de que en la naturaleza, cada fuente sonora posee
restricciones acusticas que limitan la posibilidad de emitir ciertos sonidos. En contraposicion
a la primera definicion, en este caso se plantea una experiencia sensorial mas bien discreta
que permite la categorizacion directa de los sonidos y vincularlos con referencias externas
a el [35].
Ambas definiciones permiten generar categorıas de sonidos. Tomando como base la
primera, los sonidos pueden ser agrupados en categorıas a partir de los atributos que poseen.
Puede realizarse mediante un mecanismo de emparejamiento de los atributos perceptuales
de dos sonidos en busca de coincidencias y utilizando un nivel de umbral para determinar
si dos sonidos pertenecen o no a la misma categorıa [111]. En la segunda definicion las
categorıas estan dadas por el hecho de que la informacion sonora recibida implica que
existe una causa que genero el sonido. Este mecanismo se llama inferencia por causalidad,
y sugiere que hay un fuerte vınculo entre la representacion mental del evento sonoro y el
objeto que lo produjo.
Estas definiciones pueden relacionarse con dos tipos de escuchas. Schaeffer [103] acuno el
termino de escucha reducida para referirse a una escucha no referencial, librada de los
indicios de la fuente sonora. Luego, en la misma lınea de trabajo, Chion and Schaeffer [15]
establecieron como escucha causal a la accion de dar un significado a lo que se escucha.
Las dos definiciones corresponden a dos usos distintos del timbre. No obstante, am-
bas pueden ser aplicadas para estudiar una misma situacion sonora, resaltando diferentes
aspectos.
Tomemos el caso de un sintetizador electronico analogico. Este instrumento por un la-
do permite ejercer un control preciso y continuo de varias magnitudes, lo cual se asocia
al primer enfoque del timbre, mientras que al mismo tiempo posee un sonido caracterısti-
co asociado a su electronica y al sistemas de reproduccion, lo cual lo individualiza como
fuente sonora y esta mas asociado al segundo enfoque. Otro ejemplo posible seria el de un
4 Capıtulo 1. Introduccion
pequeno ensamble de instrumentos orquestales, donde las multiples fuentes pueden sonar
de forma simultanea y permiten generar un continuo de sonoridades complejas y obtener
cierta precision para el control del timbre, obteniendo un sonido resultante, que no permite
identificar cada fuente por separado. Por lo que en este caso, es util el primer enfoque del
timbre ya que el reconocimiento de las fuentes queda ofuscado. Estos ejemplos ilustran que
dependiendo de cada situacion sonora una definicion podra ser mas util o no que la otra.
Un punto de contacto entre las dos posturas puede establecerse en el marco de la
evolucion de los sistemas sensoriales. Uno de los objetivos de los sistemas sensoriales es
establecer representaciones coherentes de los objetos del mundo externo. Estos objetos
tienen propiedades fısicas inherentes y el sistema auditivo en particular se desarrollo bajo
la presion evolutiva de ser capaz de extraer estas propiedades. Para ilustrar este punto
podemos tomar como ejemplo a los sistemas acusticos fuente - filtro [48]. Numerosas fuentes
sonoras quedan bien descriptas por estos sistemas, como es el caso de la voz humana y la
gran mayorıa de los instrumentos musicales. En estos sistemas podemos identificar a la
fuente con la parte del instrumento que transforma la energıa suministrada en vibraciones
y al filtro como una caracterıstica morfologica del objeto que filtra a la fuente. El sistema
auditivo bien pudo desarrollarse con la ventaja evolutiva de que diferenciar la fuente del
filtro facilita en la mayor parte de los casos la identificacion de la fuente sonora. Esta
informacion debe ser extraıda mediante algun mecanismo en base a distintos atributos
acusticos para la fuente y el filtro. Esta vision es compatible con las dos definiciones de
timbre, es decir, la fuente sonora es identificable en base a una conexion entre el evento
sonoro y los atributos acusticos ligados a la naturaleza de aquel evento.
En el contexto del estudio de los instrumentos musicales tambien suele hablarse de los
sistemas fuente-filtro, donde a la fuente se la refiere como el excitador y al filtro como
el resonador. Esto permite generar las clasicas familias de instrumentos en base a como
estos son ejecutados y cuales son los elementos que resuenan. Es posible generar lo que se
llama un agrupamiento jerarquico [50], donde hay grupos generales y subgrupos 1. Esta
herramienta de agrupamiento jerarquico ha sido utilizada para el estudio de la relacion
entre el timbre y la causalidad del evento sonoro [24].
1un ejemplo de esto es la taxonomıa Hornbostel–Sachs[116] de los instrumentos musicales
1.1. Definiciones del timbre 5
En cierta manera podemos pensar en un continuo de definiciones del timbre. Hablar
del timbre en base a los atributos acusticos es similar a una descripcion de proximidad o
de cercanıa, en cambio hablar de la fuente sonora corresponde a una descripcion distante o
lejana [48]. Si observamos un sonido con lupa podremos desarmarlo en todas las variables
que lo componen, en cambio si lo vemos a la distancia podremos distinguir su identidad sin
poner atencion en los detalles.
Esta diferenciacion entre observar en detalle y globalmente ocurre con otras modalidades
sensoriales. Por ejemplo, se podrıa comparar al termino timbre con el termino apariencia,
el cual puede tener muchas acepciones segun el tipo de observacion y recae en la misma
problematica que el timbre. Podemos trazar un paralelismo entre el sentido de la audicion
y el de la vision, tomando la regla de que el color se corresponde a la nota musical y la
forma al timbre. Un piano y un violın tocando la misma nota podrıa compararse con un
cuadrado y un triangulo del mismo color. O en cambio, dos sonidos provenientes de un
mismo instrumento con diferentes notas pero timbres muy parecidos podrıan compararse
con dos cırculos (casi identicos) que tienen distinto color. [48]
Es evidente que hay ciertas cuestiones que pueden ser un poco arbitrarias a la hora de
marcar un paralelismo entre dos modalidades sensoriales. Dependiendo del conjunto de ob-
jetos con los que se cuente, se podra trazar uno u otros paralelismos mas o menos adecuados
en cada caso. Un caso interesante es el de ciertas palabras que se suelen usar para describir
atributos tımbricos pero que no necesariamente se corresponden con su origen. Por ejemplo
el brillo de un sonido suele referirse en la mayorıa de los casos a la presencia de frecuencias
altas, cuando desde el punto de vista de la luz, el brillo, esta mas relacionado a la inten-
sidad. Una posible explicacion para esta correspondencia puede darse si consideramos que
muchos instrumentos musicales suelen tener mas brillo cuando son tocados intensamente.
Existen muchas palabras que se aplican en las descripciones tımbricas, llamados atribu-
tos verbales [112]. En muchos casos se basa en utilizar escalas semanticas, brillante-opaco,
ordenado-caotico, natural-artificial, suave-rugoso [42], y en otros casos palabras aisladas,
metalico, profundo, filoso, etc [31].
A partir del siguiente ejemplo podemos ilustrar algunas de las diferentes apreciaciones
que se mencionaron sobre el timbre. En la figura 1.1 se muestra un conjunto de sonidos
6 Capıtulo 1. Introduccion
organizados de manera jerarquica en grupos y subgrupos. El conjunto de sonidos fue tomado
para ejemplificar ciertas relaciones, pero la manera de agruparlos no es unica. Dado que hay
que imaginarse como suenan estos sonidos, suponemos que los instrumentos musicales son
ejecutados de manera canonica 2 y para los sonidos que no son de instrumentos suponemos
que son ejemplos claros y reconocibles de lo que su nombre indica.
El primer nivel distingue sonidos armonicos que poseen altura musical de aquellos que
son impulsivos o ruidosos y no poseen una altura definida. El siguiente nivel distingue
sonidos por las familias de instrumentos orquestales tıpicas a las que pertenecen, las cuerdas,
los metales y los de percusion. El siguiente nivel agrupa sonidos en base a sus cualidades
espectrales promedio, donde por ejemplo dos violines aunque distintos objetos fısicos pueden
ser considerados similares con respecto a la organizacion de los armonicos y el ruido de la
lluvia se puede considerar que tiene un perfil espectral similar al del ruido rosa. Luego en
el siguiente nivel se considera a la fuente sonora como el delimitador, por lo que se puede
distinguir entre el timbre del violın A y del B.
Este diagrama de ejemplo busca mostrar de forma resumida que es posible generar
muchos distintos tipos de agrupaciones de sonidos mediante las diferentes definiciones del
timbre. Otra forma de generar estructuras de relaciones entre timbres es mediante los
denominados espacios tımbricos.
1.1.1. Espacios tımbricos
Los espacios tımbricos permiten representar un conjunto de sonidos mediante posicio-
nes, especificadas como coordenadas en dichos espacios. Pueden construirse asociando una
dimension para cada atributo acustico o perceptual u otros tipos de mapeo entre sonidos
y sistemas de coordenadas.
Por otra parte es posible generar espacios tımbricos mediante experimentos psicofısicos.
En este caso las dimensiones se obtienen de procesos cognitivos que pueden corresponder
o no con atributos acusticos o con combinaciones de ellos.
La construccion de estos espacios puede servir para el estudio del timbre desde el punto
2Para las cuerdas frotadas supondremos que son tocadas con arco y que todos los sonidos son ejecutadoscon una dinamica intermedia
1.1. Definiciones del timbre 7
Figura 1.1: Conjunto de sonidos organizados forma jerarquica. Nivel 1: distingue sonidoscon o sin altura musical, izquierda y derecha respectivamente. Nivel 2: sonidos que per-tenecen a una misma familia de instrumentos musicales. Nivel 3: sonidos con cualidadesespectrales similares. Nivel 4: sonidos provenientes de la misma fuente sonora.
de vista acustico solamente [53], para el estudio desde el punto de vista perceptual [78] o
para el uso de estos espacios como control musical [120].
Un desafıo que proponen los espacios tımbricos es suponer que existen dimensiones
continuas en las cuales el timbre puede representarse. Los atributos acusticos toman por
lo general valores continuos y es matematicamente posible pensar en una transicion entre
un timbre y otro. Al hablar de dimensiones perceptuales, el espacio de representacion
interno puede no ser suave y la percepcion puede ser categorica, a pesar de que exista una
representacion fısica continua [106]. Al mismo tiempo, en los espacios definidos por atributos
acusticos, es posible definir una distancia entre dos puntos, en este caso dos sonidos. En
cambio en un espacio perceptual la nocion de distancia puede no ser tan clara e incluso
muy dependiente del sujeto y el conjunto de sonidos.
8 Capıtulo 1. Introduccion
1.1.2. Atributos acusticos
Existen numerosos atributos acusticos que pueden extraerse de un sonido [123], muchos
de los cuales son relevantes para la percepcion tımbrica. Podemos agrupar estos atributos
relevantes en tres grupos, los puramente temporales, los puramente espectrales y los que
son espectrotemporales.
Los atributos temporales son aquellos que estan relacionados exclusivamente con la
envolvente temporal de la amplitud del sonido. Esta suele dividirse en cuatro segmentos,
el ataque, la transicion entre ataque y la parte estacionaria, la parte estacionaria y el
decaimiento final [46]. De estos el que mas influencia al timbre es el tiempo de duracion del
ataque, aunque ciertamente la forma exacta de la envolvente posee es parte del timbre.
Los atributos espectrales estan relacionados a las estadısticas de la magnitud del es-
pectro. El mas prominente es el valor medio del espectro (centroide espectral) dado que
permite una descripcion basica en la escala grave-agudo. El valor del centroide espectral
correlaciona con la sensacion de un sonido filoso o punzante (del ingles perceptual shar-
pness), que se calcula como el valor medio sobre el espectro pero ponderado dando mayor
peso a las frecuencias altas [30]. Luego existen varios otras medidas que han sido relevantes
en diferentes estudios como la suavidad de la envolvente espectral, tambien llamada irre-
gularidad espectral, que servirıa para cuantificar pozos en el espectro y permite distinguir
sonidos con todos los armonicos de aquellos con solo los impares como el caso del clarinete
[79].
Los atributos espectrotemporales estan dados por aquellas magnitudes del espectro que
varıan en el tiempo. Las magnitudes mencionadas en el parrafo anterior bien pueden variar
en el tiempo y generar caracterısticas tımbricas particulares. Una de las mas relevantes es
la del flujo espectral, que indica el flujo de energıa de una parte del espectro a otra en el
tiempo. En el caso de un sonido armonico, es posible medir las envolventes de amplitud de
cada armonico y sus frecuencias en funcion del tiempo y medir las variaciones en las tra-
yectorias. En muchos sonidos de instrumentos hay marcas tımbricas particulares dadas por
estas variaciones. Por ejemplo en los instrumentos de doble cana los armonicos individuales
comienzan de manera sincronica mientras que en los de la familia de los metales se ven
1.2. Experimentos de percepcion tımbrica 9
asincronıas, los armonicos graves comienzan primero y luego los mas agudos, lo que genera
un flujo espectral. Finalmente los sonidos impulsivos como el de un piano o una guitarra
suelen estar caracterizados por un ataque muy corto donde la mayorıa de los armonicos
comienzan juntos pero luego la energıa se traslada hacia los mas graves generando un flujo
en la otra direccion.
1.2. Experimentos de percepcion tımbrica
Existen numerosos experimentos sobre los distintos aspectos de la percepcion tımbri-
ca [77, 25, 47]. Muchos de estos experimentos estan orientados a identificar los atributos
acusticos que le otorgan a un sonido su timbre caracterıstico. Sin embargo la mayor parte
de ellos se han centrado de forma exclusiva en la tımbrica de los instrumentos musicales
occidentales.
En esta seccion nos referiremos a dos grandes clases de experimentos. La primera de ellas
esta orientada a la identificacion de sonidos modificados. En estos experimentos se editan
ciertos atributos de forma selectiva y se evalua si los sujetos mantienen un nivel similar
de identificacion comparado con los sonidos originales. En la segunda clase se encuentran
los experimentos en los que los sujetos juzgan la similitud de pares de sonidos en base a
sus caracterısticas tımbricas para luego construir espacios tımbricos a partir de tecnicas de
escalamiento multidimensional.
1.2.1. Identificacion de timbres
Una de las primeras preguntas planteadas acerca del timbre de instrumentos musicales
estuvo orientada a dilucidar si era el ataque de un sonido o su parte estacionaria lo que
mas influıa en su identificacion. El trabajo de Hajda [45] fue realizado con sonidos de
doce instrumentos impulsivos o continuos (en stacatto y sostenidos) en su version original,
editados para incluir solo el ataque o la parte estacionaria, e invertidos temporalmente.
Los participantes, luego de escuchar todos los fragmentos, realizaban una eleccion forzada
entre distintas alternativas para identificar el instrumento correspondiente a cada uno de
los fragmentos.
10 Capıtulo 1. Introduccion
Los sonidos en su version original fueron identificados correctamente el 93% de las
veces. En el caso de los sonidos continuos sostenidos, para las condiciones en las que se
removio el ataque se observo un nivel de identificacion mayor que para aquellas en las cuales
se removio la parte sostenida y dicho nivel fue similar que el observado para los sonidos
originales. En cambio, los sonidos continuos en staccato fueron mejor identificados para la
condicion de solo ataque (fijo en 80 ms) que para la condicion de solo estacionario. Los
sonidos impulsivos no fueron identificados en reversa mientras que si lo fueron los sonidos
continuos. Este trabajo concluyo que la discusion sobre el ataque o la parte sostenida no
puede aplicarse de manera clara a los sonidos impulsivos ya que no pueden ser particionados
de una manera precisa por no tener un parte estacionaria. Finalmente para los sonidos
continuos sostenidos la parte estacionaria fue suficiente para la identificacion y los indicios
estarıan en las relaciones de las trayectorias del centroide espectral y la envolvente de
amplitud.
En los trabajos de Charbonneau [11], Grey and Moorer [40] y McAdams et al. [79]
en lugar de estudiar la identificacion de la fuente de los sonidos, se estudio la discrimina-
cion entre sonidos originales y sonidos con caracterısticas espectrotemporales simplificadas
mediante metodos de sıntesis y resıntesis. En particular en el trabajo de McAdams et al.
[79] se encontro que solo ciertas simplificaciones del espectro daban como resultado una
mayor discriminacion entre el sonido original y el modificado. Si bien estas modificaciones
variaban para cada instrumento aquellas que produjeron mayor discriminacion fueron tan-
to las que simplificaban la envolvente del espectro (haciendolo mas regular), como las que
simplificaban la envolvente de amplitud de los armonicos, reduciendo el flujo espectral.
Con una perspectiva similar, pero utilizando sonidos no musicales, en el trabajo de
Geffen et al. [33], se estudiaron que parametros espectrotemporales eran los que permi-
ten identificar el sonido del agua en movimiento. Luego de analizar y modificar diversos
parametros espectrotemporales los autores concluyeron que la caracterıstica fundamental
del sonido del agua fluyendo (en terminos de su identificacion) la constituıa la invariancia
de escala temporal. Esto es, aquellas caracterısticas que no se modifican al reproducir el
sonido a diferentes velocidades y permiten que siga siendo identificado. Mientras que si esa
invariancia temporal era perturbada los sonidos eran percibidos como poco realistas.
1.2. Experimentos de percepcion tımbrica 11
1.2.2. Comparacion de timbres y espacios tımbricos
La otra clase de experimentos que describiremos es la de comparaciones de pares y,
posee un interes espacial, ya que sera la utilizada para los dos experimentos de la presente
tesis.
Este tipo de experimentos se basa en las relaciones entre timbres, a diferencia de los
anteriores que eran sobre la identificacion. Para esto, los sujetos deben juzgar las disimili-
tudes entre dos sonidos a partir de una escala que suele tomar valores entre timbres muy
similares y timbres muy disımiles. Estas disimilitudes se pueden pensar como las distancias
entre sonidos en el espacio perceptual donde se representan los timbres, que a priori puede
ser un espacio de muchas dimensiones. Para poder simplificar el analisis se utiliza la tecnica
de escalamiento multidimensional (MDS de sus siglas en ingles, ver apendice A.1), que per-
mite generar un espacio de baja dimensionalidad que puede ponerse en correspondencia con
el espacio tımbrico perceptual. De esta manera es posible representar el grupo de sonidos
mediante una configuracion geometrica sencilla.
En la figura 1.2 se representa el proceso de este tipo de experimentos. Primero se
constituye un conjunto de sonidos con el cual se quieren estudiar las relaciones tımbricas
de sus elementos. Usualmente el usuario escucha al comienzo todos los sonidos del conjunto
para poder calibrar cuales son las maximas o mınimas distancias entre los sonidos. Luego
todos los pares posibles de sonidos son presentados y se asigna un valor de similitud. Estos
valores suelen ser tomados de una escala que va desde un extremo que dice diferentes a otro
que dice iguales (u otras palabra afines). Luego esta informacion se transforma mediante
el escalamiento multidimensional en una configuracion geometrica de 1, 2 o 3 dimensiones
donde se pueden estudiar las relaciones y distancias entre sonidos de manera visual. Esta
tecnica por sı sola no identifica la naturaleza fısica de estas dimensiones y es trabajo del
que realiza el experimento interpretar la relacion entre las dimensiones perceptuales y los
atributos acusticos de los sonidos.
Mediante esta tecnica se han realizado trabajos con sonidos sintetizados [81, 91, 102, 8],
resintetizados o simulaciones de instrumentos [40, 66, 78, 120], grabaciones de instrumentos
[58, 71], grabaciones de dıadas de instrumentos [65, 109] y tambien sonidos ambientales [44].
12 Capıtulo 1. Introduccion
Figura 1.2: Diagrama de procedimiento de los experimentos de comparaciones de parescon analisis de escalamiento multidimensional. Adaptado de [77]
Para ejemplificar el metodo podemos ver en la figura 1.3 uno de los resultados del
trabajo de Samson et al. [102]. Se utilizaron como estımulos nueve sonidos sintetizados
a partir de un atributo espectral y temporal. En la dimension espectral se modifico la
cantidad de armonicos y en la temporal, el tiempo de ataque. Los resultados MDS muestran
un organizacion casi perfecta entre las dimensiones espectrales y temporales. En este caso,
como los sonidos fueron sintetizados en base a dos parametros, resulta razonable pensar
que basten dos dimensiones para generar el espacio tımbrico perceptual. Las comparaciones
fueron realizadas con pares de sonidos y fragmentos melodicos, tanto con intensidades
normalizadas como aleatorias, en ambos casos obtuvieron configuraciones MDS similares.
Otro experimento de comparacion de pares pero realizado con sonidos sintetizados de
instrumentos musicales es el de McAdams et al. [78]. El principal resultado de este trabajo
se muestra en la figura 1.4. En este caso se utilizaron sonidos sintetizados ya que ademas
se introdujeron sonoridades hıbridas como combinacion de dos instrumentos. En este caso
fueron necesarias tres dimensiones para generar un espacio tımbrico que representase las
respuestas por los participantes. Cada dimension de este espacio corresponde a un atributo
tımbrico que tiene un correlato acustico claro. La dimension 1 corresponde al tiempo de
1.2. Experimentos de percepcion tımbrica 13
Figura 1.3: Experimento de Samson et al. [102]. (a) Conjunto de sonidos utilizados enel experimento. Las letras S,M y L corresponden a tiempos de ataque cortos, medianos ylargos respectivamente y los numero indican la cantidad de armonicos. (b) ConfiguracionMDS
ataque, la dimension 2 al centroide espectral y la dimension 3 al flujo espectral.
Hasta este punto, los atributos que hemos mencionado y que cumplen un rol relevan-
te en la percepcion tımbrica han sido estudiados en su gran mayorıa en el contexto de
las sonoridades de los instrumentos musicales. Sin embrago, existen otros trabajos que se
adentran en el estudio de otras sonoridades. En el trabajo de Gygi et al. [44] se realizaron
comparaciones de pares sobre un conjunto de 100 sonidos ambientales, incluyendo sonidos
generados por humanos, de animales, de maquinas y texturales. En los resultados del MDS
de este experimento, exhibidos en la figura 1.5 puede observarse que los sonidos fueron
agrupados segun distintas cualidades, como por ejemplo, sonidos impulsivos o continuos,
sonidos armonicos o no y sonidos vocalizados o no. Aunque las dimensiones encontradas
por el MDS no parecen en principio corresponder a atributos acusticos unicos que muestren
una variacion continua, estas dimensiones pueden explicarse luego de un analisis posterior
mediante regresores de combinaciones de atributos. Mencionaremos solamente el resultado
que fue encontrado para la dimension 1. Este fue dado por una combinacion de tres atribu-
tos, uno relacionado a la saliencia de la altura tonal, otro relacionado negativamente a la
profundidad de modulacion y el tercero relacionado positivamente a la asimetrıa (skewness)
del espectro. De esta forma, un desplazamiento a lo largo de la dimension 1 corresponderıa
14 Capıtulo 1. Introduccion
Figura 1.4: Configuracion MDS 3D para el experimento de McAdams et al. [78]. hrn:corno frances. tpt: trompeta. tbn: trombon. hrp: harp. tpr: trumpar (trompeta/guitarra).ols: obolesta (oboe/celesta). vbs: vibrafono. sno: striano (cuerda frotada/piano).hcd: cla-vicordio. ehn: corno ingles. bsn: fagot. cnt: clarinete. vbn: vibrone (vibrafono/trombone).obc: obochord (oboe/clavicordio). gtr: guitarra. stg: cuerda frotada. pno: piano. gnt guitarnet(guitarra/clarinete)
1.2. Experimentos de percepcion tımbrica 15
Figura 1.5: Configuracion MDS 3D del experimento de Gygi et al. [44]. Los sonidosresultaron agrupados en grande categorıas. En la figura de la izquierda (dimensiones 1 y2): sonidos armonicos, sonidos de impacto discretos y sonidos continuos. En el panel de laderecha (dimensiones 1 y 3): vocalizaciones y no vocalizaciones
a una transicion entre sonidos con modulacion o repetitivos, sin un tono, hasta sonidos
tonales, continuos, con mayor energıa en los graves.
Existe una gran variedad de sonoridades que todavıa no han sido estudiadas lo suficiente
con experimentos psicofısicos de percepcion tımbrica, incluso sonoridades relevantes en la
musica como las de instrumentos electronicos y las dadas por las tecnicas extendidas de
los instrumentos. Entre los pocos trabajos podemos destacar el estudio de sonoridades
texturales de la musica electroacustica y contemporanea [41] y el estudio de nuestro grupo
sobre los multifonicos del saxofon [97].
En la presente tesis se estudiaron las caracterısticas tımbricas de dos grupos de sonidos.
Por un lado los multifonicos del saxofon con sonoridades muy complejas y por otro lado
sonidos menos complejos como los tonos modulados en amplitud sinusoidalmente. Estos
dos grupos de sonidos tienen ciertos atributos perceptuales en comun que se originan en
las modulaciones de amplitud.
Para profundizar en la percepcion de la modulacion, debemos introducir ciertas funcio-
nes del procesamiento que ocurren en la periferia auditiva.
16 Capıtulo 1. Introduccion
1.3. Procesamiento del sonido en la periferia auditiva
En esta seccion describiremos, de forma resumida, el procesamiento basico de las senales
que ingresan a la periferia auditiva 3. Este procesamiento es la primera etapa dentro de la
ruta auditiva que termina, en etapas ulteriores, en la percepcion del sonido. La periferia
ha sido estudiada con mucho detalle ya que en esta instancia se ponen de manifiesto mu-
chos fenomenos que tienen correlatos perceptuales, como el enmascaramiento o los tonos
diferenciales.
1.3.1. El oıdo interno y la descomposicion en frecuencias
El sonido que se propaga por el aire ingresa al sistema auditivo periferico a traves del
canal auditivo donde es transformado en vibraciones por la membrana timpanica. Estas
vibraciones son propagadas por la cadena de huesecillos del oıdo medio para ser suminis-
tradas al oıdo interno formado principalmente por el organo de la coclea. Dentro de este
organo se encuentra la membrana basilar que se extiende sobre toda la coclea separandola
en dos camaras llenas de fluido. Esta membrana mide aproximadamente 35 mm en huma-
nos y sus propiedades mecanicas varıan gradualmente a lo largo de su extension, lo que
permite que las vibraciones que ingresan en la coclea se propaguen sobre ella formando una
onda viajera. Las frecuencias bajas producen vibraciones maximas cerca del final o apex
de la coclea y las frecuencias altas producen vibraciones maximas cerca del comienzo o la
base. Esto genera una de las caracterısticas mas importantes del procesamiento que ocurre
en la periferia auditiva, la descomposicion en frecuencias de la senal. Se puede pensar a la
membrana basilar como un analizador espectral o un banco de filtros, separando sonidos
complejos en sus componentes en frecuencias. El hecho de que las frecuencias se segregan
espacialmente se conoce como tonotopıa [90].
Sobre la membrana basilar, a lo largo de toda su extension, se encuentra el organo de
Corti. Este organo contiene a las celulas ciliadas externas e internas, que se encargan de am-
plificar las vibraciones de la membrana y traducirlas a eventos sinapticos respectivamente.
3En la seccion 4.1.2 se expone con mas detalle los mecanismos fisiologicos que intervienen en el procesa-miento de sonido
1.3. Procesamiento del sonido en la periferia auditiva 17
Poseemos aproximadamente 3000 celulas ciliadas internas y cada una esta conectada con
una decena de fibras auditivas que llevan la senal en forma de disparos neuronales hacia el
nucleo coclear, el primer relevo en la vıa auditiva dentro del sistema nervioso.
Desde el punto de vista del procesamiento de las senales podemos mencionar los siguien-
tes fenomenos que ocurren cuando el sonido ingresa al oıdo. Al comienzo la senal es filtrada
por el canal auditivo y el oıdo medio con una respuesta pasa banda ancha que realza las
senales en las frecuencias centrales (1 a 3 kHz) y atenua los sonidos por debajo de 20 Hz y
por encima de 20 kHz. Una vez dentro de la coclea, la senal es amplificada y comprimida
por un proceso activo en las celulas ciliadas externas. La amplificacion puede alcanzar ga-
nancias de 60 dB para sonidos tenues, y es nula para sonidos intensos, por lo tanto genera
una compresion y transforma un rango de estımulos de 120 dB en aproximadamente 30
dB de rango de respuestas. Esto permite percibir 7 ordenes de magnitud en variaciones de
presion, desde 2x10−5 pascales en el lımite de la audicion a 1 kHz (0 dB SPL), hasta mas de
100 pascales (134 dB SP) cruzando el umbral del dolor. Luego las senales son rectificadas y
filtradas (pasa bajos con corte en aproximadamente 3 kHz) por el proceso de transduccion
de las celulas ciliadas internas. El destino final de la senal dentro de la celula es generar
eventos sinapticos para estimular la fibra auditiva.
El conjunto de disparos neuronales que salen de la coclea posee toda la informacion
necesaria para la escucha, pero codificada. Por un lado, la organizacion tonotopica, es
preservada en las fibras auditivas y en gran parte de la ruta auditiva, incluyendo la corteza
[90]. Por otro lado, las fibras auditivas tienen la capacidad de disparar de forma enganchada
con la fase de las vibraciones de la membrana (del ingles phase-locking), lo que permite que
se codifique la estructura fina de la forma de onda. Por lo tanto los principales mecanismos
de codificacion utilizados por la fibra son la codificacion temporal y la tonotopica [84].
1.3.2. Filtros auditivos
El accionar de la coclea y de la membrana basilar se puede modelar por un banco de
filtros pasa bandas, llamados filtros auditivos. Estos filtros deberıan conectarse en serie o
cascada [73], para mantener una interpretacion acorde con los datos de la fisiologıa, pero
tambien es habitual conectarlos en paralelo con el estımulo. Muchos fenomenos perceptuales
18 Capıtulo 1. Introduccion
estan relacionados con la forma, solapamiento y ordenamiento de los filtros auditivos, como
por ejemplo el enmascaramiento y la posibilidad de resolver o separar las componentes
sinusoidales en un sonido complejo. Para ejemplificar esto observemos el diagrama de la
figura 1.6. Allı se muestra como un sonido armonico formado de muchas componentes
atraviesa el banco de filtros. A partir de la salida de cada filtro, computando el valor
cuadratico medio, se puede construir el denominado patron de excitacion. Este patron
permite observar como las diferentes componentes de un sonido pueden estar resueltas
o no y por ende la posibilidad de ser percibidas individualmente. Al mismo tiempo las
vibraciones de cada seccion de la membrana basilar representan la salida de los filtros. Es
necesario aclarar que nos referiremos a la salida de los filtros como canales auditivos, en el
sentido de canales de comunicacion, y no debe se confundido con el canal auditivo del oıdo
externo.
El ancho de banda efectivo de los filtros auditivos se denomina banda crıtica y permite
establecer que tan separados tienen que estar dos tonos sinusoidales para que no se enmas-
caren o interactuen. Es posible medir experimentalmente la banda crıtica y caracterizar los
filtros auditivos. Por mucho tempo se utilizo una formula para la banda crıtica en base a
la definicion de Zwicker [32, 30], pero actualmente se suele utilizar el denominado ancho de
banda equivalente rectangular (ERB del ingles equivalent rectangular bandwidth) de Moore
and Glasberg [83]. La siguiente expresion relaciona el ancho de banda ERB y la frecuencia
central f en Hz:
ERB(f) = 24,7 + 0,108f (1.1)
Esta definicion de los anchos de banda se suele usar en conjunto con la escala ERBN
(numero de ERBs) en la cual un ERBN representa aproximadamente 0.85 mm de la mem-
brana basilar [83] y cuya expresion esta dada por:
ERBn(f) = 21,4 log10(0,00437f + 1) (1.2)
Estas expresiones fueron construidas a partir del ajuste de experimentos psicofısicos de
enmascaramiento con un tipo de filtros en particular, propuestos para representar los filtros
1.3. Procesamiento del sonido en la periferia auditiva 19
Figura 1.6: Diagrama del banco de filtros auditivo. Un sonido con una serie de armonicosde igual amplitud pasa por el banco de filtros para generar un patron de excitacion. La senalde salida de cada filtro simboliza el movimiento de la membrana basilar
Figura 1.7: Forma de los filtros auditivos ROEX y su variacion con la intensidad. Adap-tado de Moore and Glasberg [83]
20 Capıtulo 1. Introduccion
auditivos (figura 1.7). Estos filtros se basan en una funcion exponencial redondeada en la
punta, (ROEX del ingles rounded exponential)[89]. Como puede observarse en la figura,
los filtros auditivos cambian su forma con la intensidad debido al procesamiento no lineal
de la coclea. Perceptualmente esto significa que a medida que se incrementa el volumen se
modifican las regiones del espectro enmascaradas, sobre todo la parte de altas frecuencias.
Mediante un banco de filtros ROEX se pueden generar los patrones de excitacion como
el de la figura 1.6 [83]. Estos patrones son solo una representacion estatica del sonido. Dado
que los filtros ROEX no poseen una respuesta impulso bien definida [57], no pueden usarse
para generar una respuesta dinamica de la coclea. Para suplir este problema, es necesario
utilizar otros filtros como pueden ser los gammatones [88], que tienen una respuesta impulso
sencilla dada por un tono sinusoidal con una funcion gamma como envolvente. Sin embargo,
estos filtros son lineales y no pueden usarse para ajustar los cambios con la intensidad.
Los filtros gammatones suelen usarse en conjunto con la ERB para construir una repre-
sentacion de tiempo-frecuencia llamada cocleograma (ver el Apendice A.2 para una descrip-
cion completa). En la figura 1.8 se muestra un ejemplo de cocleograma compuesto de 500
filtros para una senal armonica. El eje vertical esta en la escala ERBN . Aunque el banco
de filtros es alimentado en paralelo, se puede apreciar que los primeros filtros activados son
los de las frecuencias altas, simulando una onda viajera que se propaga desde los agudos
hacia los graves. En el panel de la derecha se puede ver el valor cuadratico medio (RMS)
de cada filtro, que equivaldrıa al patron de excitacion.
El uso de los filtros gammatone para realizar cocleogramas es muy util y se ha extendido
mucho [7], sin embargo como se menciono no incluye las no linealidades presentes en el
procesamiento que tiene lugar en la coclea. Para suplir esta falta se han desarrollado otros
esquemas no lineales de procesamiento, entre otros el gammachirp de Irino and Patterson
[57], el dual resonance nonlinear (DRNL) de Meddis et al. [80] y el multiple band-pass non
linearity (MBPNL) de Goldstein [38].
1.3. Procesamiento del sonido en la periferia auditiva 21
−101
0 2 4 6 8 10 12 14Tiempo (ms)
5
10
15
20
25
30
35
40
ERBn
0.0 0.1Potencia RMS
Figura 1.8: Cocleograma gammatone de un tono armonico. Panel superior: forma de ondadel tono. Panel central: cocleograma gammatone. Panel derecho: patron de excitacion
22 Capıtulo 1. Introduccion
1.4. Percepcion de tonos con modulacion
En acustica, cuando se habla de modulacion, generalmente se refiere a la modificacion
o variacion en el tiempo de algun parametro de una senal base o portadora, con el requeri-
miento que la frecuencia caracterıstica de la senal que modula sea menor que la frecuencia
caracterıstica de la senal portadora. Los tipos mas comunes de modulacion son: la mo-
dulacion en amplitud (AM), la modulacion en frecuencia (FM) y la modulacion en fase
(PM).
Esta clase de estımulos pueden considerarse los tonos mas sencillos que evocan una
sensacion de timbre mas compleja que la de un tono puro. Por otro lado presentan la ventaja
de poder controlar sus caracterısticas mediante la variacion de un numero muy pequeno
de parametros (la frecuencia portadora, la frecuencia de modulacion y la profundidad de
modulacion) y finalmente se acercan a los sonidos reales por el hecho de posee mas de una
escala temporal asociada (la que corresponde a su portadora o la estructura fina y la que
corresponde a la envolvente o a la magnitud modulada).
Esto se debe, en principio a lo que se menciono anteriormente: esta clase de estımulos
presenta caracterısticas en comun con sonidos relevantes ecologicamente, es decir poseer
mas de una escala temporal. En el caso especifico de una sinusoide modulada en amplitud,
si la escala temporal de la envolvente esta en el orden de las decimas de segundo esta clase
de estimulo se acerca a una version simplificada del habla humana donde la frecuencia
portadora esta en el rango audible y la de modulacion en el rango temporal en el que
ocurren los fonemas [14].
Otro factor que contribuye a la relevancia perceptual de los sonidos con modulacion
es el hecho de que la segregacion de sonidos concurrentes se facilita si los mismos poseen
modulacion ya que el sistema auditivo es capaz de utilizar la informacion de coherencia de
modulacion de las distintas componentes provenientes de una fuente [76].
Finalmente, para el caso de sonidos AM hay evidencia de que el sistema auditivo procesa
la envolvente temporal de los sonidos de forma selectiva en las frecuencias de modulacion
[61]. Este procesamiento tiene lugar en la ruta auditiva a partir de que la informacion ingresa
de la periferia auditiva (vıa las fibras del nervio auditivo) a los primeros nucleos neuronales
1.4. Percepcion de tonos con modulacion 23
del tronco cerebral (en particular nucleo coclear y colıculo inferior [60]). En particular
existe evidencia de que existen poblaciones de neuronas sintonizadas de forma selectiva a
diferentes frecuencias de modulacion de la envolvente y que se encuentran organizadas de
forma complementaria a la organizacion tonotopica (vinculada a la estructura fina), en lo
que se conoce como la organizacion periodotopica (en el colıculo inferior [72])
Con respecto a la periferia, ya sea para tonos AM como FM con modulacion sinusoidal,
la percepcion de modulacion da lugar a los siguientes tres fenomenos perceptuales: fluctua-
ciones, rugosidad, separacion de componentes. Cuando la frecuencia de modulacion es muy
baja el sistema nervioso es capaz de seguir las modulaciones y de percibirlas como cambios
a lo largo del tiempo como fluctuaciones. En el caso de AM se percibe una fluctuacion en
la intensidad del sonido y en el caso de FM se perciben las variaciones en la frecuencia. A
medida que la frecuencia de modulacion se incrementa el sistema nervioso no puede seguir
con tanta facilidad las modulaciones y se empieza a percibir un valor promediado de la
magnitud. En el caso de FM se empieza a escuchar primero una frecuencia promedio y
luego tambien un percepto de rugosidad. Para el caso de AM ya no se perciben fluctua-
ciones en la intensidad y esta toma un valor promedio y tambien se agrega el percepto de
rugosidad. A medida que la frecuencia de modulacion se sigue incrementando el percepto
de rugosidad disminuye y se empieza a escuchar un sonido estatico compuesto de varias
componentes sinusoidales separadas.
El origen de estos fenomenos esta relacionado con la banda crıtica. Para ejemplificar
esto consideremos un sonido con dos tonos sinusoidales:
sin(2πf1t) + sin(2πf2t)
Si las frecuencias f1 y f2 son lo suficientemente parecidas entonces los dos tonos interfe-
riran en un mismo filtro auditivo provocando batidos. Es posible expresar la suma de dos
funciones seno como el producto de una funcion seno y una funcion coseno:
2 cos(2πf2 − f1
2t)sin(2π
f1 + f22
t)
24 Capıtulo 1. Introduccion
ERBn
4 6 8 10 12 14 16 18
f m
10356085110135160
Excitación
(dB)
0102030405060
Figura 1.9: Patron de excitacion de un tono con batidos en funcion de la separacion enfrecuencias fm. En rojo se indican los patrones hasta que la separacion es igual a la bandacrıtica en ERB
Para poder expresar esta formula como el resultado de una modulacion en amplitud hay
que hacer la siguiente simplificacion:
2 |cos(2π(f2 − f1)t)| sin(2πf1 + f2
2t) (1.3)
Esto muestra que la frecuencia de modulacion a la cual se perciben los batidos es
fm = f2 − f14. A medida que se incrementa la distancia entre las dos frecuencias f1 y
f2, la frecuencia de modulacion se hace mas grande y el sistema nervioso no puede seguir
los cambios en la amplitud y se empieza a producir el percepto de rugosidad, una vez que
las frecuencias estan separadas mas alla de la banda crıtica, los tonos pueden ser resueltos
individualmente y no interfieren entre sı. En la figura 1.9 se muestran los patrones de
excitacion a medida que las dos componentes se separan. En rojo se muestran los patrones
hasta que la frecuencia de modulacion fm es igual a la ERB, que para una frecuencia central
de 500 Hz es fm ≈ 80 Hz.
4Esta simplificacion es perceptualmente equivalente a la original solo para frecuencias de modulacionbajas. Cuando la frecuencia de modulacion empieza a crecer se pueden oır discrepancias.
1.4. Percepcion de tonos con modulacion 25
0 50 100 150 200Tiempo (ms)
−2.0−1.5−1.0−0.5
0.00.51.01.52.0
Ampl
itud
A
400 450 500 550 600Frecuencias (hz)
0.00.20.40.60.81.0
Ampl
itud
B
Figura 1.10: (A) Tono SAM para un indice de modulacion de 1, una frecuencia portadorade 500 Hz y una moduladora de 20 Hz. (B) Espectro del tono SAM
1.4.1. Tonos SAM
A continuacion vamos a estudiar con mas detalle los tonos de amplitud modulada sinu-
soidalmente, llamados tonos SAM (del ingles sinusoidally amplitud modulated). Estos tonos
a pesar de tener una formulacion muy sencilla, permiten evocar una variedad de perceptos
modificando solo dos parametros. Estos tonos seran utilizados en uno de los experimentos de
percepcion tımbrica del presente trabajo (capıtulo 3). Su expresion matematica esta dada
por:
SAM = (1 +m sin(2πfmt)) sin(2πfct)
Donde m es el ındice de modulacion (0 ≤ m ≤ 1), fc es la frecuencia portadora (c del
ingles carrier) y fm la frecuencia de modulacion (fm << fc). La ecuacion puede expandirse
y descomponerse en la suma de tres sinusoides:
SAM =m
2sin(2π(fc − fm)t) + sin(2πfct) +
m
2sin(2π(fc + fm)t)
por lo que el espectro de un tono SAM esta dado por una componente central con frecuencia
fc y dos componentes laterales con amplitud m/2 en las frecuencias fc ± fm (figura 1.10)
Los tonos SAM pueden generar sensaciones similares a las comentadas para el caso de
tonos modulados en general [60]. En la figura 1.11 se pueden ver las diferentes regiones y
26 Capıtulo 1. Introduccion
Figura 1.11: Espacio de perceptos generados por los tonos SAM adaptado de Joris et al.[60]. La curva roja representa la banda crıtica en ERBs, y la curva azul un intervalo musicalde un tono.
las sensaciones que son evocadas para los parametros de fc y fm. Nuevamente encontramos
el percepto de fluctuacion, de rugosidad, y de separacion de componentes y tambien una
region dada por la percepcion de altura tonal a partir del fenomeno de la fundamental
ausente o altura virtual [84].
En el extremo de frecuencias de modulacion bajas, el percepto de fluctuaciones se pue-
de explicar mediante un proceso temporal practicamente independiente de la frecuencia
portadora. En el otro extremo el percepto de separacion de componentes esta mas relacio-
nada a la banda crıtica y la tonotopıa. Luego, el percepto de rugosidad, actua como una
transicion de un fenomeno temporal hacia uno espectral. En la figura 1.12, se muestran
esta transicion con los patrones de excitacion a medida que la frecuencia de modulacion se
incrementa. El cambio de color indica aproximadamente el punto de corte (para fc = 500
Hz, fm ≈ 80 Hz) donde las componentes laterales del tono empiezan a separarse. Notese
que estas componentes son resueltas de manera asimetrica, la componente mas grave es
resuelta primero.
1.4. Percepcion de tonos con modulacion 27
ERBn
4 6 8 10 12 14 16 18
f m
020406080100120140160
Excitación
(dB)
0102030405060
Figura 1.12: Patrones de excitacion para tonos SAM en funcion de la frecuencia de mo-dulacion Fm. En rojo se indican los patrones hasta que la separacion es igual a la bandacrıtica en ERB
1.4.2. Rugosidad
El percepto de rugosidad, definido originalmente por Helmholtz [51] a partir de experi-
mentos con dos sinusoides, hoy en dıa se ha estudiado en relacion a la disonancia musical
[55, 104] y la tension en la musica occidental [94].
Existen numerosos experimentos que han medido la rugosidad para diferentes tipos de
sonidos. Para el caso de tonos sinusoidales, uno de los resultados mas conocidos es el dado
por el trabajo de Plomp and Levelt [92]. En la figura 1.13 se muestra una curva que indica
que la maxima disonancia o rugosidad ocurre cuando los dos tonos estan separados en un
25% de la banda crıtica.
A pesar de que este resultado es utilizado como una referencia, se pueden encontrar
trabajos que presentan una informacion diferente. En la figura 1.14 se pueden ver una
recopilacion de varios experimentos adaptado de Pressnitzer [93]. En azul se muestran los
resultados de experimentos que han medido la separacion mınima necesaria para que dos
tonos concurrentes no evoquen el percepto de rugosidad y en negro la separacion que evoca
el mayor nivel de rugosidad.. Los ajustes indican para el caso de mınima separacion y el
28 Capıtulo 1. Introduccion
Figura 1.13: Nivel de consonancia al escuchar dos tonos en funcion de la separacion enunidades de ancho de banda crıtica
caso de maxima rugosidad un 110% y 45% del ancho de la banda crıtica medido en ERB
respectivamente.
Como podemos notar hay una gran diferencia entre establecer que el maximo de rugo-
sidad ocurre para un 25% o para un 45% de la banda critica. Esta diferencias tan grande
puede entenderse parcialmente si consideramos que el trabajo de Plomp and Levelt [92],
mide la banda crıtica con la formula de Zwicker and Terhardt [127] y mientras que en el
de Pressnitzer [93] se utiliza la formula de ERB. Al mismo tiempo la informacion utilizada
para los ajustes en ambos casos proviene de experimentos muy antiguos. Actualmente se
han realizado pocos experimentos para revisar este fenomeno, pero podemos destacar el
trabajo de Miskiewicz et al. [82] en el cual observan que no hay una relacion constante
entre la fraccion de banda crıtica y la frecuencia central. Por ejemplo, se establece para
frecuencias bajas como 125 Hz, un porcentaje cercano al 60% y para frecuencias de 4000
Hz un porcentaje cercano al 25%.
Con respecto a los tonos SAM, tambien se ha medido experimentalmente como varıa
la rugosidad en funcion de la frecuencia de modulacion. En la figura 1.15 se muestran los
resultados para tonos SAM con m = 1 y varias frecuencias portadoras [30]. Es interesante
notar como el maximo se desplaza en funcion de la frecuencia portadora hasta que esta
llega a 1 kHz, y luego permanece en un valor fijo en la posicion de 70 Hz.
Existen varias tipos de modelos para calcular la rugosidad. Por un lado estan los modelos
espectrales (a partir de la idea original de Helmholtz) [104, 55, 113], que utilizan una
1.4. Percepcion de tonos con modulacion 29
Figura 1.14: En azul, la sepracion mas pequena sin rugosidad en funcion de la frecuenciapromedio: Plomp et Levelt (1965) + : Plomp et Steeneken (1968) : Mayer (1894) : Crosset Goodwin (1893) : Guthrie et Morril (1928) et Kaestner (1909). En negro, la separacioncon maxima rugosidad. : Plomp et Levelt (1965) + : Plomp et Steeneken (1968) : Kameokaet Kuryiagawa (1969a) : Cross et Goodwin (1893) : Guthrie et Morril (1928) et Kaestner(1909). Los ajustes corresponden para el caso azul a un 110% y para el negro a un 45% dela banda crıtica medida en ERB. Figura tomada de Pressnitzer [93]
Figura 1.15: Valores de rugosidad para tonos SAM en funcion de la frecuencia moduladorapara varias frecuencias portadoras. Los valores de rugosidad estan en unidades de asper quevalen 1 para la maxima rugosidad de un tono de 1 kHz. Tomado de Fastl and Zwicker [30]
30 Capıtulo 1. Introduccion
relacion como la que se muestra en la figura 1.13 para computar la rugosidad de cada par
de componentes de un espectro. Este tipo de modelo es detallado en el apendice A.3.
Por otro lado existen modelos temporales para calcular la rugosidad [17, 3]. Estos uti-
lizan un banco de filtros auditivos, para luego medir la rugosidad por cada canal. Esto es
realizado analizando la frecuencia de modulacion de la envolvente para cada canal auditivo.
Se ha mostrado que la medida de rugosidad es aditiva [110], por lo que la rugosidad total
se puede computar sumando la rugosidad presente a lo largo del eje tonotopico. En sonidos
con mas de dos componentes es necesario computar las rugosidades parciales entre todos
los pares de componentes. Para el caso de sonidos armonicos, si se superponen dos notas
formando un intervalo musical, el nivel de rugosidad equivalente al nivel de disonancia, y
se puede asociar una sensacion de relajacion para intervalos consonantes o de tension para
los disonantes [92].
Para el caso de los tonos SAM, si se elige una frecuencia de modulacion que genera
rugosidad, es posible establecer una relacion sencilla entre el valor de la rugosidad y la
profundidad de modulacion:
R = const×mp (1.4)
Donde R es el valor de la rugosidad y p toma valores entre 1 y 2 dependiendo de
que trabajos se tomen como referencia [17]. Para una senal arbitraria es posible medir
la profundidad de modulacion efectiva a partir del coeficiente de variacion (CV ) de su
envolvente:
mef =√2 CV =
√2σ
µ(1.5)
Con σ y µ la desviacion estandar y el valor medio de la envolvente respectivamente. Es
posible expresar esta relacion en terminos del valor cuadratico medio (amplitud RMS) de
la envolvente si consideramos que A2RMS = σ2 + µ2, por lo que la ecuacion queda:
mef =√2
√(ARMS
µ
)2
− 1 (1.6)
1.4. Percepcion de tonos con modulacion 31
Mediante estas ecuaciones es posible establecer la profundidad de modulacion efectiva
del tono con batidos de la ecuacion 1.3 y por lo tanto su rugosidad. El valor que se obtiene
para la profundidad de modulacion es mef = 0,68, lo cual esta en perfecto acuerdo con los
resultados experimentales que establecen que un tono SAM con valores de m entre 0.65 y
0.7 tiene la misma rugosidad que un tono con batidos[110].
Sin pretender agotar todos los aspectos que abarca el fenomeno del timbre de los sonidos
con modulacion, en este capitulo se introdujeron los conceptos basicos, el vocabulario y gran
parte de las herramientas que seran empleadas en esta tesis para el estudio de esta clase
de sonidos. En lo que sigue la exposicion del trabajo desarrollado especıficamente en esta
tesis parte de la percepcion tımbrica a alto nivel de sonidos complejos en el ambito musical,
para luego pasar al ambito mucho mas controlable de los sonidos SAM y finalmente realizar
una modelizacion del procesamiento que sufren esta ultima clase de sonidos en la periferia
auditiva.
32 Capıtulo 1. Introduccion
Capıtulo 2
Multifonicos del saxofon
...il qual ordine ricerca, prima, che le
percosse fatte dentro all’istesso tempo
siano commensurabili di numero, accio
che la cartilagine del timpano non
abbia a star in un perpetuo tormento...
Galileo Galilei.
Este capıtulo esta dedicado al estudio del timbre en los sonidos multifonicos del saxofon.
El origen de este estudio se debe al trabajo en colaboracion con el saxofonista y compositor
Martın Proscia, un especialista en la ejecucion y composicion con multifonicos en la musica
contemporanea. Esta colaboracion permitio expandir el tipo de sonoridades tıpicamente
utilizados por los estudios de percepcion tımbrica, generando nuevas perspectivas para el
estudio del timbre. En este capıtulo se presentan, primero, los resultados del analisis de
los multifonicos en base a sus atributos acusticos y, segundo, en base a un experimento de
comparacion de pares de sonidos.
2.1. Introduccion
Los estudios psicofısicos del timbre en la musica se han centrado mayormente en estudiar
los sonidos de instrumentos musicales de las orquestas occidentales. Los resultados de estos
33
34 Capıtulo 2. Multifonicos del saxofon
experimentos lograron identificar que las propiedades espectrotemporales de estos sonidos
pueden ser descriptas por un mismo espacio tımbrico de pocas dimensiones. Esto hace
referencia a que esto instrumentos tienen muchas propiedades en comun, como por ejemplo,
pueden ser representados por un sistema fuente-filtro.
El uso de nuevas tecnicas de ejecucion en la musica del siglo XX, las denominadas tecni-
cas extendidas, ha expandido el universo de sonoridades que los instrumentos occidentales
pueden alcanzar. Estos avances todavıa no han sido reflejados en los estudios psicofısicos
de percepcion tımbrica, quizas debido a su caracter de novedad, pero tambien debido a la
dificultad de sistematizacion de conjuntos de sonidos muy heterogeneos. En este contexto,
nos propusimos abordar el estudio de la percepcion tımbrica de los multifonicos del saxofon.
Suelen conocerse por multifonicos aquellos sonidos que poseen mas de una nota recono-
cible y que son producidos por un instrumento tıpicamente monofonico. Para su produccion
se requieren tecnicas distintas a las usadas convencionalmente, por lo que los multifonicos
caen dentro de la categorıa de sonidos generados mediante tecnicas extendidas. En el caso
de los instrumentos de viento de la familia de las maderas las tecnicas incluyen digitacio-
nes, embocaduras y disposiciones del tracto vocal especiales. Los multifonicos son en su
gran mayorıa sonidos inarmonicos, y por lo tanto la afinacion de cada altura no respeta
estrictamente las de una escala temperada. Las alturas en los sonidos multifonicos surgen al
formarse nuevas resonancias dentro del tubo del instrumento. Esto ocurre por el cambio de
la longitud efectiva del tubo, que se produce al utilizar una digitacion especial que combina
llaves abiertas y cerradas.
Para comprender mas en detalle como surgen las resonancias a partir de una digitacion
es necesario observar la impedancia acustica del instrumento. En la figura 2.1 se pueden
observar dos espectros de impedancias de un saxo soprano en Bb, medidas a la entrada
de la boquilla sin tener la cana puesta [12]. En la figura 2.1a se puede ver el espectro
para la nota B4 del saxo (A4 440 Hz), dada por el primer pico de resonancia junto con la
digitacion necesaria para lograr esa nota, mientras que en la figura 2.1b se puede observar el
espectro de la impedancia para una digitacion que produce un multifonico. En el multifonico
se introduce un nuevo pico de resonancia cerca de la nota del saxo D#5 (C# 554 Hz),
lo que permite generar un intervalo de tercera mayor. Para lograr un sonido estable es
2.1. Introduccion 35
(a) B4 (b) Multifonico B4 D#5
Figura 2.1: Impedancia acustica de un saxo soprano en Bb para dos digitacioenes: (a) unanota sola, (b) un multifonico. Las notas estan transpuestas. Adaptado de Chen et al. [12]
necesario sintonizar el tracto vocal y la embocadura de manera tal que los dos picos tengan
una impedancia resultante similar. En la figura 2.2 se pueden observar mediciones de la
impedancia del tracto vocal mientras se ejecuta un multifonico en un saxo tenor. En el
primer espectro se puede ver que el tracto vocal se ha sintonizado con los primeros picos
de resonancia mientras que en el segundo espectro lo hace con un pico mucho mas elevado
en frecuencia. La habilidad de manejar las resonancias del tracto vocal en un registro de
frecuencias amplio es un indicador de la experiencia del ejecutante segun el estudio de Chen
et al. [13]. Finalmente el ejecutante tambien puede modificar la embocadura y la presion
sobre la cana para generar cambios finos en la afinacion de las alturas y otras caracterısticas
tımbricas.
Debido a todos estos factores que afectan su produccion existe una gran cantidad de po-
sibles multifonicos con diferentes sonoridades. Sin embargo, hay ciertas propiedades fısicas
que son comunes a todos estos sonidos. Las frecuencias de las alturas del multifonico estan
sujetas a distorsion por intermodulacion debido a la saturacion en las oscilaciones de la
cana [5]. A medida que la presion de soplido es mas fuerte, ademas de subir la intensidad,
tambien aumenta el nivel de distorsion y se generan nuevas componentes en frecuencias
36 Capıtulo 2. Multifonicos del saxofon
Figura 2.2: Impedancia acustica de un saxo Tenor en Bb para una digitacion de unmultifonico, superpuesta con la impedancia del tracto vocal en dos configuraciones. Lospicos sobre la impedancia del tracto vocal indican las frecuencias mas prominentes en elsonido resultante. Adaptado de Chen et al. [12].
(productos de distorsion) que modifican sustancialmente el timbre del sonido mediante ba-
tidos y rugosidad1. Esta relacion entre la intensidad y el aumento de contenido armonico
es muy comun en la ejecucion de casi todos los instrumentos musicales. Sin embargo, en
el caso de los multifonicos, el cambio tımbrico es mucho mas notorio por la disonancia que
genera la distorsion y la rugosidad. Otra caracterıstica fısica de los multifonicos es que en
muchos casos el sistema acustico en cuestion puede comportarse de forma caotica, lo cual
puede agregar efectos similares al ruido [63].
Los fenomenos mencionados anteriormente muestran que tan solo agregando nuevas re-
sonancias al sistema pueden generarse cambios muy drasticos en el sonido resultante. Mas
aun, debido a que el control de la embocadura, presion y tracto vocal puede modificarse de
manera gradual, se genera un abanico continuo de sonidos multifonicos. De todas formas,
existe una cantidad limitada de multifonicos desde el punto de vista de las digitaciones, ya
que no son infinitas las combinaciones de llaves abiertas y cerrada y ademas no toda digi-
tacion genera un espectro de impedancias con picos lo suficientemente altos para producir
1Si la separacion en frecuencias de los productos de distorsion es menor que la banda crıtica.
2.1. Introduccion 37
un sonido estable. Existen varios libros y catalogos de multifonicos con las digitaciones y
las notas que producen [68, 117], sin embargo en esas referencias no se profundiza en las
cuestiones tımbricas de los sonidos.
En los ultimos anos ha habido un incremento en el estudio de los sonidos multifonicos, y
en particular los producidos por el saxofon [4] [95]. Estos estudios se han centrado principal-
mente en la produccion de estos sonidos y en las tecnicas instrumentales que conllevan, pero
no ha habido estudios exhaustivos sobre la percepcion tımbrica de estos sonidos. En nuestro
grupo de trabajo se realizo un estudio musicologico previo [95] sobre los multifonicos del
saxofon alto, donde se clasificaron estos sonidos en cuatro grandes clases. A partir de esta
investigacion y por lo mencionado sobre la falta del estudio tımbrico de estas sonoridades,
se llevo adelante el siguiente estudio.
En el trabajo musicologico previo, se estudio un gran conjunto de multifonicos a partir
de un enfoque tımbrico basado en la escucha reducida de Schaeffer [103]. Los resultados que
utilizaremos en este trabajo corresponden a los sonidos estacionarios de los multifonicos y
no se abordaran sus capacidades dinamicas. El estudio realizado permitio generar cuatro
clases de multifonicos caracterizando los sonidos en base a sus tecnicas interpretativas y los
atributos perceptuales, definidos por Schaeffer, como el grano interno, la cualidad de super-
ficie y la iteracion [15]. Las clases son los siguientes: Bicordios, Complejos, Multiarmonicos
y Tremolos. En la figura 2.3 podemos observar unos espectros de ejemplo para las cuatro
clases de multifonicos. En el contexto del presente trabajo describiremos los multifonicos
solo en base el intervalo musical, el nivel de distorsion y el rango dinamico de ejecucion2.
Bicordios. Estan caracterizados principalmente por tener dos notas fundamentales
formando un intervalo de tercera mayor, menor, o disminuida y un nivel de distorsion
medio o bajo y son ejecutados con dinamicas entre pp y mf (figura 2.3.a).
Complejos. Poseen un espectro muy inarmonico, con muchos productos de distorsion,
un alto nivel de rugosidad y son ejecutados con dinamicas entre mf y ff (figura
2.3.b).
Multiarmonicos. Cuentan con un espectro con dos componentes muy claras en inter-
2Para una descripcion mas completa sobre la ejecucion de estos sonidos referirse al trabajo [95].
38 Capıtulo 2. Multifonicos del saxofon
Figura 2.3: Cuatro espectros de tonos multifonicos del saxofon. (a) Bicordio, (b) Com-plejo, (c) Multiarmonico, (d) Tremolo. Con barras verticales se indican las frecuenciasfundamentales que caracterizan el intervalo musical y con una barra horizontal la distanciaen Hz entre bandas laterales, es decir la frecuencia de modulacion (Fm).
valos de septima y novena y muy pocas componentes en total, un nivel de distorsion
practicamente nulo y son ejecutados con dinamicas entre ppp y mp (figura 2.3.c).
Tremolos. Estan caracterizados principalmente por un intervalo de octava desafina-
da lo que genera batidos muy reconocibles, muchos productos de distorsion y son
ejecutados con dinamicas entre mp y f (figura 2.3.d).
En los espectros se puede observar una organizacion de las componentes muy similar
a la que se encuentra en tonos producidos por sıntesis FM. Es muy comun escuchar, con
este tipo de sıntesis, sonoridades inarmonicas similares a los multifonicos. Desde un punto
de vista simplificado se puede pensar que muchas de las caracterısticas de los multifonicos
pueden ejemplificarse mediante sıntesis por FM [39]. La separacion en frecuencia entre los
productos de distorsion (o bandas laterales) corresponde a la frecuencia de modulacion
2.1. Introduccion 39
Figura 2.4: Cuatro espectros de tonos multifonicos del saxofon con sus correspondientespatrones de excitacion. (a) Bicordio, (b) Complejo, (c) Multiarmonico, (d) Tremolo.
(fm) y las frecuencias fundamentales corresponden a las portadoras.
A continuacion, en la figura 2.4, se muestran los mismos multifonicos de ejemplo pero
con sus correspondientes patrones de excitacion (seccion 1.3.2 ). Estos patrones, al igual
que los espectros, solo permiten representar el sonido de forma estacionaria. Sin embargo, el
hecho de que a lo largo de todo el espectro se puede ver que las componentes caen dentro de
las mismas bandas crıticas, hace suponer que es necesaria una representacion dinamica del
sonido para estudiar los batidos, que justamente son la caracterıstica tımbrica mas saliente
de estos sonidos.
Para analizar las caracterısticas dinamicas se debe utilizar una representacion en tiempo
y frecuencia como pueden ser los bancos de filtros gammatones (A.2). En la figura 2.5
podemos observar el cocleograma para el primer multifonico (2.3.a). En el panel superior
de la figura se observa la forma de onda, la cual muestra una envolvente con modulaciones.
En el panel lateral se muestra el patron de excitacion. En el panel central se observa el
40 Capıtulo 2. Multifonicos del saxofon
cocleograma donde tambien se pueden ver presentes estas oscilaciones a lo largo de los
canales auditivos3. En la figura 2.6 se muestran la forma de onda de los canales auditivos
con mayor energıa, los picos del patron de excitacion. En este caso se puede ver como los
distintos canales auditivos tienen diferente comportamiento. En el canal del panel superior,
la forma de onda corresponde a la interaccion de las dos componentes que dan el intervalo
de 3ra (ver figura 2.4.a), mientras que en los otros paneles la forma de onda corresponde
a la interaccion entre cada vez mas armonicos y productos de distorsion. Se puede notar
como la envolvente va tomando comportamientos mas complejos en los canales de mas alta
frecuencia, lo que le da las caracterısticas especiales al timbre del sonido.
−1
0
1
60 80 100 120 140Tiempo (ms)
5
10
15
20
ERBn
10-1
Potencia RMS
Figura 2.5: Cocleograma de un multifonico Bicordio. Panel superior: forma de onda.Panel central: cocleograma. Panel lateral: patron de excitacion. La escala de colores delcocleograma esta saturada para mostrar la senal de los canales con baja energıa.
Aunque es posible estudiar todos los multifonicos mediante este analisis detallado, en
la siguiente seccion los estudiaremos a partir de un conjunto reducido de atributos que
capturan las caracterısticas mas importantes que se han mencionado.
3La escala de colores fue saturada para observar las oscilaciones en canales donde la energıa era muybaja.
2.2. Analisis acustico de los multifonicos 41
−1.5−1.0−0.5
0.00.51.01.5
Cana
l 9 E
RBn
−0.8−0.6−0.4−0.20.00.20.40.60.81.0Ca
nal 1
3 ER
Bn
−0.20−0.15−0.10−0.05
0.000.050.100.150.20
Cana
l 16
ERBn
60 80 100 120 140Tiempo (ms)
−0.04−0.03−0.02−0.01
0.000.010.020.030.04
Cana
l 18
ERBn
Figura 2.6: Formas de onda de los canales con mayor intensidad coorrespondientes alcocleograma de la figura 2.5
2.2. Analisis acustico de los multifonicos
2.2.1. Procedimientos
Se confecciono una base de datos de 118 multifonicos a partir de grabaciones de un
saxofon alto Selmer Super action 80 Serie III afinado en A4 440 Hz, con una boquilla
Selmer Serie 80 C* y boquillas Vandorem 31/2. Los grabaciones fueron realizadas con un
microfono de medida (DBX RTA-M) y una interfaz de sonido externa Focusrite Sapphire
a una frecuencia de muestreo de 48 kHz con un resolucion de 24 bits. Los multifonicos
fueron seleccionados y tocados uno por uno por Martın Proscia en una sala de 85 metros
cuadrados, con tratamiento acustico (T60 @1kHz = 0.3). La duracion de cada multifoni-
co fue normalizada a 3 segundos utilizando las partes mas estables y estacionarias de la
grabacion.
La base de datos quedo conformada con las siguientes cantidades de multifonicos por
cada clase. 21 Bicordios, 39 Complejos, 34 Multiarmonicos y 24 Tremolos. Vale la pena
notar que a pesar de que las clases estan bien definidas hay un cierto grupo de multifonicos
42 Capıtulo 2. Multifonicos del saxofon
que no se ajustan perfectamente en ninguna clase y hay sonoridades hıbridas que se situan
en los bordes entre las clases.
En base a lo descrito en la seccion anterior, los multifonicos pueden ser estudiados en
base a sus frecuencias fundamentales, productos de distorsion y frecuencia de modulacion.
Para cuantificar esto, se utilizaron los siguientes atributos acusticos:
1. Centroide espectral (CE)
Se computo el centroide espectral del espectro de potencias a partir de la siguiente
formula.
CE =
∑Nn=0 fnPn∑Nn=1 Pn
Donde fn y Pn son la frecuencia y el espectro de potencia del intervalo n de la
transformada de Fourier discreta respectivamente.
2. Frecuencia de modulacion (fm)
La gran mayorıa de los espectros tenıa productos de distorsion organizados en forma
de componentes separadas por una distancia fija (bandas laterales), que en este caso
equivale a la frecuencia de modulacion.
3. Rugosidad
La rugosidad se computo a partir de un modelo espectral que considera las rugosidades
parciales entre todas los pares de componentes presentes en el espectro [104]. La
descripcion se encuentra en el Apendice A.3.
4. Frecuencias fundamentales F1 and F2
Se consideraron las frecuencias fundamentales F1 y F2, a partir de las cuales se
genera el intervalo musical mas prominente y que determinan el contenido armonico
del espectro, con F2 > F1. No fue necesario considerar mas frecuencias para el grupo
de multifonicos analizado.
5. Intervalo musical (IM) en semitonos
2.2. Analisis acustico de los multifonicos 43
El intervalo se calculo entre las frecuencias F1 y F2
IM = 12 log2(F2/F1)
Es necesario realizar una aclaracion con respecto a las intensidades del grupo de mul-
tifonicos utilizados. Algunos multifonicos, como los del grupo de los Multiarmonicos solo
pueden ser ejecutados a intensidades muy bajas, mientras que en el otro extremo, losComplejos
solo pueden realizarse a intensidades muy altas. Estas cuestiones hacen que las diferencias
de intensidades en el conjunto de sonidos utilizados llegue a 30 dB. Esta clara diferencia
hace que los multifonicos sean muy distinguibles en base a su intensidad, pero dado que
esta no es un atributo tımbrico per se, se decidio no realizar un analisis especial sobre las
intensidades. Sin embargo, como ya se ha mencionado, la intensidad tiene sus efectos en el
nivel de distorsion y la rugosidad.
2.2.2. Resultados
En la figura 2.7, se muestran las distribuciones de los valores de los atributos acusticos
para las cuatro clases de multifonicos y para el total de ellos. Para analizar que atributos
son capaces de discriminar las clases, realizamos un analisis ANOVA de una vıa junto con
un test post hoc de comparaciones multiples de Tukey HSD (α = 0,05). La hipotesis nula
fue rechazada para todos los atributos de manera muy significativa (p < 0,01). Para la
frecuencia fundamental F1, el test post hoc, mostro que los Tremolos son discriminados
con respecto al resto de las clases ya que poseen la nota F1 mas grave. Para la frecuencia
fundamental F2, las clases de los Bicordios y los Tremolos se pueden discriminar de las
clases de los Complejos y los Multiarmonicos. Para el intervalo musical, los Bicordios se
logran discriminar del resto. Para el centroide espectral y la rugosidad, salvo la comparacion
entre los Bicordios con los Multiarmonicos, las clases logran discriminarse para todas las
otras comparaciones. Finalmente, para la frecuencia de modulacion se puede discriminar
las clase de los Tremolos con el resto.
A continuacion se estudio como se relacionan los atributos entre sı. En la tabla 2.1,
se muestran los coeficientes de correlacion entre los atributos. Este procedimiento permite
44 Capıtulo 2. Multifonicos del saxofon
Bi Co Mu Tr Todos0.10.20.30.40.50.60.70.8
F1 (kHz)
(a)
Bi Co Mu Tr Todos0.40.60.81.01.2
F2 (kHz)
(b)
Bi Co Mu Tr Todos051015202530
Intervalo musical (semitonos)
(c)
Bi Co Mu Tr Todos0.20.40.60.81.01.21.41.6
Centroide espectral (kHz)
(d)
Bi Co Mu Tr Todos10-510-410-310-210-1100101
Rugosidad
(e)
Bi Co Mu Tr Todos020406080100120140160
Frecuencia de
modulación f m (Hz) (f)
Figura 2.7: Diagramas de cajas para el conjunto de atributos acusticos utilizados separadospor cada clase de multifonicos y el conjunto completo. (a) Primera frecuencia fundamen-tal, (b) segunda frecuencia fundamental, (c) intervalo musical, (d) centroide espectral, (e)rugosidad y (f) frecuencia de modulacion
F1 F2 Intervalo Centroide Rugosidad fm
F1 1.00 0.51 -0.44 0.10 -0.40 0.33F2 0.51 1.00 0.53 0.11 -0.35 0.34Intervalo -0.44 0.53 1.00 0.03 0.06 -0.03Centroide 0.10 0.11 0.03 1.00 0.26 0.11Rugosidad -0.40 -0.35 0.06 0.26 1.00 -0.39fm 0.33 0.34 -0.03 0.11 -0.39 1.00
Cuadro 2.1: Tabla de coeficientes de correlacion para el conjunto de atributos acusticos.
2.2. Analisis acustico de los multifonicos 45
0 5 10 15 20Intervalo musical (semitonos)
0
20
40
60
80
100
120
140
160
Frecue
ncia de
mod
ulación f m
(Hz)
Bicordios Complejos Multiarmónicos Trémolos
Figura 2.8: Atributos acusticos de los multifonicos: frecuencia de modulacion vs intervalomusical.
ver si hay redundancia de informacion en los atributos a partir del grado de correlacion.
Algunos pares de atributos muestran cierto grado de correlacion, como el intervalo musical
con la frecuencia F2 y F1 de forma positiva y negativa respectivamente. Esto es esperable
dada la definicion del intervalo. Las otras correlaciones que se observan probablemente
indiquen cierto tipo de relaciones internas, pero dado que el coeficiente de correlacion solo
sirve para explicar estructuras lineales, es necesario otro tipo de analisis. Para entender
esto con mayor profundidad, vamos a visualizar la informacion en graficos con un atributo
en funcion de otro.
En la figura 2.8 se representa la frecuencia de modulacion en funcion del intervalo
musical para las cuatro clases de multifonicos. Se puede observar un tipo de organizacion
en forma de V asociado al hecho de que ciertos intervalos correlacionan con la frecuencia de
modulacion. Para comprender esto podemos notar que cerca del intervalo de 12 semitonos,
es decir una octava, la frecuencia de modulacion es baja. A medida que el intervalo se
empieza a desafinar, los batidos y por ende la modulacion, crecen. Las curvas que ajustan
estos patrones estan dadas por una relacion con la siguiente forma: fm = kF1 + nF2,
manteniendo F1 fija y variando F2, y k y n son numeros enteros pequenos.
46 Capıtulo 2. Multifonicos del saxofon
0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6Centroide espectral (kHz)
0
20
40
60
80
100
120
140
160
Frec
uenc
ia de
mod
ulac
ión f m
(Hz)
Bicordios Complejos Multiarmónicos Trémolos
Figura 2.9: Atributos acusticos de los multifonicos: frecuencia de modulacion vs centroideespectral.
En la figura 2.9 se muestra la frecuencia de modulacion en funcion del centroide espec-
tral. En este caso se puede observar a los sonidos de cada clase ocupando una region bien
definida en el espacio. El centroide espectral logra discriminar bien entre los sonidos con
menos energıa en las frecuencias altas como los Multiarmonicos y los que tienen muchas
componentes de alta frecuencia como los Complejos.
En la figura 2.10 podemos ver la rugosidad en funcion del intervalo musical. Esta figura,
en comparacion con la 2.8, no posee la organizacion precisa que alineaba a los sonidos, pero
el atributo de la rugosidad agrupa muy bien los multifonicos de cada clase, ya que en cierta
medida captura el nivel de distorsion relacionado con las componentes que caen dentro de
una misma banda crıtica.
Finalmente en la figura 2.11 podemos observar la rugosidad en funcion del centroide
espectral. En este caso ambas magnitudes correlacionan levemente ya que los tonos con
mayor rugosidad tambien tiene mayor cantidad de componentes y mayor energıa en las
altas frecuencias, pero al mismo tiempo se puede ver como los Tremolos son los que tiene
el mayor nivel de rugosidad y con valores similares dentro de esa clase.
2.2. Analisis acustico de los multifonicos 47
0 5 10 15 20Intervalo musical (semitonos)
10-2
10-1
100
Rugo
sida
dBicordios Complejos Multiarmónicos Trémolos
Figura 2.10: Atributos acusticos de los multifonicos: rugosidad vs intervalo musical.
0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6Centroide espectral (kHz)
10-2
10-1
100
Rugo
sida
d
Bicordios Complejos Multiarmónicos Trémolos
Figura 2.11: Atributos acusticos de los multifonicos: rugosidad vs centroide espectral.
48 Capıtulo 2. Multifonicos del saxofon
2.2.3. Resumen
El conjunto de multifonicos, a pesar de tratarse a primera vista de un conjunto de
sonidos muy variado y heterogeneo, posee ciertas caracterısticas que hacen posible su or-
ganizacion y clasificacion. Es ası que el trabajo musicologico previo realizado por Martın
Proscia supo captar ciertas esencias tımbricas en estos sonidos y generar una clasificacion
util para los propositos de la composicion. A continuacion de esto, el trabajo mostrado aquı,
en base al estudio de los atributos acusticos, permitio cotejar cuales fueron los factores uti-
lizados para clasificar los sonidos. Al mismo tiempo, permitio considerar los orıgenes fısicos
de la produccion de los multifonicos en el saxofon y establecer cuales son los fenomenos
comunes a todos los multifonicos: el hecho de tener dos o mas frecuencias fundamentales
y un espectro denso como resultado de las intermodulaciones de los armonicos de estas
fundamentales. Finalmente, las caracterısticas de modulacion de estos sonidos sugirieron
que la rugosidad es un atributo acustico saliente para la percepcion de estos sonidos. Me-
diante el analisis de los atributos acusticos se pudieron observar las diferencias entre cada
clase de multifonicos. Con la informacion de estos atributos es posible generar un sistema
de aprendizaje automatico que dado un multifonico permite predecir a que clase pertenece
[97]. Para expandir estos resultados y el estudio del timbre de estos sonidos, se realizo un
experimento psicofısico de comparacion de pares, que es expuesto a continuacion.
2.3. Experimento de comparacion de multifonicos
Se diseno un experimento psicofısico de comparacion de pares para obtener resultados
perceptuales cuantitativos sobre el comportamiento tımbrico de los multifonicos y para
poder construir cierta confianza con la clasificacion propuesta por el trabajo musicologico.
Este experimento se realizo mediante la tecnica descrita en la seccion 1.2 sobre comparacion
de pares de sonidos y el analisis por medio del escalamiento multidimensional (MDS).
2.3. Experimento de comparacion de multifonicos 49
2.3.1. Desarrollo experimental
Se seleccionaron 15 sonidos del conjunto de 118 como estımulos. Estos sonidos fueron re-
presentativos de las cuatro clases propuestas y fueron seleccionados para mostrar diferentes
matices y frecuencias fundamentales de las muestras (cuatro Bicordios, cuatroMultiarmoni-
cos, cuatro Tremolos, y tres Complejos). Los fragmentos fueron editados seleccionando un
intervalo de 3 segundos de duracion que fuese lo mas estacionario posible. Las intensidades
no fueron normalizadas debido a que diferentes sonidos tienen diversos niveles de ruido,
los cuales podrıan tomar mucho protagonismo si se aumenta la intensidad, y pretendimos
preservar las caracterısticas de una escucha realista. El nivel fue ajustado para restringir
el rango de niveles sonoros entre 62 y 71 dBASPL, evitando generar un sesgo excesivo por
las diferencias de intensidad. De todas formas, con el fin de estudiar los posibles sesgos,
se insertaron algunas presentaciones con diferentes niveles sonoros para poder tomar como
control en el experimento. Se consideraron todos los pares posibles por lo que los sujetos
escucharon 225 presentaciones.
Cinco sujetos participaron del experimento con edades entre 25 y 35 anos. Todos ellos
fueron estudiantes o egresados de la Carrera con Medios Electroacusticos de la Universidad
de Quilmes y fueron invitados a participar voluntariamente y manifestaron su consenti-
miento para participar por escrito. Los sujetos no estaban familiarizados con la clasificacion
propuesta, tenıan experiencia en el campo de la musica electroacustica contemporanea y
reportaron no tener desordenes auditivos.
El procedimiento fue el siguiente. En una primera etapa, los sujetos escuchaban el
conjunto de los 15 sonidos para tener una primera idea de la variedad de sonidos que
escucharıan luego. Seguido a esto, se siguio con 6 comparaciones de pares de entrenamiento
que no fueron tomados en cuenta para el analisis. Luego comenzaba el experimento en
sı con los 225 pares de forma aleatoria mas 23 pares para usar de control.
La tarea de los sujetos era juzgar el grado de similitud del par de sonidos utilizando
la siguiente escala: 1 nada similares, 2 poco similares, 3 algo similares, 4 muy similares,
5 practicamente iguales. El experimento fue realizado en MATLAB usando la biblioteca
playrec en una Mac Mini con una interfaz de audio Focusrite Saffire. Los sonidos fueron
50 Capıtulo 2. Multifonicos del saxofon
presentados a traves de unos auriculares abiertos calibrados Sennheiser HD 600 en la misma
habitacion donde se hicieron las grabaciones.
Los datos obtenidos del experimento fueron analizados mediante MDS usando el algo-
ritmo INDSCAL. Este tipo de MDS es utilizado cuando se quiere realizar un ajuste con
multiples respuestas, y permite encontrar una configuracion espacial que trata de satisfacer
las distancias perceptuales de todos los sujetos. Esto es realizado por el algoritmo asignando
diferentes pesos a cada dimension segun cada sujetos [10].
2.3.2. Resultados
Se analizaron los controles que se hicieron sobre la intensidad, con un t-test y no se en-
contraron diferencias significativas entre las respuestas de parejas intensidades modificadas
contra las parejas con intensidades sin modificar (p = 0,64).
A pesar de que participaron solo 5 sujetos, las respuestas presentaron un alto grado de
semejanza entre si, obteniendose un coeficiente de correlacion promedio entre las respuestas
de 0,8. Asimismo las respuestas de cada sujeto no se vieron influenciadas por el orden de
presentacion de los sonidos.
Los resultados del MDS utilizando 2 dimensiones se exhiben en la figura 2.12. Para
establecer si esta es una buena configuracion se computa el parametro denominado stress
que indica la diferencia promedio normalizada entre las distancias en el espacio original y
las distancias del espacio con escalamiento (Apendice A.1). El stress de esta configuracion
fue de 0,18. Lo que primero que se puede observar es que los multifonicos de cada clase
han permanecido agrupados. Esto refleja que los participantes juzgaron mas similares entre
sı los tonos de una misma clase en comparacion a los de otra clase. El arreglo espacial
permite observar las relaciones entre las clases. Por ejemplo, podemos ver a la clase de los
Bicordios como la clase que se encuentra en una posicion relativamente mas central y mas
cerca del resto. Tambien podemos observar que los Complejos y los Tremolos se encuentran
alineados en la dimension 1.
En la figura 2.13 se muestra la configuracion MDS utilizando 3 dimensiones. El stress
en este caso fue de 0,13. Las primeras dos dimensiones muestran una configuracion similar
a la situacion 2D, pero la tercera dimension muestra a los Bicordios en una posicion mas
2.3. Experimento de comparacion de multifonicos 51
−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8Dimension 1
−0.6
−0.4
−0.2
0.0
0.2
0.4
0.6
Dim
ensi
on 2
Bicordios Complejos Multiarmónicos Trémolos
Figura 2.12: La configuracion 2D MDS para los quince multifonicos utilizados en el ex-perimento. Los marcadores indican las clases de multifonico: triangulos para los Bicordios,estrellas para los Multiarmonicos, cırculos para los Tremolos y cruces para los Complejos.
alta separados del resto.
Para investigar las posibles interpretaciones de las dimensiones perceptuales entregadas
por el MDS, computamos la correlacion entre las dimensiones y los atributos acusticos
utilizados en la seccion 2.2.1. En la tabla 2.2 se muestran los valores de la correlacion
junto con un asterisco que indica si la correlacion fue significativa (α = 0,05). Para la
configuracion 2D, la primera dimension correlaciona muy bien con la rugosidad y tambien
con el centroide, y la segunda dimension anticorrelaciona con la frecuencia fundamental F1
y la frecuencia de modulacion. Para la configuracion 3D, tenemos para la primera dimension
nuevamente una correlacion con la rugosidad y el centroide, pero para la segunda dimension
se agrega una anticorrelacion con la F2 y una correlacion muy marcada con la rugosidad.
La tercera dimension anticorrelaciona principalmente con la F2 y el intervalo musical, lo
cual explica porque los Bicordios se veıan separados en esa dimension en la figura 2.13.
52 Capıtulo 2. Multifonicos del saxofon
Figura 2.13: La configuracion 3D MDS para los quince multifonicos utilizados en el ex-perimento. Los marcadores indican las clases de multifonico: triangulos para los Bicordios,estrellas para los Multiarmonicos, cırculos para los Tremolos y cruces para los Complejos.
2D 3D
Dim 1 Dim 2 Dim 1 Dim 2 Dim 3F1 -0.46 -0.62 * -0.28 -0.78 * 0.26F2 -0.25 -0.13 -0.23 -0.53 * -0.68 *fm -0.35 -0.66 * -0.20 -0.78 * 0.08Intervalo 0.18 0.51 0.04 0.26 -0.90 *Centroide 0.69 * -0.38 0.72 * 0.02 -0.54 *Rugosidad 0.76 * 0.48 0.61 * 0.95 * -0.08
Cuadro 2.2: Coeficientes de correlacion entre las dimensiones MDS y los atributos acusti-cos para el conjunto de multifonicos del experimento. (fm) frecuencia de modulacion, (CE)centroide espectral, (F1) primera frecuencia fundamental (F2), segunda frecuencia funda-mental. Las correlaciones significantes con tolerancia α = 0,05 estan marcadas con unasterisco
2.3. Experimento de comparacion de multifonicos 53
2.3.3. Resumen
Se realizo un experimento de comparacion de pares de sonidos de multifonicos con el
objetivo de estudiar las caracterısticas tımbricas de un subconjunto de 15 multifonicos re-
partidos entre las cuatro clases. El experimento se realizo bajo condiciones controladas, con
buen equipamiento y los participantes poseıan un buen grado de entrenamiento auditivo. Al
mismo tiempo se hicieron todas las comparaciones posibles con los 15 sonidos y se hicieron
los controles suficientes para corroborar el criterio utilizado en las comparaciones.
Los resultados del escalamiento multidimensional MDS, permitieron observar tanto en
2 como 3 dimensiones cuales fueron las dimensiones perceptuales utilizadas por los partici-
pantes. La configuracion 2D se organizo basicamente a partir del centroide y la rugosidad en
una dimension y la frecuencia de modulacion y F1 en la otra. Al aumentar las dimensiones,
la configuracion 3D mostro un nivel de stress mas bajo e incluyo al intervalo musical como el
atributo saliente en la tercera dimension. Esto indica, que esta configuracion, es una posible
representacion del espacio tımbrico perceptual utilizado por los sujetos participantes.
Podemos ver que a priori no es tan sencillo interpretar una dimension puramente es-
pectral y otra puramente temporal. Sin embargo, el hecho de que los atributos acusticos
esten relacionados entre sı con diferentes tipos de estructuras, hace posible sacar algunas
conclusiones extras. Para esto hay que analizar la rugosidad de los multifonicos. Por un lado
la rugosidad es mayor cuando las componentes estan muy cerca entre sı, es decır una fm
baja, pero por otro lado la rugosidad tambien depende de la cantidad de componentes, que
en el caso de los multifonicos esta relacionado con la cantidad de distorsion y el centroide.
Esto hace que la rugosidad juegue tanto como un atributo espectral y temporal. A partir
de este analisis podemos establecer, tanto en 2D como en 3D, a las primeras dimensiones
como espectrales y a las segundas dimensiones como temporales.
54 Capıtulo 2. Multifonicos del saxofon
Capıtulo 3
Tonos de amplitud modulada
sinusoidalmente
A partir del estudio de los sonidos multifonicos, pudimos apreciar que es posible ge-
nerar una organizacion tımbrica en base a sonidos con modulaciones. Si bien el conjunto
de sonidos multifonicos poseıa una notable diversidad tımbrica, a pesar de provenir de un
solo instrumento y acustico, los multifonicos presentan una organizacion muy compleja de
componentes e intervalos. A partir de esto, podrıa preguntarse si es posible generar una or-
ganizacion tımbrica similar con conjuntos de sonidos mas sencillos, pero con caracterısticas
de modulacion similares. Con esta motivacion se desarrollo un un experimento acerca de
la percepcion del timbre de tonos modulados en amplitud sinusoidalmente (tonos SAM).
En este capıtulo primero se da una introduccion sobre los tonos SAM y luego se expone el
desarrollo, resultados y analisis del experimento sobre la organizacion tımbrica de los tonos
SAM.
3.1. Introduccion
Los tonos SAM, a pesar de ser sonidos relativamente sencillos en su formulacion y sınte-
sis, tienen la posibilidad de generar un abanico tımbrico muy rico. Los diferentes tipos de
perceptos que pueden evocar fueron desarrollados en la seccion 1.4.1, a partir de la figura
55
56 Capıtulo 3. Tonos de amplitud modulada sinusoidalmente
1.11 que describe varias regiones del espacio de parametros de los tonos SAM. Estos percep-
tos varıan notablemente con la frecuencia de modulacion. Para frecuencias de modulacion
bajas se genera la sensacion se fluctuacion de la intensidad, para frecuencias de modulacion
intermedias se da la sensacion de rugosidad, y para frecuencias superiores se da la sensacion
de escuchar las componentes resueltas por separado. Al mismo tiempo, dependiendo de la
frecuencia portadora y la frecuencia moduladora se puede generar una sensacion de altura
tonal, mas baja que la frecuencia de la portadora (fenomeno de la fundamental ausente o
altura virtual).
Los tonos SAM, pueden ser generados a partir de tres parametros: la profundidad
de modulacion m, la frecuencia moduladora fm y la frecuencia portadora fc. Al variar
la profundidad de modulacion se puede realizar una transicion entre un tono sinusoidal
(m = 0) y un tono completamente modulado (m = 1). De ahora en mas dejaremos fijo
el valor en m = 1 para poder generar tono con modulaciones mas salientes, por lo que
usaremos la siguiente expresion para los tonos SAM:
SAM = [1 + sin(2πfmt)] sin(2πfct) (3.1)
De esta manera el conjunto de tono SAM utilizados queda representado en un espacio
de 2 dimensiones, frecuencia moduladora fm y frecuencia portadora fc.
Al variar la frecuencia portadora fc varıa la nota o altura musical percibida de estos
tonos. Si la frecuencia de modulacion es muy baja, la altura es similar a la provocada por
un tono puro, pero si la frecuencia de modulacion es alta, entonces se puede generar una
nota por el mecanismo de fundamental ausente [22]. Esto estarıa indicando que el espacio
tımbrico que se quiere estudiar tiene intrınsecamente variaciones en altura, que en principio
estan diferenciadas de la sensacion tımbrica. A pesar de esto se considero que hay suficiente
interaccion entre la frecuencias fc y fm como para generar sensaciones tımbricas que no
son invariantes frente a cambios en fc. Incluso existen estudios que indican que el rango
invariante del timbre es de aproximadamente una octava [49], y en este experimento se
realizaran comparaciones en un rango de mas de tres octavas.
La posibilidad de generar un espacio de 2 dimensiones para controlar estos perceptos
3.2. Metodo experimental 57
planteo el siguiente interrogante. ¿Es posible reducir las dimensiones de un espacio percep-
tual solamente a las dimensiones que se utilizan para sintetizar el sonido? Dicho de otra
manera, ¿Como se relacionan las distancias en el espacio de parametros con las distancias
perceptuales?
Para atacar estas preguntas, realizamos un experimento de comparacion de pares de
tonos SAM generados a partir de un espacio basado en las dimensiones fm y fc. A diferencia
del experimento de los multifonicos, donde se tuvo total control sobre los participantes y
las condiciones del ambiente, en este caso se decidio hacer el experimento de manera masiva
a traves de Internet tomando ciertos criterios. Por un lado se considero que los estımulos
SAM eran lo bastante sencillos como para que la tarea de comparar y puntuar similitud
pudiese ser realizada por un conjunto amplio de participantes, sabiendo que no se podrıan
controlar las condiciones de escucha y el estado de concentracion de los sujetos. Por otro
lado la posibilidad de llegar a un gran numero de personas, permitio hacer un analisis sobre
las respuestas y descartar los sujetos que hayan tenido una performance muy baja.
3.2. Metodo experimental
El experimento que se realizo es similar a los experimentos tımbricos de comparacion
de pares de sonidos. Dado un conjunto de sonidos, los participantes evaluan las similitudes
tımbricas entre todas las combinaciones de pares de sonidos.
Plataforma Web
Para realizar el sitio web se desarrollo una plataforma para hacer experimentos utili-
zando HTML 5 y la Web Audio API para la generacion y sıntesis de sonido en tiempo
real. Aunque en este experimento en particular los sonidos podrıan haber sido generados
previamente y almacenados como archivos, se decidio utilizar este mecanismo pensando en
el desarrollo de un sistema general para la realizacion de experimentos psicofısicos online.
El uso de Web Audio permite, entre otras cosas, crear sistemas de sonidos en modulos con
disponibilidad de uso de filtros, FFT y convolucion. El experimento de los tonos SAM esta
disponible en http://lapso.org/experimentos/sampairs.
58 Capıtulo 3. Tonos de amplitud modulada sinusoidalmente
La escucha de estos sonidos es muy susceptible al tipo de parlantes y a los modos de
resonancia de las salas, ya que son tonos hechos por sinusoides. Para tratar de minimizar
las posibles variaciones que podıa tener cada sujeto en su sistema de sonido, se decidio que
el experimento requerıa el uso de auriculares. Aunque esto no garantiza respuestas planas,
se asume que las fluctuaciones en las respuestas no son muy grandes comparadas al ancho
de banda de los tonos presentados.
Condiciones experimentales
Se realizaron cuatro condiciones con distintos conjuntos de sonidos (figuras 3.1). En los
cuatro casos se utilizaron 15 sonidos organizados en grupos y distribuidos de tal manera que
se pudiesen escuchar varios tipos de perceptos. Se realizaron dos condiciones experimentales
con grupos compactos y dos con grupos mas abiertos.
Para esto se eligieron ciertas ubicaciones en el espacio de parametros y se distribuyeron
los sonidos en forma de triangulos equilateros. La orientacion de los trıangulos fue elegida
para que los sonidos no compartan la fc o la fm. Las condiciones 1 y 2, fueron tomadas
como las principales, mientras que la 3 y 4 sirvieron como control de algunos parametros.
En la condicion 3 se modifico la posicion del racimo central mientras que en la condicion 4
se rotaron las formas triangulares.
Desarrollo experimental
Al comienzo del experimento, se daba una etapa de entrenamiento donde los sujetos
eran introducidos al tipo de sonidos que iban a escuchar y podıan observar el espacio de
parametros fm vs. fc como el de la figura 3.2, donde se iban mostrando distintos ejemplos de
sonidos y sus coordenadas. Tambien, aprovechando las posibilidades de sintetizar sonido en
tiempo real, luego de los ejemplos, los participantes debıan explorar el espacio manualmente
moviendo un cursor. Se realizo este entrenamiento guiado para generar familiaridad con los
tonos para los participantes que no tenıan experiencia en este tipo de sonoridades y para
establecer un marco en comun para la estimacion de las similitudes.
Luego de la etapa de entrenamiento comenzaba la etapa de comparacion de pares. Para
esto se elegıa al azar una de las cuatro condiciones experimentales. Con los 15 sonidos se
3.2. Metodo experimental 59
(a) Condicion 1 (b) Condicion 2
(c) Condicion 3 (d) Condicion 4
Figura 3.1: Coordenadas fm y fm de los conjuntos de sonidos dados por la ecuacion3.1 para las cuatro condiciones experimentales. La lınea horizontal (fm = 11Hz) indicaaproximadamente el lımite para el percepto de fluctuaciones. La curva entrecortada indicaaproximadamente la zona de maxima rugosidad en funcion de fc calculada con el modelode [104] (Apendice A.3), y la curva solida indica el valor de ERB para cada fc
generaron 105 pares que fueron presentados al azar y tambien se incluyeron, al comienzo,
un conjunto de 10 pares extra. La tarea que debıan realizar los participantes, requerıa
estimar la distancia entre los sonidos en base a una escala de 11 puntos del 0 al 10, donde
0 correspondıa a sonidos muy distintos o distantes y 10 a sonido muy parecidos o cercanos.
Estas respuestas permiten generar configuraciones del espacio tımbrico perceptual mediante
el analisis de MDS.
Una vez completadas las evaluaciones, los participantes debıan completar un breve for-
60 Capıtulo 3. Tonos de amplitud modulada sinusoidalmente
Figura 3.2: Captura de la pantalla del ejemplo de exploracion en el espacio de parametros.El sujeto podıa desplazarse con el puntero e ir escuchando en tiempo real los tonos dadospor las sistema de coordenadas.
mulario con informacion personal y establecer su experiencia previa. Se consulto la expe-
riencia en los campos de la edicion y produccion musical, la ejecucion de instrumentos y la
experiencia en sıntesis sonora. Para cada campo se dieron las opciones: (I) sin experiencia,
(II) experiencia basica con dedicacion esporadica y (III) gran experiencia con dedicacion
habitual.
Al finalizar, los participantes obtenıan un resultado de cuan buena habıa sido su perfor-
mance juzgando las distancias. Este puntaje se computo en base a la correlacion entre las
distancias perceptuales y las distancias en el espacio de parametros. El espacio de parame-
tros utilizado para calcular estas distancias es equivalente al de las figuras 3.1, es decir, sus
ejes fueron tomados en escala logarıtmica.
3.3. Resultados
Presentaremos primero las estadısticas de los datos personales, experiencias en edicion,
ejecucion y sıntesis de los participantes en la tabla 3.1.
Se evaluo si las experiencias personales tuvieron influencia en la performance. Para esto
3.3. Resultados 61
Condicion N Genero Edades Edicion Ejecucion Sıntesis
F M Pr. Min Max I II III I II III I II III
1 24 8 16 30 19 46 9 8 6 4 9 10 9 11 32 25 9 16 27 21 36 11 5 8 5 7 13 14 6 43 21 7 14 27 18 41 12 5 3 8 5 7 13 4 44 22 9 13 28 18 63 11 7 3 6 8 8 14 4 4
Todos 92 33 59 28 18 63 43 25 20 23 29 38 50 25 15
Cuadro 3.1: Datos personales, experiencias en edicion, ejecucion y sıntesis entregadasen el reporte por los participantes
1 2 3 4 TodosCondición
0.0
0.2
0.4
0.6
0.8
1.0
Coeficiente co
rrelación
Figura 3.3: Performances de los sujetos: distribuciones de los coeficiente de correlacionentre las distancias perceptuales y las distancias del espacio de parametros. Las barrashorizontales indican las parejas de condiciones que presentaron diferencias significativas
se hicieron los correspondientes tests estadısticos para evaluar si las performances agrupadas
por niveles de experiencia I, II y III poseıan diferencias significativas, pero estas no fueron
observadas para ninguna de los tres tipos de experiencia (Edicion, Ejecucion y Sıntesis).
Para establecer el valor de performance se utilizo el coeficiente de correlacion entre
las distancias perceptuales y las distancias en el espacio de parametros. En la figura 3.3
se muestran las distribuciones de estos valores de correlacion. A primera vista se puede
observar que los valores de la correlacion tienen comportamientos distintos dependiendo de
la condicion. Para la condiciones 1 y 3 (triangulos pequenos en figura 3.1), los valores de la
62 Capıtulo 3. Tonos de amplitud modulada sinusoidalmente
1 2 3 4 TodosCondición
0.0
0.2
0.4
0.6
0.8Co
eficiente co
rrelación
in
ter g
rupo
s
Figura 3.4: Performances de los sujetos: distribuciones de los coeficiente de correlacionpara las comparaciones de sonidos inter grupos.
correlacion entregaron valores mas altos que para la condiciones 2 y 4 (triangulos grandes
en figura 3.1), siendo significativas las diferencias entre las condiciones 1 y 2 (indicado por
una barra horizontal). Para estudiar este comportamiento, es necesario diferenciar entre las
respuestas correspondientes a comparaciones dentro de un mismo grupo (o triangulo), y las
que correspondıan a comparaciones entre grupos. Al diferenciarlos, ocurre que los valores
de la correlacion se ven influenciados por el hecho de que las respuestas intra grupo son
muy homogeneas para los casos de las condiciones 1 y 3. En la figura 3.4 se pueden ver las
mismas correlaciones pero solo para las comparaciones inter grupos, dando por resultando
unas distribuciones mucho mas homogeneas.
Para observar como se comportaron las comparaciones intra grupo, en vez de realizar
una correlacion, se realizo un cociente entre las distancias perceptuales y las distancias del
espacio de parametros. Primero se modificaron las escalas de las respuestas con una funcion
lineal para que ajusten lo mejor posible con las distancias reales. Con este cambio de escala
se simplifica el analisis del cociente de las distancias, ya que valores cercanos a 1 indicarıan
que las distancias perceptuales y las reales, estan en concordancia.
En la figura 3.5 se muestran las distribuciones de estos cocientes diferenciando en los
casos intra y inter grupos. Se puede ver en el panel inferior, que el cociente inter grupo
3.3. Resultados 63
1 2 3 4 TodosCondición
2
4
6
8
Cocien
te in
tra grup
os (a)
1 2 3 4 TodosCondición
0.95
1.00
1.05
1.10
1.15
1.20
Cocien
te in
ter g
rupo
s (b)
Figura 3.5: Cocientes entre distancias perceptuales y del espacio de parametros: distri-buciones de los cocientes para (a) distancias intra grupo y (b) distancias inter grupo. Lasbarras horizontales indican las parejas de condiciones que presentaron diferencias signifi-cativas
entrego valores cercanos a 1, por lo que se aprecia el escalamiento realizado, sin embargo
para los cocientes intra grupo se ve que los valores son un tanto mayores que 1, por lo que
las distancias perceptuales fueron mayores que las distancias del espacio. Esto indicarıa que
los sujetos sobreestimaron las distancias entre los sonidos mas cercanos, sobre todo para
las condiciones 1 y 3. Las barras horizontales indican si hubo diferencias significativas entre
las condiciones, y puede verse que ocurre para todas las combinaciones de las condiciones
1 y 3 contra las 2 y 4. Estas diferencias indican que para las condiciones 1 y 3 donde los
tonos se encontraban mas proximos, hubo un efecto de proximidad que genero respuestas
de distancias mayores en comparacion con la de las condiciones 2 y 4.
Otra forma de estudiar las respuestas de los participantes, es analizando las distancias
64 Capıtulo 3. Tonos de amplitud modulada sinusoidalmente
entre los sonidos para cada dimension fısica por separado y correlacionar las distancias
perceptuales con las distancias en terminos de la frecuencia portadora y moduladora. En
la figura 3.6 se pueden ver las distribuciones para fc y fm y para cada condicion. Los
asteriscos indican si las diferencias entre las distribuciones de fc y fm fueron significativas.
Puede observarse que las mayores correlaciones se dan con la frecuencia portadora fc, ya
que es mas probable que los participantes hayan utilizado ese atributo de los sonidos como
mayor pista para generar las estimaciones de las distancias. Sin embargo no es facil observar
si hubo algun comportamiento relevante relacionado con el tipo de condicion, ya que las
distribuciones parecen muy heterogeneas.
1 2 3 4 TodosCondición
−0.4
−0.2
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Coef
icie
nte
corre
laci
ón
fc
fm
Figura 3.6: Correlaciones con las distancias por cada eje, fc y fm: distribuciones de loscoeficiente de correlacion entre las distancias perceptuales y las distancias en terminos defc y fm
Escalamiento multidimensional
De la misma manera que en el experimento de los multifonicos, se procedio a estudiar
las distancias perceptuales mediante la tecnica de escalamiento multidimensional (MDS).
Para esto se utilizo el algoritmo INDSCAL que permite contemplar todas las respuestas de
los participantes en una sola configuracion geometrica. Se computaron configuraciones en
2 y 3 dimensiones. En la figura 3.7 se pueden ver las configuraciones 2D para las cuatro
3.3. Resultados 65
condiciones. Lo mas importante que se observa es que las configuraciones tienen una gran
semejanza con las configuraciones originales (3.1), por lo que en terminos generales se puede
decir que las respuestas promedio de los participantes lograron capturar el espacio tımbrico
que se habıa planteado.
A pesar de que el espacio original poseıa solo 2 dimensiones, es posible realizar una
configuracion MDS de 3 dimensiones para estudiar la existencia de alguna otra dimension
perceptual que haya influenciado la estimacion de las distancias. En la figura 3.8 se muestran
las configuraciones 3D. A primera vista puede observarse que las posiciones de los grupos
verdes y algunos sonidos naranjas se encuentran mas elevadas que el resto, lo que indicarıa
que en la tercera dimension estos dos grupos estan mas cerca. Al mismo tiempo se puede ver
que las posiciones de los puntos en las dimensiones 1 y 2, parecerıan ser similares a las de
la configuracion 2D. Para ver esto con mayor claridad, se muestran solo las dimensiones 1
y 2 de las configuraciones 3D en la figura 3.9, y puede observarse que las posiciones aunque
respetan a grandes rasgos las posiciones del espacio de parametros, se presentan algunas
posiciones superpuestas.
Para cuantificar estas discrepancias, se calcularon los coeficientes de correlacion entre
las dimensiones de las configuraciones MDS y las posiciones de los sonidos en el espacio de
parametros (tabla 3.2 ). En el caso 2D, se puede ver una gran nivel de concordancia entre las
configuraciones MDS y las posiciones originales de los sonidos para todas las condiciones
y especialmente para las condiciones 2 y 3. Para el caso 3D, los valores son similares,
pero mejora la correlacion fm de la condicion 1. Tambien se computo la correlacion de la
tercera dimension (altura en figura 3.8) con los valores correspondientes de rugosidad de
Condicion 2D 3D
Dim1 y fc Dim2 y fm Dim1 y fc Dim 2 y fm Dim 3 y Rugosidad
1 0.98 0.79 0.98 0.97 0.622 0.99 0.95 0.96 0.91 0.443 0.99 0.99 0.99 0.96 0.624 0.98 0.86 0.96 0.88 0.30
Cuadro 3.2: Correlaciones de las coordenadas del espacio de parametros con las dimen-siones de las configuraciones MDS
66 Capıtulo 3. Tonos de amplitud modulada sinusoidalmente
−1.0 −0.5 0.0 0.5 1.0−1.0
−0.5
0.0
0.5
1.0
01 2
34
5
67
8
91011 1213 14
1
−1.0 −0.5 0.0 0.5 1.0−1.0
−0.5
0.0
0.5
1.0
0
12 34
567
8
910
1112
1314
2
−1.0 −0.5 0.0 0.5 1.0−1.0
−0.5
0.0
0.5
1.00
1 2 34 5
67
8910
11 121314
3
−1.0 −0.5 0.0 0.5 1.0−1.0
−0.5
0.0
0.5
1.0
01
23 4
5
67
89
10 1112
1314
Dim
ensi
ón 2
Dimensión 1
4
Figura 3.7: Configuraciones MDS 2D: resultados del escalamiento multidimensional 2Dpara cada condicion.
cada sonido, obteniendo valores significativos para las condiciones 1 y 3. Esto indicarıa que
los participantes utilizaron la rugosidad como una dimension perceptual, sin embargo es
necesario estudiar si realmente la configuracion 3D representa un mejor ajuste de los datos
de las distancias. En la figura 3.10 se pueden observar la magnitud Stress por sujeto, que
indica mejores ajustes para valores cercanos a 0. El asterisco indica diferencias significativas
entre las distribuciones de Stress por sujeto, por lo que se concluye que la configuracion 3D
representa mejoro los datos pero solo para las condiciones 1, 2 y 3.
3.3. Resultados 67
Figura 3.8: Configuraciones MDS 3D: resultados del escalamiento multidimensional 3Dpara cada condicion.
−1.0 −0.5 0.0 0.5 1.0−1.0
−0.5
0.0
0.5
1.0
012 3
45
678
910
11 121314
1
−1.0 −0.5 0.0 0.5 1.0−1.0
−0.5
0.0
0.5
1.0
012 3
4 56
7
8
910
1112
1314
2
−1.0 −0.5 0.0 0.5 1.0−1.0
−0.5
0.0
0.5
1.0
01 2 345
67
89
10
11 121314
3
−1.0 −0.5 0.0 0.5 1.0−1.0
−0.5
0.0
0.5
1.0
0 1
234
567
89
10 1112 1314
Dim
ensi
ón 2
Dimensión 1
4
Figura 3.9: Configuraciones MDS 3D: proyeccion de la configuracion de 3 dimensionessobre las primeras 2 dimensiones.
68 Capıtulo 3. Tonos de amplitud modulada sinusoidalmente
2D 3D0.000.050.100.150.200.250.300.35
1
2D 3D0.000.050.100.150.200.250.300.35
2
2D 3D0.000.050.100.150.200.250.300.35
3
2D 3D0.000.050.100.150.200.250.300.35
4
Stress M
DS por sujetos
Figura 3.10: Distribuciones de los coeficientes de correlacion entre las distancias evalua-das por los sujetos y las distancias del espacio de parametros
3.4. Discusion
La realizacion de este experimento masivo permitio corroborar diferentes cuestiones.
Desde el punto de vista tecnico se pudo desarrollar un experimento web con una tecnologıa
moderna como HTML 5 que permitio disponer de una interfaz intuitiva para hacer mas
accesible el experimento a un publico heterogeneo. Con respecto al tipo de experimento
y su relacion con los participantes, podemos concluir que los participantes entendieron la
consigna y pudieron desarrollar la tarea sin inconvenientes. Sin embargo las respuestas pre-
sentaron un nivel de dispersion importante, pero esto no impidio que puedan observarse
las correlaciones entre las respuestas y los sonidos comparados. Con respecto a los analisis
de los resultados, podemos establecer que las distintas condiciones presentaron comporta-
mientos similares, encontrando las mayores diferencias para las condiciones de triangulos
pequenos 1 y 3 con las de triangulos grandes 2 y 4. A partir de distinguir las comparaciones
en intra e inter grupo, se observo que las distancias perceptuales para los pares de sonidos
que son muy similares no son juzgadas en la misma escala que el resto de las distancias
3.4. Discusion 69
en el espacio de parametros. Es decir se da un efecto de proximidad, que permitirıa a los
sonidos agruparse con mas fuerza. Finalmente las configuraciones de MDS indicaron que
la correspondencia entre los espacios perceptuales y de parametros fue muy alta, y sugi-
rio que los participantes pudieron utilizar alguna pista relacionada a la rugosidad para las
condiciones 1 y 3. Sin embargo no esta claro si las diferencias en la tercera dimension del
MDS 3D, son un artefacto asociado a la forma que el MDS interpreta las diferencias entre
las distancias intra e inter grupo.
70 Capıtulo 3. Tonos de amplitud modulada sinusoidalmente
Capıtulo 4
Modelado de la periferia auditiva
Este capıtulo esta dedicado al desarrollo de un modelo de la periferia auditiva y su apli-
cacion para analizar algunos aspectos relevantes a la percepcion de tonos con modulacion
en amplitud, para complementar lo visto en los capıtulos anteriores.
Uno de los propositos de esta tesis fue desarrollar un modelo computacional eficiente
de la periferia auditiva que permitiese calcular cocleogramas realistas de los estımulos uti-
lizados en los experimentos psicofısicos, y derivar atributos vinculados a la percepcion de
tonos con modulacion.
Este modelo se desarrollo luego de realizar una revision exhaustiva (y en muchos casos
realizando desde cero estos modelos o reutilizando codigo existente) de la enorme variedad
de modelos de la mecanica coclear. En la elaboracion del modelo final se priorizaron de
forma simultanea la baja complejidad algorıtmica, la eficiencia computacional, y el acuerdo
con los datos publicados en la literatura. Como paso previo para este desarrollo se presentan
en las secciones siguientes los aspectos mas relevantes para el modelado de la periferia
auditiva y los diferentes niveles de detalle en los cuales se puede describir la mecanica
coclear (la cual sea quizas la etapa mas crıtica en la transduccion del sonido a impulsos
nerviosos en el sistema central). Luego se presentan los resultados numericos del modelo
para diferentes condiciones de algunos parametros. Finalmente se muestran dos aplicaciones
del modelo. En un caso para el calculo de la rugosidad de forma temporal en tonos con
batidos y tonos SAM. Y en otro para estudiar los procesos de la comparacion de pares de
71
72 Capıtulo 4. Modelado de la periferia auditiva
Figura 4.1: Esquema del sistema auditivo periferico
sonidos del experimento de tonos SAM.
4.1. Introduccion
El sistema auditivo es el sistema sensorial que produce el sentido de la audicion o
escucha. Esta dividido en una parte periferica y una parte central. La primera etapa de la
percepcion sonora ocurre en la periferia, e involucra la transduccion del sonido en impulsos
nerviosos. La periferia a su vez puede dividirse en tres secciones: oıdo externo, medio e
interno.
4.1.1. Oıdo externo y medio
El sonido ingresa al sistema auditivo periferico ( figura 4.1 ) a traves de la oreja y
el canal auditivo hasta llegar a la membrana timpanica, donde las ondas de presion son
transformadas en vibraciones mecanicas. Luego, estas vibraciones son transmitidas dentro
del oıdo medio por la cadena de huesecillos (martillo, yunque y estribo) hacia la ventana
oval en el oıdo interno. El oıdo medio funciona como un adaptador de impedancias y logra
un efecto transformador en la presion 24 dB, principalmente debido a las diferencias en
areas entre la membrana timpanica y la ventana oval [90].
4.1. Introduccion 73
Figura 4.2: Coclea desenrrollada
4.1.2. Oıdo interno y la coclea
El oıdo interno consiste en un conjunto complejo de cavidades llenas de fluidos que
incluye a la coclea y a los canales semicirculares.
La coclea se encuentra enrollada de forma espiralada y cada vuelta es mas pequena que
la anterior. En los humanos, la coclea desenrollada tiene un largo aproximado de 35 mm,
un ancho aproximado de 2 mm y suele girar dos vueltas y media. El comienzo de la coclea
se llama la base y el extremo final el apex.
En la figura 4.2 se ilustra a la coclea desenrollada y puede apreciarse que esta dividida
en tres compartimentos conteniendo fluido, llamados rampas: la rampa timpanica, la rampa
media (tambien llamado particion coclear) y la rampa vestibular. En la base de la coclea
las rampas estan conectadas con el oıdo medio mediante dos ventanas. La ventana redonda
es sensible al movimiento del fluido en la rampa timpanica, mientras que la ventana oval
conecta el estribo directamente con el fluido en la rampa vestibular. En la region del apex
se encuentra el helicotrema, un pequeno orificio donde se juntan las rampas vestibular y
timpanica. Los movimientos del fluido en bajas frecuencias pueden cruzar por este orificio,
permitiendo que los cambios estaticos de la presion externa no perturben al sistema.
Parte de la separacion entre la rampa timpanica y la particion coclear esta dada por
la membrana basilar (MB), una membrana elastica que tiene libertad para vibrar trans-
versalmente. Las propiedades mecanicas de la MB varıan a lo largo de su extension, siendo
mas rıgida y estrecha en la base y menos rıgida y mas amplia en el apex. Esto permite que
74 Capıtulo 4. Modelado de la periferia auditiva
Figura 4.3: Estructura interna del organo de Corti (direccion radial). OHC: celulas cilia-das externas; IHC: celulas ciliadas internas; D: celulas de Deiters.
las frecuencia de resonancia de la membrana varıen continuamente, permitiendo la segre-
gacion en frecuencias del sonido ingresante. Sobre la MB se encuentra el organo de Corti,
un epitelio de celulas altamente diferenciadas donde se encuentran las celulas sensitivas del
sistema auditivo [90].
Organo de Corti
El organo de Corti (figura 4.3) es una compleja estructura que contiene dos tipos de
celulas ciliadas mecanico-sensibles, las internas y las externas (IHC y OHC del ingles inner
hair cell y outer hair cell respectivamente). Cada oıdo posee alrededor de 300 IHC y 900
OHC.
Los dos tipos de celulas cuentan con un racimo de cilios que esta en contacto con el
fluido. Las vibraciones que se propagan por el fluido perturban la posicion de estos cilios
y desencadena una serie de procesos fisiologicos dentro de las celulas [62]. Para el caso de
las IHC, estos procesos tienen el proposito de traducir los estımulos acusticos en eventos
sinapticos y los subsecuentes disparos neuronales. Para las OHC, estos procesos generan
movimientos somaticos similares a un efecto piezoelectrico sobre el cuerpo de la celulas que
permiten amplificar activamente la senal [2].
Los movimientos de los cilios de las IHC modifican el potencial electrico de membrana
4.1. Introduccion 75
Figura 4.4: Funcion de entrada-salida de las IHC. En el eje de las abscisas, se denotan losvalores pico de la senal acustica de estımulo y, en el eje de las ordenadas, las variaciones delpotencial de membrana. Las senales son traducidas por una funcion no lineal con saturaciony asimetrıa. Figura adaptada de Dallos [16].
de dichas celulas. Las vibraciones mecanicas que se propagan por el fluido mueven estos
cilios y transducen las vibraciones en potencial electrico. En esta transduccion ocurren dos
fenomenos que modifican sustancialmente la senal. Por un lado, ocurre una saturacion y
rectificacion de la senal debido a que los cilios se desplazan con mayor facilidad en una
direccion mas que en otra. En la figura 4.4 se puede ver la forma de la funcion de entrada-
salida de las IHC, donde podemos destacar la asimetrıa y la saturacion. Por otro lado,
la capacidad de las membranas de las celulas de seguir variaciones en voltajes de alta
frecuencia es limitada, por lo que la senal es filtrada con una caracterıstica pasa bajos con
corte alrededor de los 3 kHz [108].
Dentro de la celulas, las variaciones del potencial electrico generan una cascada de
efectos que conducen a la generacion de disparos neuronales de la fibra auditiva. Este pro-
ceso puede pensarse como una conversion analogica-digital y es necesario que sea realizado
de forma eficiente y robusta. Para este proposito esta la sinapsis de cinta, una sinapsis
altamente especializada para liberar vesıculas rapidamente y con gran cantidad de neu-
rotransmisores. Esta liberacion tiene la cualidad de generar eventos post sinapticos con
gran probabilidad de exito, es decir, permite que se produzcan disparos neuronales que
representan de forma robusta a la senal.
La sinapsis de cinta posee una marcada adaptacion, lo que genera una gran liberacion
76 Capıtulo 4. Modelado de la periferia auditiva
Figura 4.5: Histograma post-estımulo mostrando los potenciales de accion en respuesta aun tono. Puede observarse la marcada adaptacion luego del comienzo del tono y tambienuna supresion al finalizar. Figura adaptada de Pickles [90].
de vesıculas en el comienzo de un sonido, una subsecuente disminucion y una supresion
al final (ver figura 4.5 ). Desde el punto de vista de la escucha, la adaptacion permite al
sistema auditivo detectar nuevos eventos sonoros sobre un continuo de sonidos de fondo,
ya que funciona resaltando los ataques y la supresion, en cambio, genera un efecto de
enmascaramiento temporal. Podemos hacer un paralelismo de este efecto de adaptacion
con el funcionamiento de un compresor de audio. El tiempo de ataque que se suele usar
en un compresor, serıa el equivalente al proceso de adaptacion, y de manera analoga, el
tiempo de relajacion se corresponderıa con la supresion.
Toda la informacion del sonido es codificada en forma de disparos neuronales por las
30 mil fibras auditivas que conectan la coclea con el nucleo coclear, el primer relevo en la
ruta auditiva. La informacion es codificada de forma muy eficiente [105], aunque todavıa
se desconocen los mecanismos exactos que permiten esto y el proceso de decodificacion
posterior. Sin embargo, es sabido que a lo largo de la ruta auditiva se pueden encontrar
mapas neuronales que describen diferentes aspectos del sonido en organizaciones espaciales
de neuronas. Una de estas es la organizacion tonotopica, la cual esta relacionada con la
segregacion de frecuencias que ocurre en la coclea y se preserva en toda la ruta auditiva
[99]. Por otro lado, las fibras auditivas pueden capturar las periodicidades de la envolvente
temporal de los estımulos y hay evidencia de que esta informacion es decodificada en el
colıculo inferior generando una organizacion periodotopica.
4.1. Introduccion 77
Figura 4.6: Observaciones de la onda viajera de von Bekesy [6]
A continuacion profundizaremos en la etapa del procesamiento auditivo relacionada a
la mecanica coclear.
4.1.3. Mecanica coclear
La mecanica coclear estudia el funcionamiento de la coclea en base a la interaccion de
un conjunto de elementos: la dinamica de los fluidos cocleares, la micromecanica del organo
de Corti y a la fisiologıa de las celulas ciliadas. La interaccion de estos elementos generan la
segregacion en frecuencia y la amplificacion del sonido dentro de la coclea. Estos fenomenos
pueden ser distinguidos entre pasivos y activos.
Coclea pasiva
Se pueden estudiar los fenomenos pasivos a partir de una coclea muerta, ya que los
procesos activos necesitan que las OHC esten vivas. El comportamiento de la coclea pa-
siva fue observado por von Bekesy [6] en 1928 a partir de cocleas de cadaveres humanos.
Este trabajo identifico por primera vez la existencia de ondas viajeras sobre la MB y la
segregacion en frecuencias utilizando luz estroboscopica (figura 4.6 ).
Las ondas viajeras son el resultado del acoplamiento hidrodinamico entre el fluido co-
clear y la MB [19]. Este acoplamiento es el responsable de que las vibraciones de una seccion
de la MB se propaguen hacia otras, dado que el acoplamiento longitudinal de la MB en
terminos de su rigidez es mınimo comparado al que ejerce el fluido1. Esto quiere decir que la
MB puede verse como una arreglo de osciladores acoplados por la interaccion con el fluido.
Si las frecuencias de resonancia de estos osciladores forman un gradiente desde las frecuen-
cias mas altas en la base hasta las mas bajas en el apex, entonces es posible generar una
1Recientemente, se han propuesto mecanismos alternativos para el acoplamiento entre las secciones, atraves de la estructura en ”Y”de la figura 4.10 [85]
78 Capıtulo 4. Modelado de la periferia auditiva
onda viajera cuya posicion de amplitud maxima depende de la frecuencia de estımulo. En
este trabajo utilizaremos este enfoque de arreglo de osciladores para desarrollar el modelo.
Coclea activa
Despues de los hallazgos de von Bekesy en la decada de 1920, el descubrimiento del
mecanismo activo tuvo que esperar hasta 1978 cuando Kemp [64] reporto por primera vez
las emisiones otoacusticas, que son sonido generados por la coclea y evidencian su capacidad
de generar energıa de forma activa. En 1948 Gold ya habıan hipotetizado la existencia de
dicho mecanismo.
Hoy en dıa sabemos que la coclea activa es la responsable de ciertos comportamientos
del sistema auditivo que son fundamentales para la escucha:
Sensibilidad:
Amplificaciones de hasta 60 dB para sonidos tenues, que permiten escuchar sonidos
cercanos al lımite impuesto por el ruido termico dentro del oıdo.
Selectividad en frecuencia:
La coclea posee una alta selectividad en frecuencia. Mediante la medicion de curvas
de sintonıa neuronales, es posible identificar cuanto tiene que ser modificada una
frecuencia para que esta deje de ser percibida por una neurona. La pendiente de uno
de los flancos de estas curvas es aproximadamente 300 dBSPL por octava, lo que
puede ser logrado mediante un filtro de orden 502.
Compresion:
Es posible escuchar sonidos en el rango de 0 a 120 dBSPL, ya que dicho rango es
comprimido en 30 dB (tres ordenes de magnitud) en terminos de amplitud de las
vibraciones membrana basilar. Esto solo ocurre en la region de la coclea que tiene
la frecuencia caracterıstica del estımulo, y es el resultado de una no linealidad en el
sistema activo.
2Cada orden atenua -6 dB sobre la frecuencia de corte para un filtro continuo, 6dB × 50 = 300.
4.1. Introduccion 79
Figura 4.7: Las magnitudes y fases de respuestas de la MB en una coclea de chinchilla.A: Magnitud de la velocidad en funcion de la frecuencia del estımulo e intensidades. B:Mismos datos del panel A, pero normalizados por la intensidad del estımulo. C: Respuestasde la fase del desplazamiento pico en direccion de la rampa timpanica, relativas al pico en elcanal auditivo. D: Como en C, pero normalizadas a la fase del estımulo de 80 dB. Medidasrealizadas con un vibrometro laser y figura tomada del artıculo Ruggero et al. [101].
Productos de distorsion:
La no linealidad de la coclea tiene como consecuencia la creacion de nuevas frecuencias
no presentes en el estımulo. Para un estımulo de dos frecuencias f1 y f2, el producto
mas prominente suele darse en la frecuencia 2f1 − f2.
Emisiones otoacusticas:
El oıdo puede emitir sonido a partir de la energıa que suministra el sistema activo
mediante autooscilaciones que surgen de una inestabilidad. Las emisiones pueden
ocurrir de manera espontanea o mediante estimulacion.
En la figura 4.7, podemos observar algunos de estos comportamientos en mediciones
realizadas en vivo en las cocleas de chinchillas a traves de un vibrometro laser [101]. Lo
que se muestra en los paneles A y C son respuestas en magnitud y fase de la velocidad de
80 Capıtulo 4. Modelado de la periferia auditiva
la membrana basilar en funcion de la frecuencias y de la intensidad. En los paneles B y D
se muestran las mismas magnitudes pero normalizadas. Este tipo de mediciones se realiza
observando las vibraciones para un determinado punto de la coclea y realizando un barrido
en la frecuencia del estımulo, en este caso el punto de observacion posee una frecuencia
caracterıstica (CF) de 9.5 kHz.
El nivel de sensibilidad puede verse en el panel B, donde se muestra la ganancia de la
magnitud. Se observa la mayor ganancia para el estımulo de 0 dBSPL debido a que para
esas intensidades se da la mayor contribucion de la parte activa. A medida que la intensidad
del estımulo crece, la contribucion de la parte activa decrece, siendo la ganancia cada vez
menor hasta que, para intensidades altas, la respuesta es puramente pasiva. La compresion
se evidencia cerca de la CF ya que se obtiene una ganancia dependiente de la intensidad del
estımulo mientras que lejos de la CF la ganancia es constante. La respuesta de la fase en
panel B, indica la cantidad de ciclos que la onda viajera recorre para los distintos estımulos.
En la figura 4.8 podemos ver una informacion similar a la de la figura previa pero con
las intensidades en el eje de las abscisas. En esta representacion podemos observar como
la compresion ocurre principalmente para las frecuencias cercanas a la CF (10 kHz); en
cambio, el comportamiento es lineal para las frecuencias mas bajas (panel A) y mas altas
(panel B).
Otra forma de visualizar la informacion de estas respuestas es mediante las denominadas
curvas de sintonıa. Para cada frecuencia se busca la intensidad del estımulo que provoca
una actividad umbral. En la figura 4.9 podemos observar las curvas de sintonıa para la
velocidad y desplazamientos de la MB junto con una curva de sintonıa neuronal, las tres
para una misma CF.
El proceso exacto por el cual las capacidades de las OHC junto con el resto de la
mecanica de la coclea logran tan notable amplificacion y sensibilidad, todavıa permanece
elusivo [54, 43]
Ciertos trabajos plantean que todas estas caracterısticas son distintas manifestaciones
de un mismo fenomeno no lineal intrınseco a las OHC [54] y que pueden ser explicadas por
la inestabilidad de una bifurcacion de Hopf [28]. A partir de esta vision simplificada, pero
general, se han realizado varios modelos de la mecanica coclear, que suelen denominarse
4.1. Introduccion 81
Figura 4.8: Compresion: magnitud de las respuestas de velocidad de la MB en funcionde la intensidad y de la frecuencia de estımulo, para un sitio con CF = 10 kHz. Puedeobservarse la compresion para las frecuencias cercanas a la CF, y el comportamiento linealpara las frecuencias mas alejadas. La lınea punteada indica el comportamiento lineal 1 dB/1 dB. Figura adaptada de Ruggero et al. [101].
como coclea de Hopf [67, 27, 74].
Otro conjunto de trabajos considera que el mecanismo de amplificacion esta relacionado
con algun tipo de retroalimentacion que funciona ciclo por ciclo [21]. Para conseguir este
resultado se han planteado diversos modelos. El modelo de Zweig [126] propone que la
impedancia activa del organo de Corti puede ser descrita si se incluyen componentes con
retraso temporal. El modelo de Neely and Kim [86] plantea la micromecanica del organo de
Corti como un sistema de cuarto orden, lo que permite reducir el problema a dos cadenas de
filtros de segundo orden, una pasiva y otra activa que interactuan entre sı. El modelo de Wen
and Boahen [119] considera una interaccion de alimentacion lateral (en ingles feedforward y
feedbackward), que a diferencia de los otros ejemplos permite interacciones no locales entre
82 Capıtulo 4. Modelado de la periferia auditiva
Figura 4.9: Curvas de sintonıa de la velocidad y desplzamientos de la MB y actividadneuronal. Se puede observar la pronunciada pendiente del flanco derecho de la curva.
las distintas secciones de la coclea y permite obtener una clara amplificacion [34, 122]. La
justificacion de este acoplamiento lateral se debe a que los movimientos somaticos de las
OHC podrıan ejercer fuerzas en secciones adyacentes a donde se encuentran los cilios. En
la figura 4.10 se observa un corte longitudinal de la coclea donde se puede ver como las
OHC y la fuerza que producen se dispone de forma oblicua con la membrana basilar.
Una diferencia entre los modelos de Hopf y los de retroalimentacion es que los primeros
son intrınsecamente no lineales, mientras que los segundos no. Sin embargo, para poder
modelar la compresion en los modelos de retroalimentacion, es necesario agregar una funcion
Figura 4.10: Forma de Y entre las OHC y el proceso falangeal de las celulas de Deiters
4.2. Modelo de la coclea 83
de saturacion que limite la parte activa para grandes intensidades y solo deje el accionar
de la parte pasiva. El proceso de saturacion es un fenomeno habitual en muchos procesos
biologicos. En este caso ocurre en el movimiento somatico de las OHC.
En nuestro trabajo de modelado utilizaremos el enfoque de alimentacion o acoplamiento
lateral de Wen and Boahen [119], ya que consigue amplificar las senales pero sin aumentar
la complejidad algorıtmica del modelo e incluiremos una funcion de saturacion para obtener
la compresion.
4.2. Modelo de la coclea
Existen distintos tipos de modelos de la mecanica coclear que se centran en diferentes
escalas y niveles de descripcion. En general se puede trazar una relacion entre el nivel de
descripcion y la eficiencia computacional de los modelos.
Una de las formas mas eficientes de obtener un cocleograma es mediante un banco de
filtros estimulado en paralelo como los descritos en la seccion 1.3.2. Es posible disenar filtros
adaptativos para describir algunas de las propiedades no lineales de la coclea como los casos
de los filtros dual resonance nonlinear (DRNL) de Meddis et al. [80] y el multiple band-pass
non linearity (MBPNL) de Goldstein [38]. Sin embargo, el uso de estos banco de filtros
no permite contemplar de manera natural la propagacion de productos de distorsion y de
emisiones otoacusticas sobre la MB, dado que el banco es estimulado en paralelo y no hay
acoplamiento entre los filtros.
En el otro extremo, existen modelos tridimensionales con mucho nivel descriptivo sobre
la geometrıa de la coclea, pero que solo permiten simulaciones de corta duracion y no sirven
como una herramienta para el estudio del sonido [36].
Con un nivel de descripcion medio podemos destacar una familia de modelos de una
o dos dimensiones que permiten generar cocleogramas facilmente y permiten el estudio de
las emisiones otoacusticas y las inestabilidades dinamicas en la coclea ([23], [75], [29], [115],
[70])
Uno de nuestros objetivos consistio en desarrollar un modelo para procesar sonido y
generar cocleogramas de manera realista y eficiente, por lo que la ultima familia de modelos
84 Capıtulo 4. Modelado de la periferia auditiva
fue tomada en cuenta para nuestro desarrollo.
Con respecto al modelado de la IHC, la sinapsis de cinta y la fibra auditiva, tambien
es posible encontrar modelos con diferentes niveles descriptivos. Podemos encontrar los
modelos de conductancias que consideran los circuitos equivalentes de la celula y la dinamica
del calcio en la liberacion de neurotransmisor [107], y otros modelos fenomenologicos que
reducen el comportamiento de la IHC a un procesamiento de senales mas sencillo [124].
En nuestro trabajo optamos por utilizar el modelo de Zilany et al. [125] que no tiene
una gran complejidad algorıtmica y cuyo codigo se encuentra liberado para ser utilizado.
La exposicion que se hara de nuestro modelo de la coclea tratara de ser concisa y no se
consideraran todos los enfoques o tipos de modelos dado que extenderıa bastante la seccion.
Para un tratado exhaustivo sobre los distintos enfoques para modelar la coclea, referirse a
los trabajos de Ni et al. [87], de Boer [19, 20, 21], Kern [67].
El modelo puede separarse en su parte pasiva y su parte activa. La primera esta basada
en un arreglo unidimensional de osciladores con acoplamiento hidrodinamico, mientras que
la segunda esta basada en una alimentacion lateral. Para incluir la funcion de saturacion
se analizaron dos opciones, una en la amortiguacion de los osciladores y otra en la parte
activa.
4.2.1. Sistema pasivo: osciladores con acoplamiento hidrodinamico
El movimiento de la MB puede discretizarse como el movimiento de un arreglo de osci-
ladores inmerso en un fluido ( figura 4.11 ). Este esquema representa la coclea desenrollada
del mismo modo que la figura 4.2,con la simplificacion de que los dos canales llenos de
fluidos son combinados en uno solo. El fluido puede ser considerado incompresible y con
una densidad similar a la del agua y cada oscilador representa una seccion de MB.
Antes de exponer el sistema de osciladores, comenzamos el planteo en el caso continuo
donde la expresion para el movimiento de la MB esta dada por:
m∂2h(x, t)
∂t2+ µ(x)
∂h(x, t)
∂t+ s(x)h(x, t) = −p(x, t) (4.1)
Donde h representa el desplazamiento en la direccion y de la MB, p la presion del fluido,
4.2. Modelo de la coclea 85
Figura 4.11: La coclea como un arreglo de osciladores sumergidos en un fluido. L repre-senta el largo y H la altura del canal, h el desplazamiento de un oscilador y p la presiondel fluido
m es la masa, µ el amortiguamiento y s la rigidez, estas ultimas tres son magnitudes por
unidad de area. Todas las variables dependen de la posicion x excepto la masa, que puede
suponerse constante [26].
Segun la denominada aproximacion de onda larga [19], el acoplamiento hidrodinamico
entre las distintas secciones de la MB viene dado por la siguiente expresion que relaciona
la derivada segunda del campo de presion con la aceleracion de la MB:
∂2p(x, t)
∂x2= −2ρ
H
∂2h(x, t)
∂t2(4.2)
DondeH es la altura del canal lleno de fluido y ρ es la densidad del fluido. Esta expresion
puede derivarse de las ecuaciones de conservacion del momento y de la masa del fluido para
el problema de una cavidad unidimensional. La derivacion se encuentra en el apendice A.4.
Esta ecuacion diferencial debe ser acompanada de las condiciones de borde para la
presion en la ventana oval y en el helicotrema. Para la ventana oval se propone:
∂p(x, t)
∂x
∣∣∣∣x=0
= −2ρ∂2h(0, t)
∂t2− 2ρ
∂2ws(t)
∂t2(4.3)
Donde ws(t) representa el desplazamiento de la ventana oval, es decir, la excitacion
externa que proviene del oıdo medio. Por el otro lado en el helicotrema se propone que la
presion se anule:
p(x, t)|x=L = 0 (4.4)
El sistema completo a resolver queda formado por las ecuaciones 4.1, 4.2, 4.3 y 4.4.
Es posible obtener soluciones analıticas de este sistema en el dominio de la frecuencia
86 Capıtulo 4. Modelado de la periferia auditiva
reemplazando las variables m, µ y s por formas sencillas o mediante el metodo WKBJ
que permite obtener soluciones aproximadas [19]. En este trabajo solo nos enfocaremos
principalmente en las soluciones numericas, sin embargo en el apendice A.5 se muestra
un analisis teorico de la relacion de dispersion de la onda viajera que permite entender la
naturaleza del sistema activo de alimentacion lateral.
Para simplificar la notacion suprimimos la dependencia con x y t. Comencemos reescri-
biendo la ecuacion 4.1 para manipularla.
g = µ∂h
∂t+ kh (4.5a)
∂2h
∂t2= −p+ g
m(4.5b)
Para despejar la presion p reemplazamos esta expresion de ∂2h∂t2
en la ecuacion 4.2.
∂2p
∂x2= −2ρ
H
∂2h
∂t2(4.6a)
∂2p
∂x2=
2ρ
mH(p+ g) (4.6b)
∂2p
∂x2− 2ρ
mHp =
2ρ
mHg (4.6c)
(mH
2ρ
∂2
∂x2− 1
)p = g (4.6d)
A continuacion realizamos la discretizacion espacial con diferencias finitas de la ecua-
ciones 4.5b y 4.6d:
∂2hi(t)
∂t2=
−pi(t)− gi(t)
m(4.7a)
mH
2ρ
pi−1(t)− 2pi(t) + pi+1(t)
dx2− pi(t) = gi(t) (4.7b)
(4.7c)
Y de forma equivalente para las condiciones de contorno 4.3 y 4.4, incorporando la
4.2. Modelo de la coclea 87
expresion de 4.5b.
m
2ρ
(p2(t)− p1(t)
dx
)− p1(t) = g1(t)−m
∂2ws(t)
∂t2(4.8a)
pN (t) = 0 (4.8b)
Donde 1 ≤ i ≤ N , y dx = L/N . El sistema discretizado puede expresarse de forma
matricial de la siguiente manera:
∂2h
∂t2=
−p− g
m(4.9)
(D− I) · p = g + q (4.10)
C · p = g + q (4.11)
Donde D representa la matriz del operador ∂2
∂x2 y q es el vector de las fuentes. El primer
paso para resolver la evolucion temporal es resolver el sistema lineal y despejar p de la 4.11.
Esto es posible invirtiendo la matriz C.
p = C−1 · (g + q) (4.12)
Sin embargo el sistema lineal puede resolverse de manera eficiente sin la necesidad de
invertir, ya que la matriz C tiene forma tridiagonal:
88 Capıtulo 4. Modelado de la periferia auditiva
−K − 1 K 0
A B A
0 A B A
. . .. . .
A B A 0
A B A
0 0 1
×
p1(t)
p2(t)
...
pN−1(t)
pN (t)
=
g1(t)
g2(t)
...
gN−1(t)
0
+
m∂2ws(t)∂t2
0
...
0
0
(4.13)
λ =mH
2ρA =
λ
dx2B =
−2λ
dx2− 1 K =
λ
Hdx
Esta forma tridiagonal permite la eliminacion gaussiana directa y el tiempo de computo
para resolver el sistema lineal es de orden N.
Una vez obtenido el valor de la presion, se puede calcular la evolucion temporal del
sistema completo a partir de la ecuacion 4.9. Para esto expresamos esta ecuacion como un
sistema de dos ecuaciones ordinarias de primer orden:
∂h
∂t= v (4.14)
∂v
∂t=
−p− g
m(4.15)
Finalmente se evoluciona temporalmente el sistema con algun metodo de integracion
como los metodos basados en Runge-Kutta 4.
Para comprender un poco mas como se comporta el sistema final, podemos representarlo
en una sola ecuacion donde se aprecia explıcitamente el acoplamiento entre osciladores.
Modificaremos un poco la notacion y las dimensiones del problema para obtener una formula
mas compacta y general.
hi +ωi
Qhi + ω2
i hi = −N∑
j=1
C−1ij
(2γjωj hj + ω2
jhj + δj,1ws
)(4.16)
4.2. Modelo de la coclea 89
0.45L 0.5L 0.55L
C−1 L 2j
Figura 4.12: Fila de la matriz de acoplamiento C−1, para N = 300 osciladores.
Donde ω =√k/m representa la frecuencia natural del oscilador, Q =
√mk/µ es el
factor de calidad y representa un factor inversamente proporcional al ancho de banda de la
respuesta del oscilador y C−1 es la matriz de acoplamiento. En la figura 4.12 se puede ver un
perfil o fila de esta matriz. Esto muestra como el movimiento de un oscilador es influenciado
por sus vecinos cercanos. El perfil de acoplamiento esta determinada exclusivamente por
las propiedades del fluido y de la cavidad. Es posible resolver el problema hidrodinamico
de la cavidad en 2 o 3 dimensiones y obtener nuevos perfiles y seguir utilizando la formula
4.16. En este trabajo decidimos utilizar la solucion de 1 dimension que se ha presentado,
ya que es mas eficiente de computar.
4.2.2. Sistema activo: alimentacion lateral
El proposito del sistema activo en la coclea es el de amplificar la onda viajera en la
region donde la frecuencia del estımulo coincide con la resonancia de la MB. Para esto
existen muchas estrategias de modelado [86, 75, 67] las cuales, por lo general, utilizan
un segundo banco de filtros o arreglo de osciladores, aumentando el numero de variables
dinamicas del sistema. Dado que estamos buscando una forma eficiente de modelar la coclea,
es necesario mantener el numero de variables lo mas bajo posible, por lo que proponemos
utilizar el modelo de alimentacion lateral propuesto por [118] que no necesita de un segundo
90 Capıtulo 4. Modelado de la periferia auditiva
arreglo de osciladores y conserva el numero de variables.
El modelo de alimentacion lateral (feed-forward y feed-backward) se basa en suponer
que las OHC ejercen su fuerza en secciones aledanas a las que reciben estimulacion. En la
figura 4.10 se puede observar como la seccion i de la MB puede recibir la fuerza de la OHC
de la seccion i − 1 a traves de las celulas de Deiters. De manera analoga la prolongacion
falangica tambien puede transmitir la fuerza de la OHC de la seccion i + 1. Esto permite
expresar la fuerza de la OHC de la siguiente manera:
FOHC(x) = αs(x)(βh(x− d)− h(x+ d)) (4.17)
Donde d representa la distancia entre secciones, α representa el factor de la motilidad
de la OHC, y β es el cociente entre la alimentacion en direccion apical y la direccion basal.
Podemos anadir esta expresion a la ecuacion 4.1 y partir de ahı construir el sistema de
osciladores con alimentacion lateral.
m∂2h(x, t)
∂t2+ µ(x)
∂h(x, t)
∂t+ s(x)h(x, t) = −p(x, t) + FOHC (4.18)
m∂2h(x, t)
∂t2= −µ(x)
∂h(x, t)
∂t− s(x) (−αβh(x− d) + h(x, t) + αh(x+ d))− p(x, t) (4.19)
Esta formulacion permite que la onda viajera se alimente a sı misma con los desplaza-
mientos de otras secciones. Si el valor de d es ajustado correctamente es posible lograr una
alimentacion positiva y amplificar a la onda viajera en la region de resonancia.
Hasta este punto el sistema funciona de forma lineal, por lo tanto no hay ni compre-
sion ni productos de distorsion y es necesario incluir una no linealidad para obtener estos
comportamientos. Propondremos dos formas distintas para lograr esto. Por un lado, una
funcion de saturacion para las fuerzas de las OHC siguiendo el modelo de Wen [118] y, por
otro lado, una saturacion en la amortiguacion de la MB segun el modelo de Duifhuis [26].
La primer forma utiliza una funcion tangente hiperbolica para saturar los desplazamien-
tos de la membrana que generan FOHC .
4.2. Modelo de la coclea 91
−2ζ −ζ ζ 2ζx
0
1
f NL(x,η)
Figura 4.13: Funcion no lineal fNL(x, η) con saturacion utilizada en el amortiguamiento
FOHC(x) = αs(x)
[νβ tanh
(h(x− d)
ν
)− ν tanh
(h(x+ d)
ν
)](4.20)
Donde ν permite ajustar el comienzo de la saturacion. La segunda forma propone una
amortiguacion no lineal que depende de h, por lo que la ecuacion del oscilador queda
expresada de la siguiente forma:
m∂2h(x, t)
∂t2+ µ(x) [1 + γfNL (h(x, t))]
∂h(x, t)
∂t+ s(x)h(x, t) = −p(x, t) + FOHC (4.21)
Donde la funcion fNL debe cumplir ciertos requisitos tales como anularse para valores
pequenos y saturar para valores mas grandes [26] y γ permite justar el nivel maximo del
amortiguamiento. En nuestro caso proponemos utilizar la siguiente funcion no lineal for-
mada por funciones cuadraticas a tramos, la cual puede ser computada de manera eficiente
(figura 4.13) :
fNL(x, η) =
1 2ζ < |x|1− η ∗ (|x| − 2ζ)2 ζ < |x| < 2ζ
ηx2 |x| < ζ
ζ =√
12η
En la seccion de resultados se muestran los diferentes comportamientos de los dos tipos
92 Capıtulo 4. Modelado de la periferia auditiva
102 103 104
Frecuencia (Hz)
−35
−30
−25
−20
−15
−10
−5
0
5
Gana
ncia
(dB)
Figura 4.14: Respuesta en frecuencia del oıdo medio, a partir de un filtro con dos polosy un cero. La ganancia esta normalizada para la frecuencia de 1000 Hz
de no linealidades propuestos. Ahora pasaremos a describir las otras etapas del modelo
completo de la periferia auditiva, el oıdo medio, la IHC y la sinapsis.
4.2.3. Oıdo medio
Para poder alimentar el modelo de la coclea es necesario incluir el procesamiento que
ocurre en el oıdo medio. Esta etapa se suele modelar con un filtro pasa bandas que recorta
ciertas frecuencias del sonido dejando solo el rango audible. Para esto se utilizo un filtro
lineal con dos polos y un cero, con una respuesta en frecuencia como la de la figura 4.14.
El filtro fue adaptado de Tan and Carney [108].
4.2.4. Celulas ciliadas internas y sinapsis
Para incluir la IHC y la sinapsis se opto por utilizar el modelo de Zilany et al. [124],
cuya implementacion en software esta liberada para su uso. Con respecto a la IHC, esta es
modelada de manera simplificada sin utilizar un modelo celular de conductancias, mediante
una funcion de entrada y salida similar a la de la figura 4.4 mas un filtro pasa bajos con
corte en 3000 Hz de septimo orden.
La sinapsis, a diferencia de la IHC, es modelada de manera mas compleja ya que se
consideran dos mecanismos para el fenomeno de adaptacion: una adaptacion rapida con
decaimiento exponencial y otra lenta con decaimiento con ley de potencias. Para modelar
4.3. Resultados numericos 93
la adaptacion exponencial, se utiliza un sistema dinamico de tres reservorios con difusion,
basado en el modelo de Westerman and Smith [121], mientras que para modelar la adap-
tacion con ley de potencias, se utiliza una convolucion con un kernel de ley de potencias
[124].
4.3. Resultados numericos
A continuacion presentaremos algunas soluciones numericas para ilustrar las distintas
etapas de construccion del modelo que se mencionaron en la seccion anterior: coclea pasiva,
coclea activa, el fenomeno de compresion, la IHC y la sinapsis. El modelo de la coclea
fue implementado en C++ utilizando la biblioteca odeint [1] que permite utilizar metodos
Runge-Kutta con paso variable. El modelo de la IHC fue implementado en Python y el de la
sinapsis fue tomado del modulo de Python cochlea [100]. El modelo completo esta disponible
para su uso como modulo de Python en https://github.com/pabloriera/cochlea.
4.3.1. Coclea
En la tabla 4.1 se muestra el conjunto de parametros utilizado. La frecuencia natural de
los osciladores es el unico valor que depende de la posicion y se eligio un rango que va desde
20 kHz en la base hasta 81 Hz en el apex. El lımite en bajas frecuencias fue impuesto por
una limitacion en el modelo de sinapsis utilizado que no esta preparado para frecuencias
mas bajas.
En la figura 4.15 se muestra una respuesta de la coclea pasiva donde se puede observar el
desplazamiento de la MB para varios instantes mostrando la onda viajera para un estımulo
de 1000 Hz. El eje de las abscisas representa la posicion en la coclea y esta denotado en
funcion de la frecuencia natural de los osciladores. Puede observarse que el maximo de la
onda viajera no corresponde con la frecuencia del estımulo, esto ocurre por el alto grado
de amortiguamiento que existe en la coclea pasiva.
El parametro α permite prender y apagar el sistema activo. En la figura 4.16 se muestra
el valor cuadratico medio (RMS) y la fase de los desplazamientos de la MB, para el caso
pasivo α = 0 y activo α = 0,15. El estımulo utilizado fue un tono sinusoidal de 1000 Hz
94 Capıtulo 4. Modelado de la periferia auditiva
Parametros Valor Unidades
Parte pasivaAltura canal H 1 mmLargo canal L 0.035 mDensidad Fluido ρ 1000 Kg/m3
Numero de osciladores 300MB: Masa por unidad de area m 0.03 Kg/m2
MB: Frecuencia natural ω(x) 2π × 20000× 10−68,36x 1/sMB: Factor Q(x) 5
Parte activaDistancia acoplamiento lateral d 140 µmFactor de motilidad de OHC α 0.15Cociente de alimentacion β 0.3
No linealidadFactor de amortiguacion γ 2Parametro amortiguacion η 5× 1011 1/m2
Parametro saturacion FOHC ν 1× 10−8 m
Cuadro 4.1: Parametros del modelo.
e intensidad de 10 dBSPL. Lo primero que se puede notar es que la posicion del maximo
de la respuesta se desplaza; para la coclea activa el maximo esta cerca del oscilador de
frecuencia natural 1200 Hz, mientas que para la coclea pasiva el maximo ocurre cerca de
los 2080 Hz. Este corrimiento suele observarse en datos experimentales post-morten [122].
Podemos explicar este fenomeno si tomamos en cuenta que el mecanismo activo de este
modelo tiene el efecto de disminuir la amortiguacion en la region de la resonancia, por lo
que la onda pueda propagarse mas y generar un pico mas marcado.
Para observar el nivel de compresion es necesario estimular a diferentes intensidades.
Primero mostraremos las simulaciones realizadas con la ecuacion del oscilador 4.20 que
utiliza a la funcion tanh como funcion de saturacion de la fuerza FOHC . En la figura 4.17 se
pueden observar las respuestas para distintas intensidades del estımulo. Para intensidades
bajas se observa la respuesta del sistema activo, pero a medida que se aumenta la intensidad
esta se va atenuando, el maximo se traslada hacia altas frecuencias y la respuesta vuelve a
parecerse a la del sistema pasivo. Los comportamientos poco realistas que se generan pa-
ra altas intensidades y bajas frecuencias son consecuencia del sistema activo amplificando
4.3. Resultados numericos 95
102103104
Frecuencia natural (Hz)
−2.0−1.5−1.0−0.5
0.00.51.01.52.0
Desp
laza
mie
nto
MB
(µm
)
1e−3
Figura 4.15: Coclea pasiva: Desplazamientos de la MB en varios instantes para un tonopuro de 1000 Hz. Se puede observar la formacion de una onda viajera debido al acoplamientohidrodinamico y que se propaga desde las frecuencias altas hacia las bajas.
ciertas ondas de bajas frecuencias que se generan debido al impulso que ocurre al comenzar
el estımulo. En el panel inferior de la figura, se muestran las mismas curvas pero normali-
zadas. Esto representa la ganancia de las respuestas con respecto al estımulo. En este caso
la ganancia maxima esta dada por las diferencias entre las respuestas extremas, y es de
aproximadamente 50 dB.
La caracterıstica mas marcada de la compresion esta dada por como las curvas se van
compactando en el flanco derecho de la respuesta. Para ver esto en detalle en la figura 4.18
se muestran las respuestas en funcion de la intensidad para ciertas posiciones en la coclea.
Se puede ver como a medida que la intensidad aumenta las respuestas de las posiciones con
frecuencias cercanas al estımulo (950, 1000 y 1200 Hz) muestran compresion, mientras que
las frecuencias mas alejadas muestran un comportamiento lineal.
A continuacion mostramos los mismos resultados pero para la ecuacion del oscilador
4.21 donde la amortiguacion tiene una forma no lineal (figuras 4.19, 4.20 ). Los resultados
son muy similares al anterior aunque se puede apreciar diferencias en la region del pico
de resonancia para altas intensidades. En este caso las respuestas dejan de crecer a partir
de cierta intensidad, lo que termina generando una compresion mucho mas marcada. Este
comportamiento se asemeja un poco mas a los observados en experimentos con animales,
por lo que esta no linealidad sera utilizada de ahora en mas, con el beneficio de que reduce
96 Capıtulo 4. Modelado de la periferia auditiva
102103104
Frecuencia natural (Hz)
−90−80−70−60−50−40−30−20
Desp
laza
mie
nto
RMS
de
la M
B (d
B re
1µm
)α=0
α=0.15
102103104
Frecuencia natural (Hz)
−12−10
−8−6−4−2
0
Fase
(cic
los)
α=0
α=0.15
Figura 4.16: Respuesta RMS y fase de los desplazamientos de la MB en funcion de lafrecuencia natural para un tono puro de 1000 Hz, 10 dBSPL y duracion de 0.3 segundos enla coclea pasiva (lınea negra) y activa (linea azul).
el tiempo de calculos debido a la formulacion a trozos.
Las respuestas del modelo que se han mostrado hasta aquı corresponden a estımulos
para una frecuencia de 1000 Hz, sin embargo es posible extrapolar el comportamiento
a otras frecuencias ya que para las regiones de la base y las centrales, esto corresponde
solamente a una traslacion rıgida de los perfiles de respuestas. Sin embargo las respuestas
para frecuencias muy bajas tienen algunos comportamientos de borde apreciables. En la
figura 4.21 se pueden ver las respuestas para un estımulo de 20 Hz, que tiene una frecuencia
mas baja que la del ultimo oscilador de la coclea. Se observa que la onda viajera no llega
hasta el final de la coclea ya que la condicion de borde impuesta para el apex (presion = 0)
impide que el ultimo oscilador se mueva, lo cual forma reflecciones e interferencias en los
patrones de la MB. Tambien se puede observar que la falta de compresion, posiblemente
porque el sistema activo no este haciendo contribuciones debido a que la frecuencia del
estımulo no resuena en ningun sitio de la MB.
Para observar como se comporta el modelo estimulado por varias frecuencias, a con-
4.3. Resultados numericos 97
102103104
Frecuencia natural (Hz)
−80−60−40−20
020
Desp
laza
mie
ntos
RM
S M
B (d
B re
1µm
)
(a)
102103104
Frecuencia natural (Hz)
01020304050607080
Gana
ncia
MB
(dB)
(b) dBSPL
102030405060708090100
Figura 4.17: Modelo con saturacion en la fuerza FOHC . (a) Respuesta RMS de los des-plazamientos de la MB en funcion de la frecuencia natural de los osciladores para un tonopuro de 1000 Hz y 0.3 segundo de duracion y para varias intensidades. (b) Ganancia de losdesplazamientos de la MB a partir de normalizar las curvas del panel (a)
10 20 30 40 50 60 70 80 90 100Intensidad estímulo (dBSPL)
−150
−100
−50
0
Desp
laza
mie
ntos
RM
S M
B (d
B re
1µm
)
Fc (Hz)950100012004000
Figura 4.18: Respuesta RMS de los desplazamientos de la MB en funcion de la intensidaddel estımulo para varias posiciones dentro de la coclea. Se puede observar compresion paralas frecuencias caracterısticas cercanas a la del estımulo (F0 = 1000Hz). La lınea punteadatiene una pendiente de 1 dB/1 dB .
98 Capıtulo 4. Modelado de la periferia auditiva
102103104
Frecuencia natural (Hz)
−80−60−40−20
020
Desp
laza
mie
ntos
RM
S M
B (d
B re
1µm
)(a)
102103104
Frecuencia natural (Hz)
01020304050607080
Gana
ncia
MB
(dB)
(b) dBSPL
102030405060708090100
Figura 4.19: Modelo con amortiguacion no lineal. (a) Respuesta RMS de los desplaza-mientos de la MB en funcion de la frecuencia natural de los osciladores para un tono purode 1000 Hz y duracion de 0.3 segundos y para varias intensidades. (b) Ganancia de losdesplazamientos de la MB a partir de normalizar las curvas del panel (a)
10 20 30 40 50 60 70 80 90 100Intensidad estímulo (dBSPL)
−150
−100
−50
0
Desp
laza
mie
ntos
RM
S M
B (d
B re
1µm
)
Fc (Hz)950100012004000
Figura 4.20: Respuesta RMS de los desplazamientos de la MB en funcion de la intensidaddel estımulo para varias posiciones dentro de la coclea. Se puede observar compresion paralas frecuencias caracterısticas cercanas a la del estımulo (F0 = 1000Hz). La lınea punteadatiene una pendiente de 1 dB/1 dB.
4.3. Resultados numericos 99
102103104
Frecuencia natural (Hz)
−120
−100
−80
−60
−40
−20
0
Desp
laza
mie
ntos
RM
S M
B (d
B re
1µm
)
dBSPL
102030405060708090100
Figura 4.21: Respuestas RMS de los desplazamientos de la MB en funcion de la frecuencianatural para un tono puro de 20 Hz, para varias intensidades
tinuacion mostramos los resultados de realizar un barrido en frecuencias sobre la coclea
y observar el comportamiento para una sola posicion sobre la MB. Este protocolo es el
mismo que se utiliza en los experimento in vivo con vibrometros laser como el de la figura
4.8 realizado en chinchilla. En la figura 4.22 se muestran los resultados de dicho barridos
en frecuencia y para facilitar la comparacion con el resultado experimental se muestran las
respuestas en terminos de la velocidad de la MB y no los desplazamientos. Puede verse una
gran similitud, por lo menos en terminos cualitativos, entre las respuestas del modelo y las
medidas experimentales.
4.3.2. Celulas ciliadas internas y sinapsis
Los desplazamientos de la MB son utilizados como entrada del modelo de IHC el cual
genera las variaciones del potencial de membrana de dicha celulas, que luego son utilizadas
de entrada para el modelo de sinapsis que genera como salida la tasa de disparos de la fibra
auditiva. En la figura 4.23, podemos observar las respuestas de estas tres etapas para dos
tonos, uno de 1000 Hz y otro de 5000 Hz. Se muestran las formas de ondas tomadas de
los canales con la frecuencia caracterıstica (CF) de los estımulos. En los paneles superiores
se muestra el desplazamiento de la MB. En los paneles del medio se muestra el potencial
100 Capıtulo 4. Modelado de la periferia auditiva
0 1 2 3 4 5 6 7Frecuencia estímulo (kHz)
101
102
103
104
105Ve
loci
dad
RMS
de la
MB
(µm/s)
dBSPL
0102030405060708090100
Figura 4.22: Respuestas RMS de las velocidades de la MB para el sitio ubicado a 6 mmde la base para varias intensidades
de membrana de la IHC, donde se puede apreciar como la senal es saturada y adquiere
una componente de continua. Para el caso de 5000 Hz se puede apreciar como el filtrado
de la IHC ha removido casi todas las componentes de alterna y lo que queda representa
mas bien a la envolvente del tono que a su componente oscilatoria. En los paneles inferiores
se muestra la respuesta de la sinapsis que entrega la tasa de disparo que genera la fibra
auditiva. En esta ultima, puede observarse la adaptacion al comienzo del estımulo.
Con este modelo de periferia se pueden realizar cocleogramas realistas para analizar
sonidos sintetizados o grabaciones. Los tiempos de computo dependen de la frecuencia de
muestreo utilizada, para el caso de una frecuencia de 100 kHz, se realizaron simulaciones a
una velocidad de 3.5x el tiempo real del estımulo para el modelo de coclea y de 25x para el
modelo con la IHC y la sinapsis. Es posible reducir los tiempos de computo del modelo de
sinapsis si se implementa de forma distribuida. Estos tiempos corresponden a simulaciones
realizadas con un procesador Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz.
4.4. Resultados con tonos modulados
En esta seccion estudiaremos como responde el modelo de la coclea a tonos modulados
en amplitud. Primero lo haremos para computar la rugosidad mediante un nuevo modelo
4.4. Resultados con tonos modulados 101
0 20 40 60 80 100 120 140−0.6−0.4−0.2
0.00.20.40.6
Desp
laza
mie
nto
MB
(µm
)
(a)
0 20 40 60 80 100 120 140−4−2
02468
Volta
je IH
C (m
V) (b)
0 20 40 60 80 100 120 140Tiempo (ms)
0500
1000150020002500
Tasa
de
disp
aros
(1/s
)
(c)
(1) 1000 Hz
0 20 40 60 80 100 120−0.15−0.10−0.05
0.000.050.100.15
Desp
laza
mie
nto
MB
(µm
)
(a)
0 20 40 60 80 100 120−0.06−0.04−0.02
0.000.020.040.060.080.10
Volta
je IH
C (m
V) (b)
0 20 40 60 80 100 120Tiempo (ms)
0100200300400500600700800
Tasa
de
disp
aros
(1/s
)
(c)
(2) 5000 Hz
Figura 4.23: Respuestas del modelo de periferia auditiva para los sitios con frecuenciacaracterıstica de 1000 y 5000 Hz respectivamente. (a) Movimientos de la MB. (b) Potencialde membrana de la IHC donde pueden verse los efectos de rectificacion, saturacion y filtradosobre todo para el sitio de 5000 Hz. (c) Tasa de disparos producida por la sinapsis y la fibraauditiva, donde puede verse la adaptacion luego del ataque.
102 Capıtulo 4. Modelado de la periferia auditiva
basado en metodos temporales unicamente. Luego utilizaremos las respuestas de la coclea
para el conjuntos de tonos SAM utilizados en el experimento psicofısico del capıtulo 3 y
propondremos un posible metodo para la generacion de espacios tımbricos.
4.4.1. Modelo temporal de la rugosidad
Para explorar como responde el modelo de coclea a las modulaciones en amplitud,
comenzaremos observando el fenomeno de batidos. Estos ocurren cuando dos tonos estan
suficientemente cerca en frecuencia y generan interferencia en los desplazamientos de la MB.
En la figura 4.24 podemos observar las respuestas del modelo a un par de tonos sinusoidales
con frecuencias, fc − fm/2 y fc + fm/2, con fc = 1 kHz y para tres valores de fm: 10, 50
y 150 Hz. En el panel superior estan las magnitudes de los desplazamientos de la MB y se
puede observar como los dos tonos ocupan el mismo sitio de la MB salvo en el tono con fm
de 150 Hz. En el panel inferior se muestran las formas de onda de los sitios de la MB con
mayor desplazamiento (puntos rojos en el panel superior) y la envolvente de estas formas de
onda. Para la fm de 150 Hz, podemos ver que dado que las componentes interactuan mucho
menos, el nivel de modulacion de la envolvente es menor y en el sitio del panel inferior no
se presentan practicamente modulaciones. Debemos notar que este analisis tambien podrıa
ser hecho con la tasa de disparos de la fibra auditiva, pero en esta seccion utilizaremos solo
el modelo de coclea y la MB para simplificar los resultados.
Repasando los distintos perceptos que pueden ser evocados por tonos con modulacion,
sabemos que a medida que se va aumentando la frecuencia de modulacion, para frecuencias
bajas el sistema auditivo es capaz de seguir los cambios de la envolvente como cambios
de intensidad y ocurre el percepto de fluctuaciones de la intensidad. Luego el sistema
auditivo no puede seguir el ritmo de los cambios de la envolvente y se da el percepto de
rugosidad. Finalmente, cuando la frecuencia de modulacion es similar a la banda crıtica,
las componentes se empiezan a separar a la par que la rugosidad disminuye.
Es posible cuantificar estos perceptos con el modelo de la coclea a partir de la informa-
cion de las envolventes de cada sitio de la MB. En la seccion 1.4.2 del primer capıtulo se
establecio la relacion entre la rugosidad y la envolvente de una senal y se comentaron los
distintos modelos espectrales y temporales que hay para calcularla. En esta seccion utili-
4.4. Resultados con tonos modulados 103
1030.00.20.40.60.81.01.21.41.6 fm =10Hz
1030.00.20.40.60.81.01.21.4 fm =50Hz
1030.00.20.40.60.81.01.21.4
Desp
laza
miento RM
S MB
(µm)
Frecuencia natural (Hz)
fm =150Hz
(a)
100150200250300−3−2−1
0123 fm =10Hz
100150200250300−3−2−1
0123 fm =50Hz
100150200250300−3.0−1.50.01.5
−3.0
fm =150Hz
100150200250300−2−101
−2
Desp
laza
mie
nto
MB
(µm
)
Tiempo (ms)
(b)
Figura 4.24: Respuestas del modelo de coclea para tres tonos con batidos centrados en1 kHz y con diferentes frecuencias de modulacion: 10, 50 y 150 Hz. (a) DesplazamientosRMS de la MB en funcion de la frecuencia natural de los osciladores. (b) Desplazamientosde la MB en funcion del tiempo para los sitios con mayor actividad.
zaremos el modelo de la coclea para calcular la rugosidad mediante un metodo puramente
temporal.
Primero, recordemos que es posible calcular el valor la rugosidad a partir de la profun-
didad de modulacion efectiva de la envolvente, siempre que la frecuencia de modulacion
este dentro del rango donde se genera el percepto de rugosidad. Esto se puede hacer com-
binando las ecuaciones 1.4 y 1.5, reescritas a continuacion en una sola expresion:
R = αmpef = α
(σ
µ
)p
(4.22)
Donde R es la rugosidad, α un coeficiente de escalamiento, mef es la profundidad de
modulacion efectiva calculada a partir del valor medio µ y la desviacion estandar σ de la
envolvente y p es un exponente entre 1 y 2. Esta formula solo establece que mientras mas
grande la modulacion de la envolvente, mayor sera la rugosidad, sin embargo no predice
como varıa rugosidad con la frecuencia moduladora. Incluyendo el modelo de la coclea en
104 Capıtulo 4. Modelado de la periferia auditiva
(a) (b)
Figura 4.25: (a) Valor medio µ y (b) desviacion estandar σ de la envolvente para cadasitio de la MB en funcion de la frecuencia de modulacion para un tono con batidos. Laslineas verticales indican la banda crıtica en ERB
el computo de la rugosidad, se puede limitar la rugosidad para frecuencias de modulacion
altas como se vio en la figura 4.24. En la siguiente expresion se agrega el computo de la
profundidad de modulacion para la envolvente de cada sitio de la MB:
R = α
(∑Ni=1 σi∑Ni=1 µi
)p
(4.23)
Donde el subındice i indica el numero de sitio o de oscilador del modelo de la coclea.
Comencemos aplicando este modelo a los tonos con batidos visualizando como se comportan
σi y µi por separado. En la figura 4.25 podemos observar en (a) al valor medio y en (b) a la
desviacion estandar en funcion de la frecuencia de modulacion para un tono de 1 kHz. Para
las fm bajas, podemos ver en el valor medio, que los dos tonos estan fusionados en una
misma region y luego a medida que aumenta la fm se separan. Para la desviacion estandar
podemos observar como se va modificando el nivel de fluctuaciones de la envolvente en
diferentes sitios de la MB, y como se atenua una vez cruzada la banda crıtica denotada por
una lınea vertical.
A continuacion pasamos a promediar los valores entre todos los sitios de la MB. En
la figura 4.26 podemos observar los promedios de µ y de σ y de la rugosidad R =(µσ
)2.
Aunque el valor de la rugosidad decae como se esperarıa con la frecuencia de modulacion
porque las componentes dejan de interactuar, este no decae lo suficientemente rapido para
4.4. Resultados con tonos modulados 105
0 50 100 150 200 250 3000.20
0.22
0.24
0.26
0.28
µ(µm
)
(a)
0 50 100 150 200 250 3000.000.010.020.030.040.050.060.070.08
σ(µm
)
(b)
0 50 100 150 200 250 300Frecuencia de modulación (Hz)
0.000.020.040.060.080.100.120.140.16
(σ µ)2
(µm
)
(c)
Figura 4.26: Promedios entre todos los canales: (a) valor medio µ, (b) desviacion estandarσ y (c) el cociente (σ
µ)2
bajas modulaciones. Esto puede explicarse dado que la envolvente no distingue entre los
perceptos de fluctuaciones y rugosidad ya que es un fenomeno perceptual y no de la senal.
Ya hemos mencionado la relacion entre la rugosidad y la falta de velocidad de respuesta
del sistema auditivo para seguir las variaciones rapidas de la envolvente. Podemos expresar
esto de otra manera, suponiendo la existencia de una ventana de tiempo en la cual el
sistema integra la senal auditiva para estimar su intensidad. Si la modulacion es muy lenta
es posible obtener un muestreo con suficiente precision de la intensidad como para percibir
su fluctuacion, pero si la modulacion es mas rapida, el muestreo genera una medicion mas
azarosa de la intensidad y se genera el percepto de rugosidad3.
A partir de este razonamiento, se incluye en el modelo un proceso de integracion tem-
3 ¿aliasing?
106 Capıtulo 4. Modelado de la periferia auditiva
0 20 40 60 80 100−1.0−0.5
0.00.51.01.5 fm =70 mef=1.0
0 20 40 60 80 100Tiempo (ms)
−1.0−0.5
0.00.51.01.5 fm =11 mef=0.88
Figura 4.27: Computo de la estadıstica de la envolvente con una ventana: (a) frecuenciade modulacion de 70 Hz y ventana de 100 ms de ancho, el valor de la profundidad demodulacion efectiva no se ve alterado (b) frecuencia de modulacion de 11 Hz y ventanade 100 ms de ancho, el valor de la profundidad de modulacion efectiva es menor que parafrecuencias mas altas.
poral que calcula la desviacion estandar y el valor medio mediante una ventana movil. El
funcionamiento de este proceso se ejemplifica en la figura 4.27. Este proceso es similar al
que ocurre en el modelo de Daniel and Weber [17] con la diferencia de que en aquel modelo
el efecto de filtrado de la ventana se aplica en el dominio de la frecuencia.
Con el agregado de este procesamiento, podemos replicar la medida de la rugosidad
para los tonos con batidos en funcion de la frecuencia de modulacion. En la figura 4.28 se
muestran los resultados para nuestro modelo temporal, el modelo espectral de Sethares [104]
descripto en el apendice A.3 y los valores experimentales del trabajo de Miskiewicz et al.
[82]. El tamano de la ventana fue de 25 ms; seleccionado para coincidir cualitativamente con
el maximo de los resultados experimentales y los valores de los picos fueron normalizados
a uno. Es importante notar que segun el tamano de la ventana es posible modificar la
posicion de la curva donde la rugosidad es maxima. En este caso se decidio ajustar con los
resultados del experimento de Miskiewicz et al. [82], debido a que son los resultados mas
actualizados y la posicion de su maximo de rugosidad esta en concordancia con el 45% de
la banda crıtica (segunda linea negra) segun lo visto en la seccion 1.4.2.
4.4. Resultados con tonos modulados 107
0 50 100 150 200 250 300
Frecuencia de modulación (Hz)
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Ru
go
sid
ad
Modelo temporal
Modelo espectral
Miskiewicz e t a l
Figura 4.28: Rugosidad en funcion de la frecuencia de modulacion para tonos con batidosy un tamano de ventana de 25 ms. En tono azul, los valores del modelo temporal a partirde la respuesta de la coclea, en tono magenta los valores del modelo espectral de Sethares[104] descripto en el apendice A.3 y en cırculos rojos valores experimentales del trabajo deMiskiewicz et al. [82]. En lineas negras se muestran las fracciones de 25%, 50% y 100%de la banda crıtica en ERB
Por ultimo mostraremos el computo de la rugosidad para los tonos SAM. En la figura
4.29, podemos observar las curvas de rugosidad, en azul para nuestro modelo temporal, en
magenta para el modelo espectral de [104] y con cırculos los trabajos experimentales de
Aures [3] en rojo y Fastl and Zwicker [30] en verde. Es importante notar que se ha usado
el mismo tamano de ventana que en el caso de tonos con batidos por lo que la posicion del
pico es relativamente similar cerca del 50% de la banda crıtica. A pesar de que el ajuste
no es perfecto se puede ver cierta correspondencia.
108 Capıtulo 4. Modelado de la periferia auditiva
0 20 40 60 80 100 120 140 160
Frecuencia de modulación (Hz)
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Ru
go
sid
ad
Modelo temporal
Modelo espectral
Fastl and Z wicker
Aures
Figura 4.29: Rugosidad en funcion de la frecuencia de modulacion para tonos SAM yun tamano de ventana de 25 ms. En tono azul, los valores del modelo temporal a partirde la respuesta de la coclea, en tono magenta los valores del modelo espectral de Sethares[104] descripto en el apendice A.3, en cırculos rojos valores experimentales del trabajo deAures [3] y en cırculos verdes de Fastl and Zwicker [30]. En lineas negras se muestran lasfracciones de 25%, 50% y 100% de la banda crıtica en ERB
4.4.2. Espacios tımbricos de modulacion
En el experimento del capıtulo 3 los participantes juzgaron las similitudes entre un
conjunto de tonos SAM. El proceso cognitivo responsable de las evaluaciones de estas
similitudes es sin duda un proceso de alto nivel que involucra a la corteza auditiva y
tambien al resto de las etapas de la vıa auditiva. No es trivial suponer cuales fueron las
dimensiones perceptuales utilizadas por los sujetos ya que cada participante puede haber
utilizado diferentes pistas para estimar la distancia. A pesar de esto, los resultados del
escalamiento multidimensional mostraron que en promedio los participantes utilizaron las
dos dimensiones del espacio de configuraciones de los tonos SAM, la frecuencia portadora
fc y la frecuencia moduladora fm. Por lo tanto, es posible suponer que en la estimacion
de las similitudes tuvo lugar algun mecanismo de factorizacion que permitio identificar
por separado la frecuencia portadora de la moduladora. En esta seccion proponemos un
mecanismo para medir la frecuencia moduladora y la portadora a partir de respuestas
prototıpicas de grupos de neuronas que podrıan extraer dicha informacion. Luego mediante
4.4. Resultados con tonos modulados 109
esta informacion podemos calcular la distancia perceptual entre los tonos.
En la periferia auditiva la informacion del sonido es segregada en el eje tonotopico y
codificada por los disparos de la fibra auditiva mediante codigos de tasa de disparos y de
enganche de fase. La organizacion tonotopica se preserva en toda la ruta auditiva, incluso
en la corteza auditiva se han encontrado mapas neuronales con esta organizacion [96]. Los
atributos perceptuales asociados al eje tonotopico, como el centroide espectral y la altura
de tonos puros, son de los mas reconocibles y salientes.
La informacion temporal del sonido se puede separar en lo que respecta a la envolvente
y en la estructura fina de la fase. Ambas caracterısticas son codificadas temporalmente en
la fibra auditiva, la primera a traves de la variacion de la tasa de disparos y la segunda
mediante el enganche de fase. Las codificaciones temporales son poco robustas ya que
son susceptibles a sufrir modificaciones en los tiempos de los disparos en cada relevo de
la ruta auditiva. Esto implica que son necesarios circuitos neuronales que transformen la
codificacion temporal a codificacion en base a tasa de disparos. Los mecanismos exactos de
esta transformacion todavıa permanecen elusivos [9].
Con respecto a la codificacion de la frecuencia de modulacion de tonos con modulacio-
nes en amplitud, hay evidencia de la existencia de un banco de filtros sobre la frecuencia
de modulacion, que en paralelismo con el eje tonotopico se lo llama eje periodotopico. Este
eje ha sido encontrado en forma de mapa neuronal en el colıculo inferior del gato [72] y
del jerbo [69]. Las caracterısticas precisas de este banco de filtros todavıa no son conoci-
das completamente, pero es razonable suponer que en alguna etapa de la ruta auditiva,
existen grupos de neuronas que responden con preferencia a cierto rango de frecuencias de
modulacion. Existen trabajos de modelado que proponen circuitos neuronales capaces de
extraer las frecuencias de modulacion en base a tasa de disparos [52] y tambien trabajos
que proponen de forma simplificada un banco de filtros que es alimentado directamente con
las senales de la fibra auditiva [18].
A continuacion pasaremos a medir la frecuencia de modulacion y la frecuencia portadora
con el modelo de la coclea. Para la frecuencia portadora utilizaremos la informacion del eje
tonotopico, mientras que para la frecuencia de modulacion incluiremos un banco de filtros
alimentado con la fibra auditiva que simula las respuestas de las neuronas del colıculo
110 Capıtulo 4. Modelado de la periferia auditiva
100 101 102
Frecuencia de modulación (Hz)
−16−14−12−10
−8−6−4−2
0
Aten
uaci
ón (d
B)
Figura 4.30: Banco de filtros sobre la frecuencia de modulacion. Las frecuencias centralesde los filtros estan espaciadas logaritmicamente. Para frecuencias centrales menores a 10Hz el ancho de banda es 5 Hz, para frecuencias centrales mayores a 10 Hz, se fijo el valorde Q en 2. Adaptado de Dau et al. [18]
inferior sensibles a la frecuencia de modulacion. En la figura 4.30 se puede ver el banco de
filtros utilizado, que fue adaptado de Dau et al. [18]. Los filtros son resonadores de un polo
complejo dados por la siguiente funcion de transferencia:
H(z) =1−R
1−Rei2πfc∆ z−1
Con R = e−B∆, fc la frecuencia central, B el ancho de banda y ∆ el paso temporal. El
ancho de banda de los filtros con frecuencia centrales menores a 10 Hz fue de 5 Hz, y luego
para las frecuencias centrales mayores se fijo el Q en 2. Se usaron 10 filtros con frecuencias
centrales espaciadas logaritmicamente entre 2 y 100 Hz.
En los resultados de esta seccion utilizamos el modelo de la coclea con sinapsis incluida,
por lo tanto cada canal del modelo esta representado por la tasa de disparos generada por
la sinapsis. Las senales de cada canal son pasadas por el banco de filtros y su amplitud
RMS es calculada. Luego, para condensar toda la informacion de modulacion se promedian
todos los canales. Este proceso genera, para cada estımulo, un vector con 10 elementos que
tienen las respuestas del banco de filtro con la informacion de todos los canales.
Para el calculo de la respuesta prototıpica de la frecuencia portadora, proponemos una
reduccion del eje tonotopico en 10 bandas superpuestas, sumando la actividad de la sinapsis
4.4. Resultados con tonos modulados 111
2 3 5 7 11 18 27 42 65 100
Frecuencia modulación (Hz)
0
2
4
6
8
10
12
14
Núm
ero
de to
no S
AM
20.0
10.9 5.9
3.2
1.8
0.9
0.5
0.3
0.2
0.1
Frecuencia portadora (kHz)
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Tasa
de
disp
aro
norm
alizad
a
Figura 4.31: Poblacion de neuronas del banco de filtros de modulacion y de frecuenciaportadora. Cada fila representa un sonido de los 15 sonidos del experimento con tonosSAM, y las columnas representan las respuestas de neuronas tuneadas a ciertas frecuenciasde modulacion o de portadora.
por cada banda. Este proceso junto con el del banco de filtros de modulacion intentan
simular la degradacion de las curvas de sintonıa que ocurre a medida que se avanza en la
ruta auditiva.
En la figura 4.31 podemos observar los resultados de los vectores de modulacion y de la
portadora para los 15 sonidos de la condicion 1 del experimento con tonos SAM (3.1a). Se
puede ver como las dos representaciones capturan para los valores maximos, a la frecuencia
de modulacion y a la frecuencia portadora respectivamente.
Una de las cualidades de representar los tonos SAM de esta forma prototıpica con po-
cas neuronas (10), es que permite que haya un solapamiento entre las respuestas de cada
sonido. Esto permite calcular una distancia entre sonidos simplemente tomando la distan-
cia euclıdea entre estos vectores. Mediante esta idea, es posible simular un experimento
de comparacion de pares a partir de la distancia entre las representaciones prototıpicas.
Los resultados del experimento con tonos SAM eran el promedio de muchas respuestas, y
cada participante podrıa haber usado diferentes pesos para las dimensiones perceptuales de
modulacion y de la portadora. Por este motivo, vamos a incluir un factor de ruido interno
112 Capıtulo 4. Modelado de la periferia auditiva
−0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8Dimensión 1
−0.8
−0.6
−0.4
−0.2
0.0
0.2
0.4
0.6Di
men
sión
20
1 2345
67
8
9
10
11
121314
Figura 4.32: Configuracion MDS INDSCAL para las representaciones prototıpicas de lafrecuencia moduladora y portadora para los 15 tonos SAM del experimento psicofısico.
por sujeto que regula el peso relativo entre el vector de modulacion y de la portadora.
En la figura 4.32 se puede ver la configuracion MDS INDSCAL obtenida de simular el
experimento para 25 sujetos con pesos relativos tomados de una distribucion normal con
desviacion estandar 1 y media 1. La concordancia observada se debe al hecho de haber
generado representacion con baja definicion y con solapamiento, en este caso 10 frecuencias
centrales de modulacion y 10 bandas del eje tonotopico.
4.5. Resumen y discusion 113
4.5. Resumen y discusion
En este capıtulo se presento un modelo dinamico de la coclea basado en una cadena
de osciladores con acoplamiento hidrodinamico y alimentacion lateral. Se utilizo la aproxi-
macion de una coclea unidimendional y con parametros morfologicos constantes. A pesar
de estas aproximaciones se lograron generar respuestas aceptables del movimiento de la
membrana basilar. La inclusion de las no linealidades, en el termino activo o en el termino
de amortiguacion de los osciladores, lograron capturar los comportamientos de compresion
para las respuestas con distintas intensidades, sin embargo se observo que la no linealidad
en la amortiguacion genero respuestas levemente mas similares a las experimentales. Los
parametros elegidos para correr el modelo fueron seleccionados en base a lograr un com-
promiso de las respuestas frente a diferentes estımulos y situaciones. Queda pendiente el
analisis exhaustivo del comportamiento del modelo en funcion de todos sus parametros, ya
sea mediante ajustes con datos experimentales o analisis de inestabilidades y comporta-
mientos globales del sistema.
Una posibilidad para lograr mejores ajustes con los datos experimentales, recae en agre-
gar o modificar las dependencias espaciales de ciertos parametros. Muchos parametros se
han dejado constantes por simplicidad, pero es posible que se puedan obtener respues-
tas mas realistas en todo el rango de frecuencia simplemente agregando una dependencia
espacial.
Pudimos computar las respuestas de las IHC y la sinapsis, con resultados muy convin-
centes, gracias al modelo de Zilany et al. [124] que ya se encontraba implementado. Queda
realizar un analisis sobre las ventajas de incluir la etapa de la IHC y la sinapsis para el
analisis de sonidos, ya que en muchos casos es suficiente utilizar los desplazamientos de la
MB. En este sentido, hay que profundizar la relacion entre las respuestas de la membrana
basilar y los patrones de excitacion perceptuales.
Con respecto al modelo de rugosidad planteado, es necesario realizar ajustes para todo
el rango de frecuencias portadoras, posiblemente utilizando largos de ventanas adecuados
para cada sitio de la MB.
Finalmente, el agregado de uno de los procesos que ocurren mas arriba en la ruta
114 Capıtulo 4. Modelado de la periferia auditiva
auditiva, como es el caso de la codificacion de la modulacion en el colıculo inferior, permitio,
aunque de forma simplificada, simular el experimento de comparacion de tonos SAM. Es
necesario estudiar con mayor profundidad la relacion entre los procesos cognitivos centrales
que se involucran en la comparacion de timbres y la informacion que se dispone en las
primeras etapas de la ruta auditiva. Tambien queda pendiente estudiar si es posible modelar
las respuestas individuales de los participantes agregando mas fuente de ruido interno.
Capıtulo 5
Conclusiones generales
Esta tesis planteo el estudio de la percepcion tımbrica de sonidos con modulaciones en
amplitud. El trabajo comenzo a partir de la interaccion con el saxofonista y compositor
Martın Proscia que poseıa un corpus de sonidos de multifonicos del saxofon. Este encuen-
tro permitio notar que las herramientas clasicas para estudiar el timbre musical han sido
desarrolladas en base a sonidos armonicos y no resultaban adecuadas para estudiar sonidos
mas complejos espectralmente, como los multifonicos.
Por otra parte, existe un cumulo de sonoridades propias de la musica electroacustica y
contemporanea que todavıa no han sido estudiadas con herramientas analıticas de acustica
y experimentos perceptuales, con algunas contadas excepciones [42]. Esta tesis propuso el
abordaje sobre el timbre de un conjunto de estas sonoridades.
Los sonidos multifonicos estudiados habıan sido previamente organizados por Martın
Proscia en cuatro clases en base a sus cualidades tımbricas. Uno de los objetivos logra-
dos en esta tesis fue el de dar un fundamento perceptivo y acustico de la clasificacion
propuesta originalmente basandose en un conjunto de atributos, entre los que se encon-
traban, la frecuencia fundamental, la frecuencia de modulacion, el centroide espectral y la
rugosidad. Para ganar confianza en esta clasificacion se propuso un experimento de compa-
racion de pares de sonidos donde los sujetos debıan juzgar las similitudes tımbricas entre
los multifonicos. El experimento fue realizado en un ambiente controlado con sujetos con
experiencia en musica electroacustica. Este experimento mostro que los sonidos que perte-
115
116 Capıtulo 5. Conclusiones generales
necıan a una misma clase se mantuvieron agrupados en el espacio tımbrico perceptual. Al
mismo tiempo, se pudieron interpretar las dimensiones tımbricas perceptuales en base a los
atributos acusticos, encontrandose altos grados de correlacion para el centroide espectral y
la rugosidad.
El trabajo realizado con los multifonicos abrio nuevos interrogantes acerca del rol de
las modulaciones como un atributo tımbrico relevante (algo escasamente estudiado en tra-
bajos previos). Para contribuir a resolver esta cuestion partiendo de un caso mas sencillo y
controlable se propuso entonces, como continuacion de esta tesis, llevar a cabo un experi-
mento de comparacion de tonos modulados en amplitud sinusoidal mente (tonos SAM). Se
decidio realizarlo de forma masiva mediante la web y una plataforma desarrollada de forma
especifica. La participacion en el experimento fue muy buena, con mas de 80 personas en
2 convocatorias.
Los estımulos utilizados en el experimento fueron tomados de un espacio de configura-
ciones de dos dimensiones: frecuencia portadora y frecuencia de modulacion, dejando fija
la profundidad de modulacion en su valor maximo 1. Pudo observarse mediante el analisis
MDS que las dimensiones perceptuales utilizadas por los sujetos fueron las mismas que las
del espacio de configuracion. Esto permitio concluir que los participantes, en promedio,
pudieron comparar los sonidos factorizando perceptualmente la modulacion y la frecuencia
portadora. Por otro lado se evaluaron dos condiciones de grupos de sonidos: una condicion
con sonidos muy cercanos entre sı en el espacio de configuraciones y otra con sonidos mas
alejados. Los resultados indicaron que los sujetos utilizaron diferentes escalas para cada
condicion. Finalmente se pudo observar que los ajustes MDS de tres dimensiones fueron
mejores para algunas condiciones, por lo que indicarıa que el espacio tımbrico perceptual
podrıa haber estado influenciado por otro atributo acustico como la rugosidad, aunque es
necesario mayor analisis y mayor numero de participantes para aclarar este punto.
De forma paralela al estudio experimental del timbre se desarrollo un modelo de la
coclea para poder estudiar el timbre a traves de la actividad en la periferia auditiva. Los
objetivos de esta tesis incluıan el revelamiento de los modelos de la mecanica coclear, el
desarrollo de un modelo reducido inspirado en la dinamica no lineal y la implementacion de
dicho modelo de forma eficiente. Todos estos objetivos fueron cumplidos logrando generar
117
un modelo versatil que permite modificar sus parametros con comodidad, procesar sonidos
de forma eficiente en tiempos de computo hasta solo 3 veces el tiempo real, generando
ademas cocleogramas realistas. Se contrastaron los resultados de las simulaciones con los
datos fisiologicos mas consensuados de la literatura [98]. Si bien aun es necesario comple-
tar el modelo incorporando mas datos fisiologicos y realizando alguna optimizacion de sus
parametros, se obtuvo en general un buen acuerdo tanto cualitativo como cuantitativamen-
te.
Se realizaron algunas comparaciones con algunos datos fisiologicos pero es necesario
completar esta etapa con mas datos de fenomenos auditivos y realizar una optimizacion
de los parametros. Muchos de los parametros utilizados fueron dejados constantes en el eje
de la coclea, pero para obtener mejores respuestas para todas las frecuencias es necesario
introducir dependencias espaciales en ciertos parametros como los del sistema activo y la
no linealidad.
El modelo de la coclea fue aplicado al estudio de tonos con modulacion en amplitud.
Por un lado se lo utilizo para generar un nuevo modelo para el computo de la rugosidad.
Mientras que los modelos mas utilizados para cuantificar la rugosidad son de caracter
espectral o mixto, en este trabajo buscamos plantear un modelo puramente temporal. Para
esto se utilizo la salida del modelo de la coclea, y se computo, mediante una ventana movil, la
amplitud de las modulaciones de la envolvente para cada canal de la coclea. La comparacion
de este modelo con datos experimentales, mostro que los resultados son promisorio, pero
es necesario modificar el tamano de la ventana utilizada en cada canal para lograr ajustes
en todo el rango de frecuencias.
Finalmente se planteo un mecanismo posible como base para los procesos cognitivos
de la comparacion de timbres de sonidos con modulacion. El modelado de la periferia con
inclusion de un banco de filtros de modulacion, permitio generar respuestas neuronales
prototıpicas que han sido observadas en el colıculo inferior. Estas respuestas permitieron
estimar la frecuencia de modulacion de los tonos SAM y en conjunto con la informacion to-
notopica entregar una representacion compacta de cada sonido. Las respuestas prototıpicas
propuestas tuvieron baja resolucion y gran solapamiento entre las bandas de frecuencias
moduladoras o portadora, lo que permitio calcular la distancia euclıdea entre las respuestas
118 Capıtulo 5. Conclusiones generales
y poder establecer una distancia entre los sonidos. Finalmente se simulo un experimento
con varios participantes agregando un ruido interno que afecta el peso relativo entre las
dimensiones de modulacion y de la portadora, obteniendo buenos resultados.
Apendice A
A.1. Escalamiento multidimensional
El analisis de escalamiento multidimensional (MDS) es una tecnica de reduccion de la
dimensionalidad con la cual es posible representar datos de un espacio de muchas dimensio-
nes, en un espacio de baja dimension tıpicamente 2 o 3. Los datos deben estar representados
por una matriz de distancias, o disimilitudes, y mediante un proceso de optimizacion se
buscan las coordenadas que mejor representan estas distancias en un espacio de dimension
menor.
El analisis de MDS puede servir varios propositos. Por un lado permite generar visualiza-
ciones accesibles para estudiar conjuntos de datos que de otra manera solo son representados
por numeros. Por otro lado, en los experimentos cognitivos, tambien es una herramienta
que permite descubrir las dimensiones perceptuales que pudieron ser utilizadas para juzgar
las disimilitudes.
Existen muchas variantes de MDS. Esta el MDS metrico clasico, en el cual se utiliza
una metrica euclidea, pero tambien es posible utilizar otras metricas para representar las
distancias. Y tambien esta el MDS no metrico, para los casos donde las disimilitudes no
representan distancias sino ordenes en un rango.
El analisis MDS clasico es identico al analisis por componentes principales (PCA del
ingles principal component analysis). Por lo tanto la esencia de la representacion en baja
dimensionalidad recae en filtrar las dimensiones que contribuyen menos a la varianza de los
datos.
Para encontrar la configuracion MDS que mejor satisface los datos, se trata de minimizar
119
120 Apendice A. Apendices
una funcion de perdida dada por la siguiente expresion:
σ(X) =∑
i<j
wij (dij(X)− δij)2 (A.1)
Esto representa, para una configuracion dada X, el valor cuadratico medio de la dife-
rencia pesada por wij entre las distancias dij(X) y las disimilitudes δij entre los puntos i y
j.
Con una formulacion similar se utiliza un coeficiente normalizado que simboliza la
calidad del ajuste, denominado Stress o Stress-1 :
Stress-1 =
√√√√√√√√
∑
i<j
(dij(X)− δij)2
∑
i<j
d2ij(X)(A.2)
Tambien existen otras variantes de MDS relacionadas al tipo de ajuste y no a la metrica
utilizada. En estos casos podemos encontrar el INDSCAL (del ingles individual differences
scaling), el CLASCAL y el CONSCAL. En este trabajo utilizamos el INDSCAL, para una
revision de los otros metodos dirigirse a McAdams et al. [78]. El INDSCAL permite, a partir
de varias fuentes de datos de disimilitudes, por ejemplo las respuestas de varios sujetos,
encontrar una configuracion geometrica que satisfaga en mayor medida a todos los datos.
Esto lo consigue asignando diferentes pesos en cada dimension para cada sujeto.
A.2. Cocleograma de banco de filtros gammatones 121
A.2. Cocleograma de banco de filtros gammatones
Los filtros gammatones fueron popularizados por Johannesma [59] como un modelo para
la respuesta impulso de las fibras auditivas, estimados a partir de la tecnica de correlacion
en reversa de los patrones de disparos. Los gammatones son un filtro pasa bandas cuya
respuesta impulso Gfc(t) es el producto de una funcion gamma y un tono (de ahı el
nombre ”gammatone”):
gfc(t) = tN−1e−2πtb(fc) cos(2πfct+ φ)u(t)
Donde N es el orden del filtro, fc es la frecuencia central en Hz, φ es la fase y u(t) es
la funcion escalon. La funcion b(fc) determina el ancho de banda para una dada frecuencia
central. Para fc/b(fc) suficientemente grande la repuesta en frecuencia del gammatone se
puede aproximar por la siguiente expresion:
G(f) ≈[1 +
j(f − fcb(fc)
]−N
(0 < f < ∞)
Por lo tanto puede verse que el filtro es simetrico alrededor de la frecuencia fc. En el
trabajo de Patterson et al. [88], mostraron que para un orden N = 4, el filtro gammatone
permite ajustar muy bien los filtros auditivos determinados experimentalmente.
El ancho de banda de los filtros gammatone se suele ajustar de manera proporcional
al ancho de banda rectangular equivalente (ERB) de los filtros auditivos, segun Patterson
et al. [88]:
b(f) = 1,013ERB(f)
La figura A.1 muestra la respuestas impulso y en frecuencia para ocho filtros gammatone
que estan espaciados equidistantes en la escala ERBN .
122 Apendice A. Apendices
Figura A.1: Respuestas inpulso y en frecuencia para ocho filtros gammatone, de diferentesfrecuencias centrales
A.3. Modelo espectral de rugosidad
El modelo espectral de la rugosidad utilizado en este trabajo esta basado en la formu-
lacion de Sethares [104] que calcula la rugosidad para un par de tonos puros de amplitudes
y frecuencias A1, A2, y f1, f2.
R = 5Amin ∗Amax
(e−b1s(fmax−fmin) − e−b2s(fmax−fmin)
)(A.3)
s = 0,24/(s1fmin + s2) (A.4)
Donde Amin = min(A1, A2), fmax = max(f1, f2), fmin = min(f1, f2) y los coeficientes
toman los siguientes valores b1 = 3,5, b2 = 5,75, s1 = 0,0207, s2 = 18,96.
Para el computo de la rugosidad total en un sonido con varias componentes se suman
las rugosidades parciales entre todos los pares de componentes presentes en el sonido. A
pesar de que este modelo no contempla las fases relativas de las componentes, los valo-
res entregados de rugosidad, tienen buena correspondencia con experimentos perceptuales
[114].
A.4. Hidrodinamica de la coclea 123
A.4. Acoplamiento hidrodinamico 1-D
El acoplamiento hidrodinamico es la principal forma de acoplamiento que hay entre las
distintas secciones de la membrana basilar (MB) y permite la formacion de la onda viajera.
El acoplamiento lateral dado por la rigidez de la MB es despreciable en comparacion al
acoplamiento hidrodinamico. Para modelar este acoplamiento es necesario representar a la
coclea como una caja llena de fluido que esta dividida por la particion coclear o MB para
simplificar (figura A.2).
Figura A.2
Es posible resolver el problema hidrodinamico en 3 dimensiones, pero tambien en aproxi-
maciones de 1 y 2 dimensiones [21]. Por simplicidad y eficiencia computacional utilizaremos
la aproximacion 1-D a partir del eje X. Esta aproximacion se llama de ”onda larga”, ya que
solo tiene validez en la region lejos de la resonancia, donde la longitud de onda es grande,
dado que en esa region la presion es homogenea en la dimension Z. Cerca de la resonancia,
cuando la longitud de onda es corta, la distribucion de la presion varıa en la dimension
Z de forma marcada, por lo que es necesario el desarrollo 2-D para un analisis con mayor
exactitud. A pesar de esto los resultados de la aproximacion 1-D son suficientemente validos
para realizar cocleogramas.
Por lo tanto consideremos las presiones del fluido unidimensionales pv y pt para las
rampas vestibular y timpanica respectivamente. Dado que las ondas de presion que se
propagan estan conectadas al final de la coclea por el helicotrema, es posible definir las
variables de la presion simetrica y asimetrica.
p = p−=
1
2(pv − pt)
124 Apendice A. Apendices
p+ =1
2(pv + pt)
La onda de presion simetrica genera compresion sobre la MB y la antisimetrica genera
movimientos transversales en la MB, y es la de interes. De esta manera se simplifican las
dos cavidades de fluidos como una sola que ejerce el doble de la presion.
Figura A.3: Seccion de la coclea rectangular. La conservacion de masa implica que lasvariaciones del flujo volumetrico U deben ser absorbidas por la velocidad de la MB.
El siguiente paso es establecer las leyes de conservacion para el fluido. En el caso unidi-
mensional, la ecuacion de la conservacion de la masa ∇ · u = 0 debe incluir el movimiento
de la MB y no puede reducirse a ∂u/∂x = 0. Esto implica que los cambios en la velocidad
volumetrica del fluido U se reflejan en la velocidad de la MB ∂h/∂t .
U(x+ dx, t)− U(x, t) =∂h(x, t)
∂tb dx
Hbu(x+ dx, t)− u(x, t)
dx=
∂h(x, t)
∂tb
∂u(x, t)
∂x=
1
H
∂h(x, t)
∂t(A.5)
Donde b es el ancho de la cavidad, y H la altura. Luego, podemos expresar la conser-
vacion de momento lineal en una dimension:
2ρ0∂u(x, t)
∂t= −∂p(x, t)
∂x(A.6)
A.4. Hidrodinamica de la coclea 125
Donde el factor 2 representa el hecho de que se consideran las presiones de las dos
cavidades. Si se deriva a la ecuacion A.5 con respecto al tiempo y a la ecuacion A.6 con
respecto a x, es posible igualar los terminos con derivadas cruzadas:
∂2u(x, t)
∂x∂t=
1
H
∂2h(x, t)
∂t2
2ρ0∂2u(x, t)
∂t∂x= −∂2p(x, t)
∂x2
Igualando obtenemos:
∂2p(x, t)
∂x2=
−2ρ0H
∂2h(x, t)
∂t2(A.7)
Esta ecuacion es la que gobierna el acoplamiento hidrodinamico. Puede entenderse como
una fuerza sobre la MB que esta relacionada a la concavidad de la onda de presion p.
126 Apendice A. Apendices
A.5. Relacion de dispersion del sistema activo
En la seccion 4.2 se introdujo el modelado de la coclea haciendo enfasis en las soluciones
numericas. Sin embargo, es posible establecer ciertos resultados teoricos si se consideraran
soluciones armonicas del movimiento de la MB. Retomemos las ecuaciones principales que
determinan el comportamiento de la MB.
m∂2h(x, t)
∂t2+ µ(x)
∂h(x, t)
∂t+ s(x)h(x, t) = −p(x, t) (A.8)
∂2p(x, t)
∂x2= −2ρ
H
∂2h(x, t)
∂t2(A.9)
La ecuacion A.8 determina las caracterısticas de los osciladores de la MB, mientras que
la A.9 determina el acoplamiento entre los osciladores. Si se platean soluciones armonica
h(x, t) = h(x)eiwt y p(x, t) = p(x)eiwt podemos escribir la ecuacion A.8 como la definicion
de la impedancia acustica especıfica de la MB ZMB(x):
ZMB = −p(x)
h(x)= −iwm+ µ(x) +
s(x)
iw(A.10)
Luego la ecuacion A.9 puede escribirse como:
∂2p(x)
∂x2− 2iwρ
HZMB(x)p(x) = 0 (A.11)
(A.12)
Es posible considerar una solucion armonica tambien para la parte espacial de la presion
p(x) = p0e−ikx, y permite expresar la ultima ecuacion como:
k(x)2 = − 2iwρ
HZMB(x)(A.13)
La ecuacion A.12 tiene cierta semejanza con la ecuacion de Helmholtz, con la diferencia
de que el termino k2 depende de x, por lo que no es posible encontrar soluciones analıticas
A.5. Relacion de dispersion del sistema activo 127
generales, salvo para ciertos casos. Sin embargo es posible analizar ciertos comportamientos
del sistema a partir de la relacion entre el vector de onda k y la impedancia, ecuacion A.13.
102103104
Frecuencia natural (Hz)
05000
1000015000
Re(k)
102103104
Frecuencia natural (Hz)
−15000−10000−5000
0
Im(k
)
Figura A.4: Sistema pasivo: Parte real e imaginaria del vector de onda k en funcion dela frecuencia natural de los osciladores. La linea vertical indica la frecuencia del estımulo
Primero observemos en la figura A.4 las partes reales e imaginarias de k para un estımu-
lo de 1000 Hz. Para la parte real, se puede observar como en la primera region, donde la
impedancia esta dominada por la constante elastica, el vector de onda crece hasta apro-
ximadamente la posicion del oscilador cuya frecuencia coincide con la del estımulo. Esto
indica de forma recıproca el comportamiento de la longitud de onda, la cual se hace cada
vez mas pequena hasta llegar a la region de resonancia. Luego de esta region, la parte real
disminuye ya que la impedancia esta dominada por la masa. Con respecto a la parte ima-
ginaria, podemos ver que esta toma valore negativos los cuales crecen rapidamente cuando
la impedancia esta dominada por la amortiguacion en la region de resonancia. Consideran-
do la solucion armonica de la presion p(x) = p0e−ikx podemos notar que la parte real de
k gobierna el comportamiento oscilatorio, mientras que la parte imaginar de k, es la que
gobierna el comportamiento exponencial. Esto permite establecer que la parte imaginaria
de k debe ser mayormente negativa para que las soluciones no diverjan. A continuacion
veremos como la inclusion del sistema activo afecta justamente este comportamiento.
La impedancia de la MB para el sistema activo puede escribirse a partir de la ecua-
128 Apendice A. Apendices
cion 4.19 utilizando la aproximacion h(x0) ≈ e−ikx0 solo valida para un entorno pequeno
alrededor de x0, lo que termina dando:
ZMB = −iwm+ µ(x) +k(x)
iw
(1− αβeikd + αe−ikd
)(A.14)
Si reemplazamos esta impedancia en la ecuacion A.13, podemos notar que queda una
ecuacion trascendente y no es posible despejar k analıticamente, pero si de forma numerica.
En la figura A.5 se puede observar la parte real e imaginaria del vector de onda k a partir
del sistema activo. Puede verse que las principales diferencias con el sistema pasivo se
encuentran en la region de la resonancia y en la region apical. Para la parte imaginaria,
puede verse una pequena desviacion hacia valores positivos en la region de la resonancia,
lo que indicarıa un comportamiento de expansion de la onda viajera en esa region.
102103104
Frecuencia natural (Hz)
05000
10000150002000025000
Re(k)
α=0
α=0.15
102103104
Frecuencia natural (Hz)
−80000
−60000
−40000
−20000
0
Im(k)
α=0
α=0.15
Figura A.5: Parte real e imaginaria del vector de onda k en funcion de la frecuencianatural de los osciladores, para el sistema pasivo (negro) y sistema activo (azul) con lossiguientes valores α = 0,15, β = 0,3. La linea vertical indica la frecuencia del estımulo
En la figura A.6 se muestra en detalle esta region y para varios valore de α. Podemos
ver que hay un valor crıtico donde ocurre una bifurcacion y las curvas se despegan. Las
A.5. Relacion de dispersion del sistema activo 129
900100011001200130014001500Frecuencia natural (Hz)
−4000
−2000
0
2000
4000
6000
8000
Im(k
)
α
0.00.090.130.150.160.1650.170.19
Figura A.6: Parte imaginaria del vector de onda k en funcion de la frecuencia naturalde los osciladores, para el sistema activo y varios valores de α (β = 0,3).
curvas que permanezcan del lado positivo tendran soluciones asociadas que terminaran
divergiendo, por lo que el sistema sera inestable. Sin embargo en el modelo completo con
no linealidad, esto no ocurre ya que las divergencias son frenadas por los terminos no
lineales, pero las respuestas pueden quedar saturadas. El mecanismo del sistema activo para
generar una inestabilidad puede ser utilizado para modelar las emisiones otoacusticas. Si el
coeficiente α es modificado en una sola region de la coclea se podran generar inestabilidades
locales, que terminan inyectando energıa en el sistema y pueden propagar oscilaciones hacia
la ventana oval.
130 Apendice A. Apendices
102103104
Frecuencia natural (Hz)
−20
0
20
40
60
80
Desp
laza
mie
nto
MB
α
0.00.090.130.150.16
.
Figura A.7: Magnitud del desplazamiento de la MB para los valores de α utilizados enla figura A.6
Bibliografıa
[1] Karsten Ahnert and Mario Mulansky. Odeint-solving ordinary differential equations
in c++. arXiv preprint arXiv:1110.3397, 2011. 93
[2] Jonathan Ashmore. Cochlear outer hair cell motility. Physiological Reviews, 88(1):
173–210, 2008. 74
[3] von W Aures. A procedure for calculating auditory roughness. Acustica, 58(5):268–
281, 1985. 30, 107, 108
[4] Bruno Bartolozzi. New sounds for woodwind, volume 96. Oxford University Press,
1982. 37
[5] Arthur H Benade. Fundamentals of Musical Acoustics: Second. Courier Corporation,
2012. 35
[6] G Bi. Zur theorie des homes; die schwingungsform der basilarmembran. Phys. Z, 29:
793–810, 1928. 77
[7] Guy J Brown and Martin Cooke. Computational auditory scene analysis. Computer
Speech & Language, 8(4):297–336, 1994. 20
[8] Anne Caclin, Stephen McAdams, Bennett K Smith, and Suzanne Winsberg. Acoustic
correlates of timbre space dimensions: A confirmatory study using synthetic tonesa).
The Journal of the Acoustical Society of America, 118(1):471–482, 2005. 11
[9] Peter A Cariani. Neural timing nets. Neural Networks, 14(6):737–753, 2001. 109
131
132 Bibliografıa
[10] J Douglas Carroll and Jih-Jie Chang. Analysis of individual differences in multi-
dimensional scaling via an n-way generalization of “eckart-young” decomposition.
Psychometrika, 35(3):283–319, 1970. 50
[11] Gerard R Charbonneau. Timbre and the perceptual effects of three types of data
reduction. Computer Music Journal, pages 10–19, 1981. 10
[12] Jer-Ming Chen, John Smith, and Joe Wolfe. Saxophone acoustics: introducing a
compendium of impedance and sound spectra. Acoustics Australia, 37(1-19), 2009.
34, 35, 36
[13] Jer Ming Chen, John Smith, and Joe Wolfe. Saxophonists tune vocal tract resonan-
ces in advanced performance techniques. The Journal of the Acoustical Society of
America, 129(1):415, January 2011. ISSN 1520-8524. doi: 10.1121/1.3514423. URL
http://www.ncbi.nlm.nih.gov/pubmed/21303021. 35
[14] Taishih Chi, Yujie Gao, Matthew C Guyton, Powen Ru, and Shihab Shamma.
Spectro-temporal modulation transfer functions and speech intelligibility. The Jour-
nal of the Acoustical Society of America, 106(5):2719–2732, 1999. 22
[15] Michel Chion and Pierre Schaeffer. Guide des objects sonores. Buchet/Chastel, 1983.
3, 37
[16] Peter Dallos. Neurobiology of cochlear inner and outer hair cells: intracellular recor-
dings. Hearing research, 22(1):185–198, 1986. 75
[17] Peter Daniel and Reinhard Weber. Psychoacoustical roughness: Implementation of
an optimized model. Acta Acustica united with Acustica, 83(1):113–123, 1997. 30,
106
[18] Torsten Dau, Birger Kollmeier, and Armin Kohlrausch. Modeling auditory processing
of amplitude modulation. i. detection and masking with narrow-band carriers. The
Journal of the Acoustical Society of America, 102(5):2892–2905, 1997. 109, 110
Bibliografıa 133
[19] E de Boer. Auditory physics. Physical principles in hearing theory. I. Physics re-
ports, 62:87–174, 1980. URL http://www.sciencedirect.com/science/article/
pii/0370157380901003. 77, 84, 85, 86
[20] E de Boer. Auditory physics. Physical principles in hearing theory. II. Phy-
sics Reports, 1984. URL http://www.sciencedirect.com/science/article/pii/
037015738490108X. 84
[21] E de Boer. Auditory physics. Physical principles in hearing theory. III.
Physics Reports, 203(3):125–231, May 1991. ISSN 03701573. doi: 10.1016/
0370-1573(91)90068-W. URL http://linkinghub.elsevier.com/retrieve/pii/
037015739190068W. 81, 84, 123
[22] Alain De Cheveigne. Pitch perception models. In Pitch, pages 169–233. Springer,
2005. 56
[23] RJ Diependaal and Hendrikus Duifhuis. Numerical methods for solving one-
dimensional cochlear models in the time domain. The Journal of the Acoustical So-
ciety of America, (May 2013):1655–1666, 1987. URL http://link.aip.org/link/
?JASMAN/82/1655/1. 83
[24] Sophie Donnadieu. Representation mentale du timbre des sons complexes et effets de
contexte. PhD thesis, Paris 5, 1997. 4
[25] Sophie Donnadieu. Mental representation of the timbre of complex sounds. In Analy-
sis, synthesis, and perception of musical sounds, pages 272–319. Springer, 2007. 9
[26] Hendrikus Duifhuis. Cochlear Mechanics: Introduction to a Time Domain Analysis
of the Nonlinear Cochlea. Springer Science & Business Media, 2012. 85, 90, 91
[27] TAJ Duke and Frank Julicher. Active Traveling Wave in the Cochlea. Physical
Review Letters, 90(15):1–4, April 2003. ISSN 0031-9007. doi: 10.1103/PhysRevLett.
90.158101. URL http://link.aps.org/doi/10.1103/PhysRevLett.90.158101. 81
134 Bibliografıa
[28] V M Eguıluz, M Ospeck, Y Choe, A J Hudspeth, and Marcelo O. Magnasco. Essential
nonlinearities in hearing. Physical review letters, 84(22):5232–5, May 2000. ISSN
0031-9007. URL http://www.ncbi.nlm.nih.gov/pubmed/14525401. 80
[29] Stephen J Elliott, Emery M Ku, and Ben Lineton. A state space model for
cochlear mechanics. The Journal of the Acoustical Society of America, 122(5):
2759–71, November 2007. ISSN 1520-8524. doi: 10.1121/1.2783125. URL http:
//www.ncbi.nlm.nih.gov/pubmed/18189567. 83
[30] Hugo Fastl and Eberhard Zwicker. Psychoacoustics: Facts and models, volume 22.
Springer Science & Business Media, 2007. 8, 18, 28, 29, 107, 108
[31] Anne Faure. Des sons aux mots, comment parle-t-on du timbre musical? PhD thesis,
Ecole des Hautes Etudes en Sciences Sociales (EHESS), 2000. 5
[32] Harvey Fletcher. Auditory patterns. Reviews of modern physics, 12(1):47, 1940. 18
[33] Maria N Geffen, Judit Gervain, Janet F Werker, and Marcelo O Magnasco. Au-
ditory perception of self-similarity in water sounds. Frontiers in integrative neu-
roscience, 5(May):15, January 2011. ISSN 1662-5145. doi: 10.3389/fnint.2011.
00015. URL http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=
3095814&tool=pmcentrez&rendertype=abstract. 10
[34] CD Geisler and Chunning Sang. A cochlear model using feed-forward outer-hair-cell
forces. Hearing research, 86:132–146, 1995. URL http://www.sciencedirect.com/
science/article/pii/037859559500064B. 82
[35] James Jerome Gibson. The senses considered as perceptual systems. 1966. 3
[36] Edward Givelberg and Julian Bunn. A comprehensive three-dimensional model of
the cochlea. Journal of Computational Physics, 191(2):377–391, 2003. 83
[37] Richard J Gold, T y Pumphrey. Hearing. i. the cochlea as a frequency analyzer.
Proceedings of the Royal Society of London. Series B-Biological Sciences, 135(881):
462–491, 1948. 78
Bibliografıa 135
[38] Julius L Goldstein. Modeling rapid waveform compression on the basilar membrane
as multiple-bandpass-nonlinearity filtering. Hearing research, 49(1):39–60, 1990. 20,
83
[39] R Gottfried. A more accurate notation for multiphonics using sideband ratios, 2008.
38
[40] John M Grey and James A Moorer. Perceptual evaluations of synthesized musical
instrument tones. The Journal of the Acoustical Society of America, 62(2):454–462,
1977. 10, 11
[41] Thomas Grill. Perceptually informed organization of textural sounds. PhD thesis,
Johannes Kepler University Linz, Austria, 2012. 15
[42] Thomas Grill, Arthur Flexer, and Stuart Cunningham. Identification of perceptual
qualities in textural sounds using the repertory grid method. In 6th Audio Mostly
Conference (AM ’11), pages 67–74, 2011. 5, 115
[43] John J Guinan, Alec Salt, and Mary Ann Cheatham. Progress in cochlear physiology
after bekesy. Hearing research, 293(1):12–20, 2012. 80
[44] Brian Gygi, Gary R Kidd, and Charle S Watson. Similarity and categorization of
environmental sounds. Perception & psychophysics, 69(6):839–55, August 2007. ISSN
0031-5117. URL http://www.ncbi.nlm.nih.gov/pubmed/18018965. 11, 13, 15
[45] John M Hajda. Relevant acoustical cues in the identification of western orchestral
instrument tones. The Journal of the Acoustical Society of America, 102(5):3085–
3085, 1997. 9
[46] John M Hajda. The effect of amplitude and centroid trajectories on the timbre of
percussive and nonpercussive orchestral instruments. In Proc. 16t h International
Congress on Acoustics and 135th Meeting of the Acoustical Society of America, volu-
me 3, pages 1887–1888, 1998. 8
136 Bibliografıa
[47] John M Hajda. The effect of dynamic acoustical features on musical timbre. In
Analysis, synthesis, and perception of musical sounds, pages 250–271. Springer, 2007.
9
[48] Stephen Handel. Perceptual coherence: Hearing and seeing. Oxford University Press
New York, 2006. 4, 5
[49] Stephen Handel and Molly L Erickson. A rule of thumb: The bandwidth for timbre
invariance is one octave. Music Perception, 19(1):121–126, 2001. 56
[50] Trevor Hastie, Robert Tibshirani, Jerome Friedman, T Hastie, J Friedman, and
R Tibshirani. The elements of statistical learning, volume 2. Springer, 2009. 4
[51] Hermann LF Helmholtz. On the Sensations of Tone as a Physiological Basis for the
Theory of Music. Cambridge University Press, 2009. 27
[52] M J Hewitt and R Meddis. A computer model of amplitude-modulation sensitivity
of single units in the inferior colliculus. The Journal of the Acoustical Society of
America, 95(4):2145–2159, 1994. ISSN 00014966. doi: 10.1121/1.408676. 109
[53] Christophe Hourdin, Gerard Charbonneau, and Tarek Moussa. A multidimensio-
nal scaling analysis of musical instruments’ time-varying spectra. Computer Music
Journal, pages 40–55, 1997. 7
[54] AJ Hudspeth. Making an effort to listen: mechanical amplification in the ear. Neuron,
59(4):530–545, 2008. 80
[55] William Hutchinson and Leon Knopoff. The acoustic component of western conso-
nance. Journal of New Music Research, 7(1):1–29, 1978. 27, 28
[56] American National Standards Institute. Acoustical terminology ANSI S1.1-1994.
1994. 2
[57] Toshio Irino and Roy D Patterson. A time-domain, level-dependent auditory filter:
The gammachirp. The Journal of the Acoustical Society of America, 101(1):412–419,
1997. 20
Bibliografıa 137
[58] Paul Iverson and Carol L Krumhansl. Isolating the dynamic attributes of musical
timbrea). The Journal of the Acoustical Society of America, 94(5):2595–2603, 1993.
11
[59] Peter IM Johannesma. The pre-response stimulus ensemble of neurons in the cochlear
nucleus. In Symposium on Hearing Theory, pages 58–69. IPO Eindhoven, Holland,
1972. 121
[60] P X Joris, C E Schreiner, and a Rees. Neural processing of amplitude-modulated
sounds. Physiological reviews, 84(2):541–77, April 2004. ISSN 0031-9333. doi: 10.
1152/physrev.00029.2003. URL http://www.ncbi.nlm.nih.gov/pubmed/15044682.
23, 25, 26
[61] RH Kay. Hearing of modulation in sounds. Physiological Reviews, 62(3):894–975,
1982. 22
[62] Piotr Kazmierczak and Ulrich Muller. Sensing sound: molecules that orchestrate
mechanotransduction by hair cells. Trends in neurosciences, 35(4):220–229, 2012. 74
[63] Douglas H. Keefe and Bernice Laden. Correlation dimension of woodwind multipho-
nic tones. The Journal of the Acoustical Society of America, 90(October):1754–65,
October 1991. ISSN 0001-4966. URL http://link.aip.org/link/?JASMAN/90/
1754/1http://www.ncbi.nlm.nih.gov/pubmed/1960272. 36
[64] David T Kemp. Stimulated acoustic emissions from within the human auditory
system. The Journal of the Acoustical Society of America, 64(5):1386–1391, 1978. 78
[65] Roger A Kendall and Edward C Carterette. Perceptual scaling of simultaneous wind
instrument timbres. Music Perception, pages 369–404, 1991. 11
[66] Roger A Kendall, Edward C Carterette, and John M Hajda. Perceptual and acoustical
features of natural and synthetic orchestral instrument tones. Music Perception, pages
327–363, 1999. 11
[67] Albert Kern. A nonlinear biomorphic Hopf-Amplifier Model of the Cochlea. PhD
thesis, 2003. 81, 84, 89
138 Bibliografıa
[68] Daniel Kientzy. Les sons multiples aux saxophones. Editions Salabert, 1982. 37
[69] B S Krishna and M N Semple. Auditory temporal processing: responses to sinusoidally
amplitude-modulated tones in the inferior colliculus. Journal of neurophysiology, 84:
255–273, 2000. ISSN 15221598. 109
[70] Emery M Ku, Stephen J Elliott, and Ben Lineton. Limit cycle oscillations in a
nonlinear state space model of the human cochlea. The Journal of the Acoustical
Society of America, 126(2):739–750, August 2009. ISSN 00014966. doi: 10.1121/1.
3158861. URL http://www.ncbi.nlm.nih.gov/pubmed/19640040. 83
[71] S Lakatos. A common perceptual space for harmonic and percussive timbres. Per-
ception & psychophysics, 62(7):1426–39, October 2000. ISSN 0031-5117. URL
http://www.ncbi.nlm.nih.gov/pubmed/11143454. 11
[72] Gerald Langner and Christoph E Schreiner. Periodicity coding in the inferior collicu-
lus of the cat. i. neuronal mechanisms. Journal of Neurophysiology, 60(6):1799–1822,
1988. 23, 109
[73] RF Lyon. Filter cascades as analogs of the cochlea. Neuromorphic systems en-
gineering, (lD):3–19, 1998. URL http://link.springer.com/chapter/10.1007/
978-0-585-28001-1_1. 17
[74] Marcelo O. Magnasco. A Wave Traveling over a Hopf Instability Shapes the Co-
chlear Tuning Curve. Physical Review Letters, 90(5):1–4, February 2003. ISSN 0031-
9007. doi: 10.1103/PhysRevLett.90.058101. URL http://link.aps.org/doi/10.
1103/PhysRevLett.90.058101. 81
[75] F Mammano and R Nobili. Biophysics of the cochlea: linear approximation. The
Journal of the Acoustical Society of America, 93(June 1993):3320–3332, 1993. ISSN
00014966. doi: 10.1121/1.405716. 83, 89
[76] Stephen McAdams. Segregation of concurrent sounds. i: Effects of frequency modu-
lation coherence. The Journal of the Acoustical Society of America, 86(6):2148–2159,
1989. 22
Bibliografıa 139
[77] Stephen McAdams. Musical timbre perception. In Diana Deutsch, editor, The psy-
chology of music. Elsevier, 2013. 2, 9, 12
[78] Stephen McAdams, Suzanne Winsberg, Donnadieu Sophie, Geert De Soete, and Jo-
chen Krimphoff. Perceptual scaling of synthesized musical timbres: Common dimen-
sions, specificities, and latent subject classes. Psychological . . . , pages 177–192, 1995.
URL http://link.springer.com/article/10.1007/BF00419633. 7, 11, 12, 14, 120
[79] Stephen McAdams, J W Beauchamp, and S Meneguzzi. Discrimination of musical
instrument sounds resynthesized with simplified spectrotemporal parameters. The
Journal of the Acoustical Society of America, 105(2 Pt 1):882–97, February 1999.
ISSN 0001-4966. URL http://www.ncbi.nlm.nih.gov/pubmed/9972573. 8, 10
[80] Ray Meddis, Lowel P O’Mard, and Enrique A Lopez-Poveda. A computational al-
gorithm for computing nonlinear auditory frequency selectivity. The Journal of the
Acoustical Society of America, 109(6):2852–2861, 2001. 20, 83
[81] James R Miller and Edward C Carterette. Perceptual space for musical structures.
The Journal of the Acoustical Society of America, 58(3):711–720, 1975. 11
[82] Andrzej Miskiewicz, Andrzej Rakowski, and Teresa Rosciszewska. Perceived rough-
ness of two simultaneous pure tones. Acta acustica united with acustica, 92(2):331–
336, 2006. 28, 106, 107
[83] Brian C J Moore and Brian R. Glasberg. Formulae describing frequency selectivity
as a function of frequency and level, and their use in calculating excitation patterns.
Hearing research, 28(2-3):209–25, January 1987. ISSN 0378-5955. URL http://www.
ncbi.nlm.nih.gov/pubmed/3654390. 18, 19, 20
[84] Brian CJ Moore. An introduction to the psychology of hearing. Brill, 2012. 17, 26
[85] Jong-Hoon Nam. Microstructures in the organ of corti help outer hair cells form
traveling waves along the cochlear coil. Biophysical journal, 106(11):2426–2433, 2014.
77
140 Bibliografıa
[86] Stephen T Neely and D O Kim. A model for active elements in cochlear biomechanics.
The journal of the acoustical society of America, pages 1472–1480, 1986. URL http:
//link.aip.org/link/?JASMAN/79/1472/1. 81, 89
[87] Guangjian Ni, Stephen J Elliott, Mohammad Ayat, and Paul D Teal. Modelling
cochlear mechanics. BioMed research international, 2014:150637, January 2014. ISSN
2314-6141. doi: 10.1155/2014/150637. URL http://www.pubmedcentral.nih.gov/
articlerender.fcgi?artid=4130145&tool=pmcentrez&rendertype=abstract. 84
[88] RD Patterson, Ian Nimmo-Smith, John Holdsworth, and Peter Rice. An efficient
auditory filterbank based on the gammatone function. In a meeting of the IOC
Speech Group on Auditory Modelling at RSRE, volume 2, 1987. 20, 121
[89] Roy D Patterson. Auditory filter shapes derived with noise stimuli. The Journal of
the Acoustical Society of America, 59(3):640–654, 1976. 20
[90] James O Pickles. An introduction to the physiology of hearing. Brill, 2012. 16, 17,
72, 74, 76
[91] Reinier Plomp. Timbre as a multidimensional attribute of complex tones. Frequency
analysis and periodicity detection in hearing, pages 397–414, 1970. 11
[92] Reinier Plomp and Willem JM Levelt. Tonal consonance and critical bandwidth. The
journal of the Acoustical Society of America, 38(4):548–560, 1965. 27, 28, 30
[93] Daniel Pressnitzer. Perception de rugosite psychoacoustique: D’un attribut elemen-
taire de l’audition a l’ecoute musicale. PhD thesis, Paris 6, 1998. 27, 28, 29
[94] Daniel Pressnitzer, Stephen McAdams, Suzanne Winsberg, and Joshua Fineberg.
Perception of musical tension for nontonal orchestral timbres and its relation to psy-
choacoustic roughness. Perception & psychophysics, 62(1):66–80, 2000. 27
[95] Martın Proscia. Acercamiento al saxofon multifonico. una perspectiva de estudio.
Revista del ISM, 1(13):171–194, 2011. 37
Bibliografıa 141
[96] Richard A Reale and Thomas J Imig. Tonotopic organization in auditory cortex of
the cat. Journal of Comparative Neurology, 192(2):265–291, 1980. 109
[97] Pablo E Riera, Martin Proscia, and Manuel C Eguia. A comparative study of saxop-
hone multiphonics: Musical, psychophysical and spectral analysis. Journal of New
Music Research, 43(2):202–213, 2014. 15, 48
[98] Luis Robles and Mario A. Ruggero. Mechanics of the mammalian cochlea. Physio-
logical reviews, 81(3):1305–52, July 2001. ISSN 0031-9333. URL http://www.ncbi.
nlm.nih.gov/pubmed/11427697. 117
[99] Gian Luca Romani, Samuel J Williamson, and Lloyd Kaufman. Tonotopic organiza-
tion of the human auditory cortex. Science, 216(4552):1339–1340, 1982. 76
[100] M. Rudnicki and W. Hemmert. Cochlea: inner ear models in python. 93
[101] Mario A. Ruggero, S S Narayan, a N Temchin, and a Recio. Mechanical bases
of frequency tuning and neural excitation at the base of the cochlea: compari-
son of basilar-membrane vibrations and auditory-nerve-fiber responses in chinchi-
lla. Proceedings of the National Academy of Sciences of the United States of Ame-
rica, 97(22):11744–50, October 2000. ISSN 0027-8424. doi: 10.1073/pnas.97.22.
11744. URL http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=
34344&tool=pmcentrez&rendertype=abstract. 79, 81
[102] Severine Samson, R J Zatorre, and JO Ramsay. Multidimensional scaling of synthetic
musical timbre: Perception of spectral and temporal characteristics. Canadian Jour-
nal of . . . , pages 307–315, 1997. URL http://psycnet.apa.org/journals/cep/51/
4/307/. 11, 12, 13
[103] Pierre Schaeffer. Traite des objets musicaux. 1966. 3, 37
[104] William A Sethares. Local consonance and the relationship between timbre and scale.
The Journal of the Acoustical Society of America, 94(3):1218–1228, 1993. 27, 28, 42,
59, 106, 107, 108, 122
142 Bibliografıa
[105] Evan C Smith and Michael S Lewicki. Efficient auditory coding. Nature, 439(7079):
978–982, 2006. 76
[106] Michael Studdert-Kennedy, Alvin M Liberman, Katherine S Harris, and Franklin S
Cooper. Motor theory of speech perception: A reply to lane’s critical review. 1970. 7
[107] Christian J Sumner, Enrique A Lopez-Poveda, Lowel P O’Mard, and Ray Meddis. A
revised model of the inner-hair cell and auditory-nerve complex. The Journal of the
Acoustical Society of America, 111(5):2178–2188, 2002. 84
[108] Qing Tan and Laurel H Carney. A phenomenological model for the responses of
auditory-nerve fibers. II. Nonlinear tuning with a frequency glide. The Journal of
the Acoustical Society of America, 114(4):2007, 2003. ISSN 00014966. doi: 10.1121/
1.1608963. URL http://scitation.aip.org/content/asa/journal/jasa/114/4/
10.1121/1.1608963. 75, 92
[109] Damien Tardieu and Stephen McAdams. Perception of dyads of impulsive and sus-
tained instrument sounds. Music Perception, 30(2):117–128, 2012. 11
[110] Ernst Terhardt. On the perception of periodic sound fluctuations (roughness). Acta
Acustica united with Acustica, 30(4):201–213, 1974. 30, 31
[111] Amos Tversky. Features of similarity. Psychological Review, 84(4):327–352, 1977.
ISSN 1939-1471(Electronic);0033-295X(Print). doi: 10.1037/0033-295X.84.4.327. 3
[112] Kanzuo Ueda. A hierarchical structure for adjectives describing timbre. The Journal
of the Acoustical Society of America, 100(4):2751–2751, 1996. 5
[113] Panteleimon Nestor Vassilakis. Perceptual and physical properties of amplitude fluc-
tuation and their musical significance. PhD thesis, UNIVERSITY OF CALIFORNIA
Los Angeles, 2001. 28
[114] Pantelis N Vassilakis. Auditory roughness as means of musical expression. Selected
Reports in Ethnomusicology, 12:119–144, 2005. 122
Bibliografıa 143
[115] Sarah Verhulst, Torsten Dau, and Christopher a Shera. Nonlinear time-domain co-
chlear model for transient stimulation and human otoacoustic emission. The Journal
of the Acoustical Society of America, 132(6):3842–8, December 2012. ISSN 1520-8524.
doi: 10.1121/1.4763989. URL http://www.ncbi.nlm.nih.gov/pubmed/23231114.
83
[116] Erich M von Hornbostel and Curt Sachs. Classification of musical instruments: Trans-
lated from the original german by anthony baines and klaus p. wachsmann. The
Galpin Society Journal, pages 3–29, 1961. 4
[117] Marcus Weiss and Giorgio Netti. The techniques of saxophone playing. Barenreiter,
2010. 37
[118] Bo Wen. MODELING THE NONLINEAR ACTIVE COCHLEA: MATHEMATICS
AND ANALOG VLSI. PhD thesis, 2006. 89, 90
[119] Bo Wen and Kwabena Boahen Kwabena Boahen. A linear cochlear model with active
bi-directional coupling. Proceedings of the 25th Annual International Conference of
the IEEE Engineering in Medicine and Biology Society (IEEE Cat. No.03CH37439),
3:1–5, 2003. ISSN 1094-687X. doi: 10.1109/IEMBS.2003.1280129. 81, 83
[120] David L Wessel. Timbre space as a musical control structure. Computer music
journal, pages 45–52, 1979. 7, 11
[121] LA Westerman and RL Smith. A diffusion model of the transient response of the
cochlear inner hair cell synapse. The Journal of the Acoustical Society of . . . , 83(June
1988):2266–2276, 1988. URL http://scitation.aip.org/content/asa/journal/
jasa/83/6/10.1121/1.396357. 93
[122] Yong-Jin Yoon, Charles R Steele, and Sunil Puria. Feed-forward and feed-backward
amplification model from cochlear cytoarchitecture: an interspecies comparison.
Biophysical journal, 100(1):1–10, 2011. 82, 94
[123] Xin Zhang and Zbigniew W Ras. Analysis of sound features for music timbre re-
144 Bibliografıa
cognition. In Multimedia and Ubiquitous Engineering, 2007. MUE’07. International
Conference on, pages 3–8. IEEE, 2007. 8
[124] Muhammad S A Zilany, Ian C Bruce, Paul C Nelson, and Laurel H Carney. A
phenomenological model of the synapse between the inner hair cell and auditory
nerve: long-term adaptation with power-law dynamics. The Journal of the Acous-
tical Society of America, 126(5):2390–412, November 2009. ISSN 1520-8524. doi:
10.1121/1.3238250. URL http://www.pubmedcentral.nih.gov/articlerender.
fcgi?artid=2787068&tool=pmcentrez&rendertype=abstract. 84, 92, 93, 113
[125] Muhammad SA Zilany, Ian C Bruce, and Laurel H Carney. Updated parameters and
expanded simulation options for a model of the auditory periphery. The Journal of
the Acoustical Society of America, 135(1):283–286, 2014. 84
[126] G Zweig. Finding the impedance of the organ of Corti. The Journal of the Acoustical
Society of America, 89(3):1229–54, March 1991. ISSN 0001-4966. URL http://www.
ncbi.nlm.nih.gov/pubmed/2030212. 81
[127] Eberhard Zwicker and Ernst Terhardt. Analytical expressions for critical-band rate
and critical bandwidth as a function of frequency. The Journal of the Acoustical
Society of America, 68(5):1523–1525, 1980. 28
Agradecimientos
Agradecimientos
El primero de los agradecimientos corresponde a Manuel Eguıa, el director de esta tesis,
ya que me ha alentado a seguir este apasionante camino vinculando la ciencia y la musica.
Al mismo tiempo es responsable de haber fundado el ((LAPSo)), un espacio unico en estas
coordenadas, para la investigacion en temas de musica, acustica y neurociencia.
Recuerdo uno de los primero encuentros hace tiempo en el 2007, cuando Manuel me
invito a hablar sobre un proyecto que relacionaba disonancia musical y fısica cuantica
(Helmholtz vs Schrodinger). Luego, otro gran hito en el 2011, con los llamadores de angeles
gigantes y aquella gran aventura en el puente.
Contar con el LAPSo para trabajar, experimentar y sobre todo participar desde el
comienzo en su formacion, con todo lo que eso implica, fue muy enriquecedor. Gracias
Manuel.
Tambien quiero agradecer a todas las personas detras de las instituciones que tuvieron
relacion con este trabajo. En la Universidad Nacional de Quilmes a los docentes e integrantes
de la Carrera de Musica y Tecnologıa. En la Universidad de Buenos Aires a los docentes
del Departamento de Fısica. Y por supuesto al Estado Argentino, al CONICET y a la
educacion publica.
Un agradecimiento muy especial a las personas que me ayudaron con correcciones sobre
el manuscrito de esta tesis, Hernan Kerllenevich, Alma Laprida, Ignacio Spiousas. Sin la
ayuda de ellos hubiese sido muy difıcil.
Uno de los agradecimientos mas importante es para mi madre Silvia, por todo lo in-
145
146 Agradecimientos
conmensurable que ha hecho siempre para que las cosas funcionen y yo este donde estoy.
Gracias a toda mi familia, mis abuelos y abuelas, tıos y tıas, primos y primas, por toda la
energıa incondicional que me han dado.
Agradecimientos mayusculos a Alma que me ha alimentado y curado durante el proceso
de escritura de esta tesis.
Durante los anos de la tesis tuve el gusto de trabajar en proyectos en conjunto con
diversas personas que han influenciado de una u otra forma en mi trabajo. Gracias a Hernan
Kerllenevich por las interminables horas de felicidad de musica neuronal con pure data y
por su inspiracion musical. Gracias a Martın Proscia por su companerismo academico en
el estudio de la acustica del saxofon y los multifonicos. Gracias a Marcos Trevisan por
sumarme en el trabajo sobre los imitadores de voz, fue una muy buena experiencia. Gracias
a Rafael Grimson por su generosidad y su genial forma de laburar. Gracias a Mercedes y
Marina por sus espıritus e invitarme a participar de tantos proyectos musicales.
No pueden faltar los companeros del laboratorio, las cataratas de humor y metegol.
Gracias por la companıa a Ramiro Vergara, Ignacio Spiousas, Esteban Calcagno, Ezequiel
Abegu, Pablo Etchemendy y Alejo Alberti.
Y gracias a todos los amigos que siempre van a estar.