Download - Estudio de la percepción tímbrica en sonidos con ... · percepcion t´ımbrica donde la principal caracter´ıstica temporal es el tiempo de ataque. ... m´etodos usados en este

Di r ecci ó n:Di r ecci ó n: Biblioteca Central Dr. Luis F. Leloir, Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires. Intendente Güiraldes 2160 - C1428EGA - Tel. (++54 +11) 4789-9293

Co nta cto :Co nta cto : [email protected]

Tesis Doctoral

Estudio de la percepción tímbrica enEstudio de la percepción tímbrica ensonidos con modulación mediantesonidos con modulación mediante

experimentos psicofísicos yexperimentos psicofísicos ymodelado de la periferia auditivamodelado de la periferia auditiva

Riera, Pablo Ernesto

2015-03-30

Este documento forma parte de la colección de tesis doctorales y de maestría de la BibliotecaCentral Dr. Luis Federico Leloir, disponible en digital.bl.fcen.uba.ar. Su utilización debe seracompañada por la cita bibliográfica con reconocimiento de la fuente.

This document is part of the doctoral theses collection of the Central Library Dr. Luis FedericoLeloir, available in digital.bl.fcen.uba.ar. It should be used accompanied by the correspondingcitation acknowledging the source.

Cita tipo APA:

Riera, Pablo Ernesto. (2015-03-30). Estudio de la percepción tímbrica en sonidos conmodulación mediante experimentos psicofísicos y modelado de la periferia auditiva. Facultadde Ciencias Exactas y Naturales. Universidad de Buenos Aires.

Cita tipo Chicago:

Riera, Pablo Ernesto. "Estudio de la percepción tímbrica en sonidos con modulación medianteexperimentos psicofísicos y modelado de la periferia auditiva". Facultad de Ciencias Exactas yNaturales. Universidad de Buenos Aires. 2015-03-30.

http://digital.bl.fcen.uba.ar

http://digital.bl.fcen.uba.ar

mailto:[email protected]

UNIVERSIDAD DE BUENOS AIRES

Facultad de Ciencias Exactas y Naturales

Departamento de Fısica

Estudio de la percepcion tımbrica en sonidos con

modulacion mediante experimentos psicofısicos y

modelado de la periferia auditiva

Tesis presentada para optar al tıtulo de

Doctor de la Universidad de Buenos Aires en el area Ciencias Fısicas

Por

Lic. Pablo Ernesto Riera

Director de tesis: Dr. Manuel Camilo Eguıa

Consejero de estudios: Dr. Mariano Sigman

Lugar de trabajo: Laboratorio de Acustica y Percepcion Sonora,

Departamento de Ciencias Sociales, Universidad Nacional de Quilmes.

Buenos Aires, 30 de Marzo de 2015

Estudio de la percepcion tımbrica en sonidos con

modulacion mediante experimentos psicofısicos y

modelado de la periferia auditiva

Pablo Ernesto Riera

Buenos Aires, 2015

Resumen

La percepcion tımbrica es uno de los fenomenos mas complejos que realiza el sistemaauditivo. El timbre, originalmente establecido como la cualidad que permite discriminarinstrumentos musicales entre sı, en la actualidad se encuentra mas vinculado con el con-cepto ecologico de identificacion de las fuentes sonoras en un entorno natural. Su inherentecaracter multidimensional, hace que la relacion entre la forma de onda de un sonido y eltimbre percibido sea una relacion compleja, en la cual distintas partes del sistema auditi-vo estan involucradas. A pesar de estas limitaciones, es sabido que hay ciertos atributosacusticos temporales y espectrales que suelen destacarse en la percepcion tımbrica. Losmas relevantes son, por un lado, el tiempo de ataque de la envolvente como caracterısticatemporal y por otro el brillo o centroide espectral como caracterıstica espectral.

En este trabajo se utilizaron dos metodologıas para estudiar el timbre. Por un lado, serealizaron dos experimentos psicofısicos de comparacion de pares de sonidos y, por otro, lostimbres fueron estudiados mediante tecnicas de procesamiento de senales y el modelado dela periferia auditiva. Uno de los experimentos fue realizado utilizando sonidos de amplitudmodulada sinusoidalmente como estımulos y llevado a cabo masivamente a traves de In-ternet, mientras que para el otro experimento, se utilizaron multifonicos del saxo alto enun ambiente controlado. Estas dos familias de sonidos poseen modulaciones como atributotemporal caracterıstico a diferencia de los que son utilizados en muchos de los estudios depercepcion tımbrica donde la principal caracterıstica temporal es el tiempo de ataque.

Los experimentos demostraron que la modulacion temporal fue un atributo salientejunto con el centroide espectral para ambos conjuntos de sonidos. Ademas, se observo quesonidos que se encontraban agrupados en un espacio de parametros de control se encontra-ban agrupados tambien, en la mayor parte de los casos, en los correspondientes espaciosperceptuales. En cambio, las distancias entre los grupos en estos espacios se vieron modi-ficadas.

Por otra parte, los sonidos fueron analizados en base al procesamiento de sus senalesy mediante simulaciones de la periferia auditiva. Para esto se desarrollo un modelo dela periferia auditiva con enfasis en la mecanica coclear, donde se opto por un modelodinamico no lineal y con alimentacion lateral. Este modelo fue desarrollado teniendo enconsideracion la capacidad de reproducir los factores dominantes de la transduccion coclearcomo la saturacion en intensidad, el mecanismo activo de amplificacion y las curvas deenmascaramiento entre otros. Los parametros fueron ajustados de manera satisfactoriapara reproducir respuestas clasicas de experimentos psicoacusticos en humanos y datos deexperimentos fisiologicos in vivo en mamıferos.

Palabras Clave: psicoacustica, percepcion tımbrica, sistema auditivo, mecanica co-clear.

Studies of timbre perception of modulated sounds

through psychophysics experiments and auditory

periphery models

Abstract

Timbre perception is one of the most complex tasks the auditory system performs.Timbre, originally defined as the quality that allows the discrimination of musical instru-ments, it is nowadays more related to the ecological concept of the identification of soundsources in natural environments. Because of its inherently multidimensional character, therelationship between the sound wave and the perceived timbre is a complex matter, wheredifferent parts of the auditory systems are involved. Besides this limitations, it is knownthat there are certain temporal and spectral acoustic features that are fundamental to theperception of timbre. The most relevant are the attack time of the envelope as a temporalfeature and the brightness or spectral centroid as a spectral feature.

In this work we use two methodologies for studying timbre. Firstly, two psychophysicalexperiments of sound pairs comparison were done, and secondly the timbres were analyzedby signal processing techniques and through a model of the auditory periphery. One ofthe experiments was carried out using sinusoidally amplitude modulated sounds as stimuli,massively through internet and the other experiment was done using alto saxophone mul-tiphonics but in a controlled environment. These two families of sounds have modulationsas a characteristic temporal feature which is not present on many timbre studies, wherethe attack time is more common.

The experiments showed that the temporal modulation was a salient feature, alongwith the spectral centroid for both sound families. In addition, it was observed that soundsgrouped in a control parameter space were also grouped, in most cases, in the correspondingperceptual spaces. In contrast, it were the distances between the groups within these spacesthat changed.

Also the sounds were analysed by signal processing techniques and through auditoryperiphery simulations. To this end, we developed an auditory periphery model with emp-hasis on the cochlear mechanics, using a non linear dynamical model with feedforward andfeedbackward properties. This model was developed with the aim of reproducing dominantfactors of cochlear transduction, for example, the saturation with intensity, the active me-chanism of amplification and the masking curves among other capabilities. The parameterswhere successfully adjusted to reproduce typical human psychoacoustical experiments anddata from physiological in vivo mammals experiments.

Keywords: psychoacoustics, timbre perception, auditory system, cochlear mechanics.

Indice general

1. Introduccion 1

1.1. Definiciones del timbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.1. Espacios tımbricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.1.2. Atributos acusticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2. Experimentos de percepcion tımbrica . . . . . . . . . . . . . . . . . . . . . 9

1.2.1. Identificacion de timbres . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2.2. Comparacion de timbres y espacios tımbricos . . . . . . . . . . . . . 11

1.3. Procesamiento del sonido en la periferia auditiva . . . . . . . . . . . . . . . 16

1.3.1. El oıdo interno y la descomposicion en frecuencias . . . . . . . . . . 16

1.3.2. Filtros auditivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.4. Percepcion de tonos con modulacion . . . . . . . . . . . . . . . . . . . . . . 22

1.4.1. Tonos SAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.4.2. Rugosidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2. Multifonicos del saxofon 33

2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.2. Analisis acustico de los multifonicos . . . . . . . . . . . . . . . . . . . . . . 41

2.2.1. Procedimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.2.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.2.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.3. Experimento de comparacion de multifonicos . . . . . . . . . . . . . . . . . 48

2.3.1. Desarrollo experimental . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.3.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.3.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3. Tonos de amplitud modulada sinusoidalmente 55

3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2. Metodo experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.4. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4. Modelado de la periferia auditiva 71

4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.1.1. Oıdo externo y medio . . . . . . . . . . . . . . . . . . . . . . . . . . 72

ix

x Indice general

4.1.2. Oıdo interno y la coclea . . . . . . . . . . . . . . . . . . . . . . . . . 734.1.3. Mecanica coclear . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.2. Modelo de la coclea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 834.2.1. Sistema pasivo: osciladores con acoplamiento hidrodinamico . . . . 844.2.2. Sistema activo: alimentacion lateral . . . . . . . . . . . . . . . . . . 894.2.3. Oıdo medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 924.2.4. Celulas ciliadas internas y sinapsis . . . . . . . . . . . . . . . . . . . 92

4.3. Resultados numericos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 934.3.1. Coclea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 934.3.2. Celulas ciliadas internas y sinapsis . . . . . . . . . . . . . . . . . . . 99

4.4. Resultados con tonos modulados . . . . . . . . . . . . . . . . . . . . . . . . 1004.4.1. Modelo temporal de la rugosidad . . . . . . . . . . . . . . . . . . . . 1024.4.2. Espacios tımbricos de modulacion . . . . . . . . . . . . . . . . . . . 108

4.5. Resumen y discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

5. Conclusiones generales 115

A. Apendices 119A.1. Escalamiento multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . 119A.2. Cocleograma de banco de filtros gammatones . . . . . . . . . . . . . . . . . 121A.3. Modelo espectral de rugosidad . . . . . . . . . . . . . . . . . . . . . . . . . 122A.4. Hidrodinamica de la coclea . . . . . . . . . . . . . . . . . . . . . . . . . . . 123A.5. Relacion de dispersion del sistema activo . . . . . . . . . . . . . . . . . . . . 126

Bibliografıa 131

Agradecimientos 145

Capıtulo 1

Introduccion

I think the definition of timbre by the

American Standards Association should

be this: “We do not know how to define

timbre, but it is not loudness and it is

not pitch.” Albert S. Bregman.

Esta tesis esta dedicada al estudio del timbre en sonidos con modulacion en amplitud.

El abordaje de este tema se realiza tanto desde el analisis de los parametros acusticos,

como de la realizacion de experimentos psicofısicos y el modelado de la respuesta de la

periferia auditiva. Teniendo en cuenta la variedad de enfoques a adoptar, este capıtulo esta

dedicado a introducir las herramientas que se utilizaran en cada uno de estos enfoques y

a revisar los antecedentes en la literatura en los campos de estudio respectivos. La intro-

duccion esta organizada de la siguiente manera: primero se establece el concepto de timbre

y las problematicas que subyacen al tratar de definirlo, luego, se exponen las diferentes

clases de experimentos psicofısicos que existen para estudiar el timbre y en particular los

metodos usados en este trabajo y finalmente se detallan las principales caracterısticas del

procesamiento del sonido en el sistema auditivo que influyen la percepcion tımbrica.

1

2 Capıtulo 1. Introduccion

1.1. Definiciones del timbre

El uso de la palabra timbre intenta identificar de una manera un tanto sencilla y vaga

a un conjunto complejo de fenomenos psicoacusticos y musicales. Una manera practica de

definir el timbre es diciendo lo que no es. En ese sentido, el timbre abarcarıa los parametros

de la percepcion que no estan dados por la altura musical, la intensidad sonora, la posicion

espacial, la duracion e incluso las caracterısticas del espacio como la reverberacion y otros

fenomenos. Esto se ve reflejado en la definicion dada por el American National Standards

Institute [56]: “El timbre es aquella caracterıstica del sentido auditivo por el cual un sujeto

puede evaluar dos sonidos con la misma nota y misma intensidad como distintos”.

Por otro lado, es difıcil tratar de definir el timbre por lo que sı es, dado que tiene un

caracter multidimensional. No es posible medir el timbre utilizando una sola dimension a

diferencia de lo que ocurre con otros atributos sonoros, como por ejemplo la altura musical

que permite ordenar los sonidos de mas graves a mas agudos en una escala.

Aunque historicamente se utilizo la palabra timbre para describir aquello que permite

distinguir los instrumentos musicales entre sı, actualmente entendemos que el timbre tie-

ne varias acepciones diferentes. Podemos empezar mencionando dos enfoques basicamente

distintos de definir el timbre [77]

1. El timbre hace referencia a un gran conjunto de atributos perceptuales, algunos que

pueden ser variados continuamente (por ejemplo el brillo, velocidad de ataque, armo-

nicidad, etc) y otros que son mas bien discretos o categoricos (p. ej. las consonantes

en el habla)

2. El timbre es la principal herramienta para el reconocimiento, identificacion y segui-

miento en el tiempo de las fuentes sonoras (por ejemplo lo que permite distinguir al

viento, un perro ladrando, un clarinete, etc.).

La primera definicion relaciona al timbre con un proceso de construccion en el cual el

sonido es analizado en base a su informacion acustica a traves de los atributos perceptuales

que son extraıdos por el sistema nervioso. Podemos pensar de manera idealizada que esta

definicion es la que rige en los ambientes controlados de la musica y de los laboratorios,

1.1. Definiciones del timbre 3

en los cuales el sonido se puede modificar de manera precisa para controlar el timbre. Las

tecnicas de sıntesis permiten cambiar el timbre del sonido de manera continua.

La segunda definicion, en cambio, concibe al timbre como aquella cualidad del sonido que

permite establecer las identidades de las fuentes sonoras en lo cotidiano y en los ambientes

naturales. Esto se asocia con la idea de que en la naturaleza, cada fuente sonora posee

restricciones acusticas que limitan la posibilidad de emitir ciertos sonidos. En contraposicion

a la primera definicion, en este caso se plantea una experiencia sensorial mas bien discreta

que permite la categorizacion directa de los sonidos y vincularlos con referencias externas

a el [35].

Ambas definiciones permiten generar categorıas de sonidos. Tomando como base la

primera, los sonidos pueden ser agrupados en categorıas a partir de los atributos que poseen.

Puede realizarse mediante un mecanismo de emparejamiento de los atributos perceptuales

de dos sonidos en busca de coincidencias y utilizando un nivel de umbral para determinar

si dos sonidos pertenecen o no a la misma categorıa [111]. En la segunda definicion las

categorıas estan dadas por el hecho de que la informacion sonora recibida implica que

existe una causa que genero el sonido. Este mecanismo se llama inferencia por causalidad,

y sugiere que hay un fuerte vınculo entre la representacion mental del evento sonoro y el

objeto que lo produjo.

Estas definiciones pueden relacionarse con dos tipos de escuchas. Schaeffer [103] acuno el

termino de escucha reducida para referirse a una escucha no referencial, librada de los

indicios de la fuente sonora. Luego, en la misma lınea de trabajo, Chion and Schaeffer [15]

establecieron como escucha causal a la accion de dar un significado a lo que se escucha.

Las dos definiciones corresponden a dos usos distintos del timbre. No obstante, am-

bas pueden ser aplicadas para estudiar una misma situacion sonora, resaltando diferentes

aspectos.

Tomemos el caso de un sintetizador electronico analogico. Este instrumento por un la-

do permite ejercer un control preciso y continuo de varias magnitudes, lo cual se asocia

al primer enfoque del timbre, mientras que al mismo tiempo posee un sonido caracterısti-

co asociado a su electronica y al sistemas de reproduccion, lo cual lo individualiza como

fuente sonora y esta mas asociado al segundo enfoque. Otro ejemplo posible seria el de un


pequeno ensamble de instrumentos orquestales, donde las multiples fuentes pueden sonar

de forma simultanea y permiten generar un continuo de sonoridades complejas y obtener

cierta precision para el control del timbre, obteniendo un sonido resultante, que no permite

identificar cada fuente por separado. Por lo que en este caso, es util el primer enfoque del

timbre ya que el reconocimiento de las fuentes queda ofuscado. Estos ejemplos ilustran que

dependiendo de cada situacion sonora una definicion podra ser mas util o no que la otra.

Un punto de contacto entre las dos posturas puede establecerse en el marco de la

evolucion de los sistemas sensoriales. Uno de los objetivos de los sistemas sensoriales es

establecer representaciones coherentes de los objetos del mundo externo. Estos objetos

tienen propiedades fısicas inherentes y el sistema auditivo en particular se desarrollo bajo

la presion evolutiva de ser capaz de extraer estas propiedades. Para ilustrar este punto

podemos tomar como ejemplo a los sistemas acusticos fuente - filtro [48]. Numerosas fuentes

sonoras quedan bien descriptas por estos sistemas, como es el caso de la voz humana y la

gran mayorıa de los instrumentos musicales. En estos sistemas podemos identificar a la

fuente con la parte del instrumento que transforma la energıa suministrada en vibraciones

y al filtro como una caracterıstica morfologica del objeto que filtra a la fuente. El sistema

auditivo bien pudo desarrollarse con la ventaja evolutiva de que diferenciar la fuente del

filtro facilita en la mayor parte de los casos la identificacion de la fuente sonora. Esta

informacion debe ser extraıda mediante algun mecanismo en base a distintos atributos

acusticos para la fuente y el filtro. Esta vision es compatible con las dos definiciones de

timbre, es decir, la fuente sonora es identificable en base a una conexion entre el evento

sonoro y los atributos acusticos ligados a la naturaleza de aquel evento.

En el contexto del estudio de los instrumentos musicales tambien suele hablarse de los

sistemas fuente-filtro, donde a la fuente se la refiere como el excitador y al filtro como

el resonador. Esto permite generar las clasicas familias de instrumentos en base a como

estos son ejecutados y cuales son los elementos que resuenan. Es posible generar lo que se

llama un agrupamiento jerarquico [50], donde hay grupos generales y subgrupos 1. Esta

herramienta de agrupamiento jerarquico ha sido utilizada para el estudio de la relacion

entre el timbre y la causalidad del evento sonoro [24].

1un ejemplo de esto es la taxonomıa Hornbostel–Sachs[116] de los instrumentos musicales


En cierta manera podemos pensar en un continuo de definiciones del timbre. Hablar

del timbre en base a los atributos acusticos es similar a una descripcion de proximidad o

de cercanıa, en cambio hablar de la fuente sonora corresponde a una descripcion distante o

lejana [48]. Si observamos un sonido con lupa podremos desarmarlo en todas las variables

que lo componen, en cambio si lo vemos a la distancia podremos distinguir su identidad sin

poner atencion en los detalles.

Esta diferenciacion entre observar en detalle y globalmente ocurre con otras modalidades

sensoriales. Por ejemplo, se podrıa comparar al termino timbre con el termino apariencia,

el cual puede tener muchas acepciones segun el tipo de observacion y recae en la misma

problematica que el timbre. Podemos trazar un paralelismo entre el sentido de la audicion

y el de la vision, tomando la regla de que el color se corresponde a la nota musical y la

forma al timbre. Un piano y un violın tocando la misma nota podrıa compararse con un

cuadrado y un triangulo del mismo color. O en cambio, dos sonidos provenientes de un

mismo instrumento con diferentes notas pero timbres muy parecidos podrıan compararse

con dos cırculos (casi identicos) que tienen distinto color. [48]

Es evidente que hay ciertas cuestiones que pueden ser un poco arbitrarias a la hora de

marcar un paralelismo entre dos modalidades sensoriales. Dependiendo del conjunto de ob-

jetos con los que se cuente, se podra trazar uno u otros paralelismos mas o menos adecuados

en cada caso. Un caso interesante es el de ciertas palabras que se suelen usar para describir

atributos tımbricos pero que no necesariamente se corresponden con su origen. Por ejemplo

el brillo de un sonido suele referirse en la mayorıa de los casos a la presencia de frecuencias

altas, cuando desde el punto de vista de la luz, el brillo, esta mas relacionado a la inten-

sidad. Una posible explicacion para esta correspondencia puede darse si consideramos que

muchos instrumentos musicales suelen tener mas brillo cuando son tocados intensamente.

Existen muchas palabras que se aplican en las descripciones tımbricas, llamados atribu-

tos verbales [112]. En muchos casos se basa en utilizar escalas semanticas, brillante-opaco,

ordenado-caotico, natural-artificial, suave-rugoso [42], y en otros casos palabras aisladas,

metalico, profundo, filoso, etc [31].

A partir del siguiente ejemplo podemos ilustrar algunas de las diferentes apreciaciones

que se mencionaron sobre el timbre. En la figura 1.1 se muestra un conjunto de sonidos


organizados de manera jerarquica en grupos y subgrupos. El conjunto de sonidos fue tomado

para ejemplificar ciertas relaciones, pero la manera de agruparlos no es unica. Dado que hay

que imaginarse como suenan estos sonidos, suponemos que los instrumentos musicales son

ejecutados de manera canonica 2 y para los sonidos que no son de instrumentos suponemos

que son ejemplos claros y reconocibles de lo que su nombre indica.

El primer nivel distingue sonidos armonicos que poseen altura musical de aquellos que

son impulsivos o ruidosos y no poseen una altura definida. El siguiente nivel distingue

sonidos por las familias de instrumentos orquestales tıpicas a las que pertenecen, las cuerdas,

los metales y los de percusion. El siguiente nivel agrupa sonidos en base a sus cualidades

espectrales promedio, donde por ejemplo dos violines aunque distintos objetos fısicos pueden

ser considerados similares con respecto a la organizacion de los armonicos y el ruido de la

lluvia se puede considerar que tiene un perfil espectral similar al del ruido rosa. Luego en

el siguiente nivel se considera a la fuente sonora como el delimitador, por lo que se puede

distinguir entre el timbre del violın A y del B.

Este diagrama de ejemplo busca mostrar de forma resumida que es posible generar

muchos distintos tipos de agrupaciones de sonidos mediante las diferentes definiciones del

timbre. Otra forma de generar estructuras de relaciones entre timbres es mediante los

denominados espacios tımbricos.

1.1.1. Espacios tımbricos

Los espacios tımbricos permiten representar un conjunto de sonidos mediante posicio-

nes, especificadas como coordenadas en dichos espacios. Pueden construirse asociando una

dimension para cada atributo acustico o perceptual u otros tipos de mapeo entre sonidos

y sistemas de coordenadas.

Por otra parte es posible generar espacios tımbricos mediante experimentos psicofısicos.

En este caso las dimensiones se obtienen de procesos cognitivos que pueden corresponder

o no con atributos acusticos o con combinaciones de ellos.

La construccion de estos espacios puede servir para el estudio del timbre desde el punto

2Para las cuerdas frotadas supondremos que son tocadas con arco y que todos los sonidos son ejecutadoscon una dinamica intermedia


Figura 1.1: Conjunto de sonidos organizados forma jerarquica. Nivel 1: distingue sonidoscon o sin altura musical, izquierda y derecha respectivamente. Nivel 2: sonidos que per-tenecen a una misma familia de instrumentos musicales. Nivel 3: sonidos con cualidadesespectrales similares. Nivel 4: sonidos provenientes de la misma fuente sonora.

de vista acustico solamente [53], para el estudio desde el punto de vista perceptual [78] o

para el uso de estos espacios como control musical [120].

Un desafıo que proponen los espacios tımbricos es suponer que existen dimensiones

continuas en las cuales el timbre puede representarse. Los atributos acusticos toman por

lo general valores continuos y es matematicamente posible pensar en una transicion entre

un timbre y otro. Al hablar de dimensiones perceptuales, el espacio de representacion

interno puede no ser suave y la percepcion puede ser categorica, a pesar de que exista una

representacion fısica continua [106]. Al mismo tiempo, en los espacios definidos por atributos

acusticos, es posible definir una distancia entre dos puntos, en este caso dos sonidos. En

cambio en un espacio perceptual la nocion de distancia puede no ser tan clara e incluso

muy dependiente del sujeto y el conjunto de sonidos.


1.1.2. Atributos acusticos

Existen numerosos atributos acusticos que pueden extraerse de un sonido [123], muchos

de los cuales son relevantes para la percepcion tımbrica. Podemos agrupar estos atributos

relevantes en tres grupos, los puramente temporales, los puramente espectrales y los que

son espectrotemporales.

Los atributos temporales son aquellos que estan relacionados exclusivamente con la

envolvente temporal de la amplitud del sonido. Esta suele dividirse en cuatro segmentos,

el ataque, la transicion entre ataque y la parte estacionaria, la parte estacionaria y el

decaimiento final [46]. De estos el que mas influencia al timbre es el tiempo de duracion del

ataque, aunque ciertamente la forma exacta de la envolvente posee es parte del timbre.

Los atributos espectrales estan relacionados a las estadısticas de la magnitud del es-

pectro. El mas prominente es el valor medio del espectro (centroide espectral) dado que

permite una descripcion basica en la escala grave-agudo. El valor del centroide espectral

correlaciona con la sensacion de un sonido filoso o punzante (del ingles perceptual shar-

pness), que se calcula como el valor medio sobre el espectro pero ponderado dando mayor

peso a las frecuencias altas [30]. Luego existen varios otras medidas que han sido relevantes

en diferentes estudios como la suavidad de la envolvente espectral, tambien llamada irre-

gularidad espectral, que servirıa para cuantificar pozos en el espectro y permite distinguir

sonidos con todos los armonicos de aquellos con solo los impares como el caso del clarinete

[79].

Los atributos espectrotemporales estan dados por aquellas magnitudes del espectro que

varıan en el tiempo. Las magnitudes mencionadas en el parrafo anterior bien pueden variar

en el tiempo y generar caracterısticas tımbricas particulares. Una de las mas relevantes es

la del flujo espectral, que indica el flujo de energıa de una parte del espectro a otra en el

tiempo. En el caso de un sonido armonico, es posible medir las envolventes de amplitud de

cada armonico y sus frecuencias en funcion del tiempo y medir las variaciones en las tra-

yectorias. En muchos sonidos de instrumentos hay marcas tımbricas particulares dadas por

estas variaciones. Por ejemplo en los instrumentos de doble cana los armonicos individuales

comienzan de manera sincronica mientras que en los de la familia de los metales se ven

1.2. Experimentos de percepcion tımbrica 9

asincronıas, los armonicos graves comienzan primero y luego los mas agudos, lo que genera

un flujo espectral. Finalmente los sonidos impulsivos como el de un piano o una guitarra

suelen estar caracterizados por un ataque muy corto donde la mayorıa de los armonicos

comienzan juntos pero luego la energıa se traslada hacia los mas graves generando un flujo

en la otra direccion.

1.2. Experimentos de percepcion tımbrica

Existen numerosos experimentos sobre los distintos aspectos de la percepcion tımbri-

ca [77, 25, 47]. Muchos de estos experimentos estan orientados a identificar los atributos

acusticos que le otorgan a un sonido su timbre caracterıstico. Sin embargo la mayor parte

de ellos se han centrado de forma exclusiva en la tımbrica de los instrumentos musicales

occidentales.

En esta seccion nos referiremos a dos grandes clases de experimentos. La primera de ellas

esta orientada a la identificacion de sonidos modificados. En estos experimentos se editan

ciertos atributos de forma selectiva y se evalua si los sujetos mantienen un nivel similar

de identificacion comparado con los sonidos originales. En la segunda clase se encuentran

los experimentos en los que los sujetos juzgan la similitud de pares de sonidos en base a

sus caracterısticas tımbricas para luego construir espacios tımbricos a partir de tecnicas de

escalamiento multidimensional.

1.2.1. Identificacion de timbres

Una de las primeras preguntas planteadas acerca del timbre de instrumentos musicales

estuvo orientada a dilucidar si era el ataque de un sonido o su parte estacionaria lo que

mas influıa en su identificacion. El trabajo de Hajda [45] fue realizado con sonidos de

doce instrumentos impulsivos o continuos (en stacatto y sostenidos) en su version original,

editados para incluir solo el ataque o la parte estacionaria, e invertidos temporalmente.

Los participantes, luego de escuchar todos los fragmentos, realizaban una eleccion forzada

entre distintas alternativas para identificar el instrumento correspondiente a cada uno de

los fragmentos.


Los sonidos en su version original fueron identificados correctamente el 93% de las

veces. En el caso de los sonidos continuos sostenidos, para las condiciones en las que se

removio el ataque se observo un nivel de identificacion mayor que para aquellas en las cuales

se removio la parte sostenida y dicho nivel fue similar que el observado para los sonidos

originales. En cambio, los sonidos continuos en staccato fueron mejor identificados para la

condicion de solo ataque (fijo en 80 ms) que para la condicion de solo estacionario. Los

sonidos impulsivos no fueron identificados en reversa mientras que si lo fueron los sonidos

continuos. Este trabajo concluyo que la discusion sobre el ataque o la parte sostenida no

puede aplicarse de manera clara a los sonidos impulsivos ya que no pueden ser particionados

de una manera precisa por no tener un parte estacionaria. Finalmente para los sonidos

continuos sostenidos la parte estacionaria fue suficiente para la identificacion y los indicios

estarıan en las relaciones de las trayectorias del centroide espectral y la envolvente de

amplitud.

En los trabajos de Charbonneau [11], Grey and Moorer [40] y McAdams et al. [79]

en lugar de estudiar la identificacion de la fuente de los sonidos, se estudio la discrimina-

cion entre sonidos originales y sonidos con caracterısticas espectrotemporales simplificadas

mediante metodos de sıntesis y resıntesis. En particular en el trabajo de McAdams et al.

[79] se encontro que solo ciertas simplificaciones del espectro daban como resultado una

mayor discriminacion entre el sonido original y el modificado. Si bien estas modificaciones

variaban para cada instrumento aquellas que produjeron mayor discriminacion fueron tan-

to las que simplificaban la envolvente del espectro (haciendolo mas regular), como las que

simplificaban la envolvente de amplitud de los armonicos, reduciendo el flujo espectral.

Con una perspectiva similar, pero utilizando sonidos no musicales, en el trabajo de

Geffen et al. [33], se estudiaron que parametros espectrotemporales eran los que permi-

ten identificar el sonido del agua en movimiento. Luego de analizar y modificar diversos

parametros espectrotemporales los autores concluyeron que la caracterıstica fundamental

del sonido del agua fluyendo (en terminos de su identificacion) la constituıa la invariancia

de escala temporal. Esto es, aquellas caracterısticas que no se modifican al reproducir el

sonido a diferentes velocidades y permiten que siga siendo identificado. Mientras que si esa

invariancia temporal era perturbada los sonidos eran percibidos como poco realistas.


1.2.2. Comparacion de timbres y espacios tımbricos

La otra clase de experimentos que describiremos es la de comparaciones de pares y,

posee un interes espacial, ya que sera la utilizada para los dos experimentos de la presente

tesis.

Este tipo de experimentos se basa en las relaciones entre timbres, a diferencia de los

anteriores que eran sobre la identificacion. Para esto, los sujetos deben juzgar las disimili-

tudes entre dos sonidos a partir de una escala que suele tomar valores entre timbres muy

similares y timbres muy disımiles. Estas disimilitudes se pueden pensar como las distancias

entre sonidos en el espacio perceptual donde se representan los timbres, que a priori puede

ser un espacio de muchas dimensiones. Para poder simplificar el analisis se utiliza la tecnica

de escalamiento multidimensional (MDS de sus siglas en ingles, ver apendice A.1), que per-

mite generar un espacio de baja dimensionalidad que puede ponerse en correspondencia con

el espacio tımbrico perceptual. De esta manera es posible representar el grupo de sonidos

mediante una configuracion geometrica sencilla.

En la figura 1.2 se representa el proceso de este tipo de experimentos. Primero se

constituye un conjunto de sonidos con el cual se quieren estudiar las relaciones tımbricas

de sus elementos. Usualmente el usuario escucha al comienzo todos los sonidos del conjunto

para poder calibrar cuales son las maximas o mınimas distancias entre los sonidos. Luego

todos los pares posibles de sonidos son presentados y se asigna un valor de similitud. Estos

valores suelen ser tomados de una escala que va desde un extremo que dice diferentes a otro

que dice iguales (u otras palabra afines). Luego esta informacion se transforma mediante

el escalamiento multidimensional en una configuracion geometrica de 1, 2 o 3 dimensiones

donde se pueden estudiar las relaciones y distancias entre sonidos de manera visual. Esta

tecnica por sı sola no identifica la naturaleza fısica de estas dimensiones y es trabajo del

que realiza el experimento interpretar la relacion entre las dimensiones perceptuales y los

atributos acusticos de los sonidos.

Mediante esta tecnica se han realizado trabajos con sonidos sintetizados [81, 91, 102, 8],

resintetizados o simulaciones de instrumentos [40, 66, 78, 120], grabaciones de instrumentos

[58, 71], grabaciones de dıadas de instrumentos [65, 109] y tambien sonidos ambientales [44].


Figura 1.2: Diagrama de procedimiento de los experimentos de comparaciones de parescon analisis de escalamiento multidimensional. Adaptado de [77]

Para ejemplificar el metodo podemos ver en la figura 1.3 uno de los resultados del

trabajo de Samson et al. [102]. Se utilizaron como estımulos nueve sonidos sintetizados

a partir de un atributo espectral y temporal. En la dimension espectral se modifico la

cantidad de armonicos y en la temporal, el tiempo de ataque. Los resultados MDS muestran

un organizacion casi perfecta entre las dimensiones espectrales y temporales. En este caso,

como los sonidos fueron sintetizados en base a dos parametros, resulta razonable pensar

que basten dos dimensiones para generar el espacio tımbrico perceptual. Las comparaciones

fueron realizadas con pares de sonidos y fragmentos melodicos, tanto con intensidades

normalizadas como aleatorias, en ambos casos obtuvieron configuraciones MDS similares.

Otro experimento de comparacion de pares pero realizado con sonidos sintetizados de

instrumentos musicales es el de McAdams et al. [78]. El principal resultado de este trabajo

se muestra en la figura 1.4. En este caso se utilizaron sonidos sintetizados ya que ademas

se introdujeron sonoridades hıbridas como combinacion de dos instrumentos. En este caso

fueron necesarias tres dimensiones para generar un espacio tımbrico que representase las

respuestas por los participantes. Cada dimension de este espacio corresponde a un atributo

tımbrico que tiene un correlato acustico claro. La dimension 1 corresponde al tiempo de


Figura 1.3: Experimento de Samson et al. [102]. (a) Conjunto de sonidos utilizados enel experimento. Las letras S,M y L corresponden a tiempos de ataque cortos, medianos ylargos respectivamente y los numero indican la cantidad de armonicos. (b) ConfiguracionMDS

ataque, la dimension 2 al centroide espectral y la dimension 3 al flujo espectral.

Hasta este punto, los atributos que hemos mencionado y que cumplen un rol relevan-

te en la percepcion tımbrica han sido estudiados en su gran mayorıa en el contexto de

las sonoridades de los instrumentos musicales. Sin embrago, existen otros trabajos que se

adentran en el estudio de otras sonoridades. En el trabajo de Gygi et al. [44] se realizaron

comparaciones de pares sobre un conjunto de 100 sonidos ambientales, incluyendo sonidos

generados por humanos, de animales, de maquinas y texturales. En los resultados del MDS

de este experimento, exhibidos en la figura 1.5 puede observarse que los sonidos fueron

agrupados segun distintas cualidades, como por ejemplo, sonidos impulsivos o continuos,

sonidos armonicos o no y sonidos vocalizados o no. Aunque las dimensiones encontradas

por el MDS no parecen en principio corresponder a atributos acusticos unicos que muestren

una variacion continua, estas dimensiones pueden explicarse luego de un analisis posterior

mediante regresores de combinaciones de atributos. Mencionaremos solamente el resultado

que fue encontrado para la dimension 1. Este fue dado por una combinacion de tres atribu-

tos, uno relacionado a la saliencia de la altura tonal, otro relacionado negativamente a la

profundidad de modulacion y el tercero relacionado positivamente a la asimetrıa (skewness)

del espectro. De esta forma, un desplazamiento a lo largo de la dimension 1 corresponderıa


Figura 1.4: Configuracion MDS 3D para el experimento de McAdams et al. [78]. hrn:corno frances. tpt: trompeta. tbn: trombon. hrp: harp. tpr: trumpar (trompeta/guitarra).ols: obolesta (oboe/celesta). vbs: vibrafono. sno: striano (cuerda frotada/piano).hcd: cla-vicordio. ehn: corno ingles. bsn: fagot. cnt: clarinete. vbn: vibrone (vibrafono/trombone).obc: obochord (oboe/clavicordio). gtr: guitarra. stg: cuerda frotada. pno: piano. gnt guitarnet(guitarra/clarinete)


Figura 1.5: Configuracion MDS 3D del experimento de Gygi et al. [44]. Los sonidosresultaron agrupados en grande categorıas. En la figura de la izquierda (dimensiones 1 y2): sonidos armonicos, sonidos de impacto discretos y sonidos continuos. En el panel de laderecha (dimensiones 1 y 3): vocalizaciones y no vocalizaciones

a una transicion entre sonidos con modulacion o repetitivos, sin un tono, hasta sonidos

tonales, continuos, con mayor energıa en los graves.

Existe una gran variedad de sonoridades que todavıa no han sido estudiadas lo suficiente

con experimentos psicofısicos de percepcion tımbrica, incluso sonoridades relevantes en la

musica como las de instrumentos electronicos y las dadas por las tecnicas extendidas de

los instrumentos. Entre los pocos trabajos podemos destacar el estudio de sonoridades

texturales de la musica electroacustica y contemporanea [41] y el estudio de nuestro grupo

sobre los multifonicos del saxofon [97].

En la presente tesis se estudiaron las caracterısticas tımbricas de dos grupos de sonidos.

Por un lado los multifonicos del saxofon con sonoridades muy complejas y por otro lado

sonidos menos complejos como los tonos modulados en amplitud sinusoidalmente. Estos

dos grupos de sonidos tienen ciertos atributos perceptuales en comun que se originan en

las modulaciones de amplitud.

Para profundizar en la percepcion de la modulacion, debemos introducir ciertas funcio-

nes del procesamiento que ocurren en la periferia auditiva.


1.3. Procesamiento del sonido en la periferia auditiva

En esta seccion describiremos, de forma resumida, el procesamiento basico de las senales

que ingresan a la periferia auditiva 3. Este procesamiento es la primera etapa dentro de la

ruta auditiva que termina, en etapas ulteriores, en la percepcion del sonido. La periferia

ha sido estudiada con mucho detalle ya que en esta instancia se ponen de manifiesto mu-

chos fenomenos que tienen correlatos perceptuales, como el enmascaramiento o los tonos

diferenciales.

1.3.1. El oıdo interno y la descomposicion en frecuencias

El sonido que se propaga por el aire ingresa al sistema auditivo periferico a traves del

canal auditivo donde es transformado en vibraciones por la membrana timpanica. Estas

vibraciones son propagadas por la cadena de huesecillos del oıdo medio para ser suminis-

tradas al oıdo interno formado principalmente por el organo de la coclea. Dentro de este

organo se encuentra la membrana basilar que se extiende sobre toda la coclea separandola

en dos camaras llenas de fluido. Esta membrana mide aproximadamente 35 mm en huma-

nos y sus propiedades mecanicas varıan gradualmente a lo largo de su extension, lo que

permite que las vibraciones que ingresan en la coclea se propaguen sobre ella formando una

onda viajera. Las frecuencias bajas producen vibraciones maximas cerca del final o apex

de la coclea y las frecuencias altas producen vibraciones maximas cerca del comienzo o la

base. Esto genera una de las caracterısticas mas importantes del procesamiento que ocurre

en la periferia auditiva, la descomposicion en frecuencias de la senal. Se puede pensar a la

membrana basilar como un analizador espectral o un banco de filtros, separando sonidos

complejos en sus componentes en frecuencias. El hecho de que las frecuencias se segregan

espacialmente se conoce como tonotopıa [90].

Sobre la membrana basilar, a lo largo de toda su extension, se encuentra el organo de

Corti. Este organo contiene a las celulas ciliadas externas e internas, que se encargan de am-

plificar las vibraciones de la membrana y traducirlas a eventos sinapticos respectivamente.

3En la seccion 4.1.2 se expone con mas detalle los mecanismos fisiologicos que intervienen en el procesa-miento de sonido

1.3. Procesamiento del sonido en la periferia auditiva 17

Poseemos aproximadamente 3000 celulas ciliadas internas y cada una esta conectada con

una decena de fibras auditivas que llevan la senal en forma de disparos neuronales hacia el

nucleo coclear, el primer relevo en la vıa auditiva dentro del sistema nervioso.

Desde el punto de vista del procesamiento de las senales podemos mencionar los siguien-

tes fenomenos que ocurren cuando el sonido ingresa al oıdo. Al comienzo la senal es filtrada

por el canal auditivo y el oıdo medio con una respuesta pasa banda ancha que realza las

senales en las frecuencias centrales (1 a 3 kHz) y atenua los sonidos por debajo de 20 Hz y

por encima de 20 kHz. Una vez dentro de la coclea, la senal es amplificada y comprimida

por un proceso activo en las celulas ciliadas externas. La amplificacion puede alcanzar ga-

nancias de 60 dB para sonidos tenues, y es nula para sonidos intensos, por lo tanto genera

una compresion y transforma un rango de estımulos de 120 dB en aproximadamente 30

dB de rango de respuestas. Esto permite percibir 7 ordenes de magnitud en variaciones de

presion, desde 2x10−5 pascales en el lımite de la audicion a 1 kHz (0 dB SPL), hasta mas de

100 pascales (134 dB SP) cruzando el umbral del dolor. Luego las senales son rectificadas y

filtradas (pasa bajos con corte en aproximadamente 3 kHz) por el proceso de transduccion

de las celulas ciliadas internas. El destino final de la senal dentro de la celula es generar

eventos sinapticos para estimular la fibra auditiva.

El conjunto de disparos neuronales que salen de la coclea posee toda la informacion

necesaria para la escucha, pero codificada. Por un lado, la organizacion tonotopica, es

preservada en las fibras auditivas y en gran parte de la ruta auditiva, incluyendo la corteza

[90]. Por otro lado, las fibras auditivas tienen la capacidad de disparar de forma enganchada

con la fase de las vibraciones de la membrana (del ingles phase-locking), lo que permite que

se codifique la estructura fina de la forma de onda. Por lo tanto los principales mecanismos

de codificacion utilizados por la fibra son la codificacion temporal y la tonotopica [84].

1.3.2. Filtros auditivos

El accionar de la coclea y de la membrana basilar se puede modelar por un banco de

filtros pasa bandas, llamados filtros auditivos. Estos filtros deberıan conectarse en serie o

cascada [73], para mantener una interpretacion acorde con los datos de la fisiologıa, pero

tambien es habitual conectarlos en paralelo con el estımulo. Muchos fenomenos perceptuales


estan relacionados con la forma, solapamiento y ordenamiento de los filtros auditivos, como

por ejemplo el enmascaramiento y la posibilidad de resolver o separar las componentes

sinusoidales en un sonido complejo. Para ejemplificar esto observemos el diagrama de la

figura 1.6. Allı se muestra como un sonido armonico formado de muchas componentes

atraviesa el banco de filtros. A partir de la salida de cada filtro, computando el valor

cuadratico medio, se puede construir el denominado patron de excitacion. Este patron

permite observar como las diferentes componentes de un sonido pueden estar resueltas

o no y por ende la posibilidad de ser percibidas individualmente. Al mismo tiempo las

vibraciones de cada seccion de la membrana basilar representan la salida de los filtros. Es

necesario aclarar que nos referiremos a la salida de los filtros como canales auditivos, en el

sentido de canales de comunicacion, y no debe se confundido con el canal auditivo del oıdo

externo.

El ancho de banda efectivo de los filtros auditivos se denomina banda crıtica y permite

establecer que tan separados tienen que estar dos tonos sinusoidales para que no se enmas-

caren o interactuen. Es posible medir experimentalmente la banda crıtica y caracterizar los

filtros auditivos. Por mucho tempo se utilizo una formula para la banda crıtica en base a

la definicion de Zwicker [32, 30], pero actualmente se suele utilizar el denominado ancho de

banda equivalente rectangular (ERB del ingles equivalent rectangular bandwidth) de Moore

and Glasberg [83]. La siguiente expresion relaciona el ancho de banda ERB y la frecuencia

central f en Hz:

ERB(f) = 24,7 + 0,108f (1.1)

Esta definicion de los anchos de banda se suele usar en conjunto con la escala ERBN

(numero de ERBs) en la cual un ERBN representa aproximadamente 0.85 mm de la mem-

brana basilar [83] y cuya expresion esta dada por:

ERBn(f) = 21,4 log10(0,00437f + 1) (1.2)

Estas expresiones fueron construidas a partir del ajuste de experimentos psicofısicos de

enmascaramiento con un tipo de filtros en particular, propuestos para representar los filtros


Figura 1.6: Diagrama del banco de filtros auditivo. Un sonido con una serie de armonicosde igual amplitud pasa por el banco de filtros para generar un patron de excitacion. La senalde salida de cada filtro simboliza el movimiento de la membrana basilar

Figura 1.7: Forma de los filtros auditivos ROEX y su variacion con la intensidad. Adap-tado de Moore and Glasberg [83]


auditivos (figura 1.7). Estos filtros se basan en una funcion exponencial redondeada en la

punta, (ROEX del ingles rounded exponential)[89]. Como puede observarse en la figura,

los filtros auditivos cambian su forma con la intensidad debido al procesamiento no lineal

de la coclea. Perceptualmente esto significa que a medida que se incrementa el volumen se

modifican las regiones del espectro enmascaradas, sobre todo la parte de altas frecuencias.

Mediante un banco de filtros ROEX se pueden generar los patrones de excitacion como

el de la figura 1.6 [83]. Estos patrones son solo una representacion estatica del sonido. Dado

que los filtros ROEX no poseen una respuesta impulso bien definida [57], no pueden usarse

para generar una respuesta dinamica de la coclea. Para suplir este problema, es necesario

utilizar otros filtros como pueden ser los gammatones [88], que tienen una respuesta impulso

sencilla dada por un tono sinusoidal con una funcion gamma como envolvente. Sin embargo,

estos filtros son lineales y no pueden usarse para ajustar los cambios con la intensidad.

Los filtros gammatones suelen usarse en conjunto con la ERB para construir una repre-

sentacion de tiempo-frecuencia llamada cocleograma (ver el Apendice A.2 para una descrip-

cion completa). En la figura 1.8 se muestra un ejemplo de cocleograma compuesto de 500

filtros para una senal armonica. El eje vertical esta en la escala ERBN . Aunque el banco

de filtros es alimentado en paralelo, se puede apreciar que los primeros filtros activados son

los de las frecuencias altas, simulando una onda viajera que se propaga desde los agudos

hacia los graves. En el panel de la derecha se puede ver el valor cuadratico medio (RMS)

de cada filtro, que equivaldrıa al patron de excitacion.

El uso de los filtros gammatone para realizar cocleogramas es muy util y se ha extendido

mucho [7], sin embargo como se menciono no incluye las no linealidades presentes en el

procesamiento que tiene lugar en la coclea. Para suplir esta falta se han desarrollado otros

esquemas no lineales de procesamiento, entre otros el gammachirp de Irino and Patterson

[57], el dual resonance nonlinear (DRNL) de Meddis et al. [80] y el multiple band-pass non

linearity (MBPNL) de Goldstein [38].


−101

0 2 4 6 8 10 12 14Tiempo (ms)

5

10

15

20

25

30

35

40

ERBn

0.0 0.1Potencia RMS

Figura 1.8: Cocleograma gammatone de un tono armonico. Panel superior: forma de ondadel tono. Panel central: cocleograma gammatone. Panel derecho: patron de excitacion


1.4. Percepcion de tonos con modulacion

En acustica, cuando se habla de modulacion, generalmente se refiere a la modificacion

o variacion en el tiempo de algun parametro de una senal base o portadora, con el requeri-

miento que la frecuencia caracterıstica de la senal que modula sea menor que la frecuencia

caracterıstica de la senal portadora. Los tipos mas comunes de modulacion son: la mo-

dulacion en amplitud (AM), la modulacion en frecuencia (FM) y la modulacion en fase

(PM).

Esta clase de estımulos pueden considerarse los tonos mas sencillos que evocan una

sensacion de timbre mas compleja que la de un tono puro. Por otro lado presentan la ventaja

de poder controlar sus caracterısticas mediante la variacion de un numero muy pequeno

de parametros (la frecuencia portadora, la frecuencia de modulacion y la profundidad de

modulacion) y finalmente se acercan a los sonidos reales por el hecho de posee mas de una

escala temporal asociada (la que corresponde a su portadora o la estructura fina y la que

corresponde a la envolvente o a la magnitud modulada).

Esto se debe, en principio a lo que se menciono anteriormente: esta clase de estımulos

presenta caracterısticas en comun con sonidos relevantes ecologicamente, es decir poseer

mas de una escala temporal. En el caso especifico de una sinusoide modulada en amplitud,

si la escala temporal de la envolvente esta en el orden de las decimas de segundo esta clase

de estimulo se acerca a una version simplificada del habla humana donde la frecuencia

portadora esta en el rango audible y la de modulacion en el rango temporal en el que

ocurren los fonemas [14].

Otro factor que contribuye a la relevancia perceptual de los sonidos con modulacion

es el hecho de que la segregacion de sonidos concurrentes se facilita si los mismos poseen

modulacion ya que el sistema auditivo es capaz de utilizar la informacion de coherencia de

modulacion de las distintas componentes provenientes de una fuente [76].

Finalmente, para el caso de sonidos AM hay evidencia de que el sistema auditivo procesa

la envolvente temporal de los sonidos de forma selectiva en las frecuencias de modulacion

[61]. Este procesamiento tiene lugar en la ruta auditiva a partir de que la informacion ingresa

de la periferia auditiva (vıa las fibras del nervio auditivo) a los primeros nucleos neuronales

1.4. Percepcion de tonos con modulacion 23

del tronco cerebral (en particular nucleo coclear y colıculo inferior [60]). En particular

existe evidencia de que existen poblaciones de neuronas sintonizadas de forma selectiva a

diferentes frecuencias de modulacion de la envolvente y que se encuentran organizadas de

forma complementaria a la organizacion tonotopica (vinculada a la estructura fina), en lo

que se conoce como la organizacion periodotopica (en el colıculo inferior [72])

Con respecto a la periferia, ya sea para tonos AM como FM con modulacion sinusoidal,

la percepcion de modulacion da lugar a los siguientes tres fenomenos perceptuales: fluctua-

ciones, rugosidad, separacion de componentes. Cuando la frecuencia de modulacion es muy

baja el sistema nervioso es capaz de seguir las modulaciones y de percibirlas como cambios

a lo largo del tiempo como fluctuaciones. En el caso de AM se percibe una fluctuacion en

la intensidad del sonido y en el caso de FM se perciben las variaciones en la frecuencia. A

medida que la frecuencia de modulacion se incrementa el sistema nervioso no puede seguir

con tanta facilidad las modulaciones y se empieza a percibir un valor promediado de la

magnitud. En el caso de FM se empieza a escuchar primero una frecuencia promedio y

luego tambien un percepto de rugosidad. Para el caso de AM ya no se perciben fluctua-

ciones en la intensidad y esta toma un valor promedio y tambien se agrega el percepto de

rugosidad. A medida que la frecuencia de modulacion se sigue incrementando el percepto

de rugosidad disminuye y se empieza a escuchar un sonido estatico compuesto de varias

componentes sinusoidales separadas.

El origen de estos fenomenos esta relacionado con la banda crıtica. Para ejemplificar

esto consideremos un sonido con dos tonos sinusoidales:

sin(2πf1t) + sin(2πf2t)

Si las frecuencias f1 y f2 son lo suficientemente parecidas entonces los dos tonos interfe-

riran en un mismo filtro auditivo provocando batidos. Es posible expresar la suma de dos

funciones seno como el producto de una funcion seno y una funcion coseno:

2 cos(2πf2 − f1

2t)sin(2π

f1 + f22

t)


ERBn

4 6 8 10 12 14 16 18

f m

10356085110135160

Excitación

(dB)

0102030405060

Figura 1.9: Patron de excitacion de un tono con batidos en funcion de la separacion enfrecuencias fm. En rojo se indican los patrones hasta que la separacion es igual a la bandacrıtica en ERB

Para poder expresar esta formula como el resultado de una modulacion en amplitud hay

que hacer la siguiente simplificacion:

2 |cos(2π(f2 − f1)t)| sin(2πf1 + f2

2t) (1.3)

Esto muestra que la frecuencia de modulacion a la cual se perciben los batidos es

fm = f2 − f14. A medida que se incrementa la distancia entre las dos frecuencias f1 y

f2, la frecuencia de modulacion se hace mas grande y el sistema nervioso no puede seguir

los cambios en la amplitud y se empieza a producir el percepto de rugosidad, una vez que

las frecuencias estan separadas mas alla de la banda crıtica, los tonos pueden ser resueltos

individualmente y no interfieren entre sı. En la figura 1.9 se muestran los patrones de

excitacion a medida que las dos componentes se separan. En rojo se muestran los patrones

hasta que la frecuencia de modulacion fm es igual a la ERB, que para una frecuencia central

de 500 Hz es fm ≈ 80 Hz.

4Esta simplificacion es perceptualmente equivalente a la original solo para frecuencias de modulacionbajas. Cuando la frecuencia de modulacion empieza a crecer se pueden oır discrepancias.


0 50 100 150 200Tiempo (ms)

−2.0−1.5−1.0−0.5

0.00.51.01.52.0

Ampl

itud

A

400 450 500 550 600Frecuencias (hz)

0.00.20.40.60.81.0

Ampl

itud

B

Figura 1.10: (A) Tono SAM para un indice de modulacion de 1, una frecuencia portadorade 500 Hz y una moduladora de 20 Hz. (B) Espectro del tono SAM

1.4.1. Tonos SAM

A continuacion vamos a estudiar con mas detalle los tonos de amplitud modulada sinu-

soidalmente, llamados tonos SAM (del ingles sinusoidally amplitud modulated). Estos tonos

a pesar de tener una formulacion muy sencilla, permiten evocar una variedad de perceptos

modificando solo dos parametros. Estos tonos seran utilizados en uno de los experimentos de

percepcion tımbrica del presente trabajo (capıtulo 3). Su expresion matematica esta dada

por:

SAM = (1 +m sin(2πfmt)) sin(2πfct)

Donde m es el ındice de modulacion (0 ≤ m ≤ 1), fc es la frecuencia portadora (c del

ingles carrier) y fm la frecuencia de modulacion (fm << fc). La ecuacion puede expandirse

y descomponerse en la suma de tres sinusoides:

SAM =m

2sin(2π(fc − fm)t) + sin(2πfct) +

m

2sin(2π(fc + fm)t)

por lo que el espectro de un tono SAM esta dado por una componente central con frecuencia

fc y dos componentes laterales con amplitud m/2 en las frecuencias fc ± fm (figura 1.10)

Los tonos SAM pueden generar sensaciones similares a las comentadas para el caso de

tonos modulados en general [60]. En la figura 1.11 se pueden ver las diferentes regiones y


Figura 1.11: Espacio de perceptos generados por los tonos SAM adaptado de Joris et al.[60]. La curva roja representa la banda crıtica en ERBs, y la curva azul un intervalo musicalde un tono.

las sensaciones que son evocadas para los parametros de fc y fm. Nuevamente encontramos

el percepto de fluctuacion, de rugosidad, y de separacion de componentes y tambien una

region dada por la percepcion de altura tonal a partir del fenomeno de la fundamental

ausente o altura virtual [84].

En el extremo de frecuencias de modulacion bajas, el percepto de fluctuaciones se pue-

de explicar mediante un proceso temporal practicamente independiente de la frecuencia

portadora. En el otro extremo el percepto de separacion de componentes esta mas relacio-

nada a la banda crıtica y la tonotopıa. Luego, el percepto de rugosidad, actua como una

transicion de un fenomeno temporal hacia uno espectral. En la figura 1.12, se muestran

esta transicion con los patrones de excitacion a medida que la frecuencia de modulacion se

incrementa. El cambio de color indica aproximadamente el punto de corte (para fc = 500

Hz, fm ≈ 80 Hz) donde las componentes laterales del tono empiezan a separarse. Notese

que estas componentes son resueltas de manera asimetrica, la componente mas grave es

resuelta primero.


ERBn

4 6 8 10 12 14 16 18

f m

020406080100120140160

Excitación

(dB)

0102030405060

Figura 1.12: Patrones de excitacion para tonos SAM en funcion de la frecuencia de mo-dulacion Fm. En rojo se indican los patrones hasta que la separacion es igual a la bandacrıtica en ERB

1.4.2. Rugosidad

El percepto de rugosidad, definido originalmente por Helmholtz [51] a partir de experi-

mentos con dos sinusoides, hoy en dıa se ha estudiado en relacion a la disonancia musical

[55, 104] y la tension en la musica occidental [94].

Existen numerosos experimentos que han medido la rugosidad para diferentes tipos de

sonidos. Para el caso de tonos sinusoidales, uno de los resultados mas conocidos es el dado

por el trabajo de Plomp and Levelt [92]. En la figura 1.13 se muestra una curva que indica

que la maxima disonancia o rugosidad ocurre cuando los dos tonos estan separados en un

25% de la banda crıtica.

A pesar de que este resultado es utilizado como una referencia, se pueden encontrar

trabajos que presentan una informacion diferente. En la figura 1.14 se pueden ver una

recopilacion de varios experimentos adaptado de Pressnitzer [93]. En azul se muestran los

resultados de experimentos que han medido la separacion mınima necesaria para que dos

tonos concurrentes no evoquen el percepto de rugosidad y en negro la separacion que evoca

el mayor nivel de rugosidad.. Los ajustes indican para el caso de mınima separacion y el


Figura 1.13: Nivel de consonancia al escuchar dos tonos en funcion de la separacion enunidades de ancho de banda crıtica

caso de maxima rugosidad un 110% y 45% del ancho de la banda crıtica medido en ERB

respectivamente.

Como podemos notar hay una gran diferencia entre establecer que el maximo de rugo-

sidad ocurre para un 25% o para un 45% de la banda critica. Esta diferencias tan grande

puede entenderse parcialmente si consideramos que el trabajo de Plomp and Levelt [92],

mide la banda crıtica con la formula de Zwicker and Terhardt [127] y mientras que en el

de Pressnitzer [93] se utiliza la formula de ERB. Al mismo tiempo la informacion utilizada

para los ajustes en ambos casos proviene de experimentos muy antiguos. Actualmente se

han realizado pocos experimentos para revisar este fenomeno, pero podemos destacar el

trabajo de Miskiewicz et al. [82] en el cual observan que no hay una relacion constante

entre la fraccion de banda crıtica y la frecuencia central. Por ejemplo, se establece para

frecuencias bajas como 125 Hz, un porcentaje cercano al 60% y para frecuencias de 4000

Hz un porcentaje cercano al 25%.

Con respecto a los tonos SAM, tambien se ha medido experimentalmente como varıa

la rugosidad en funcion de la frecuencia de modulacion. En la figura 1.15 se muestran los

resultados para tonos SAM con m = 1 y varias frecuencias portadoras [30]. Es interesante

notar como el maximo se desplaza en funcion de la frecuencia portadora hasta que esta

llega a 1 kHz, y luego permanece en un valor fijo en la posicion de 70 Hz.

Existen varias tipos de modelos para calcular la rugosidad. Por un lado estan los modelos

espectrales (a partir de la idea original de Helmholtz) [104, 55, 113], que utilizan una


Figura 1.14: En azul, la sepracion mas pequena sin rugosidad en funcion de la frecuenciapromedio: Plomp et Levelt (1965) + : Plomp et Steeneken (1968) : Mayer (1894) : Crosset Goodwin (1893) : Guthrie et Morril (1928) et Kaestner (1909). En negro, la separacioncon maxima rugosidad. : Plomp et Levelt (1965) + : Plomp et Steeneken (1968) : Kameokaet Kuryiagawa (1969a) : Cross et Goodwin (1893) : Guthrie et Morril (1928) et Kaestner(1909). Los ajustes corresponden para el caso azul a un 110% y para el negro a un 45% dela banda crıtica medida en ERB. Figura tomada de Pressnitzer [93]

Figura 1.15: Valores de rugosidad para tonos SAM en funcion de la frecuencia moduladorapara varias frecuencias portadoras. Los valores de rugosidad estan en unidades de asper quevalen 1 para la maxima rugosidad de un tono de 1 kHz. Tomado de Fastl and Zwicker [30]


relacion como la que se muestra en la figura 1.13 para computar la rugosidad de cada par

de componentes de un espectro. Este tipo de modelo es detallado en el apendice A.3.

Por otro lado existen modelos temporales para calcular la rugosidad [17, 3]. Estos uti-

lizan un banco de filtros auditivos, para luego medir la rugosidad por cada canal. Esto es

realizado analizando la frecuencia de modulacion de la envolvente para cada canal auditivo.

Se ha mostrado que la medida de rugosidad es aditiva [110], por lo que la rugosidad total

se puede computar sumando la rugosidad presente a lo largo del eje tonotopico. En sonidos

con mas de dos componentes es necesario computar las rugosidades parciales entre todos

los pares de componentes. Para el caso de sonidos armonicos, si se superponen dos notas

formando un intervalo musical, el nivel de rugosidad equivalente al nivel de disonancia, y

se puede asociar una sensacion de relajacion para intervalos consonantes o de tension para

los disonantes [92].

Para el caso de los tonos SAM, si se elige una frecuencia de modulacion que genera

rugosidad, es posible establecer una relacion sencilla entre el valor de la rugosidad y la

profundidad de modulacion:

R = const×mp (1.4)

Donde R es el valor de la rugosidad y p toma valores entre 1 y 2 dependiendo de

que trabajos se tomen como referencia [17]. Para una senal arbitraria es posible medir

la profundidad de modulacion efectiva a partir del coeficiente de variacion (CV ) de su

envolvente:

mef =√2 CV =

√2σ

µ(1.5)

Con σ y µ la desviacion estandar y el valor medio de la envolvente respectivamente. Es

posible expresar esta relacion en terminos del valor cuadratico medio (amplitud RMS) de

la envolvente si consideramos que A2RMS = σ2 + µ2, por lo que la ecuacion queda:

mef =√2

√(ARMS

µ

)2

− 1 (1.6)


Mediante estas ecuaciones es posible establecer la profundidad de modulacion efectiva

del tono con batidos de la ecuacion 1.3 y por lo tanto su rugosidad. El valor que se obtiene

para la profundidad de modulacion es mef = 0,68, lo cual esta en perfecto acuerdo con los

resultados experimentales que establecen que un tono SAM con valores de m entre 0.65 y

0.7 tiene la misma rugosidad que un tono con batidos[110].

Sin pretender agotar todos los aspectos que abarca el fenomeno del timbre de los sonidos

con modulacion, en este capitulo se introdujeron los conceptos basicos, el vocabulario y gran

parte de las herramientas que seran empleadas en esta tesis para el estudio de esta clase

de sonidos. En lo que sigue la exposicion del trabajo desarrollado especıficamente en esta

tesis parte de la percepcion tımbrica a alto nivel de sonidos complejos en el ambito musical,

para luego pasar al ambito mucho mas controlable de los sonidos SAM y finalmente realizar

una modelizacion del procesamiento que sufren esta ultima clase de sonidos en la periferia

auditiva.

Capıtulo 2

Multifonicos del saxofon

...il qual ordine ricerca, prima, che le

percosse fatte dentro all’istesso tempo

siano commensurabili di numero, accio

che la cartilagine del timpano non

abbia a star in un perpetuo tormento...

Galileo Galilei.

Este capıtulo esta dedicado al estudio del timbre en los sonidos multifonicos del saxofon.

El origen de este estudio se debe al trabajo en colaboracion con el saxofonista y compositor

Martın Proscia, un especialista en la ejecucion y composicion con multifonicos en la musica

contemporanea. Esta colaboracion permitio expandir el tipo de sonoridades tıpicamente

utilizados por los estudios de percepcion tımbrica, generando nuevas perspectivas para el

estudio del timbre. En este capıtulo se presentan, primero, los resultados del analisis de

los multifonicos en base a sus atributos acusticos y, segundo, en base a un experimento de

comparacion de pares de sonidos.

2.1. Introduccion

Los estudios psicofısicos del timbre en la musica se han centrado mayormente en estudiar

los sonidos de instrumentos musicales de las orquestas occidentales. Los resultados de estos

33

34 Capıtulo 2. Multifonicos del saxofon

experimentos lograron identificar que las propiedades espectrotemporales de estos sonidos

pueden ser descriptas por un mismo espacio tımbrico de pocas dimensiones. Esto hace

referencia a que esto instrumentos tienen muchas propiedades en comun, como por ejemplo,

pueden ser representados por un sistema fuente-filtro.

El uso de nuevas tecnicas de ejecucion en la musica del siglo XX, las denominadas tecni-

cas extendidas, ha expandido el universo de sonoridades que los instrumentos occidentales

pueden alcanzar. Estos avances todavıa no han sido reflejados en los estudios psicofısicos

de percepcion tımbrica, quizas debido a su caracter de novedad, pero tambien debido a la

dificultad de sistematizacion de conjuntos de sonidos muy heterogeneos. En este contexto,

nos propusimos abordar el estudio de la percepcion tımbrica de los multifonicos del saxofon.

Suelen conocerse por multifonicos aquellos sonidos que poseen mas de una nota recono-

cible y que son producidos por un instrumento tıpicamente monofonico. Para su produccion

se requieren tecnicas distintas a las usadas convencionalmente, por lo que los multifonicos

caen dentro de la categorıa de sonidos generados mediante tecnicas extendidas. En el caso

de los instrumentos de viento de la familia de las maderas las tecnicas incluyen digitacio-

nes, embocaduras y disposiciones del tracto vocal especiales. Los multifonicos son en su

gran mayorıa sonidos inarmonicos, y por lo tanto la afinacion de cada altura no respeta

estrictamente las de una escala temperada. Las alturas en los sonidos multifonicos surgen al

formarse nuevas resonancias dentro del tubo del instrumento. Esto ocurre por el cambio de

la longitud efectiva del tubo, que se produce al utilizar una digitacion especial que combina

llaves abiertas y cerradas.

Para comprender mas en detalle como surgen las resonancias a partir de una digitacion

es necesario observar la impedancia acustica del instrumento. En la figura 2.1 se pueden

observar dos espectros de impedancias de un saxo soprano en Bb, medidas a la entrada

de la boquilla sin tener la cana puesta [12]. En la figura 2.1a se puede ver el espectro

para la nota B4 del saxo (A4 440 Hz), dada por el primer pico de resonancia junto con la

digitacion necesaria para lograr esa nota, mientras que en la figura 2.1b se puede observar el

espectro de la impedancia para una digitacion que produce un multifonico. En el multifonico

se introduce un nuevo pico de resonancia cerca de la nota del saxo D#5 (C# 554 Hz),

lo que permite generar un intervalo de tercera mayor. Para lograr un sonido estable es

2.1. Introduccion 35

(a) B4 (b) Multifonico B4 D#5

Figura 2.1: Impedancia acustica de un saxo soprano en Bb para dos digitacioenes: (a) unanota sola, (b) un multifonico. Las notas estan transpuestas. Adaptado de Chen et al. [12]

necesario sintonizar el tracto vocal y la embocadura de manera tal que los dos picos tengan

una impedancia resultante similar. En la figura 2.2 se pueden observar mediciones de la

impedancia del tracto vocal mientras se ejecuta un multifonico en un saxo tenor. En el

primer espectro se puede ver que el tracto vocal se ha sintonizado con los primeros picos

de resonancia mientras que en el segundo espectro lo hace con un pico mucho mas elevado

en frecuencia. La habilidad de manejar las resonancias del tracto vocal en un registro de

frecuencias amplio es un indicador de la experiencia del ejecutante segun el estudio de Chen

et al. [13]. Finalmente el ejecutante tambien puede modificar la embocadura y la presion

sobre la cana para generar cambios finos en la afinacion de las alturas y otras caracterısticas

tımbricas.

Debido a todos estos factores que afectan su produccion existe una gran cantidad de po-

sibles multifonicos con diferentes sonoridades. Sin embargo, hay ciertas propiedades fısicas

que son comunes a todos estos sonidos. Las frecuencias de las alturas del multifonico estan

sujetas a distorsion por intermodulacion debido a la saturacion en las oscilaciones de la

cana [5]. A medida que la presion de soplido es mas fuerte, ademas de subir la intensidad,

tambien aumenta el nivel de distorsion y se generan nuevas componentes en frecuencias


Figura 2.2: Impedancia acustica de un saxo Tenor en Bb para una digitacion de unmultifonico, superpuesta con la impedancia del tracto vocal en dos configuraciones. Lospicos sobre la impedancia del tracto vocal indican las frecuencias mas prominentes en elsonido resultante. Adaptado de Chen et al. [12].

(productos de distorsion) que modifican sustancialmente el timbre del sonido mediante ba-

tidos y rugosidad1. Esta relacion entre la intensidad y el aumento de contenido armonico

es muy comun en la ejecucion de casi todos los instrumentos musicales. Sin embargo, en

el caso de los multifonicos, el cambio tımbrico es mucho mas notorio por la disonancia que

genera la distorsion y la rugosidad. Otra caracterıstica fısica de los multifonicos es que en

muchos casos el sistema acustico en cuestion puede comportarse de forma caotica, lo cual

puede agregar efectos similares al ruido [63].

Los fenomenos mencionados anteriormente muestran que tan solo agregando nuevas re-

sonancias al sistema pueden generarse cambios muy drasticos en el sonido resultante. Mas

aun, debido a que el control de la embocadura, presion y tracto vocal puede modificarse de

manera gradual, se genera un abanico continuo de sonidos multifonicos. De todas formas,

existe una cantidad limitada de multifonicos desde el punto de vista de las digitaciones, ya

que no son infinitas las combinaciones de llaves abiertas y cerrada y ademas no toda digi-

tacion genera un espectro de impedancias con picos lo suficientemente altos para producir

1Si la separacion en frecuencias de los productos de distorsion es menor que la banda crıtica.


un sonido estable. Existen varios libros y catalogos de multifonicos con las digitaciones y

las notas que producen [68, 117], sin embargo en esas referencias no se profundiza en las

cuestiones tımbricas de los sonidos.

En los ultimos anos ha habido un incremento en el estudio de los sonidos multifonicos, y

en particular los producidos por el saxofon [4] [95]. Estos estudios se han centrado principal-

mente en la produccion de estos sonidos y en las tecnicas instrumentales que conllevan, pero

no ha habido estudios exhaustivos sobre la percepcion tımbrica de estos sonidos. En nuestro

grupo de trabajo se realizo un estudio musicologico previo [95] sobre los multifonicos del

saxofon alto, donde se clasificaron estos sonidos en cuatro grandes clases. A partir de esta

investigacion y por lo mencionado sobre la falta del estudio tımbrico de estas sonoridades,

se llevo adelante el siguiente estudio.

En el trabajo musicologico previo, se estudio un gran conjunto de multifonicos a partir

de un enfoque tımbrico basado en la escucha reducida de Schaeffer [103]. Los resultados que

utilizaremos en este trabajo corresponden a los sonidos estacionarios de los multifonicos y

no se abordaran sus capacidades dinamicas. El estudio realizado permitio generar cuatro

clases de multifonicos caracterizando los sonidos en base a sus tecnicas interpretativas y los

atributos perceptuales, definidos por Schaeffer, como el grano interno, la cualidad de super-

ficie y la iteracion [15]. Las clases son los siguientes: Bicordios, Complejos, Multiarmonicos

y Tremolos. En la figura 2.3 podemos observar unos espectros de ejemplo para las cuatro

clases de multifonicos. En el contexto del presente trabajo describiremos los multifonicos

solo en base el intervalo musical, el nivel de distorsion y el rango dinamico de ejecucion2.

Bicordios. Estan caracterizados principalmente por tener dos notas fundamentales

formando un intervalo de tercera mayor, menor, o disminuida y un nivel de distorsion

medio o bajo y son ejecutados con dinamicas entre pp y mf (figura 2.3.a).

Complejos. Poseen un espectro muy inarmonico, con muchos productos de distorsion,

un alto nivel de rugosidad y son ejecutados con dinamicas entre mf y ff (figura

2.3.b).

Multiarmonicos. Cuentan con un espectro con dos componentes muy claras en inter-

2Para una descripcion mas completa sobre la ejecucion de estos sonidos referirse al trabajo [95].


Figura 2.3: Cuatro espectros de tonos multifonicos del saxofon. (a) Bicordio, (b) Com-plejo, (c) Multiarmonico, (d) Tremolo. Con barras verticales se indican las frecuenciasfundamentales que caracterizan el intervalo musical y con una barra horizontal la distanciaen Hz entre bandas laterales, es decir la frecuencia de modulacion (Fm).

valos de septima y novena y muy pocas componentes en total, un nivel de distorsion

practicamente nulo y son ejecutados con dinamicas entre ppp y mp (figura 2.3.c).

Tremolos. Estan caracterizados principalmente por un intervalo de octava desafina-

da lo que genera batidos muy reconocibles, muchos productos de distorsion y son

ejecutados con dinamicas entre mp y f (figura 2.3.d).

En los espectros se puede observar una organizacion de las componentes muy similar

a la que se encuentra en tonos producidos por sıntesis FM. Es muy comun escuchar, con

este tipo de sıntesis, sonoridades inarmonicas similares a los multifonicos. Desde un punto

de vista simplificado se puede pensar que muchas de las caracterısticas de los multifonicos

pueden ejemplificarse mediante sıntesis por FM [39]. La separacion en frecuencia entre los

productos de distorsion (o bandas laterales) corresponde a la frecuencia de modulacion


Figura 2.4: Cuatro espectros de tonos multifonicos del saxofon con sus correspondientespatrones de excitacion. (a) Bicordio, (b) Complejo, (c) Multiarmonico, (d) Tremolo.

(fm) y las frecuencias fundamentales corresponden a las portadoras.

A continuacion, en la figura 2.4, se muestran los mismos multifonicos de ejemplo pero

con sus correspondientes patrones de excitacion (seccion 1.3.2 ). Estos patrones, al igual

que los espectros, solo permiten representar el sonido de forma estacionaria. Sin embargo, el

hecho de que a lo largo de todo el espectro se puede ver que las componentes caen dentro de

las mismas bandas crıticas, hace suponer que es necesaria una representacion dinamica del

sonido para estudiar los batidos, que justamente son la caracterıstica tımbrica mas saliente

de estos sonidos.

Para analizar las caracterısticas dinamicas se debe utilizar una representacion en tiempo

y frecuencia como pueden ser los bancos de filtros gammatones (A.2). En la figura 2.5

podemos observar el cocleograma para el primer multifonico (2.3.a). En el panel superior

de la figura se observa la forma de onda, la cual muestra una envolvente con modulaciones.

En el panel lateral se muestra el patron de excitacion. En el panel central se observa el


cocleograma donde tambien se pueden ver presentes estas oscilaciones a lo largo de los

canales auditivos3. En la figura 2.6 se muestran la forma de onda de los canales auditivos

con mayor energıa, los picos del patron de excitacion. En este caso se puede ver como los

distintos canales auditivos tienen diferente comportamiento. En el canal del panel superior,

la forma de onda corresponde a la interaccion de las dos componentes que dan el intervalo

de 3ra (ver figura 2.4.a), mientras que en los otros paneles la forma de onda corresponde

a la interaccion entre cada vez mas armonicos y productos de distorsion. Se puede notar

como la envolvente va tomando comportamientos mas complejos en los canales de mas alta

frecuencia, lo que le da las caracterısticas especiales al timbre del sonido.

−1

0

1

60 80 100 120 140Tiempo (ms)

5

10

15

20

ERBn

10-1

Potencia RMS

Figura 2.5: Cocleograma de un multifonico Bicordio. Panel superior: forma de onda.Panel central: cocleograma. Panel lateral: patron de excitacion. La escala de colores delcocleograma esta saturada para mostrar la senal de los canales con baja energıa.

Aunque es posible estudiar todos los multifonicos mediante este analisis detallado, en

la siguiente seccion los estudiaremos a partir de un conjunto reducido de atributos que

capturan las caracterısticas mas importantes que se han mencionado.

3La escala de colores fue saturada para observar las oscilaciones en canales donde la energıa era muybaja.

2.2. Analisis acustico de los multifonicos 41

−1.5−1.0−0.5

0.00.51.01.5

Cana

l 9 E

RBn

−0.8−0.6−0.4−0.20.00.20.40.60.81.0Ca

nal 1

3 ER

Bn

−0.20−0.15−0.10−0.05

0.000.050.100.150.20

Cana

l 16

ERBn

60 80 100 120 140Tiempo (ms)

−0.04−0.03−0.02−0.01

0.000.010.020.030.04

Cana

l 18

ERBn

Figura 2.6: Formas de onda de los canales con mayor intensidad coorrespondientes alcocleograma de la figura 2.5

2.2. Analisis acustico de los multifonicos

2.2.1. Procedimientos

Se confecciono una base de datos de 118 multifonicos a partir de grabaciones de un

saxofon alto Selmer Super action 80 Serie III afinado en A4 440 Hz, con una boquilla

Selmer Serie 80 C* y boquillas Vandorem 31/2. Los grabaciones fueron realizadas con un

microfono de medida (DBX RTA-M) y una interfaz de sonido externa Focusrite Sapphire

a una frecuencia de muestreo de 48 kHz con un resolucion de 24 bits. Los multifonicos

fueron seleccionados y tocados uno por uno por Martın Proscia en una sala de 85 metros

cuadrados, con tratamiento acustico (T60 @1kHz = 0.3). La duracion de cada multifoni-

co fue normalizada a 3 segundos utilizando las partes mas estables y estacionarias de la

grabacion.

La base de datos quedo conformada con las siguientes cantidades de multifonicos por

cada clase. 21 Bicordios, 39 Complejos, 34 Multiarmonicos y 24 Tremolos. Vale la pena

notar que a pesar de que las clases estan bien definidas hay un cierto grupo de multifonicos


que no se ajustan perfectamente en ninguna clase y hay sonoridades hıbridas que se situan

en los bordes entre las clases.

En base a lo descrito en la seccion anterior, los multifonicos pueden ser estudiados en

base a sus frecuencias fundamentales, productos de distorsion y frecuencia de modulacion.

Para cuantificar esto, se utilizaron los siguientes atributos acusticos:

1. Centroide espectral (CE)

Se computo el centroide espectral del espectro de potencias a partir de la siguiente

formula.

CE =

∑Nn=0 fnPn∑Nn=1 Pn

Donde fn y Pn son la frecuencia y el espectro de potencia del intervalo n de la

transformada de Fourier discreta respectivamente.

2. Frecuencia de modulacion (fm)

La gran mayorıa de los espectros tenıa productos de distorsion organizados en forma

de componentes separadas por una distancia fija (bandas laterales), que en este caso

equivale a la frecuencia de modulacion.

3. Rugosidad

La rugosidad se computo a partir de un modelo espectral que considera las rugosidades

parciales entre todas los pares de componentes presentes en el espectro [104]. La

descripcion se encuentra en el Apendice A.3.

4. Frecuencias fundamentales F1 and F2

Se consideraron las frecuencias fundamentales F1 y F2, a partir de las cuales se

genera el intervalo musical mas prominente y que determinan el contenido armonico

del espectro, con F2 > F1. No fue necesario considerar mas frecuencias para el grupo

de multifonicos analizado.

5. Intervalo musical (IM) en semitonos


El intervalo se calculo entre las frecuencias F1 y F2

IM = 12 log2(F2/F1)

Es necesario realizar una aclaracion con respecto a las intensidades del grupo de mul-

tifonicos utilizados. Algunos multifonicos, como los del grupo de los Multiarmonicos solo

pueden ser ejecutados a intensidades muy bajas, mientras que en el otro extremo, losComplejos

solo pueden realizarse a intensidades muy altas. Estas cuestiones hacen que las diferencias

de intensidades en el conjunto de sonidos utilizados llegue a 30 dB. Esta clara diferencia

hace que los multifonicos sean muy distinguibles en base a su intensidad, pero dado que

esta no es un atributo tımbrico per se, se decidio no realizar un analisis especial sobre las

intensidades. Sin embargo, como ya se ha mencionado, la intensidad tiene sus efectos en el

nivel de distorsion y la rugosidad.

2.2.2. Resultados

En la figura 2.7, se muestran las distribuciones de los valores de los atributos acusticos

para las cuatro clases de multifonicos y para el total de ellos. Para analizar que atributos

son capaces de discriminar las clases, realizamos un analisis ANOVA de una vıa junto con

un test post hoc de comparaciones multiples de Tukey HSD (α = 0,05). La hipotesis nula

fue rechazada para todos los atributos de manera muy significativa (p < 0,01). Para la

frecuencia fundamental F1, el test post hoc, mostro que los Tremolos son discriminados

con respecto al resto de las clases ya que poseen la nota F1 mas grave. Para la frecuencia

fundamental F2, las clases de los Bicordios y los Tremolos se pueden discriminar de las

clases de los Complejos y los Multiarmonicos. Para el intervalo musical, los Bicordios se

logran discriminar del resto. Para el centroide espectral y la rugosidad, salvo la comparacion

entre los Bicordios con los Multiarmonicos, las clases logran discriminarse para todas las

otras comparaciones. Finalmente, para la frecuencia de modulacion se puede discriminar

las clase de los Tremolos con el resto.

A continuacion se estudio como se relacionan los atributos entre sı. En la tabla 2.1,

se muestran los coeficientes de correlacion entre los atributos. Este procedimiento permite


Bi Co Mu Tr Todos0.10.20.30.40.50.60.70.8

F1 (kHz)

(a)

Bi Co Mu Tr Todos0.40.60.81.01.2

F2 (kHz)

(b)

Bi Co Mu Tr Todos051015202530

Intervalo musical (semitonos)

(c)

Bi Co Mu Tr Todos0.20.40.60.81.01.21.41.6

Centroide espectral (kHz)

(d)

Bi Co Mu Tr Todos10-510-410-310-210-1100101

Rugosidad

(e)

Bi Co Mu Tr Todos020406080100120140160

Frecuencia de

modulación f m (Hz) (f)

Figura 2.7: Diagramas de cajas para el conjunto de atributos acusticos utilizados separadospor cada clase de multifonicos y el conjunto completo. (a) Primera frecuencia fundamen-tal, (b) segunda frecuencia fundamental, (c) intervalo musical, (d) centroide espectral, (e)rugosidad y (f) frecuencia de modulacion

F1 F2 Intervalo Centroide Rugosidad fm

F1 1.00 0.51 -0.44 0.10 -0.40 0.33F2 0.51 1.00 0.53 0.11 -0.35 0.34Intervalo -0.44 0.53 1.00 0.03 0.06 -0.03Centroide 0.10 0.11 0.03 1.00 0.26 0.11Rugosidad -0.40 -0.35 0.06 0.26 1.00 -0.39fm 0.33 0.34 -0.03 0.11 -0.39 1.00

Cuadro 2.1: Tabla de coeficientes de correlacion para el conjunto de atributos acusticos.


0 5 10 15 20Intervalo musical (semitonos)

0

20

40

60

80

100

120

140

160

Frecue

ncia de

mod

ulación f m

(Hz)

Bicordios Complejos Multiarmónicos Trémolos

Figura 2.8: Atributos acusticos de los multifonicos: frecuencia de modulacion vs intervalomusical.

ver si hay redundancia de informacion en los atributos a partir del grado de correlacion.

Algunos pares de atributos muestran cierto grado de correlacion, como el intervalo musical

con la frecuencia F2 y F1 de forma positiva y negativa respectivamente. Esto es esperable

dada la definicion del intervalo. Las otras correlaciones que se observan probablemente

indiquen cierto tipo de relaciones internas, pero dado que el coeficiente de correlacion solo

sirve para explicar estructuras lineales, es necesario otro tipo de analisis. Para entender

esto con mayor profundidad, vamos a visualizar la informacion en graficos con un atributo

en funcion de otro.

En la figura 2.8 se representa la frecuencia de modulacion en funcion del intervalo

musical para las cuatro clases de multifonicos. Se puede observar un tipo de organizacion

en forma de V asociado al hecho de que ciertos intervalos correlacionan con la frecuencia de

modulacion. Para comprender esto podemos notar que cerca del intervalo de 12 semitonos,

es decir una octava, la frecuencia de modulacion es baja. A medida que el intervalo se

empieza a desafinar, los batidos y por ende la modulacion, crecen. Las curvas que ajustan

estos patrones estan dadas por una relacion con la siguiente forma: fm = kF1 + nF2,

manteniendo F1 fija y variando F2, y k y n son numeros enteros pequenos.


0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6Centroide espectral (kHz)

0

20

40

60

80

100

120

140

160

Frec

uenc

ia de

mod

ulac

ión f m

(Hz)


Figura 2.9: Atributos acusticos de los multifonicos: frecuencia de modulacion vs centroideespectral.

En la figura 2.9 se muestra la frecuencia de modulacion en funcion del centroide espec-

tral. En este caso se puede observar a los sonidos de cada clase ocupando una region bien

definida en el espacio. El centroide espectral logra discriminar bien entre los sonidos con

menos energıa en las frecuencias altas como los Multiarmonicos y los que tienen muchas

componentes de alta frecuencia como los Complejos.

En la figura 2.10 podemos ver la rugosidad en funcion del intervalo musical. Esta figura,

en comparacion con la 2.8, no posee la organizacion precisa que alineaba a los sonidos, pero

el atributo de la rugosidad agrupa muy bien los multifonicos de cada clase, ya que en cierta

medida captura el nivel de distorsion relacionado con las componentes que caen dentro de

una misma banda crıtica.

Finalmente en la figura 2.11 podemos observar la rugosidad en funcion del centroide

espectral. En este caso ambas magnitudes correlacionan levemente ya que los tonos con

mayor rugosidad tambien tiene mayor cantidad de componentes y mayor energıa en las

altas frecuencias, pero al mismo tiempo se puede ver como los Tremolos son los que tiene

el mayor nivel de rugosidad y con valores similares dentro de esa clase.


0 5 10 15 20Intervalo musical (semitonos)

10-2

10-1

100

Rugo

sida

dBicordios Complejos Multiarmónicos Trémolos

Figura 2.10: Atributos acusticos de los multifonicos: rugosidad vs intervalo musical.

0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6Centroide espectral (kHz)

10-2

10-1

100

Rugo

sida

d


Figura 2.11: Atributos acusticos de los multifonicos: rugosidad vs centroide espectral.


2.2.3. Resumen

El conjunto de multifonicos, a pesar de tratarse a primera vista de un conjunto de

sonidos muy variado y heterogeneo, posee ciertas caracterısticas que hacen posible su or-

ganizacion y clasificacion. Es ası que el trabajo musicologico previo realizado por Martın

Proscia supo captar ciertas esencias tımbricas en estos sonidos y generar una clasificacion

util para los propositos de la composicion. A continuacion de esto, el trabajo mostrado aquı,

en base al estudio de los atributos acusticos, permitio cotejar cuales fueron los factores uti-

lizados para clasificar los sonidos. Al mismo tiempo, permitio considerar los orıgenes fısicos

de la produccion de los multifonicos en el saxofon y establecer cuales son los fenomenos

comunes a todos los multifonicos: el hecho de tener dos o mas frecuencias fundamentales

y un espectro denso como resultado de las intermodulaciones de los armonicos de estas

fundamentales. Finalmente, las caracterısticas de modulacion de estos sonidos sugirieron

que la rugosidad es un atributo acustico saliente para la percepcion de estos sonidos. Me-

diante el analisis de los atributos acusticos se pudieron observar las diferencias entre cada

clase de multifonicos. Con la informacion de estos atributos es posible generar un sistema

de aprendizaje automatico que dado un multifonico permite predecir a que clase pertenece

[97]. Para expandir estos resultados y el estudio del timbre de estos sonidos, se realizo un

experimento psicofısico de comparacion de pares, que es expuesto a continuacion.

2.3. Experimento de comparacion de multifonicos

Se diseno un experimento psicofısico de comparacion de pares para obtener resultados

perceptuales cuantitativos sobre el comportamiento tımbrico de los multifonicos y para

poder construir cierta confianza con la clasificacion propuesta por el trabajo musicologico.

Este experimento se realizo mediante la tecnica descrita en la seccion 1.2 sobre comparacion

de pares de sonidos y el analisis por medio del escalamiento multidimensional (MDS).

2.3. Experimento de comparacion de multifonicos 49

2.3.1. Desarrollo experimental

Se seleccionaron 15 sonidos del conjunto de 118 como estımulos. Estos sonidos fueron re-

presentativos de las cuatro clases propuestas y fueron seleccionados para mostrar diferentes

matices y frecuencias fundamentales de las muestras (cuatro Bicordios, cuatroMultiarmoni-

cos, cuatro Tremolos, y tres Complejos). Los fragmentos fueron editados seleccionando un

intervalo de 3 segundos de duracion que fuese lo mas estacionario posible. Las intensidades

no fueron normalizadas debido a que diferentes sonidos tienen diversos niveles de ruido,

los cuales podrıan tomar mucho protagonismo si se aumenta la intensidad, y pretendimos

preservar las caracterısticas de una escucha realista. El nivel fue ajustado para restringir

el rango de niveles sonoros entre 62 y 71 dBASPL, evitando generar un sesgo excesivo por

las diferencias de intensidad. De todas formas, con el fin de estudiar los posibles sesgos,

se insertaron algunas presentaciones con diferentes niveles sonoros para poder tomar como

control en el experimento. Se consideraron todos los pares posibles por lo que los sujetos

escucharon 225 presentaciones.

Cinco sujetos participaron del experimento con edades entre 25 y 35 anos. Todos ellos

fueron estudiantes o egresados de la Carrera con Medios Electroacusticos de la Universidad

de Quilmes y fueron invitados a participar voluntariamente y manifestaron su consenti-

miento para participar por escrito. Los sujetos no estaban familiarizados con la clasificacion

propuesta, tenıan experiencia en el campo de la musica electroacustica contemporanea y

reportaron no tener desordenes auditivos.

El procedimiento fue el siguiente. En una primera etapa, los sujetos escuchaban el

conjunto de los 15 sonidos para tener una primera idea de la variedad de sonidos que

escucharıan luego. Seguido a esto, se siguio con 6 comparaciones de pares de entrenamiento

que no fueron tomados en cuenta para el analisis. Luego comenzaba el experimento en

sı con los 225 pares de forma aleatoria mas 23 pares para usar de control.

La tarea de los sujetos era juzgar el grado de similitud del par de sonidos utilizando

la siguiente escala: 1 nada similares, 2 poco similares, 3 algo similares, 4 muy similares,

5 practicamente iguales. El experimento fue realizado en MATLAB usando la biblioteca

playrec en una Mac Mini con una interfaz de audio Focusrite Saffire. Los sonidos fueron


presentados a traves de unos auriculares abiertos calibrados Sennheiser HD 600 en la misma

habitacion donde se hicieron las grabaciones.

Los datos obtenidos del experimento fueron analizados mediante MDS usando el algo-

ritmo INDSCAL. Este tipo de MDS es utilizado cuando se quiere realizar un ajuste con

multiples respuestas, y permite encontrar una configuracion espacial que trata de satisfacer

las distancias perceptuales de todos los sujetos. Esto es realizado por el algoritmo asignando

diferentes pesos a cada dimension segun cada sujetos [10].

2.3.2. Resultados

Se analizaron los controles que se hicieron sobre la intensidad, con un t-test y no se en-

contraron diferencias significativas entre las respuestas de parejas intensidades modificadas

contra las parejas con intensidades sin modificar (p = 0,64).

A pesar de que participaron solo 5 sujetos, las respuestas presentaron un alto grado de

semejanza entre si, obteniendose un coeficiente de correlacion promedio entre las respuestas

de 0,8. Asimismo las respuestas de cada sujeto no se vieron influenciadas por el orden de

presentacion de los sonidos.

Los resultados del MDS utilizando 2 dimensiones se exhiben en la figura 2.12. Para

establecer si esta es una buena configuracion se computa el parametro denominado stress

que indica la diferencia promedio normalizada entre las distancias en el espacio original y

las distancias del espacio con escalamiento (Apendice A.1). El stress de esta configuracion

fue de 0,18. Lo que primero que se puede observar es que los multifonicos de cada clase

han permanecido agrupados. Esto refleja que los participantes juzgaron mas similares entre

sı los tonos de una misma clase en comparacion a los de otra clase. El arreglo espacial

permite observar las relaciones entre las clases. Por ejemplo, podemos ver a la clase de los

Bicordios como la clase que se encuentra en una posicion relativamente mas central y mas

cerca del resto. Tambien podemos observar que los Complejos y los Tremolos se encuentran

alineados en la dimension 1.

En la figura 2.13 se muestra la configuracion MDS utilizando 3 dimensiones. El stress

en este caso fue de 0,13. Las primeras dos dimensiones muestran una configuracion similar

a la situacion 2D, pero la tercera dimension muestra a los Bicordios en una posicion mas


−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8Dimension 1

−0.6

−0.4

−0.2

0.0

0.2

0.4

0.6

Dim

ensi

on 2


Figura 2.12: La configuracion 2D MDS para los quince multifonicos utilizados en el ex-perimento. Los marcadores indican las clases de multifonico: triangulos para los Bicordios,estrellas para los Multiarmonicos, cırculos para los Tremolos y cruces para los Complejos.

alta separados del resto.

Para investigar las posibles interpretaciones de las dimensiones perceptuales entregadas

por el MDS, computamos la correlacion entre las dimensiones y los atributos acusticos

utilizados en la seccion 2.2.1. En la tabla 2.2 se muestran los valores de la correlacion

junto con un asterisco que indica si la correlacion fue significativa (α = 0,05). Para la

configuracion 2D, la primera dimension correlaciona muy bien con la rugosidad y tambien

con el centroide, y la segunda dimension anticorrelaciona con la frecuencia fundamental F1

y la frecuencia de modulacion. Para la configuracion 3D, tenemos para la primera dimension

nuevamente una correlacion con la rugosidad y el centroide, pero para la segunda dimension

se agrega una anticorrelacion con la F2 y una correlacion muy marcada con la rugosidad.

La tercera dimension anticorrelaciona principalmente con la F2 y el intervalo musical, lo

cual explica porque los Bicordios se veıan separados en esa dimension en la figura 2.13.


Figura 2.13: La configuracion 3D MDS para los quince multifonicos utilizados en el ex-perimento. Los marcadores indican las clases de multifonico: triangulos para los Bicordios,estrellas para los Multiarmonicos, cırculos para los Tremolos y cruces para los Complejos.

2D 3D

Dim 1 Dim 2 Dim 1 Dim 2 Dim 3F1 -0.46 -0.62 * -0.28 -0.78 * 0.26F2 -0.25 -0.13 -0.23 -0.53 * -0.68 *fm -0.35 -0.66 * -0.20 -0.78 * 0.08Intervalo 0.18 0.51 0.04 0.26 -0.90 *Centroide 0.69 * -0.38 0.72 * 0.02 -0.54 *Rugosidad 0.76 * 0.48 0.61 * 0.95 * -0.08

Cuadro 2.2: Coeficientes de correlacion entre las dimensiones MDS y los atributos acusti-cos para el conjunto de multifonicos del experimento. (fm) frecuencia de modulacion, (CE)centroide espectral, (F1) primera frecuencia fundamental (F2), segunda frecuencia funda-mental. Las correlaciones significantes con tolerancia α = 0,05 estan marcadas con unasterisco


2.3.3. Resumen

Se realizo un experimento de comparacion de pares de sonidos de multifonicos con el

objetivo de estudiar las caracterısticas tımbricas de un subconjunto de 15 multifonicos re-

partidos entre las cuatro clases. El experimento se realizo bajo condiciones controladas, con

buen equipamiento y los participantes poseıan un buen grado de entrenamiento auditivo. Al

mismo tiempo se hicieron todas las comparaciones posibles con los 15 sonidos y se hicieron

los controles suficientes para corroborar el criterio utilizado en las comparaciones.

Los resultados del escalamiento multidimensional MDS, permitieron observar tanto en

2 como 3 dimensiones cuales fueron las dimensiones perceptuales utilizadas por los partici-

pantes. La configuracion 2D se organizo basicamente a partir del centroide y la rugosidad en

una dimension y la frecuencia de modulacion y F1 en la otra. Al aumentar las dimensiones,

la configuracion 3D mostro un nivel de stress mas bajo e incluyo al intervalo musical como el

atributo saliente en la tercera dimension. Esto indica, que esta configuracion, es una posible

representacion del espacio tımbrico perceptual utilizado por los sujetos participantes.

Podemos ver que a priori no es tan sencillo interpretar una dimension puramente es-

pectral y otra puramente temporal. Sin embargo, el hecho de que los atributos acusticos

esten relacionados entre sı con diferentes tipos de estructuras, hace posible sacar algunas

conclusiones extras. Para esto hay que analizar la rugosidad de los multifonicos. Por un lado

la rugosidad es mayor cuando las componentes estan muy cerca entre sı, es decır una fm

baja, pero por otro lado la rugosidad tambien depende de la cantidad de componentes, que

en el caso de los multifonicos esta relacionado con la cantidad de distorsion y el centroide.

Esto hace que la rugosidad juegue tanto como un atributo espectral y temporal. A partir

de este analisis podemos establecer, tanto en 2D como en 3D, a las primeras dimensiones

como espectrales y a las segundas dimensiones como temporales.

Capıtulo 3

Tonos de amplitud modulada

sinusoidalmente

A partir del estudio de los sonidos multifonicos, pudimos apreciar que es posible ge-

nerar una organizacion tımbrica en base a sonidos con modulaciones. Si bien el conjunto

de sonidos multifonicos poseıa una notable diversidad tımbrica, a pesar de provenir de un

solo instrumento y acustico, los multifonicos presentan una organizacion muy compleja de

componentes e intervalos. A partir de esto, podrıa preguntarse si es posible generar una or-

ganizacion tımbrica similar con conjuntos de sonidos mas sencillos, pero con caracterısticas

de modulacion similares. Con esta motivacion se desarrollo un un experimento acerca de

la percepcion del timbre de tonos modulados en amplitud sinusoidalmente (tonos SAM).

En este capıtulo primero se da una introduccion sobre los tonos SAM y luego se expone el

desarrollo, resultados y analisis del experimento sobre la organizacion tımbrica de los tonos

SAM.

3.1. Introduccion

Los tonos SAM, a pesar de ser sonidos relativamente sencillos en su formulacion y sınte-

sis, tienen la posibilidad de generar un abanico tımbrico muy rico. Los diferentes tipos de

perceptos que pueden evocar fueron desarrollados en la seccion 1.4.1, a partir de la figura

55

56 Capıtulo 3. Tonos de amplitud modulada sinusoidalmente

1.11 que describe varias regiones del espacio de parametros de los tonos SAM. Estos percep-

tos varıan notablemente con la frecuencia de modulacion. Para frecuencias de modulacion

bajas se genera la sensacion se fluctuacion de la intensidad, para frecuencias de modulacion

intermedias se da la sensacion de rugosidad, y para frecuencias superiores se da la sensacion

de escuchar las componentes resueltas por separado. Al mismo tiempo, dependiendo de la

frecuencia portadora y la frecuencia moduladora se puede generar una sensacion de altura

tonal, mas baja que la frecuencia de la portadora (fenomeno de la fundamental ausente o

altura virtual).

Los tonos SAM, pueden ser generados a partir de tres parametros: la profundidad

de modulacion m, la frecuencia moduladora fm y la frecuencia portadora fc. Al variar

la profundidad de modulacion se puede realizar una transicion entre un tono sinusoidal

(m = 0) y un tono completamente modulado (m = 1). De ahora en mas dejaremos fijo

el valor en m = 1 para poder generar tono con modulaciones mas salientes, por lo que

usaremos la siguiente expresion para los tonos SAM:

SAM = [1 + sin(2πfmt)] sin(2πfct) (3.1)

De esta manera el conjunto de tono SAM utilizados queda representado en un espacio

de 2 dimensiones, frecuencia moduladora fm y frecuencia portadora fc.

Al variar la frecuencia portadora fc varıa la nota o altura musical percibida de estos

tonos. Si la frecuencia de modulacion es muy baja, la altura es similar a la provocada por

un tono puro, pero si la frecuencia de modulacion es alta, entonces se puede generar una

nota por el mecanismo de fundamental ausente [22]. Esto estarıa indicando que el espacio

tımbrico que se quiere estudiar tiene intrınsecamente variaciones en altura, que en principio

estan diferenciadas de la sensacion tımbrica. A pesar de esto se considero que hay suficiente

interaccion entre la frecuencias fc y fm como para generar sensaciones tımbricas que no

son invariantes frente a cambios en fc. Incluso existen estudios que indican que el rango

invariante del timbre es de aproximadamente una octava [49], y en este experimento se

realizaran comparaciones en un rango de mas de tres octavas.

La posibilidad de generar un espacio de 2 dimensiones para controlar estos perceptos

3.2. Metodo experimental 57

planteo el siguiente interrogante. ¿Es posible reducir las dimensiones de un espacio percep-

tual solamente a las dimensiones que se utilizan para sintetizar el sonido? Dicho de otra

manera, ¿Como se relacionan las distancias en el espacio de parametros con las distancias

perceptuales?

Para atacar estas preguntas, realizamos un experimento de comparacion de pares de

tonos SAM generados a partir de un espacio basado en las dimensiones fm y fc. A diferencia

del experimento de los multifonicos, donde se tuvo total control sobre los participantes y

las condiciones del ambiente, en este caso se decidio hacer el experimento de manera masiva

a traves de Internet tomando ciertos criterios. Por un lado se considero que los estımulos

SAM eran lo bastante sencillos como para que la tarea de comparar y puntuar similitud

pudiese ser realizada por un conjunto amplio de participantes, sabiendo que no se podrıan

controlar las condiciones de escucha y el estado de concentracion de los sujetos. Por otro

lado la posibilidad de llegar a un gran numero de personas, permitio hacer un analisis sobre

las respuestas y descartar los sujetos que hayan tenido una performance muy baja.

3.2. Metodo experimental

El experimento que se realizo es similar a los experimentos tımbricos de comparacion

de pares de sonidos. Dado un conjunto de sonidos, los participantes evaluan las similitudes

tımbricas entre todas las combinaciones de pares de sonidos.

Plataforma Web

Para realizar el sitio web se desarrollo una plataforma para hacer experimentos utili-

zando HTML 5 y la Web Audio API para la generacion y sıntesis de sonido en tiempo

real. Aunque en este experimento en particular los sonidos podrıan haber sido generados

previamente y almacenados como archivos, se decidio utilizar este mecanismo pensando en

el desarrollo de un sistema general para la realizacion de experimentos psicofısicos online.

El uso de Web Audio permite, entre otras cosas, crear sistemas de sonidos en modulos con

disponibilidad de uso de filtros, FFT y convolucion. El experimento de los tonos SAM esta

disponible en http://lapso.org/experimentos/sampairs.

http://lapso.org/experimentos/sampairs


La escucha de estos sonidos es muy susceptible al tipo de parlantes y a los modos de

resonancia de las salas, ya que son tonos hechos por sinusoides. Para tratar de minimizar

las posibles variaciones que podıa tener cada sujeto en su sistema de sonido, se decidio que

el experimento requerıa el uso de auriculares. Aunque esto no garantiza respuestas planas,

se asume que las fluctuaciones en las respuestas no son muy grandes comparadas al ancho

de banda de los tonos presentados.

Condiciones experimentales

Se realizaron cuatro condiciones con distintos conjuntos de sonidos (figuras 3.1). En los

cuatro casos se utilizaron 15 sonidos organizados en grupos y distribuidos de tal manera que

se pudiesen escuchar varios tipos de perceptos. Se realizaron dos condiciones experimentales

con grupos compactos y dos con grupos mas abiertos.

Para esto se eligieron ciertas ubicaciones en el espacio de parametros y se distribuyeron

los sonidos en forma de triangulos equilateros. La orientacion de los trıangulos fue elegida

para que los sonidos no compartan la fc o la fm. Las condiciones 1 y 2, fueron tomadas

como las principales, mientras que la 3 y 4 sirvieron como control de algunos parametros.

En la condicion 3 se modifico la posicion del racimo central mientras que en la condicion 4

se rotaron las formas triangulares.

Desarrollo experimental

Al comienzo del experimento, se daba una etapa de entrenamiento donde los sujetos

eran introducidos al tipo de sonidos que iban a escuchar y podıan observar el espacio de

parametros fm vs. fc como el de la figura 3.2, donde se iban mostrando distintos ejemplos de

sonidos y sus coordenadas. Tambien, aprovechando las posibilidades de sintetizar sonido en

tiempo real, luego de los ejemplos, los participantes debıan explorar el espacio manualmente

moviendo un cursor. Se realizo este entrenamiento guiado para generar familiaridad con los

tonos para los participantes que no tenıan experiencia en este tipo de sonoridades y para

establecer un marco en comun para la estimacion de las similitudes.

Luego de la etapa de entrenamiento comenzaba la etapa de comparacion de pares. Para

esto se elegıa al azar una de las cuatro condiciones experimentales. Con los 15 sonidos se

3.2. Metodo experimental 59

(a) Condicion 1 (b) Condicion 2

(c) Condicion 3 (d) Condicion 4

Figura 3.1: Coordenadas fm y fm de los conjuntos de sonidos dados por la ecuacion3.1 para las cuatro condiciones experimentales. La lınea horizontal (fm = 11Hz) indicaaproximadamente el lımite para el percepto de fluctuaciones. La curva entrecortada indicaaproximadamente la zona de maxima rugosidad en funcion de fc calculada con el modelode [104] (Apendice A.3), y la curva solida indica el valor de ERB para cada fc

generaron 105 pares que fueron presentados al azar y tambien se incluyeron, al comienzo,

un conjunto de 10 pares extra. La tarea que debıan realizar los participantes, requerıa

estimar la distancia entre los sonidos en base a una escala de 11 puntos del 0 al 10, donde

0 correspondıa a sonidos muy distintos o distantes y 10 a sonido muy parecidos o cercanos.

Estas respuestas permiten generar configuraciones del espacio tımbrico perceptual mediante

el analisis de MDS.

Una vez completadas las evaluaciones, los participantes debıan completar un breve for-


Figura 3.2: Captura de la pantalla del ejemplo de exploracion en el espacio de parametros.El sujeto podıa desplazarse con el puntero e ir escuchando en tiempo real los tonos dadospor las sistema de coordenadas.

mulario con informacion personal y establecer su experiencia previa. Se consulto la expe-

riencia en los campos de la edicion y produccion musical, la ejecucion de instrumentos y la

experiencia en sıntesis sonora. Para cada campo se dieron las opciones: (I) sin experiencia,

(II) experiencia basica con dedicacion esporadica y (III) gran experiencia con dedicacion

habitual.

Al finalizar, los participantes obtenıan un resultado de cuan buena habıa sido su perfor-

mance juzgando las distancias. Este puntaje se computo en base a la correlacion entre las

distancias perceptuales y las distancias en el espacio de parametros. El espacio de parame-

tros utilizado para calcular estas distancias es equivalente al de las figuras 3.1, es decir, sus

ejes fueron tomados en escala logarıtmica.

3.3. Resultados

Presentaremos primero las estadısticas de los datos personales, experiencias en edicion,

ejecucion y sıntesis de los participantes en la tabla 3.1.

Se evaluo si las experiencias personales tuvieron influencia en la performance. Para esto

3.3. Resultados 61

Condicion N Genero Edades Edicion Ejecucion Sıntesis

F M Pr. Min Max I II III I II III I II III

1 24 8 16 30 19 46 9 8 6 4 9 10 9 11 32 25 9 16 27 21 36 11 5 8 5 7 13 14 6 43 21 7 14 27 18 41 12 5 3 8 5 7 13 4 44 22 9 13 28 18 63 11 7 3 6 8 8 14 4 4

Todos 92 33 59 28 18 63 43 25 20 23 29 38 50 25 15

Cuadro 3.1: Datos personales, experiencias en edicion, ejecucion y sıntesis entregadasen el reporte por los participantes

1 2 3 4 TodosCondición

0.0

0.2

0.4

0.6

0.8

1.0

Coeficiente co

rrelación

Figura 3.3: Performances de los sujetos: distribuciones de los coeficiente de correlacionentre las distancias perceptuales y las distancias del espacio de parametros. Las barrashorizontales indican las parejas de condiciones que presentaron diferencias significativas

se hicieron los correspondientes tests estadısticos para evaluar si las performances agrupadas

por niveles de experiencia I, II y III poseıan diferencias significativas, pero estas no fueron

observadas para ninguna de los tres tipos de experiencia (Edicion, Ejecucion y Sıntesis).

Para establecer el valor de performance se utilizo el coeficiente de correlacion entre

las distancias perceptuales y las distancias en el espacio de parametros. En la figura 3.3

se muestran las distribuciones de estos valores de correlacion. A primera vista se puede

observar que los valores de la correlacion tienen comportamientos distintos dependiendo de

la condicion. Para la condiciones 1 y 3 (triangulos pequenos en figura 3.1), los valores de la



0.0

0.2

0.4

0.6

0.8Co

eficiente co

rrelación

in

ter g

rupo

s

Figura 3.4: Performances de los sujetos: distribuciones de los coeficiente de correlacionpara las comparaciones de sonidos inter grupos.

correlacion entregaron valores mas altos que para la condiciones 2 y 4 (triangulos grandes

en figura 3.1), siendo significativas las diferencias entre las condiciones 1 y 2 (indicado por

una barra horizontal). Para estudiar este comportamiento, es necesario diferenciar entre las

respuestas correspondientes a comparaciones dentro de un mismo grupo (o triangulo), y las

que correspondıan a comparaciones entre grupos. Al diferenciarlos, ocurre que los valores

de la correlacion se ven influenciados por el hecho de que las respuestas intra grupo son

muy homogeneas para los casos de las condiciones 1 y 3. En la figura 3.4 se pueden ver las

mismas correlaciones pero solo para las comparaciones inter grupos, dando por resultando

unas distribuciones mucho mas homogeneas.

Para observar como se comportaron las comparaciones intra grupo, en vez de realizar

una correlacion, se realizo un cociente entre las distancias perceptuales y las distancias del

espacio de parametros. Primero se modificaron las escalas de las respuestas con una funcion

lineal para que ajusten lo mejor posible con las distancias reales. Con este cambio de escala

se simplifica el analisis del cociente de las distancias, ya que valores cercanos a 1 indicarıan

que las distancias perceptuales y las reales, estan en concordancia.

En la figura 3.5 se muestran las distribuciones de estos cocientes diferenciando en los

casos intra y inter grupos. Se puede ver en el panel inferior, que el cociente inter grupo

3.3. Resultados 63


2

4

6

8

Cocien

te in

tra grup

os (a)


0.95

1.00

1.05

1.10

1.15

1.20

Cocien

te in

ter g

rupo

s (b)

Figura 3.5: Cocientes entre distancias perceptuales y del espacio de parametros: distri-buciones de los cocientes para (a) distancias intra grupo y (b) distancias inter grupo. Lasbarras horizontales indican las parejas de condiciones que presentaron diferencias signifi-cativas

entrego valores cercanos a 1, por lo que se aprecia el escalamiento realizado, sin embargo

para los cocientes intra grupo se ve que los valores son un tanto mayores que 1, por lo que

las distancias perceptuales fueron mayores que las distancias del espacio. Esto indicarıa que

los sujetos sobreestimaron las distancias entre los sonidos mas cercanos, sobre todo para

las condiciones 1 y 3. Las barras horizontales indican si hubo diferencias significativas entre

las condiciones, y puede verse que ocurre para todas las combinaciones de las condiciones

1 y 3 contra las 2 y 4. Estas diferencias indican que para las condiciones 1 y 3 donde los

tonos se encontraban mas proximos, hubo un efecto de proximidad que genero respuestas

de distancias mayores en comparacion con la de las condiciones 2 y 4.

Otra forma de estudiar las respuestas de los participantes, es analizando las distancias


entre los sonidos para cada dimension fısica por separado y correlacionar las distancias

perceptuales con las distancias en terminos de la frecuencia portadora y moduladora. En

la figura 3.6 se pueden ver las distribuciones para fc y fm y para cada condicion. Los

asteriscos indican si las diferencias entre las distribuciones de fc y fm fueron significativas.

Puede observarse que las mayores correlaciones se dan con la frecuencia portadora fc, ya

que es mas probable que los participantes hayan utilizado ese atributo de los sonidos como

mayor pista para generar las estimaciones de las distancias. Sin embargo no es facil observar

si hubo algun comportamiento relevante relacionado con el tipo de condicion, ya que las

distribuciones parecen muy heterogeneas.


−0.4

−0.2

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Coef

icie

nte

corre

laci

ón

fc

fm

Figura 3.6: Correlaciones con las distancias por cada eje, fc y fm: distribuciones de loscoeficiente de correlacion entre las distancias perceptuales y las distancias en terminos defc y fm

Escalamiento multidimensional

De la misma manera que en el experimento de los multifonicos, se procedio a estudiar

las distancias perceptuales mediante la tecnica de escalamiento multidimensional (MDS).

Para esto se utilizo el algoritmo INDSCAL que permite contemplar todas las respuestas de

los participantes en una sola configuracion geometrica. Se computaron configuraciones en

2 y 3 dimensiones. En la figura 3.7 se pueden ver las configuraciones 2D para las cuatro

3.3. Resultados 65

condiciones. Lo mas importante que se observa es que las configuraciones tienen una gran

semejanza con las configuraciones originales (3.1), por lo que en terminos generales se puede

decir que las respuestas promedio de los participantes lograron capturar el espacio tımbrico

que se habıa planteado.

A pesar de que el espacio original poseıa solo 2 dimensiones, es posible realizar una

configuracion MDS de 3 dimensiones para estudiar la existencia de alguna otra dimension

perceptual que haya influenciado la estimacion de las distancias. En la figura 3.8 se muestran

las configuraciones 3D. A primera vista puede observarse que las posiciones de los grupos

verdes y algunos sonidos naranjas se encuentran mas elevadas que el resto, lo que indicarıa

que en la tercera dimension estos dos grupos estan mas cerca. Al mismo tiempo se puede ver

que las posiciones de los puntos en las dimensiones 1 y 2, parecerıan ser similares a las de

la configuracion 2D. Para ver esto con mayor claridad, se muestran solo las dimensiones 1

y 2 de las configuraciones 3D en la figura 3.9, y puede observarse que las posiciones aunque

respetan a grandes rasgos las posiciones del espacio de parametros, se presentan algunas

posiciones superpuestas.

Para cuantificar estas discrepancias, se calcularon los coeficientes de correlacion entre

las dimensiones de las configuraciones MDS y las posiciones de los sonidos en el espacio de

parametros (tabla 3.2 ). En el caso 2D, se puede ver una gran nivel de concordancia entre las

configuraciones MDS y las posiciones originales de los sonidos para todas las condiciones

y especialmente para las condiciones 2 y 3. Para el caso 3D, los valores son similares,

pero mejora la correlacion fm de la condicion 1. Tambien se computo la correlacion de la

tercera dimension (altura en figura 3.8) con los valores correspondientes de rugosidad de

Condicion 2D 3D

Dim1 y fc Dim2 y fm Dim1 y fc Dim 2 y fm Dim 3 y Rugosidad

1 0.98 0.79 0.98 0.97 0.622 0.99 0.95 0.96 0.91 0.443 0.99 0.99 0.99 0.96 0.624 0.98 0.86 0.96 0.88 0.30

Cuadro 3.2: Correlaciones de las coordenadas del espacio de parametros con las dimen-siones de las configuraciones MDS


−1.0 −0.5 0.0 0.5 1.0−1.0

−0.5

0.0

0.5

1.0

01 2

34

5

67

8

91011 1213 14

1

−1.0 −0.5 0.0 0.5 1.0−1.0

−0.5

0.0

0.5

1.0

0

12 34

567

8

910

1112

1314

2

−1.0 −0.5 0.0 0.5 1.0−1.0

−0.5

0.0

0.5

1.00

1 2 34 5

67

8910

11 121314

3

−1.0 −0.5 0.0 0.5 1.0−1.0

−0.5

0.0

0.5

1.0

01

23 4

5

67

89

10 1112

1314

Dim

ensi

ón 2

Dimensión 1

4

Figura 3.7: Configuraciones MDS 2D: resultados del escalamiento multidimensional 2Dpara cada condicion.

cada sonido, obteniendo valores significativos para las condiciones 1 y 3. Esto indicarıa que

los participantes utilizaron la rugosidad como una dimension perceptual, sin embargo es

necesario estudiar si realmente la configuracion 3D representa un mejor ajuste de los datos

de las distancias. En la figura 3.10 se pueden observar la magnitud Stress por sujeto, que

indica mejores ajustes para valores cercanos a 0. El asterisco indica diferencias significativas

entre las distribuciones de Stress por sujeto, por lo que se concluye que la configuracion 3D

representa mejoro los datos pero solo para las condiciones 1, 2 y 3.

3.3. Resultados 67

Figura 3.8: Configuraciones MDS 3D: resultados del escalamiento multidimensional 3Dpara cada condicion.

−1.0 −0.5 0.0 0.5 1.0−1.0

−0.5

0.0

0.5

1.0

012 3

45

678

910

11 121314

1

−1.0 −0.5 0.0 0.5 1.0−1.0

−0.5

0.0

0.5

1.0

012 3

4 56

7

8

910

1112

1314

2

−1.0 −0.5 0.0 0.5 1.0−1.0

−0.5

0.0

0.5

1.0

01 2 345

67

89

10

11 121314

3

−1.0 −0.5 0.0 0.5 1.0−1.0

−0.5

0.0

0.5

1.0

0 1

234

567

89

10 1112 1314

Dim

ensi

ón 2

Dimensión 1

4

Figura 3.9: Configuraciones MDS 3D: proyeccion de la configuracion de 3 dimensionessobre las primeras 2 dimensiones.


2D 3D0.000.050.100.150.200.250.300.35

1

2D 3D0.000.050.100.150.200.250.300.35

2

2D 3D0.000.050.100.150.200.250.300.35

3

2D 3D0.000.050.100.150.200.250.300.35

4

Stress M

DS por sujetos

Figura 3.10: Distribuciones de los coeficientes de correlacion entre las distancias evalua-das por los sujetos y las distancias del espacio de parametros

3.4. Discusion

La realizacion de este experimento masivo permitio corroborar diferentes cuestiones.

Desde el punto de vista tecnico se pudo desarrollar un experimento web con una tecnologıa

moderna como HTML 5 que permitio disponer de una interfaz intuitiva para hacer mas

accesible el experimento a un publico heterogeneo. Con respecto al tipo de experimento

y su relacion con los participantes, podemos concluir que los participantes entendieron la

consigna y pudieron desarrollar la tarea sin inconvenientes. Sin embargo las respuestas pre-

sentaron un nivel de dispersion importante, pero esto no impidio que puedan observarse

las correlaciones entre las respuestas y los sonidos comparados. Con respecto a los analisis

de los resultados, podemos establecer que las distintas condiciones presentaron comporta-

mientos similares, encontrando las mayores diferencias para las condiciones de triangulos

pequenos 1 y 3 con las de triangulos grandes 2 y 4. A partir de distinguir las comparaciones

en intra e inter grupo, se observo que las distancias perceptuales para los pares de sonidos

que son muy similares no son juzgadas en la misma escala que el resto de las distancias

3.4. Discusion 69

en el espacio de parametros. Es decir se da un efecto de proximidad, que permitirıa a los

sonidos agruparse con mas fuerza. Finalmente las configuraciones de MDS indicaron que

la correspondencia entre los espacios perceptuales y de parametros fue muy alta, y sugi-

rio que los participantes pudieron utilizar alguna pista relacionada a la rugosidad para las

condiciones 1 y 3. Sin embargo no esta claro si las diferencias en la tercera dimension del

MDS 3D, son un artefacto asociado a la forma que el MDS interpreta las diferencias entre

las distancias intra e inter grupo.

Capıtulo 4

Modelado de la periferia auditiva

Este capıtulo esta dedicado al desarrollo de un modelo de la periferia auditiva y su apli-

cacion para analizar algunos aspectos relevantes a la percepcion de tonos con modulacion

en amplitud, para complementar lo visto en los capıtulos anteriores.

Uno de los propositos de esta tesis fue desarrollar un modelo computacional eficiente

de la periferia auditiva que permitiese calcular cocleogramas realistas de los estımulos uti-

lizados en los experimentos psicofısicos, y derivar atributos vinculados a la percepcion de

tonos con modulacion.

Este modelo se desarrollo luego de realizar una revision exhaustiva (y en muchos casos

realizando desde cero estos modelos o reutilizando codigo existente) de la enorme variedad

de modelos de la mecanica coclear. En la elaboracion del modelo final se priorizaron de

forma simultanea la baja complejidad algorıtmica, la eficiencia computacional, y el acuerdo

con los datos publicados en la literatura. Como paso previo para este desarrollo se presentan

en las secciones siguientes los aspectos mas relevantes para el modelado de la periferia

auditiva y los diferentes niveles de detalle en los cuales se puede describir la mecanica

coclear (la cual sea quizas la etapa mas crıtica en la transduccion del sonido a impulsos

nerviosos en el sistema central). Luego se presentan los resultados numericos del modelo

para diferentes condiciones de algunos parametros. Finalmente se muestran dos aplicaciones

del modelo. En un caso para el calculo de la rugosidad de forma temporal en tonos con

batidos y tonos SAM. Y en otro para estudiar los procesos de la comparacion de pares de

71

72 Capıtulo 4. Modelado de la periferia auditiva

Figura 4.1: Esquema del sistema auditivo periferico

sonidos del experimento de tonos SAM.

4.1. Introduccion

El sistema auditivo es el sistema sensorial que produce el sentido de la audicion o

escucha. Esta dividido en una parte periferica y una parte central. La primera etapa de la

percepcion sonora ocurre en la periferia, e involucra la transduccion del sonido en impulsos

nerviosos. La periferia a su vez puede dividirse en tres secciones: oıdo externo, medio e

interno.

4.1.1. Oıdo externo y medio

El sonido ingresa al sistema auditivo periferico ( figura 4.1 ) a traves de la oreja y

el canal auditivo hasta llegar a la membrana timpanica, donde las ondas de presion son

transformadas en vibraciones mecanicas. Luego, estas vibraciones son transmitidas dentro

del oıdo medio por la cadena de huesecillos (martillo, yunque y estribo) hacia la ventana

oval en el oıdo interno. El oıdo medio funciona como un adaptador de impedancias y logra

un efecto transformador en la presion 24 dB, principalmente debido a las diferencias en

areas entre la membrana timpanica y la ventana oval [90].


Figura 4.2: Coclea desenrrollada

4.1.2. Oıdo interno y la coclea

El oıdo interno consiste en un conjunto complejo de cavidades llenas de fluidos que

incluye a la coclea y a los canales semicirculares.

La coclea se encuentra enrollada de forma espiralada y cada vuelta es mas pequena que

la anterior. En los humanos, la coclea desenrollada tiene un largo aproximado de 35 mm,

un ancho aproximado de 2 mm y suele girar dos vueltas y media. El comienzo de la coclea

se llama la base y el extremo final el apex.

En la figura 4.2 se ilustra a la coclea desenrollada y puede apreciarse que esta dividida

en tres compartimentos conteniendo fluido, llamados rampas: la rampa timpanica, la rampa

media (tambien llamado particion coclear) y la rampa vestibular. En la base de la coclea

las rampas estan conectadas con el oıdo medio mediante dos ventanas. La ventana redonda

es sensible al movimiento del fluido en la rampa timpanica, mientras que la ventana oval

conecta el estribo directamente con el fluido en la rampa vestibular. En la region del apex

se encuentra el helicotrema, un pequeno orificio donde se juntan las rampas vestibular y

timpanica. Los movimientos del fluido en bajas frecuencias pueden cruzar por este orificio,

permitiendo que los cambios estaticos de la presion externa no perturben al sistema.

Parte de la separacion entre la rampa timpanica y la particion coclear esta dada por

la membrana basilar (MB), una membrana elastica que tiene libertad para vibrar trans-

versalmente. Las propiedades mecanicas de la MB varıan a lo largo de su extension, siendo

mas rıgida y estrecha en la base y menos rıgida y mas amplia en el apex. Esto permite que


Figura 4.3: Estructura interna del organo de Corti (direccion radial). OHC: celulas cilia-das externas; IHC: celulas ciliadas internas; D: celulas de Deiters.

las frecuencia de resonancia de la membrana varıen continuamente, permitiendo la segre-

gacion en frecuencias del sonido ingresante. Sobre la MB se encuentra el organo de Corti,

un epitelio de celulas altamente diferenciadas donde se encuentran las celulas sensitivas del

sistema auditivo [90].

Organo de Corti

El organo de Corti (figura 4.3) es una compleja estructura que contiene dos tipos de

celulas ciliadas mecanico-sensibles, las internas y las externas (IHC y OHC del ingles inner

hair cell y outer hair cell respectivamente). Cada oıdo posee alrededor de 300 IHC y 900

OHC.

Los dos tipos de celulas cuentan con un racimo de cilios que esta en contacto con el

fluido. Las vibraciones que se propagan por el fluido perturban la posicion de estos cilios

y desencadena una serie de procesos fisiologicos dentro de las celulas [62]. Para el caso de

las IHC, estos procesos tienen el proposito de traducir los estımulos acusticos en eventos

sinapticos y los subsecuentes disparos neuronales. Para las OHC, estos procesos generan

movimientos somaticos similares a un efecto piezoelectrico sobre el cuerpo de la celulas que

permiten amplificar activamente la senal [2].

Los movimientos de los cilios de las IHC modifican el potencial electrico de membrana


Figura 4.4: Funcion de entrada-salida de las IHC. En el eje de las abscisas, se denotan losvalores pico de la senal acustica de estımulo y, en el eje de las ordenadas, las variaciones delpotencial de membrana. Las senales son traducidas por una funcion no lineal con saturaciony asimetrıa. Figura adaptada de Dallos [16].

de dichas celulas. Las vibraciones mecanicas que se propagan por el fluido mueven estos

cilios y transducen las vibraciones en potencial electrico. En esta transduccion ocurren dos

fenomenos que modifican sustancialmente la senal. Por un lado, ocurre una saturacion y

rectificacion de la senal debido a que los cilios se desplazan con mayor facilidad en una

direccion mas que en otra. En la figura 4.4 se puede ver la forma de la funcion de entrada-

salida de las IHC, donde podemos destacar la asimetrıa y la saturacion. Por otro lado,

la capacidad de las membranas de las celulas de seguir variaciones en voltajes de alta

frecuencia es limitada, por lo que la senal es filtrada con una caracterıstica pasa bajos con

corte alrededor de los 3 kHz [108].

Dentro de la celulas, las variaciones del potencial electrico generan una cascada de

efectos que conducen a la generacion de disparos neuronales de la fibra auditiva. Este pro-

ceso puede pensarse como una conversion analogica-digital y es necesario que sea realizado

de forma eficiente y robusta. Para este proposito esta la sinapsis de cinta, una sinapsis

altamente especializada para liberar vesıculas rapidamente y con gran cantidad de neu-

rotransmisores. Esta liberacion tiene la cualidad de generar eventos post sinapticos con

gran probabilidad de exito, es decir, permite que se produzcan disparos neuronales que

representan de forma robusta a la senal.

La sinapsis de cinta posee una marcada adaptacion, lo que genera una gran liberacion


Figura 4.5: Histograma post-estımulo mostrando los potenciales de accion en respuesta aun tono. Puede observarse la marcada adaptacion luego del comienzo del tono y tambienuna supresion al finalizar. Figura adaptada de Pickles [90].

de vesıculas en el comienzo de un sonido, una subsecuente disminucion y una supresion

al final (ver figura 4.5 ). Desde el punto de vista de la escucha, la adaptacion permite al

sistema auditivo detectar nuevos eventos sonoros sobre un continuo de sonidos de fondo,

ya que funciona resaltando los ataques y la supresion, en cambio, genera un efecto de

enmascaramiento temporal. Podemos hacer un paralelismo de este efecto de adaptacion

con el funcionamiento de un compresor de audio. El tiempo de ataque que se suele usar

en un compresor, serıa el equivalente al proceso de adaptacion, y de manera analoga, el

tiempo de relajacion se corresponderıa con la supresion.

Toda la informacion del sonido es codificada en forma de disparos neuronales por las

30 mil fibras auditivas que conectan la coclea con el nucleo coclear, el primer relevo en la

ruta auditiva. La informacion es codificada de forma muy eficiente [105], aunque todavıa

se desconocen los mecanismos exactos que permiten esto y el proceso de decodificacion

posterior. Sin embargo, es sabido que a lo largo de la ruta auditiva se pueden encontrar

mapas neuronales que describen diferentes aspectos del sonido en organizaciones espaciales

de neuronas. Una de estas es la organizacion tonotopica, la cual esta relacionada con la

segregacion de frecuencias que ocurre en la coclea y se preserva en toda la ruta auditiva

[99]. Por otro lado, las fibras auditivas pueden capturar las periodicidades de la envolvente

temporal de los estımulos y hay evidencia de que esta informacion es decodificada en el

colıculo inferior generando una organizacion periodotopica.


Figura 4.6: Observaciones de la onda viajera de von Bekesy [6]

A continuacion profundizaremos en la etapa del procesamiento auditivo relacionada a

la mecanica coclear.

4.1.3. Mecanica coclear

La mecanica coclear estudia el funcionamiento de la coclea en base a la interaccion de

un conjunto de elementos: la dinamica de los fluidos cocleares, la micromecanica del organo

de Corti y a la fisiologıa de las celulas ciliadas. La interaccion de estos elementos generan la

segregacion en frecuencia y la amplificacion del sonido dentro de la coclea. Estos fenomenos

pueden ser distinguidos entre pasivos y activos.

Coclea pasiva

Se pueden estudiar los fenomenos pasivos a partir de una coclea muerta, ya que los

procesos activos necesitan que las OHC esten vivas. El comportamiento de la coclea pa-

siva fue observado por von Bekesy [6] en 1928 a partir de cocleas de cadaveres humanos.

Este trabajo identifico por primera vez la existencia de ondas viajeras sobre la MB y la

segregacion en frecuencias utilizando luz estroboscopica (figura 4.6 ).

Las ondas viajeras son el resultado del acoplamiento hidrodinamico entre el fluido co-

clear y la MB [19]. Este acoplamiento es el responsable de que las vibraciones de una seccion

de la MB se propaguen hacia otras, dado que el acoplamiento longitudinal de la MB en

terminos de su rigidez es mınimo comparado al que ejerce el fluido1. Esto quiere decir que la

MB puede verse como una arreglo de osciladores acoplados por la interaccion con el fluido.

Si las frecuencias de resonancia de estos osciladores forman un gradiente desde las frecuen-

cias mas altas en la base hasta las mas bajas en el apex, entonces es posible generar una

1Recientemente, se han propuesto mecanismos alternativos para el acoplamiento entre las secciones, atraves de la estructura en ”Y”de la figura 4.10 [85]


onda viajera cuya posicion de amplitud maxima depende de la frecuencia de estımulo. En

este trabajo utilizaremos este enfoque de arreglo de osciladores para desarrollar el modelo.

Coclea activa

Despues de los hallazgos de von Bekesy en la decada de 1920, el descubrimiento del

mecanismo activo tuvo que esperar hasta 1978 cuando Kemp [64] reporto por primera vez

las emisiones otoacusticas, que son sonido generados por la coclea y evidencian su capacidad

de generar energıa de forma activa. En 1948 Gold ya habıan hipotetizado la existencia de

dicho mecanismo.

Hoy en dıa sabemos que la coclea activa es la responsable de ciertos comportamientos

del sistema auditivo que son fundamentales para la escucha:

Sensibilidad:

Amplificaciones de hasta 60 dB para sonidos tenues, que permiten escuchar sonidos

cercanos al lımite impuesto por el ruido termico dentro del oıdo.

Selectividad en frecuencia:

La coclea posee una alta selectividad en frecuencia. Mediante la medicion de curvas

de sintonıa neuronales, es posible identificar cuanto tiene que ser modificada una

frecuencia para que esta deje de ser percibida por una neurona. La pendiente de uno

de los flancos de estas curvas es aproximadamente 300 dBSPL por octava, lo que

puede ser logrado mediante un filtro de orden 502.

Compresion:

Es posible escuchar sonidos en el rango de 0 a 120 dBSPL, ya que dicho rango es

comprimido en 30 dB (tres ordenes de magnitud) en terminos de amplitud de las

vibraciones membrana basilar. Esto solo ocurre en la region de la coclea que tiene

la frecuencia caracterıstica del estımulo, y es el resultado de una no linealidad en el

sistema activo.

2Cada orden atenua -6 dB sobre la frecuencia de corte para un filtro continuo, 6dB × 50 = 300.


Figura 4.7: Las magnitudes y fases de respuestas de la MB en una coclea de chinchilla.A: Magnitud de la velocidad en funcion de la frecuencia del estımulo e intensidades. B:Mismos datos del panel A, pero normalizados por la intensidad del estımulo. C: Respuestasde la fase del desplazamiento pico en direccion de la rampa timpanica, relativas al pico en elcanal auditivo. D: Como en C, pero normalizadas a la fase del estımulo de 80 dB. Medidasrealizadas con un vibrometro laser y figura tomada del artıculo Ruggero et al. [101].

Productos de distorsion:

La no linealidad de la coclea tiene como consecuencia la creacion de nuevas frecuencias

no presentes en el estımulo. Para un estımulo de dos frecuencias f1 y f2, el producto

mas prominente suele darse en la frecuencia 2f1 − f2.

Emisiones otoacusticas:

El oıdo puede emitir sonido a partir de la energıa que suministra el sistema activo

mediante autooscilaciones que surgen de una inestabilidad. Las emisiones pueden

ocurrir de manera espontanea o mediante estimulacion.

En la figura 4.7, podemos observar algunos de estos comportamientos en mediciones

realizadas en vivo en las cocleas de chinchillas a traves de un vibrometro laser [101]. Lo

que se muestra en los paneles A y C son respuestas en magnitud y fase de la velocidad de


la membrana basilar en funcion de la frecuencias y de la intensidad. En los paneles B y D

se muestran las mismas magnitudes pero normalizadas. Este tipo de mediciones se realiza

observando las vibraciones para un determinado punto de la coclea y realizando un barrido

en la frecuencia del estımulo, en este caso el punto de observacion posee una frecuencia

caracterıstica (CF) de 9.5 kHz.

El nivel de sensibilidad puede verse en el panel B, donde se muestra la ganancia de la

magnitud. Se observa la mayor ganancia para el estımulo de 0 dBSPL debido a que para

esas intensidades se da la mayor contribucion de la parte activa. A medida que la intensidad

del estımulo crece, la contribucion de la parte activa decrece, siendo la ganancia cada vez

menor hasta que, para intensidades altas, la respuesta es puramente pasiva. La compresion

se evidencia cerca de la CF ya que se obtiene una ganancia dependiente de la intensidad del

estımulo mientras que lejos de la CF la ganancia es constante. La respuesta de la fase en

panel B, indica la cantidad de ciclos que la onda viajera recorre para los distintos estımulos.

En la figura 4.8 podemos ver una informacion similar a la de la figura previa pero con

las intensidades en el eje de las abscisas. En esta representacion podemos observar como

la compresion ocurre principalmente para las frecuencias cercanas a la CF (10 kHz); en

cambio, el comportamiento es lineal para las frecuencias mas bajas (panel A) y mas altas

(panel B).

Otra forma de visualizar la informacion de estas respuestas es mediante las denominadas

curvas de sintonıa. Para cada frecuencia se busca la intensidad del estımulo que provoca

una actividad umbral. En la figura 4.9 podemos observar las curvas de sintonıa para la

velocidad y desplazamientos de la MB junto con una curva de sintonıa neuronal, las tres

para una misma CF.

El proceso exacto por el cual las capacidades de las OHC junto con el resto de la

mecanica de la coclea logran tan notable amplificacion y sensibilidad, todavıa permanece

elusivo [54, 43]

Ciertos trabajos plantean que todas estas caracterısticas son distintas manifestaciones

de un mismo fenomeno no lineal intrınseco a las OHC [54] y que pueden ser explicadas por

la inestabilidad de una bifurcacion de Hopf [28]. A partir de esta vision simplificada, pero

general, se han realizado varios modelos de la mecanica coclear, que suelen denominarse


Figura 4.8: Compresion: magnitud de las respuestas de velocidad de la MB en funcionde la intensidad y de la frecuencia de estımulo, para un sitio con CF = 10 kHz. Puedeobservarse la compresion para las frecuencias cercanas a la CF, y el comportamiento linealpara las frecuencias mas alejadas. La lınea punteada indica el comportamiento lineal 1 dB/1 dB. Figura adaptada de Ruggero et al. [101].

como coclea de Hopf [67, 27, 74].

Otro conjunto de trabajos considera que el mecanismo de amplificacion esta relacionado

con algun tipo de retroalimentacion que funciona ciclo por ciclo [21]. Para conseguir este

resultado se han planteado diversos modelos. El modelo de Zweig [126] propone que la

impedancia activa del organo de Corti puede ser descrita si se incluyen componentes con

retraso temporal. El modelo de Neely and Kim [86] plantea la micromecanica del organo de

Corti como un sistema de cuarto orden, lo que permite reducir el problema a dos cadenas de

filtros de segundo orden, una pasiva y otra activa que interactuan entre sı. El modelo de Wen

and Boahen [119] considera una interaccion de alimentacion lateral (en ingles feedforward y

feedbackward), que a diferencia de los otros ejemplos permite interacciones no locales entre


Figura 4.9: Curvas de sintonıa de la velocidad y desplzamientos de la MB y actividadneuronal. Se puede observar la pronunciada pendiente del flanco derecho de la curva.

las distintas secciones de la coclea y permite obtener una clara amplificacion [34, 122]. La

justificacion de este acoplamiento lateral se debe a que los movimientos somaticos de las

OHC podrıan ejercer fuerzas en secciones adyacentes a donde se encuentran los cilios. En

la figura 4.10 se observa un corte longitudinal de la coclea donde se puede ver como las

OHC y la fuerza que producen se dispone de forma oblicua con la membrana basilar.

Una diferencia entre los modelos de Hopf y los de retroalimentacion es que los primeros

son intrınsecamente no lineales, mientras que los segundos no. Sin embargo, para poder

modelar la compresion en los modelos de retroalimentacion, es necesario agregar una funcion

Figura 4.10: Forma de Y entre las OHC y el proceso falangeal de las celulas de Deiters

4.2. Modelo de la coclea 83

de saturacion que limite la parte activa para grandes intensidades y solo deje el accionar

de la parte pasiva. El proceso de saturacion es un fenomeno habitual en muchos procesos

biologicos. En este caso ocurre en el movimiento somatico de las OHC.

En nuestro trabajo de modelado utilizaremos el enfoque de alimentacion o acoplamiento

lateral de Wen and Boahen [119], ya que consigue amplificar las senales pero sin aumentar

la complejidad algorıtmica del modelo e incluiremos una funcion de saturacion para obtener

la compresion.

4.2. Modelo de la coclea

Existen distintos tipos de modelos de la mecanica coclear que se centran en diferentes

escalas y niveles de descripcion. En general se puede trazar una relacion entre el nivel de

descripcion y la eficiencia computacional de los modelos.

Una de las formas mas eficientes de obtener un cocleograma es mediante un banco de

filtros estimulado en paralelo como los descritos en la seccion 1.3.2. Es posible disenar filtros

adaptativos para describir algunas de las propiedades no lineales de la coclea como los casos

de los filtros dual resonance nonlinear (DRNL) de Meddis et al. [80] y el multiple band-pass

non linearity (MBPNL) de Goldstein [38]. Sin embargo, el uso de estos banco de filtros

no permite contemplar de manera natural la propagacion de productos de distorsion y de

emisiones otoacusticas sobre la MB, dado que el banco es estimulado en paralelo y no hay

acoplamiento entre los filtros.

En el otro extremo, existen modelos tridimensionales con mucho nivel descriptivo sobre

la geometrıa de la coclea, pero que solo permiten simulaciones de corta duracion y no sirven

como una herramienta para el estudio del sonido [36].

Con un nivel de descripcion medio podemos destacar una familia de modelos de una

o dos dimensiones que permiten generar cocleogramas facilmente y permiten el estudio de

las emisiones otoacusticas y las inestabilidades dinamicas en la coclea ([23], [75], [29], [115],

[70])

Uno de nuestros objetivos consistio en desarrollar un modelo para procesar sonido y

generar cocleogramas de manera realista y eficiente, por lo que la ultima familia de modelos


fue tomada en cuenta para nuestro desarrollo.

Con respecto al modelado de la IHC, la sinapsis de cinta y la fibra auditiva, tambien

es posible encontrar modelos con diferentes niveles descriptivos. Podemos encontrar los

modelos de conductancias que consideran los circuitos equivalentes de la celula y la dinamica

del calcio en la liberacion de neurotransmisor [107], y otros modelos fenomenologicos que

reducen el comportamiento de la IHC a un procesamiento de senales mas sencillo [124].

En nuestro trabajo optamos por utilizar el modelo de Zilany et al. [125] que no tiene

una gran complejidad algorıtmica y cuyo codigo se encuentra liberado para ser utilizado.

La exposicion que se hara de nuestro modelo de la coclea tratara de ser concisa y no se

consideraran todos los enfoques o tipos de modelos dado que extenderıa bastante la seccion.

Para un tratado exhaustivo sobre los distintos enfoques para modelar la coclea, referirse a

los trabajos de Ni et al. [87], de Boer [19, 20, 21], Kern [67].

El modelo puede separarse en su parte pasiva y su parte activa. La primera esta basada

en un arreglo unidimensional de osciladores con acoplamiento hidrodinamico, mientras que

la segunda esta basada en una alimentacion lateral. Para incluir la funcion de saturacion

se analizaron dos opciones, una en la amortiguacion de los osciladores y otra en la parte

activa.

4.2.1. Sistema pasivo: osciladores con acoplamiento hidrodinamico

El movimiento de la MB puede discretizarse como el movimiento de un arreglo de osci-

ladores inmerso en un fluido ( figura 4.11 ). Este esquema representa la coclea desenrollada

del mismo modo que la figura 4.2,con la simplificacion de que los dos canales llenos de

fluidos son combinados en uno solo. El fluido puede ser considerado incompresible y con

una densidad similar a la del agua y cada oscilador representa una seccion de MB.

Antes de exponer el sistema de osciladores, comenzamos el planteo en el caso continuo

donde la expresion para el movimiento de la MB esta dada por:

m∂2h(x, t)

∂t2+ µ(x)

∂h(x, t)

∂t+ s(x)h(x, t) = −p(x, t) (4.1)

Donde h representa el desplazamiento en la direccion y de la MB, p la presion del fluido,


Figura 4.11: La coclea como un arreglo de osciladores sumergidos en un fluido. L repre-senta el largo y H la altura del canal, h el desplazamiento de un oscilador y p la presiondel fluido

m es la masa, µ el amortiguamiento y s la rigidez, estas ultimas tres son magnitudes por

unidad de area. Todas las variables dependen de la posicion x excepto la masa, que puede

suponerse constante [26].

Segun la denominada aproximacion de onda larga [19], el acoplamiento hidrodinamico

entre las distintas secciones de la MB viene dado por la siguiente expresion que relaciona

la derivada segunda del campo de presion con la aceleracion de la MB:

∂2p(x, t)

∂x2= −2ρ

H

∂2h(x, t)

∂t2(4.2)

DondeH es la altura del canal lleno de fluido y ρ es la densidad del fluido. Esta expresion

puede derivarse de las ecuaciones de conservacion del momento y de la masa del fluido para

el problema de una cavidad unidimensional. La derivacion se encuentra en el apendice A.4.

Esta ecuacion diferencial debe ser acompanada de las condiciones de borde para la

presion en la ventana oval y en el helicotrema. Para la ventana oval se propone:

∂p(x, t)

∂x

∣∣∣∣x=0

= −2ρ∂2h(0, t)

∂t2− 2ρ

∂2ws(t)

∂t2(4.3)

Donde ws(t) representa el desplazamiento de la ventana oval, es decir, la excitacion

externa que proviene del oıdo medio. Por el otro lado en el helicotrema se propone que la

presion se anule:

p(x, t)|x=L = 0 (4.4)

El sistema completo a resolver queda formado por las ecuaciones 4.1, 4.2, 4.3 y 4.4.

Es posible obtener soluciones analıticas de este sistema en el dominio de la frecuencia


reemplazando las variables m, µ y s por formas sencillas o mediante el metodo WKBJ

que permite obtener soluciones aproximadas [19]. En este trabajo solo nos enfocaremos

principalmente en las soluciones numericas, sin embargo en el apendice A.5 se muestra

un analisis teorico de la relacion de dispersion de la onda viajera que permite entender la

naturaleza del sistema activo de alimentacion lateral.

Para simplificar la notacion suprimimos la dependencia con x y t. Comencemos reescri-

biendo la ecuacion 4.1 para manipularla.

g = µ∂h

∂t+ kh (4.5a)

∂2h

∂t2= −p+ g

m(4.5b)

Para despejar la presion p reemplazamos esta expresion de ∂2h∂t2

en la ecuacion 4.2.

∂2p

∂x2= −2ρ

H

∂2h

∂t2(4.6a)

∂2p

∂x2=

2ρ

mH(p+ g) (4.6b)

∂2p

∂x2− 2ρ

mHp =

2ρ

mHg (4.6c)

(mH

2ρ

∂2

∂x2− 1

)p = g (4.6d)

A continuacion realizamos la discretizacion espacial con diferencias finitas de la ecua-

ciones 4.5b y 4.6d:

∂2hi(t)

∂t2=

−pi(t)− gi(t)

m(4.7a)

mH

2ρ

pi−1(t)− 2pi(t) + pi+1(t)

dx2− pi(t) = gi(t) (4.7b)

(4.7c)

Y de forma equivalente para las condiciones de contorno 4.3 y 4.4, incorporando la


expresion de 4.5b.

m

2ρ

(p2(t)− p1(t)

dx

)− p1(t) = g1(t)−m

∂2ws(t)

∂t2(4.8a)

pN (t) = 0 (4.8b)

Donde 1 ≤ i ≤ N , y dx = L/N . El sistema discretizado puede expresarse de forma

matricial de la siguiente manera:

∂2h

∂t2=

−p− g

m(4.9)

(D− I) · p = g + q (4.10)

C · p = g + q (4.11)

Donde D representa la matriz del operador ∂2

∂x2 y q es el vector de las fuentes. El primer

paso para resolver la evolucion temporal es resolver el sistema lineal y despejar p de la 4.11.

Esto es posible invirtiendo la matriz C.

p = C−1 · (g + q) (4.12)

Sin embargo el sistema lineal puede resolverse de manera eficiente sin la necesidad de

invertir, ya que la matriz C tiene forma tridiagonal:


−K − 1 K 0

A B A

0 A B A

. . .. . .

A B A 0

A B A

0 0 1

×

p1(t)

p2(t)

...

pN−1(t)

pN (t)

=

g1(t)

g2(t)

...

gN−1(t)

0

+

m∂2ws(t)∂t2

0

...

0

0

(4.13)

λ =mH

2ρA =

λ

dx2B =

−2λ

dx2− 1 K =

λ

Hdx

Esta forma tridiagonal permite la eliminacion gaussiana directa y el tiempo de computo

para resolver el sistema lineal es de orden N.

Una vez obtenido el valor de la presion, se puede calcular la evolucion temporal del

sistema completo a partir de la ecuacion 4.9. Para esto expresamos esta ecuacion como un

sistema de dos ecuaciones ordinarias de primer orden:

∂h

∂t= v (4.14)

∂v

∂t=

−p− g

m(4.15)

Finalmente se evoluciona temporalmente el sistema con algun metodo de integracion

como los metodos basados en Runge-Kutta 4.

Para comprender un poco mas como se comporta el sistema final, podemos representarlo

en una sola ecuacion donde se aprecia explıcitamente el acoplamiento entre osciladores.

Modificaremos un poco la notacion y las dimensiones del problema para obtener una formula

mas compacta y general.

hi +ωi

Qhi + ω2

i hi = −N∑

j=1

C−1ij

(2γjωj hj + ω2

jhj + δj,1ws

)(4.16)


0.45L 0.5L 0.55L

C−1 L 2j

Figura 4.12: Fila de la matriz de acoplamiento C−1, para N = 300 osciladores.

Donde ω =√k/m representa la frecuencia natural del oscilador, Q =

√mk/µ es el

factor de calidad y representa un factor inversamente proporcional al ancho de banda de la

respuesta del oscilador y C−1 es la matriz de acoplamiento. En la figura 4.12 se puede ver un

perfil o fila de esta matriz. Esto muestra como el movimiento de un oscilador es influenciado

por sus vecinos cercanos. El perfil de acoplamiento esta determinada exclusivamente por

las propiedades del fluido y de la cavidad. Es posible resolver el problema hidrodinamico

de la cavidad en 2 o 3 dimensiones y obtener nuevos perfiles y seguir utilizando la formula

4.16. En este trabajo decidimos utilizar la solucion de 1 dimension que se ha presentado,

ya que es mas eficiente de computar.

4.2.2. Sistema activo: alimentacion lateral

El proposito del sistema activo en la coclea es el de amplificar la onda viajera en la

region donde la frecuencia del estımulo coincide con la resonancia de la MB. Para esto

existen muchas estrategias de modelado [86, 75, 67] las cuales, por lo general, utilizan

un segundo banco de filtros o arreglo de osciladores, aumentando el numero de variables

dinamicas del sistema. Dado que estamos buscando una forma eficiente de modelar la coclea,

es necesario mantener el numero de variables lo mas bajo posible, por lo que proponemos

utilizar el modelo de alimentacion lateral propuesto por [118] que no necesita de un segundo


arreglo de osciladores y conserva el numero de variables.

El modelo de alimentacion lateral (feed-forward y feed-backward) se basa en suponer

que las OHC ejercen su fuerza en secciones aledanas a las que reciben estimulacion. En la

figura 4.10 se puede observar como la seccion i de la MB puede recibir la fuerza de la OHC

de la seccion i − 1 a traves de las celulas de Deiters. De manera analoga la prolongacion

falangica tambien puede transmitir la fuerza de la OHC de la seccion i + 1. Esto permite

expresar la fuerza de la OHC de la siguiente manera:

FOHC(x) = αs(x)(βh(x− d)− h(x+ d)) (4.17)

Donde d representa la distancia entre secciones, α representa el factor de la motilidad

de la OHC, y β es el cociente entre la alimentacion en direccion apical y la direccion basal.

Podemos anadir esta expresion a la ecuacion 4.1 y partir de ahı construir el sistema de

osciladores con alimentacion lateral.

m∂2h(x, t)

∂t2+ µ(x)

∂h(x, t)

∂t+ s(x)h(x, t) = −p(x, t) + FOHC (4.18)

m∂2h(x, t)

∂t2= −µ(x)

∂h(x, t)

∂t− s(x) (−αβh(x− d) + h(x, t) + αh(x+ d))− p(x, t) (4.19)

Esta formulacion permite que la onda viajera se alimente a sı misma con los desplaza-

mientos de otras secciones. Si el valor de d es ajustado correctamente es posible lograr una

alimentacion positiva y amplificar a la onda viajera en la region de resonancia.

Hasta este punto el sistema funciona de forma lineal, por lo tanto no hay ni compre-

sion ni productos de distorsion y es necesario incluir una no linealidad para obtener estos

comportamientos. Propondremos dos formas distintas para lograr esto. Por un lado, una

funcion de saturacion para las fuerzas de las OHC siguiendo el modelo de Wen [118] y, por

otro lado, una saturacion en la amortiguacion de la MB segun el modelo de Duifhuis [26].

La primer forma utiliza una funcion tangente hiperbolica para saturar los desplazamien-

tos de la membrana que generan FOHC .


−2ζ −ζ ζ 2ζx

0

1

f NL(x,η)

Figura 4.13: Funcion no lineal fNL(x, η) con saturacion utilizada en el amortiguamiento

FOHC(x) = αs(x)

[νβ tanh

(h(x− d)

ν

)− ν tanh

(h(x+ d)

ν

)](4.20)

Donde ν permite ajustar el comienzo de la saturacion. La segunda forma propone una

amortiguacion no lineal que depende de h, por lo que la ecuacion del oscilador queda

expresada de la siguiente forma:

m∂2h(x, t)

∂t2+ µ(x) [1 + γfNL (h(x, t))]

∂h(x, t)

∂t+ s(x)h(x, t) = −p(x, t) + FOHC (4.21)

Donde la funcion fNL debe cumplir ciertos requisitos tales como anularse para valores

pequenos y saturar para valores mas grandes [26] y γ permite justar el nivel maximo del

amortiguamiento. En nuestro caso proponemos utilizar la siguiente funcion no lineal for-

mada por funciones cuadraticas a tramos, la cual puede ser computada de manera eficiente

(figura 4.13) :

fNL(x, η) =

1 2ζ < |x|1− η ∗ (|x| − 2ζ)2 ζ < |x| < 2ζ

ηx2 |x| < ζ

ζ =√

12η

En la seccion de resultados se muestran los diferentes comportamientos de los dos tipos


102 103 104

Frecuencia (Hz)

−35

−30

−25

−20

−15

−10

−5

0

5

Gana

ncia

(dB)

Figura 4.14: Respuesta en frecuencia del oıdo medio, a partir de un filtro con dos polosy un cero. La ganancia esta normalizada para la frecuencia de 1000 Hz

de no linealidades propuestos. Ahora pasaremos a describir las otras etapas del modelo

completo de la periferia auditiva, el oıdo medio, la IHC y la sinapsis.

4.2.3. Oıdo medio

Para poder alimentar el modelo de la coclea es necesario incluir el procesamiento que

ocurre en el oıdo medio. Esta etapa se suele modelar con un filtro pasa bandas que recorta

ciertas frecuencias del sonido dejando solo el rango audible. Para esto se utilizo un filtro

lineal con dos polos y un cero, con una respuesta en frecuencia como la de la figura 4.14.

El filtro fue adaptado de Tan and Carney [108].

4.2.4. Celulas ciliadas internas y sinapsis

Para incluir la IHC y la sinapsis se opto por utilizar el modelo de Zilany et al. [124],

cuya implementacion en software esta liberada para su uso. Con respecto a la IHC, esta es

modelada de manera simplificada sin utilizar un modelo celular de conductancias, mediante

una funcion de entrada y salida similar a la de la figura 4.4 mas un filtro pasa bajos con

corte en 3000 Hz de septimo orden.

La sinapsis, a diferencia de la IHC, es modelada de manera mas compleja ya que se

consideran dos mecanismos para el fenomeno de adaptacion: una adaptacion rapida con

decaimiento exponencial y otra lenta con decaimiento con ley de potencias. Para modelar

4.3. Resultados numericos 93

la adaptacion exponencial, se utiliza un sistema dinamico de tres reservorios con difusion,

basado en el modelo de Westerman and Smith [121], mientras que para modelar la adap-

tacion con ley de potencias, se utiliza una convolucion con un kernel de ley de potencias

[124].

4.3. Resultados numericos

A continuacion presentaremos algunas soluciones numericas para ilustrar las distintas

etapas de construccion del modelo que se mencionaron en la seccion anterior: coclea pasiva,

coclea activa, el fenomeno de compresion, la IHC y la sinapsis. El modelo de la coclea

fue implementado en C++ utilizando la biblioteca odeint [1] que permite utilizar metodos

Runge-Kutta con paso variable. El modelo de la IHC fue implementado en Python y el de la

sinapsis fue tomado del modulo de Python cochlea [100]. El modelo completo esta disponible

para su uso como modulo de Python en https://github.com/pabloriera/cochlea.

4.3.1. Coclea

En la tabla 4.1 se muestra el conjunto de parametros utilizado. La frecuencia natural de

los osciladores es el unico valor que depende de la posicion y se eligio un rango que va desde

20 kHz en la base hasta 81 Hz en el apex. El lımite en bajas frecuencias fue impuesto por

una limitacion en el modelo de sinapsis utilizado que no esta preparado para frecuencias

mas bajas.

En la figura 4.15 se muestra una respuesta de la coclea pasiva donde se puede observar el

desplazamiento de la MB para varios instantes mostrando la onda viajera para un estımulo

de 1000 Hz. El eje de las abscisas representa la posicion en la coclea y esta denotado en

funcion de la frecuencia natural de los osciladores. Puede observarse que el maximo de la

onda viajera no corresponde con la frecuencia del estımulo, esto ocurre por el alto grado

de amortiguamiento que existe en la coclea pasiva.

El parametro α permite prender y apagar el sistema activo. En la figura 4.16 se muestra

el valor cuadratico medio (RMS) y la fase de los desplazamientos de la MB, para el caso

pasivo α = 0 y activo α = 0,15. El estımulo utilizado fue un tono sinusoidal de 1000 Hz

https://github.com/pabloriera/cochlea


Parametros Valor Unidades

Parte pasivaAltura canal H 1 mmLargo canal L 0.035 mDensidad Fluido ρ 1000 Kg/m3

Numero de osciladores 300MB: Masa por unidad de area m 0.03 Kg/m2

MB: Frecuencia natural ω(x) 2π × 20000× 10−68,36x 1/sMB: Factor Q(x) 5

Parte activaDistancia acoplamiento lateral d 140 µmFactor de motilidad de OHC α 0.15Cociente de alimentacion β 0.3

No linealidadFactor de amortiguacion γ 2Parametro amortiguacion η 5× 1011 1/m2

Parametro saturacion FOHC ν 1× 10−8 m

Cuadro 4.1: Parametros del modelo.

e intensidad de 10 dBSPL. Lo primero que se puede notar es que la posicion del maximo

de la respuesta se desplaza; para la coclea activa el maximo esta cerca del oscilador de

frecuencia natural 1200 Hz, mientas que para la coclea pasiva el maximo ocurre cerca de

los 2080 Hz. Este corrimiento suele observarse en datos experimentales post-morten [122].

Podemos explicar este fenomeno si tomamos en cuenta que el mecanismo activo de este

modelo tiene el efecto de disminuir la amortiguacion en la region de la resonancia, por lo

que la onda pueda propagarse mas y generar un pico mas marcado.

Para observar el nivel de compresion es necesario estimular a diferentes intensidades.

Primero mostraremos las simulaciones realizadas con la ecuacion del oscilador 4.20 que

utiliza a la funcion tanh como funcion de saturacion de la fuerza FOHC . En la figura 4.17 se

pueden observar las respuestas para distintas intensidades del estımulo. Para intensidades

bajas se observa la respuesta del sistema activo, pero a medida que se aumenta la intensidad

esta se va atenuando, el maximo se traslada hacia altas frecuencias y la respuesta vuelve a

parecerse a la del sistema pasivo. Los comportamientos poco realistas que se generan pa-

ra altas intensidades y bajas frecuencias son consecuencia del sistema activo amplificando


102103104

Frecuencia natural (Hz)

−2.0−1.5−1.0−0.5

0.00.51.01.52.0

Desp

laza

mie

nto

MB

(µm

)

1e−3

Figura 4.15: Coclea pasiva: Desplazamientos de la MB en varios instantes para un tonopuro de 1000 Hz. Se puede observar la formacion de una onda viajera debido al acoplamientohidrodinamico y que se propaga desde las frecuencias altas hacia las bajas.

ciertas ondas de bajas frecuencias que se generan debido al impulso que ocurre al comenzar

el estımulo. En el panel inferior de la figura, se muestran las mismas curvas pero normali-

zadas. Esto representa la ganancia de las respuestas con respecto al estımulo. En este caso

la ganancia maxima esta dada por las diferencias entre las respuestas extremas, y es de

aproximadamente 50 dB.

La caracterıstica mas marcada de la compresion esta dada por como las curvas se van

compactando en el flanco derecho de la respuesta. Para ver esto en detalle en la figura 4.18

se muestran las respuestas en funcion de la intensidad para ciertas posiciones en la coclea.

Se puede ver como a medida que la intensidad aumenta las respuestas de las posiciones con

frecuencias cercanas al estımulo (950, 1000 y 1200 Hz) muestran compresion, mientras que

las frecuencias mas alejadas muestran un comportamiento lineal.

A continuacion mostramos los mismos resultados pero para la ecuacion del oscilador

4.21 donde la amortiguacion tiene una forma no lineal (figuras 4.19, 4.20 ). Los resultados

son muy similares al anterior aunque se puede apreciar diferencias en la region del pico

de resonancia para altas intensidades. En este caso las respuestas dejan de crecer a partir

de cierta intensidad, lo que termina generando una compresion mucho mas marcada. Este

comportamiento se asemeja un poco mas a los observados en experimentos con animales,

por lo que esta no linealidad sera utilizada de ahora en mas, con el beneficio de que reduce


102103104


−90−80−70−60−50−40−30−20

Desp

laza

mie

nto

RMS

de

la M

B (d

B re

1µm

)α=0

α=0.15

102103104


−12−10

−8−6−4−2

0

Fase

(cic

los)

α=0

α=0.15

Figura 4.16: Respuesta RMS y fase de los desplazamientos de la MB en funcion de lafrecuencia natural para un tono puro de 1000 Hz, 10 dBSPL y duracion de 0.3 segundos enla coclea pasiva (lınea negra) y activa (linea azul).

el tiempo de calculos debido a la formulacion a trozos.

Las respuestas del modelo que se han mostrado hasta aquı corresponden a estımulos

para una frecuencia de 1000 Hz, sin embargo es posible extrapolar el comportamiento

a otras frecuencias ya que para las regiones de la base y las centrales, esto corresponde

solamente a una traslacion rıgida de los perfiles de respuestas. Sin embargo las respuestas

para frecuencias muy bajas tienen algunos comportamientos de borde apreciables. En la

figura 4.21 se pueden ver las respuestas para un estımulo de 20 Hz, que tiene una frecuencia

mas baja que la del ultimo oscilador de la coclea. Se observa que la onda viajera no llega

hasta el final de la coclea ya que la condicion de borde impuesta para el apex (presion = 0)

impide que el ultimo oscilador se mueva, lo cual forma reflecciones e interferencias en los

patrones de la MB. Tambien se puede observar que la falta de compresion, posiblemente

porque el sistema activo no este haciendo contribuciones debido a que la frecuencia del

estımulo no resuena en ningun sitio de la MB.

Para observar como se comporta el modelo estimulado por varias frecuencias, a con-


102103104


−80−60−40−20

020

Desp

laza

mie

ntos

RM

S M

B (d

B re

1µm

)

(a)

102103104


01020304050607080

Gana

ncia

MB

(dB)

(b) dBSPL

102030405060708090100

Figura 4.17: Modelo con saturacion en la fuerza FOHC . (a) Respuesta RMS de los des-plazamientos de la MB en funcion de la frecuencia natural de los osciladores para un tonopuro de 1000 Hz y 0.3 segundo de duracion y para varias intensidades. (b) Ganancia de losdesplazamientos de la MB a partir de normalizar las curvas del panel (a)

10 20 30 40 50 60 70 80 90 100Intensidad estímulo (dBSPL)

−150

−100

−50

0

Desp

laza

mie

ntos

RM

S M

B (d

B re

1µm

)

Fc (Hz)950100012004000

Figura 4.18: Respuesta RMS de los desplazamientos de la MB en funcion de la intensidaddel estımulo para varias posiciones dentro de la coclea. Se puede observar compresion paralas frecuencias caracterısticas cercanas a la del estımulo (F0 = 1000Hz). La lınea punteadatiene una pendiente de 1 dB/1 dB .


102103104


−80−60−40−20

020

Desp

laza

mie

ntos

RM

S M

B (d

B re

1µm

)(a)

102103104


01020304050607080

Gana

ncia

MB

(dB)

(b) dBSPL

102030405060708090100

Figura 4.19: Modelo con amortiguacion no lineal. (a) Respuesta RMS de los desplaza-mientos de la MB en funcion de la frecuencia natural de los osciladores para un tono purode 1000 Hz y duracion de 0.3 segundos y para varias intensidades. (b) Ganancia de losdesplazamientos de la MB a partir de normalizar las curvas del panel (a)

10 20 30 40 50 60 70 80 90 100Intensidad estímulo (dBSPL)

−150

−100

−50

0

Desp

laza

mie

ntos

RM

S M

B (d

B re

1µm

)

Fc (Hz)950100012004000

Figura 4.20: Respuesta RMS de los desplazamientos de la MB en funcion de la intensidaddel estımulo para varias posiciones dentro de la coclea. Se puede observar compresion paralas frecuencias caracterısticas cercanas a la del estımulo (F0 = 1000Hz). La lınea punteadatiene una pendiente de 1 dB/1 dB.


102103104


−120

−100

−80

−60

−40

−20

0

Desp

laza

mie

ntos

RM

S M

B (d

B re

1µm

)

dBSPL

102030405060708090100

Figura 4.21: Respuestas RMS de los desplazamientos de la MB en funcion de la frecuencianatural para un tono puro de 20 Hz, para varias intensidades

tinuacion mostramos los resultados de realizar un barrido en frecuencias sobre la coclea

y observar el comportamiento para una sola posicion sobre la MB. Este protocolo es el

mismo que se utiliza en los experimento in vivo con vibrometros laser como el de la figura

4.8 realizado en chinchilla. En la figura 4.22 se muestran los resultados de dicho barridos

en frecuencia y para facilitar la comparacion con el resultado experimental se muestran las

respuestas en terminos de la velocidad de la MB y no los desplazamientos. Puede verse una

gran similitud, por lo menos en terminos cualitativos, entre las respuestas del modelo y las

medidas experimentales.

4.3.2. Celulas ciliadas internas y sinapsis

Los desplazamientos de la MB son utilizados como entrada del modelo de IHC el cual

genera las variaciones del potencial de membrana de dicha celulas, que luego son utilizadas

de entrada para el modelo de sinapsis que genera como salida la tasa de disparos de la fibra

auditiva. En la figura 4.23, podemos observar las respuestas de estas tres etapas para dos

tonos, uno de 1000 Hz y otro de 5000 Hz. Se muestran las formas de ondas tomadas de

los canales con la frecuencia caracterıstica (CF) de los estımulos. En los paneles superiores

se muestra el desplazamiento de la MB. En los paneles del medio se muestra el potencial


0 1 2 3 4 5 6 7Frecuencia estímulo (kHz)

101

102

103

104

105Ve

loci

dad

RMS

de la

MB

(µm/s)

dBSPL

0102030405060708090100

Figura 4.22: Respuestas RMS de las velocidades de la MB para el sitio ubicado a 6 mmde la base para varias intensidades

de membrana de la IHC, donde se puede apreciar como la senal es saturada y adquiere

una componente de continua. Para el caso de 5000 Hz se puede apreciar como el filtrado

de la IHC ha removido casi todas las componentes de alterna y lo que queda representa

mas bien a la envolvente del tono que a su componente oscilatoria. En los paneles inferiores

se muestra la respuesta de la sinapsis que entrega la tasa de disparo que genera la fibra

auditiva. En esta ultima, puede observarse la adaptacion al comienzo del estımulo.

Con este modelo de periferia se pueden realizar cocleogramas realistas para analizar

sonidos sintetizados o grabaciones. Los tiempos de computo dependen de la frecuencia de

muestreo utilizada, para el caso de una frecuencia de 100 kHz, se realizaron simulaciones a

una velocidad de 3.5x el tiempo real del estımulo para el modelo de coclea y de 25x para el

modelo con la IHC y la sinapsis. Es posible reducir los tiempos de computo del modelo de

sinapsis si se implementa de forma distribuida. Estos tiempos corresponden a simulaciones

realizadas con un procesador Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz.

4.4. Resultados con tonos modulados

En esta seccion estudiaremos como responde el modelo de la coclea a tonos modulados

en amplitud. Primero lo haremos para computar la rugosidad mediante un nuevo modelo

4.4. Resultados con tonos modulados 101

0 20 40 60 80 100 120 140−0.6−0.4−0.2

0.00.20.40.6

Desp

laza

mie

nto

MB

(µm

)

(a)

0 20 40 60 80 100 120 140−4−2

02468

Volta

je IH

C (m

V) (b)

0 20 40 60 80 100 120 140Tiempo (ms)

0500

1000150020002500

Tasa

de

disp

aros

(1/s

)

(c)

(1) 1000 Hz

0 20 40 60 80 100 120−0.15−0.10−0.05

0.000.050.100.15

Desp

laza

mie

nto

MB

(µm

)

(a)

0 20 40 60 80 100 120−0.06−0.04−0.02

0.000.020.040.060.080.10

Volta

je IH

C (m

V) (b)

0 20 40 60 80 100 120Tiempo (ms)

0100200300400500600700800

Tasa

de

disp

aros

(1/s

)

(c)

(2) 5000 Hz

Figura 4.23: Respuestas del modelo de periferia auditiva para los sitios con frecuenciacaracterıstica de 1000 y 5000 Hz respectivamente. (a) Movimientos de la MB. (b) Potencialde membrana de la IHC donde pueden verse los efectos de rectificacion, saturacion y filtradosobre todo para el sitio de 5000 Hz. (c) Tasa de disparos producida por la sinapsis y la fibraauditiva, donde puede verse la adaptacion luego del ataque.


basado en metodos temporales unicamente. Luego utilizaremos las respuestas de la coclea

para el conjuntos de tonos SAM utilizados en el experimento psicofısico del capıtulo 3 y

propondremos un posible metodo para la generacion de espacios tımbricos.

4.4.1. Modelo temporal de la rugosidad

Para explorar como responde el modelo de coclea a las modulaciones en amplitud,

comenzaremos observando el fenomeno de batidos. Estos ocurren cuando dos tonos estan

suficientemente cerca en frecuencia y generan interferencia en los desplazamientos de la MB.

En la figura 4.24 podemos observar las respuestas del modelo a un par de tonos sinusoidales

con frecuencias, fc − fm/2 y fc + fm/2, con fc = 1 kHz y para tres valores de fm: 10, 50

y 150 Hz. En el panel superior estan las magnitudes de los desplazamientos de la MB y se

puede observar como los dos tonos ocupan el mismo sitio de la MB salvo en el tono con fm

de 150 Hz. En el panel inferior se muestran las formas de onda de los sitios de la MB con

mayor desplazamiento (puntos rojos en el panel superior) y la envolvente de estas formas de

onda. Para la fm de 150 Hz, podemos ver que dado que las componentes interactuan mucho

menos, el nivel de modulacion de la envolvente es menor y en el sitio del panel inferior no

se presentan practicamente modulaciones. Debemos notar que este analisis tambien podrıa

ser hecho con la tasa de disparos de la fibra auditiva, pero en esta seccion utilizaremos solo

el modelo de coclea y la MB para simplificar los resultados.

Repasando los distintos perceptos que pueden ser evocados por tonos con modulacion,

sabemos que a medida que se va aumentando la frecuencia de modulacion, para frecuencias

bajas el sistema auditivo es capaz de seguir los cambios de la envolvente como cambios

de intensidad y ocurre el percepto de fluctuaciones de la intensidad. Luego el sistema

auditivo no puede seguir el ritmo de los cambios de la envolvente y se da el percepto de

rugosidad. Finalmente, cuando la frecuencia de modulacion es similar a la banda crıtica,

las componentes se empiezan a separar a la par que la rugosidad disminuye.

Es posible cuantificar estos perceptos con el modelo de la coclea a partir de la informa-

cion de las envolventes de cada sitio de la MB. En la seccion 1.4.2 del primer capıtulo se

establecio la relacion entre la rugosidad y la envolvente de una senal y se comentaron los

distintos modelos espectrales y temporales que hay para calcularla. En esta seccion utili-


1030.00.20.40.60.81.01.21.41.6 fm =10Hz

1030.00.20.40.60.81.01.21.4 fm =50Hz

1030.00.20.40.60.81.01.21.4

Desp

laza

miento RM

S MB

(µm)


fm =150Hz

(a)

100150200250300−3−2−1

0123 fm =10Hz

100150200250300−3−2−1

0123 fm =50Hz

100150200250300−3.0−1.50.01.5

−3.0

fm =150Hz

100150200250300−2−101

−2

Desp

laza

mie

nto

MB

(µm

)

Tiempo (ms)

(b)

Figura 4.24: Respuestas del modelo de coclea para tres tonos con batidos centrados en1 kHz y con diferentes frecuencias de modulacion: 10, 50 y 150 Hz. (a) DesplazamientosRMS de la MB en funcion de la frecuencia natural de los osciladores. (b) Desplazamientosde la MB en funcion del tiempo para los sitios con mayor actividad.

zaremos el modelo de la coclea para calcular la rugosidad mediante un metodo puramente

temporal.

Primero, recordemos que es posible calcular el valor la rugosidad a partir de la profun-

didad de modulacion efectiva de la envolvente, siempre que la frecuencia de modulacion

este dentro del rango donde se genera el percepto de rugosidad. Esto se puede hacer com-

binando las ecuaciones 1.4 y 1.5, reescritas a continuacion en una sola expresion:

R = αmpef = α

(σ

µ

)p

(4.22)

Donde R es la rugosidad, α un coeficiente de escalamiento, mef es la profundidad de

modulacion efectiva calculada a partir del valor medio µ y la desviacion estandar σ de la

envolvente y p es un exponente entre 1 y 2. Esta formula solo establece que mientras mas

grande la modulacion de la envolvente, mayor sera la rugosidad, sin embargo no predice

como varıa rugosidad con la frecuencia moduladora. Incluyendo el modelo de la coclea en


(a) (b)

Figura 4.25: (a) Valor medio µ y (b) desviacion estandar σ de la envolvente para cadasitio de la MB en funcion de la frecuencia de modulacion para un tono con batidos. Laslineas verticales indican la banda crıtica en ERB

el computo de la rugosidad, se puede limitar la rugosidad para frecuencias de modulacion

altas como se vio en la figura 4.24. En la siguiente expresion se agrega el computo de la

profundidad de modulacion para la envolvente de cada sitio de la MB:

R = α

(∑Ni=1 σi∑Ni=1 µi

)p

(4.23)

Donde el subındice i indica el numero de sitio o de oscilador del modelo de la coclea.

Comencemos aplicando este modelo a los tonos con batidos visualizando como se comportan

σi y µi por separado. En la figura 4.25 podemos observar en (a) al valor medio y en (b) a la

desviacion estandar en funcion de la frecuencia de modulacion para un tono de 1 kHz. Para

las fm bajas, podemos ver en el valor medio, que los dos tonos estan fusionados en una

misma region y luego a medida que aumenta la fm se separan. Para la desviacion estandar

podemos observar como se va modificando el nivel de fluctuaciones de la envolvente en

diferentes sitios de la MB, y como se atenua una vez cruzada la banda crıtica denotada por

una lınea vertical.

A continuacion pasamos a promediar los valores entre todos los sitios de la MB. En

la figura 4.26 podemos observar los promedios de µ y de σ y de la rugosidad R =(µσ

)2.

Aunque el valor de la rugosidad decae como se esperarıa con la frecuencia de modulacion

porque las componentes dejan de interactuar, este no decae lo suficientemente rapido para


0 50 100 150 200 250 3000.20

0.22

0.24

0.26

0.28

µ(µm

)

(a)

0 50 100 150 200 250 3000.000.010.020.030.040.050.060.070.08

σ(µm

)

(b)

0 50 100 150 200 250 300Frecuencia de modulación (Hz)

0.000.020.040.060.080.100.120.140.16

(σ µ)2

(µm

)

(c)

Figura 4.26: Promedios entre todos los canales: (a) valor medio µ, (b) desviacion estandarσ y (c) el cociente (σ

µ)2

bajas modulaciones. Esto puede explicarse dado que la envolvente no distingue entre los

perceptos de fluctuaciones y rugosidad ya que es un fenomeno perceptual y no de la senal.

Ya hemos mencionado la relacion entre la rugosidad y la falta de velocidad de respuesta

del sistema auditivo para seguir las variaciones rapidas de la envolvente. Podemos expresar

esto de otra manera, suponiendo la existencia de una ventana de tiempo en la cual el

sistema integra la senal auditiva para estimar su intensidad. Si la modulacion es muy lenta

es posible obtener un muestreo con suficiente precision de la intensidad como para percibir

su fluctuacion, pero si la modulacion es mas rapida, el muestreo genera una medicion mas

azarosa de la intensidad y se genera el percepto de rugosidad3.

A partir de este razonamiento, se incluye en el modelo un proceso de integracion tem-

3 ¿aliasing?


0 20 40 60 80 100−1.0−0.5

0.00.51.01.5 fm =70 mef=1.0

0 20 40 60 80 100Tiempo (ms)

−1.0−0.5

0.00.51.01.5 fm =11 mef=0.88

Figura 4.27: Computo de la estadıstica de la envolvente con una ventana: (a) frecuenciade modulacion de 70 Hz y ventana de 100 ms de ancho, el valor de la profundidad demodulacion efectiva no se ve alterado (b) frecuencia de modulacion de 11 Hz y ventanade 100 ms de ancho, el valor de la profundidad de modulacion efectiva es menor que parafrecuencias mas altas.

poral que calcula la desviacion estandar y el valor medio mediante una ventana movil. El

funcionamiento de este proceso se ejemplifica en la figura 4.27. Este proceso es similar al

que ocurre en el modelo de Daniel and Weber [17] con la diferencia de que en aquel modelo

el efecto de filtrado de la ventana se aplica en el dominio de la frecuencia.

Con el agregado de este procesamiento, podemos replicar la medida de la rugosidad

para los tonos con batidos en funcion de la frecuencia de modulacion. En la figura 4.28 se

muestran los resultados para nuestro modelo temporal, el modelo espectral de Sethares [104]

descripto en el apendice A.3 y los valores experimentales del trabajo de Miskiewicz et al.

[82]. El tamano de la ventana fue de 25 ms; seleccionado para coincidir cualitativamente con

el maximo de los resultados experimentales y los valores de los picos fueron normalizados

a uno. Es importante notar que segun el tamano de la ventana es posible modificar la

posicion de la curva donde la rugosidad es maxima. En este caso se decidio ajustar con los

resultados del experimento de Miskiewicz et al. [82], debido a que son los resultados mas

actualizados y la posicion de su maximo de rugosidad esta en concordancia con el 45% de

la banda crıtica (segunda linea negra) segun lo visto en la seccion 1.4.2.


0 50 100 150 200 250 300

Frecuencia de modulación (Hz)

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Ru

go

sid

ad

Modelo temporal

Modelo espectral

Miskiewicz e t a l

Figura 4.28: Rugosidad en funcion de la frecuencia de modulacion para tonos con batidosy un tamano de ventana de 25 ms. En tono azul, los valores del modelo temporal a partirde la respuesta de la coclea, en tono magenta los valores del modelo espectral de Sethares[104] descripto en el apendice A.3 y en cırculos rojos valores experimentales del trabajo deMiskiewicz et al. [82]. En lineas negras se muestran las fracciones de 25%, 50% y 100%de la banda crıtica en ERB

Por ultimo mostraremos el computo de la rugosidad para los tonos SAM. En la figura

4.29, podemos observar las curvas de rugosidad, en azul para nuestro modelo temporal, en

magenta para el modelo espectral de [104] y con cırculos los trabajos experimentales de

Aures [3] en rojo y Fastl and Zwicker [30] en verde. Es importante notar que se ha usado

el mismo tamano de ventana que en el caso de tonos con batidos por lo que la posicion del

pico es relativamente similar cerca del 50% de la banda crıtica. A pesar de que el ajuste

no es perfecto se puede ver cierta correspondencia.


0 20 40 60 80 100 120 140 160


0.0

0.2

0.4

0.6

0.8

1.0

1.2

Ru

go

sid

ad

Modelo temporal

Modelo espectral

Fastl and Z wicker

Aures

Figura 4.29: Rugosidad en funcion de la frecuencia de modulacion para tonos SAM yun tamano de ventana de 25 ms. En tono azul, los valores del modelo temporal a partirde la respuesta de la coclea, en tono magenta los valores del modelo espectral de Sethares[104] descripto en el apendice A.3, en cırculos rojos valores experimentales del trabajo deAures [3] y en cırculos verdes de Fastl and Zwicker [30]. En lineas negras se muestran lasfracciones de 25%, 50% y 100% de la banda crıtica en ERB

4.4.2. Espacios tımbricos de modulacion

En el experimento del capıtulo 3 los participantes juzgaron las similitudes entre un

conjunto de tonos SAM. El proceso cognitivo responsable de las evaluaciones de estas

similitudes es sin duda un proceso de alto nivel que involucra a la corteza auditiva y

tambien al resto de las etapas de la vıa auditiva. No es trivial suponer cuales fueron las

dimensiones perceptuales utilizadas por los sujetos ya que cada participante puede haber

utilizado diferentes pistas para estimar la distancia. A pesar de esto, los resultados del

escalamiento multidimensional mostraron que en promedio los participantes utilizaron las

dos dimensiones del espacio de configuraciones de los tonos SAM, la frecuencia portadora

fc y la frecuencia moduladora fm. Por lo tanto, es posible suponer que en la estimacion

de las similitudes tuvo lugar algun mecanismo de factorizacion que permitio identificar

por separado la frecuencia portadora de la moduladora. En esta seccion proponemos un

mecanismo para medir la frecuencia moduladora y la portadora a partir de respuestas

prototıpicas de grupos de neuronas que podrıan extraer dicha informacion. Luego mediante


esta informacion podemos calcular la distancia perceptual entre los tonos.

En la periferia auditiva la informacion del sonido es segregada en el eje tonotopico y

codificada por los disparos de la fibra auditiva mediante codigos de tasa de disparos y de

enganche de fase. La organizacion tonotopica se preserva en toda la ruta auditiva, incluso

en la corteza auditiva se han encontrado mapas neuronales con esta organizacion [96]. Los

atributos perceptuales asociados al eje tonotopico, como el centroide espectral y la altura

de tonos puros, son de los mas reconocibles y salientes.

La informacion temporal del sonido se puede separar en lo que respecta a la envolvente

y en la estructura fina de la fase. Ambas caracterısticas son codificadas temporalmente en

la fibra auditiva, la primera a traves de la variacion de la tasa de disparos y la segunda

mediante el enganche de fase. Las codificaciones temporales son poco robustas ya que

son susceptibles a sufrir modificaciones en los tiempos de los disparos en cada relevo de

la ruta auditiva. Esto implica que son necesarios circuitos neuronales que transformen la

codificacion temporal a codificacion en base a tasa de disparos. Los mecanismos exactos de

esta transformacion todavıa permanecen elusivos [9].

Con respecto a la codificacion de la frecuencia de modulacion de tonos con modulacio-

nes en amplitud, hay evidencia de la existencia de un banco de filtros sobre la frecuencia

de modulacion, que en paralelismo con el eje tonotopico se lo llama eje periodotopico. Este

eje ha sido encontrado en forma de mapa neuronal en el colıculo inferior del gato [72] y

del jerbo [69]. Las caracterısticas precisas de este banco de filtros todavıa no son conoci-

das completamente, pero es razonable suponer que en alguna etapa de la ruta auditiva,

existen grupos de neuronas que responden con preferencia a cierto rango de frecuencias de

modulacion. Existen trabajos de modelado que proponen circuitos neuronales capaces de

extraer las frecuencias de modulacion en base a tasa de disparos [52] y tambien trabajos

que proponen de forma simplificada un banco de filtros que es alimentado directamente con

las senales de la fibra auditiva [18].

A continuacion pasaremos a medir la frecuencia de modulacion y la frecuencia portadora

con el modelo de la coclea. Para la frecuencia portadora utilizaremos la informacion del eje

tonotopico, mientras que para la frecuencia de modulacion incluiremos un banco de filtros

alimentado con la fibra auditiva que simula las respuestas de las neuronas del colıculo


100 101 102


−16−14−12−10

−8−6−4−2

0

Aten

uaci

ón (d

B)

Figura 4.30: Banco de filtros sobre la frecuencia de modulacion. Las frecuencias centralesde los filtros estan espaciadas logaritmicamente. Para frecuencias centrales menores a 10Hz el ancho de banda es 5 Hz, para frecuencias centrales mayores a 10 Hz, se fijo el valorde Q en 2. Adaptado de Dau et al. [18]

inferior sensibles a la frecuencia de modulacion. En la figura 4.30 se puede ver el banco de

filtros utilizado, que fue adaptado de Dau et al. [18]. Los filtros son resonadores de un polo

complejo dados por la siguiente funcion de transferencia:

H(z) =1−R

1−Rei2πfc∆ z−1

Con R = e−B∆, fc la frecuencia central, B el ancho de banda y ∆ el paso temporal. El

ancho de banda de los filtros con frecuencia centrales menores a 10 Hz fue de 5 Hz, y luego

para las frecuencias centrales mayores se fijo el Q en 2. Se usaron 10 filtros con frecuencias

centrales espaciadas logaritmicamente entre 2 y 100 Hz.

En los resultados de esta seccion utilizamos el modelo de la coclea con sinapsis incluida,

por lo tanto cada canal del modelo esta representado por la tasa de disparos generada por

la sinapsis. Las senales de cada canal son pasadas por el banco de filtros y su amplitud

RMS es calculada. Luego, para condensar toda la informacion de modulacion se promedian

todos los canales. Este proceso genera, para cada estımulo, un vector con 10 elementos que

tienen las respuestas del banco de filtro con la informacion de todos los canales.

Para el calculo de la respuesta prototıpica de la frecuencia portadora, proponemos una

reduccion del eje tonotopico en 10 bandas superpuestas, sumando la actividad de la sinapsis


2 3 5 7 11 18 27 42 65 100

Frecuencia modulación (Hz)

0

2

4

6

8

10

12

14

Núm

ero

de to

no S

AM

20.0

10.9 5.9

3.2

1.8

0.9

0.5

0.3

0.2

0.1

Frecuencia portadora (kHz)

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Tasa

de

disp

aro

norm

alizad

a

Figura 4.31: Poblacion de neuronas del banco de filtros de modulacion y de frecuenciaportadora. Cada fila representa un sonido de los 15 sonidos del experimento con tonosSAM, y las columnas representan las respuestas de neuronas tuneadas a ciertas frecuenciasde modulacion o de portadora.

por cada banda. Este proceso junto con el del banco de filtros de modulacion intentan

simular la degradacion de las curvas de sintonıa que ocurre a medida que se avanza en la

ruta auditiva.

En la figura 4.31 podemos observar los resultados de los vectores de modulacion y de la

portadora para los 15 sonidos de la condicion 1 del experimento con tonos SAM (3.1a). Se

puede ver como las dos representaciones capturan para los valores maximos, a la frecuencia

de modulacion y a la frecuencia portadora respectivamente.

Una de las cualidades de representar los tonos SAM de esta forma prototıpica con po-

cas neuronas (10), es que permite que haya un solapamiento entre las respuestas de cada

sonido. Esto permite calcular una distancia entre sonidos simplemente tomando la distan-

cia euclıdea entre estos vectores. Mediante esta idea, es posible simular un experimento

de comparacion de pares a partir de la distancia entre las representaciones prototıpicas.

Los resultados del experimento con tonos SAM eran el promedio de muchas respuestas, y

cada participante podrıa haber usado diferentes pesos para las dimensiones perceptuales de

modulacion y de la portadora. Por este motivo, vamos a incluir un factor de ruido interno


−0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8Dimensión 1

−0.8

−0.6

−0.4

−0.2

0.0

0.2

0.4

0.6Di

men

sión

20

1 2345

67

8

9

10

11

121314

Figura 4.32: Configuracion MDS INDSCAL para las representaciones prototıpicas de lafrecuencia moduladora y portadora para los 15 tonos SAM del experimento psicofısico.

por sujeto que regula el peso relativo entre el vector de modulacion y de la portadora.

En la figura 4.32 se puede ver la configuracion MDS INDSCAL obtenida de simular el

experimento para 25 sujetos con pesos relativos tomados de una distribucion normal con

desviacion estandar 1 y media 1. La concordancia observada se debe al hecho de haber

generado representacion con baja definicion y con solapamiento, en este caso 10 frecuencias

centrales de modulacion y 10 bandas del eje tonotopico.

4.5. Resumen y discusion 113

4.5. Resumen y discusion

En este capıtulo se presento un modelo dinamico de la coclea basado en una cadena

de osciladores con acoplamiento hidrodinamico y alimentacion lateral. Se utilizo la aproxi-

macion de una coclea unidimendional y con parametros morfologicos constantes. A pesar

de estas aproximaciones se lograron generar respuestas aceptables del movimiento de la

membrana basilar. La inclusion de las no linealidades, en el termino activo o en el termino

de amortiguacion de los osciladores, lograron capturar los comportamientos de compresion

para las respuestas con distintas intensidades, sin embargo se observo que la no linealidad

en la amortiguacion genero respuestas levemente mas similares a las experimentales. Los

parametros elegidos para correr el modelo fueron seleccionados en base a lograr un com-

promiso de las respuestas frente a diferentes estımulos y situaciones. Queda pendiente el

analisis exhaustivo del comportamiento del modelo en funcion de todos sus parametros, ya

sea mediante ajustes con datos experimentales o analisis de inestabilidades y comporta-

mientos globales del sistema.

Una posibilidad para lograr mejores ajustes con los datos experimentales, recae en agre-

gar o modificar las dependencias espaciales de ciertos parametros. Muchos parametros se

han dejado constantes por simplicidad, pero es posible que se puedan obtener respues-

tas mas realistas en todo el rango de frecuencia simplemente agregando una dependencia

espacial.

Pudimos computar las respuestas de las IHC y la sinapsis, con resultados muy convin-

centes, gracias al modelo de Zilany et al. [124] que ya se encontraba implementado. Queda

realizar un analisis sobre las ventajas de incluir la etapa de la IHC y la sinapsis para el

analisis de sonidos, ya que en muchos casos es suficiente utilizar los desplazamientos de la

MB. En este sentido, hay que profundizar la relacion entre las respuestas de la membrana

basilar y los patrones de excitacion perceptuales.

Con respecto al modelo de rugosidad planteado, es necesario realizar ajustes para todo

el rango de frecuencias portadoras, posiblemente utilizando largos de ventanas adecuados

para cada sitio de la MB.

Finalmente, el agregado de uno de los procesos que ocurren mas arriba en la ruta


auditiva, como es el caso de la codificacion de la modulacion en el colıculo inferior, permitio,

aunque de forma simplificada, simular el experimento de comparacion de tonos SAM. Es

necesario estudiar con mayor profundidad la relacion entre los procesos cognitivos centrales

que se involucran en la comparacion de timbres y la informacion que se dispone en las

primeras etapas de la ruta auditiva. Tambien queda pendiente estudiar si es posible modelar

las respuestas individuales de los participantes agregando mas fuente de ruido interno.

Capıtulo 5

Conclusiones generales

Esta tesis planteo el estudio de la percepcion tımbrica de sonidos con modulaciones en

amplitud. El trabajo comenzo a partir de la interaccion con el saxofonista y compositor

Martın Proscia que poseıa un corpus de sonidos de multifonicos del saxofon. Este encuen-

tro permitio notar que las herramientas clasicas para estudiar el timbre musical han sido

desarrolladas en base a sonidos armonicos y no resultaban adecuadas para estudiar sonidos

mas complejos espectralmente, como los multifonicos.

Por otra parte, existe un cumulo de sonoridades propias de la musica electroacustica y

contemporanea que todavıa no han sido estudiadas con herramientas analıticas de acustica

y experimentos perceptuales, con algunas contadas excepciones [42]. Esta tesis propuso el

abordaje sobre el timbre de un conjunto de estas sonoridades.

Los sonidos multifonicos estudiados habıan sido previamente organizados por Martın

Proscia en cuatro clases en base a sus cualidades tımbricas. Uno de los objetivos logra-

dos en esta tesis fue el de dar un fundamento perceptivo y acustico de la clasificacion

propuesta originalmente basandose en un conjunto de atributos, entre los que se encon-

traban, la frecuencia fundamental, la frecuencia de modulacion, el centroide espectral y la

rugosidad. Para ganar confianza en esta clasificacion se propuso un experimento de compa-

racion de pares de sonidos donde los sujetos debıan juzgar las similitudes tımbricas entre

los multifonicos. El experimento fue realizado en un ambiente controlado con sujetos con

experiencia en musica electroacustica. Este experimento mostro que los sonidos que perte-

115

116 Capıtulo 5. Conclusiones generales

necıan a una misma clase se mantuvieron agrupados en el espacio tımbrico perceptual. Al

mismo tiempo, se pudieron interpretar las dimensiones tımbricas perceptuales en base a los

atributos acusticos, encontrandose altos grados de correlacion para el centroide espectral y

la rugosidad.

El trabajo realizado con los multifonicos abrio nuevos interrogantes acerca del rol de

las modulaciones como un atributo tımbrico relevante (algo escasamente estudiado en tra-

bajos previos). Para contribuir a resolver esta cuestion partiendo de un caso mas sencillo y

controlable se propuso entonces, como continuacion de esta tesis, llevar a cabo un experi-

mento de comparacion de tonos modulados en amplitud sinusoidal mente (tonos SAM). Se

decidio realizarlo de forma masiva mediante la web y una plataforma desarrollada de forma

especifica. La participacion en el experimento fue muy buena, con mas de 80 personas en

2 convocatorias.

Los estımulos utilizados en el experimento fueron tomados de un espacio de configura-

ciones de dos dimensiones: frecuencia portadora y frecuencia de modulacion, dejando fija

la profundidad de modulacion en su valor maximo 1. Pudo observarse mediante el analisis

MDS que las dimensiones perceptuales utilizadas por los sujetos fueron las mismas que las

del espacio de configuracion. Esto permitio concluir que los participantes, en promedio,

pudieron comparar los sonidos factorizando perceptualmente la modulacion y la frecuencia

portadora. Por otro lado se evaluaron dos condiciones de grupos de sonidos: una condicion

con sonidos muy cercanos entre sı en el espacio de configuraciones y otra con sonidos mas

alejados. Los resultados indicaron que los sujetos utilizaron diferentes escalas para cada

condicion. Finalmente se pudo observar que los ajustes MDS de tres dimensiones fueron

mejores para algunas condiciones, por lo que indicarıa que el espacio tımbrico perceptual

podrıa haber estado influenciado por otro atributo acustico como la rugosidad, aunque es

necesario mayor analisis y mayor numero de participantes para aclarar este punto.

De forma paralela al estudio experimental del timbre se desarrollo un modelo de la

coclea para poder estudiar el timbre a traves de la actividad en la periferia auditiva. Los

objetivos de esta tesis incluıan el revelamiento de los modelos de la mecanica coclear, el

desarrollo de un modelo reducido inspirado en la dinamica no lineal y la implementacion de

dicho modelo de forma eficiente. Todos estos objetivos fueron cumplidos logrando generar

117

un modelo versatil que permite modificar sus parametros con comodidad, procesar sonidos

de forma eficiente en tiempos de computo hasta solo 3 veces el tiempo real, generando

ademas cocleogramas realistas. Se contrastaron los resultados de las simulaciones con los

datos fisiologicos mas consensuados de la literatura [98]. Si bien aun es necesario comple-

tar el modelo incorporando mas datos fisiologicos y realizando alguna optimizacion de sus

parametros, se obtuvo en general un buen acuerdo tanto cualitativo como cuantitativamen-

te.

Se realizaron algunas comparaciones con algunos datos fisiologicos pero es necesario

completar esta etapa con mas datos de fenomenos auditivos y realizar una optimizacion

de los parametros. Muchos de los parametros utilizados fueron dejados constantes en el eje

de la coclea, pero para obtener mejores respuestas para todas las frecuencias es necesario

introducir dependencias espaciales en ciertos parametros como los del sistema activo y la

no linealidad.

El modelo de la coclea fue aplicado al estudio de tonos con modulacion en amplitud.

Por un lado se lo utilizo para generar un nuevo modelo para el computo de la rugosidad.

Mientras que los modelos mas utilizados para cuantificar la rugosidad son de caracter

espectral o mixto, en este trabajo buscamos plantear un modelo puramente temporal. Para

esto se utilizo la salida del modelo de la coclea, y se computo, mediante una ventana movil, la

amplitud de las modulaciones de la envolvente para cada canal de la coclea. La comparacion

de este modelo con datos experimentales, mostro que los resultados son promisorio, pero

es necesario modificar el tamano de la ventana utilizada en cada canal para lograr ajustes

en todo el rango de frecuencias.

Finalmente se planteo un mecanismo posible como base para los procesos cognitivos

de la comparacion de timbres de sonidos con modulacion. El modelado de la periferia con

inclusion de un banco de filtros de modulacion, permitio generar respuestas neuronales

prototıpicas que han sido observadas en el colıculo inferior. Estas respuestas permitieron

estimar la frecuencia de modulacion de los tonos SAM y en conjunto con la informacion to-

notopica entregar una representacion compacta de cada sonido. Las respuestas prototıpicas

propuestas tuvieron baja resolucion y gran solapamiento entre las bandas de frecuencias

moduladoras o portadora, lo que permitio calcular la distancia euclıdea entre las respuestas

118 Capıtulo 5. Conclusiones generales

y poder establecer una distancia entre los sonidos. Finalmente se simulo un experimento

con varios participantes agregando un ruido interno que afecta el peso relativo entre las

dimensiones de modulacion y de la portadora, obteniendo buenos resultados.

Apendice A

A.1. Escalamiento multidimensional

El analisis de escalamiento multidimensional (MDS) es una tecnica de reduccion de la

dimensionalidad con la cual es posible representar datos de un espacio de muchas dimensio-

nes, en un espacio de baja dimension tıpicamente 2 o 3. Los datos deben estar representados

por una matriz de distancias, o disimilitudes, y mediante un proceso de optimizacion se

buscan las coordenadas que mejor representan estas distancias en un espacio de dimension

menor.

El analisis de MDS puede servir varios propositos. Por un lado permite generar visualiza-

ciones accesibles para estudiar conjuntos de datos que de otra manera solo son representados

por numeros. Por otro lado, en los experimentos cognitivos, tambien es una herramienta

que permite descubrir las dimensiones perceptuales que pudieron ser utilizadas para juzgar

las disimilitudes.

Existen muchas variantes de MDS. Esta el MDS metrico clasico, en el cual se utiliza

una metrica euclidea, pero tambien es posible utilizar otras metricas para representar las

distancias. Y tambien esta el MDS no metrico, para los casos donde las disimilitudes no

representan distancias sino ordenes en un rango.

El analisis MDS clasico es identico al analisis por componentes principales (PCA del

ingles principal component analysis). Por lo tanto la esencia de la representacion en baja

dimensionalidad recae en filtrar las dimensiones que contribuyen menos a la varianza de los

datos.

Para encontrar la configuracion MDS que mejor satisface los datos, se trata de minimizar

119

120 Apendice A. Apendices

una funcion de perdida dada por la siguiente expresion:

σ(X) =∑

i<j

wij (dij(X)− δij)2 (A.1)

Esto representa, para una configuracion dada X, el valor cuadratico medio de la dife-

rencia pesada por wij entre las distancias dij(X) y las disimilitudes δij entre los puntos i y

j.

Con una formulacion similar se utiliza un coeficiente normalizado que simboliza la

calidad del ajuste, denominado Stress o Stress-1 :

Stress-1 =

√√√√√√√√

∑

i<j

(dij(X)− δij)2

∑

i<j

d2ij(X)(A.2)

Tambien existen otras variantes de MDS relacionadas al tipo de ajuste y no a la metrica

utilizada. En estos casos podemos encontrar el INDSCAL (del ingles individual differences

scaling), el CLASCAL y el CONSCAL. En este trabajo utilizamos el INDSCAL, para una

revision de los otros metodos dirigirse a McAdams et al. [78]. El INDSCAL permite, a partir

de varias fuentes de datos de disimilitudes, por ejemplo las respuestas de varios sujetos,

encontrar una configuracion geometrica que satisfaga en mayor medida a todos los datos.

Esto lo consigue asignando diferentes pesos en cada dimension para cada sujeto.

A.2. Cocleograma de banco de filtros gammatones 121

A.2. Cocleograma de banco de filtros gammatones

Los filtros gammatones fueron popularizados por Johannesma [59] como un modelo para

la respuesta impulso de las fibras auditivas, estimados a partir de la tecnica de correlacion

en reversa de los patrones de disparos. Los gammatones son un filtro pasa bandas cuya

respuesta impulso Gfc(t) es el producto de una funcion gamma y un tono (de ahı el

nombre ”gammatone”):

gfc(t) = tN−1e−2πtb(fc) cos(2πfct+ φ)u(t)

Donde N es el orden del filtro, fc es la frecuencia central en Hz, φ es la fase y u(t) es

la funcion escalon. La funcion b(fc) determina el ancho de banda para una dada frecuencia

central. Para fc/b(fc) suficientemente grande la repuesta en frecuencia del gammatone se

puede aproximar por la siguiente expresion:

G(f) ≈[1 +

j(f − fcb(fc)

]−N

(0 < f < ∞)

Por lo tanto puede verse que el filtro es simetrico alrededor de la frecuencia fc. En el

trabajo de Patterson et al. [88], mostraron que para un orden N = 4, el filtro gammatone

permite ajustar muy bien los filtros auditivos determinados experimentalmente.

El ancho de banda de los filtros gammatone se suele ajustar de manera proporcional

al ancho de banda rectangular equivalente (ERB) de los filtros auditivos, segun Patterson

et al. [88]:

b(f) = 1,013ERB(f)

La figura A.1 muestra la respuestas impulso y en frecuencia para ocho filtros gammatone

que estan espaciados equidistantes en la escala ERBN .


Figura A.1: Respuestas inpulso y en frecuencia para ocho filtros gammatone, de diferentesfrecuencias centrales

A.3. Modelo espectral de rugosidad

El modelo espectral de la rugosidad utilizado en este trabajo esta basado en la formu-

lacion de Sethares [104] que calcula la rugosidad para un par de tonos puros de amplitudes

y frecuencias A1, A2, y f1, f2.

R = 5Amin ∗Amax

(e−b1s(fmax−fmin) − e−b2s(fmax−fmin)

)(A.3)

s = 0,24/(s1fmin + s2) (A.4)

Donde Amin = min(A1, A2), fmax = max(f1, f2), fmin = min(f1, f2) y los coeficientes

toman los siguientes valores b1 = 3,5, b2 = 5,75, s1 = 0,0207, s2 = 18,96.

Para el computo de la rugosidad total en un sonido con varias componentes se suman

las rugosidades parciales entre todos los pares de componentes presentes en el sonido. A

pesar de que este modelo no contempla las fases relativas de las componentes, los valo-

res entregados de rugosidad, tienen buena correspondencia con experimentos perceptuales

[114].

A.4. Hidrodinamica de la coclea 123

A.4. Acoplamiento hidrodinamico 1-D

El acoplamiento hidrodinamico es la principal forma de acoplamiento que hay entre las

distintas secciones de la membrana basilar (MB) y permite la formacion de la onda viajera.

El acoplamiento lateral dado por la rigidez de la MB es despreciable en comparacion al

acoplamiento hidrodinamico. Para modelar este acoplamiento es necesario representar a la

coclea como una caja llena de fluido que esta dividida por la particion coclear o MB para

simplificar (figura A.2).

Figura A.2

Es posible resolver el problema hidrodinamico en 3 dimensiones, pero tambien en aproxi-

maciones de 1 y 2 dimensiones [21]. Por simplicidad y eficiencia computacional utilizaremos

la aproximacion 1-D a partir del eje X. Esta aproximacion se llama de ”onda larga”, ya que

solo tiene validez en la region lejos de la resonancia, donde la longitud de onda es grande,

dado que en esa region la presion es homogenea en la dimension Z. Cerca de la resonancia,

cuando la longitud de onda es corta, la distribucion de la presion varıa en la dimension

Z de forma marcada, por lo que es necesario el desarrollo 2-D para un analisis con mayor

exactitud. A pesar de esto los resultados de la aproximacion 1-D son suficientemente validos

para realizar cocleogramas.

Por lo tanto consideremos las presiones del fluido unidimensionales pv y pt para las

rampas vestibular y timpanica respectivamente. Dado que las ondas de presion que se

propagan estan conectadas al final de la coclea por el helicotrema, es posible definir las

variables de la presion simetrica y asimetrica.

p = p−=

1

2(pv − pt)


p+ =1

2(pv + pt)

La onda de presion simetrica genera compresion sobre la MB y la antisimetrica genera

movimientos transversales en la MB, y es la de interes. De esta manera se simplifican las

dos cavidades de fluidos como una sola que ejerce el doble de la presion.

Figura A.3: Seccion de la coclea rectangular. La conservacion de masa implica que lasvariaciones del flujo volumetrico U deben ser absorbidas por la velocidad de la MB.

El siguiente paso es establecer las leyes de conservacion para el fluido. En el caso unidi-

mensional, la ecuacion de la conservacion de la masa ∇ · u = 0 debe incluir el movimiento

de la MB y no puede reducirse a ∂u/∂x = 0. Esto implica que los cambios en la velocidad

volumetrica del fluido U se reflejan en la velocidad de la MB ∂h/∂t .

U(x+ dx, t)− U(x, t) =∂h(x, t)

∂tb dx

Hbu(x+ dx, t)− u(x, t)

dx=

∂h(x, t)

∂tb

∂u(x, t)

∂x=

1

H

∂h(x, t)

∂t(A.5)

Donde b es el ancho de la cavidad, y H la altura. Luego, podemos expresar la conser-

vacion de momento lineal en una dimension:

2ρ0∂u(x, t)

∂t= −∂p(x, t)

∂x(A.6)

A.4. Hidrodinamica de la coclea 125

Donde el factor 2 representa el hecho de que se consideran las presiones de las dos

cavidades. Si se deriva a la ecuacion A.5 con respecto al tiempo y a la ecuacion A.6 con

respecto a x, es posible igualar los terminos con derivadas cruzadas:

∂2u(x, t)

∂x∂t=

1

H

∂2h(x, t)

∂t2

2ρ0∂2u(x, t)

∂t∂x= −∂2p(x, t)

∂x2

Igualando obtenemos:

∂2p(x, t)

∂x2=

−2ρ0H

∂2h(x, t)

∂t2(A.7)

Esta ecuacion es la que gobierna el acoplamiento hidrodinamico. Puede entenderse como

una fuerza sobre la MB que esta relacionada a la concavidad de la onda de presion p.


A.5. Relacion de dispersion del sistema activo

En la seccion 4.2 se introdujo el modelado de la coclea haciendo enfasis en las soluciones

numericas. Sin embargo, es posible establecer ciertos resultados teoricos si se consideraran

soluciones armonicas del movimiento de la MB. Retomemos las ecuaciones principales que

determinan el comportamiento de la MB.

m∂2h(x, t)

∂t2+ µ(x)

∂h(x, t)

∂t+ s(x)h(x, t) = −p(x, t) (A.8)

∂2p(x, t)

∂x2= −2ρ

H

∂2h(x, t)

∂t2(A.9)

La ecuacion A.8 determina las caracterısticas de los osciladores de la MB, mientras que

la A.9 determina el acoplamiento entre los osciladores. Si se platean soluciones armonica

h(x, t) = h(x)eiwt y p(x, t) = p(x)eiwt podemos escribir la ecuacion A.8 como la definicion

de la impedancia acustica especıfica de la MB ZMB(x):

ZMB = −p(x)

h(x)= −iwm+ µ(x) +

s(x)

iw(A.10)

Luego la ecuacion A.9 puede escribirse como:

∂2p(x)

∂x2− 2iwρ

HZMB(x)p(x) = 0 (A.11)

(A.12)

Es posible considerar una solucion armonica tambien para la parte espacial de la presion

p(x) = p0e−ikx, y permite expresar la ultima ecuacion como:

k(x)2 = − 2iwρ

HZMB(x)(A.13)

La ecuacion A.12 tiene cierta semejanza con la ecuacion de Helmholtz, con la diferencia

de que el termino k2 depende de x, por lo que no es posible encontrar soluciones analıticas

A.5. Relacion de dispersion del sistema activo 127

generales, salvo para ciertos casos. Sin embargo es posible analizar ciertos comportamientos

del sistema a partir de la relacion entre el vector de onda k y la impedancia, ecuacion A.13.

102103104


05000

1000015000

Re(k)

102103104


−15000−10000−5000

0

Im(k

)

Figura A.4: Sistema pasivo: Parte real e imaginaria del vector de onda k en funcion dela frecuencia natural de los osciladores. La linea vertical indica la frecuencia del estımulo

Primero observemos en la figura A.4 las partes reales e imaginarias de k para un estımu-

lo de 1000 Hz. Para la parte real, se puede observar como en la primera region, donde la

impedancia esta dominada por la constante elastica, el vector de onda crece hasta apro-

ximadamente la posicion del oscilador cuya frecuencia coincide con la del estımulo. Esto

indica de forma recıproca el comportamiento de la longitud de onda, la cual se hace cada

vez mas pequena hasta llegar a la region de resonancia. Luego de esta region, la parte real

disminuye ya que la impedancia esta dominada por la masa. Con respecto a la parte ima-

ginaria, podemos ver que esta toma valore negativos los cuales crecen rapidamente cuando

la impedancia esta dominada por la amortiguacion en la region de resonancia. Consideran-

do la solucion armonica de la presion p(x) = p0e−ikx podemos notar que la parte real de

k gobierna el comportamiento oscilatorio, mientras que la parte imaginar de k, es la que

gobierna el comportamiento exponencial. Esto permite establecer que la parte imaginaria

de k debe ser mayormente negativa para que las soluciones no diverjan. A continuacion

veremos como la inclusion del sistema activo afecta justamente este comportamiento.

La impedancia de la MB para el sistema activo puede escribirse a partir de la ecua-


cion 4.19 utilizando la aproximacion h(x0) ≈ e−ikx0 solo valida para un entorno pequeno

alrededor de x0, lo que termina dando:

ZMB = −iwm+ µ(x) +k(x)

iw

(1− αβeikd + αe−ikd

)(A.14)

Si reemplazamos esta impedancia en la ecuacion A.13, podemos notar que queda una

ecuacion trascendente y no es posible despejar k analıticamente, pero si de forma numerica.

En la figura A.5 se puede observar la parte real e imaginaria del vector de onda k a partir

del sistema activo. Puede verse que las principales diferencias con el sistema pasivo se

encuentran en la region de la resonancia y en la region apical. Para la parte imaginaria,

puede verse una pequena desviacion hacia valores positivos en la region de la resonancia,

lo que indicarıa un comportamiento de expansion de la onda viajera en esa region.

102103104


05000

10000150002000025000

Re(k)

α=0

α=0.15

102103104


−80000

−60000

−40000

−20000

0

Im(k)

α=0

α=0.15

Figura A.5: Parte real e imaginaria del vector de onda k en funcion de la frecuencianatural de los osciladores, para el sistema pasivo (negro) y sistema activo (azul) con lossiguientes valores α = 0,15, β = 0,3. La linea vertical indica la frecuencia del estımulo

En la figura A.6 se muestra en detalle esta region y para varios valore de α. Podemos

ver que hay un valor crıtico donde ocurre una bifurcacion y las curvas se despegan. Las

A.5. Relacion de dispersion del sistema activo 129

900100011001200130014001500Frecuencia natural (Hz)

−4000

−2000

0

2000

4000

6000

8000

Im(k

)

α

0.00.090.130.150.160.1650.170.19

Figura A.6: Parte imaginaria del vector de onda k en funcion de la frecuencia naturalde los osciladores, para el sistema activo y varios valores de α (β = 0,3).

curvas que permanezcan del lado positivo tendran soluciones asociadas que terminaran

divergiendo, por lo que el sistema sera inestable. Sin embargo en el modelo completo con

no linealidad, esto no ocurre ya que las divergencias son frenadas por los terminos no

lineales, pero las respuestas pueden quedar saturadas. El mecanismo del sistema activo para

generar una inestabilidad puede ser utilizado para modelar las emisiones otoacusticas. Si el

coeficiente α es modificado en una sola region de la coclea se podran generar inestabilidades

locales, que terminan inyectando energıa en el sistema y pueden propagar oscilaciones hacia

la ventana oval.


102103104


−20

0

20

40

60

80

Desp

laza

mie

nto

MB

α

0.00.090.130.150.16

.

Figura A.7: Magnitud del desplazamiento de la MB para los valores de α utilizados enla figura A.6

Bibliografıa

[1] Karsten Ahnert and Mario Mulansky. Odeint-solving ordinary differential equations

in c++. arXiv preprint arXiv:1110.3397, 2011. 93

[2] Jonathan Ashmore. Cochlear outer hair cell motility. Physiological Reviews, 88(1):

173–210, 2008. 74

[3] von W Aures. A procedure for calculating auditory roughness. Acustica, 58(5):268–

281, 1985. 30, 107, 108

[4] Bruno Bartolozzi. New sounds for woodwind, volume 96. Oxford University Press,

1982. 37

[5] Arthur H Benade. Fundamentals of Musical Acoustics: Second. Courier Corporation,

2012. 35

[6] G Bi. Zur theorie des homes; die schwingungsform der basilarmembran. Phys. Z, 29:

793–810, 1928. 77

[7] Guy J Brown and Martin Cooke. Computational auditory scene analysis. Computer

Speech & Language, 8(4):297–336, 1994. 20

[8] Anne Caclin, Stephen McAdams, Bennett K Smith, and Suzanne Winsberg. Acoustic

correlates of timbre space dimensions: A confirmatory study using synthetic tonesa).

The Journal of the Acoustical Society of America, 118(1):471–482, 2005. 11

[9] Peter A Cariani. Neural timing nets. Neural Networks, 14(6):737–753, 2001. 109

131

132 Bibliografıa

[10] J Douglas Carroll and Jih-Jie Chang. Analysis of individual differences in multi-

dimensional scaling via an n-way generalization of “eckart-young” decomposition.

Psychometrika, 35(3):283–319, 1970. 50

[11] Gerard R Charbonneau. Timbre and the perceptual effects of three types of data

reduction. Computer Music Journal, pages 10–19, 1981. 10

[12] Jer-Ming Chen, John Smith, and Joe Wolfe. Saxophone acoustics: introducing a

compendium of impedance and sound spectra. Acoustics Australia, 37(1-19), 2009.

34, 35, 36

[13] Jer Ming Chen, John Smith, and Joe Wolfe. Saxophonists tune vocal tract resonan-

ces in advanced performance techniques. The Journal of the Acoustical Society of

America, 129(1):415, January 2011. ISSN 1520-8524. doi: 10.1121/1.3514423. URL

http://www.ncbi.nlm.nih.gov/pubmed/21303021. 35

[14] Taishih Chi, Yujie Gao, Matthew C Guyton, Powen Ru, and Shihab Shamma.

Spectro-temporal modulation transfer functions and speech intelligibility. The Jour-

nal of the Acoustical Society of America, 106(5):2719–2732, 1999. 22

[15] Michel Chion and Pierre Schaeffer. Guide des objects sonores. Buchet/Chastel, 1983.

3, 37

[16] Peter Dallos. Neurobiology of cochlear inner and outer hair cells: intracellular recor-

dings. Hearing research, 22(1):185–198, 1986. 75

[17] Peter Daniel and Reinhard Weber. Psychoacoustical roughness: Implementation of

an optimized model. Acta Acustica united with Acustica, 83(1):113–123, 1997. 30,

106

[18] Torsten Dau, Birger Kollmeier, and Armin Kohlrausch. Modeling auditory processing

of amplitude modulation. i. detection and masking with narrow-band carriers. The

Journal of the Acoustical Society of America, 102(5):2892–2905, 1997. 109, 110

http://www.ncbi.nlm.nih.gov/pubmed/21303021

Bibliografıa 133

[19] E de Boer. Auditory physics. Physical principles in hearing theory. I. Physics re-

ports, 62:87–174, 1980. URL http://www.sciencedirect.com/science/article/

pii/0370157380901003. 77, 84, 85, 86

[20] E de Boer. Auditory physics. Physical principles in hearing theory. II. Phy-

sics Reports, 1984. URL http://www.sciencedirect.com/science/article/pii/

037015738490108X. 84

[21] E de Boer. Auditory physics. Physical principles in hearing theory. III.

Physics Reports, 203(3):125–231, May 1991. ISSN 03701573. doi: 10.1016/

0370-1573(91)90068-W. URL http://linkinghub.elsevier.com/retrieve/pii/

037015739190068W. 81, 84, 123

[22] Alain De Cheveigne. Pitch perception models. In Pitch, pages 169–233. Springer,

2005. 56

[23] RJ Diependaal and Hendrikus Duifhuis. Numerical methods for solving one-

dimensional cochlear models in the time domain. The Journal of the Acoustical So-

ciety of America, (May 2013):1655–1666, 1987. URL http://link.aip.org/link/

?JASMAN/82/1655/1. 83

[24] Sophie Donnadieu. Representation mentale du timbre des sons complexes et effets de

contexte. PhD thesis, Paris 5, 1997. 4

[25] Sophie Donnadieu. Mental representation of the timbre of complex sounds. In Analy-

sis, synthesis, and perception of musical sounds, pages 272–319. Springer, 2007. 9

[26] Hendrikus Duifhuis. Cochlear Mechanics: Introduction to a Time Domain Analysis

of the Nonlinear Cochlea. Springer Science & Business Media, 2012. 85, 90, 91

[27] TAJ Duke and Frank Julicher. Active Traveling Wave in the Cochlea. Physical

Review Letters, 90(15):1–4, April 2003. ISSN 0031-9007. doi: 10.1103/PhysRevLett.

90.158101. URL http://link.aps.org/doi/10.1103/PhysRevLett.90.158101. 81

http://www.sciencedirect.com/science/article/pii/0370157380901003

http://www.sciencedirect.com/science/article/pii/0370157380901003

http://www.sciencedirect.com/science/article/pii/037015738490108X

http://www.sciencedirect.com/science/article/pii/037015738490108X

http://linkinghub.elsevier.com/retrieve/pii/037015739190068W

http://linkinghub.elsevier.com/retrieve/pii/037015739190068W

http://link.aip.org/link/?JASMAN/82/1655/1


http://link.aps.org/doi/10.1103/PhysRevLett.90.158101

134 Bibliografıa

[28] V M Eguıluz, M Ospeck, Y Choe, A J Hudspeth, and Marcelo O. Magnasco. Essential

nonlinearities in hearing. Physical review letters, 84(22):5232–5, May 2000. ISSN

0031-9007. URL http://www.ncbi.nlm.nih.gov/pubmed/14525401. 80

[29] Stephen J Elliott, Emery M Ku, and Ben Lineton. A state space model for

cochlear mechanics. The Journal of the Acoustical Society of America, 122(5):

2759–71, November 2007. ISSN 1520-8524. doi: 10.1121/1.2783125. URL http:

//www.ncbi.nlm.nih.gov/pubmed/18189567. 83

[30] Hugo Fastl and Eberhard Zwicker. Psychoacoustics: Facts and models, volume 22.

Springer Science & Business Media, 2007. 8, 18, 28, 29, 107, 108

[31] Anne Faure. Des sons aux mots, comment parle-t-on du timbre musical? PhD thesis,

Ecole des Hautes Etudes en Sciences Sociales (EHESS), 2000. 5

[32] Harvey Fletcher. Auditory patterns. Reviews of modern physics, 12(1):47, 1940. 18

[33] Maria N Geffen, Judit Gervain, Janet F Werker, and Marcelo O Magnasco. Au-

ditory perception of self-similarity in water sounds. Frontiers in integrative neu-

roscience, 5(May):15, January 2011. ISSN 1662-5145. doi: 10.3389/fnint.2011.

00015. URL http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=

3095814&tool=pmcentrez&rendertype=abstract. 10

[34] CD Geisler and Chunning Sang. A cochlear model using feed-forward outer-hair-cell

forces. Hearing research, 86:132–146, 1995. URL http://www.sciencedirect.com/

science/article/pii/037859559500064B. 82

[35] James Jerome Gibson. The senses considered as perceptual systems. 1966. 3

[36] Edward Givelberg and Julian Bunn. A comprehensive three-dimensional model of

the cochlea. Journal of Computational Physics, 191(2):377–391, 2003. 83

[37] Richard J Gold, T y Pumphrey. Hearing. i. the cochlea as a frequency analyzer.

Proceedings of the Royal Society of London. Series B-Biological Sciences, 135(881):

462–491, 1948. 78




http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=3095814&tool=pmcentrez&rendertype=abstract


http://www.sciencedirect.com/science/article/pii/037859559500064B

http://www.sciencedirect.com/science/article/pii/037859559500064B

Bibliografıa 135

[38] Julius L Goldstein. Modeling rapid waveform compression on the basilar membrane

as multiple-bandpass-nonlinearity filtering. Hearing research, 49(1):39–60, 1990. 20,

83

[39] R Gottfried. A more accurate notation for multiphonics using sideband ratios, 2008.

38

[40] John M Grey and James A Moorer. Perceptual evaluations of synthesized musical

instrument tones. The Journal of the Acoustical Society of America, 62(2):454–462,

1977. 10, 11

[41] Thomas Grill. Perceptually informed organization of textural sounds. PhD thesis,

Johannes Kepler University Linz, Austria, 2012. 15

[42] Thomas Grill, Arthur Flexer, and Stuart Cunningham. Identification of perceptual

qualities in textural sounds using the repertory grid method. In 6th Audio Mostly

Conference (AM ’11), pages 67–74, 2011. 5, 115

[43] John J Guinan, Alec Salt, and Mary Ann Cheatham. Progress in cochlear physiology

after bekesy. Hearing research, 293(1):12–20, 2012. 80

[44] Brian Gygi, Gary R Kidd, and Charle S Watson. Similarity and categorization of

environmental sounds. Perception & psychophysics, 69(6):839–55, August 2007. ISSN

0031-5117. URL http://www.ncbi.nlm.nih.gov/pubmed/18018965. 11, 13, 15

[45] John M Hajda. Relevant acoustical cues in the identification of western orchestral

instrument tones. The Journal of the Acoustical Society of America, 102(5):3085–

3085, 1997. 9

[46] John M Hajda. The effect of amplitude and centroid trajectories on the timbre of

percussive and nonpercussive orchestral instruments. In Proc. 16t h International

Congress on Acoustics and 135th Meeting of the Acoustical Society of America, volu-

me 3, pages 1887–1888, 1998. 8


136 Bibliografıa

[47] John M Hajda. The effect of dynamic acoustical features on musical timbre. In

Analysis, synthesis, and perception of musical sounds, pages 250–271. Springer, 2007.

9

[48] Stephen Handel. Perceptual coherence: Hearing and seeing. Oxford University Press

New York, 2006. 4, 5

[49] Stephen Handel and Molly L Erickson. A rule of thumb: The bandwidth for timbre

invariance is one octave. Music Perception, 19(1):121–126, 2001. 56

[50] Trevor Hastie, Robert Tibshirani, Jerome Friedman, T Hastie, J Friedman, and

R Tibshirani. The elements of statistical learning, volume 2. Springer, 2009. 4

[51] Hermann LF Helmholtz. On the Sensations of Tone as a Physiological Basis for the

Theory of Music. Cambridge University Press, 2009. 27

[52] M J Hewitt and R Meddis. A computer model of amplitude-modulation sensitivity

of single units in the inferior colliculus. The Journal of the Acoustical Society of

America, 95(4):2145–2159, 1994. ISSN 00014966. doi: 10.1121/1.408676. 109

[53] Christophe Hourdin, Gerard Charbonneau, and Tarek Moussa. A multidimensio-

nal scaling analysis of musical instruments’ time-varying spectra. Computer Music

Journal, pages 40–55, 1997. 7

[54] AJ Hudspeth. Making an effort to listen: mechanical amplification in the ear. Neuron,

59(4):530–545, 2008. 80

[55] William Hutchinson and Leon Knopoff. The acoustic component of western conso-

nance. Journal of New Music Research, 7(1):1–29, 1978. 27, 28

[56] American National Standards Institute. Acoustical terminology ANSI S1.1-1994.

1994. 2

[57] Toshio Irino and Roy D Patterson. A time-domain, level-dependent auditory filter:

The gammachirp. The Journal of the Acoustical Society of America, 101(1):412–419,

1997. 20

Bibliografıa 137

[58] Paul Iverson and Carol L Krumhansl. Isolating the dynamic attributes of musical

timbrea). The Journal of the Acoustical Society of America, 94(5):2595–2603, 1993.

11

[59] Peter IM Johannesma. The pre-response stimulus ensemble of neurons in the cochlear

nucleus. In Symposium on Hearing Theory, pages 58–69. IPO Eindhoven, Holland,

1972. 121

[60] P X Joris, C E Schreiner, and a Rees. Neural processing of amplitude-modulated

sounds. Physiological reviews, 84(2):541–77, April 2004. ISSN 0031-9333. doi: 10.

1152/physrev.00029.2003. URL http://www.ncbi.nlm.nih.gov/pubmed/15044682.

23, 25, 26

[61] RH Kay. Hearing of modulation in sounds. Physiological Reviews, 62(3):894–975,

1982. 22

[62] Piotr Kazmierczak and Ulrich Muller. Sensing sound: molecules that orchestrate

mechanotransduction by hair cells. Trends in neurosciences, 35(4):220–229, 2012. 74

[63] Douglas H. Keefe and Bernice Laden. Correlation dimension of woodwind multipho-

nic tones. The Journal of the Acoustical Society of America, 90(October):1754–65,

October 1991. ISSN 0001-4966. URL http://link.aip.org/link/?JASMAN/90/

1754/1http://www.ncbi.nlm.nih.gov/pubmed/1960272. 36

[64] David T Kemp. Stimulated acoustic emissions from within the human auditory

system. The Journal of the Acoustical Society of America, 64(5):1386–1391, 1978. 78

[65] Roger A Kendall and Edward C Carterette. Perceptual scaling of simultaneous wind

instrument timbres. Music Perception, pages 369–404, 1991. 11

[66] Roger A Kendall, Edward C Carterette, and John M Hajda. Perceptual and acoustical

features of natural and synthetic orchestral instrument tones. Music Perception, pages

327–363, 1999. 11

[67] Albert Kern. A nonlinear biomorphic Hopf-Amplifier Model of the Cochlea. PhD

thesis, 2003. 81, 84, 89


http://link.aip.org/link/?JASMAN/90/1754/1 http://www.ncbi.nlm.nih.gov/pubmed/1960272

http://link.aip.org/link/?JASMAN/90/1754/1 http://www.ncbi.nlm.nih.gov/pubmed/1960272

138 Bibliografıa

[68] Daniel Kientzy. Les sons multiples aux saxophones. Editions Salabert, 1982. 37

[69] B S Krishna and M N Semple. Auditory temporal processing: responses to sinusoidally

amplitude-modulated tones in the inferior colliculus. Journal of neurophysiology, 84:

255–273, 2000. ISSN 15221598. 109

[70] Emery M Ku, Stephen J Elliott, and Ben Lineton. Limit cycle oscillations in a

nonlinear state space model of the human cochlea. The Journal of the Acoustical

Society of America, 126(2):739–750, August 2009. ISSN 00014966. doi: 10.1121/1.

3158861. URL http://www.ncbi.nlm.nih.gov/pubmed/19640040. 83

[71] S Lakatos. A common perceptual space for harmonic and percussive timbres. Per-

ception & psychophysics, 62(7):1426–39, October 2000. ISSN 0031-5117. URL

http://www.ncbi.nlm.nih.gov/pubmed/11143454. 11

[72] Gerald Langner and Christoph E Schreiner. Periodicity coding in the inferior collicu-

lus of the cat. i. neuronal mechanisms. Journal of Neurophysiology, 60(6):1799–1822,

1988. 23, 109

[73] RF Lyon. Filter cascades as analogs of the cochlea. Neuromorphic systems en-

gineering, (lD):3–19, 1998. URL http://link.springer.com/chapter/10.1007/

978-0-585-28001-1_1. 17

[74] Marcelo O. Magnasco. A Wave Traveling over a Hopf Instability Shapes the Co-

chlear Tuning Curve. Physical Review Letters, 90(5):1–4, February 2003. ISSN 0031-

9007. doi: 10.1103/PhysRevLett.90.058101. URL http://link.aps.org/doi/10.

1103/PhysRevLett.90.058101. 81

[75] F Mammano and R Nobili. Biophysics of the cochlea: linear approximation. The

Journal of the Acoustical Society of America, 93(June 1993):3320–3332, 1993. ISSN

00014966. doi: 10.1121/1.405716. 83, 89

[76] Stephen McAdams. Segregation of concurrent sounds. i: Effects of frequency modu-

lation coherence. The Journal of the Acoustical Society of America, 86(6):2148–2159,

1989. 22



http://link.springer.com/chapter/10.1007/978-0-585-28001-1_1

http://link.springer.com/chapter/10.1007/978-0-585-28001-1_1



Bibliografıa 139

[77] Stephen McAdams. Musical timbre perception. In Diana Deutsch, editor, The psy-

chology of music. Elsevier, 2013. 2, 9, 12

[78] Stephen McAdams, Suzanne Winsberg, Donnadieu Sophie, Geert De Soete, and Jo-

chen Krimphoff. Perceptual scaling of synthesized musical timbres: Common dimen-

sions, specificities, and latent subject classes. Psychological . . . , pages 177–192, 1995.

URL http://link.springer.com/article/10.1007/BF00419633. 7, 11, 12, 14, 120

[79] Stephen McAdams, J W Beauchamp, and S Meneguzzi. Discrimination of musical

instrument sounds resynthesized with simplified spectrotemporal parameters. The

Journal of the Acoustical Society of America, 105(2 Pt 1):882–97, February 1999.

ISSN 0001-4966. URL http://www.ncbi.nlm.nih.gov/pubmed/9972573. 8, 10

[80] Ray Meddis, Lowel P O’Mard, and Enrique A Lopez-Poveda. A computational al-

gorithm for computing nonlinear auditory frequency selectivity. The Journal of the

Acoustical Society of America, 109(6):2852–2861, 2001. 20, 83

[81] James R Miller and Edward C Carterette. Perceptual space for musical structures.

The Journal of the Acoustical Society of America, 58(3):711–720, 1975. 11

[82] Andrzej Miskiewicz, Andrzej Rakowski, and Teresa Rosciszewska. Perceived rough-

ness of two simultaneous pure tones. Acta acustica united with acustica, 92(2):331–

336, 2006. 28, 106, 107

[83] Brian C J Moore and Brian R. Glasberg. Formulae describing frequency selectivity

as a function of frequency and level, and their use in calculating excitation patterns.

Hearing research, 28(2-3):209–25, January 1987. ISSN 0378-5955. URL http://www.

ncbi.nlm.nih.gov/pubmed/3654390. 18, 19, 20

[84] Brian CJ Moore. An introduction to the psychology of hearing. Brill, 2012. 17, 26

[85] Jong-Hoon Nam. Microstructures in the organ of corti help outer hair cells form

traveling waves along the cochlear coil. Biophysical journal, 106(11):2426–2433, 2014.

77

http://link.springer.com/article/10.1007/BF00419633




140 Bibliografıa

[86] Stephen T Neely and D O Kim. A model for active elements in cochlear biomechanics.

The journal of the acoustical society of America, pages 1472–1480, 1986. URL http:

//link.aip.org/link/?JASMAN/79/1472/1. 81, 89

[87] Guangjian Ni, Stephen J Elliott, Mohammad Ayat, and Paul D Teal. Modelling

cochlear mechanics. BioMed research international, 2014:150637, January 2014. ISSN

2314-6141. doi: 10.1155/2014/150637. URL http://www.pubmedcentral.nih.gov/

articlerender.fcgi?artid=4130145&tool=pmcentrez&rendertype=abstract. 84

[88] RD Patterson, Ian Nimmo-Smith, John Holdsworth, and Peter Rice. An efficient

auditory filterbank based on the gammatone function. In a meeting of the IOC

Speech Group on Auditory Modelling at RSRE, volume 2, 1987. 20, 121

[89] Roy D Patterson. Auditory filter shapes derived with noise stimuli. The Journal of

the Acoustical Society of America, 59(3):640–654, 1976. 20

[90] James O Pickles. An introduction to the physiology of hearing. Brill, 2012. 16, 17,

72, 74, 76

[91] Reinier Plomp. Timbre as a multidimensional attribute of complex tones. Frequency

analysis and periodicity detection in hearing, pages 397–414, 1970. 11

[92] Reinier Plomp and Willem JM Levelt. Tonal consonance and critical bandwidth. The

journal of the Acoustical Society of America, 38(4):548–560, 1965. 27, 28, 30

[93] Daniel Pressnitzer. Perception de rugosite psychoacoustique: D’un attribut elemen-

taire de l’audition a l’ecoute musicale. PhD thesis, Paris 6, 1998. 27, 28, 29

[94] Daniel Pressnitzer, Stephen McAdams, Suzanne Winsberg, and Joshua Fineberg.

Perception of musical tension for nontonal orchestral timbres and its relation to psy-

choacoustic roughness. Perception & psychophysics, 62(1):66–80, 2000. 27

[95] Martın Proscia. Acercamiento al saxofon multifonico. una perspectiva de estudio.

Revista del ISM, 1(13):171–194, 2011. 37





Bibliografıa 141

[96] Richard A Reale and Thomas J Imig. Tonotopic organization in auditory cortex of

the cat. Journal of Comparative Neurology, 192(2):265–291, 1980. 109

[97] Pablo E Riera, Martin Proscia, and Manuel C Eguia. A comparative study of saxop-

hone multiphonics: Musical, psychophysical and spectral analysis. Journal of New

Music Research, 43(2):202–213, 2014. 15, 48

[98] Luis Robles and Mario A. Ruggero. Mechanics of the mammalian cochlea. Physio-

logical reviews, 81(3):1305–52, July 2001. ISSN 0031-9333. URL http://www.ncbi.

nlm.nih.gov/pubmed/11427697. 117

[99] Gian Luca Romani, Samuel J Williamson, and Lloyd Kaufman. Tonotopic organiza-

tion of the human auditory cortex. Science, 216(4552):1339–1340, 1982. 76

[100] M. Rudnicki and W. Hemmert. Cochlea: inner ear models in python. 93

[101] Mario A. Ruggero, S S Narayan, a N Temchin, and a Recio. Mechanical bases

of frequency tuning and neural excitation at the base of the cochlea: compari-

son of basilar-membrane vibrations and auditory-nerve-fiber responses in chinchi-

lla. Proceedings of the National Academy of Sciences of the United States of Ame-

rica, 97(22):11744–50, October 2000. ISSN 0027-8424. doi: 10.1073/pnas.97.22.

11744. URL http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=

34344&tool=pmcentrez&rendertype=abstract. 79, 81

[102] Severine Samson, R J Zatorre, and JO Ramsay. Multidimensional scaling of synthetic

musical timbre: Perception of spectral and temporal characteristics. Canadian Jour-

nal of . . . , pages 307–315, 1997. URL http://psycnet.apa.org/journals/cep/51/

4/307/. 11, 12, 13

[103] Pierre Schaeffer. Traite des objets musicaux. 1966. 3, 37

[104] William A Sethares. Local consonance and the relationship between timbre and scale.

The Journal of the Acoustical Society of America, 94(3):1218–1228, 1993. 27, 28, 42,

59, 106, 107, 108, 122





http://psycnet.apa.org/journals/cep/51/4/307/

http://psycnet.apa.org/journals/cep/51/4/307/

142 Bibliografıa

[105] Evan C Smith and Michael S Lewicki. Efficient auditory coding. Nature, 439(7079):

978–982, 2006. 76

[106] Michael Studdert-Kennedy, Alvin M Liberman, Katherine S Harris, and Franklin S

Cooper. Motor theory of speech perception: A reply to lane’s critical review. 1970. 7

[107] Christian J Sumner, Enrique A Lopez-Poveda, Lowel P O’Mard, and Ray Meddis. A

revised model of the inner-hair cell and auditory-nerve complex. The Journal of the

Acoustical Society of America, 111(5):2178–2188, 2002. 84

[108] Qing Tan and Laurel H Carney. A phenomenological model for the responses of

auditory-nerve fibers. II. Nonlinear tuning with a frequency glide. The Journal of

the Acoustical Society of America, 114(4):2007, 2003. ISSN 00014966. doi: 10.1121/

1.1608963. URL http://scitation.aip.org/content/asa/journal/jasa/114/4/

10.1121/1.1608963. 75, 92

[109] Damien Tardieu and Stephen McAdams. Perception of dyads of impulsive and sus-

tained instrument sounds. Music Perception, 30(2):117–128, 2012. 11

[110] Ernst Terhardt. On the perception of periodic sound fluctuations (roughness). Acta

Acustica united with Acustica, 30(4):201–213, 1974. 30, 31

[111] Amos Tversky. Features of similarity. Psychological Review, 84(4):327–352, 1977.

ISSN 1939-1471(Electronic);0033-295X(Print). doi: 10.1037/0033-295X.84.4.327. 3

[112] Kanzuo Ueda. A hierarchical structure for adjectives describing timbre. The Journal

of the Acoustical Society of America, 100(4):2751–2751, 1996. 5

[113] Panteleimon Nestor Vassilakis. Perceptual and physical properties of amplitude fluc-

tuation and their musical significance. PhD thesis, UNIVERSITY OF CALIFORNIA

Los Angeles, 2001. 28

[114] Pantelis N Vassilakis. Auditory roughness as means of musical expression. Selected

Reports in Ethnomusicology, 12:119–144, 2005. 122

http://scitation.aip.org/content/asa/journal/jasa/114/4/10.1121/1.1608963


Bibliografıa 143

[115] Sarah Verhulst, Torsten Dau, and Christopher a Shera. Nonlinear time-domain co-

chlear model for transient stimulation and human otoacoustic emission. The Journal

of the Acoustical Society of America, 132(6):3842–8, December 2012. ISSN 1520-8524.

doi: 10.1121/1.4763989. URL http://www.ncbi.nlm.nih.gov/pubmed/23231114.

83

[116] Erich M von Hornbostel and Curt Sachs. Classification of musical instruments: Trans-

lated from the original german by anthony baines and klaus p. wachsmann. The

Galpin Society Journal, pages 3–29, 1961. 4

[117] Marcus Weiss and Giorgio Netti. The techniques of saxophone playing. Barenreiter,

2010. 37

[118] Bo Wen. MODELING THE NONLINEAR ACTIVE COCHLEA: MATHEMATICS

AND ANALOG VLSI. PhD thesis, 2006. 89, 90

[119] Bo Wen and Kwabena Boahen Kwabena Boahen. A linear cochlear model with active

bi-directional coupling. Proceedings of the 25th Annual International Conference of

the IEEE Engineering in Medicine and Biology Society (IEEE Cat. No.03CH37439),

3:1–5, 2003. ISSN 1094-687X. doi: 10.1109/IEMBS.2003.1280129. 81, 83

[120] David L Wessel. Timbre space as a musical control structure. Computer music

journal, pages 45–52, 1979. 7, 11

[121] LA Westerman and RL Smith. A diffusion model of the transient response of the

cochlear inner hair cell synapse. The Journal of the Acoustical Society of . . . , 83(June

1988):2266–2276, 1988. URL http://scitation.aip.org/content/asa/journal/

jasa/83/6/10.1121/1.396357. 93

[122] Yong-Jin Yoon, Charles R Steele, and Sunil Puria. Feed-forward and feed-backward

amplification model from cochlear cytoarchitecture: an interspecies comparison.

Biophysical journal, 100(1):1–10, 2011. 82, 94

[123] Xin Zhang and Zbigniew W Ras. Analysis of sound features for music timbre re-




144 Bibliografıa

cognition. In Multimedia and Ubiquitous Engineering, 2007. MUE’07. International

Conference on, pages 3–8. IEEE, 2007. 8

[124] Muhammad S A Zilany, Ian C Bruce, Paul C Nelson, and Laurel H Carney. A

phenomenological model of the synapse between the inner hair cell and auditory

nerve: long-term adaptation with power-law dynamics. The Journal of the Acous-

tical Society of America, 126(5):2390–412, November 2009. ISSN 1520-8524. doi:

10.1121/1.3238250. URL http://www.pubmedcentral.nih.gov/articlerender.

fcgi?artid=2787068&tool=pmcentrez&rendertype=abstract. 84, 92, 93, 113

[125] Muhammad SA Zilany, Ian C Bruce, and Laurel H Carney. Updated parameters and

expanded simulation options for a model of the auditory periphery. The Journal of

the Acoustical Society of America, 135(1):283–286, 2014. 84

[126] G Zweig. Finding the impedance of the organ of Corti. The Journal of the Acoustical

Society of America, 89(3):1229–54, March 1991. ISSN 0001-4966. URL http://www.

ncbi.nlm.nih.gov/pubmed/2030212. 81

[127] Eberhard Zwicker and Ernst Terhardt. Analytical expressions for critical-band rate

and critical bandwidth as a function of frequency. The Journal of the Acoustical

Society of America, 68(5):1523–1525, 1980. 28





Agradecimientos

Agradecimientos

El primero de los agradecimientos corresponde a Manuel Eguıa, el director de esta tesis,

ya que me ha alentado a seguir este apasionante camino vinculando la ciencia y la musica.

Al mismo tiempo es responsable de haber fundado el ((LAPSo)), un espacio unico en estas

coordenadas, para la investigacion en temas de musica, acustica y neurociencia.

Recuerdo uno de los primero encuentros hace tiempo en el 2007, cuando Manuel me

invito a hablar sobre un proyecto que relacionaba disonancia musical y fısica cuantica

(Helmholtz vs Schrodinger). Luego, otro gran hito en el 2011, con los llamadores de angeles

gigantes y aquella gran aventura en el puente.

Contar con el LAPSo para trabajar, experimentar y sobre todo participar desde el

comienzo en su formacion, con todo lo que eso implica, fue muy enriquecedor. Gracias

Manuel.

Tambien quiero agradecer a todas las personas detras de las instituciones que tuvieron

relacion con este trabajo. En la Universidad Nacional de Quilmes a los docentes e integrantes

de la Carrera de Musica y Tecnologıa. En la Universidad de Buenos Aires a los docentes

del Departamento de Fısica. Y por supuesto al Estado Argentino, al CONICET y a la

educacion publica.

Un agradecimiento muy especial a las personas que me ayudaron con correcciones sobre

el manuscrito de esta tesis, Hernan Kerllenevich, Alma Laprida, Ignacio Spiousas. Sin la

ayuda de ellos hubiese sido muy difıcil.

Uno de los agradecimientos mas importante es para mi madre Silvia, por todo lo in-

145

146 Agradecimientos

conmensurable que ha hecho siempre para que las cosas funcionen y yo este donde estoy.

Gracias a toda mi familia, mis abuelos y abuelas, tıos y tıas, primos y primas, por toda la

energıa incondicional que me han dado.

Agradecimientos mayusculos a Alma que me ha alimentado y curado durante el proceso

de escritura de esta tesis.

Durante los anos de la tesis tuve el gusto de trabajar en proyectos en conjunto con

diversas personas que han influenciado de una u otra forma en mi trabajo. Gracias a Hernan

Kerllenevich por las interminables horas de felicidad de musica neuronal con pure data y

por su inspiracion musical. Gracias a Martın Proscia por su companerismo academico en

el estudio de la acustica del saxofon y los multifonicos. Gracias a Marcos Trevisan por

sumarme en el trabajo sobre los imitadores de voz, fue una muy buena experiencia. Gracias

a Rafael Grimson por su generosidad y su genial forma de laburar. Gracias a Mercedes y

Marina por sus espıritus e invitarme a participar de tantos proyectos musicales.

No pueden faltar los companeros del laboratorio, las cataratas de humor y metegol.

Gracias por la companıa a Ramiro Vergara, Ignacio Spiousas, Esteban Calcagno, Ezequiel

Abegu, Pablo Etchemendy y Alejo Alberti.

Y gracias a todos los amigos que siempre van a estar.

Download - Estudio de la percepción tímbrica en sonidos con ... · percepcion t´ımbrica donde la principal caracter´ıstica temporal es el tiempo de ataque. ... m´etodos usados en este

Top Related