evaluaciÓn objetiva y subjetiva de parÁmetros de …

117
EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE AUDIO RELACIONADOS CON LA CALIDAD EN PRODUCCIONES MUSICALES FINALIZADAS DANIEL OBREGÓN GAVIRIA JUAN SEBASTIÁN SIERRA GALLÓN UNIVERSIDAD DE SAN BUENAVENTURA MEDELLÍN FACULTAD DE INGENIERÍAS INGENIERÍA DE SONIDO MEDELLÍN 2017

Upload: others

Post on 04-Jul-2022

32 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE AUDIO

RELACIONADOS CON LA CALIDAD EN PRODUCCIONES MUSICALES FINALIZADAS

DANIEL OBREGÓN GAVIRIA

JUAN SEBASTIÁN SIERRA GALLÓN

UNIVERSIDAD DE SAN BUENAVENTURA MEDELLÍN

FACULTAD DE INGENIERÍAS

INGENIERÍA DE SONIDO

MEDELLÍN

2017

Page 2: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE AUDIO

RELACIONADOS CON LA CALIDAD EN PRODUCCIONES MUSICALES FINALIZADAS

DANIEL OBREGÓN GAVIRIA

JUAN SEBASTIÁN SIERRA GALLÓN

Trabajo de grado presentado para optar al título de Ingeniero de Sonido

Asesor: Ricardo Andrés Moreno Viasús, Magíster (MSc) en Diseño y Creación Interactiva.

UNIVERSIDAD DE SAN BUENAVENTURA MEDELLÍN

FACULTAD DE INGENIERÍAS

INGENIERÍA DE SONIDO

MEDELLÍN

2017

Page 3: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

Tabla de contenido

Resumen ......................................................................................................................................... 11

Abstract .......................................................................................................................................... 12

1. Introducción ............................................................................................................................... 13

2. Planteamiento del Problema ....................................................................................................... 14

3. Justificación ................................................................................................................................ 15

4. Objetivos .................................................................................................................................... 16

4.1. Objetivo General ................................................................................................................. 16

4.2. Objetivos Específicos .......................................................................................................... 16

5. Estado del arte ............................................................................................................................ 17

6. Marco Teórico ............................................................................................................................ 19

7. Metodología ............................................................................................................................... 27

7.1. Diseño e implementación de los algoritmos ....................................................................... 27

7.2. Evaluación de los parámetros en producciones musicales finalizadas ............................... 27

7.3. Diseño de pruebas subjetivas .............................................................................................. 27

7.4. Análisis de resultados .......................................................................................................... 27

8. Desarrollo ................................................................................................................................... 29

8.1. Algoritmo IBR ..................................................................................................................... 29

8.1.1. Validación del algoritmo de IBR ................................................................................... 31

8.2. Algoritmo de Cross Correlation ......................................................................................... 37

8.2.1. Validación del algoritmo de Cross Correlation ............................................................ 37

8.3. Algoritmo de Harsh Energy ................................................................................................ 41

8.3.1. Validación del algoritmo de Harsh Energy .................................................................. 42

8.4. Diseño de la prueba subjetiva .............................................................................................. 45

8.4.1. Selección del panel de oyentes ..................................................................................... 45

8.4.2. Método de la prueba ...................................................................................................... 45

8.4.3. Atributos de evaluación ................................................................................................ 47

8.4.5. Programa musical .......................................................................................................... 47

8.4.6. Dispositivos de reproducción ........................................................................................ 49

8.4.7. Condiciones de escucha ................................................................................................ 49

Page 4: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

9. Resultados .................................................................................................................................. 55

9.1. Pruebas objetivas ................................................................................................................. 55

9.1.1. IBR fragmentos originales ............................................................................................. 55

9.1.2. IBR fragmentos modificados ......................................................................................... 59

9.1.3. Cross Correlation fragmentos originales ...................................................................... 67

9.1.4. Cross Correlation fragmentos modificados .................................................................. 70

9.1.5. Harsh energy fragmentos originales ............................................................................. 76

9.1.6. Harsh energy fragmentos modificados ......................................................................... 79

9.2. Pruebas subjetivas ............................................................................................................... 83

9.2.1. Rango dinámico ............................................................................................................ 83

9.2.2. Imagen estéreo .............................................................................................................. 85

9.2.3. Contenido en frecuencia ............................................................................................... 86

10. Análisis de resultados ............................................................................................................... 89

10.1. Pruebas objetivas ............................................................................................................... 89

10.2. Pruebas subjetivas ............................................................................................................. 90

11. Conclusiones ............................................................................................................................ 99

12. Trabajo futuro ......................................................................................................................... 101

Referencias ................................................................................................................................... 102

Anexos .......................................................................................................................................... 104

Page 5: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

Lista de Tablas

Tabla I. Escala de calificación. ....................................................................................................... 46

Tabla II. Presentación de los audios. .............................................................................................. 46

Tabla III. Producciones musicales finalizadas elegidas. ................................................................ 48

Tabla IV. T60 por banda de octava del control room del estudio B. ............................................ 52

Tabla V. Especificaciones técnicas del altavoz. ............................................................................. 53

Tabla VI. Producción 1-Rango dinámico ....................................................................................... 83

Tabla VII. Producción 2-Rango dinámico. .................................................................................... 83

Tabla VIII. Producción 3-Rango dinámico. ................................................................................... 84

Tabla IX. Producción 4-Rango dinámico. ...................................................................................... 84

Tabla X. Producción 5-Rango dinámico. ....................................................................................... 84

Tabla XI. Producción 1-Imagen estéreo. ........................................................................................ 85

Tabla XII. Producción 2-Imagen estéreo. ...................................................................................... 85

Tabla XIII. Producción 3-Imagen estéreo. ..................................................................................... 85

Tabla XIV. Producción 4-Imagen estéreo. ..................................................................................... 86

Tabla XV. Producción 5-Imagen estéreo. ...................................................................................... 86

Tabla XVI. Producción 1-Contenido en frecuencia. ...................................................................... 86

Tabla XVII. Producción 2-Contenido en frecuencia. ..................................................................... 87

Tabla XVIII. Producción 3-Contenido en frecuencia. .................................................................. 87

Tabla XIX. Producción 4-Contenido en frecuencia. ...................................................................... 87

Tabla XX. Producción 5-Contenido en frecuencia. ....................................................................... 88

Tabla XXI. IBR valores globales. .................................................................................................. 89

Tabla XXII. Cross Correlation valores globales. .......................................................................... 89

Tabla XXIII. Harsh energy valores globales. ................................................................................ 90

Tabla XXIV. Valores de significancia para la homogeneidad de la varianza. ............................... 91

Tabla XXV. Resultados de la prueba de Kruskal Wallis para la prueba subjetiva de rango dinámico.

........................................................................................................................................................ 94

Tabla XXVI. Resultados de la prueba de Kruskal Wallis para la prueba subjetiva de imagen estéreo.

........................................................................................................................................................ 96

Page 6: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

Tabla XXVII. Resultados de la prueba de Kruskal Wallis para la prueba subjetiva de contenido en

frecuencia. ...................................................................................................................................... 98

Page 7: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

Lista de Figuras

Fig. 1. Respuesta en frecuencia de los filtros para el IBR. ............................................................ 23

Fig. 2. Grafica tono puro de 50 Hz después de la aplicación del filtrado. ..................................... 31

Fig. 3. Factor de cresta para tono puro de 50 Hz. .......................................................................... 32

Fig. 4. IBR para un tono puro de 50 Hz. ........................................................................................ 33

Fig. 5. Tono puro de 1500 Hz después de la aplicación del filtrado. ............................................. 33

Fig. 6. Factor de cresta para tono puro de 1500 Hz. ...................................................................... 34

Fig. 7. IBR para un tono puro de 1500 Hz. .................................................................................... 35

Fig. 8. Tono puro de 5000 Hz después de la aplicación. ................................................................ 35

Fig. 9. Factor de cresta para tono puro de 5000 Hz. ...................................................................... 36

Fig. 10. IBR para un tono puro de 5000 Hz. .................................................................................. 36

Fig. 11. Dos tonos puros exactamente iguales. .............................................................................. 38

Fig. 12. Cross Correlation para los dos tonos puros iguales. ........................................................ 38

Fig. 13. Dos tonos puros con la misma frecuencia y misma amplitud pero con desfase de 180º. . 39

Fig. 14. Cross Correlation para los dos tonos puros inversos. ...................................................... 40

Fig. 15. Dos tonos puros con la misma frecuencia y amplitud pero con desfase de 90°. .............. 40

Fig. 16. Cross Correlation para los dos tonos puros con un desfase de 90°. ................................. 41

Fig. 17. Señal después del filtrado. ................................................................................................ 42

Fig. 18. Harsh Energy tono puro de 50 Hz. ................................................................................... 43

Fig. 19. Tono puro de 3000 Hz después del filtrado. ..................................................................... 44

Fig. 20. Harsh Energy tono puro de 3,000 Hz ............................................................................... 44

Fig. 21. Vista en planta del control room del estudio B (cotas en metros). ................................... 51

Fig. 22. Posicionamiento de los altavoces y el punto de escucha. ................................................. 54

Fig. 23. IBR en el tiempo de la producción 1 sin modificaciones. ................................................ 55

Fig. 24. IBR en el tiempo de la producción 2 sin modificaciones. ................................................ 56

Fig. 25. IBR en el tiempo de la producción 3 sin modificaciones. ................................................ 56

Fig. 26. IBR en el tiempo de la producción 4 sin modificaciones. ................................................ 57

Fig. 27. IBR en el tiempo de la producción 5 sin modificaciones. ................................................ 57

Fig. 28. Factor de cresta por bandas producciones sin modificaciones. ........................................ 58

Fig. 29. Valores de IBR para la producción 1 con modificaciones. ............................................... 59

Fig. 30. Factor de cresta por bandas para la producción 1. ............................................................ 60

Page 8: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

Fig. 31. Valores de IBR para la producción 2 con modificaciones. ............................................... 61

Fig. 32. Factor de cresta por bandas para la producción 2. .......................................................... 61

Fig. 33. Valores de IBR para la producción 3 con modificaciones. ............................................... 62

Fig. 34. Factor de cresta por bandas para la producción 3. ............................................................ 62

Fig. 35. Valores de IBR para la producción 4 con modificaciones. ............................................... 63

Fig. 36. Factor de cresta por bandas para la producción 4. ............................................................ 64

Fig. 37. Valores de IBR para la producción 5 con modificaciones. ............................................... 65

Fig. 38. Factor de cresta por banda para la producción 5. .............................................................. 65

Fig. 39. IBR global para las cinco producciones con modificaciones. .......................................... 66

Fig. 40. Cross Correlation en el tiempo para la producción 1. ...................................................... 67

Fig. 41. Cross Correlation en el tiempo para la producción 2. ...................................................... 68

Fig. 42. Cross Correlation en el tiempo para la producción 3. ...................................................... 68

Fig. 43. Cross Correlation en el tiempo para la producción 4. ...................................................... 69

Fig. 44. Cross Correlation en el tiempo para la producción 5. ...................................................... 69

Fig. 45. Valores globales Cross Correlation.................................................................................. 70

Fig. 46. Valores de Cross Correlation para la producción 1. ........................................................ 71

Fig. 47. Valores de Cross Correlation para la producción 2. ........................................................ 72

Fig. 48. Valores de Cross Correlation para la producción 3. ........................................................ 73

Fig. 49. Valores de Cross Correlation para la producción 4. ........................................................ 74

Fig. 50. Valores de Cross Correlation para la producción 5. ........................................................ 75

Fig. 51. Valores globales Cross Correlation.................................................................................. 76

Fig. 52. Harsh energy en el tiempo para la producción 1. ............................................................. 77

Fig. 53. Harsh energy en el tiempo para la producción 2. ............................................................. 77

Fig. 54. Harsh energy en el tiempo para la producción 3. ............................................................. 78

Fig. 55. Harsh energy en el tiempo para la producción 4. ............................................................. 78

Fig. 56. Harsh energy en el tiempo para la producción 5. ............................................................. 79

Fig. 57. Valores de harsh energy para la producción 1. ................................................................. 80

Fig. 58. Valores de harsh energy para la producción 2. ................................................................. 80

Fig. 59. Valores de harsh energy para la producción 3. ................................................................. 81

Fig. 60. Valores de harsh energy para la producción 4. ................................................................. 81

Fig. 61. Valores de harsh energy para la producción 5. ................................................................. 82

Page 9: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

Fig. 62. Harsh energy valores globales. ......................................................................................... 82

Fig. 63. Gráfico de cajas y bigotes para la prueba subjetiva de rango dinámico ........................... 93

Fig. 64. Gráfico de cajas y bigotes para la prueba subjetiva de imagen estéreo. ........................... 95

Fig. 65. Gráfico de cajas y bigotes para la prueba subjetiva de contenido en frecuencia. ............. 97

Page 10: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

11

Resumen

El presente trabajo de grado, tiene como propósito evaluar de manera objetiva y subjetiva,

parámetros de audio en producciones musicales finalizadas, que puedan ser útiles para determinar

su relación con la calidad, desde atributos como el rango dinámico, la imagen estéreo y el contenido

en frecuencia. Para esto se implementaron algoritmos en el software MATLAB y se midieron 3

parámetros específicos: Inter-band Relationship, Cross Correlation y Harsh Energy. Además, se

diseñaron pruebas de escucha con el fin de poder evaluar los parámetros previamente mencionados

de manera subjetiva, y establecer la relación existente entre los valores obtenidos objetivamente y

la percepción de la calidad enmarcada en estos mismos parámetros.

Palabras clave: Rango dinámico, Factor de cresta, Cross Correlation, Inter-band relationship,

Imagen estéreo, Harsh energy.

Page 11: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

12

Abstract

The main purpose of the following work is to evaluate in an objective and subjective manner, audio

parameters in finalized musical productions, which can be useful to determine their relationship

with the perceived audio quality, taking into account audio attributes such as dynamic range, stereo

image, and frequency content. To achieve this, algorithms were coded in the software MATLAB,

to evaluate the following three specific parameters: IBR (Inter-Band Relationship), cross

correlation, and harsh energy.

Hearing tests were also designed in order to evaluate the same parameters in a subjective manner,

to establish if there is an existing relationship between these parameters and the perception of audio

quality.

Keywords: Dynamic range, Crest factor, Cross correlation, Inter-band relationship, Stereo width,

Harsh energy.

Page 12: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

13

1. Introducción

Actualmente no existe una herramienta o un método para evaluar de manera objetiva, parámetros

de una producción musical finalizada; sin embargo, existen distintos métodos desarrollados para la

medición de parámetros útiles a la hora de juzgar estas producciones, que permiten extraer

información y características relacionadas con la calidad de estas, desde atributos determinantes

como el rango dinámico, la impresión o imagen estéreo y el contenido en frecuencia, los cuales se

ven ampliamente afectados a lo largo de la cadena productiva.

Por lo tanto, se diseñaran e implementaran algoritmos de medición en el software MATLAB, para

cada uno de los atributos previamente mencionados, y así, posteriormente aplicar pruebas de

escucha enfocadas a la percepción de la calidad de estos mismos, de manera que se pueda concluir

la relación existente entre los parámetros objetivos y la apreciación subjetiva de estos, sobre

producciones musicales finalizadas.

Page 13: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

14

2. Planteamiento del Problema

La industria musical no ha sido ajena a los cambios generados por los grandes desarrollos

tecnológicos en los últimos años. Estos cambios han revolucionado la industria musical más que

nunca, e implican una modificación de la cadena productiva [1], que deriva en el detrimento de las

condiciones de la producción (equipamiento de menor gama, ambientes menos controlados,

personal menos calificado, etc.), lo cual puede llevar a los miembros de la industria a preguntarse

acerca de la percepción que el cliente pueda tener de la calidad de las producciones musicales,

provenientes de un entorno como el que fue descrito.

Ahora bien, dado que no se puede saber con exactitud cuál es la opinión que una persona puede

tener acerca de la calidad de una producción musical, a saber: mientras alguien puede considerar

que una producción es de calidad en términos de su contenido en frecuencia, otra persona

evaluando la misma producción podría expresar su opinión basada en el balance de la misma.

Luego es pertinente preguntarse sobre qué características pueden ser evaluadas desde lo objetivo y

lo subjetivo, que puedan ser útiles para obtener información relacionada con la percepción de la

calidad de una producción musical finalizada.

Actualmente no existe una herramienta que permita evaluar los parámetros de una producción

musical finalizada de manera objetiva, y que aporte a su vez, elementos de juicio para decidir si se

deben o no realizar ajustes, para lograr llegar a una producción musical finalizada y optimizada,

basados en los parámetros objetivos previamente evaluados. Por este motivo surge la siguiente

pregunta de investigación:

¿Cómo evaluar características de producciones musicales finalizadas que puedan ser útiles para

determinar su relación con la calidad, desde atributos como el rango dinámico, la impresión o

imagen estéreo y el contenido en frecuencia?

Page 14: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

15

3. Justificación

Mediante el desarrollo de este trabajo, se pretenden investigar los distintos métodos que hasta el

momento se han desarrollado, para la medición de parámetros que puedan ser útiles a la hora de

juzgar una producción musical finalizada; con el fin de extraer información y características útiles

relacionadas con la calidad de estas, desde atributos determinantes como el rango dinámico, la

impresión o imagen estéreo y el contenido en frecuencia.

La evaluación de este tipo de parámetros, puede ser de gran ayuda para los profesionales en el

campo del audio, al permitirles tener descriptores de los diferentes atributos ya mencionados, los

cuales pueden ser determinantes en la calidad de las producciones musicales finalizadas.

Además de esto, los aspectos a evaluarse pueden ser de gran utilidad en otras aplicaciones como

descriptores de audio. Por ejemplo, la evaluación de rango dinámico puede ser un descriptor de

audio útil en bases de datos musicales para la clasificación de canciones por género [2]. De la

misma manera, los aspectos evaluados en espacialidad son descriptores de audios muy útiles y

esenciales, para la creación de procesos automatizados o algoritmos para upmix (proceso mediante

el cual se convierte una señal mono o dos señales estéreo a tres o más canales). Los sistemas de

upmix son de vital importancia en la actualidad, pues permiten cambiar el formato estéreo de

películas antiguas, a los nuevos formatos estándar de manera automática (como el formato 5.1) [3].

Page 15: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

16

4. Objetivos

4.1. Objetivo General

Evaluar parámetros de audio en producciones musicales finalizadas, que puedan ser útiles para

determinar su relación con la calidad, desde atributos como el rango dinámico, la imagen estéreo

y el contenido en frecuencia.

4.2. Objetivos Específicos

Implementar los algoritmos que permitan evaluar los parámetros: IBR (Inter-Band

Relationship), Cross Correlation y Harsh Energy.

Evaluar los parámetros IBR, Cross Correlation y Harsh Energy, sobre 5 producciones

musicales finalizadas contemporáneas del género pop.

Diseñar una prueba subjetiva para la evaluación de atributos como el rango dinámico, la

imagen estéreo y el contenido en frecuencia en las mismas 5 producciones musicales

finalizadas.

Analizar los resultados obtenidos en la evaluación objetiva y su relación con los obtenidos

en las pruebas subjetivas.

Page 16: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

17

5. Estado del arte

Desde las primeras grabaciones realizadas en la historia, los ingenieros siempre han trabajado para

optimizar los procesos de grabación y reproducción de audio [4], lo que ha llevado a los distintos

profesionales del medio musical a estar resolviendo problemas de optimización en la música

durante algunos años.

Así como los directores de las orquestas controlan el balance sonoro entre los músicos, el ingeniero

de mezcla tiene un trabajo similar desarrollado a través medios electrónicos [5]. Cuando un

ingeniero de mezcla está balanceando los diferentes componentes sonoros o instrumentos de una

producción musical, finalmente está resolviendo un problema de optimización [5].

Actualmente, no existe una herramienta o un método que describa cómo realizar mediciones

objetivas sobre diferentes parámetros de una producción musical finalizada, las pruebas de escucha

son consideradas el tipo de prueba más eficiente para la evaluación de la calidad de una señal de

este tipo [4]. La recomendación ITU-R BS.1284-1 [6] describe los métodos generales para la

evaluación subjetiva de la calidad de audio, y plantea detalladamente el procedimiento a seguir

para la realización de la misma. Esto incluye el diseño experimental, la selección del panel de

sujetos a realizar la prueba, el método de la evaluación, el material a usarse para la prueba, los

dispositivos de reproducción, las condiciones de la sala de escucha, el tratamiento estadístico de la

información obtenida y la presentación de los resultados de la prueba. En el apéndice 1 de la

recomendación, se encuentra una tabla detallada con los atributos principales, sub atributos, y los

términos comúnmente usados como descriptores de cada atributo para la evaluación de la calidad

sonora en detalle. Entre los atributos principales la recomendación define parámetros como la

espacialidad, la transparencia, el balance sonoro y el timbre, y los subcategoriza en parámetros más

específicos como por ejemplo el rango dinámico, y el balance del volumen para el atributo del

balance sonoro [6].

Aunque las pruebas subjetivas son consideradas el tipo de prueba más eficiente para evaluar la

calidad de una producción musical, el procesamiento digital de señales ha permitido el desarrollo

de los descriptores de audio, los cuales han dado la posibilidad a autores como Fazenda [7], a

trabajar en la evaluación de la calidad a partir de la extracción de información de los parámetros

objetivos de una señal compleja. Los descriptores de audio son muy útiles en una gran variedad de

Page 17: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

18

aplicaciones. En trabajos realizados por autores como Osmanovic [8] se logra una clasificación

automática de género musical usando una combinación de descriptores de audio, los cuales

analizan las ocurrencias de ciertos eventos como el golpe de un bombo, el de un redoblante o el

sonido de una guitarra [8]. En otros trabajos se han usado descriptores de audio relacionados con

la espacialidad como parte esencial de un proceso automatizado de upmixing, donde un track

monofónico se convierte a un formato multicanal. Los procesos de upmixing son procesos que

consumen mucho tiempo para un ingeniero de sonido de no hacerse de manera automática, y son

de vital importancia para adaptar películas realizadas en formatos monofónicos a los formatos

multicanal actualmente usados [3].

Fenton y Fazenda, han trabajado en la evaluación de descriptores de audio aislados como el IBR

(Inter Band Relationship), el cual indica la variación del rango dinámico en una producción

musical, y han llegado a la conclusión de que aunque este parámetro está altamente relacionado

con la percepción de calidad, por sí solo no es un buen indicador de la misma [4].

En estudios y pruebas más recientes realizadas por los autores Wilson y Fazenda, no solo se tiene

en cuenta un parámetro si no que se hace extensión a varios parámetros como el factor de cresta,

la espacialidad, el contenido en frecuencia y el tempo [7]. De acuerdo con los resultados obtenidos

por Wilson y Fazenda la relación entre el factor de cresta, como una medición de rango dinámico,

y la percepción de calidad es que los oyentes pueden identificar la reducción en rango dinámico

como un determinante para una percepción de calidad reducida [7]. Lo anterior indica que contrario

a la tendencia, los oyentes prefieren un amplio rango dinámico en las producciones musicales a

uno muy comprimido [4]. En cuanto al contenido en frecuencia, en las pruebas realizadas por

Wilson y Fazenda, se puede evidenciar una correlación entre la percepción de calidad y la amplitud

del contenido en frecuencia de la producción musical, tanto en frecuencias bajas, como en

frecuencias altas [7]. En conclusión en este estudio se evidencia la correlación existente entre los

parámetros objetivos de una producción musical finalizada y la percepción de calidad que puede

llegar a tener el oyente.

Page 18: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

19

6. Marco Teórico

Es importante empezar una contextualización teórica desde la base sobre la cual se va a

fundamentar la investigación y el desarrollo de la idea planteada, y esta base se encuentra en el

procesamiento digital de señales (DSP por sus siglas en inglés). Hoy en día, al hablar de DSP nos

tendríamos que remitir a prácticamente todos los ámbitos de la electrónica [9]. En el caso de la

producción de audio (musical, para televisión, radio, etc.), actualmente el procesamiento digital de

señales está involucrado en toda la cadena productiva, empezando por la grabación pasando por la

conversión análogo-digital hasta llegar al almacenamiento y distribución [10].

Sin embargo, para el caso particular de este proyecto de investigación, es pertinente el uso de DSP

por su gran utilidad en la medición y análisis de las señales [10]. Esta importancia radica en el

hecho de que permite la interpretación de información recolectada de una señal de distintas

maneras, por ejemplo: por instante de tiempo, a través de pruebas estadísticas del comportamiento

de la señal o por transformaciones espectrales [10], entre otras.

Considerando que se empezó esta aproximación teórica hablando del DSP, es importante conocer

lo más elemental de esta disciplina, en este caso es su objeto de estudio: las señales. De acuerdo

con John G. Proakis y Dimitris G. Manolakis [11], se puede hablar de una señal como cualquier

cantidad física que varía en el tiempo, espacio o cualquier otra variable independiente, por lo tanto

pueden ser expresadas como una función de una o más variables independientes. Si consideramos

una producción musical finalizada, esta es susceptible a ser descrita por una ecuación, que en este

caso obedecería a una suma de ondas sinusoidales. Ahora bien, esta misma señal podría ser

enmarcada en una de dos grandes categorías según su dependencia del tiempo, podría catalogarse

como señal continua (análoga) o discreta (digital). En el caso de que fuera una señal continua o

análoga significaría que es representada por una ecuación que varía en un intervalo continuo de

tiempo que puede ir desde −∞ hasta ∞. Si fuese una señal discreta o digital, el intervalo sobre el

cual varía son valores específicos de tiempo, los cuales usualmente son equidistantes [11].

Las señales discretas, pueden generarse mediante la selección de ciertos valores de una señal

análoga a través de un proceso llamado sampling. Este proceso es de interés dado que la gran

mayoría de señales son análogas, sin embargo su procesamiento y análisis se facilita a través de

Page 19: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

20

medios digitales [9], por lo cual la conversión análogo a digital y su proceso inverso son muy

comunes hoy en día.

Si consideramos una producción musical finalizada como una forma de onda compleja, esta es

susceptible a ser descrita por una ecuación [12], y a su vez, mediante una función matemática

llamada transformada se puede obtener otra función que entrega información acerca de algo que

está relacionado con la primera ecuación mencionada [12]. Ahora bien, transformadas como la de

Fourier permiten pasar de una forma de onda que representa los cambios de presión en el aire, a

una función que entrega información acerca del contenido en frecuencia de la misma forma de

onda, luego esta transformada muestra la distribución de la amplitud y la fase de distintas ondas

que forman una onda compleja (como una producción musical finalizada) discriminada por

frecuencia [12].

De lo anterior se deduce que a través del DSP, es posible llegar a conocer distintos parámetros que

describen objetivamente una señal y en este caso una producción musical finalizada, de tal manera

que se logre discriminar ciertos atributos que definan esta señal y que otorguen información acerca

de la calidad de la misma, lo anterior considerando que estos parámetros, muestran de qué manera

y con qué grado de fidelidad se muestra al oyente la información que se le quiere comunicar

mediante esta producción musical [13]. De acuerdo con la recomendación ITU-R BS.1284-1 [6]

existen atributos y sub-atributos que se deben tener en cuenta para la evaluación de la calidad

sonora en detalle, esto debido a que no es posible asumir la calidad como un elemento aislado que

dentro de su singularidad puede analizarse como un todo, cuando de producciones musicales se

habla, pues existen tantos adjetivos como la imaginación del hombre puede proporcionar para

expresar una opinión acerca de la calidad de una producción musical. De ahí que la recomendación

ITU-R BS.1284-1 [6] proponga esta serie de atributos y sub-atributos que a su vez relaciona con

adjetivos o términos comúnmente usados para referirse a ellos.

Entre estos atributos se encuentran aspectos como la imagen o impresión estéreo, el balance sonoro,

y el timbre. A continuación se describirán los atributos que se tendrán en cuenta durante la

realización de este proyecto de investigación.

Anteriormente se mencionó que este proyecto, pretende evaluar los atributos que se están

describiendo en este apartado. La importancia de esta evaluación, radica en la esencia de aquello

Page 20: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

21

que será objeto de estudio, que en este caso es una señal, la cual, más exactamente es una

producción musical finalizada. Se dice que la importancia radica en el objeto de estudio debido a

que una señal en esencia “transporta energía, y finalmente información” [14], y si bien la energía

no es lo mismo que la información, sin energía no se puede transmitir la información [14], luego,

se entiende que el análisis del comportamiento de la energía y su distribución dentro de una señal,

es necesario para tener una aproximación a la forma en la cual el oyente final va a recibir la

información que se le entrega. Pues bien, el comportamiento de la energía en una señal puede

estudiarse de distintas formas, teniendo en cuenta ciertos aspectos que pueden variar a través del

tiempo, por ejemplo, atributos como el balance sonoro el cual está relacionado con sub atributos

como el volumen o sonoridad (loudness) y el rango dinámico [6].

Para tener una aproximación al balance sonoro, inicialmente podría ser útil determinar el valor pico

o máximo que toma la señal, que aunque suene básico, tomó gran importancia con el auge del audio

digital [15]. En este campo (y con mayor grado en el área específica de la grabación) es

determinante el uso de herramientas que permitan conocer el valor pico de una señal, debido a que

dentro de los sistemas usados para procesar el audio digital, existe un límite que va más allá del

trabajo lineal de unos componentes electrónicos, pues a diferencia de los equipos análogos, los

sistemas digitales convierten las señales análogas usando una escala que inevitablemente llega

hasta el cero, lo cual indica que más allá de este límite, este tipo de sistemas son incapaces de

asimilar información que exceda el llamado “cero digital” [16], generando distorsión digital o

“clipping”, que se caracteriza por las mismas cualidades en todos los casos, como la generación de

una onda cuadrada, la cual es una forma severa de distorsión, que cuando alcanza a ser audible

produce un sonido molesto debido al recorte abrupto de la señal procesada [17]. Los sistemas

análogos, por el contrario, al encontrar una señal que supera su límite de operación evidentemente

generan cierta distorsión, pero en este caso el sonido cae gradualmente mientras la distorsión

aumenta y se genera, en algunos casos, un sonido agradable y que imprime un carácter

determinante que depende de los componentes del equipo que esté afectando la señal [16].

Otra forma de estudiar el comportamiento de la energía de una señal bajo el atributo del balance

sonoro, es recurriendo al valor RMS (root mean square o valor cuadrático medio). Si se considera

una señal de corriente alterna, el valor RMS es “la raíz cuadrada de la integral del cuadrado de la

Page 21: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

22

señal en un periodo de tiempo, medido sobre la misma longitud de tiempo” [18]. En esencia este

valor está basado en la energía contenida en la señal que se está midiendo [19].

𝑽𝑹𝑴𝑺 = 𝒍𝒊𝒎𝑻→∞

√𝟏

𝑻 ∫ 𝑽𝒊𝒏

𝟐 (𝒕) ∙ 𝒅𝒕𝑻

−∞ (1)

Donde para la ecuación 1 𝑉𝑖𝑛es la señal de entrada, y 𝑇 es el tiempo en el que se realiza la medición.

A la hora de estudiar una señal compleja (una producción musical finalizada), que en última

instancia será analizada por el oído humano, este valor se vuelve necesario considerando que la

percepción de este no se basa en valores instantáneos como los del valor pico, sino que se ajusta

más al promedio de la energía sobre el tiempo [20]. Es común que para facilitar los cálculos del

valor RMS, se recurra a la desviación estándar, que en términos generales es la raíz cuadrada del

promedio de los cuadrados de los valores que toma la señal en un periodo de tiempo [21].

𝑺𝒓𝒎𝒔 = √(𝟏

𝒏−𝟏∑ (𝑿𝒊 − �̅�)𝟐𝒏

𝒊=𝟏 ) (2)

En la ecuación 2, 𝑆𝑟𝑚𝑠 es el valor RMS de la señal o la desviación estándar de la misma, y �̅� se

muestra en la ecuación 3:

�̅� =𝟏

𝑵∑ 𝑿𝒊

𝒏𝒊=𝟏 (3)

Ahora bien, el factor de cresta que se muestra en la ecuación 4, es una forma de relacionar las dos

aproximaciones que se han mencionado (el valor pico con el RMS) [19].

𝑭𝒂𝒄𝒕𝒐𝒓 𝒅𝒆 𝒄𝒓𝒆𝒔𝒕𝒂 =𝑽𝒂𝒍𝒐𝒓 𝒑𝒊𝒄𝒐

𝑺𝒓𝒎𝒔 (4)

El rango dinámico, se puede definir como la relación entre la amplitud de la señal y la amplitud de

las variaciones aleatorias dentro de ella [4], esta característica es una de las más ignoradas o no

comprendidas, principalmente por el hecho de que todos los ejemplos de ondas usados en los libros,

son ideales y no contienen ruido o variaciones aleatorias, que como bien se sabe, están presentes

en todas las ondas reales [12]. En una pieza musical, el rango dinámico está determinado por las

fluctuaciones de nivel que se presentan cuando este se eleva hasta alcanzar un fortissimo (una

interpretación con un nivel muy fuerte) y desciende a un pianissimo (una interpretación con un

Page 22: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

23

nivel muy suave) [13], o extremos intermedios que se puedan presentar. Lo más importante en este

punto es pensar en el rango dinámico como algo que debería ser exclusivamente dependiente de la

interpretación musical, por lo cual tiende a variar conforme se cambia de género o incluso de

intérprete. Sin embargo, el rango dinámico se suele ver comprometido por la intervención de un

ingeniero de mezcla o de mastering al final de la cadena de producción, debido a que años atrás se

ha venido incrementado la tendencia de aplicar procesos dinámicos de compresión o limitación en

mayor medida con el objetivo de aumentar el loudness [22]. Ahora bien, la medición de este

atributo (el rango dinámico) se ha limitado a la cuantificación del factor de cresta [4] como se

puede ver en la ecuación 5:

𝑫𝑹 = 𝟐𝟎𝒍𝒐𝒈𝑽𝒂𝒍𝒐𝒓 𝒑𝒊𝒄𝒐

𝑺𝒓𝒎𝒔 (5)

El Inter Band Relationship (IBR) [4] es un indicador que representa la correlación del rango

dinámico existente entre tres bandas de frecuencia determinadas. Lo anterior debido a que el oído

responde de formas distintas a través del rango de frecuencias del mismo, por lo cual se usan 3

grupos de 8 bandas críticas del sistema auditivo [4].

Fig. 1. Respuesta en frecuencia de los filtros para el IBR.

Page 23: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

24

Por lo tanto para obtener este parámetro, inicialmente se hace un filtrado de la señal teniendo en

cuenta las frecuencias de corte F1 y F2 dadas en la Fig. 1, lo que indica que son necesarios 3 filtros;

un pasa bajos con frecuencia de corte F1, que en este caso es 947 Hz, un pasa banda con frecuencia

de corte inferior F1 y superior F2, que son 947 Hz y 3186 Hz respectivamente, y un pasa altos con

frecuencia de corte F2, que nuevamente es 3186 Hz. Estas frecuencias de corte son una

aproximación al primer, segundo y tercer grupo de 8 bandas críticas que hacen parte del sistema

auditivo [4]. Posteriormente, se hace el análisis del rango dinámico utilizando las ecuaciones 2 y

5. Finalmente la relación del rango dinámico entre las 3 bandas (IBR) está dada por la desviación

estándar entre el rango dinámico cuantificado en cada una de las bandas [4] según se puede apreciar

en la ecuación 6:

𝑰𝑩𝑹 = √(𝟏

𝒏−𝟏∑ (𝑫𝑹𝒊 − 𝑫𝑹̅̅̅̅̅)𝟐𝒏

𝒊=𝟏 ) (6)

Un valor bajo de IBR representa poca variación del rango dinámico entre bandas, mientras que un

valor alto representa mayor variación del rango dinámico entre las bandas mencionadas.

Además del balance sonoro, la recomendación ITU-R BS.1284-1 [6] propone atributos

relacionados con la imagen o impresión estéreo. Para poder entender la imagen o impresión estéreo,

es necesario referirse a el significado que proporciona Woszczyk quien la define como “un modelo

mental del mundo externo el cual es construido por el oyente a partir de información audible” [23].

Los oyentes pueden localizar imágenes sonoras que son producto de la combinación de señales de

audio siendo reproducidas por arreglos de un par de altavoces, y la impresión audible de la

ubicación de estos sonidos entre los dos altavoces se conoce como la imagen estéreo [13]. Para la

comprensión de la imagen estéreo, se puede acudir a un parámetro más específico que puede

entregar información sobre este primer atributo y es el width o ancho, el cual puede ser medido

mediante la evaluación del Cross Correlation. Este último parámetro, cuando se trabaja con señales

estéreo, es una medida de la similitud entre las señales izquierda y derecha [24]. Aunque se tienen

dos señales separadas, una para cada canal, estas no siempre son completamente independientes,

en cambio tienden a ser similares. En caso de que las señales sean completamente iguales, lo que

se tiene no es una señal estéreo, si no la misma señal monofónica siendo reproducida por dos

Page 24: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

25

canales separados. Ahora bien, para poder evaluar el ancho aparente de la señal estéreo, es

necesario saber qué tan diferente es la señal del canal izquierdo con respecto a la del canal derecho.

Suponiendo que se tienen dos secuencias de señales reales x(n) y y(n) con energía finita. La Cross

Correlation será la secuencia definida por la ecuación 7:

𝒓𝒙𝒚(𝒍) = ∑ 𝒙(𝒏 + 𝟏)𝒚(𝒏)∞𝒏=−∞ 𝒍 = 𝟎. ±𝟏. ±𝟐. … (7)

Donde el índice 𝑙 representa los movimientos en el tiempo o (lags) de una señal con respecto a la

otra. Para calcular la correlación se multiplican punto a punto las secuencias de ambas señales y se

suman dando como resultante la secuencia de correlación [11].

La Cross Correlation [24]es una medida que permite cuantificar la diferencia entre las dos señales,

y funciona de la siguiente manera: Si las dos señales son completamente iguales, la Cross

Correlation entre ellas será igual a 1.

Si una señal es la negativa de la otra, esta será igual a -1, y si las dos señales son completamente

diferentes la Cross Correlation entre ellas será igual a 0. La Cross Correlation se puede calcular

multiplicando las dos señales [24], promediando este producto en el tiempo y finalmente

normalizándolo para que los resultados siempre se encuentren entre los valores de -1 y 1.

Las características de timbre o textura, están relacionadas con la distribución espectral y el balance

relativo al contenido en frecuencia, considerando el rango que existe entre la frecuencia más baja

y la más alta. Es posible ser más específico en el análisis sobre el contenido en frecuencia, pasando

de ver un panorama global con el balance espectral, a detenerse sobre realces o caídas sobre

regiones particulares del espectro [13]. La información relativa a la frecuencia puede ser calculada

mediante transformadas de Fourier, entre otras herramientas de las cuales se aprovecha el DSP para

extraer información espectral. Wilson y Fazenda [7] hablan de características más específicas de

las señales como el rolloff o el parámetro de Harsh Energy que evalúan la distribución espectral en

el tiempo. El rolloff hace referencia a la contribución de las frecuencias altas sobre todo el ancho

de banda de la señal que se analiza; más específicamente, evalúa el rango de frecuencias que está

por debajo del 85% de la energía espectral [7]. El parámetro de Harsh Energy se refiere a la fracción

de la energía espectral que se ubica entre 2kHz y 5kHz [7]. Para calcular el parámetro de Harsh

Page 25: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

26

Energy es necesario hallar la cantidad de energía total de la señal y la cantidad de energía que se

encuentra en la banda de 2kHz a 5khz, para poder hallar la relación existente entre ambas. Este

valor siempre se va a ubicar entre 0 y 1. El cálculo del parámetro de Harsh Energy es de gran

utilidad, ya que como bien se sabe la respuesta del sistema auditivo no es lineal, y es un poco más

sensible en este rango de frecuencias, en estudios pasados realizados por autores como Fazenda [4]

se evidencio una relación entre cambios en percepción de calidad y cambios en valores obtenidos

para este parámetro. Para calcular la energía de la señal se utiliza la ecuación 8 [11]:

𝑬 = ∑ |𝒙(𝒏)|𝟐𝑵−𝟏𝒏=𝟎 (8)

El contenido en frecuencia, y el resultado de la evaluación de los parámetros mencionados, es

consecuencia de toda la cadena productiva, y aspectos como el uso de ecualización, los procesos

de compresión, el uso de efectos de tiempo (reverberación o delay), el posicionamiento de los

micrófonos durante la grabación, características propias de los instrumentos grabados, afinaciones

particulares de los mismos, entre otros, son determinantes a la hora de evaluar el timbre o la textura

de una producción musical finalizada [13].

Page 26: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

27

7. Metodología

A continuación se presenta la metodología que usó en el desarrollo del proyecto.

7.1. Diseño e implementación de los algoritmos

Es necesario el diseño de algoritmos que permitan evaluar los siguientes parámetros: IBR (Inter-

Band Relationship), Cross Correlation y el contenido de la energía espectral entre 2 kHz y 5 kHz

(Harsh Energy). El software MATLAB, es el entorno de programación que se usará para el

desarrollo de los algoritmos mencionados, el análisis, la visualización de datos y el cálculo

numérico. Los algoritmos serán validados con señales o entradas de prueba para las cuales se tenga

conocimiento de los valores a obtenerse para los parámetros de medición.

7.2. Evaluación de los parámetros en producciones musicales finalizadas

Luego de haber diseñado los algoritmos y de haber comprobado que son válidos para la medición

de los parámetros mencionados, serán implementados sobre 5 producciones musicales finalizadas

contemporáneas del género pop. En esta etapa se obtienen los resultados objetivos.

7.3. Diseño de pruebas subjetivas

Una vez comprobada la validez de los resultados obtenidos en las evaluaciones objetivas, es posible

continuar con el diseño de las pruebas de escucha subjetivas. El diseño y la implementación de

estas pruebas, se realizarán de acuerdo con la recomendación ITU-R BS.1284-1 [6], la cual

describe los métodos generales para la evaluación subjetiva de la calidad del audio. Esta

recomendación [6], describe el diseño experimental, la selección del panel de sujetos a realizar la

prueba, el método de la evaluación, cómo debe estar el material a usarse para la prueba, los

dispositivos de reproducción, las condiciones de la sala de escucha y finalmente, tanto el

tratamiento estadístico de la información como la presentación de los datos obtenidos en la prueba.

7.4. Análisis de resultados

Después de tener resultados tanto objetivos como subjetivos, se realizará un análisis de estos, para

finalmente determinar si existe algún tipo de relación entre la evaluación de parámetros objetivos

Page 27: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

28

de aspectos como el rango dinámico, la imagen estéreo, y el contenido en frecuencia con la

percepción de calidad en una producción musical finalizada.

Page 28: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

29

8. Desarrollo

8.1. Algoritmo IBR

Para la medición del IBR, se desarrolló el código en MATLAB. A continuación se describe el

funcionamiento de este:

El script de IBR empieza por leer el audio ingresado y procede a almacenar los datos en una matriz.

Si se ingresa un archivo de audio estereofónico el algoritmo lo convierte a monofónico (ver anexo

1) y realiza el proceso de normalización. Una vez finalizado este proceso, grafica la forma de onda

del audio a analizarse.

Posterior al proceso de discretización y normalización, se ingresa la función creada para realizar la

medición del IBR (ver anexo 2), la cual requiere datos de entrada como la matriz del audio a

analizarse, el tamaño de la ventana para el análisis de la muestra en el tiempo, el solapamiento de

la ventana y la frecuencia de muestreo, la cual es extraída del archivo de audio.

Para el cálculo del IBR en el dominio del tiempo, se realiza un proceso de enventanado, de manera

que se pueda observar el desarrollo temporal del parámetro, y así se puedan obtener datos de mayor

precisión y relevancia. Para este caso, la ventana elegida fue de 100 ms con un solapamiento del

50%, la cual está definida por el modelo estándar contenido en la recomendación ITU-R. BS. 1770-

2 [25]. De igual forma, además de contar con el desarrollo temporal de la señal, se calcula un

promedio de los datos obtenidos en el tiempo, de manera que se pueda contar con una apreciación

global del parámetro.

En la función, la señal se filtra en tres bandas, una para bajos con un filtro pasa bajas con frecuencia

de corte en 947 Hz, otra pasa banda para la banda de medios con un corte inferior en 947 Hz y uno

superior en 3186 Hz, y finalmente uno pasa altos con frecuencia de corte en 3186 Hz. Como se

mencionó en el marco teórico, estas bandas hacen parte del primer, segundo y tercer set de 8 bandas

críticas del sistema auditivo del ser humano [4]. Una vez filtrada la señal, se le aplica el

enventanado en el tiempo y se calcula el factor de cresta (haciendo uso de la ecuación 4) para cada

una de las tres bandas para finalmente proceder con el cálculo del IBR según la ecuación 5. Se

Page 29: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

30

obtienen dos graficas: una para el factor de cresta y otra para el IBR, ambas en el dominio del

tiempo.

Page 30: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

31

8.1.1. Validación del algoritmo de IBR

Para comprobar el funcionamiento del algoritmo de IBR, se realizaron pruebas con tonos puros a

diferentes frecuencias, donde los resultados a obtenerse ya eran valores conocidos.

La primera prueba se realizó con un tono puro de 50 Hz y con amplitud de 0.5.

Fig. 2. Grafica tono puro de 50 Hz después de la aplicación del filtrado.

En la Fig. 2, se puede observar que los filtros están funcionando adecuadamente ya que se ingresó

una señal con una frecuencia de 50 Hz y al graficar la señal filtrada, esta quedó en la banda de

bajos, la cual tiene 947 Hz como frecuencia de corte. También podemos observar que para la banda

de medios y altos no hay información.

Adicionalmente, en la Fig. 3 se puede apreciar que el factor se cresta es una línea continua en el

tiempo de 3dB. Una vez más, se puede comprobar que el algoritmo está funcionando

adecuadamente, ya que se sabe que el factor de cresta para cualquier tono puro es de 3dB [19].

Finalmente, en la Fig. 3 se puede observar que para el IBR, se obtiene una línea recta con el valor

de 0, y una vez más se puede comprobar que el algoritmo está funcionando adecuadamente, dado

Page 31: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

32

que el IBR cuantifica la variación existente entre las tres diferentes bandas [4], y para este caso solo

se tiene información para la banda de bajos; es por esto que se obtiene una línea continua con el

valor de 0.

Fig. 3. Factor de cresta para tono puro de 50 Hz.

Page 32: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

33

Fig. 4. IBR para un tono puro de 50 Hz.

El mismo proceso se aplicó para validar el funcionamiento del algoritmo para la banda de medios

y para la banda de altos, procedimiento que puede ser verificado en las figuras 5-10. Para la banda

de medios, se utilizó un tono puro con una frecuencia de 1500 Hz y una amplitud de 0.5, y para la

banda de altos se un tono puro con una frecuencia de 5000 Hz y una amplitud de 0.5.

A continuación se muestran los resultados:

Para la banda de medios la cual está entre 947 Hz y 3186 Hz.

Fig. 5. Tono puro de 1500 Hz después de la aplicación del filtrado.

Como se puede ver en la Fig. 5, sólo se obtiene información en la gráfica de la banda de medios,

la cual contiene la frecuencia del tono puro ingresado.

Page 33: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

34

Fig. 6. Factor de cresta para tono puro de 1500 Hz.

En la Fig. 6 se ve un factor de cresta de 3dB, el cual es un valor conocido para cualquier tono puro.

Ahora bien, el parámetro de IBR que está graficado en la Fig. 7, muestra una línea recta con un

valor de cero, ya que no existe variación entre las bandas de frecuencia, pues solo se tiene

información en la banda de medios.

Para la banda de altos, la cual tiene como frecuencia de corte 3186 Hz, solo se obtiene información

en la gráfica de la banda de altos, la cual contiene la frecuencia del tono puro ingresado (Fig. 8);

se obtiene un factor de cresta de 3dB el cual es un valor conocido para cualquier tono puro (Fig.

9); y además, se obtiene un IBR de 0, como se ve en la Fig. 10, ya que no existe variación entre las

bandas al solo tener información en la banda de altos.

Page 34: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

35

Fig. 7. IBR para un tono puro de 1500 Hz.

Fig. 8. Tono puro de 5000 Hz después de la aplicación.

Page 35: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

36

Fig. 9. Factor de cresta para tono puro de 5000 Hz.

Fig. 10. IBR para un tono puro de 5000 Hz.

Page 36: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

37

8.2. Algoritmo de Cross Correlation

Para la medición de la Cross Correlation, se desarrolló el algoritmo en MATLAB. A continuación,

se describe el funcionamiento de este:

El script de Cross Correlation empieza leyendo el audio ingresado (ver anexo 3), el cual debe ser

un archivo estéreo para el cual se tomará el canal izquierdo como la secuencia x(n) y el canal

derecho como la secuencia y(n). Mediante la función wavread de MATLAB, se lee el archivo de

audio y se determina la frecuencia de muestreo del mismo, para poder guardar los valores

equivalentes a la secuencia en un vector. Para este caso los valores serán guardados en dos vectores,

ya que se está trabajando con señales estéreo.

Luego de que los valores de la secuencia quedan almacenados en vectores, se grafica la señal

estéreo en el dominio del tiempo. En este punto el script ingresa a una función diseñada para

calcular la Cross Correlation (ver anexo 4). Para el cálculo de la Cross Correlation es necesario

hacer una división de la muestra en fragmentos aún más pequeños, para poder determinar qué

ocurre con el parámetro en el dominio del tiempo. Para dividir la muestra en pequeños fragmentos

se aplicó el mismo modelo de enventanado que el usado para el algoritmo de IBR, el cual define

ventanas de 100 ms con un solapamiento del 50%. Una vez se aplica el enventanado, se calcula la

Cross Correlation para cada ventana y finalmente se grafica la Cross Correlation de la señal en el

dominio del tiempo.

8.2.1. Validación del algoritmo de Cross Correlation

Para comprobar el funcionamiento del algoritmo, se realizaron pruebas con tonos puros, para los

cuales los resultados a obtener eran conocidos. La Cross Correlation siempre va a ser igual a 1

cuando las dos señales ingresadas son iguales y además no tienen ningún desfase entre ellas. Por

otro lado, si una señal es la inversa de la otra (tienen un desfase de 180° entre ellas), la Cross

Correlation siempre será igual a -1. Y en el caso de que las dos señales presenten un desfase de

90°, la Cross Correlation será igual a 0 [24].

La primera prueba se realizó con dos tonos puros que tenían exactamente la misma frecuencia, la

misma amplitud y la misma fase (Fig. 11).

Page 37: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

38

Fig. 11. Dos tonos puros exactamente iguales.

Fig. 12. Cross Correlation para los dos tonos puros iguales.

Page 38: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

39

Como se puede observar en la Fig. 12, cuando ingresamos dos señales exactamente iguales, en este

caso dos tonos puros con la misma frecuencia, amplitud y fase, se obtiene un valor de 1.

En la segunda prueba realizada, se ingresaron dos tonos puros con la misma amplitud y la misma

frecuencia, pero una con un desfase de 180º (Fig. 13).

Fig. 13. Dos tonos puros con la misma frecuencia y misma amplitud pero con desfase de

180º.

Como se puede observar en la Fig. 14, la Cross Correlation para dos señales inversas es igual a -

1, de esta manera se puede apreciar que el algoritmo está funcionando de manera adecuada.

Por último, se ingresan dos tonos puros con la misma frecuencia y amplitud, pero con un desfase

de 90º (Fig. 15). En este caso, la Cross Correlation deberá ser igual a 0, ya que las dos señales son

completamente diferentes.

Page 39: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

40

Fig. 14. Cross Correlation para los dos tonos puros inversos.

Fig. 15. Dos tonos puros con la misma frecuencia y amplitud pero con desfase de 90°.

Page 40: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

41

Fig. 16. Cross Correlation para los dos tonos puros con un desfase de 90°.

Como se ve en la Fig. 16, una vez más, se puede comprobar que el algoritmo está funcionando

adecuadamente para cuantificar los valores de Cross Correlation en el dominio del tiempo.

8.3. Algoritmo de Harsh Energy

Para la medición de Harsh Energy se desarrolló el algoritmo en MATLAB. A continuación, se

describe el funcionamiento de este:

El script de Harsh Energy, empieza leyendo el audio ingresado, mediante el uso de la función

wavread, y procede a realizar el proceso de discretización del mismo (ver anexo 5). Si se ingresa

un archivo de audio estereofónico, el algoritmo lo convierte a monofónico y realiza el proceso de

normalización. Una vez finalizado este proceso, se grafica la forma de onda del audio a analizarse.

Luego de obtener una señal monofónica, discretizada y normalizada, los valores de la secuencia se

guardan en un vector para ser analizados por la función de Harsh Energy (ver anexo 6). El

tratamiento de la secuencia en el tiempo para este algoritmo se realiza de la misma manera que los

dos anteriores, con ventanas de 100 ms y un solapamiento del 50%, esto permite obtener resultados

en el dominio del tiempo y no solo un valor para toda la muestra. Luego de aplicar el enventanado,

Page 41: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

42

se calcula la relación que existe entre la energía contenida en la banda de 2KHz a 5KHz y la energía

contenida en todo el espectro. Dando como resultado la gráfica de la fracción de Harsh Energy

para el audio analizado en el tiempo.

8.3.1. Validación del algoritmo de Harsh Energy

Para comprobar el funcionamiento del algoritmo de harsh energy, se realizó una prueba con un

tono puro de 50 Hz y amplitud de 0.5. Se escogió esta frecuencia, ya que esta se encuentra por

fuera de la banda de harsh energy la cual va desde 2kHz hasta 5kHz.

Fig. 17. Señal después del filtrado.

Como se puede observar en la Fig. 17, en la banda de 2kHz a 5kHz no existe información, lo cual

indica que el filtro está funcionando adecuadamente.

Page 42: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

43

Fig. 18. Harsh Energy tono puro de 50 Hz.

En la Fig. 18, se puede apreciar que para el cálculo de Harsh Energy en el tiempo, se obtiene una

línea continua con un valor de 0, por lo cual se puede concluir que el cálculo para cuantificar la

energía en la banda de Harsh Energy del algoritmo, está funcionando adecuadamente.

Adicionalmente, se realizó una prueba con un tono puro de 3000 Hz, frecuencia que se encuentra

dentro de la banda de Harsh Energy.

Como se puede apreciar en la Fig. 19, después de aplicar el filtrado a un tono puro de 3000 Hz

obtenemos la misma señal de salida ya que esta se encuentra dentro de la banda de Harsh Energy.

Y al momento de calcular la relación entre la energía contenida en la banda de 2 kHz a 6 kHz y la

energía total, se ve que se obtiene un valor de 1 (Fig. 20), lo cual indica que toda la energía del

fragmento analizado se encuentra exclusivamente en la banda mencionada.

Page 43: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

44

Fig. 19. Tono puro de 3000 Hz después del filtrado.

Fig. 20. Harsh Energy tono puro de 3,000 Hz

Page 44: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

45

8.4. Diseño de la prueba subjetiva

Para el diseño de las pruebas subjetivas se tienen en cuenta las recomendaciones ITU-R BS.1116-

3 [26] y la ITU-R BS. 1284-1 [6].

8.4.1. Selección del panel de oyentes

Para la realización de las pruebas de escucha, se seleccionaron estudiantes de las asignaturas

técnicas de audio 2 y 3 del programa de Ingeniería de Sonido, impartido por la Universidad de San

Buenaventura sede Medellín, además se recurre a egresados de programas afines a la producción

musical. Lo anterior considerando los lineamientos presentados por la recomendación ITU-R

BS.1284-1 [6], la cual sugiere el uso de oyentes con cierto grado de experiencia, y en este caso se

opta por recurrir a la población de estudiantes de las dos asignaturas mencionadas y egresados de

programas afines a la producción musical, dado que están familiarizados con la producción musical

y actualmente desempeñan actividades académicas y/o profesionales en el área.

Según la población que se definió, se decide tomar una muestra de 20 individuos que cumplan con

las características mencionadas anteriormente, dado que la recomendación ITU-R BS.1284-1 [6]

establece que para un panel de oyentes con experiencia una muestra de mínimo 10 individuos es

suficiente, mientras que la ITU-R BS.1116-3 [26] sugiere una muestra de mínimo 20 sujetos. Ahora

bien, con el fin de tener una muestra que cumpla ambas recomendaciones y que permita tener

resultados confiables, se establece la muestra mencionada de 20 individuos.

8.4.2. Método de la prueba

Considerando el hecho de que se quiere obtener información acerca de la percepción de la calidad

por parte de los sujetos, basados en un parámetro determinado de la señal de audio, se recurre a

una prueba de comparación [6], en la cual se deja claro el sentido en el que se debe hacer la

comparación indicando el parámetro que se debe considerar en cada oportunidad. Lo anterior, exige

la presentación de 2 fragmentos de una señal de audio con dos condiciones distintas, un fragmento

A sin ningún tipo de alteración (condición 1), y un fragmento B que es el mismo fragmento A, pero

alterado en el parámetro que se quiere evaluar (condición 2).

Page 45: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

46

A continuación, se muestra la escala de calificación que se usa:

Tabla I. Escala de calificación.

Calificación Comparación

3 Mucho mejor

2 Mejor

1 Un poco mejor

0 Igual

-1 Un poco peor

-2 Peor

-3 Mucho peor

Ahora bien, la presentación de los fragmentos mencionados anteriormente, será de la forma que

sugiere la recomendación ITU-R BS. 1284 [6]. Esta establece el siguiente orden de presentación:

Tabla II. Presentación de los audios.

Orden Fragmento

1 A-Condición 1

2 B-Condición 2

3 A-Condición 1 (repetición)

4 B-Condición 2 (repetición)

Como se mencionó en apartados anteriores, apelando a las limitaciones de la memoria a corto plazo

que tiene el ser humano, se debe considerar la duración de los fragmentos que se presentan a los

sujetos que van a realizar la prueba [6]. La ITU-R BS. 1284-1 [6], sugiere que los fragmentos de

audio no superen una duración de entre 15 y 20 segundos, por lo cual desde el principio del

desarrollo del proyecto se definió una duración de 7 segundos para cada fragmento a analizar,

siguiendo el tiempo que sugiere el autor Fenton [4].

Page 46: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

47

8.4.3. Atributos de evaluación

De acuerdo a los parámetros mencionados por la recomendación ITU-R BS. 1284-1 [6] para la

evaluación de la calidad del sonido en detalle, se decidió enmarcar la evaluación en 3 parámetros

distintos: el rango dinámico, la impresión estéreo y el timbre. De tal forma que se pueda obtener

información acerca de la percepción de la calidad por parte de los individuos que realicen la prueba,

con un enfoque detallado sobre cada uno de estos parámetros.

Ahora bien, se establece la realización de 3 pruebas distintas, una por cada parámetro, siguiendo la

definición del tamaño de la muestra definida anteriormente para cada una de las pruebas, y

asegurando que para cada prueba se garantiza el cumplimiento de las características que se

definieron para el panel de oyentes.

8.4.5. Programa musical

Al escoger las producciones musicales finalizadas, se tuvo en cuenta que la selección de estas,

dependía tanto de las pruebas objetivas como de las subjetivas, y por lo tanto que el material

escogido debía ser útil para ambos tipos de pruebas. Al realizar una revisión de las

recomendaciones e investigaciones existentes, realizadas para la evaluación objetiva y subjetiva de

la calidad de audio, se encontraron ciertos lineamientos a seguir, mas no un estándar que contenga

todas las indicaciones y especificaciones que el material a usarse debe tener. En recomendaciones

como la ITU-R BS.1284-1 [6] se establece que la selección del material a usarse debe ser acorde

al tipo de evaluación que se está realizando, pero este siempre deberá ser escogido procurando no

causar distracción en el sujeto que se encuentra realizando la prueba. Para esto se debe tener en

cuenta la duración de los fragmentos.

Ahora bien, considerando el propósito de la prueba y los parámetros a evaluarse, se seleccionaron

5 producciones musicales finalizadas de diferentes artistas, las cuales pueden ser todas clasificadas

como producciones del género pop. La selección de producciones se limitó a un solo género,

considerando el hecho de que los parámetros a evaluar pueden variar según el género, pues están

sujetos a la forma en la que cada uno de estos suele ser mezclado y masterizado [16]. Todos los

archivos utilizados fueron estereofónicos con una frecuencia de muestreo de 44.1kHz y

profundidad en bits de 16-bits. Todos los archivos se editaron de tal manera que tuvieran una

Page 47: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

48

duración exacta de 7 segundos, ya que en investigaciones previas realizadas por Steven Fenton [4]

y recomendaciones como la ITU-R BS.1284-1 [6] se sugieren tiempos alrededor del seleccionado,

por lo tanto esta duración se definió como óptima para el desarrollo de las pruebas subjetivas pues,

considerando que se quiere que los sujetos evalúen parámetros específicos, existe una menor

probabilidad de que el sujeto que está realizando la prueba olvide lo que acaba de escuchar y el

enfoque que debe dar a su valoración .

Los fragmentos de 7 segundos se editaron a partir del comienzo del primer coro para todas las

canciones. Se determinó que para las 5 producciones seleccionadas el coro es el fragmento con

mayor cantidad de elementos sonando en la mezcla, por lo cual es el fragmento con mayor energía

y a su vez puede ser el mejor indicador para todos los parámetros a evaluarse.

Tabla III. Producciones musicales finalizadas elegidas.

Número Artista Canción

1 Popstitute King Of The Night

2 Astronaut Indigo Boy

3 Pink Just Give Me A Reason

4 The Weeknd I Can’t Feel My Face

5 Maroon 5 Moves Like Jagger

Además de realizar las evaluaciones de los parámetros sobre las producciones musicales finalizadas

originales sin ningún tipo de modificación, se realizaron unas evaluaciones a las mismas

producciones musicales pero con modificaciones sobre cada uno de los parámetros. Estas

modificaciones se justifican con el llamado JND (por sus siglas en inglés) [27], que se refiere a la

diferencia mínima apreciable por el oído humano para cambios de nivel sonoro. El JND para

cambios de nivel está definido en 1 dB [27], lo cual permite la serie de cambios que se describe a

continuación sobre cada parámetro:

Para la evaluación del IBR, se tomaron las 5 producciones musicales originales y se realizaron

cambios en la limitación con intervalos de 1,5 dB. En total se hicieron cuatro modificaciones a

cada uno de los cinco fragmentos aplicando cambios de -1,5 dB, -3 dB, -4,5 dB, y -6 dB

respectivamente.

Page 48: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

49

Para la evaluación de la Cross Correlation, se alteraron las cinco producciones musicales

finalizadas con un procesador mid-side, el cual permite agregar nivel a la energía que se encuentra

a los lados de la mezcla, sin afectar la energía concentrada en el centro de la misma. Se realizaron

cuatro modificaciones a cada uno de los cinco fragmentos originales agregando nivel al canal side

de la mezcla en intervalos de 1.5 dB hasta llegar a una alteración máxima de 6 dB.

Para la evaluación del parámetro de Harsh Energy se aplicaron cuatro realces de energía separados

para cada una de las cinco producciones musicales originales mediante ecualización. Los realces

se aplicaron en la banda de 2 kHz a 5kHz con los valores de +1.5 dB, +3 dB, +4.5 dB y +6 dB.

8.4.6. Dispositivos de reproducción

De acuerdo con las recomendaciones ITU-R BS. 1284-1 [7] e ITU-R BS.1116-3 [25], las pruebas

subjetivas se pueden realizar tanto en altavoces como en audífonos, pero siempre teniendo en

cuenta el hecho de que cada uno de los dispositivos de reproducción puede afectar la señal o los

resultados a obtenerse en las pruebas. Teniendo en cuenta lo anterior, los altavoces son el

dispositivo más adecuado para este caso ya que se estará considerando la imagen estéreo de las

muestras como uno de los parámetros a evaluar, y los altavoces permiten tener una mejor referencia

de este parámetro de acuerdo con la recomendación ITU-R BS.1116-3 [25].

8.4.7. Condiciones de escucha

“Las condiciones de escucha describen los requerimientos acústicos para un ambiente sonoro de

referencia que afecta a un oyente en un cuarto de escucha en el punto de escucha” [26]. Lo anterior

se resume en 3 aspectos específicos:

8.4.7.1. Características del lugar de escucha

La recomendación ITU-R BS.1116-3 [25] define los requerimientos mínimos para el lugar de

escucha. En caso de realizar las pruebas subjetivas con monitores de referencia se recomienda un

tamaño para el área de piso de la sala que este entre veinte y sesenta metros cuadrados.

Adicionalmente para la forma del área de piso se recomienda que sea preferiblemente en forma de

rectángulo o trapecio.

Page 49: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

50

La sala debe cumplir con las proporciones que se muestran en la ecuación (9), para asegurar una

distribución uniforme de los modos de la sala en frecuencias bajas.

𝟏. 𝟏𝑾

𝒉≤

𝒍

𝒉≤

𝟒.𝟓×𝑾

𝒉− 𝟒 (9)

Donde:

𝑊: Ancho de la sala.

𝑙: Largo de la sala.

ℎ: Alto de la sala.

Se decidió que el lugar para realizar las pruebas subjetivas sería el estudio de grabación B de la

Universidad de San Buenaventura Medellín, sede San Benito, de tal manera que la mayoría de

sugerencias encontradas en la recomendación ITU-R BS. 1116-3 [26] se cumplieran.

A continuación, en la Fig. 21, se muestra un plano que ilustra la forma del control room de este

estudio, donde se pueden observar algunas de las medidas del mismo

Page 50: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

51

Fig. 21. Vista en planta del control room del estudio B (cotas en metros).

De igual forma, es importante anotar que la altura de esta sala no es constante, pues, en la parte

más estrecha (parte delantera) que se puede ver en la Fig. 21, se cuenta con una altura de 2,3 m,

mientras que en la parte más ancha (parte trasera) hay una altura de 3,55 m. Lo anterior indica que

las proporciones establecidas en la ecuación (9), se cumplen para esta sala.

A continuación, se muestran los valores de T60 por banda de octava para la sala escogida.

Page 51: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

52

Tabla IV. T60 por banda de octava del control room del estudio B.

Frecuencia (Hz) T60 (s)

125 0,125

250 0,15

500 0,15

1000 0,2

2000 0,225

4000 0,225

8000 0,375

16000 0,275

8.4.7.2. Nivel de escucha

El nivel de escucha se refiere al nivel de escucha de referencia recomendado, producido con una

señal de medición determinada en el punto de escucha, de tal forma que en otra sala de escucha se

pueda tener la misma presión sonora con la misma señal de medición [26].

Se usó como señal de medición ruido rosa con una amplitud de 0 dBFs pico, dado que las señales

usadas en la prueba serían producciones musicales finalizadas, lo cual implica que han pasado por

un proceso de masterización, en el cual seguramente se optimizó el nivel de las mismas [16]. Ahora

bien, al reproducir esta señal por los altavoces se garantizó, mediante el uso de un sonómetro un

nivel de presión sonora en el punto de escucha acorde al establecido por la recomendación ITU-R

BS. 1116-3 [26] según la ecuación (10):

𝑳𝒓𝒆𝒇 = 𝟖𝟓 − 𝟏𝟎𝑳𝒐𝒈(𝒏) ± 𝟎, 𝟐𝟓𝒅𝑩𝑨 (10)

Donde:

n: número de altavoces (para este caso, 2)

Lo anterior indica que cada altavoz debe producir en el punto de escucha una presión sonora de

81,98 dBA (medido con ponderación lenta).

8.4.7.3. Requerimientos electro-acústicos

De acuerdo a la recomendación ITU-RBS. 1116-3 [26], se extrae la información suministrada por

la hoja de datos del fabricante de los altavoces a utilizar y se comprueba si cumplen con lo

Page 52: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

53

establecido por la recomendación [26]. Esta sugiere valores específicos para: la amplitud versus la

respuesta en frecuencia, la distorsión armónica, el ruido propio del altavoz y el nivel de eficiencia

máximo. Como el lugar para la realización de las pruebas subjetivas fue definido anteriormente, se

decidió utilizar el sistema de reproducción disponible en este espacio.

En el estudio B de la Universidad de San Buenaventura se cuenta con un sistema de reproducción

estereofónico de dos canales Genelec 1037 C tri-amplificados [28]. A continuación se muestran

los valores que ofrece el fabricante [28] para los parámetros que sugiere la recomendación ITU-R

BS. 1116-3 [26] y es posible comprobar que todos los parámetros se encuentran dentro de los

valores recomendados:

Tabla V. Especificaciones técnicas del altavoz.

Parámetro Valor

Amplitud VS la respuesta en frecuencia 37 Hz-21 kHz (±2,5 dB)

Distorsión armónica 50 Hz-100Hz <3%

Frec.>100Hz <0,5%

Ruido propio ≤15 dBA

Nivel de eficiencia máximo ≥107 dB SPL

8.4.7.4. Posicionamiento de los altavoces de referencia

De acuerdo con la recomendación ITU-R BS.1116-3 [26] los altavoces de referencia deberán estar

ubicados a una altura donde el centro acústico de cada altavoz iguale la altura de los oídos de los

sujetos realizando la prueba. Adicionalmente la distancia entre el oyente y los altavoces deberá ser

la misma distancia entre los altavoces y deberá existir un ángulo de 60° entre estos (Fig. 22).

Page 53: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

54

Fig. 22. Posicionamiento de los altavoces y el punto de escucha.

Page 54: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

55

9. Resultados

Los resultados se presentan en dos partes: la primera parte contiene los resultados de las pruebas

objetivas, mientras que la segunda parte contiene los resultados de las pruebas subjetivas. Los

resultados de las pruebas objetivas se presentan en seis secciones diferentes. En la primera sección

se presentan los resultados para el parámetro de IBR sobre los fragmentos de las producciones

musicales originales, y en la segunda sección se presentan los resultados de este mismo parámetro

pero para los fragmentos de las producciones con modificaciones. Se sigue este mismo orden para

los parámetros de Cross Correlation y harsh energy.

9.1. Pruebas objetivas

9.1.1. IBR fragmentos originales

A continuación, se presentan los resultados obtenidos para el cálculo del IBR en los fragmentos

originales sin ninguna modificación aplicada. El orden de presentación de los resultados para las

producciones musicales finalizadas es el establecido en la Tabla III.

Fig. 23. IBR en el tiempo de la producción 1 sin modificaciones.

Page 55: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

56

Fig. 24. IBR en el tiempo de la producción 2 sin modificaciones.

Fig. 25. IBR en el tiempo de la producción 3 sin modificaciones.

Page 56: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

57

Fig. 26. IBR en el tiempo de la producción 4 sin modificaciones.

Fig. 27. IBR en el tiempo de la producción 5 sin modificaciones.

Page 57: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

58

En las figuras anteriores se puede observar el desarrollo del parámetro de IBR en el tiempo, para

las cinco producciones musicales originales sin ningún tipo de modificaciones. Aunque la

información entregada por las figuras es de suma importancia a la hora de visualizar y entender el

comportamiento de los fragmentos en el tiempo, este por sí solo no es muy concluyente, y es por

esto que resulta necesario calcular valores globales o promedio, para tener un mejor entendimiento

de lo que realmente ocurre con el parámetro de IBR en cada una de las producciones musicales.

Fig. 28. Factor de cresta por bandas producciones sin modificaciones.

En la Fig. 28 se puede observar el factor de cresta global por banda, para cada una de las

producciones sin modificaciones. Con estos valores es posible entender y visualizar el balance y

las diferencias existentes en rango dinámico para cada una de las bandas de cada producción. Las

producciones 1 y 3 tienen el mayor factor de cresta en su banda de bajos comparado con las otras

producciones, mientras que la producción 4 tiene el mayor factor de cresta en su banda de medios.

Para la banda de altos las cinco producciones toman valores muy similares los cuales oscilan entre

13,88 dB y 14,68 dB.

8,647,39

8,647,73 7,64

12,28 12,1010,92

13,3811,95

14,01 13,87 14,31 14,67 14,22

02468

10121416

Producción1

Producción2

Producción3

Producción4

Producción5

Fact

or

de

Cre

sta

dB

Producciones sin Modificaciones

Factor de Cresta por Bandas Producciones Originales

LFC

MFC

HFC

Page 58: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

59

9.1.2. IBR fragmentos modificados

A continuación, se presentan los resultados de IBR para las mismas 5 producciones musicales

finalizadas, pero con modificaciones realizadas al rango dinámico. Las modificaciones se

realizaron como se explicó anteriormente en la sección de programa musical.

Fig. 29. Valores de IBR para la producción 1 con modificaciones.

Page 59: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

60

Fig. 30. Factor de cresta por bandas para la producción 1.

En la Fig. 30 se puede apreciar el factor de cresta global por banda para la producción 1, tanto para

el fragmento original como para los fragmentos a los que se les realizaron modificaciones al rango

dinámico. Para la producción 1, la cual contenía uno de los mayores factores de cresta o mayor

variación en su banda de bajos, es evidente que a medida que se empieza a limitar el fragmento

empieza a perder rango dinámico, lo cual se traduce a una reducción del factor de cresta para esta

banda. Esto mismo ocurre para esta producción en su banda de medios y su banda de altos.

En la Fig. 32 se puede apreciar el factor de cresta global por bandas para la producción 2, tanto

para el fragmento original como para los fragmentos a los cuales se les realizaron modificaciones.

Como se puede observar en la Fig. los valores de factor de cresta por bandas para la producción 2

aumentan entre el fragmento original y la primera modificación, esto es debido a que esta

producción aun cuenta con un poco de headroom, y no se encuentra tan limitada ni comprimida

como las otras producciones musicales escogidas. Después de la primera modificación se puede

observar como el factor de cresta para la banda de bajos empieza a disminuir, mientras que la banda

de medios tiende a aumentar su factor de cresta.

8,64 8,19 7,89 7,63 7,39

12,28 12,66 12,46 12,25 12,10

14,01 14,26 14,08 13,97 13,87

0

2

4

6

8

10

12

14

16

Original 1.5 dB 3 dB 4.5 dB 6 dB

Fact

or

de

Cre

sta

dB

Modificaciones

Producción 1-Factor de Cresta Por Bandas

LFC MFC HFC

Page 60: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

61

Fig. 31. Valores de IBR para la producción 2 con modificaciones.

Fig. 32. Factor de cresta por bandas para la producción 2.

7,398,19 8,09 7,96 7,81

12,10 12,12 12,50 12,47 12,4513,87

15,05 14,84 14,75 14,62

0

2

4

6

8

10

12

14

16

Original 1,5 dB 3 dB 4,5 dB 6 dB

Fact

or

de

Cre

sta

dB

Modificaciones

Producción 2 Factor de Cresta Por Banda

LFC MFC HFC

Page 61: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

62

Fig. 33. Valores de IBR para la producción 3 con modificaciones.

Fig. 34. Factor de cresta por bandas para la producción 3.

8,64 8,34 8,22 8,02 8,02

10,92 10,88 10,85 10,80 10,80

14,31 14,23 14,19 14,17 14,17

0

2

4

6

8

10

12

14

16

Original 1.5 dB 3 dB 4.5 dB 6 dB

Fact

or

de

Cre

sta

dB

Modificaciones

Producción 3 Factor de Cresta Por Bandas

LFC MFC HFC

Page 62: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

63

En la Fig. 34 se puede apreciar el factor de cresta global por bandas para la producción 3, tanto

para el fragmento original como para los fragmentos a los cuales se les realizaron modificaciones.

Como se puede observar en la Fig. 34, los valores de factor de cresta por bandas para la producción

3 se comportan como es de esperarse al aplicar una limitación (el factor de cresta se reduce). En la

banda de bajos es posible ver cómo el factor de cresta empieza a disminuir progresivamente lo cual

se traduce a una reducción del rango dinámico. La banda de medios se mantiene estable, y la banda

de altos tiene algunas variaciones mínimas.

Fig. 35. Valores de IBR para la producción 4 con modificaciones.

Page 63: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

64

Fig. 36. Factor de cresta por bandas para la producción 4.

En la Fig. 36 se puede apreciar el factor de cresta global por bandas para la producción 4, tanto

para el fragmento original como para los fragmentos a los cuales se les realizaron modificaciones.

Como se puede observar en la Fig. 36, los valores de factor de cresta para la banda de bajos

muestran un comportamiento normal, es posible evidenciar una reducción del factor de cresta para

esta banda a medida que se aumenta el valor de la limitación. El factor de cresta para la banda de

medios, y la banda de altos se mantiene relativamente estable.

En la Fig. 38 se puede apreciar el factor de cresta global por bandas para la producción 5, tanto

para el fragmento original como para los fragmentos a los cuales se les realizaron modificaciones.

Como se puede observar en la Fig. los valores de factor de cresta para la banda de bajos y de medios

muestran un comportamiento normal, es posible evidenciar una reducción del factor de cresta para

estas bandas a medida que se aumenta el valor de la limitación.

7,73 7,69 7,25 6,80 6,36

13,38 13,46 13,29 13,14 13,0814,67 14,85 14,82 14,81 14,70

0

2

4

6

8

10

12

14

16

Original 1,5 dB 3 dB 4,5 dB 6 dB

Fact

or

de

Cre

sta

dB

Modificaciones

Producción 4 Factor de Cresta Por Bandas

LFC MFC HFC

Page 64: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

65

Fig. 37. Valores de IBR para la producción 5 con modificaciones.

Fig. 38. Factor de cresta por banda para la producción 5.

7,64 7,50 7,24 6,79 6,60

11,95 11,95 11,86 11,65 11,63

14,22 14,50 14,44 14,18 13,99

0

2

4

6

8

10

12

14

16

Original 1,5 dB 3 dB 4,5 dB 6 dB

Fact

or

de

Cre

sta

dB

Modificaciones

Producción 5 Factor de Cresta Por Banda

LFC MFC HFC

Page 65: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

66

Fig. 39. IBR global para las cinco producciones con modificaciones.

En la Fig. 39 se encuentran los valores globales de IBR para las cinco producciones musicales

finalizadas con modificaciones. Para la producción 1 existe un leve incremento para el parámetro

de IBR, pero al analizar los datos de la Fig. 30 se puede concluir que aunque el valor de IBR cuenta

con un pequeño aumento progresivo a medida que se aplica limitación a la producción. Este

incremento en la relación entre las tres bandas, no siempre significa que es mejor, ya que en este

caso esto se da simplemente por la disminución progresiva del rango dinámico en la banda de bajos,

lo cual aumenta la relación o el IBR entre las tres bandas. Para la producción 2 los valores de IBR

se mantienen más estables, y esto se debe a la poca variación en el factor de cresta para la banda

de bajos. Para la producción 3 se obtienen los valores más bajos de IBR, si se compara contra el

resto de producciones. Al analizar los datos obtenidos en la Fig. 34, se puede evidenciar que la

producción 3 es la que cuenta con el menor rango dinámico en la banda de medios, y esta es una

de las razones por las cuales el IBR global para la producción 3 es el más bajo. Por otro lado para

la producción 4 se obtienen los valores globales de IBR más altos, y al analizar los valores obtenidos

en la Fig. 36, se puede justificar el incremento gradual para el IBR de esta producción, ya que el

factor de cresta para la banda de medios y la banda de altos se mantiene estable, mientras que el

factor de cresta para la banda de bajos empieza a disminuir gradualmente lo que causa el aumento

en el IBR. Finalmente, para la producción 5, se tiene un comportamiento similar al de la producción

0

1

2

3

4

5

6

Producción 1 Producción 2 Producción 3 Producción 4 Producción 5

IBR

Modificaciones

IBR Global

1.5 dB 3 dB 4.5 dB 6 dB

Page 66: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

67

1, donde el IBR va aumentando progresivamente debido a la reducción gradual del factor de cresta

en la banda de bajos, como se puede observar en la Fig. 38.

9.1.3. Cross Correlation fragmentos originales

A continuación, se presentan los resultados obtenidos para el cálculo de la Cross Correlation en

los fragmentos originales sin ninguna modificación aplicada. El orden de presentación de los

resultados para las producciones musicales finalizadas es el establecido en la Tabla III.

Fig. 40. Cross Correlation en el tiempo para la producción 1.

Page 67: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

68

Fig. 41. Cross Correlation en el tiempo para la producción 2.

Fig. 42. Cross Correlation en el tiempo para la producción 3.

Page 68: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

69

Fig. 43. Cross Correlation en el tiempo para la producción 4.

Fig. 44. Cross Correlation en el tiempo para la producción 5.

Page 69: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

70

Fig. 45. Valores globales Cross Correlation

Como se puede observar en las figuras anteriores, los valores de Cross Correlation para todas las

producciones musicales finalizadas sin modificaciones oscilan entre 0,53 y 0,93. Para la

producción 1 el valor de Cross Correlation es de 0,53, y este es el más cercano a cero de todas las

producciones, con lo que se puede concluir que la producción 1 es la que cuenta con una imagen

estéreo inicial más ancha, al compararse con las otras producciones. Para las producciones 2, 3, y

5 los valores oscilan entre 0,8 y 0,9 de lo que se puede concluir que ambos canales izquierdo y

derecho contienen gran cantidad de información similar. Para la producción 4 se obtuvo el valor

global más alto de Cross Correlation, este valor indica que tanto el canal izquierdo como el derecho

son prácticamente iguales.

9.1.4. Cross Correlation fragmentos modificados

A continuación, se presentan los resultados de Cross Correlation para las mismas 5 producciones

musicales finalizadas, pero con modificaciones realizadas. Estas se realizaron como se explicó

anteriormente en la sección de programa musical. Resultados producción 1 con modificaciones en

la imagen estéreo.

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Producción 1 Producción 2 Producción 3 Producción 4 Producción 5

Cro

ss C

orr

ela

tio

n

Producciones sin modificaciones

Correlacion Cruzada

Page 70: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

71

Fig. 46. Valores de Cross Correlation para la producción 1.

En la Fig. 46 se puede apreciar cómo a medida que se aplican modificaciones a la imagen estéreo

de la producción 1, los valores en el tiempo para la Cross Correlation se empiezan a desplazar

hacia 0, incluso tomando valores negativos. En la modificación de 6 dB es posible que se empiecen

a presentar cancelaciones.

Page 71: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

72

Fig. 47. Valores de Cross Correlation para la producción 2.

En la Fig. 47 se puede apreciar cómo a medida que se aplican modificaciones a la imagen estéreo

de la producción 2, aunque los valores de esta están muy cercanos a uno, estos se empiezan a

desplazar hacia cero.

Page 72: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

73

Fig. 48. Valores de Cross Correlation para la producción 3.

En la Fig. 48 se puede apreciar cómo a medida que se aplican modificaciones a la imagen estéreo

de la producción 3 los valores de Cross Correlation se empiezan a desplazar progresivamente hacia

el valor de cero.

Page 73: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

74

Fig. 49. Valores de Cross Correlation para la producción 4.

Como se puede observar en la Fig. 49, para la producción 4, la cual es la producción que contiene

valores más cercanos a 1, a medida que se aplican modificaciones a la imagen estéreo los valores

se empiezan a desplazar progresivamente alejándose del 1.

Page 74: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

75

Fig. 50. Valores de Cross Correlation para la producción 5.

En la Fig. 50 se puede apreciar cómo a medida que se aplican modificaciones a la imagen estéreo

de la producción 5 los valores de Cross Correlation se empiezan a desplazar progresivamente hacia

el valor de cero.

Page 75: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

76

Fig. 51. Valores globales Cross Correlation.

En la Fig. 51, se pueden apreciar los valores globales de Cross Correlation para las cinco

producciones musicales. En esta gráfica de barras, es evidente que a medida que se aplican

modificaciones a cada producción, los valores de Cross Correlation van a disminuir

progresivamente y en algunos casos llegaran a estar muy cercanos a cero. Esto se da debido a que

las modificaciones aplicadas empiezan a hacer, uno de los canales cada vez más diferente del otro,

y como se explicó anteriormente la Cross Correlation mide la similitud entre dos señales.

9.1.5. Harsh energy fragmentos originales

A continuación, se presentan los resultados obtenidos para el cálculo de harsh energy en los

fragmentos originales sin ninguna modificación aplicada. El orden de presentación de los

resultados para las producciones musicales finalizadas es el establecido en la Tabla III.

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Producción1

Producción2

Producción3

Producción4

Producción5

Títu

lo d

el e

je

Cross Correlation Valores Globales

Original

1.5 dB

3 dB

4.5 dB

6 db

Page 76: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

77

Fig. 52. Harsh energy en el tiempo para la producción 1.

Fig. 53. Harsh energy en el tiempo para la producción 2.

Page 77: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

78

Fig. 54. Harsh energy en el tiempo para la producción 3.

Fig. 55. Harsh energy en el tiempo para la producción 4.

Page 78: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

79

Fig. 56. Harsh energy en el tiempo para la producción 5.

Como se puede observar en las figuras para las gráficas de harsh energy, las 5 producciones

musicales seleccionadas contienen la fracción de energía de la banda de 2kHz a 5kHz entre los

valores de 0 y 0.3. Siendo la producción 2 y la producción 5 las que tiene la fracción de energía

más alta para esa banda, y la producción 4 la que contiene la fracción de energía más baja.

9.1.6. Harsh energy fragmentos modificados

A continuación, se presentan los resultados de harsh energy para las mismas 5 producciones

musicales finalizadas, pero con modificaciones realizadas. Estas se realizaron como se explicó

anteriormente en la sección de programa musical.

Page 79: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

80

Fig. 57. Valores de harsh energy para la producción 1.

Fig. 58. Valores de harsh energy para la producción 2.

Page 80: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

81

Fig. 59. Valores de harsh energy para la producción 3.

Fig. 60. Valores de harsh energy para la producción 4.

Page 81: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

82

Fig. 61. Valores de harsh energy para la producción 5.

Fig. 62. Harsh energy valores globales.

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

Producción1

Producción2

Producción3

Producción4

Producción5

Frac

ció

n d

e e

ne

rgia

Harsh Energy Valores Globales

Original

1.5 dB

3 dB

4.5 dB

6 dB

Page 82: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

83

Como se puede observar en la Fig. 62, la fracción de harsh energy aumenta progresivamente con

las modificaciones realizadas como se esperaba. En esta figura, se puede apreciar claramente que

la producción 4 contiene la menor fracción de energía en la banda de 2kHz a 5 kHz. Mientras que

las producciones 2 y 5 contienen la mayor fracción de harsh energy como se mencionó

anteriormente. Se espera que en las pruebas subjetivas aquellas producciones o alteraciones con

grandes fracciones de harsh energy sean un poco molestas para el sistema auditivo y resulten en

una menor calificación.

9.2. Pruebas subjetivas

9.2.1. Rango dinámico

A continuación se presentan las tablas con las respuestas a la prueba subjetiva para la evaluación

del parámetro de rango dinámico.

Tabla VI. Producción 1-Rango dinámico

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 0 0 0

Peor -2 3 1 5 1

Un Poco Peor -1 1 5 6 2

Igual 0 9 5 2 3

Un Poco Mejor 1 5 7 3 9

Mejor 2 2 1 4 4

Mucho Mejor 3 0 1 0 1

Total 20 20 20 20

Tabla VII. Producción 2-Rango dinámico.

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 0 0 0

Peor -2 1 1 2 3

Un Poco Peor -1 2 4 1 1

Igual 0 12 9 9 4

Un Poco Mejor 1 5 4 5 7

Mejor 2 0 1 2 3

Mucho Mejor 3 0 1 1 2

Total 20 20 20 20

Page 83: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

84

Tabla VIII. Producción 3-Rango dinámico.

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 0 0 0

Peor -2 3 4 2 1

Un Poco Peor -1 2 4 2 7

Igual 0 10 4 7 6

Un Poco Mejor 1 2 7 8 2

Mejor 2 3 1 1 4

Mucho Mejor 3 0 0 0 0

Total 20 20 20 20

Tabla IX. Producción 4-Rango dinámico.

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 0 1 0

Peor -2 3 1 1 3

Un Poco Peor -1 6 1 0 3

Igual 0 2 7 2 3

Un Poco Mejor 1 6 5 7 5

Mejor 2 2 4 6 3

Mucho Mejor 3 1 2 3 3

Total 20 20 20 20

Tabla X. Producción 5-Rango dinámico.

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 0 2 2

Peor -2 3 0 3 4

Un Poco Peor -1 4 5 3 2

Igual 0 8 4 2 3

Un Poco Mejor 1 1 6 7 4

Mejor 2 3 5 2 4

Mucho Mejor 3 1 0 1 1

Total 20 20 20 20

Page 84: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

85

9.2.2. Imagen estéreo

A continuación se presentan las tablas con las respuestas a la prueba subjetiva para la evaluación

del parámetro de imagen estéreo.

Tabla XI. Producción 1-Imagen estéreo.

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 0 0 1

Peor -2 0 0 3 1

Un Poco Peor -1 4 3 2 5

Igual 0 2 2 0 0

Un Poco Mejor 1 2 4 5 1

Mejor 2 7 4 4 4

Mucho Mejor 3 0 2 1 3

Total 15 15 15 15

Tabla XII. Producción 2-Imagen estéreo.

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 0 0 0

Peor -2 0 3 3 2

Un Poco Peor -1 3 2 2 4

Igual 0 5 4 6 1

Un Poco Mejor 1 6 6 2 5

Mejor 2 1 0 2 2

Mucho Mejor 3 0 0 0 1

Total 15 15 15 15

Tabla XIII. Producción 3-Imagen estéreo.

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 0 0 0

Peor -2 1 0 0 1

Un Poco Peor -1 0 5 2 5

Igual 0 8 5 6 4

Un Poco Mejor 1 4 3 5 4

Mejor 2 1 1 2 1

Mucho Mejor 3 1 1 0 0

Total 15 15 15 15

Page 85: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

86

Tabla XIV. Producción 4-Imagen estéreo.

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 2 0 2

Peor -2 0 1 2 2

Un Poco Peor -1 3 3 1 1

Igual 0 4 1 7 3

Un Poco Mejor 1 3 5 2 4

Mejor 2 4 3 3 3

Mucho Mejor 3 1 0 0 0

Total 15 15 15 15

Tabla XV. Producción 5-Imagen estéreo.

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 0 2 1

Peor -2 1 1 3 0

Un Poco Peor -1 4 5 2 5

Igual 0 3 3 3 1

Un Poco Mejor 1 4 3 3 3

Mejor 2 2 1 2 3

Mucho Mejor 3 1 2 0 2

Total 15 15 15 15

9.2.3. Contenido en frecuencia

A continuación se presentan las tablas con las respuestas a la prueba subjetiva para la evaluación

del parámetro de contenido en frecuencia.

Tabla XVI. Producción 1-Contenido en frecuencia.

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 0 1 1

Peor -2 2 1 1 0

Un Poco Peor -1 7 7 2 3

Igual 0 3 4 2 0

Un Poco Mejor 1 7 5 8 0

Mejor 2 1 2 4 11

Mucho Mejor 3 0 1 2 5

Total 20 20 20 20

Page 86: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

87

Tabla XVII. Producción 2-Contenido en frecuencia.

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 1 1 1

Peor -2 1 0 2 1

Un Poco Peor -1 7 3 5 1

Igual 0 7 7 2 0

Un Poco Mejor 1 4 7 5 4

Mejor 2 1 2 3 8

Mucho Mejor 3 0 0 2 5

Total 20 20 20 20

Tabla XVIII. Producción 3-Contenido en frecuencia.

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 0 0 0

Peor -2 2 0 0 2

Un Poco Peor -1 2 3 6 2

Igual 0 7 12 6 3

Un Poco Mejor 1 7 3 5 2

Mejor 2 2 2 2 6

Mucho Mejor 3 0 0 1 5

Total 20 20 20 20

Tabla XIX. Producción 4-Contenido en frecuencia.

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 0 0 0

Peor -2 1 2 3 2

Un Poco Peor -1 7 5 3 4

Igual 0 2 2 1 0

Un Poco Mejor 1 4 5 7 1

Mejor 2 4 6 6 8

Mucho Mejor 3 2 0 0 5

Total 20 20 20 20

Page 87: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

88

Tabla XX. Producción 5-Contenido en frecuencia.

Percepción Valor Cantidad de personas

1,5 dB 3 dB 4,5 dB 6 dB

Mucho Peor -3 0 0 0 0

Peor -2 2 2 2 2

Un Poco Peor -1 3 3 5 0

Igual 0 13 2 2 1

Un Poco Mejor 1 0 5 1 1

Mejor 2 2 3 3 6

Mucho Mejor 3 0 5 7 10

Total 20 20 20 20

Page 88: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

89

10. Análisis de resultados

Teniendo ya los resultados que fueron expuestos anteriormente, es importante realizar su análisis,

lo cual será llevado a cabo mediante una presentación más concreta de los valores obtenidos en las

pruebas objetivas. Posteriormente será presentado el análisis estadístico realizado para los datos

obtenidos mediante las pruebas subjetivas, para determinar su validez y determinar lo que cada una

de estas pruebas sugiere acerca de la percepción de la calidad de los sujetos enmarcada en cada uno

de los parámetros previamente establecidos.

10.1. Pruebas objetivas

Tabla XXI. IBR valores globales.

IBR (dB)

Producción 1 Producción 2 Producción 3 Producción 4 Producción 5

Original 3,10 3,64 3,06 4,17 3,50

1.5 dB 3,53 3,71 3,16 4,24 3,74

3 dB 3,58 3,74 3,20 4,40 3,84

4.5 dB 3,63 3,76 3,27 4,59 3,93

6 dB 3,68 3,78 3,15 4,79 3,93

Tabla XXII. Cross Correlation valores globales.

CORRELACION CRUZADA

Producción 1 Producción 2 Producción 3 Producción 4 Producción 5

Original 0,540 0,842 0,882 0,923 0,834

1.5 dB 0,333 0,733 0,784 0,861 0,714

3 dB 0,278 0,720 0,779 0,855 0,697

4.5 dB 0,128 0,636 0,713 0,816 0,600

6 db 0,012 0,536 0,624 0,761 0,483

Page 89: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

90

Tabla XXIII. Harsh energy valores globales.

HARSH ENERGY

Producción 1 Producción 2 Producción 3 Producción 4 Producción 5

Original 0,029 0,062 0,052 0,022 0,062

1.5 dB 0,034 0,074 0,062 0,027 0,075

3 dB 0,039 0,086 0,073 0,031 0,089

4.5 dB 0,043 0,096 0,083 0,036 0,102

6 dB 0,046 0,106 0,093 0,040 0,115

10.2. Pruebas subjetivas

Luego de haber obtenido los datos de las pruebas subjetivas realizadas, y de haberlos tabulado, se

procedió a realizar una prueba estadística para determinar de qué manera se presenta la variación

de los datos mencionados.

Antes de detallar el procedimiento realizado para hacer el análisis estadístico, es importante aclarar

que fueron 3 pruebas subjetivas las que se realizaron, una de rango dinámico (ver Anexo 7), otra

de imagen estéreo (ver Anexo 8) y una última de contenido en frecuencia (ver Anexo 9). Dentro

de estas pruebas se evaluaron 5 producciones musicales finalizadas (ver Tabla III), en 4 etapas

distintas. Estas etapas presentaban un fragmento de las producciones musicales, seguido del mismo

fragmento con una modificación determinada, según la prueba que se estuviese realizando, para

posteriormente pedir al sujeto una comparación entre el primer fragmento y el segundo.

Finalmente, los datos obtenidos se organizaron separando cada prueba por producción musical, y

según la modificación realizada. Dejando cada prueba con 5 grandes grupos de datos (por las 5

producciones musicales), cada uno de ellos conteniendo las 4 etapas de modificación a manera de

sub-grupos.

La recomendación ITU-R BS.1116-3 [25], sugiere un análisis estadístico haciendo uso de pruebas

paramétricas, y hace especial mención del análisis de la varianza ANOVA.

Esta prueba estadística tiene una suposición (que en caso de que no se cumpla se sugiere descartar

la prueba para el análisis) y es el hecho de que la población, o las observaciones realizadas estén

normalmente distribuidas [29]. Para lo anterior, fue necesario realizar un análisis previo de la

Page 90: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

91

normalidad de las observaciones mediante la prueba de normalidad de Shapiro-Wilk, la cual indicó

que para las observaciones realizadas en algunas de las etapas de cambio de ciertas producciones,

no existía una distribución normal de los datos, y a pesar de que este no fue el resultado para todos

los grupos de observaciones, ni para todos los sub-grupos, el hecho de que no existiera la

normalidad en todos los datos, impidió proceder con el desarrollo de las pruebas paramétricas, en

este caso la ANOVA.

Al descartar las pruebas paramétricas, se decidió realizar un análisis mediante una prueba no

paramétrica, y se eligió la prueba de Kruskal Wallis. Para la cual, inicialmente se realizó una prueba

no paramétrica de Levene, para tratar de demostrar la homogeneidad entre las varianzas de los sub-

grupos de cada producción en cada prueba. A continuación en la Tabla XXIV, se muestran los

valores de significancia obtenidos para esta prueba de homogeneidad, los cuales deben ser mayores

a 0,05 para establecer que la varianza entre las etapas de cada producción para las distintas pruebas,

es similar.

Tabla XXIV. Valores de significancia para la homogeneidad de la varianza.

Producción Prueba Significancia

1 IBR 0,041

2 IBR 0,075

3 IBR 0,843

4 IBR 0,025

5 IBR 0,338

1 Cross Correlation 0,998

2 Cross Correlation 0,776

3 Cross Correlation 0,485

4 Cross Correlation 0,387

5 Cross Correlation 0,497

1 Harsh Energy 0,000

2 Harsh Energy 0,000

3 Harsh Energy 0,033

4 Harsh Energy 0,070

5 Harsh Energy 0,000

Page 91: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

92

Como se puede ver en la Tabla XXIV, solo 9 de los 15grupos de datos muestran una significancia

mayor a 0,05, lo cual sugiere que estos grupos van a tener una respuesta más confiable a la hora de

aplicarles la prueba de Kruskal Wallis, pues esta establece el supuesto de que existe homogeneidad

entre las varianzas de los grupos. Sin embargo, se decide aplicar la prueba por igual a todos los

grupos, advirtiendo el hecho de que no se asegura una fidelidad alta para los grupos que mostraron

que no cumplen con el supuesto de homogeneidad.

La prueba estadística de Kruskal Wallis considera una hipótesis nula H0 que asume que todas las

distribuciones de probabilidad son iguales [29]:

𝑯𝟎: 𝝁𝟏 = 𝝁𝟐 = ⋯ = 𝝁𝑰 (11)

Ahora bien, si la significancia α es menor a 0,05, se rechaza la hipótesis nula, de lo contrario, se

falla al rechazar esta misma.

Es importante considerar la distribución de los datos dentro de los grupos mencionados, con el fin

de poder interpretar de una mejor manera el resultado de la prueba de Kruskal Wallis. Por lo tanto

se presentan gráficas de cajas y bigotes de las distintas pruebas.

Conociendo el comportamiento global de los datos mediante la observación de la Fig. 63, y

complementando esta observación con la variabilidad de los datos establecida por la prueba de

Kruskal Wallis en la Tabla XXV, se puede decir sobre la percepción de la calidad enmarcada en el

rango dinámico: que los sujetos que tomaron la prueba de escucha para este parámetro, a la hora

de evaluar la producción musical 1 y 4, tuvieron respuestas con una variabilidad estadística

significativa entre las etapas de modificación de esta producción, considerando el hecho de que el

valor de significancia es de 0,032 y 0,019 respectivamente para cada producción, por lo tanto el

valor estadístico de la prueba se encuentra dentro de la franja de rechazo de la distribución,

indicando así que la hipótesis nula H0 se rechaza en ambos casos, y se comprueba una mayor

variabilidad entre las etapas de la producción 4, debido a que el valor estadístico de la prueba se

encuentra más alejado del valor crítico de la misma (α=0,05).

Ahora bien, en la Fig. 63, se puede ver que para ambas producciones (1 y 4) se da un

comportamiento en el cual se aprecia un incremento en la calificación a medida que se avanza en

Page 92: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

93

las etapas de modificación, exceptuando en la producción 1 la etapa con un cambio de -4,5 dB y

en la producción 4 la etapa con cambio de -6 dB, en las cuales se ve una distribución de datos

mayor a través del rango de calificación (de -3 a 3), por lo tanto no se puede establecer una

tendencia. A pesar de esto, en la producción 1, para este caso puntual, se puede ver una estabilidad

de los datos mayor en la zona inferior a la mediana, lo cual podría indicar que el 50% de la muestra

coincidió en el hecho de que percibieron una calidad inferior en el fragmento que no estaba

modificado.

Fig. 63. Gráfico de cajas y bigotes para la prueba subjetiva de rango dinámico

Page 93: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

94

Tabla XXV. Resultados de la prueba de Kruskal Wallis para la prueba subjetiva de rango

dinámico.

Estadísticos de contrastea,b

Producción 1 Producción 2 Producción 3 Producción 4 Producción 5

Chi-cuadrado 8,831 7,405 0,934 9,988 3,806

Sig. Asintótica 0,032 0,060 0,817 0,019 0,283

El análisis que se puede hacer para las demás producciones no supone algo muy determinante, pues

ni se obtuvo un comportamiento que indique que los sujetos evidenciaron una degradación de la

calidad del fragmento modificado, ni la percepción se focalizó exclusivamente en alguna zona del

rango de calificación, de manera que tampoco se puede establecer que los sujetos no percibieron

ningún cambio. Por otro lado en la Fig. 64 se puede observar la distribución de resultados obtenida

para cada una de las producciones.

Page 94: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

95

Fig. 64. Gráfico de cajas y bigotes para la prueba subjetiva de imagen estéreo.

Page 95: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

96

Tabla XXVI. Resultados de la prueba de Kruskal Wallis para la prueba subjetiva de

imagen estéreo.

Estadísticos de contrastea,b

Producción 1 Producción 2 Producción 3 Producción 4 Producción 5

Chi-cuadrado 0,044 1,306 2,772 3,491 2,821

Sig. Asintótica 0,998 0,728 0,428 0,322 0,420

Como se puede observar en la Tabla XXVI, todos los valores de significancia obtenidos para las

pruebas subjetivas, enmarcadas en el parámetro de imagen estéreo, son mayores a 0,05, lo que

significa que no existe una variación estadística significativa entre las etapas de todas las

producciones musicales evaluadas. Debido a esto, se falla al rechazar la hipótesis nula 𝐻0, lo cual

indica que los resultados obtenidos para las pruebas subjetivas de imagen estéreo, se encuentran

distribuidos de manera no uniforme a lo largo del rango de calificación. Esto no necesariamente

indica que no se percibieron cambios entre las muestras de audio presentadas, pero sí indica que

los resultados obtenidos para las pruebas de escucha, enmarcados en el parámetro de imagen

estéreo, no suponen resultados determinantes. En el caso de la producción 1 se puede apreciar que

aunque existe una gran dispersión en las respuestas obtenidas para las diferentes etapas, los datos

tiene una tendencia a estar en los valores de calificación positivos, lo que significa que los sujetos

percibieron que la muestra sin modificaciones sonaba mejor que la muestra con modificaciones en

la mayoría de los casos. Para la producción 2, la mediana se encuentra muy cercana al valor de

cero para las tres primeras etapas, con una concentración bastante uniforme entre los valores de 1

y -1. En la cuarta etapa, la mediana se desplaza un poco hacia valores positivos y la concentración

ya no es tan uniforme, esto significa que al analizar los datos para las primeras tres etapas de la

producción 2, se podría decir que la gran mayoría de sujetos no percibieron cambios, o en el caso

de hacerlo, estos no eran cambios muy significativos. Los datos obtenidos para la producción 3

muestran una concentración de datos cercana al valor de cero, de lo cual se puede concluir que la

mayoría de sujetos no escucharon cambios perceptibles y calificaron las dos muestras de los

fragmentos de audio como iguales. Para las producciones 4 y 5 se puede apreciar que las medias

no se estabilizan en ningún valor para ninguna de las 4 etapas, y que no existe una concentración

de datos uniforme a lo largo de la escala de calificación, especialmente para la producción 5, lo

Page 96: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

97

que hace difícil obtener conclusiones determinantes sobre los efectos de la imagen estéreo sobre la

percepción de calidad.

Fig. 65. Gráfico de cajas y bigotes para la prueba subjetiva de contenido en frecuencia.

Page 97: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

98

Tabla XXVII. Resultados de la prueba de Kruskal Wallis para la prueba subjetiva de

contenido en frecuencia.

Estadísticos de contrastea,b

Producción 1 Producción 2 Producción 3 Producción 4 Producción 5

Chi-cuadrado 22,206 21,291 9,358 7,814 23,062

Sig.

Asintótica 0,000 0,000 0,025 0,050 0,000

La prueba subjetiva para el contenido en frecuencia, tiene un comportamiento bastante interesante,

pues la prueba estadística aplicada sobre estos datos (ver Tabla XXVII), establece que todas las

producciones se encuentran por debajo del valor de significancia crítico (0,05), por lo tanto para

todos los casos, se rechaza la hipótesis nula H0, permitiendo tomar la hipótesis alterna, que sugiere

que existe una variación estadística significativa entre los datos de todas las producciones para este

parámetro específico (contenido en frecuencia).

Pues bien, como se ve en la Fig. 65 y al apoyarse en las tablas de la XVI a XX, se puede notar que

en la mayoría de casos, la etapa en la cual se hizo un incremento de 1,5 dB en la banda de Harsh

Energy, los sujetos tendían a considerar que las muestras era iguales o tenían poca diferencia, pues

la mayor parte de la muestra se focalizó en el rango de -1 a 1, con algunas desviaciones. Y al

avanzar en las etapas de modificación, se puede observar que aunque no se ve gráficamente un

desplazamiento tan notorio de la calificación, si se evidencia una tendencia al incremento de la

concentración de datos sobre calificaciones superiores. Lo anterior indica que conforme se aumentó

la energía contenida en la banda de 2 kHz a 5 kHz, hubo una tendencia a que el fragmento sin

modificadores fuera considerado como mejor que el fragmento con modificaciones.

Page 98: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

99

11. Conclusiones

Mediante el desarrollo y la implementación de los algoritmos en MATLAB, para la evaluación de

los parámetros de audio establecidos, fue posible la obtención de resultados objetivos sobre las 5

producciones musicales seleccionadas. Además, la evaluación de la percepción de la calidad

enmarcada en cada uno de estos parámetros, permitió la recolección de información respecto de la

influencia que la modificación de los parámetros originales tiene sobre esta.

Para las pruebas objetivas de rango dinámico, se evaluó el parámetro de IBR, en el cual se

evidenciaron cambios conforme se modificaba la limitación. Sin embargo, estos cambios no fueron

progresivos en todos los casos, debido a que el IBR es la relación entre los factores de cresta de

cada una de las tres bandas establecidas previamente, por lo tanto es evidente que dependiendo del

balance existente entre los factores de cresta de estas bandas, la limitación podrá afectar el rango

dinámico de solo una de las bandas, y debido a esto se pueden tener incrementos en el IBR a medida

que se aumenta la limitación. Lo cual va en contra de lo que se esperaría luego de aplicar una

limitación a una producción musical, ya que considerando que la limitación reduce el rango

dinámico, esta también reduciría el parámetro de IBR.

Ahora bien, en las pruebas objetivas realizadas para la imagen estéreo y el contenido en frecuencia

se evaluaron los parámetros de Cross Correlation y harsh energy respectivamente. A medida que

se realizaron modificaciones en la imagen estéreo de las producciones musicales (ampliación de la

imagen), se encontró que el Cross Correlation tiende a desplazarse hacia valores cada vez más

cercanos a cero, y estos cambios se presentan de manera progresiva junto con las modificaciones

realizadas. Por otro lado, la relación de energía que establece el parámetro de harsh energy, se

incrementaba paulatinamente con los aumentos realizados a la energía contenida en la banda de 2

kHz a 5 kHz.

Para las pruebas subjetivas, se encontró que el Cross Correlation no aporta información

determinante con respecto a la relación entre este parámetro y la percepción de calidad, debido a

la gran dispersión de los datos recolectados, razón por la cual, se impedía establecer una tendencia

clara sobre la percepción de calidad de este parámetro específico.

Page 99: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

100

Si bien las pruebas subjetivas realizadas para el rango dinámico muestran el hecho de que los

sujetos perciben cambios en la calidad de ciertas producciones musicales, esta evidencia no resulta

concluyente, puesto que no es uniforme a través de las producciones, y además, en cada una de las

producciones, las diferencias encontradas no muestran una tendencia evidente.

Finalmente, en las pruebas realizadas para el contenido en frecuencia, existe una tendencia que

aunque no es clara, permite asumir, en términos generales, que existe una percepción de la

degradación de la calidad de las producciones musicales, a medida que se aumenta la energía

contenida en la banda de 2 kHz a 5 kHz.

Page 100: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

101

12. Trabajo futuro

Dados los resultados obtenidos en cuanto a la relación entre los parámetros que fueron medidos, y

la percepción de la calidad de los mismos, se propone realizar las pruebas de escucha para cada

uno de los parámetros, diseñadas en este trabajo de investigación, con una muestra mayor de la

población seleccionada, de tal forma que se pueda establecer si al incrementar la muestra, se pueden

obtener datos más concluyentes en este aspecto.

Además, se propone que en caso de comprobar una relación entre los parámetros objetivos y la

percepción de la calidad de los mismos, se evalúe la relación existente entre los parámetros y de

nuevo, la forma en que esta relación se ve reflejada en la percepción de la calidad en producciones

musicales finalizadas.

Page 101: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

102

Referencias

[1] C. Kling, «New Studio Strategies in Music Production — The Disappearing,» de Convention

e-Brief 138, Berlin, Germany, 2014.

[2] E. Skovenborg y T. Lund, «Loudness Descriptors to Characterize Programs and Music

Tracks,» de AES Convention 125, San Francisco, CA, USA, 2008 Octubre 2-5.

[3] J. Moncaux, F. Pachet, F. Amadu, P. Roy y A. Zils, «Descriptor-based spatialization,» de

AES convention 118, Barcelona, España, 2005.

[4] S. Fenton, B. Fazenda y J. Wakefield, «Objective measurement of music quality using inte-

band reationship analysis,» de AES convention 130, London, UK, 2011 Mayo 13-16.

[5] M. Terrel, A. Simpson y M. Sandler, «The mathematics of mixing,» Journal of the audio

engineering society, vol. 62, nº 1/2, Enero 2014.

[6] International Telecommunication Union [ITU], «General methods for the subjective

assessment,» 1997-2003.

[7] A. Wilso y B. Fazenda, «Perception & evaluation of audio quality in music production,» de

16th Int. Conference on digital audio effects, Maynooth, Ireland, 2013, Septiembre 2-5.

[8] N. Osmanovic, «Clasification of musicla genres using audio waveform descriptors in MPEG-

7,» de AES convention 125, San Francisco, CA, USA, 2008.

[9] J. D. Broesch, D. Stranneby y W. Walker, Digital signal processing, Burlington: Newnes,

2009.

[10] D. Stanneby y W. Walker, Digital signal processing and applications, Segunda ed., Boston;

London;: Elsevier, 2004.

[11] J. G. Proakis y D. G. Manolakis, Digital signal procesing, Cuarta ed., New Jersey: Pearson

Prentice Hall, 2007.

[12] N. Aldrich, Digital Audio explained, Segunda ed., Fort Waine, Indiana: Sweetwater Sound,

2005, pp. 20-35.

[13] J. Corey, Audio production and Critical listening, Burlington: Focal Press, 2010.

[14] W. M. Hartmann, Signals, Sound, and Sensation (Modern Acoustics and Signal Processing),

Springer, 2004.

Page 102: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

103

[15] I. Dash, «True peak metering – a tutorial review,» de AES convention 136, Berlin, Germany,

2014 Abril 26–29.

[16] S. Savage, The Art of Digital, New York: Oxford, 2011.

[17] B. Katz, Mastering Audio: The Art and the Science, Focal Press, 2007.

[18] F. Floru, «Attack and Release Time Constants in RMS-Based Compressors and Limiters,»

de AES convention 99, New York, 1995 Octubre 6-9.

[19] E. B. Brixen, Audio Metering: Measurements, Standards & Practice, Focal Press, 2010.

[20] V. M. S. Acuña, «Method to Evaluate the Ballistics of Audio Meters,» Journal of the Audio

Engineering Society, vol. 63, nº 7/8, pp. 583-589, 2015.

[21] S. Wolf y R. F. Smith, Guía para mediciones electrónicas y prácticas de laboratorio, Prentice

Hall, 1992.

[22] E. Vickers, «The Loudness War: Background,,» de AES convention 129, San Francisco, CA,

USA, 2010 Noviembre 4-7.

[23] W. R. Woszczyk, «Quality assessment of multichannel recordings,» de AES convention 12, .

[24] A. Lerch, An Introduction to Audio Content Analysis, New Jersey: Wiley, 2012.

[25] International Telecommunication Union [ITU], «Algorithms to measure audio programme

loudness and true-peak audio level,» 2011.

[26] International Telecommunication Union [ITU], «Methods for the subjective assessment of

small impairments in audio systems,» 2015.

[27] H. Fastl y E. Zwicker, Psychoacoustics-Facts and Models, Springer-Verlag Berlin

Heidelberg, 2006.

[28] «Genelec® 1037C and 1038B Operating manual,» 2005. [En línea]. Available:

http://www.genelec.com/documents/opmans/OM1037c38b.pdf. [Último acceso: 18 Abril

2016].

[29] J. L. Devore, Probabilidad y estadística para ingeniería y ciencias, 7 ed., Cengage Learning,

2008.

Page 103: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

104

Anexos

Anexo 1. Script para el cálculo del parámetro de IBR.

clear all;close all;clc

% Selección de la Señal

[audio, Fs] = wavread('1.wav'); % Lee archivo de audio que se trabajara

audio = sum(audio,2); % Convierte el archivo a mono

audion = audio/max(abs(audio)); % Normaliza la señal de audio

N = length(audion); % Largo de la señal

t = (0:N-1)/Fs; % Duracion de la señal en segundos

% GRAFICA AUDIO NORMALIZADO

figure(1)

plot(t, audion, 'r')

ylim([-1 1])

xlim([0 7])

grid on

xlabel('TIEMPO (S)')

ylabel('AMPLITUD')

title('\bf SEÑAL EN EL DOMINIO DEL TIEMPO')

%CALCULO IBR

[RDCalc, IBRCalc, IBRtimes, frames, XL, XM, XH, CL, CM, CH] = IBRcalc(audion, 100, 50, 44100);

% GRAFICA FACTOR DE CRESTA

figure(2);

hold on;

plot(IBRtimes, RDCalc(:,1), 'b-', 'LineWidth', 2);

plot(IBRtimes, RDCalc(:,2), 'g-', 'LineWidth', 2);

plot(IBRtimes, RDCalc(:,3), 'r-', 'LineWidth', 2);

legend('Banda de Bajas','Banda Media','Banda de Altas')

xlabel('TIEMPO (S)');

ylabel('FACTOR DE CRESTA(dB)');

title('\bf RANGO DINAMICO EN EL TIEMPO')

grid on;

hold off;

%GRAFICA IBR

figure(3);

plot(IBRtimes, IBRCalc, 'b-', 'LineWidth', 2);

xlim([0 7])

xlabel('TIEMPO (S)');

ylabel('IBR');

title('\bf IBR EN EL TIEMPO')

grid on;

Page 104: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

105

% GRAFICAS DE LA SEÑAL FILTRADA

figure(4)

subplot(3,1,1)

plot(t, XL, '-b')

xlim([0 7])

ylim([-1 1])

grid on

xlabel('TIEMPO (S)')

ylabel('AMPLITUD')

title('\bf SEÑAL FILTRADA BANDA DE BAJOS EN EL DOMINIO DEL TIEMPO')

subplot(3,1,2)

xlim([0 7])

plot(t, XM, '-g')

xlim([0 7])

ylim([-1 1])

grid on

xlabel('TIEMPO (S)')

ylabel('AMPLITUD')

title('\bf SEÑAL FILTRADA BANDA DE MEDIOS EN EL DOMINIO DEL TIEMPO')

subplot(3,1,3)

plot(t, XH, '-r')

xlim([0 7])

ylim([-1 1])

grid on

xlabel('TIEMPO (S)')

ylabel('AMPLITUD')

title('\bf SEÑAL FILTRADA BANDA DE ALTOS EN EL DOMINIO DEL TIEMPO')

Page 105: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

106

Anexo 2. Función para el cálculo del parámetro de IBR.

function [RD, IBRvalues, IBRtimes, frames, XL, XM, XH, CL, CM, CH] = CalculateIBR(audion,

Blocksize, overlap, SampleFrequency)

% Overlap en ms

% Blocksize en ms

winDur = Blocksize; % Tamaño de la ventana en ms

winSize = SampleFrequency*winDur/1000; % Tamaño de la ventana en samples

olapSize = SampleFrequency*(winDur/2)/1000; % Overlap fijo en 50% en samples

maxI = floor( length(audion)/olapSize - winSize/olapSize + 1);% Numero de iteraciones

X = audion; % Obtencion de la muestra a trabajarse

N = 120; % Orden del filtro

% FILTRADO DE LA SEÑAL

% Obtencion de los coeficientes

CL = fir1(N,0.0429,'low'); % Frecuencia de corte en 947 Hz para filtro pasa

bajas

CM = fir1(N,[0.0429 0.1445]); % Filtro pasa banda de 947 - 3186 Hz

CH = fir1(N,0.1445,'high'); % Filtro pasa altas con frecuencia de corte en

3186 Hz

% Aplicacion de los filtros

XL = filter(CL,1,X); % Filtro pasa bajos

XM = filter(CM,1,X); % Filtro pasa banda

XH = filter(CH,1,X); % Filtro pasa altos

RDtemporal = zeros(maxI, 3);

IBRtemporal = zeros(maxI, 1);

for i = 1:maxI % Iteraciones por ventanas con el cálculo del

solapamiento

BloqueL = XL( (i-1)*olapSize+1 : (i-1)*olapSize+winSize); % Calculo del rango dinamico para

la banda de bajos % Calculo del rango

dinamico para la banda de bajos

MaxX = max(BloqueL);

StdX = std(BloqueL);

DR = 20*log10(MaxX/StdX);

RDtemporal(i, 1) = DR;

BloqueM = XM( (i-1)*olapSize+1 : (i-1)*olapSize+winSize); % Calculo del rango dinamico para

la banda media

MaxX = max(BloqueM);

StdX = std(BloqueM);

DR = 20*log10(MaxX/StdX);

RDtemporal(i, 2) = DR;

Page 106: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

107

BloqueH = XH( (i-1)*olapSize+1 : (i-1)*olapSize+winSize); % Calculo del rango dinamico para

la banda de altos

MaxX = max(BloqueH);

StdX = std(BloqueH);

DR = 20*log10(MaxX/StdX);

RDtemporal(i, 3) = DR;

timeIBR(i) = (i*olapSize)/SampleFrequency;

end

IBRtemporal = std(RDtemporal, 0, 2);

RD = RDtemporal;

IBRvalues = IBRtemporal;

IBRtimes = timeIBR;

frames = maxI;

end

Page 107: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

108

Anexo 3. Script para el cálculo del parámetro de Cross Correlation.

clear all; close all; clc

[audio, Fs] = wavread('3.wav'); % Lee archivo de audio que se trabajara

xL = audio(:,1)/max(abs(audio(:,1))); % Normaliza la señal de audio canal L

xR = audio(:,2)/max(abs(audio(:,2))); % Normaliza la señal de audio canal R

N = length(audio);

t = (0:N-1)/Fs;

NL = length(xL);

tL = (0:NL-1)/Fs;

NR = length(xR);

tR = (0:NR-1)/Fs;

xLmax = max(abs(xL));

xRmax = max(abs(xR));

% Graficar

figure(1)

subplot(2,1,1)

plot(t, xL, '-r')

xlim([0 max(t)])

ylim([-1 1])

grid on

xlabel('TIEMPO (S)')

ylabel('AMPLITUD')

title('\bf CANAL IZQUIERDO EN EL DOMINIO DEL TIEMPO')

subplot(2,1,2)

plot(t, xR, '-b')

xlim([0 max(t)])

ylim([-1 1])

grid on

xlabel('TIEMPO (S)')

ylabel('AMPLITUD')

title('\bf CANAL DERECHO EN EL DOMINIO DEL TIEMPO')

%cálculo correlación cruzada

[CC, timeCC, norm]=CalculateCorr(xL, xR, 100, 50, 44100);

figure(2)

plot(timeCC,CC, 'b-', 'LineWidth', 2)

xlim([0 max(t)])

ylim([-1.5 1.5])

grid on

xlabel('TIEMPO (S)')

ylabel('CORRELACIÓN')

title('\bf CORRELACIÓN EN EL DOMINIO DEL TIEMPO')

Page 108: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

109

Anexo 4. Función para el cálculo del parámetro de Cross Correlation

function [CC, timeCC, norm] = CalculateCorr(xL, xR, Blocksize, overlap, SampleFrequency)

% Overlap en ms

% Blocksize en ms

winDur = Blocksize; % Tamaño de la ventana en ms

winSize =SampleFrequency*winDur/1000; % Tamaño de la ventana en samples

olapSize = SampleFrequency*(winDur/2)/1000; % Overlap fijo en 50% en samples

maxIL = floor( length(xL)/olapSize - winSize/olapSize + 1); numero de iteraciones L

maxIR = floor( length(xR)/olapSize - winSize/olapSize + 1); numero de iteraciones L

XL=xL;

XR=xR;

for i = 1:maxIL %iteraciones por

ventanas con el cálculo del solapamiento

BloqueL = XL( (i-1)*olapSize+1 : (i-1)*olapSize+winSize); %se aplica la ventana en el canal

izquierdo, tiene en cuenta el solapamiento

BloqueR = XR( (i-1)*olapSize+1 : (i-1)*olapSize+winSize); %se aplica la ventana en el canal

derecho, tiene en cuenta el solapamiento

sumL=sum(BloqueL.^2); %suma de los cuadrados de cada una de las muestras de la ventana IZQ

actual

sumR=sum(BloqueR.^2); %suma de los cuadrados de cada una de las muestras de la ventana DER

actual

norm=sqrt(sumL*sumR); %cálculo del parámetro de normalización

a=BloqueL.*BloqueR; %multiplicación punto a punto de las muestras de cada bloque

CC(i)=((sum(a))/norm);%cálculo de la correlación (suma de multiplicación anterior dividido la

normalización)

timeCC(i) = (i*olapSize)/SampleFrequency; %tiempo en el que se ubica cada ventana

end

end

Page 109: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

110

Anexo 5. Script para el cálculo del parámetro de Harsh Energy

clear all;close all;clc

[audio, Fs] = wavread('1.wav'); % Lee archivo de

audio que se trabajara

audio = sum(audio,2); % Convierte el

archivo a mono

audion = audio/max(abs(audio)); % Normaliza la señal

de audio

N = length(audion); %cantidad de datos

t = (0:N-1)/Fs; %tiempo en segundos

% GRAFICA AUDIO NORMALIZADO

figure(1)

plot(t, audion, 'r')

ylim([-1 1])

grid on

xlabel('Tiempo (S)')

ylabel('Amplitud')

title('Señal en el dominio del tiempo')

% CALCULO HARSH ENERGY

[Xharsh, Etot, Efilt, Harsh, timeHarsh, CM] = CalculateHarsh(audion, 100, 50, 44100);

% GRÁFICA DE LA SEÑAL FILTRADA DE 2K A 5kHz

figure(2)

plot(t, Xharsh, '-r')

ylim([-1 1])

grid on

xlabel('Tiempo (S)')

ylabel('Amplitud')

title('Señal filtrada en el dominio del tiempo')

% GRÁFICA DE LA ENERGÍA TOTAL

figure(3);

plot(timeHarsh, Etot, 'b-', 'LineWidth', 2);

xlabel('TIEMPO (S)');

ylabel('Energía total');

title('Energía total en el tiempo')

grid on;

% GRÁFICA DE LA ENERGÍA EN LA BANDA DE 2k A 5kHz

figure(4)

plot(timeHarsh, Efilt, 'b-', 'LineWidth', 2);

xlabel('TIEMPO (S)');

ylabel('Energía de la banda de 2k a 5kHz');

title('Energía de la banda de 2k a 5kHz en el tiempo')

grid on;

% GRÁFICA DEL HARSH ENERGY

Page 110: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

111

figure(5)

plot(timeHarsh, Harsh, 'b-', 'LineWidth', 2);

ylim([0 1])

xlabel('TIEMPO (S)');

ylabel('Fracción de energía');

title('Harsh energy en el tiempo')

grid on;

Page 111: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

112

Anexo 6. Función para el cálculo del parámetro de Harsh Energy

function [Xharsh, Etot, Efilt, Harsh, timeHarsh, CM] = CalculateHarsh(audion, Blocksize, overlap,

SampleFrequency)

% Overlap en ms

% Blocksize en ms

winDur = Blocksize; % Tamaño de la ventana en ms

winSize = SampleFrequency*winDur/1000; % Tamaño de la ventana en samples

olapSize = SampleFrequency*(winDur/2)/1000; % Overlap fijo en 50% en samples

maxI = floor( length(audion)/olapSize - winSize/olapSize + 1);% numero de iteraciones

X=audion;

N = 120; %Orden del filtro

CM = fir1(N,[0.0907 0.2268]); % Coeficientes para el Filtro pasa banda de 2k - 5k Hz

Xharsh=filter(CM,1,audion); % Aplicación del filtro sobre la señal

Harsh=zeros(maxI,1);%Vector para almacenar el valor de harsh energy para cada ventana

Etot=zeros(maxI,1); % Vector para almacenar el valor de la energía total para cada ventana

Efilt=zeros(maxI,1);%Vector para almacenar el valor de la energía contenida en la banda de 2kHz

a 5kHz

for i = 1:maxI % iteraciones por ventanas con el cálculo del solapamiento

Xntot = X( (i-1)*olapSize+1 : (i-1)*olapSize+winSize); % Se aplica la ventana a la señal

completa, teniendo en cuenta el solapamiento del 50%

Xnfilt = Xharsh( (i-1)*olapSize+1 : (i-1)*olapSize+winSize); Se aplica la ventana a la señal

filtrada, teneindo en cuenta el solapamiento del 50%

Etot(i)=sum(Xntot.^2); % Se calcula la energía total de la ventana actual

Efilt(i)=sum(Xnfilt.^2); Se calcula la energía de la señal filtrada, que corresponde a la

energía contenida en la banda de 2k a 5kHz

Harsh(i)=Efilt(i)/Etot(i); % Se halla la relación entre la energía contenida en la banda

mencionada y la energía total

timeHarsh(i) = (i*olapSize)/SampleFrequency; % tiempo en el que se ubica cada ventana

end

Page 112: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

113

Anexo 7. Prueba de escucha para el rango dinámico

Esta prueba busca una valoración de la calidad que usted percibe en fragmentos de ciertas

producciones musicales, enmarcados en un parámetro de evaluación específico, el rango dinámico.

La prueba se realizará en 4 etapas, y cada una de estas etapas contará con 5 producciones musicales,

presentadas cada una en 2 fragmentos de 7 segundos

Los fragmentos serán presentados para cada prueba de la siguiente manera:

Adicionalmente entre cada fragmento habrá un tiempo de espera de 1 segundo. Por lo tanto, la

presentación de los fragmentos según la disposición mostrada, tendrá una duración de 31 segundos.

Compare la calidad que percibe de cada fragmento según la siguiente escala:

Calificación Comparación

3 Mucho mejor

2 Mejor

1 Un poco mejor

0 Igual

-1 Un poco peor

-2 Peor

-3 Mucho peor

Fragmento A (7 segundos)

Fregmento B (7 segundos)

Fregmento A (7 segundos)

Repetición

Fragmento B (7 segundos)

Repetición

Page 113: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

114

Teniendo en cuenta el rango dinámico como parámetro de comparación, valore la calidad que

percibe del audio A con respecto a la del audio B, marcando con una X una sola casilla:

Page 114: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

115

Anexo 8. Prueba de escucha para la imagen estéreo

Esta prueba busca una valoración de la calidad que usted percibe en fragmentos de ciertas

producciones musicales, enmarcados en un parámetro de evaluación específico, la impresión

estéreo.

La prueba se realizará en 4 etapas, y cada una de estas etapas contará con 5 producciones musicales,

presentadas cada una en 2 fragmentos de 7 segundos.

Los fragmentos serán presentados para cada prueba de la siguiente manera:

Adicionalmente entre cada fragmento habrá un tiempo de espera de 1 segundo. Por lo tanto, la

presentación de los fragmentos según la disposición mostrada, tendrá una duración de 31 segundos.

Compare la calidad que percibe de cada fragmento según la siguiente escala:

Calificación Comparación

3 Mucho mejor

2 Mejor

1 Un poco mejor

0 Igual

-1 Un poco peor

-2 Peor

-3 Mucho peor

Fragmento A (7 segundos)

Fregmento B (7 segundos)

Fregmento A (7 segundos)

Repetición

Fragmento B (7 segundos)

Repetición

Page 115: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

116

Page 116: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

117

Anexo 9. Prueba de escucha para el contenido en frecuencia

Esta prueba busca una valoración de la calidad que usted percibe en fragmentos de ciertas

producciones musicales, enmarcados en un parámetro de evaluación específico, el timbre o

contenido en frecuencia.

La prueba se realizará en 4 etapas, y cada una de estas etapas contará con 5 producciones musicales,

presentadas cada una en 2 fragmentos de 7 segundos.

Los fragmentos serán presentados para cada prueba de la siguiente manera:

Adicionalmente entre cada fragmento habrá un tiempo de espera de 1 segundo. Por lo tanto, la

presentación de los fragmentos según la disposición mostrada, tendrá una duración de 31 segundos.

Compare la calidad que percibe de cada fragmento según la siguiente escala:

Calificación Comparación

3 Mucho mejor

2 Mejor

1 Un poco mejor

0 Igual

-1 Un poco peor

-2 Peor

-3 Mucho peor

Fragmento A (7 segundos)

Fregmento B (7 segundos)

Fregmento A (7 segundos)

Repetición

Fragmento B (7 segundos)

Repetición

Page 117: EVALUACIÓN OBJETIVA Y SUBJETIVA DE PARÁMETROS DE …

118