diseño de una herramienta para la gestión de derechos de...

Diseño de una Herramienta para la Gestión de Derechos de Autor de una Pieza Fonográfica,

mediante la Transcripción Automática de Melodías, usando Music Information Retrieval

Juan Pablo Correa Ruiz, [email protected]

Trabajo de Grado presentado para optar al título de Ingeniero de Sonido

Asesor: Fernando José Mato Méndez, Doctor (PhD) en Telecomunicación.

Universidad de San Buenaventura Colombia

Facultad de Ingeniería

Ingeniería de Sonido

Medellín, Colombia

2019

Citar/How to cite [1]

Referencia/Reference

Estilo/Style:

IEEE (2014)

[1] E. González Mejía, M. C. Home Collazos, y H. A. Lozano Valderrama,

“Desarrollo de un modelo de gestión de calidad basado en la norma ISO 9001:

empresa del sector eléctrico M&M Proyectos e Ingeniería S.A.S.”, Trabajo de

grado Ingeniería de Sonido, Universidad de San Buenaventura Medellín,

Facultad de Ingeniería, 2019.

Bibliotecas Universidad de San Buenaventura

• Biblioteca Fray Alberto Montealegre OFM - Bogotá.

• Biblioteca Fray Arturo Calle Restrepo OFM - Medellín, Bello, Armenia, Ibagué.

• Departamento de Biblioteca - Cali.

• Biblioteca Central Fray Antonio de Marchena – Cartagena.

Universidad de San Buenaventura Colombia

Universidad de San Buenaventura Colombia - http://www.usb.edu.co/

Bogotá - http://www.usbbog.edu.co

Medellín - http://www.usbmed.edu.co

Cali - http://www.usbcali.edu.co

Cartagena - http://www.usbctg.edu.co

Editorial Bonaventuriana - http://www.editorialbonaventuriana.usb.edu.co/

Revistas - http://revistas.usb.edu.co

Biblioteca Digital (Repositorio)

http://bibliotecadigital.usb.edu.co

https://co.creativecommons.org/?page_id=13

https://co.creativecommons.org/?page_id=13

TABLA DE CONTENIDO

RESUMEN ....................................................................................................................................... 7

ABSTRACT ..................................................................................................................................... 8

I. INTRODUCCIÓN ........................................................................................................................ 9

II. PLANTEAMIENTO DEL PROBLEMA .................................................................................. 10

A. Antecedentes ......................................................................................................................... 11

III. JUSTIFICACIÓN..................................................................................................................... 14

IV. CRONOGRAMA ..................................................................................................................... 15

V. OBJETIVOS .............................................................................................................................. 18

A. Objetivo general .................................................................................................................... 18

B. Objetivos específicos ............................................................................................................. 18

VI. HIPÓTESIS .............................................................................................................................. 19

VII. MARCO TEÓRICO ............................................................................................................... 20

A. Conceptos y fundamento musical.......................................................................................... 20

B. Proceso de conversión de una señal analógica a digital ........................................................ 22

C. Procesamiento digital de señales (DSP) ................................................................................ 24

VIII. METODOLOGÍA ................................................................................................................. 28

A. Transformada de Fourier ....................................................................................................... 29

B. Detección de onsets ............................................................................................................... 29

C. Periodicidad ........................................................................................................................... 30

D. Afinación ............................................................................................................................... 31

E. Equivalencia musical ............................................................................................................. 33

F. Escritura ................................................................................................................................. 33

IX. RESULTADOS ........................................................................................................................ 35

X. DISCUSIÓN .............................................................................................................................. 40

A. Melodía en piano ................................................................................................................... 40

B. Melodía en cello .................................................................................................................... 41

C. Línea melódica de un fragmento de la voz de la canción “Prende” de Providencia, agrupación

de reggae de la ciudad de Medellín, Colombia .......................................................................... 42

D. Línea melódica de un fragmento de la voz de la canción “Quiero” de Pasabordo, agrupación

de Pop de la ciudad de Medellín, Colombia............................................................................... 43

E. Línea melódica de un fragmento de la voz de la canción “Perla negra” de Providencia,

agrupación de reggae de la ciudad de Medellín, Colombia ....................................................... 44

F. Línea melódica de un fragmento de la voz de la canción “Yo quiero ser millenial” de Los

cumbia stars, agrupación de cumbia de la ciudad de Medellín, Colombia ................................ 45

G. Línea melódica de un fragmento de la voz de la canción “Por siempre” de 3 de Corazón,

agrupación de Punk Rock de la ciudad de Medellín, Colombia ................................................ 46

H. Línea melódica de un fragmento de la voz de la canción “Lengua larga” de Miranda,

cantautora de la ciudad de Medellín, Colombia ......................................................................... 47

XI. CONCLUSIONES ................................................................................................................... 49

REFERENCIAS ............................................................................................................................. 50

ANEXOS ........................................................................................................................................ 54

LISTA DE TABLAS

TABLA I. CRONOGRAMA DE ACTIVIDADES ....................................................................... 15

TABLA II. EVALUACIÓN DE TRANSCRIPCIÓN PARA MELODÍA EN PIANO. ................ 40

TABLA III. EVALUACIÓN DE TRANSCRIPCIÓN PARA MELODÍA EN CELLO. .............. 41

TABLA IV. EVALUACIÓN DE TRANSCRIPCIÓN PARA LA LÍNEA MELÓDICA DE VOZ

DE UN FRAGMENTO DE "PRENDE". ....................................................................................... 42

TABLA V. EVALUACIÓN DE TRANSCRIPCIÓN PARA LA LÍNEA MELÓDICA DE VOZ

DE UN FRAGMENTO DE "QUIERO". ....................................................................................... 43

TABLA VI. EVALUACIÓN DE TRANSCRIPCIÓN PARA LA LÍNEA MELÓDICA DE VOZ

DE UN FRAGMENTO DE "PERLA NEGRA". ........................................................................... 44

TABLA VII. EVALUACIÓN DE TRANSCRIPCIÓN PARA LA LÍNEA MELÓDICA DE VOZ

DE UN FRAGMENTO DE "YO QUIERO SER MILLENIAL". ................................................. 45

TABLA VIII. EVALUACIÓN DE TRANSCRIPCIÓN PARA LA LÍNEA MELÓDICA DE VOZ

DE UN FRAGMENTO DE "POR SIEMPRE". ............................................................................. 46

TABLA IX. EVALUACIÓN DE TRANSCRIPCIÓN PARA LA LÍNEA MELÓDICA DE VOZ

DE UN FRAGMENTO DE "LENGUA LARGA ". ...................................................................... 47

LISTA DE FIGURAS

Fig. 1. Diagrama de Bloques de las Temáticas del Referente Teórico. ......................................... 20

Fig. 2. Pentagrama Musical. ........................................................................................................... 21

Fig. 3. Pasos Para la Conversión Digital de Una Señal Analógica. ............................................... 22

Fig. 4. Señal Recreada a 8 bits Contra 16 bits................................................................................ 23

Fig. 5. Transformada de Hilbert. .................................................................................................... 26

Fig. 6. Media Móvil........................................................................................................................ 26

Fig. 7. Auto Correlación Calculada (c) Desde la Forma de Onda (a) ............................................ 27

Fig. 8. Gráfica de Función de Diferencias para Afinación............................................................. 32

Fig. 9. Detección de Onsets y Forma de Onda de Melodía Interpretada en Piano......................... 35

Fig. 10. Periodicidad de Onsets. ..................................................................................................... 36

Fig. 11. Vista en Piano Roll de la Melodía Interpretada en Piano. ................................................ 37

Fig. 12. Espectrograma de la Señal de la Melodía Interpretada en Piano. ..................................... 38

Fig. 13. Transcripción de Melodía Interpretada en Piano. ............................................................. 38

Fig. 14. Transcripción Manual y Automática para una Melodía en Piano..................................... 40

Fig. 15. Transcripción Manual y Automática para una Melodía en Cello. .................................... 41

Fig. 16. Transcripción Manual y Automática para la Línea Melódica de Voz de un Fragmento de

"Prende".......................................................................................................................................... 42


"Quiero".......................................................................................................................................... 43


"Perla Negra". ................................................................................................................................. 44


"Yo Quiero Ser Millenial". ............................................................................................................. 45


"Por siempre". ................................................................................................................................ 46


"Lengua larga". ............................................................................................................................... 47

DISEÑO DE UNA HERRAMIENTA PARA LA GESTIÓN DE DERECHOS DE AUTOR DE UNA PIEZA

FONOGRÁFICA, MEDIANTE LA TRANSCRIPCIÓN AUTOMÁTICA DE MELODÍAS, USANDO MUSIC

INFORMATION RETRIEVAL 7

RESUMEN

Hacia finales de los años 80 e inicios de los años 90, se comenzaban a publicar las primeras

investigaciones y a lanzarse los primeros avances tangibles del MIR (Music Information Retrieval),

una ciencia interdisciplinaria que se encargaría de obtener información de la música, a partir del

procesamiento digital de su señal de audio; la posibilidad de cargar en una computadora un

fragmento de una canción y que esta encontrara su tempo, armonía, melodías, escala musical,

parecía algo imposible, y no solo desde el ámbito musical, desde la ingeniería también se podría

extraer cada instrumento, encontrar los procesos aplicados durante su mezcla, discriminar la

información de habla y de música, entre otros procesos. El impacto comercial y social de esta

disciplina se extendía hasta el punto de generar listas de reproducción en función a los datos que la

computadora interpretaba. Para ese entonces, los alcances más significativos de esta nueva

tecnología eran aplicados no solo a una lista de archivos MP3 alojados en el disco duro del usuario,

sino que eran llevados al internet para hacer una base de datos más libre, que permitiera acceso a

millones de archivos de música.

En este trabajo se tomarán múltiples métodos de MIR investigados, que servirán para fragmentar

y analizar una señal de audio mediante auto correlaciones matemáticas, transformadas de Fourier

de tiempo corto y Hilbert e interpolaciones parabólicas, extrayendo información musical como

beats por minuto y notas musicales desde el espectro de la señal, para transcribir una melodía

automáticamente. Este producto final servirá como una herramienta a la hora de registrar una pieza

fonográfica en la Sociedad de Autores y Compositores de Colombia, ya que la identidad legal de

una canción, es justamente la transcripción del instrumento principal.

Palabras clave: Procesamiento de señales digitales, Armonía, Melodía, Base de datos, Transcribir,

Pieza fonográfica.




ABSTRACT

By the end of the 80`s and early 90’s, the very first investigations and tangible products from MIR

(Music Information Retrieval) were released. MIR would be an interdisciplinary science, that

would take charge of extracting musical information from digital processing of its signal; the

possibility of giving to a computer a piece of a song, and this computer finding its tempo, harmony,

melody, music scale, seems to be impossible, and not only from musical field, from engineering it

also could extract each instrument from a record, find applied processes within the mix,

discrimination between speech and music, among others. The social and commercial impact

extends itself to generate playlists from the data rendered by the computer. By that time, the most

significant reaches for this new science was not applying it on a list of audio files hosted inside a

local computer`s hard disk, but taking it to the internet to create a freer data base that would allow

the access to a millions of music files.

In this degree work, multiple MIR methods will be investigated, and used to fragment and analyze

the audio signal through mathematical autocorrelations, Fourier and Hilbert transform and

parabolic interpolations, extracting musical information, such as beats per minute and musical

notes from signal spectre to transcribe a melody automatically. This final product will serve as a

tool for musical piece registration on Sociedad de Autores y Compositores de Colombia, as it is

the legal identity of a piece.

Keywords: Digital signal processing, Harmony, Melody, Database, Transcribe, Phonographic

piece.




I. INTRODUCCIÓN

La transcripción de melodías es una labor requerida en todos los procesos del desarrollo de la

música, es necesaria para intérpretes de instrumentos, adaptaciones orquestales, músicos de sesión

entre otros, de la misma manera, una transcripción, es el método por el cual se puede consignar

información musical en papel, por esto es el requisito fundamental para el registro de una pieza en

una entidad de gestión de derechos de autor, en el caso de Colombia es SAYCO (Sociedad de

Autores y Compositores), en esta transcripción, debe estar escrita la melodía que interpreta el

instrumento principal de la canción, la cual es elaborada por un músico (ver Anexo I). Desde la

ingeniería y gracias a MIR, es posible tomar diferentes procedimientos matemáticos y aplicarlos a

la señal digital de audio grabada de este instrumento principal, para fragmentarla y extraer la

información musical necesaria para reconstruirla de manera escrita automáticamente, el desarrollo

de esta herramienta para el registro de piezas fonográficas, conlleva a una comunión entre la

ingeniería y la música, haciendo esta actividad musical más práctica y efectiva.

En este documento, se encuentra detalladamente, cada uno de los procesos realizados en la

implementación de esta herramienta y sus resultados, comparados con transcripciones manuales

realizadas por un músico como evidencia de su asertividad, además de los referentes teóricos y los

antecedentes que dan fundamento a su desarrollo.




II. PLANTEAMIENTO DEL PROBLEMA

Desde 1976, Oppenheim y Rabiner en [1] y [2] publicaban la teoría y los métodos del

procesamiento digital de señales (DSP), que a finales de los años 90 acogería esta nueva ciencia

que se llamaría Music information Retrieval o MIR por sus siglas, para la creación de bases de

datos musicales a partir de información tomada directamente de un archivo de audio [3]. Hasta

ahora estas ciencias, han tenido grandes connotaciones académicas en el ámbito ingenieril y de

clasificación de la música para plataformas digitales [4], han servido para ahondar conocimientos

y clarificar procesos y particularidades en el mundo del audio [5], pero hasta ahora las aplicaciones

prácticas que pueden tener repercusión en otras ciencias como la música, no han sido desarrolladas

para la industria musical colombiana. Esta premisa lleva a problemáticas de orden musical, al

incluir en el proceso de escritura, el error de percepción del oído humano [6] y la fatiga del mismo

al tener que escuchar, analizar, escribir y corregir, agregando una alta incertidumbre en el resultado

final. Este proceso de escritura se hace necesario para una gran cantidad de fines como la

adaptación orquestal, la enseñanza, reinterpretaciones, registro de piezas musicales entre otras [7].

De la misma manera, hay una problemática de orden práctico, al requerir una escritura y

digitalización luego de la etapa musical, que hace necesario el uso de mano de obra, la cual toma

más tiempo y hace menos eficaz el trabajo para los intérpretes, directores musicales, docentes de

música, las cadenas televisivas y de radio. En el caso específico de Colombia, una mala

transcripción puede traer como consecuencia problemas legislativos [8], al ser el score musical la

identidad legal de una pieza fonográfica en SAYCO (Sociedad de Autores y Compositores).

En este proyecto, mediante la implementación de una herramienta basada en el MIR y el DSP, se

dará solución a la problemática existente en nuestro país, de no poder realizar automáticamente,

una transcripción musical de un archivo de audio que contenga una melodía.




A. Antecedentes

A comienzos de los años 80, la era digital que se encontraba en pleno auge, trajo consigo un cambio

drástico en el almacenamiento de archivos musicales que no solo incluían música sino material

visual y texto al mismo tiempo. Este cambio de almacenamiento físico a digital llevo a la necesidad

de crear nuevas herramientas para organizar y acceder fácilmente a todos estos archivos [9]. Con

el internet y la posibilidad de acceder a música en línea que podría ser compartida; estas

herramientas de organización tomaron un papel más importante; puesto que mejoraban la manera

de nombrar, categorizar, disponer de los archivos musicales más ágilmente sin necesidad de

renombrarlos y caracterizarlos manualmente [10].

A mediados de los años 90 aparece la extracción de información musical a partir de la grabación,

o lo que es conocido como Music Information Retrieval (MIR). Estos métodos llevaron las

categorizaciones más a fondo, apoyándose del procesamiento digital de señales y no solo en los

metadatos del archivo musical [11]. Para lograr lo anterior se definiría el dominio del MIR en siete

facetas: afinación, tiempo, armonía, timbre, editorial, textual y bibliográfica de las cuales las 5

cinco primeras serian extraídas de la forma de onda de la grabación [12]. Para la constitución de

MIR, años atrás se encontraban técnicas de análisis espectral a las transcientes de una onda,

descritas por Kedem en [13], mediante las cuales al dividir una onda en pequeños bloques se

encontraban los beats por minuto (BPM), también métodos de transformadas para discriminar

diálogos, patrones de habla y sonidos musicales por Kronland en [14], y por supuesto todos los

procesos que permitían manipular una señal digital en dominio del tiempo y frecuencia,

consignados por Proakis en [15], uno de los libros más importantes del DSP.

En la actualidad MIR se ha utilizado en el audio para la mezcla deconstructiva y para encontrar

información acerca del procesamiento que tiene una canción, pasando por la grabación hasta la

mezcla y mastering de la misma, Tzanetakis en [16], por medio de transformadas de Fourier en

tiempo corto, encuentra la cantidad de presión en los canales izquierdo, derecho y centro

permitiendo ver el desarrollo de la imagen panorámica, de la misma manera, la Universidad de

Gdansk en [17], encuentra una nueva manera de separar cada instrumento de un archivo de audio




multipista, lo cual sirve como evidencia de la forma en que se grabó, que procesos se aplicaron a

cada instrumento en la mezcla, y que procesos se aplicaron a la mezcla final. Además de lo anterior

también se ha implementado MIR en la industria del radio y la televisión, como ejemplo, Saunders

en [18], ha desarrollado un mecanismo para encontrar en los archivos de audio, en tiempo real

cuales contienen mensaje hablado y cuales música con una precisión del 98%.

Si se observa desde el año 2001 hasta el día de hoy, los objetivos de estas últimas investigaciones

son diferentes a los de este trabajo, no involucran la industria musical colombiana y buscan

información no relacionada directamente a la composición musical de la pieza, sino a su

composición técnica, sin embargo en el año 2002, Cheveigne en [19] presenta un algoritmo llamado

YIN, para la estimación de frecuencias fundamentales de sonidos musicales y habla, el cual se basa

en métodos de auto correlación, y ciertas modificaciones para evitar errores. Además de lo anterior,

Bello en [20] describe un procedimiento para la detección de eventos musicales que ocurren dentro

del espectro de la señal, llamados Onsets, a partir de la construcción de una función que mide la

inestabilidad temporal de la fase que ocurre con los cambios de energía encontrados en la señal.

Masri en [21] encuentra como los cambios de energía en la señal, se representaban como

modulaciones de amplitud, y como estos cambios tienen un mayor peso en frecuencias altas, esta

investigación tenía como objetivo la localización de transcientes para realizar re síntesis

computacional, pero Brossier en [22] en su tesis doctoral en el año 2006, usa este análisis para

localizar onsets. De igual manera Foote en [23] y Hainsworth en [24], exponen otros

procedimientos que pueden ser utilizados para la detección de onsets mediante la diferencia de

espectral de muestras de la señal y el logaritmo de estas diferencias, acentuado los cambios de

amplitud respectivamente.

Todo este material publicado desde el año 2001, será el punto de partida para la construcción de

un solo método que se basará en las aplicaciones del procesamiento de señales digitales utilizados




en MIR, para el análisis tonal en el dominio de frecuencia y tiempo, además de la fragmentación

de la señal en bloques para análisis temporal.




III. JUSTIFICACIÓN

Gracias a la viabilidad de la programación, se hace imperativo el uso de métodos anteriormente

implementados en el campo del procesamiento digital de señales y de MIR, como fundamentos

para el diseño de una herramienta que automatice el trabajo de transcribir una melodía para la

gestión de derechos de autor para artistas colombianos. No solo se estarían optimizando horas de

trabajo, sino también recursos económicos y de personal, ya que este proceso tradicionalmente se

hace manual y requiere un proceso de escucha y aprendizaje para luego realizar una escritura que

debe ser digitalizada para toda entidad que requiera este score musical de la pieza grabada, además

de la eliminación de un alto porcentaje de error que trae el oído humano por su arquitectura,

percepción, fatiga y otros factores que generan una incertidumbre considerable en la transcripción

final [25].

El diseño de esta herramienta, supliría una necesidad de innovación desde la ingeniería para la

industria musical colombiana, ya que será un apoyo en el proceso de registro de piezas fonográficas

para la gestión de derechos de autor y está enfocada al servicio de músicos, autores y compositores.

De esta manera, se estarían incentivando las correctas prácticas legislativas del derecho musical en

nuestro país [26].




IV. CRONOGRAMA

TABLA I. CRONOGRAMA DE ACTIVIDADES

Meses Agosto Septiembre Octubre Noviembre

Actividades del proyecto \ Semanas 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

Investigación y selección de métodos MIR

X

Ensayos de Programación

X X

Aprobación y modificación de métodos

MIR

X

Programación y pruebas

X

Aprobación y modificación de

programación

X

Diseño del pentagrama musical

X X

Redacción Informe

X X X

Entrega de resumen ejecutivo

X

Últimos ajustes de programación

X

Sustentación a jurados

X

Entrega de informe a jurado

X

Desde el mes de agosto, se trabajó en el diseño de una herramienta para la gestión de derechos de

autor, que se encarga de la transcripción automática de melodías musicales, con un cronograma de

tareas por semanas establecido de la siguiente manera: investigación y selección de métodos MIR,

ensayos de programación, y la aprobación y modificación de estos, en las primeras 4 semanas de

agosto. Durante el tiempo de investigación fue necesario tomar y modificar métodos de varios

artículos y materiales bibliográficos para condensarlos en uno solo que permitiera llevar a cabo el

objetivo. Esta investigación condujo a la conclusión que era necesario dividir el trabajo en las

siguientes etapas: análisis de la señal, detección de onsets, detección de periodicidad o BPM de la

melodía, detección de frecuencia, notación musical, y por último la transcripción final.

El primer problema a solucionar, fue tomar la señal de audio y procesarla para su análisis, mediante

la transformada de Fourier de tiempo corto, se obtuvo el comportamiento de la señal en frecuencia

y tiempo. Posteriormente, en la primera semana de septiembre, se continuó abordando las pruebas

de programación para la detección de onsets, fueron evaluados 5 métodos. (1) El método de




contenido en alta frecuencia, el cual es muy acertado para instrumentos percutivos, (2) el método

de diferencia espectral, el cual cuantifica el cambio de magnitudes entre muestras consecutivas de

la transformada de la señal, detectando mejor los onsets en cambios pequeños de energía, (3) el

método de desviación de fase, que encuentra cambios tonales mediante cambios de fase, (4) el

método de dominio complejo, que combina la diferencia espectral y la fase de muestras

consecutivas de la señal y por último, (5) el método de Kullback-Liebler que acentúa los cambios

positivos de amplitud y arroja picos cuando hay sucesos en la señal, mediante la resta de los

logaritmos de muestras de señal consecutivos. El método de desviación de la fase complementado

con el de dominio complejo, fue el que más efectividad tuvo en las pruebas con melodías de voces,

por lo cual fue el elegido para continuar con la implementación, ya que en general, las voces son

el instrumento que debe ser registrado en las entidades gestoras de derechos de autor colombiano.

Esta etapa del trabajo tuvo sus respectivas modificaciones y aprobación en la segunda semana del

mes, para así proceder a la detección de la periodicidad o BPM de la melodía, en la cual fue

necesario realizar una función de auto correlación con los valores de diferencia espectral

encontrados anteriormente, arrojando picos que corresponden a eventos periódicos en la señal, bajo

la premisa de que los onsets encontrados son notas musicales que suceden a un ritmo musical

coherente.

Luego de tener la detección de los onsets y la periodicidad o BPM, fue posible encontrar la

frecuencia en cada onset mediante otra función de auto correlación que encuentra la diferencia

entre una muestra de la señal y sus siguientes, cuando esta diferencia es mínima, el tiempo entre

ellas será el período de la frecuencia. Posteriormente se realizó una interpolación parabólica para

corregir los errores que se pueden presentar en la detección de estos valores mínimos. Después de

tener la frecuencia de cada onset y el BPM de la melodía en análisis, se llevaron estos datos a

notación musical sabiendo que la nota LA en la octava número 4, equivale a 440Hz, y teniendo en

cuenta además que el intervalo mínimo de medio tono es siempre igual entre una nota y su

consecutiva.




Las últimas semanas del mes de octubre, fueron dedicadas al diseño de la interfaz gráfica; este fue

uno de los problemas que más tiempo consumió, por lo cual se investigó sobre código abierto que

pudiera solucionarlo, y fue como se descubrió un software libre de tipografía musical llamado

LilyPond, implementado para realizar partituras musicales a partir de texto informático. De esta el

trabajo fue enfocado en generar un archivo de texto que contiene el nombre de la nota musical en

cifrado (C do, D re, E mi, F, fa, G sol, A la, B si), su alteración si es el caso, y la figura musical en

su número correspondiente (1 redonda, 2 blanca, 4 negra, 8 corchea, 16 semicorchea), la cual se

obtuvo con la función de detección de periodicidad. Luego de tener este archivo de texto y cargarlo

en Lilypond, se genera la partitura musical en formato PDF.

Por último, en las primeras semanas de octubre, hasta la fecha de finalización del cronograma, las

actividades programadas se enfocaron a culminar la redacción de la memoria del trabajo de grado,

junto con un resumen ejecutivo.

El cronograma se cumplió sin problemas, a pesar de ciertos inconvenientes que se encontraron en

la etapa de la detección de onsets, relacionados con falsos positivos, para su solución fue necesario

una investigación más extensa sobre umbrales de detección de momentos en los que hay

componentes tonales. Además de lo anterior, también se hallaron problemas en la estabilidad tonal

en muestras de voces de diferentes géneros musicales de artista de la ciudad de Medellín,

Colombia.




V. OBJETIVOS

A. Objetivo general

Optimizar el proceso de transcripción de melodías musicales mediante métodos de Music

Information retrieval, haciendo automático, el trabajo manual realizado anteriormente por un

músico.

B. Objetivos específicos

• Desarrollar una herramienta por medio de programación que permita la implementación de

métodos de procesamiento digital de señales a archivos de audio, de modo que permita extraer

información musical para su análisis y reconstrucción escrita.

• Desarrollar pruebas comparativas mediante transcripciones musicales manuales hechas por

músicos que permitan evaluar la asertividad del proceso de automatización.

• Implementar múltiples procesos de MIR por lo menos a 5 archivos de audio que contengan una

melodía, mediante su programación en el software, para la extracción de BPM (beats por

minuto) y características tonales mediante contenido frecuencial en Hertz(Hz).

• Diseñar una interfaz en forma de pentagrama musical, mediante la programación, donde se

ilustrará la melodía ingresada por el usuario.




VI. HIPÓTESIS

¿Cómo optimizar y mejorar el procedimiento de transcripción de melodías musicales para la

industria Colombiana?

Se puede facilitar el proceso de la transcripción de melodías musicales y maximizar su alcance e

impacto en la industria colombiana, mediante el diseño de una herramienta que hará uso de métodos

implementados en MIR y DSP, para automatizar la extracción de información musical a fragmentos

de melodías en canciones de artistas de la ciudad de Medellín, que posteriormente quedará

consignada en un pentagrama, como apoyo al proceso del registro en Sociedad de Autores y

Compositores de Colombia.




VII. MARCO TEÓRICO

Para poder comprender el objetivo de todos los procesos y operaciones que se aplicarán en este

trabajo mediante MIR, es necesario en primer lugar, tener clara la terminología musical y saber

cuál de estos conceptos son los que se estarán tomando para la reconstrucción escrita de la pieza

musical, posteriormente se expondrá el proceso en el que una señal se convierte a estado digital,

para poder aplicar los procesos de MIR basados en el DSP que permitirán extraer la información

musical necesaria para conseguir los objetivos buscados. En la Figura 1 se encuentra un diagrama

introductorio a las temáticas a tratar.

Fig. 1. Diagrama de Bloques de las Temáticas del Referente Teórico.

A. Conceptos y fundamento musical

Randel en [27] define la música en 3 elementos: la armonía, la melodía, y el ritmo. De cada uno de

estos se descompone otra serie de aspectos influyentes como el timbre, el color y el registro para

el caso de la armonía y melodía; y el micro tiempo, el compás y las subdivisiones para el caso del

ritmo.




Toda escritura musical esta consignada en un pentagrama (Figura 2), que es un arreglo de cinco

líneas que denotaran una nota musical empezando abajo con un registro grave y siguiendo hacia

arriba con un registro agudo. [28]

Fig. 2. Pentagrama Musical.

Fuente: https://goo.gl/images/BexFgA.

A la izquierda del pentagrama, se encuentra la clave musical que se relaciona con el registro y el

orden en el que estarán dispuestas las notas a través de las líneas, en este caso es la clave de sol.

Para comprender los objetivos de este trabajo, es necesario tener claro el concepto de la melodía

como una sucesión ordenada de 2 o más sonidos o tonos musicales métricamente medidos, que a

diferencia de la armonía, no están sonando al mismo tiempo [29]. La melodía representa los

elementos horizontales de la escritura musical y la armonía por otro lado, los elementos verticales.

Tanto la armonía como la melodía están escritos en función al tiempo en el que se desarrolla la

pieza musical entendido como ritmo [28].

Una transcripción musical es justamente el proceso en el que se cambia de medio una pieza musical,

este puede ser la interpretación de un instrumentista a una escritura en pentagrama musical [30], o

de un pentagrama musical a una tablatura o cifrado que no son más que formas simplificadas de

escribir la música, todo esto sin alterar el contenido armónico, melódico o rítmico.




B. Proceso de conversión de una señal analógica a digital

Las señales que percibe nuestro oído del medio, se encuentran en un estado analógico y son

generadas por un fenómeno físico relacionado con vibraciones mecánicas que producen una

variación en la presión atmosférica, estas señales se deben convertir a señales de orden digital para

su procesamiento y análisis [31]. Para trabajar con señales analógicas en un ordenador, estas deben

ser convertidas a señales de digitales, es decir, el sonido debe ser representado con números

binarios. Los pasos para realizar este proceso se encuentran en la Figura 3.

Fig. 3. Pasos Para la Conversión Digital de Una Señal Analógica.

Fuente: https://goo.gl/images/b4k8XD.

Para el muestreo, se mide la amplitud de la señal en intervalos de igual duración, cada intervalo

recibe el nombre de “muestra” o “sample”. Matemáticamente se expresa en la Ecuación 1. [32]

𝑥(𝑡 = 𝑡𝑛) = 𝑥(𝑛), 𝑡𝑛 = 𝑛 ∙ 𝑇𝑚 (1)

El intervalo de tiempo que hay entre dos muestras n, se denomina período de muestreo Tm, que a

su vez es el inverso de la frecuencia de muestreo fm (Ecuación 2), la cual según el teorema de

Nyquist debe ser el doble de la frecuencia máxima que contiene la señal que se va a digitalizar.

[33]

𝑓𝑚 = 1

𝑇𝑚 (2)




Una vez la señal esta muestreada, para la cuantización, se limitan los valores de amplitud que puede

tomar la señal, de acuerdo a una serie discreta de valores posibles [34], de esta manera, la resolución

de la captura de la señal depende de cuantos valores de amplitud en bits se tome para cada una de

las muestras, en la Figura 4 se observan dos señales muestreadas a 8 y 16 bit depth o profundidad

de bit y puede ir desde 4 bits hasta 32 bits por muestra [35].

Fig. 4. Señal Recreada a 8 bits Contra 16 bits.

Fuente: https://goo.gl/images/5tSDek.

Por último, en la codificación, se asigna un código binario a cada uno de los valores que se tomó

para la señal en el proceso de muestreo, este se denomina “codec”, en el cual se incluyen parámetros

referentes a la digitalización de la señal como número de canales, frecuencia de muestreo y

resolución en bits, indicando como se debe realizar el proceso de conversión. [36]




Después de la toda la conversión, podremos obtener un formato digital de la señal que se podrá

manipular y editar, además de tener una representación visual o gráfica de la misma denominada

“waveform” o “forma de onda” [37].

C. Procesamiento digital de señales (DSP)

Los procesos y métodos matemáticos de MIR fundamentados por el DSP, tienen un punto de

partida en común y son las transformadas de Fourier de tiempo corto o STFT (Short Time Fourier

Transform), como se encuentra en [38], estas son operaciones que transforman una señal no

periódica en el dominio del tiempo al dominio de la frecuencia. La transformada de Fourier de

tiempo corto 𝑆𝑇𝐹𝑇[𝑥(𝑡)] de una señal 𝑥(𝑡) esta definida en la Ecuación 3:

𝑆𝑇𝐹𝑇[𝑥(𝑡)] = 𝑋(𝜏, 𝜔) = ∫ 𝑥(𝑡)𝑤(𝑡 − 𝜏)𝑒−𝑗𝜔𝑡𝑑𝑡∞

−∞ (3)

𝑣(𝑛) = 𝑎0 − 𝑎1𝑐𝑜𝑠 (2𝜋𝑛

𝑁−1)

𝑎0 = 0,53836 𝑎1 = 0,46164 (4)

Donde 𝑤(𝑡 − 𝜏) es la función de la ventana con un índice de tiempo 𝜏, para este caso, se usa una

ventana Hamming definida en la Ecuación 4, donde 𝑎0 y 𝑎1, es la amplitud de sus lóbulos laterales.

El dominio del tiempo, es el término utilizado para describir el comportamiento de una señal en

puntos discretos del eje temporal y el dominio de frecuencia es el término utilizado para para

describir el comportamiento de una señal según la frecuencia a la que oscila en un rango

determinado [15], este está relacionado con las series de Fourier.

El procesamiento digital de señales, permite manipular una señal después de estos procesos

matemáticos para modificarla o mejorarla de cierta manera, mediante este se puede reducir el ruido,

atenuar o dar ganancia, afectar dinámicas, combinar diferentes señales para obtener una nueva,

incluso por medio de procesos inversos se puede obtener información acerca de la señal original

sin modificaciones en un archivo de audio.




Después de obtener una matriz con la transformada de la señal de audio, existe una serie de

operaciones matemáticas que se deben aplicar, para obtener datos de la manera esperada, uno de

ellos es la fase en cada muestra espectral, la cual se puede obtener con la Ecuación 5. [39]

∅ = arctan (𝐼𝑚(𝑧)

𝑅𝑒(𝑧)) (5)

Donde z, es un número complejo, con parte real e imaginaria, el cual se obtiene por la operación

de la transformada de Fourier. De la misma manera, es necesario realizar posteriormente una

transformada de Hilbert, procedimiento que se hace útil, para encontrar envolventes de señales,

esta se encuentra definida en la Ecuación 6. [40]

ℋ{𝑠}(𝑡) = 1

𝜋∫

𝑠(𝜏)

𝑡−𝜏𝑑𝜏

∞

−∞ (6)

La transformada de Hilbert ℋ{𝑠}(𝑡), se obtiene al realizar la convolución de las señales 𝑠(𝜏), y 1

𝜋𝑡.

Otro procceso que se puede aplicar para obtener una envolvente aún más prominente, es la media

móvil, un cálculo estadístico utilizado para analizar un conjunto de datos, y realizar una serie de

promedios subconjuntos de los originales, en la Figura 5 y Figura 6, se puede ver cómo actúa la

transformada de Hilbert, y la media móvil respectivamente.




Fig. 5. Transformada de Hilbert.

Fuente: https://goo.gl/images/oN8FnU.

Fig. 6. Media Móvil.

Fuente: https://goo.gl/images/gthPyD.

Las funciones de auto correlación, en las señales posteriormente procesadas, permiten encontrar la

periodicidad con la que ocurren los onsets, mediante el producto de muestras consecutivas

retrasadas, con estas periodicidades resultantes, se podrá encontrar el tempo de la melodía, y la

equivalencia de cada nota a una figura musical, la función de auto correlación 𝑟𝑡(𝜏) está definida

en la Ecuación 7. [19]




𝑟𝑡(𝜏) =∑ 𝑥𝑗𝑥𝑗+𝜏𝑡+𝑊−𝜏

𝑗=𝑡+1 (7)

Donde 𝑥𝑗 es una muestra en la señal posteriormente procesada, W es la longitud de la ventana de

integración y 𝜏 son los lags de retraso, en segundos. En la Figura 7 se puede ver el resultado de la

auto correlación.

Fig. 7. Auto Correlación Calculada (c) Desde la Forma de Onda (a)

Luego de tener la información de frecuencias en cada muestra de interés, es posible encontrar su

equivalencia a notas musicales, partiendo de la ISO 16:1975, en la cual se estableció la nota “La”

en la octava 4 como 440Hz, y la Ecuación 8.

𝐹𝑛+1 = 𝐹𝑛2(1 12⁄ ) (8)




VIII. METODOLOGÍA

Para este trabajo, la metodología es de tipo desarrollo tecnológico, ya que fue orientada a la

obtención de un producto tangible, específicamente una herramienta desde la programación, que

parte de la evaluación y extracción de las propiedades musicales de un archivo de audio que

contiene una melodía monofónica, haciendo uso de métodos matemáticos programados para este

fin.

La población de esta investigación no está relacionada a personas, ya que el objeto de estudio es

un archivo de audio, para esta caso la población está compuesta por sus características musicales

de armonía, melodía y ritmo, que pueden contener 7 notas musicales (Do, Re, Mi, Fa, Sol, La, Si)

y sus 2 posibles alteraciones (Sostenido y Bemol), además de las 5 figuras musicales relacionadas

a su duración (Redonda, Blanca, Negra, Corchea y semicorchea), y su posible alteración, el

puntillo.

La muestra se limita, a la melodía y el ritmo, que también contiene las 7 notas musicales con sus

dos posibles alteraciones en el caso de la melodía, y las 5 figuras musicales en el caso del ritmo.

El procedimiento comienza con la discriminación de los archivos de audio, los cuales serán

monofónicos y solo contendrán una melodía como es requerido en el registro de piezas de SAYCO.

Desde los objetivos, se plantearon 5 fragmentos de audio para analizar, pero luego por motivos de

implementación, fue necesario tomar otros adicionales para encontrar diferentes procesos que

hicieran más efectivo el resultado en la transcripción de voces de diferentes artistas colombianos.

Resultaron 8 fragmentos analizados: 2 melodías interpretadas por instrumentos, y 6 líneas

melódicas de voz de artistas de la ciudad de Medellín, específicamente, Cumbia Stars, Miranda,

Pasabordo, 3 de Corazón y Providencia. De allí se tomaron las directivas previas para la

implementación de la programación. Para escribir la melodía, es necesario tomar la señal de audio

y realizar una transformada de Fourier de tiempo corto para obtener los datos que serán procesados

múltiples veces, para obtener su información musical, específicamente onsets, periodicidad,




afinación y duración de cada nota, esta información será tomada posteriormente para reconstruir

esta melodía de manera escrita.

La instrumentación consta del software Matlab R2015a, usado para la programación de la

herramienta, además de previas transcripciones realizadas manualmente, para el diagnóstico y la

evaluación de la eficacia y asertividad de la herramienta.

A continuación, se expondrá detalladamente cada proceso dentro de la programación.

A. Transformada de Fourier

En este primero proceso, se lee la señal de audio, obteniendo una matriz de 2 columnas que son los

canales izquierdo y derecho del audio, posteriormente solo se tomará uno de los canales, al cual se

aplicará la STFT (Short-time Fourier Transform), se tomaron los valores recomendados por

Brossier en [22], tamaño de ventana de 1024, un factor de solapamiento del 75% del tamaño de la

ventana, y un tamaño de 4096 muestras para la transformada.

B. Detección de onsets

Para la detección de los onsets, que son los momentos en los que hay un cambio de nota musical

en la señal de audio, es necesario aplicar la Ecuación 9.

�̂�𝑘(𝑛) = 𝑝𝑟𝑖𝑛𝑐𝑎𝑟𝑔 (𝜕2𝜙𝑘(𝑛)

𝜕𝑛2) (9)

Esta función, se encarga de encontrar las desviaciones de fase �̂�𝑘(𝑛) de cada dato arrojado por la

STFT entre – 𝜋 y 𝜋, y puede ser descompuesta como se muestra en la Ecuación 10.




�̂�𝑘(𝑛) = 𝑚𝑜𝑑 (𝜙𝑘(𝑛)+ 𝜋

−2𝜋 ) + 𝜋 (10)

Donde 𝜙𝑘(𝑛) es el dato de fase obtenido en la Ecuación 5. Después se debe encontrar el valor

�̂�𝑘(𝑛) de la STFT en el dominio complejo, utilizando la Ecuación 11.

�̂�𝑘(𝑛) = |𝑋𝑘(𝑛)|𝑒𝑗�̂�𝑘(𝑛) (11)

Y de esta manera se podrá encontrar la función de diferencias desde el método de dominio

complejo, definida en la Ecuación 12, que dará como resultado los onsets de la señal de audio.

𝐷(𝑛) = 1

𝑁∑ ‖�̂�𝑘(𝑛) − 𝑋𝑘(𝑛)‖

2𝑁𝐾=0 (12)

Esta función resultante donde N es el número de columnas de la transformada y 𝑋𝑘(𝑛) el valor de

la transformada de la señal en la posición n, será tratada con una transformada de Hilbert, definida

en la Ecuación 6, para obtener unos onsets aún más definidos y evitar falsos positivos, en procesos

posteriores.

C. Periodicidad

Para encontrar la periodicidad de los onsets, y así poder encontrar el tempo en el que se encuentra

la melodía, es necesario realizar una función de auto correlación, definida en la Ecuación 7. Para

realizar esta operación, se crea una función retrasada que se va desplazando y llenando de ceros,

para así poder realizar la multiplicación de la señal original con esta. La señal resultante será una

función con picos periódicos como se muestra en la Figura 10, que permitirán hallar el tempo de

la melodía y más adelante la equivalencia de las notas musicales y figuras musicales, (redonda,

blanca, negra, corchea, semicorchea).




D. Afinación

Para encontrar las frecuencias en cada onset, se realiza otro tipo de función de auto correlación, en

la cual se compara la similitud de la señal muestra por muestra, bajo la asunción de que la función

de diferencias 𝑑(𝜏) será igual a cero cuando haya un período de frecuencia, esta función está

definida en la Ecuación 13. [22]

𝑑𝑡(𝜏) = ∑ (𝑥𝑗 − 𝑥𝑗−𝜏)2𝑡+𝑊

𝑗=𝑡+1 (13)

Donde W es la longitud del fragmento de audio, y 𝑥𝑗 es la muestra de audio en la posición 𝑗, la

función resultante, tendra forma de mínimos en un retraso de tiempo 𝜏 denominado lag, los cuales

serán el periodo de la frecuencias de interés, una corrección es necesaria, por medio de un promedio

normalizado acumulativo, definido en la Ecuación 14. [19]

𝑑′𝑡(𝜏) =

{

1, 𝑠𝑖 𝜏 = 0

𝑑𝑡(𝜏)1

𝜏∑ 𝑑𝑡(𝑗)𝜏𝑗=1

⁄ (14)




En la Figura 8, se puede ver la función de diferencias resultante, y la corrección.

Fig. 8. Gráfica de Función de Diferencias para Afinación.

Tomado de: [22]




E. Equivalencia musical

Después de tener los onsets y el BPM de la melodía, la duración de cada uno de ellos se encuentra

mediante una resta de tiempo de un onset anterior y siguiente, a esta diferencia es posible darle una

duración de nota respecto al BPM ya conocido. Luego de tener los onsets con su duración y

frecuencia, se crea un vector para hacerlos coincidir, y posteriormente basado en la ISO 16:1975

en la cual se estableció la nota “La” en la octava 4 como 440Hz, además del sistema TET (twelve

equivalent tone temperament) [41], en el cual se divide una octava en 12 semitonos, los cuales son

equidistantes en frecuencia, se puede asignar a cada frecuencia una nota musical tomando la

Ecuación 8.

F. Escritura

En la investigación para generar la partitura musical, se descubrió un software libre de tipografía

musical llamado LilyPond, implementado para realizar partituras musicales a partir de texto

informático. De esta manera el producto final se encarga de generar un archivo de texto que

contiene el nombre de la nota musical en cifrado (C, D, E, F, G, A, B), su alteración si es el caso,

y la figura musical en su número correspondiente (1 redonda, 2 blanca, 4 negra, 8 corchea, 16

semicorchea) y su alteración si es el caso, además del BPM de la melodía. En este texto final, se

pueden agregar todo tipo de elementos musicales como silencios, símbolos de dinámica, incluso

las letras de la línea melódica, lo que hace un complemento muy importante en la transcripción. El

formato leído por Lilypond tiene la siguiente forma:

\header{title = ”Titulo"

composer=”Compositor"}

\score{

\new Staff{

\clef treble

\key c \major




\time 4/4

\tempo 4 = 62

{f'8 g'16 f'8. a'4 a'8. aes'4. f'4. e'2}

}

\layout{ }

\midi{ }

}

\version "2.18.2"

La sección de las notas musicales encontradas, se encuentra dentro de corchetes, las comillas

elevadas, indican la altura de las notas en el pentagrama, el punto, indica las notas con alteración

de figura, llamada puntillo, los sostenidos y bemoles, se representan con “is” y “es”

respectivamente.




IX. RESULTADOS

En la Figura 9. se muestra la forma de onda del fragmento de audio y el resultado obtenido de la

operación de desviación de la fase de la STFT de la Ecuación 12.

Fig. 9. Detección de Onsets y Forma de Onda de Melodía Interpretada en Piano.

En la parte superior de la imagen, se encuentra la forma de onda de una melodía interpretada en

piano, y debajo de esta, la función resultante del proceso de detección de los onsets, en esta melodía,

hay 5 onsets, que son 5 cambios de nota musical, la línea roja es el umbral de detección configurado

como el valor RMS de la señal más un 10% de tolerancia.




Al realizar la función de auto correlación de la Ecuación 7 con esta señal resultante se obtiene la

periodicidad mostrada en la Figura 10.

Fig. 10. Periodicidad de Onsets.

En la Figura 10, se puede observar cómo se generan picos periódicamente, a medida que la señal

se recorre por ella misma, esos períodos de tiempo entre picos es lo que permite hallar el tempo en

el que se encuentra la melodía. En la Figura 11, se encuentra otra forma implementada para entregar

la información musical, comúnmente llamada vista en piano roll, esta permite ver la duración de

cada nota ubicada en un eje vertical rotulado con las notas musicales.




Fig. 11. Vista en Piano Roll de la Melodía Interpretada en Piano.

Al realizar una comparación de las notas musicales en el piano roll de la Figura 11, con el

espectrograma de la señal en la Figura 12, se aprecia el gran contenido de armónicos cercanos a la

frecuencia fundamental en el espectro, así como la coincidencia de las duraciones en tiempo.




Fig. 12. Espectrograma de la Señal de la Melodía Interpretada en Piano.

La transcripción final de esta melodía se puede ver en la Figura 13.

Fig. 13. Transcripción de Melodía Interpretada en Piano.

El formato de texto informático musical arrojado por la programación fue el siguiente:




\clef bass \key c \major \time 4/4 \tempo 4 = 59 {e4 e8 e8 g8 e4 c4 c'1.}

Esto significa una nota “Mi”, con una figura musical de negra, dos notas “Mi”, con una figura

musical de corchea, una nota “Sol” con una figura musical de corchea, una nota “Mi” con una

figura musical de negra, una nota “Do” con una figura musical de negra, y por ultimo una nota

“Do” con una figura musical de redonda, y la comilla elevada que indica que se encuentra una

octava arriba. Se agregó después al texto resultante, en las dos primeras notas una virgulilla para

indicar que son notas ligadas.




X. DISCUSIÓN

En esta sección, se tomará cada una de las transcripciones realizadas por la herramienta de

programación, y se comparará a las transcripciones hechas por un músico, para evaluar

cuantitativamente el desempeño de la herramienta y analizar el porqué de los resultados.

A. Melodía en piano

Fig. 14. Transcripción Manual y Automática para una Melodía en Piano.

TABLA II. EVALUACIÓN DE TRANSCRIPCIÓN PARA MELODÍA EN PIANO.

Transcripciones

Manual Automática

Notas musicales 7 7

Figuras musicales 7 7

Alteraciones 0 0

Elementos totales: 14 14

Error: 0%

Efectividad 100%




Para la melodía en piano, como se muestra en la Tabla 2, hay una efectividad del 100% ya que

ambas transcripciones tienen los mismos elementos coincidentes. En la Figura 14, se muestra la

transcripción manual en la parte superior, y la automática en la parte inferior.

B. Melodía en cello

Fig. 15. Transcripción Manual y Automática para una Melodía en Cello.

TABLA III. EVALUACIÓN DE TRANSCRIPCIÓN PARA MELODÍA EN CELLO.

Transcripciones

Manual Automática

Notas musicales 8 8


Alteraciones 2 0


Error: 11%

Efectividad 89%




Para la melodía en cello, como se muestra en la Tabla 3, hay una efectividad del 89% ya que la

transcripción automática no detectó correctamente las dos alteraciones de figura musical en las

notas “La”. Además, en la transcripción manual, se encuentran los silencios que, en el caso de la

transcripción automática, deben ser agregados después de la lectura de la melodía. En la Figura 15,

se muestra la transcripción manual en la parte superior, y la automática en la parte inferior.

C. Línea melódica de un fragmento de la voz de la canción “Prende” de Providencia,

agrupación de reggae de la ciudad de Medellín, Colombia

Fig. 16. Transcripción Manual y Automática para la Línea Melódica de Voz de un Fragmento de "Prende".

TABLA IV. EVALUACIÓN DE TRANSCRIPCIÓN PARA LA LÍNEA MELÓDICA DE VOZ DE UN

FRAGMENTO DE "PRENDE".

Transcripciones

Manual Automática

Notas musicales 11 9


Alteraciones 5 2


Error: 30%

Efectividad 70%




Para la línea melódica de la voz en un fragmento de la canción “Prende”, como se muestra en la

Tabla 4, hay una efectividad del 70% ya que la transcripción automática no detectó correctamente

3 alteraciones, 2 notas musicales y 3 figuras musicales debido a las respiraciones. En la Figura 16,


D. Línea melódica de un fragmento de la voz de la canción “Quiero” de Pasabordo,

agrupación de Pop de la ciudad de Medellín, Colombia

Fig. 17. Transcripción Manual y Automática para la Línea Melódica de Voz de un Fragmento de "Quiero".

TABLA V. EVALUACIÓN DE TRANSCRIPCIÓN PARA LA LÍNEA MELÓDICA DE VOZ DE UN

FRAGMENTO DE "QUIERO".

Transcripciones

Manual Automática



Alteraciones 16 12


Error: 11%

Efectividad 89%




Para la línea melódica de la voz en un fragmento de la canción “Quiero”, como se muestra en la

Tabla 5, hay una efectividad del 89% ya que la transcripción automática no detectó correctamente

4 alteraciones, 5 notas musicales y 1 figura musical. En este caso, la transcripción automática no

detectó los problemas de micro desafinación de la voz, aproximando a notas cercanas, que no

coincidieron con los de la transcripción manual. Además, la línea melódica de la voz contenía

muchos cambios rítmicos por compás, lo que dificulta la detección de alteraciones de figura

musical. En la Figura 17, se muestra la transcripción manual en la parte superior, y la automática

en la parte inferior.

E. Línea melódica de un fragmento de la voz de la canción “Perla negra” de Providencia,

agrupación de reggae de la ciudad de Medellín, Colombia

Fig. 18. Transcripción Manual y Automática para la Línea Melódica de Voz de un Fragmento de "Perla Negra".

TABLA VI. EVALUACIÓN DE TRANSCRIPCIÓN PARA LA LÍNEA MELÓDICA DE VOZ DE UN

FRAGMENTO DE "PERLA NEGRA".

Transcripciones

Manual Automática



Alteraciones 7 5


Error: 19%

Efectividad 81%




Para la línea melódica de la voz en un fragmento de la canción “Perla negra”, como se muestra en

la Tabla 6, hay una efectividad del 81% ya que la transcripción automática no detectó

correctamente 2 alteraciones, 2 notas musicales y 2 figuras musicales. Como en el caso de la

canción “Prende”, las respiraciones en la interpretación de la melodía, causan falsas detecciones

en la transcripción automática. En la Figura 18, se muestra la transcripción manual en la parte

superior, y la automática en la parte inferior.

F. Línea melódica de un fragmento de la voz de la canción “Yo quiero ser millenial” de Los

Cumbia Stars, agrupación de cumbia de la ciudad de Medellín, Colombia

Fig. 19. Transcripción Manual y Automática para la Línea Melódica de Voz de un Fragmento de "Yo Quiero Ser

Millenial".

TABLA VII. EVALUACIÓN DE TRANSCRIPCIÓN PARA LA LÍNEA MELÓDICA DE VOZ DE UN

FRAGMENTO DE "YO QUIERO SER MILLENIAL".

Transcripciones

Manual Automática



Alteraciones 4 4


Error: 5%

Efectividad 95%




Para la línea melódica de la voz en un fragmento de la canción “Yo quiero ser millenial”, como se

muestra en la Tabla 7, hay una efectividad del 95% ya que la transcripción automática no detectó

correctamente 3 figuras musicales. En este caso, hay un gran porcentaje de efectividad ya que la

línea melódica es muy estable y solo tiene 4 alteraciones rítmicas. En la Figura 19, se muestra la

transcripción manual en la parte superior, y la automática en la parte inferior.

G. Línea melódica de un fragmento de la voz de la canción “Por siempre” de 3 de Corazón,

agrupación de Punk Rock de la ciudad de Medellín, Colombia

Fig. 20. Transcripción Manual y Automática para la Línea Melódica de Voz de un Fragmento de "Por siempre".

TABLA VIII. EVALUACIÓN DE TRANSCRIPCIÓN PARA LA LÍNEA MELÓDICA DE VOZ DE UN

FRAGMENTO DE "POR SIEMPRE".

Transcripciones

Manual Automática



Alteraciones 2 1


Error: 3%

Efectividad 97%




Para la línea melódica de la voz en un fragmento de la canción “Por siempre”, como se muestra en

la Tabla 8, hay una efectividad del 97% ya que la transcripción automática no detectó

correctamente 2 figuras musicales y 1 alteración. En este caso como en la línea melódica de “Yo

quiero ser millenial”, hay un gran porcentaje de efectividad ya que la línea melódica es muy estable

y solo tiene 2 alteraciones rítmicas, además no tiene gran movimiento melódico. En la Figura 20,


H. Línea melódica de un fragmento de la voz de la canción “Lengua larga” de Miranda,

cantautora de la ciudad de Medellín, Colombia

Fig. 21. Transcripción Manual y Automática para la Línea Melódica de Voz de un Fragmento de "Lengua larga".

TABLA IX. EVALUACIÓN DE TRANSCRIPCIÓN PARA LA LÍNEA MELÓDICA DE VOZ DE UN

FRAGMENTO DE "LENGUA LARGA ".

Transcripciones

Manual Automática



Alteraciones 16 0


Error: 40%

Efectividad 60%




Para la línea melódica de la voz en un fragmento de la canción “Lengua larga”, como se muestra

en la Tabla 9, hay una efectividad del 60% ya que la transcripción automática no detectó

correctamente 16 figuras musicales y ninguna alteración. Para esta melodía, hay un porcentaje de

error alto, ya que contiene muchos silencios entre notas musicales lo que genera falsas detecciones

rítmicas. En la Figura 21, se muestra la transcripción manual en la parte superior, y la automática

en la parte inferior.




XI. CONCLUSIONES

Después de la implementación de la herramienta, se hace evidente que hay una gran cantidad de

elementos musicales que no están definidos por la gramática musical, por lo tanto, a la hora de una

transcripción, cada músico que la realiza está agregando subjetividad a la labor, y desde esta

herramienta, esos mismos elementos ocasionan errores importantes de lectura que se ven reflejados

en el resultado. Por otro lado, la naturaleza del audio de entrada tiene una gran connotación en el

resultado final de la herramienta, ya que todo contenido que no sea musical, podrá generar falsas

detecciones. Este contenido se hace mucho más grande en las voces, ya que hay respiraciones,

pops, micro-desafinaciones entre otros, que hace que la voz sea el instrumento con más porcentaje

de error en la transcripción de la herramienta.

Un factor que favorece la efectividad de la herramienta, es que la señal sea periódica y estable, y

que, a la hora de ser grabada, su interpretación sea correcta en función al tempo o bpm, ya que esto

evitará en el caso de la detección de frecuencias falsos períodos y mínimos mal localizados, y en

el caso de la detección temporal, resultarán unas funciones con máximos más prominentes y menos

aproximaciones estarán presentes.

Después de realizar la evaluación de efectividad, de los 8 fragmentos de audio analizados, el que

más porcentaje de error presentó fue del 60%, lo que indica que la herramienta cumple su objetivo

al realizar la transcripción, pero debe tener una supervisión final por un músico ya que aún presenta

errores y falsas detecciones que se hacen más presentes en las voces. Además, esta supervisión

final se hace indispensable también para agregar símbolos de dinámicas, ligaduras, silencios, y

otros, que no están implementados en la herramienta.




REFERENCIAS

[1] A. V Oppenheim and R. W. Schafer, “Digital Signal Processing,” IEEE Trans. Acoust.

Speech Signal Process., vol. 23, no. 4, pp. 392–394, 1975.

[2] L. R. Rabiner and B. Gold, Theory and application of digital signal processing. 1975.

[3] T. C. Chou, L. P. Chen, and C. C. Liu, “Music Databases: Indexing Techniques and

Implementation,” Proc. Int. Work. Multimed. Database Manag. Syst., vol. 1, no. 1, pp. 46–

53, 1996.

[4] R. Kalakota and M. Robinson, “E-business 2.0: Roadmap for Success,” eAI J., vol. 1, no. 1,

pp. 1–30, 2001.

[5] L. Rabiner, M. Cheng, A. Rosenberg, and C. McGonegal, “A Comparative Performance

Study of Several Pitch Detection Algorithms,” IEEE Trans. Acoust., vol. 24, no. 5, pp. 399–

418, 1976.

[6] M. Jesús and L. Muñoz-Repiso, “La Percepción Acústica : Física de la Audición,” Dpto.de

Didáctica las Ciencias Exp. Univ. Valladolid, vol. 1, no. 1, pp. 19–26, 2013.

[7] S. Frith, Performing rites: On the value of popular music. 1996.

[8] J. E. Caro and D. E. Lozano, “Manual de procesos de asosiación a Sayco y Acinpro, de

músicos para músicos,” Bogotá, 2014.

[9] M. Müller, “New developments in music information retrieval,” in Audio Engineering

Society Conference, 2011, pp. 1–10.

[10] J. S. Downie, “Music Information,” IEEE Trans. Speech Audio Process., vol. 20, no. 7, pp.

295–340, 2001.

[11] J. Futrelle and J. S. Downie, “Interdisciplinary Communities and Research Issues in Music

Information Retrieval,” Libr. Inf. Sci., vol. 10, no. 3, pp. 215–221, 2002.

[12] A. Mason, M. Evans, and A. Sheikh, “Music Information Retrieval in Broadcasting: Some

Visual Applications,” BBC Res. White Pap. WHP, vol. 166, no. 6, 2008.

[13] B. Kedem, “Spectral Analysis and Discrimination by Zero-Crossings,” Proc. IEEE, vol. 74,

no. 11, pp. 1477–1493, 1986.

[14] R. Kronland Martinet, J. Morlet, and A. Grossman, “Analysis of Sound Patterns Through

Wavelet Transforms,” Int. J. Pattern Recognit. Artif. Intell., vol. 1, no. 2, pp. 273–302, 1987.




[15] J. G. Proakis and D. G. Monolakis, Digital signal processing: principles, algorithms, and

applications. 1996.

[16] G. Tzanetakis, L. G. Martins, K. McNally, and R. Jones, “Stereo Panning Information For

Music Information Retrieval Tasks,” AES J. Audio Eng. Soc., vol. 58, no. 5, pp. 409–417,

2010.

[17] B. Kostek and M. Dziubinski, “Further Developments of Methods for Searching Optimum

Musical and Rhythmic Feature Vectors,” Audio Eng. Soc. Conf., vol. 26, no. 18, pp. 32–45,

2001.

[18] J. Saunders, “Real-Time Discrimination of Broadcast Speech/Music,” Acoust. Speech,

Signal Process. 1996. ICASSP-96. Conf. Proceedings., 1996 IEEE Int. Conf., vol. 2, no. 5,

pp. 993–996 vol. 2, 1996.

[19] A. De Cheveigne, “YIN, a Fundamental Frequency Estimator For Speech and Music,” IEEE

Trans. Acoust. Speech Signal Process., vol. 111, no. 5, 2002.

[20] J. P. Bello and M. Sandler, “Phase-based note onset detection for music signals,” in 2003

IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003.

Proceedings. (ICASSP ’03)., 2003, vol. 5, pp. 1–441.

[21] P. Masri and A. Bateman, “Improved modelling of attack transients in music analysis-

resynthesis,” in International Computer Music Conference, 1996.

[22] P. M. Brossier, “Automatic Annotation of Musical Audio for Interactive Applications,”

IEEE Work. Appl. Signal Process. to Audio Acoust., vol. 23, no. 4, 2006.

[23] J. Foote and S. Uchihashi, “The beat spectrum: A new approach to rhythm analysis,” in

IEEE International Conference on Multimedia, 2001.

[24] S. Hainsworth and M. Macleod, “Onset Detection in Musical Audio Signals,” in

International Computer Music Conference, 2003.

[25] Y. Espinoza Ormenño, K. Hernandez Cascarra, G. Ortega Lopez, and M. Pilquil Fernandez,

“Niveles De Ruido Ocupacional y Desempeño Audiológico en Estudiantes y Profesionales

de Odontología,” Audio Eng. Soc. Conf., vol. 1, no. 1, 2013.

[26] Colombia. Corte constitucional, Ficha Sentencia C 405 del 2005. 2005.

[27] D. M. Randel, The Harvard dictionary of Music, vol. 87, no. 1237. 2003.

[28] H. Grabner, Allgemeine musiklehre. Kassel, 2015.

[29] R. A. Valle, Educación musical: primer curso, conforme al programa oficial. Editorial




Tiempo, 1958.

[30] P. O. Box and F.- Tampere, “Polyphonic Music Transcription Using Note Event Modeling,”

IEEE Work. Appl. Signal Process. to Audio Acoust., vol. 1, no. 1, pp. 319–322, 2005.

[31] B. Fries and M. Fries, Digital audio essentials. Farnham: O’Reilly, 2005.

[32] A. V Oppenheim, Signals and systems. New Delhi: Prentice-Hall of India Private Limited,

2008.

[33] D. Lavry, “Sampling Theory For Digital Audio,” IEEE Trans. Acoust., vol. 27, no. 10, pp.

1–27, 2004.

[34] J. L. Mitchel, “Introduction to Digital Audio Coding and Standards,” J. Electron. Imaging,

vol. 13, no. 2, 2004.

[35] E. Politecnica and S. D. E. Gandia, “Headroom and Precision Requirements of Fixed Point

Audio Processing in Different Data Domains For Real World Content,” IEEE Trans. Acoust.

Speech Signal Process., vol. 30, no. 15, 2018.

[36] Emilia Gómez Gutiérrez, “Digitalización del Sonido,” Síntesi i Process. del So I, vol. 1, no.

3, p. 11, 2009.

[37] G. White, “Introducción al Análisis de Vibraciones,” Int. Comput. Music Conf., vol. 25, no.

5, pp. 1–148, 2010.

[38] L. R. Rabiner and B. Juang, Fundamentals of signal processing. 1993.

[39] J. B. Conway, Functions of one complex variable II. New York: Springer-Verlag, 1978.

[40] J. H. Karl, An introduction to digital signal processing. San Diego, CA: Academic Press,

1989.

[41] E. Regener, Pitch notation and equal temperament: A formal study, vol. 6. University of

California Press, 1973.




ANEXOS

Anexo 1. Transcripción de melodía en Piano.




Anexo 2. Transcripción de melodía en cello.




Anexo 3. Transcripción para la línea melódica de voz del fragmento de "Prende".




Anexo 4. Transcripción para la línea melódica de voz del fragmento de "Quiero".




Anexo 5. Transcripción para la línea melódica de voz del fragmento de "Perla negra".




Anexo 6. Transcripción para la línea melódica de voz del fragmento de "Yo quiero ser

millenial".




Anexo 7. Transcripción para la línea melódica de voz del fragmento de "Por siempre".




Anexo 8. Transcripción para la línea melódica de voz del fragmento de "Lengua larga".




Anexo 9. Transcripción oficial de la canción “Prende” de la agrupación Providencia.

diseño de una herramienta para la gestión de derechos de...

Documents