identificaciÓn de canciones mediante...

17
I UNIVERSIDAD AUTÓNOMA METROPOLITANA Unidad Azcapotzalco IDENTIFICACIÓN DE CANCIONES MEDIANTE TÉCNICAS BIOINSPIRADAS PROPUESTA DE TESIS Que para obtener el título de MAESTRO EN CIENCIAS DE LA COMPUTACIÓN Presenta: Ing. Adair Mendoza Pérez Director de Tesis: Dr. Juan Villegas Cortez México, Distrito Federal Julio 2010

Upload: buicong

Post on 31-Mar-2018

218 views

Category:

Documents


3 download

TRANSCRIPT

I

UNIVERSIDAD AUTÓNOMA METROPOLITANAUnidad Azcapotzalco

IDENTIFICACIÓN DE CANCIONES MEDIANTE TÉCNICAS BIOINSPIRADAS

PROPUESTA DE TESIS

Que para obtener el título deMAESTRO EN CIENCIAS DE LA COMPUTACIÓN

Presenta:

Ing. Adair Mendoza Pérez

Director de Tesis:

Dr. Juan Villegas Cortez

México, Distrito FederalJulio 2010

II

Índice general

1. Introducción 11.1. El sonido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2. Antecedentes 52.1. Bases fisiológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2. Historia de la reproducción de sonido y su almacenamiento . . . . . . . . . . . . . . 52.3. Trasfondo tecnológico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.5. Los algoritmos evolutivos (AE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.5.1. La programación genética (PG) . . . . . . . . . . . . . . . . . . . . . . . . 82.6. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3. Propuesta 93.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.1.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.1.2. Objetivos Particulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.2. Descripción técnica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.3. Restricciones del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.4. Metas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Bibliografía 13

III

IV ÍNDICE GENERAL

Capítulo 1

Introducción

Una canción es definida por la Real Academia de la lengua Española [4] como:“Composición en ver-so, que se canta, o hecha a propósito para que se pueda poner en música.”

El ser humano es capar de identificar una canción que haya escuchado con anterioridad de unaforma automática con sólo escuchar un pequeño fragmento, dado que desde niños, gracias a nuestrossentidos, podemos percibir las sensaciones que están a nuestro alrededor. Citando a Howard Gard-ner: “Entre los cinco y siete años, comienza la etapa de sinestesia, un período en el cuál, más queningún otro, el niño efectúa fáciles traducciones entre distintos sistemas sensoriales, en que los col-ores pueden evocar sonidos y los sonidos pueden evocar colores, en que los movimientos de la manosugieren estrofas poéticas y los versos incitan a la danza y el canto.” [10]

Esta identificación depende de varios factores:

Las canciones deben ser aprendidas o conocidas.

La persona debe mostrar afinidad hacia un tipo de música.

La música se divide en géneros, épocas, etc.

La identificación de canciones es un problema muy tentativo por sus posible aplicaciones deman-dantes, como son:

Control de derechos de autor. Esta problemática se ha vuelta cada vez más fuerte, el poderidentificar si una canción ha sido plagiada tiene una gran importancia económica, como ejemplo.

La auditoría y el control automatizado de transacciones de multimedios.

1.1. El sonido

Una definición básica del sonido, según [4] es: La vibración mecánica transmitida por un medio elás-tico. Estas vibraciones poseen intensidad, tono, timbre y frecuencia, lo que lo hace único de otrossonidos. Esto es lo que entendemos de el sonido como lo percibimos en los sentidos, desde el estudiocientífico se denota como una señal de audio análoga, para su estudio en el cómputo la señal de sonidose puede representar por una función senoidal, tal como se aprecia en la Fig. 1.1.

1

2 CAPÍTULO 1. INTRODUCCIÓN

Figura 1.1: Representación de la onda del sonido, especificamente la nota musical LA

Figura 1.2: Muestreo de la señal.

Esta señal análoga la cual es una función contínua en el tiempo, se debe convertir a una secuenciade números, este proceso se le llama Conversión Análoga-Digital. Un ejemplo de una señal análogaconvertida a digital se puede apreciar en la Fig. 1.2.

Para trabajar entonces con las canciones para nuestro propósito, éstas las tenemos que pasar aformato digital, esto se realiza en tres pasos:

Primero: El Muestreo(sampling); Se toma una muestra de la onda que se usa como unidad, lafrecuencia de muestreo por segundo se mide en Hertz (Hz.).[1] E.g. Si se usan 24,000 muestraspor segundo, la frecuencia es de 24khz.

Segundo: La Cuantización de la señal analógica: Se convierten los valores tomados en el muestreoa valores decimales discretos.

Tercero: La Codificación de la señal en código binario: Los valores tomados se representan encódigos preestablecidos, el más común es en código binario.

Para poder determinar la frecuencia en este proceso de conversión, es necesario tomar en cuentael Criterio de Nyquist[1] el cual establece:

Para poder muestrear una señal, requerimos que esta sea limitada en banda. Su frecuencia máx-ima es llamada fM .

1.1. EL SONIDO 3

Para no perder información sobre la señal, tenemos que muestrear a una tasa mayor que lafrecuencia de Nyquist fN = 2fM . Es decir, la frecuencia de muestreo fs debe cumplir fs > fNo bien fs > fM .

El oído humano capta una frecuencia de 20khz, el estándar de frecuencia en una grabación digitales de 44.1 Khz.

4 CAPÍTULO 1. INTRODUCCIÓN

Capítulo 2

Antecedentes

2.1. Bases fisiológicas

El proceso en el que el sonido puede ser escuchado por el oído, se leva a cabo mediante la vibración dela membrana timpánica causada por las ondas de sonido. Los huesecillos articulados controlados porunos músculos controlan esta vibración. El movimiento producido estimulan las terminales nerviosaso células ciliadas del órgano de Corti, estas envían una señal por el nervio auditivo, hasta el centro delcerebro donde es procesado.[9]

2.2. Historia de la reproducción de sonido y su almacenamiento

El poder escuchar las vibraciones ha generado desde el origen de la especie humana, la necesidad decrear el sonido; y cuando tuvo uso de razón y ha logrado desarrollar la tecnología, surgió la necesi-dad de almacenar y reproducir los sonidos. Fue hasta finales del siglo XIX con el fonoautografo deLeon Scott en 1857 cuando finalmente se pudieron capturar ondas sonoras en un medio físico. Pos-teriormente con Graham Bell con su teléfono(1876) y Edison con su fonógrafo, lograron un avanceimportante en el procesamiento del sonido. A partir de este último invento surgió la industria musicalla cual cambió para siempre la vida de la sociedad moderna.

Ya en el siglo XX en la década de los 20’s se desarrollaron los tocadiscos con aguja electromagnéti-ca, con la cual el sonido tuvo más claridad y potencia. Esta tecnología se mantuvo sin modificacionesrevolucionarias, hasta la llegada de la cinta magnética. Esta cinta controlada por carretes marcó unaforma novedosa y más segura en el almacenamiento del sonido. Pero fue a principios de los 80’s cuan-do el procesamiento del sonido dio un cambio radical con la llegada del formato digital, primero enforma de compact disc, y después de los formatos de almacenamiento en equipos de cómputo.[7]

2.3. Trasfondo tecnológico

Los formatos de audio han tomado una gran importancia en la vida cotidiana, gracias a los formatosdigitales es posible analizar y estudiar las señales producidas por las melodías y sonidos, además hanpermitido escuchar sonido y melodías con artefactos de poco tamaño y de una gran calidad. La flexi-bilidad que han mostrado permite al usuario elegir que formato usar dependiendo de sus necesidades.De este modo tenemos formatos de audio con pérdida de sonido o sin pérdida.

5

6 CAPÍTULO 2. ANTECEDENTES

Sin pérdida. La necesidad de tener un sonido con todas sus frecuencias usadas decidieron el usode estos formatos. El sonido se reconstruye de la manera más fiel posible a la onda original.El más conocido es el formato WAVE; fue desarrollado por IBM y Microsoft en 1995, unade sus características principales es su gran tamaño(4 minutos de música caben en 40 MB),puede manejar canales monoaural y stereo, además del muestro de 44.1khz; está basado ensegmentos(chunks) los cuales contienen la información dobre el archivo.

Con pérdida. La ventaja de estos formatos es que se pueden almacenar en espacio mucho másreducidos, con el detrimento de las frecuencias del sonido, el cual, basado modelo psicoacústicode la percepción humana del sonido, se eliminan frecuencias que se supone una persona normalno notaría su ausencia. El formato más conocido es el llamado mp3(o MPEG layer-3). La razónde compresión con respecto a formatos como WAV es de 11 a 1; proporciona sonido a uno odos canales con frecuencias de muestreo de 32,44.1 y 48 khz y además proporciona una tasa debits que van desde 32 hasta 320 kbps(kilobits por segundo).

2.4. Estado del arte

Esta tarea se ha llevado a cabo desde dos perspectivas, o formas de abordar el problema, a saber:

Extracción y análisis de atributos de la señal (formantes, descomposición con transformada deFourier, T. Wavelet, T. Curvelet, T. Cosenoidal).

Trabajo directo con la señal de audio (normalización, correlación, matching [modulación, ritmode la frecuencia] )

El problema de identificar canciones se ha resuelto usando diferentes características usando difer-entes métodos, como por ejemplo:

Clasificadores estadísticos.

Teoría de autómatas.

Redes neuronales artificiales

Distancias de edición aprendidas

etc.

2.5. Los algoritmos evolutivos (AE)

Los AE pretenden hallar soluciones a problemas haciendo una búsqueda por medio de procesos evolu-tivos inspirados en los estatutos de la evolución Darwiniana[2]. Cada posible solución a un problemaes modelado por medio de un individuo de una población, y su proceso evolutivo es simulado pormedio de programas de cómputo. Al igual que la evolución “natural”, el motor de las evolución artifi-cial se basa en dos operaciones para la creación de nuevas poblaciones de individuos, estas operacionesde selección y continuidad en la población son la mutación y la cruza. De forma generalizada los AEsiguen un flujo de operación contemplado en cuatro pasos, tales que:

2.5. LOS ALGORITMOS EVOLUTIVOS (AE) 7

1. Inicializar la población. Cada individuo será una solución candidata inicial.

2. Se evalúa el desempeño en solucionar el priblema planteado con cada individuo de la población,otorgándoles a cada individuo una calificación de qué tan bien aproxima la solución.

3. Se evalúa si se cumplió el criterio de terminación del algoritmo, ya sea porque se alcanzó unasolución óptima, o bien porque se alcanzó un número fijo de generaciones; y se procede amostrar el resultado alcanzado.

4. En caso de no haber alcanzado el criterio de terminación se continúa con la selección y variaciónde una nueva población, esto es, regresamos al paso 1.

Estos pasos se muestran en la Fig. 2.1.

Figura 2.1: Ciclo de los Algoritmos Evolutivos

Algunos AE comúnmente usados:

Algoritmos genéticos.

Colonias de hormigas.

Colonias de abejas.

PSO (particle swarm optimization / optimización de enjambres de partículas).

Programación genética.

8 CAPÍTULO 2. ANTECEDENTES

2.5.1. La programación genética (PG)

Es parte de los algoritmos evolutivos[6]. Sus individuos son programas compuestos por funciones yterminales apropiados al dominio del problema que se busca dar solución. A difrencia de otras técnicasevolutivas, la PG trabaja a sus individuos como estructuras complejas comunmente modeladas pormedio de árboles, de forma simbólica, y el código de programación se auxilia de la notación dellenguaje LISP. Los elementos que conforman las bases de la PG son:

El conjunto de valores terminales.

El conjunto de funciones.

La función de aptitud.

Los parámetros de inicialización y construcción de los individuos.

2.6. Justificación

Considerando el auge de los medios digitales para la venta, distribución, almacenamiento y reproduc-ción de la música actualmente, vemos que tenemos un campo fértil donde ofrecer una solución parael problema de identificación de canciones en el formato digital. La PG ha demostrado ser un mediopara hallar nuevas soluciones a problemas de forma alternativa, ofreciendo otra perspectiva [6].

En el capítulo siguiente presentamos nuestra propuesta de una solución a este problema, combi-nando el uso de la PG y el enfoque de trabajo directo con la señal de audio.

Capítulo 3

Propuesta

Realizar la identificación de canciones, trabajando con la señal de audio directamente, por medio delanálisis de muestras en una búsqueda por medio de la Programación genética.

3.1. Objetivos

3.1.1. Objetivo general

Análisis, diseño e implementación de un sistema, basado en programación genética, que sea capazde reconocer canciones a partir de segmentos.

3.1.2. Objetivos Particulares

Implementación de un algoritmo de lectura de archivos en formato WAV.

Análisis, diseño e implementación de un algoritmo con base en programación genética, de com-paración de segmentos de música.

Evaluación del desempeño del algoritmo de comparación.

Escritura del reporte de proyecto terminal.

3.2. Descripción técnica

EL sistema “IDENTIFICACIÓN DE CANCIONES MEDIANTE TÉCNICAS BIOINSPIRADAS”realizará el reconocimiento de canciones mediante segmentos para diferenciar entre un conjunto decanciones, los segmentos serán de tamaño reducido (10,15,20 ó 30 segundos), pero suficiente de músi-ca.

El reconocimiento de los segmentos de canciones, pertenecientes a un conjunto de canciones, sebasará en encontrar la correlación máxima entre el segmento y todas la base de canciones existentes.Se podría trabajar también con atributos descriptores; es decir, a partir de un segmento de canción seobtienen los atributos estadísticos y frecuenciales, tales como formantes, filtros de Gabor, transfor-mada wavelets, momentos de orden 3, momentos de orden 4, cumulantes de orden 3, cumulantes deorden 4, entre otros.

9

10 CAPÍTULO 3. PROPUESTA

El enfoque en la presente propuesta será trabajar en el dominio de la canción misma. No se obten-drán atributos.

El sistema no contará con etapas de entrenamiento, el reconocimiento se hará al mismo tiempo quese va buscando la información. Se plantea, en primera instancia, que el sistema sea capaz de buscardentro de una base de datos reducida (e.g. de solo 10 canciones). El segmento de canción será de unaduración máxima de 30 segundos.

La búsqueda se hará por medio de la correlación entre dos vectores (se puede considerar que elsegmento desconocido es un vector de música de máximo 30 segundos) y se tomarán segmentos decada canción (de la misma longitud del segmento desconocido) para ir comparando de acuerdo conuna función de similitud tal como:

Fij =Cij ∗ x√C2ij ∗√x2

(3.1)

Donde:

F : será la función de similitud entre los vectores C y x, respectivamente.

x: es el segmento de canción a buscar.

Cij: es la i-ésima canción en donde se va a buscar y j el j-ésimo segmento tomado de la cancióni. El rango de j varia de i hasta los K segmentos contenidos en la canción respectiva.

Figura 3.1: Plantemaiento del reconocer un segmento de canción de entre un número n de cancionescompletas.

La Fig.3.2 muestra la subdivisión de segmentos no traslapados de la canción completa C1 enK segmentos de la misma duración que el vector desconocido x. Este proceso se realizará para elconjunto de canciones de muestra, vease la Fig. 3.1.

3.3. Restricciones del problema

Se analizarán canciones de tipo popular y con de derechos de autor libre (Creative Commons)..

3.4. METAS 11

Figura 3.2: Ejemplo de la división de la canción C1 en vectores C1j , segmentos a comparar.

Se trabajará con la señal de audio directmente.

Las canciones se trabajarán en formato digital WAV(1 canal, monoaural, 44.1 Khz).

Se comenzará con un con un número reducido de melodías para probar la metodología tentativa.

Los requerimintos físicos y de cómputo en general necesarios para llevar a cabo esta propuesta sedescriben a continuación. Todos están disponibles en el Laboratorio de Multimedia de nuestra casa deestudios, y es en este mismo lugar donde se llevarán a cabo todas las tareas.

Hardware:

Computadora tipo PC con 2 GB de Memoria RAM.

Computadora tipo Workstation Intel Xeon 4 núcleos con 4 GB de memoria RAM.

Tarjeta de adquisición de sonido.

Software:

Sistema operativo MS-Windows y Linux (64 bits)

Matlab con Digital Signal Processing Toolbox.

3.4. Metas

A continuación se presentan las tareas planeadas a desarrollarse en los siguientes dos trimestres lec-tivos. Cada una de ellas esta considerada en el avance y revisión contínuo del desarrollo paulatino.

12 CAPÍTULO 3. PROPUESTA

Figura 3.3: Metas a alcanzar durante el trimestre 10-o.

Figura 3.4: Metas a alcanzar durante el trimestre 11-i.

Bibliografía

[1] L. M. Bazdresch. Tutorial de conversión analógica/digital. Technical report, Instituto Tecnologi-co y de Estudios Superiores de Occidente Departamento de Electrónica, Informática y Sistemas,Agosto 2009.

[2] Charles Darwin. The Origin of Species. Gramercy, May 1995.

[3] Hrishikesh Deshpande, Rohit Singh, and Unjung Nam. Classification of music signals in thevisual domain. Proceedings of the COST G-6 Conference on Digital Audio Effects. DAFX-01,2001.

[4] Academia Española. Diccionario de la lengua española / Real Academia Española. EspasaCalpe Mexicana, S.A, 2001.

[5] Amaury Habrard and José Manuel Iñesta. Melody recognition with learned edit distances. Struc-tural, Syntactic, and Statistical Pattern Recognition, Joint IAPR International Workshops, SSPR2008 and SPR 2008, 2008.

[6] J.R. Koza. Genetic Programming: On the Programming of Computers by Means of NaturalSelection. MIT Press, 1992.

[7] David Morton (Manteiner). Overview history of the technologies for recording music and sound.Web Page.

[8] Davide Rocchesso. Introduction to Sound Processing. Universit di Verona, Dipartimento diInformatica, 2003.

[9] Dr. Marco Arévalo Rodríguez. Otorrinolaringologia. ESSALUD - Huacho.

[10] Guillermo Treboux. Filosofía y psicología de la música en la postmodernidad. Revista de MúsicaCulta FILOMÚSICA, (59), Diciembre 2004.

[11] Udo Zolzer. Digital Audio Signal Processing. J.Wiley & Sons, 2nd edition, 2008.

13