hibridación del aprendizaje local y el aprendizaje de

Universidad Central "Marta Abreu" de Las Villas

Trabajo para optar por el Título de Máster en Ciencia de la

Computación

Hibridación del aprendizaje local y el aprendizaje de funciones

de distancia

Autor:

Bắc Nguyễn Công

Tutores:

Prof. Dr. Carlos Morell Pérez

Prof. Dr. Bernard de Baets

Facultad de Matemática Física y Computación

Departamento de Ciencia de la Computación

Laboratorio de Inteligencia Artificial

2015

mailto:[email protected]



Hago constar que el presente trabajo fue realizado en la Universidad CentralMarta Abreu de Las Villas como parte de la culminación de los estudios de laespecialidad de Ciencia de la Computación, autorizando a que el mismo seautilizado por la institución, para los fines que estime conveniente, tanto deforma parcial como total y que además no podrá ser presentado en eventosni publicado sin la autorización de la Universidad.

Los abajo firmantes, certificamos que el presente trabajo ha sido realizadosegún acuerdos de la dirección de nuestro centro y el mismo cumple conlos requisitos que debe tener un trabajo de esta envergadura referido a latemática señalada.

Firma de autorBắc Nguyễn Công

Firma de tutorProf. Dr. Carlos Morell

Pérez

DedicatoriaA mi mamá

A G R A D E C I M I E N T O S

A mi tutor Carlos Morell Pérez por todas sus atenciones, apoyo durante larealización de esta tesis, por el tiempo dedicado así como la formación cien-tífica que he adquirido gracias a su dedicación y seriedad en el trabajo.

A mi familia, muy especialmente a mi mamá por su gran apoyo siempre.

A Nghia por confiar en mí y estar siempre a mi lado.

A los profesores de facultad y departamento por eseñarme en todos estosaños.

A mis compañeros tanto vietnamitas como cubanos por los buenos y malosmomentos.

A todos, muchas gracias.

iv

R E S U M E N

El objetivo general de la investigación consiste en desarrollar un método paraconstruir la función de distancia a partir de restricciones apareadas locales.Luego se adapta el nuevo método a los enfoques locales de múltiples mé-tricas. La incorporación de este método de aprendizaje de distancia es devital importancia para los investigadores del campo del Aprendizaje Auto-matizado al contar con nuevos métodos para dar solución a problemas declasificación.

En el contenido del trabajo se expone el marco teórico-referencial de la in-vestigación, enfatizando en las técnicas más empleadas en la actualidad parael aprendizaje de distancia. Se estudia el problema de clasificación basadaen instancias usando el paradigma de aprendizaje de la función de distan-cia de Mahalanobis. Se plantean cuestiones importantes en la escalabilidady el grado requerido de supervisión de métodos existente de aprendizajede distancia. Se desarrolla un modelo eficiente de aprendizaje de distancia.También se incorporó una adaptación del algoritmo de los k vecinos máscercanos para dar solución a problemas de clasificación usando distancia deMahalanobis.

Finalmente, se muestra la viabilidad del modelo desarrollado a partir de susresultados en los conjuntos de datos de Aprendizaje Automatizado reconoci-do internacionalmente. Se evaluaron, utilizando las pruebas estadísticas noparamétricas. Se demostró de esta forma la hipótesis de investigación plan-teada.

v

A B S T R A C T

The general objective of the investigation consists on developing a method tobuild the distance metric starting from matched up local restrictions. Thenthe new method adapts to the local focuses of multiple metric. The incorpo-ration of this method of distance metric learning has a high importance forthe researches on the field of machine learning because this provides newmethods to give solution to classification problems.

In the content of the work is exposed theoretical-referential of the investiga-tion, emphasizing in the more used techniques at the present time for thedistance metric learning. The classification problem based on instances isstudied using the paradigm of the distance metric learning. We plan aboutimportant questions in the scalability and the required grade of existent su-pervision of methods of distance metric learning. An efficient model of dis-tance learning is developed. We also incorporated an adaptation of the al-gorithm to k nearest neighbours to give solution to classification problemsusing distance of Mahalanobis.

Finally, the viability of the approach is shown by its results in the interna-tional datasets of Machine Learning. They were evaluated, using the nonparametric statistical tests. By this way, the hypothesis of investigation wasdemonstrated.

vi

P U B L I C A C I O N E S

vii

TA B L A D E C O N T E N I D O S

Introducción 1

1 aprendizaje de la función de distancia 5

1.1 Aprendizaje automatizado 6

1.2 Solución del problema de clasificación con k-NN 8

1.3 Aprendizaje de distancia como alternativa 10

1.4 Aprendizaje de distancia 10

1.4.1 Antecedentes matemáticos 11

1.4.2 Formulación del aprendizaje de distancia 14

1.4.3 Técnicas de optimización en el aprendizaje de distan-cia 16

1.4.4 Visualización de distancia Mahalanobis 20

1.5 Aprendizaje supervisado de distancia global 21

1.5.1 Restricciones por pares 22

1.5.2 Aprendizaje supervisado de distancia global por pro-gramación convexa 23

1.5.3 Enfoque probabilístico para aprendizaje supervisado dedistancia global 24

1.5.4 Information Theoretic Metric Learning 25

1.5.5 Keep It Simple and Straightforward Metric 27

1.6 Aprendizaje supervisado de distancia local 27

1.6.1 Discriminant Adaptive Nearest Neighbor classification 28

1.6.2 Neighborhood Components Analysis 30

1.6.3 Large Margin Nearest Neighbour Metrics 32

1.6.4 Multi-metric Large Margin Metric Learning 34

1.6.5 Large Margin Multi-Task Metric Learning 35

1.7 Conclusiones parciales del capítulo 36

2 desarrollo del método de aprendizaje de distancia lo-cal 37

2.1 Distance Metric Learning from Local Pairwise Constraints 38

2.1.1 Desarrollo 39

2.1.2 Estimador de matriz de covarianza 43

2.1.3 Ball Trees 45

2.1.4 Análisis de la complejidad computacional 46

viii

tabla de contenidos ix

2.2 KISSNN per testing instance 48

2.2.1 Aprendizaje Local 48

2.2.2 Desarrollo 49

2.3 Local Discriminant KISSNN 51

2.3.1 Árbol de cubrimiento 52

2.3.2 Pre-cálculo de los modelos locales durante el entrena-miento 53

2.3.3 Reducir el número de modelos locales que necesitan serentrenados 54



3 experimentos y validaciones 61

3.1 Configuración de experimentos 62

3.2 Metodología de comparación 63

3.3 Resultados 65

3.3.1 Experimento en los algoritmos de una métrica global 65

3.3.2 Experimento en los algoritmos locales de múltiples mé-tricas 70


Conclusiones 76

a matemática básica 77

a.1 Álgebra lineal 77

a.1.1 Producto interno 77

a.1.2 Producto externo 78

a.1.3 Derivade de las matrices 78

a.2 Distribución gaussiana 78

a.3 Prueba de razón de la función de verosimilitud 80

a.3.1 Razón de la función de verosimilitud 80

a.3.2 Prueba de razón de la función de verosimilitud 80

bibliografía 81

L I S TA D E F I G U R A S

Figura 1 Esquema general del aprendizaje automatizado 7

Figura 2 Ejemplo de 3-nn clasificación. El punto verde de prue-ba (con etiqueta ‘?’) se clasifica con la etiqueta comúnentre los tres puntos más cercanos. Fuente: [Weinber-ger, 2007] 9

Figura 3 El cóno S2+ de matrices semidefinidas positivas

[α β

β γ

].

Fuente: [Bellet et al., 2013] 13

Figura 4 Comparación entre distancia Euclidiana y Mahalano-bis: (a) se presenta la distancia Euclidiana y (b) se pre-senta la distancia Mahalanobis. En ambas figuras, launidad de distancia desde el centro se marca en colorrojo. 14

Figura 5 Esquema de las categorías de los métodos de aprendi-zaje de distancia. 16

Figura 6 Una perspectiva general de los métodos utilizados enaprendizaje de distancia. 17

Figura 7 Visualización de la distancia de Mahanalobis en 2-D. 21

Figura 8 Visualización de múltiples métricas locales. Fuente: [Wein-berger y Saul, 2009]. 29

Figura 9 Vecindades encontradas por el método DANN en va-rios ejemplos de prueba. Hay dos clases en el conjuntode entrenamiento, una clase está rodeada en la otra. Seusan 50 vecinos más cercanos para estimar la métricalocal. Fuente: [Hastie et al., 2009] 30

Figura 10 Visualización de datos antes del entrenamiento (izquier-da) contra después del entrenamiento. Fuente: [Wein-berger y Saul, 2009]. 33

Figura 11 Una ilustración de Multi-Task LMNN. La matriz M0

captura las características comúnes entre varias tareas,donde Mt para t > 0 es la métrica de distancia especí-fica. Fuente: [Parameswaran y Weinberger, 2010]. 35

x

Lista de Figuras xi

Figura 12 Base de datos artificiales: (a) datos en el espacio origi-nal, (b) datos en el espacio transformado. 39

Figura 13 Visualización del espacio de diferencia. 40

Figura 14 Ball-tree. Fuente [Weinberger et al., 2006] 45

Figura 15 Datos artificiales multimodales 50

Figura 16 Visualización de la estructura de árbol de cubrimien-to. 53

Figura 17 Visualización de LDKISSNN después del entrenamien-to con k ′ = 25, k = 50 sobre el conjunto de datos ar-tificiales de la sección anterior. Los círculos punteadosen negrita corresponden k vecinos más cercanos queutilizan en el proceso de entrenamiento para cada mo-delo local de datos artificiales. Los cuadros presentanlos centros encontrados de cada modelo local con suk ′ vecinos más cercanos con el mismo color. 58

Figura 18 Visualización del procedimiento de selección de mo-delos locales para instancias de prueba. Las instanciasque tienen el mismo color, se usan para entrenar elmismo modelo. La instancia de prueba q tiene el coloramarillo. 59

Figura 19 Visualización de la comparación entre exactitud y tiem-po de aprendizaje de los resultados obtenidos en lasTablas 2 y 4. 70

Figura 20 Visualización de la comparación Dunn-Bonferroni en-tre los algoritmos de aprendizaje de múltiples métricaspor la exactitud. 72

L I S TA D E TA B L A S

Tabla 1 Descripción de los conjuntos de datos. 65

Tabla 2 Resultados de exactitud con la clasificación k-NN ymediante varias funciones de distancia. 66

Tabla 4 Tiempo (en segundos) de aprendizaje mediante variasfunciones de distancia. 68

Tabla 3 Tabla de Holm / Hochberg con α = 0,05 para la exac-titud de los algoritmos de aprendizaje de una métricaglobal. 69

Tabla 5 Tabla de Holm / Hochberg con α = 0,05 para la efi-ciencia de los algoritmos de aprendizaje de una métri-ca global. 69

Tabla 6 Exactitud 71

Tabla 7 Tabla de Holm / Hochberg con α = 0,05 para la exac-titud en la comparación entre los algoritmos de apren-dizaje de múltiples métricas. 73

Tabla 8 Tiempo de entrenamiento y prueba en segundos paralos métodos de aprendizaje de distancia. 74

xii

L I S TA D E A L G O R I T M O S

Figura 1 Proyectar una matriz a su cono semidefinido positi-vo 43

Figura 2 Distance Metric Learning from Local Pairwise Cons-traints 47

Figura 3 Selección de centros de los modelos locales 57

Figura 4 Local Discriminant KISSNN 59

xiii

A B R E V I AT U R A S

CD Distancia Crítica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

IA Inteligencia Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

k-NN k vecinos más cercanos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

PCA Principal Component Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

LDA Linear Discriminant Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

RCA Relevant Component Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

DML-eig Distance Metric Learning with Eigenvalue Optimization . . . . 17

ITML Information Theoretic Metric Learning . . . . . . . . . . . . . . . . . . . . . . 25

KISSME Keep It Simple and Straightforward Metric . . . . . . . . . . . . . . . . . 27

DANN Discriminant Adaptive Nearest Neighbor classification . . . . . 28

ADAMENN Locally Adaptive Metric Nearest Neighbor Classification . . . 28

LDDM Local Discriminative Distance Metrics . . . . . . . . . . . . . . . . . . . . . . .28

mm-LMNN Multi-metric Large Margin Metric Learning . . . . . . . . . . . . . . . . . 28

NCA Neighborhood Components Analysis . . . . . . . . . . . . . . . . . . . . . . . 30

LMNN Large Margin Nearest Neighbour Metrics . . . . . . . . . . . . . . . . . . . 32

SDP Semidefinite Program . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

KISSNN Distance Metric Learning from Local Pairwise Constraints . . 38

tKISSNN KISSNN per testing instance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

LDKISSNN Local Discriminant KISSNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

Xing Distance Metric Learning with application to clustering withside information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

xiv

I N T R O D U C C I Ó N

He aquí un algoritmo local simple: para cada patrón de prueba, (1) seleccio-ne algunos ejemplos de aprendizaje localizados en la vecindad del patrón, (2)entrene un algoritmo de aprendizaje con tales ejemplos, y (3) utilice el mode-lo aprendido para predecir. Este algoritmo luce lento a la vez que estúpidodebido a que sólo se utiliza en el aprendizaje una fracción pequeña de losdatos disponible. Sin embargo, las evidencias empíricas demuestran que, conla configuración apropiada, tal algoritmo puede mejorar significativamentela efectividad de, por ejemplo, una red neuronal aplicada al reconocimientoóptico de caracteres [Bottou y Vapnik, 1992].

El algoritmo de los k vecinos más cercanos (k-NN) [Cover y Hart, 1967] esun caso particular de este enfoque. Otros algoritmos más complejos, comolas redes con funciones de base radial (del inglés RBF Network) [Orr et al.,1996] o la regresión local pesada (LWR) [Cleveland y Devlin, 1988] tambiéncaen en esta categoría. El caso específico de k-NN tiene la particularidad deque el entrenamiento es nulo: se limita a una función constante que selec-ciona la clase más frecuente entre los patrones más cercanos. Esta regla declasificación asume, de forma implícita, que las probabilidades por clases semantienen constantes en una vecindad y es por ello que un promedio simplees una buena solución. Sin embargo, esta condición no necesariamente es co-rrecta para todas las áreas de aplicación. Una forma de aliviar esta situaciónes aprendiendo la función de distancia utilizada por el algoritmo de modoque pueda ajustarse a las particularidades de los datos de entrenamiento. Es-te es precisamente el objetivo de los algoritmos para el aprendizaje de lasfunciones de distancia que han surgido recientemente en la literatura.

Otro aspecto negativo de los algoritmos locales es su inherente lentitud. Larapidez de la clasificación se ve penalizada por la selección de los patronesmás cercanos a la instancia de prueba y por el entrenamiento del modelolocal. Una forma de aliviar esta situación consiste en entrenar un modelo co-mún para un grupo de instancias similares y durante la etapa de clasificación,seleccionar el grupo al que pertenece la instancia de prueba. Se utiliza enton-ces el modelo aprendido previamente correspondiente a este grupo. Este es

1

introducción 2

un punto intermedio entre el aprendizaje totalmente local y el aprendizajeglobal.

Ya sea totalmente local, o mediante la mejora intermedia referida anterior-mente, este tipo de algoritmos mantiene su dependencia de la función dedistancia utilizada para determinar la vecindad de cada instancia. Cuando nohay ningún conocimiento previo disponible, la mayoría de las implementacio-nes utilizan la función de distancia Euclidiana (suponiendo que los ejemplosse representan como entradas vectoriales). Esta función, sin embargo, ignoracualquier regularidad estadística que pueda obtenerse a partir del conjuntode entrenamiento. Idealmente, se podría adaptar la función de distancia a laaplicación específica que se desarrolla [Weinberger et al., 2006; Weinberger ySaul, 2009]. Suponga, por ejemplo, que se quiere clasificar imágenes de ros-tros según su edad y según su género. Difícilmente puede ser óptimo utilizarla misma función de distancia para estos dos problemas, incluso si en ambastareas, las distancias se calculan entre el mismo conjunto de característicasextraídas (por ejemplo, los píxeles, histogramas de color, etc.). Recientemen-te se ha demostrado que, incluso una simple transformación lineal de lascaracterísticas de entrada, puede conducir a las mejoras significativas en laclasificación de k-NN [Weinberger et al., 2006; Xing et al., 2003; Goldbergeret al., 2004; Weinberger y Saul, 2009].

Los métodos que aprenden una función de distancia funcionan mediante laexplotación de información sobre las distancias entre las instancias que estáintrínsecamente disponibles en los ejemplos de entrenamiento. Por ejemplo,en el problema de recuperación de información, restricciones del tipo “eldocumento q es más similar al documento a que al documento b” estándisponibles mediante la retroalimentación que se obtiene a parir del compor-tamiento del usuario. Estas restricciones contienen información importantepara adaptar la función de distancia. En los casos supervisados, las restriccio-nes se pueden inferir a partir de las instancias de entrenamiento partiendodel principio de que “la distancia entre instancias de la misma clase debeser más pequeña que la distancia entre instancias de clases diferentes”. Losalgoritmos existentes para el aprendizaje de la función de distancia han mos-trado un buen desempeño y se caracterizan por tres requisitos básicos: enprimer lugar, deben ser lo suficientemente flexibles para soportar la variedadde restricciones utilizadas por los diferentes paradigmas; en segundo lugar,el algoritmo debe ser capaz de aprender un función de distancia que genera-

introducción 3

liza bien a los datos de prueba no conocidos con anterioridad y, por último,el algoritmo debería ser rápido y escalable.

A pesar de su probada efectividad, los razonamientos previos sugieren quelos métodos de aprendizaje local pueden beneficiarse aún más de su hibrida-ción con los algoritmos que aprenden las funciones de distancia. Esta hibri-dación tiene el inconveniente de hacer más costoso aun el entrenamiento y laexplotación por lo que deberá realizarse mediante la explotación de algunaestructura de datos que permita aminorar significativamente los tiempos deacceso a las instancias más cercanas. Es por ello en esta tesis abordamos elsiguiente problema científico: ¿Cómo hibridar de forma coherente el apren-dizaje local y los algoritmos de aprendizaje de distancias de modo que semejore la eficacia del primero a la vez que se aumente significativamente sueficiencia?

En la solución del anterior problema científico, nos guían las siguientes inte-rrogantes que constituyen las preguntas de investigación:

• ¿Cuál algoritmo de aprendizaje de funciones de distancia emplear parahibridar con el aprendizaje local?

• ¿Bajo qué criterio deben formarse grupos de instancias que permitanaprender una distancia por cada grupo?

• ¿Cuántos y cuáles grupos deben intervenir en la predicción de unanueva instancia?

• ¿Qué estructura de datos será apropiada para acelerar el acceso a lasinstancias más cercanas a un patrón determinado?

• ¿Puede tal estructura ser determinante en la forma en que se agrupa?

La hipótesis que guía este trabajo es: El empleo de algoritmos de aprendi-zaje de funciones de distancia combinado con el aprendizaje local permiteaminorar las deficiencias de este último enfoque, a la vez que potencia susvirtudes.

Para validar esta hipótesis nos hemos planteado el objetivo general crearun nuevo algoritmo de aprendizaje automático, a partir de la hibridación delos algoritmos de aprendizaje local con los algoritmos de aprendizaje de fun-ciones de distancia, de modo que se obtenga un modelo eficiente y eficaz.Para ello debemos tomar como base un método de aprendizaje de funcionesde distancia de los disponibles en la literatura (Capítulo 1) que combine la

introducción 4

eficiencia y eficacia. El método que resulte seleccionado se empleará (Capítu-lo 2) en las tres variantes conocidas de aprendizaje local: a saber, una únicafunción de distancia, una función de distancia por grupo y una función dedistancia para cada instancia. En cualquiera de las tres variantes será impor-tante utilizar una estructura de datos que permita acceder a las instancias enun tiempo polinomial. Por último, se lleva a cabo un estudio experimental(Capítulo 3) que permite evaluar el comportamiento de nuestras propuestascon conjuntos de datos internacionales. Estos estudios nos permiten concluir,bajo qué condiciones son apropiados cada uno de los enfoques.

1A P R E N D I Z A J E D E L A F U N C I Ó N D E D I S TA N C I A

We have seen that computer programming is an art,because it applies accumulated knowledge to the world,

because it requires skill and ingenuity, and especiallybecause it produces objects of beauty.

— Donald E. Knuth [Knuth, 1974]

Contenido1.1 Aprendizaje automatizado 6

1.2 Solución del problema de clasificación con k-NN 8

1.3 Aprendizaje de distancia como alternativa 10

1.4 Aprendizaje de distancia 10

1.4.1 Antecedentes matemáticos 11

1.4.2 Formulación del aprendizaje de distancia 14

1.4.3 Técnicas de optimización en el aprendizaje de dis-

tancia 16

1.4.4 Visualización de distancia Mahalanobis 20

1.5 Aprendizaje supervisado de distancia global 21

1.5.1 Restricciones por pares 22

1.5.2 Aprendizaje supervisado de distancia global por pro-

gramación convexa 23

1.5.3 Enfoque probabilístico para aprendizaje supervisa-

do de distancia global 24

1.5.4 Information Theoretic Metric Learning 25

1.5.5 Keep It Simple and Straightforward Metric 27

1.6 Aprendizaje supervisado de distancia local 27

1.6.1 Discriminant Adaptive Nearest Neighbor classifica-

tion 28

1.6.2 Neighborhood Components Analysis 30

5

1.1 aprendizaje automatizado 6

1.6.3 Large Margin Nearest Neighbour Metrics 32

1.6.4 Multi-metric Large Margin Metric Learning 34

1.6.5 Large Margin Multi-Task Metric Learning 35


En este capítulo se realiza un estudio del estado del arte sobre los enfoquesy algoritmos de aprendizaje de funciones de distancia. Además, se profun-diza en la clasificación basada en instancias así como en la aplicabilidad delaprendizaje de las funciones de distancia a la clasificación. Se analiza, comocaso particular, la clasificación basada en los k vecinos más cercanos [Cover yHart, 1967] en la sección 1.2. Se presenta una panorámica sobre el aprendiza-je de distancia, y su modelado como un problema de optimización convexaen la sección 1.4. Luego aborda diferentes enfoques de aprendizaje a partirde la disponibilidad de información en forma de restricciones, enfocándoseen el supervisado, y bajo este, los enfoques globales y locales en las secciones1.5 y 1.6. Además, se describen modelos y estrategias de los algoritmos másrepresentativos de cada enfoque.

1.1 aprendizaje automatizado

El aprendizaje automatizado (del inglés Machine Learning) se define como unsub-campo de la Inteligencia Artificial (IA) que se ocupa de aquellos progra-mas capaces de aprender a partir de la experiencia [Russell y Norvig, 1996].De manera más concreta se desarrollan algoritmos para modelar compor-tamientos a partir de información, se trata de crear programas capaces degeneralizar comportamientos a partir de una información estructurada y su-ministrada en forma de ejemplos. Es, por lo tanto, un proceso de induccióndel conocimiento (ver Figura 1). En muchas ocasiones el campo de actuacióndel aprendizaje automatizado se solapa con el de la Estadística, ya que lasdos disciplinas se basan en el análisis de datos. Sin embargo, el aprendizajeautomatizado se centra más en el estudio de la complejidad computacionalde los problemas. Muchos problemas son de clase NP-hard, por lo que granparte de la investigación realizada en esta rama se enfoca al diseño de solucio-nes factibles a esos problemas [Mitchell, 1997]. El aprendizaje automatizadotiene una amplia gama de aplicaciones, incluyendo motores de búsqueda,diagnósticos médicos, detección de fraude en el uso de tarjetas de crédito,

1.1 aprendizaje automatizado 7

análisis del mercado de valores, clasificación de secuencias de ADN, reco-nocimiento del habla y del lenguaje escrito, juegos y robótica [Bishop et al.,2006; Hastie et al., 2009].

InstanciaAlgoritmo deaprendijaze automatizado

Modelo de:-Clasificación-Optimización

Nueva instancia

Respuesta

Figura 1: Esquema general del aprendizaje automatizado

Entre las problemáticas del aprendizaje automatizado se pueden citar: losproblemas de clasificación, asociación, formación de grupos y la selección derasgos.

La problemática de la clasificación consiste en, a partir de un conjunto deaprendizaje conformado por ejemplos del área de aplicación que se trate,encontrar un algoritmo que permita clasificar un nuevo caso del dominio.Cada ejemplo se describe por un conjunto de rasgos predictores de distintosdominios y al menos un rasgo objetivo cuyo dominio representa una clase,categoría o grupo del problema en cuestión. De esta forma, el conjunto deaprendizaje se compone por subconjuntos representativos de las diferentesclases del problema y sobre la base de los ejemplos se aprende a que clasepertenece un nuevo ejemplo.

El resultado del aprendizaje puede ser conocimiento explícito o implícito. Esexplícito cuando producto del proceso de aprendizaje se obtiene conocimien-to en alguna forma, por ejemplo reglas u operadores; ejemplo de este tipo deaprendizaje es el algoritmo ID3 [Quinlan, 1986] y sus descendientes [Quin-lan, 1993]. Es implícito cuando no se obtiene conocimiento explícito desde elconjunto de ejemplos pero este sirve para que la computadora pueda resol-ver nuevos problemas o alcanzar mejores soluciones; también denominadoaprendizaje perezoso (lazy learning) [Aha, 1997]; los algoritmos de aprendi-zaje basado en instancias (del inglés instance-based learning algorithms) [Ahaet al., 1991] son un ejemplo de este tipo de aprendizaje.

1.2 solución del problema de clasificación con k-nn 8

1.2 solución del problema de clasificación con k-nn

La esencia del aprendizaje basado en instancias es retornar como solución aun problema, la solución conocida a un problema similar. En los algoritmosde aprendizaje basados en instancias cada concepto se representa por un con-junto de ejemplos. Cada ejemplo puede ser una abstracción del concepto ouna instancia individual del concepto. El método de los k vecinos más cer-canos constituye un algoritmo clásico dentro de esta corriente o forma desolucionar problemas y ha sido empleado en problemas de clasificación yregresión. El método básicamente consiste en comparar la nueva instancia aclasificar con los ejemplos o casos existentes del problema en cuestión. Pa-ra ello, se recuperan los k casos más cercanos, a partir del parecido entrelos atributos del nuevo caso con los casos de la muestra de aprendizaje oentrenamiento. Como resultado del mismo se devuelve la clase mayoritariacontenida en los k casos más cercanos a él.

Se supone que los ejemplos de entrenamiento xi ∈ X son vectores en unespacio de características multidimensional, cada ejemplo está descrito entérminos de d atributos considerando |C| clases para la clasificación. Los va-lores de los atributos del i-ésimo ejemplo (donde 1 6 i 6 n) se representanpor el vector d-dimensional

xi =[xi1, xi2, ..., xip

]T ∈ X (1)

El espacio se divide en regiones según las localizaciones y las etiquetas de losejemplos de entrenamiento. Un punto en el espacio es asignado a la clase ci siesta es la clase más frecuente entre los k ejemplos de entrenamiento más cer-canos. En la etapa de entrenamiento del algoritmo solamente se almacenanlos vectores característicos y las etiquetas de los ejemplos de entrenamiento.En la etapa de clasificación, la nueva solicitud (ejemplo del que no se cono-ce su clase) se representa por un vector en el espacio de características. Secalculan las distancias entre los vectores almacenados y el nuevo vector, y seseleccionan los k ejemplos más cercanos. Finalmente, se le asigna a la soli-citud la etiqueta que más se repite en los vectores seleccionados (ver Figura2).

Este método supone que los vecinos más cercanos proveen la mejor clasifi-cación y esto se hace utilizando todos los atributos; el problema de dichasuposición es que es posible que se tengan muchos atributos irrelevantes que

1.2 solución del problema de clasificación con k-nn 9

dominen sobre la clasificación: dos atributos relevantes perderían peso anteotros veinte atributos irrelevantes. Para corregir el posible sesgo se puedeasignar un peso a cada atributo, dándole así mayor importancia a los atri-butos más relevantes. Otra posibilidad consiste en tratar de determinar oajustar los pesos con ejemplos conocidos de entrenamiento. Finalmente, an-tes de asignar pesos es recomendable identificar y eliminar los atributos quese consideran irrelevantes.

+1

-12x1x

?

Figura 2: Ejemplo de 3-nn clasificación. El punto verde de prueba (con etiqueta ‘?’) se

clasifica con la etiqueta común entre los tres puntos más cercanos. Fuente:

[Weinberger, 2007]

Dado un ejemplo q que debe ser clasificado, sean {x1, ..., xk} ∈ Vq los k vecinosmás cercanos al ejemplo q en los ejemplos de aprendizaje, la probabilidadposterior de cada clase es:

p(cj,q) =

∑x∈Vq

1(xc = cj) ∗K(d(x,q))∑x∈Vq

K(d(x,q))(2)

Donde 1(.) es 1 si y solo si su argumento es verdadero, K(.) es una función“kernel”, se define como siguiente:

K(d(x,q)) =1

d(x,q)(3)

Finalmente, k-NN se define como:

f(q)← arg maxci∈C

p(ci|q) (4)

El valor f(x) devuelto por el algoritmo como un estimador de f(x) es solo elvalor más común de f entre los k vecinos más cercanos a x. Si se elige k = 1;entonces el vecino más cercano a xi determina su valor.

1.3 aprendizaje de distancia como alternativa 10

En 1967, se elaboraron algunas de las propiedades formales de la regla k-NN;por ejemplo, se demostró que para (k = 1) y número de instancias (N→∞)

el error de clasificación k-NN está acotado superiormente por el doble de latasa de error de Bayes [Cover y Hart, 1967].

1.3 aprendizaje de distancia como alternativa para mejorar

el rendimiento de k-nn

La regla de k-NN clasifica cada instancia por la clase mayoritaria de sus k ve-cinos más cercanos en el conjunto de entrenamiento. Por la propia naturalezade su regla de decisión, el rendimiento de la clasificación k-NN depende cru-cialmente en la forma en que se calculan las distancias entre las diferentes ins-tancias. Cuando ningún conocimiento previo está disponible, la mayoría delas implementaciones de k-NN calculan la distancia Euclidiana (suponiendoque los ejemplos se representan como entradas vectoriales). Desafortunada-mente, la distancia Euclidiana ignora cualquier tipo de regularidad estadísti-ca que pueda ser estimada a partir del conjunto de entrenamiento. Motivadopor estos problemas, un número de investigadores han demostrado que laclasificación k-NN se puede mejorar mediante el aprendizaje de una funciónde distancia adecuada [Weinberger et al., 2006; Weinberger y Saul, 2008; Cho-pra et al., 2005; Davis et al., 2007; Xing et al., 2003] . La selección de una fun-ción de distancia adecuada también es fundamental para otros algoritmosde aprendizaje, tales como k-means [Hartigan y Wong, 1979], el prototipomás cercano, y otros. En la siguiente sección, se presentarán los problemasgenerales del aprendizaje de funciones de distancia (en inglés Distance MetricLearning).

1.4 aprendizaje de distancia

Antes de introducir los diferentes algoritmos de aprendizaje de distancia, seintroducen algunos términos matemáticos básicos. A continuación se presen-ta la definición y algunas propiedades de las matrices semidefinidas positi-vas, las definiciones de espacio métrico y cómo una métrica bien definidasobre algunos de entrada puede obtenerse a través de mapeo en un espa-cio vectorial euclidiano. También se introducen algunas técnicas de optimi-zación que se usan en el aprendizaje de distancia. Por último, se muestran

1.4 aprendizaje de distancia 11

varios ejemplos de las aplicaciones reales que han utilizado aprendizaje dedistancia.

1.4.1 Antecedentes matemáticos

En la bibliografía suelen utilizarse los términos función, métrica y seudo-métrica, de ahí que a continuación se presentan algunos términos básicos ypropiedades las cuales, de cumplirse, definen al término en cuestión.

1.4.1.1 Matrices definidas positivas

Definición 1 Una matriz simétrica M ∈ <d×d se denomina semidefinida positivasi la siguiente restricción se cumple: ∀x ∈ <d, xTMx > 0

Definición 2 Si en la definición 1 se cumple la desigualdad estrictamente, entoncesM se denomina definida positiva (M � 0).

Se denotará el conjunto de las matrices semidefinidas positivas como Sd+ =

{M ∈ <d×d|M � 0}. Según la Definición (1), una matriz semidefinida po-sitiva M ∈ S+ solamente tiene los valores propios no negativos. PorquevTMv = λ > 0, donde v es un vector propio normalizado y λ es el valorpropio correspondiente de M. Por otra parte, cualquiera matriz simétrica Mque tiene solamente valores propios no negativos, tiene que ser semidefinidapositiva.

Lema 1 Una matrizM ∈ <d×d es semidefinida positiva si y solo si todos los valorespropios son no negativos.

En álgebra lineal, cualquiera matriz simétrica puede ser descompuesta enproducto de dos matrices reales M = VDVT , donde V contiene los vectoresortonormales1 de M y la matriz D contiene los valores propios correspon-dientes. Debido a que todos los valores propios son no negativos, entoncesse puede obtener el siguiente lema:

Lema 2 Una matriz M ∈ <d×d es semidefinida positiva si y solo si existe unamatriz A ∈ <d×d, tal que M = AAT .

1 Los vectores u y v son ortonormales si y solo si uTv = 0 y uTu = 1, vTv = 1


1.4.1.2 Espacio métrico

Definición 3 (Métrica) La aplicación d : X × X → <+ sobre un espacio X sedenomina una métrica si para todos los vectores ∀xi, xj, xk ∈ X se satisfacen laspropiedades:

• d(xi, xj) + d(xj, xk) > d(xi, xk) (desigualdad triangular).

• d(xi, xj) > 0 (no negatividad).

• d(xi, xj) = d(xj, xi) (simetría).

• d(xi, xj) = 0⇔ xi = xj (distinguibilidad).

En sentido estricto, una función que satisface las tres primeras propiedadespero no la cuarta, se denomina una seudométrica [Weinberger y Saul, 2009].Sin embargo, para simplificar la discusión, en lo que sigue a menudo se re-fieren las seudométricas como métricas, señalando la distinción sólo cuandosea necesario.

En aprendizaje automatizado, la distancia Euclidiana es la más usada comomedida de disimilitud (donde distancias pequeñas entre instancias indicansimilitud y distancias grandes indican disimilitud). La distancia Euclidianaentre dos vectores xi y xj se define como

d(xi, xj) =√

(xi − xj)T (xi − xj) (5)

También se obtiene una familia de métricas en el espacio X mediante el cálcu-lo de la distancia Euclidiana después de realizar la transformación linealx ′ = Ax. Esta métrica calcula la distancia cuadrada:

dA(xi, xj) = ‖A(xi, xj)‖2 (6)

donde la transformación lineal en la ecuación (6) está parametrizada por lamatriz A. Se puede demostrar que la ecuación (6) define una métrica válida siA es una matriz de rango completo. La distancia cuadrada se puede expresaren el término de la matriz:

dM(xi, xj) = ‖A(xi − xj)‖2

=(A(xi − xj)

)T(A(xi − xj)

)= (xi − xj)

TATA(xi − xj)

= (xi − xj)TM(xi − xj)


A una seudométrica de esta forma se hace referencia como métrica Mahala-nobis, fue introducida por Mahalanobis [1936]:

Definición 4 La distancia Mahalanobis en el espacio <d con respecto a una matrizsemidefinida positiva M ∈ Sd+ entre dos vectores xi, xj ∈ <d se define como:

dM(xi, xj) = (xi − xj)TM(xi − xj) (7)

La familia de seudométrica Mahalanobis es una generalización de la distan-cia Euclidiana. Cualquier matriz M formada por esta vía, se garantiza que essemidefinida positiva (no tiene valores propios negativos).

00.2

0.40.6

0.81

−1

−0.5

0

0.5

10

0.2

0.4

0.6

0.8

1

αβ

γ

Figura 3: El cóno S2+ de matrices semidefinidas positivas

[α β

β γ

]. Fuente: [Bellet

et al., 2013]

Originalmente, este término era utilizado para describir las formas cuadráti-cas en distribuciones gaussianas, donde la matriz M desempeñó el papel dela matriz de covarianza inversa Σ−1.

f(x) =1√

(2π)d|Σ|exp

(−1

2(x − µ)TΣ−1(x − µ)

)(8)

Σ =1

n− 1

n∑i=1

(xi − µ)(xi − µ)T (9)

Donde M ∈ Sd+, las distancias en la ecuación (6) y (7) se pueden ver comouna generalización de la distancia Euclidiana (ver Figura 4). En particular,la distancia Euclidiana se recupera haciendo que M sea igual a la matrizidentidad.


−4 −3 −2 −1 0 1 2 3 4−4

−3

−2

−1

0

1

2

3

4

(a)−6 −4 −2 0 2 4 6

−8

−6

−4

−2

0

2

4

6

(b)

Figura 4: Comparación entre distancia Euclidiana y Mahalanobis: (a) se presenta la

distancia Euclidiana y (b) se presenta la distancia Mahalanobis. En ambas

figuras, la unidad de distancia desde el centro se marca en color rojo.

1.4.2 Formulación del aprendizaje de distancia

En esencia el objetivo del aprendizaje de métrica de distancia es adaptar unafunción (métrica) de distancia, generalmente la distancia de Mahalanobis en-tre dos puntos dM(xi, xj) = (xi − xj)

TM(xi − xj), para una aplicación específi-ca, usando para ello información del conjunto de entrenamiento. Para esto, lamayoría de los algoritmos que aprenden una métrica de distancia tratan deresolver un problema de optimización con restricciones, cuyo modelo tienela forma siguiente:

arg mınM�0

L(M) = λR(M) +

m∑i=1

li(M,Ri) (10)

Donde R es un regularizador sobre el parámetro, la función li(M,Ri) es lafunción costo que penaliza la violación de la restricción Ri y λ es el parámetrode regularización. Mientras que las formulaciones son diferentes para cadamodelo, las restricciones son de uno de los dos tipos:

• Restricciones por pares:S ={(xi, xj) : xi y xj deben ser similares

},

D ={(xi, xj) : xi y xj deben ser disimilares

}.

• Restricciones relativas:T ={(xi, xj, xk) : xi debe estar más cercano al xj que xk

}.


Una métrica de la distancia de Mahalanobis se puede parametrizar en fun-ción de la matriz A o de la matriz M. Se tiene en cuenta que la matriz Adefine de forma única a la matriz M, mientras que la matriz M define A has-ta la rotación (que no afecta el cálculo de las distancias). Esta equivalenciasugiere dos enfoques diferentes de aprendizaje de distancia. En particular,se puede estimar una transformación lineal A o estimar una matriz positi-va semidefinida M. Nótese que en el primer enfoque, la optimización es sinrestricciones, mientras que en el segundo enfoque, es importante para hacercumplir la restricción de que la matriz M sea semidefinida positiva. Aun-que por lo general es más complicado resolver un problema de optimizacióncon muchas restricciones, este segundo enfoque tiene ciertas ventajas que seexploran en las secciones posteriores. Muchos investigadores han propuestoformas de estimar la métrica Mahalanobis con el propósito de calcular dis-tancias en la clasificación k-NN [Weinberger et al., 2006; Weinberger y Saul,2009; Bar-Hillel et al., 2003]. Para la clasificación k-NN, se busca una trans-formación lineal tal que los vecinos más cercanos calculados a partir de lasdistancias en la ecuación (6) compartan las mismas etiquetas de clase.

En los últimos años ha habido una considerable investigación sobre el apren-dizaje de distancia [Bar-Hillel et al., 2003; Zhang et al., 2003; Xing et al., 2002;Davis et al., 2007; Friedman, 1994; Weinberger et al., 2006; Weinberger y Saul,2009]. Existen varias clasificaciones para los algoritmos que aprenden unamétrica de distancia pero dependiendo de la disponibilidad de los ejemplosde entrenamiento, los algoritmos para el aprendizaje de la función de dis-tancia se pueden dividir en dos categorías: aprendizaje de distancia supervi-sado (en inglés supervised distance metric learning) y aprendizaje de distanciano supervisado (en inglés unsupervised distance metric learning). Este capítu-lo, en su desarrollo se centra en la categoría de aprendizaje supervisado. Adiferencia de la mayoría de los algoritmos de aprendizaje supervisado don-de los ejemplos de entrenamiento son etiquetados a partir de sus clases, enlos algoritmos supervisados de aprendizaje de la métrica de distancia, losejemplos de entrenamiento se convierten en restricciones por parejas: restric-ciones de equivalencia y restricciones no equivalentes. Las restricciones deequivalencia son los pares de ejemplos que pertenecen a las mismas clases, osea los que conforman el conjunto S definido anteriormente. Por otra partelas restricciones no equivalentes son los pares de ejemplos que pertenecen adiferentes clases, definidos en el conjunto D.


A su vez, el aprendizaje supervisado de métrica de distancia se puede dividiren dos categorías: aprendizaje supervisado de la métrica de distancia globaly local. El primero aprende la métrica de distancia en un sentido global, esdecir, satisface todas las restricciones por pares al mismo tiempo. Mientrasque los algoritmos bajo la segunda categoría aprenden la métrica de dis-tancia en un entorno local, es decir, sólo para satisfacer las restricciones depares locales. Los algoritmos de esta categoría son especialmente aplicados atareas de recuperación de información (del inglés information retrieval) y parahibridarlos con los clasificadores k-NN. Ambos métodos están influenciadospor los ejemplos de datos que están cerca de los ejemplos de prueba. Losenfoques locales se clasifican en aprendizaje de una métrica y de múltiplesmétricas . La Figura 5 ilustra brevemente las diferentes categorías de apren-dizaje de distancia. En la siguiente parte se detallan algunos aspectos tantodel aprendizaje de métrica de distancia global como local.

Por grupo

Local Global

Una métricaMultiples métricas

Por instancia de prueba

Por instancia deentrenamiento

Figura 5: Esquema de las categorías de los métodos de aprendizaje de distancia.

1.4.3 Técnicas de optimización en el aprendizaje de distancia

En general, no hay una técnica de optimización universalmente aceptableentre los modelos que se presentarán en la siguiente parte. Actualmente, lamayoría de los autores diseñan su propia técnica de optimización específicapara sus modelos individuales (ver Figura 6). A continuación se hace un


resumen de algunas técnicas principales que han sido utilizadas con éxito enel aprendizaje de distancia.

¿Como seaprendeuna métrica?

LDA

PCA

RCA

Métodos de valores propios

¿Función esconvexa?

Méto

dos

itera

tivos

sí

No

XingGrad proyectado

Proyección de Breg

Grad estocástico

Grad descendient

POLA

ITML

NCA

DML-eig

Figura 6: Una perspectiva general de los métodos utilizados en aprendizaje de dis-

tancia.

1.4.3.1 Optimización mediante los valores propios

Los métodos de valores propios han sido utilizados para descubrir la trans-formación lineal del espacio de entrada, por ejemplo Principal ComponentAnalysis (PCA) [Jolliffe, 2005], Linear Discriminant Analysis (LDA) [Fisher, 1936b],Relevant Component Analysis (RCA) [Bar-Hillel et al., 2005; Shental et al., 2002],ó Distance Metric Learning with Eigenvalue Optimization (DML-eig) [Ying y Li,2012]. Estos métodos explotan las diferentes maneras para aprender la ma-triz de transformación. Estas transformaciones lineales se pueden ver comodistancia Mahalanobis. Ellos también pueden “kernelizar” para trabajar enlos espacios no lineales.

1.4.3.2 Gradiente descendiente

Gradiente descendiente (del inglés gradient descent) es la técnica más simplede optimización [Boyd y Vandenberghe, 2009]. Sin embargo, a pesar de su


simplicidad, puede ser no trivial para aplicar al aprendizaje de distancia. Es-to se debe a que el gradiente descendiente está diseñado para resolver losproblemas de optimización sin restricciones (del inglés unconstrained optimi-zation problems). Y los problemas de aprendizaje de distancia normalmenteson problemas de optimización con restricciones basados en las matrices. Tí-picamente, el dominio es el cono de las matrices semidefinidas positivas. Poreso, el gradiente descendiente estándar no se puede aplicar de la forma na-tural.

Una posible solución se presenta cuando el dominio de la matriz M es elcono de las matrices semidefinidas positivas, la cual se puede factorizar enla matriz M = ATA, para luego aplicar el gradiente descendiente en A. Porejemplo:

mınM>0

L(M) = λR(M) + λ

m∑i=1

li(XTMX) (11)

Se puede convertir en problema de optimización sin restricciones como:

mınL(A) = λR(ATA) +

m∑i=1

li(XTATAX) (12)

Entonces el gradiente descendiente realiza iterativamente el gradiente de L

con respecto a A moviéndose en dirección del gradiente.

At+1 = At − ηt∇L(At) (13)

Donde ηt es el tamaño del paso (en inglés steep size) para la iteración t. Des-afortunadamente, esta nueva fórmula en términos de A tiene límites como:si el problema original es de optimización convexa en M, entonces el nue-vo problema en A sería de optimización no convexa. Por otra parte, aplicardirectamente el gradiente descendiente en A tiene algunas ventajas impor-tantes como: se puede controlar el rango de la matriz M a través de tamañode A, el algoritmo resultante es simple, rápido y escalable.

1.4.3.3 Gradiente proyectado

Por otro lado, si el modelo es convexo y se quiere mantener convexidad, sepuede aplicar el método del gradiente proyectado (del inglés projected gradientdescent) [Goldstein, 1964] (que es un caso especial del gradiente descendientegeneralizado). La idea básica es que, en lugar de aplicar un gradiente por


cada iteración, el cual no garantiza que la matrizM sea semidefinida positiva,se aplica el gradiente descendiente seguido por una proyección ortogonalsobre el cono de las matrices semidefinida positivas:

Mt+12=Mt − ηt∇L(Mt) (14)

Mt+1 = arg mınM∗�0

‖M∗ −Mt+12‖2F (15)

La primera etapa es la del gradiente descendiente estándar, y la segundaetapa es la proyección para el cono de las matrices semidefinidas positivas.Resulta que esta proyección es sencilla: se calcula la descomposición propiade Mt+1

2y establece todos los valores propios negativos a ceros. Como en el

gradiente descendiente estándar, se debe tener en cuenta para asegurar quelos step sizes se eligen adecuadamente de modo que se pueda garantizar laconvergencia.

1.4.3.4 Proyección de Bregman

En los casos en los que hay un gran número de restricciones, puede ser cos-toso calcular todo el gradiente de la función de costo. Los dos siguientestécnicas de proyecciones de Bregman y gradiente descendiente estocásticose basan en hacer cambios en una única restricción. Ambos se han utilizadocon éxito para la optimización de varios modelos de aprendizaje de distan-cia.

El método de las proyecciones Bregman (del inglés Bregman projections) esuna técnica de primer orden desarrollado por Bregman en [Bregman, 1967]para resolver problemas de optimización donde se quiere minimizar unafunción estrictamente convexa basada las restricciones de desigualdad linea-les:

mınxf(x) s.t.

Ax 6 b. (16)

La idea de fondo en el método Bregman es seleccionar una restricción encada iteración, y realiza una proyección tal que la restricción seleccionada essatisfecha. A diferencia del método gradiente proyectado, este método no esgeneralmente una proyección ortogonal, pero después de cada iteración sehace una corrección apropiada.


1.4.3.5 Gradiente descendiente estocástico

Se considera el problema de minimizar la suma de los costos∑i li(X

TMX).Parecido al método basado en proyección, se quiere actualizar la función decosto en un solo costo li en una vez. El método de gradiente descendienteestocástico (del inglés stochastic gradient descent) [Bottou, 1998] propone unasolución para este tipo de objetivo.

La idea básica de algoritmo es considerar un solo caso ci por una iteración yactualiza M:

Mt+1 =Mt − η∇li(XTMX) (17)

La actualización es la solución del siguiente problema

Mt+1 = arg mınM

1

2‖M−Mt‖2F + ηtli(XTMX) (18)

1.4.4 Visualización de distancia Mahalanobis

Se supone que M sea la matriz de distancia, entonces M es simétrica y semi-definida positiva. Se considera la ecuación de vectores propios de la matrizM

Mφi = λiφi (19)

Donde i = 1, . . . ,d. Debido a que M es la matriz simétrica de los valoresreales, entonces sus valores propios van a ser reales también, y sus vecto-res propios pueden ser seleccionado a partir de un conjunto ortogonal, asíque:

φTi φj = Iij (20)

Donde Iij es (i, j)-elemento de la matriz identidad y satisface:

Iij =

1, if i = j

0, otros casos(21)

La matriz M se puede ser expresada como una expansión en términos de susvectores propios

M =

d∑i=1

λiφiφTi (22)

1.5 aprendizaje supervisado de distancia global 21

Se sustituye la ecuación (22) a la ecuación (7), la forma cuadrática se convierteen:

dM(xi, xj) =d∑i=1

λiy2i (23)

Donde se define yi = φTi (xi − xj). Se puede interpretar {yi} como un nuevosistema de coordenadas por los vectores ortogonales φi que son desplazadosy rotados con respecto a la coordinada original xi. Formando el vector y =

(y1, . . . ,yd)T , se obtiene

y = U(xi − xj) (24)

Donde U es la matriz, cuyas columnas son los vectores propios φi. U esla matriz ortogonal, i.e., satisface UUT = UTU = I, donde I es la matrizidentidad. Todos los valores propios λi son positivos entonces sus superficiesrepresentan elipsoide, y sus ejes orientados hacia ui con una escala λ1/2i (verFigura 7).

x1

x2

λ1/ 21

λ1/ 22

y1y2

φ1

φ2

Figura 7: Visualización de la distancia de Mahanalobis en 2-D.

1.5 aprendizaje supervisado de distancia global

Los algoritmos bajo esta categoría aprenden una métrica de distancia quegarantiza la cercanía de todos los ejemplos de datos de la misma clase yque separa todos los ejemplos de datos de diferentes clases. El método másrepresentativo de esta categoría es el propuesto por, que formula el aprendi-zaje de la métrica de distancia como un problema de programación convexarestringida (en inglés constrained convex programming) [Boyd y Vandenberghe,


2009]. Este método aprende una métrica globalmente que minimiza la dis-tancia entre los pares que forman las restricciones de equivalencia sujetos ala restricción de que los pares no equivalentes están bien separados. A conti-nuación se abordan especificidades de las restricciones por pares. Luego, sehace un estudio de los modelos de aprendizaje supervisado global de métri-ca propuestos en [Xing et al., 2002]. A continuación, se presentará un modeloprobabilístico de aprendizaje de distancia. También, se describe un modelobasado en teoría de información [Davis et al., 2007]. Por último, se introduceun modelo basado en la prueba de razón de verosimilitud [Koestinger et al.,2012].

1.5.1 Restricciones por pares

A diferencia del aprendizaje supervisado típico, donde cada ejemplo de en-trenamiento se anota con su etiqueta de clase, la información de la etiquetaen el aprendizaje de funciones de distancia se especifica generalmente enforma de restricciones por pares:

1. Las restricciones de equivalencia, que establecen que los elementos deun par determinado son similares y deben estar cerca en el espaciométrico inducido por la función de distancia aprendida.

2. Las restricciones no equivalentes, que indican que dos ejemplos deter-minados son diferentes y por tanto no deben estar cercanos en tal espa-cio.

La mayor parte de los algoritmos de aprendizaje tratan de encontrar una fun-ción de distancia que mantiene juntos a todos los pares que forman partede las restricciones de equivalencia, mientras que separa los ejemplos queforman parte de las restricciones no equivalentes. En [Domeniconi y Guno-pulos, 2001], se ajustan los pesos de los rasgos de forma adaptativa paracada ejemplo de prueba para reflejar la importancia de las características enla determinación de la etiqueta de la clase de los ejemplos de prueba. En[Friedman, 1994], la función de distancia también se modifica en dependen-cia de la región donde se localiza la instancia a clasificar. En [Xing et al.,2002; Bar-Hillel et al., 2003], la función de distancia es explícitamente apren-dida para reducir al mínimo la distancia entre ejemplos de datos dentro delas restricciones equivalentes y maximizar la distancia entre puntos de datosen las restricciones no equivalentes.


Sea X ={x1, x2, x3, . . . , xn

}una colección de puntos de datos, donde n es

el número de muestras de la colección. Cada instancia xi ∈ <m es un vec-tor de datos, donde m es el número de rasgos. El conjunto de restriccionesequivalentes denotadas por:

S ={(xi, xj)|xi y xj pertenecen a las mismas clases

}(25)

y el conjunto de restricciones no equivalentes está denotado por:

D ={(xi, xj)|xi y xj pertenecen a diferentes clases

}(26)

La función de distancia está denotada por la matriz A ∈ <m×m, y la distanciaentre dos puntos de datos cualesquiera u e v está expresada por:

d2A(u, v) = ‖u− v‖2A = (u− v)TA(u− v) (27)

1.5.2 Aprendizaje supervisado de distancia global por programación convexa

Dadas las restricciones equivalentes en S y las restricciones no equivalentesen D, [Xing et al., 2002] formula el problema del aprendizaje de métricade distancia como un problema de programación convexa [Vandenberghe yBoyd, 1996]:

mınA∈<m×n

∑(xi,xj)∈S

∥∥xi − xj∥∥2As.t A � 0,

∑(xi,xj)∈D

√∥∥xi − xj∥∥2A > 1 (28)

Debe tenerse en cuenta que la restricción como un problema de semidefinidapositiva A � 0 es necesaria para garantizar las propiedades de no negativi-dad y de desigualdad triangular entre dos puntos de datos. Aunque el pro-blema en (28) cae en la categoría de programación convexa, pero no puedeser resuelto de manera eficiente debido a que no puede ser modelado comoun problema de programación cuadrática [Gill et al., 1981] ni programaciónsemidefinida [Vandenberghe y Boyd, 1996]. Como resultado, sólo puede serresuelto por el enfoque genérico, que es incapaz de tomar ventaja de las ca-racterísticas especiales del problema. En segundo lugar, como se señaló en[Zhang et al., 2003], el número de parámetros en (28) es casi cuadrático conrespecto al número de rasgos. Esta propiedad es difícil de escalar a un grannúmero de rasgos. Otra desventaja con (28) es que es incapaz de estimar la


probabilidad de que cualquiera de los ejemplos de datos comparta la mismaclase. A continuación se describe un algoritmo representativo de este enfo-que.

1.5.3 Enfoque probabilístico para aprendizaje supervisado de distancia global

Dada la complejidad de cálculo del problema de optimización originalmentedescrito en [Xing et al., 2003], para simplificar el cálculo, un método probabi-lístico de aprendizaje de distancia global puede ser establecido sobre la basede la fórmula (28).

Siguiendo la idea de [Friedman, 1994], se asume un modelo de regresiónlogística en la estimación la probabilidad de que cualquiera de los dos puntosde datos xi y xj comparten la misma clase, es decir:

Pr(yi,j|xi, xj) =1

1+ exp(−yi,j(∥∥xi − xj∥∥2A − µ))

(29)

Donde

yi,j =

{1 (xi, xj) ∈ S

−1 (xi, xj) ∈ D

El parámetro µ representa el umbral. Dos puntos de datos xi y xj tendránla misma etiqueta de clase sólo cuando su distancia

∥∥xi − xj∥∥2 es menor queel umbral µ. Entonces el logaritmo total de verosimilitud tanto de las restric-ciones equivalentes S como de las restricciones no equivalentes D se expresacomo:

Lg(A,µ) = logPr(S) + logPr(D) (30)

Usando la estimación de máxima verosimilitud, se puede plantear el pro-blema de aprendizaje de métrica de distancia en el siguiente problema deoptimización:

mınA∈<m×n,µ∈<

Lg(A,µ)

s.t A � 0,µ > 0 (31)

La dificultad con la solución de la fórmula (31) se encuentra en la restric-ción semidefinida positiva A � 0. Para simplificar los cálculos, se modela lamatriz A, utilizando el espacio propio de ejemplos. Sea T = (x1, x2, . . . , xn)


incluye todos los ejemplos de conjuntos de entrenamiento usados por las res-tricciones en S y D. Sea M = 1

n

∑ni=1 xix

Ti incluye los pares de la correlación

entre dos rasgos cualesquiera. Sea {vi}Ki=1 son los mejores K (K 6 m) vectores

propios de la matriz M. A continuación, suponga que A es una combinaciónlineal de los K vectores propios:

A =

K∑i=1

γxixTi ,γ > 0, i = 1, . . . ,K (32)

donde (γi, ...,γK) son los pesos no negativos para la combinación lineal.Usando la forma paramétrica (32), la ecuación (31) se escribe como:

mın{γi∈<}Ki=1,µ∈<

Leg({γi}Ki=1,µ ) = −

∑(xi,xj)∈S

log(1+ exp(−K∑k=1

γkwki,j + µ))

−∑

(xi,xj)∈Dlog(1+ exp(−

K∑k=1

γkwki,j + µ))

wki,j = (xi − xj)TA(xi − xj)

s.t µ > 0,γi > 0, i = 1, . . . ,K (33)

El problema de optimización anteriormente descrito es un problema de pro-gramación convexa que puede ser resuelto aplicando el método de Newton.Además, el método anterior permite el aprendizaje no supervisado. Esto esdebido que la matriz M puede ser construida utilizando tanto los datos eti-quetados como los no etiquetados.

1.5.4 Information Theoretic Metric Learning

En [Davis et al., 2007] adoptaron un enfoque de la teoría de la informaciónpara optimizar la matriz M bajo una amplia gama de posibles restriccionesy el conocimiento previo de la distancia de Mahalanobis. El método se de-nomina Information Theoretic Metric Learning (ITML). Esto se realiza mediantela regularización de la matriz M tal que sea lo más cercana posible de unamatriz M0 conocida previamente. Esta cercanía se interpreta como una diver-gencia Kullbach-Leibler entre las dos matrices gaussianas correspondientesa M y M0 respectivamente. Típicamente, las otras restricciones serán de laforma dM(xi, xj) 6 u para los pares positivos y DM(xi, xj) > l para los paresnegativos. El equilibrio entre la satisfacción de las restricciones y la regulari-zación se controla en la función objetivo utilizando un parámetro adicional


γ. Los parámetros M0, restricción superior u, restricción inferior l tienen queser proporcionados.

KL(p(x;M0)||p(x;M) =

∫p(x;M0) log

p(x;M0)

p(x;M)dx (34)

La distancia (34) proporciona una medida fundada de “cercanía” entre dosfunciones de distancia de Mahalanobis y constituye la base problémica delmodelo. Teniendo en cuenta las parejas de ejemplos similares S y parejas dediferente clase D, el problema de aprendizaje de distancia es:

arg mınM

KL(p(x;M0)||p(x;M)

)(35)

s.t. dM(xi, xj) 6 u (i, j) ∈ S

dM(xi, xj) > l (i, j) ∈ D

Se demostró en [Davis et al., 2007] que la función objetivo (35) se puedeexpresar como un tipo particular de la función Divergencia Bregman, quese permite adaptar el método de Bregman [Censor, 1997] para resolver elaprendizaje de métrica. También, se muestra una equivalencia a un proble-ma propuesto low-rank kernel learning [Kulis et al., 2006], lo que permite lakernelización del algoritmo.

KL(p(x;M0)||p(x;M)

)=1

2Dld(M

−10 ,M−1)

=1

2Dld(M0,M) (36)

donde las matrices M y M0 son de tamaño n×n y

Dld(M,M0) = tr(MM−10 ) − logdet(MM−1

0 ) −n

Se puede aprovechar la equivalencia de (36) para expresar el problema deaprendizaje de distancia (35) de la siguiente manera:

arg mınM�0

tr(MM−10 ) − logdet(MM−1

0 ) −n.

s.t. tr(M(xi − xj)(xi − xj)T 6 u (i, j) ∈ S

tr(M(xi − xj)(xi − xj)T > l (i, j) ∈ D

La optimización se basa en la proyección Bregman, que proyecta la soluciónactual en una única restricción a través de la regla de actualización:

Mt+1 =Mt +βMtCijMt (37)

Una limitación de ITML es que la selección de la matriz M0 puede tener unainfluencia importante en la calidad de la métrica de distancia M.

1.6 aprendizaje supervisado de distancia local 27

1.5.5 Keep It Simple and Straightforward Metric

Koestinger et al. [2012] propuso un método del aprendizaje de distancia sedenomina Keep It Simple and Straightforward Metric (KISSME), la cual es motiva-do por una inferencia estadística basada en una prueba razón de función deverosimilitud. Desde el punto de vista de la inferencia estadística, la decisiónóptima estadística sobre si un par (xi, xj) comparte la misma clase o no sepuede obtener por una prueba razón de función de verosimilitud (93). Por lotanto, se prueba la hipótesis H0 (par (xi, xj) son de la clase diferente) que unpar es diferente en comparación con la alternativa H1 (par (xi, xj) son de lamisma clase):

σ(xi, xj) = log(p(xi, xj|H0)p(xi, xj|H1)

)(38)

Finalmente, se obtiene la métrica Mahalanobis de distancia que refleja laspropiedades de la prueba de razón de verosimilitud logarítmica

DM(xi, xj) = xTijMxij (39)

KISSME tiene una ventaja en que su fórmula es muy simple, es una diferen-cia entre dos matrices de covarianza invertida. Sin embargo, KISSME usa elestimador de la matriz de covarianza que es la matriz de covarianza de lamuestra, esto puede implicar en el proceso de invertir la matriz Σ. Además,KISSME utiliza normalmente en Visión de Computador.

1.6 aprendizaje supervisado de distancia local

Según [Domeniconi y Gunopulos, 2001], el método k-NN depende de que lasprobabilidades condicionales de la clase del vecino más cercano local seanconstantes. Este supuesto podrá atenuarse si se asume que la probabilidadcondicional en la vecindad de ejemplos de prueba es suave o una función decambio lento. Sin embargo, este supuesto no es necesariamente cierto, ya quepor ejemplo, para el área cerca de la frontera de decisión entre las dos clases,se espera que las etiquetas de clase cambien drásticamente. En otras palabras,el objetivo de la adaptación de aprendizaje es obtener una vecindad de unpunto de prueba dado con una alta consistencia en la asignación de etiquetasde clase. Además de los algoritmos para el aprendizaje de distancia, variosartículos presentan enfoques para aprender las métricas durante la etapa


de clasificación. Este enfoque permite mejorar los resultados del algoritmok-NN. En específico, estos enfoques modifican los pesos de rasgos basadosen los ejemplos de prueba. Estos enfoques se conocen como algoritmos deaprendizaje adaptables [Yang y Jin, 2006].

En algunos conjuntos de datos, una transformación lineal global del espaciode entrada no es suficientemente potente para mejorar la clasificación k-NN.La Figura 11 muestra un ejemplo de un conjunto de datos donde una so-la métrica no es suficiente. Este conjunto de datos consiste en las instanciasde diferentes clases con diferentes membresías en cada clase. Una transfor-mación lineal global no puede mejorar la exactitud de la clasificación k-NN

en esta situación. En general, la frontera de decisión no lineal de múltiplesclases no puede ser bien modelada por una métrica de distancia. En estas si-tuaciones, se puede mejorar el rendimiento de k-NN mediante el aprendizajede múltiples métricas de distancia. Es decir, se aprenden diferentes métricasde Mahalanobis para las diferentes instancias en el espacio de entrada. Engeneral, se puede dividir el aprendizaje de múltiples métricas en tres catego-rías:

1. Por instancia de prueba: se aprende una métrica local para cada ins-tancia de prueba. Algunos métodos más relevantes en esta categoríason: Discriminant Adaptive Nearest Neighbor classification (DANN) [Hastiey Tibshirani, 1996], y Locally Adaptive Metric Nearest Neighbor Classifica-tion (ADAMENN) [Domeniconi et al., 2002].

2. Por instancia de entrenamiento: se aprende una métrica local para cadainstancia de entrenamiento, por ejemplo Local Discriminative DistanceMetrics (LDDM) [Mu et al., 2013].

3. Por grupo: se dividen los datos en subconjuntos más pequeños y seaprende una métrica para cada grupo, por ejemplo Multi-metric LargeMargin Metric Learning (mm-LMNN)) [Weinberger y Saul, 2009].

A continuación se introducen algunos algoritmos representativos de este en-foque local.

1.6.1 Discriminant Adaptive Nearest Neighbor classification

Se revisa brevemente el clasificador LDA [Fisher, 1936a] con J clases. Este cla-sificado hace una transformación lineal del espacio de representación de los


zerosonestwosfours

Figura 8: Visualización de múltiples métricas locales. Fuente: [Weinberger y Saul,

2009].

atributos y para ello encuentra los vectores propios de la matriz T = S−1w Sb.Aquí Sw denota la covarianza entre las clases, y Sb denota la covarianza in-terclase. S−1w captura la densidad de cada clase, y Sb representa la separaciónde la clase. Así, los vectores propios principales de T mantendrán los pun-tos de datos de la misma clases cerca y mientras tanto los puntos de datosde diferentes clases separadas. A continuación, formar una matriz de trans-formación ST apilando principales vectores propios de T juntos, y los rasgosdiscriminatorios y se calcula como y = Swx, donde x es la entrada de ejemplode prueba.

Basado en el estándar LDA, Hastie y Tibshirani [1996] propone localizar tantoSb y Sw a través de un procedimiento iterativo: Inicializa la función de distan-cia Σ como una matriz idéntica, es decir, se parte de una distancia Euclidiana.En el primer paso, se calcula Sb y Sw utilizando los puntos que se encuen-tran en las cercanías del punto de prueba x0 medido por el Σ. En el segundopaso, el estimado de Sb y Sw se utilizan para actualizar Σ de la siguientemanera:

Σ = S−1

2w [S

−12

w SbS−1

2w + εI]S

−12

w

= S−1

2w [S∗b + εI]S

−12

w

La Figura 9 muestra los resultados de vecindades para el problema dondedos clases forman dos anillos cétricos.


oo

oo

o

o

o

oo

o

o

o

o

o

o

oo

o

o

o

o

o

o

o

o

o

o

o

oo

o

oo

oo

o

o

o

o

oo

ooo

o

o

o

o

oo

o

o

o

o

o

o

o

o o

o

o

oo

o

oo

o

o

o

o

oo

o

ooo

o

o

o

o

o

o

o

oo

o

o

o

o

o

o o

o

o

o

o

o

o

o

o

o

o

oo

oo

o

o

oo

o

o

o

o

o

o

o

o

o

o

o

o

oo

o

o

o

oo

o

o

o

o

o

o

o o

o

ooo o

o

o

o

o

oo

o

o

oo

o

o

o

o

o

oo

oo

oo

o

o

oo

o

o

o

oo

o

oo

oo

o

o

o

o

o

o

o o

o

o

o

o

o

o

o o

o

o

o

o

oo

o

o

o

o o

o

o

o

o

o

o

o

oo

o

o

oo

oo o

o

o

o o

o

o

o

oo

o

oo

o

o

o

o

o

oo

o

oo

o

o o

o

oo

o

o

o

o

o

oo

o

o

o

o o

o

o

o

o

o

o

o

o

oo

o

o oo

o

o

o

o

o

ooo

o

o

o o

oo

o

o

o

o

o

o o

o

o

o o

o

o

o

o

ooo

o

o

o

o

o

o

o

o

o

o

oo

o

o oo

o

o

o

o

oo o

o

o

o

oo

o

o

oo oo

o o

o

o

o o

o ooo

o

o o o

o

o

o

o

oo

o

ooo

oo

oo

oo

o

o

o

o

o

o

o

o

o

o

oo

oo oo oo

oo

o

o

oo

o

o

o

o

o

o

Figura 9: Vecindades encontradas por el método DANN en varios ejemplos de prue-

ba. Hay dos clases en el conjunto de entrenamiento, una clase está rodeada

en la otra. Se usan 50 vecinos más cercanos para estimar la métrica local.

Fuente: [Hastie et al., 2009]

Los pasos de computación local LDA y actualización de la distancia localserían iterados hasta que Σ converja.

Σ =S−1w SbS−1w

=S−1

2w (S

−12

w SbS−1

2w S

−12

w )

=S−1

2w S∗bS

−12

w (40)

Donde S∗b es la proyección de Sb en el espacio Sw.

1.6.2 Neighborhood Components Analysis

El algoritmo Neighborhood Components Analysis (NCA)) propuesto en [Gold-berger et al., 2004] aprende una distancia de Mahalanobis para el clasificadork-NN maximizando la validación cruzada leave-one-out. A continuación se pre-senta brevemente la idea central de la NCA.

El conjunto de datos etiquetados se denota por L ={((x1, c1), . . . , (xn, cn)

}.

Para garantizar que la matriz de distancia aprendida sea simétrica y positivasemi-definida, [Goldberger et al., 2004] se asume que Q tiene la forma Q =

ATA donde A puede ser cualquier matriz. Esta forma paramétrica garantizaque la distancia entre dos puntos de datos x e y será positiva, dado el hechode que d(x,y) = (x− y)TQ(x− y) = (Ax−Ay)T (Ax−Ay).


Dado un punto xi, un vecino soft de xi se define por pi,j, que es la probabili-dad de xj para ser seleccionado como el vecino de xi, y comparte la mismaetiqueta de clase con xi. La probabilidad pi,j se define como:

pi,j =exp(−

∥∥Axi −Axj∥∥2)∑k 6=i exp(‖Axi −Axk‖2)

(41)

El conjunto de puntos que comparten la misma clase con xi se denota porCi = {j|ci = cj}. Entonces, la probabilidad de clasificar correctamente xi seexpresa pi =

∑j∈Ci

pij, y el número esperado de puntos clasificados correc-tamente es f(A) =

∑ni=1 pi. Tomando la derivada de f(A) con respecto al

primer orden, se obtiene:

∂f

∂A= 2A

n∑i=1

pi∑k 6=i

pi,k(xi − xk)(xi − xk)T −∑j∈Cj

(xi − xj)(xi − xj)T

(42)

En la práctica, NCA tiene un alto rendimiento. En lugar de utilizar la exacti-tud promedio de clasificación, [Goldberger et al., 2004] sugiere el uso de lavalidación cruzada leave-one-out de la función objetivo f(A), es decir:

f(A) =

n∑i=1

log(∑j∈Ci

pi,j

)NCA tiene los siguientes inconvenientes:

• NCA sufre del problema de escalabilidad ya que su función objetivo sediferencia con respecto a la matriz de distancia y el número de pará-metros en A tiene una dependencia cuadrática del número de rasgos.Por lo tanto, la actualización de la matriz de distancia alcanzará unadimensión intratable para problemas medianos.

• El algoritmo del gradiente ascendiente propuesto por NCA no garantizala convergencia a máximos locales.

• NCA tiende al sobre aprendizaje de los datos de entrenamiento si elnúmero de ejemplos de entrenamiento es insuficiente. Esto ocurre amenudo cuando los puntos de datos están representados en el espaciode alta dimensión.


1.6.3 Large Margin Nearest Neighbour Metrics

Weinberger en [Weinberger et al., 2006; Weinberger y Saul, 2009] introdujo unmétodo que aprende una matriz de distancia M para mejorar los resultadosde k-NN conocido por Large Margin Nearest Neighbour Metrics (LMNN). Laintuición es que para cada ejemplo la función de distancia debe hacer que susk vecinos más cercanos de la misma clase —vecinos-diana— estén más cercaentre sí que los ejemplos de clases diferentes. El objetivo se compone de dostérminos. El primer término minimiza las distancias entre los vecinos-diana,mientras que el segundo término es una función de pérdida que penaliza laexistencia de ejemplos de clases diferentes en la vecindad definida por losvecinos diana más un margen fijo. En lugar de aprender a partir de restric-ciones apareadas, como en los casos anteriores, este algoritmo emplea ternas(i, j, l) que significan que la distancia entre los vecinos xi y xj debe ser menorque la distancia entre xi y xj. Según las definiciones anteriores xj sería unvecino-diana y xl un impostor, siempre relativo al ejemplo xi. Este tipo derestricciones permite tener en cuenta el comportamiento local del algoritmode los vecinos más cercanos.

Esto se realiza a través de la siguiente función objetivo:

mın ε(M) =∑j↪→i

[d2M(xi, xj) + µ

∑l

(1− yi,l)ξijl(M)

](43)

El primer término de la ecuación (43) minimiza la distancia entre los vecinosde destino xi, xj, indicado por j ↪→ i. El segundo término denota la cantidadde impostores que invaden el perímetro de i y j. Un impostor l es una en-trada de diferente clases (yil = 0) que tiene una variable de holgura positivaξijl(M) > 0:

ξijl(M) = 1+ d2M(xi, xj) − d2M(xi, xl).

En la Figura 10 se ilustra la idea principal detrás de la clasificación de LMNN.Antes del aprendizaje, un ejemplo cualquiera tiene tantos vecinos-diana co-mo impostores en su vecindad. Durante el aprendizaje, los impostores sonempujados fuera del perímetro establecido por los vecinos-diana. Despuésde aprender, se crea un margen finito entre el perímetro y los impostores.La Figura 10 muestra la idea donde los errores de clasificación de k-NN enel espacio original son corregidos por el aprendizaje de una transformaciónlineal apropiada.


xixi

perímetro

xj

vecinos objetivos

impostoresxl

Clase 1

Clase 3

Clase 2

εempujar

εhalar

xixi

perímetro

xj

vecinos objetivos

Antes

impostores

xl

Despuésvecinos locales

Figura 10: Visualización de datos antes del entrenamiento (izquierda) contra des-

pués del entrenamiento. Fuente: [Weinberger y Saul, 2009].

La función de pérdida en la ecuación (43) es una función convexa de loselementos en la matriz M. En particular, el primer término de la funciónde pérdida (penalizando a las grandes distancias entre los vecinos-diana) eslineal en los elementos de M, mientras que el segundo término (que pena-liza los impostores) se deriva de la pérdida de articulación convexa. Paraformular la optimización de la ecuación (43) se puede utilizar un Semidefini-te Program (SDP) [Boyd y Vandenberghe, 2009], sin embargo, para resolverla,hay que convertirla en una forma más estándar.

Un SDP se obtiene mediante la introducción de variables de holgura queimitan el efecto de la pérdida. En particular, se introducen las variables nonegativas de holgura ξijl para todos las ternas de vecinos-diana (j ↪→ i) y losimpostores xl. La variable holgura ξijl > 0 se utiliza para medir el margen enque se viola la desigualdad en la ecuación (43). Se introducen las variablesde holgura para controlar estas violaciones de margen y obtener el SDP:

arg mınM

(1− µ)∑i,j↪→i

(xi − xj)TM(xi − xj) + µ

∑i,j↪→i,l

(1− yil)ξijl (44)

s.t.

(1) (xi − xl)TM(xi − xl) − (xi − xj)

TM(xi − xj) > 1− ξijl

(2) ξijl > 0

(3) M � 0

Mientras que los SDP en esta forma pueden ser resueltos por los paquetesestándares, los solucionadores de propósito general tienden a decrecer no-tablemente la calidad de los resultados en cuanto aumenta el número de


restricciones. Para este trabajo, se implementó un método propio especial,aprovechando el hecho de que la mayoría de las variables de holgura ξijlnunca alcanzan valores positivos. Las variables de holgura ξijl son dispersasporque la mayoría de las entradas xi y xl están bien separadas con respectoa la distancia entre xi y cualquiera de sus vecinos objetivos xj. Estos resultanen muy pocas restricciones activas en el SDP. Por lo tanto, se puede lograr ungran aumento de velocidad mediante la resolución de un SDP que sólo super-visa una fracción de las restricciones de margen. Luego se utiliza la soluciónresultante como punto de partida para el SDP de interés.

1.6.4 Multi-metric Large Margin Metric Learning

Con el propósito de aprender las diferentes métricas de distancia Mahalano-bis en diferentes partes del espacio de la entrada, Weinberger y Saul [2009]introdujo una extensión de LMNN para aprender múltiples métricas de distan-cia, se denomina mm-LMNN. Se definen las diferentes métricas de distanciaspor M1,M2, . . . ,Mc donde c es números de clústeres. Si se quiere dividirlos datos de entrenamiento por su clases, entonces c sería el número de lasclases. La distancia entre dos instancias xi y xj se definen como:

D(xi, xj) = (xi − xj)TMyj(xi − xj) (45)

Entonces se obtiene una modificación de LMNN mediante la función objeti-vo:

arg mınMi

(1− µ)∑i,j↪→i

(xi − xj)TMyj(xi − xj) + µ

∑i,j↪→i,l

(1− yil)ξijl

s.t.

(1) (xi − xl)TMyl(xi − xl) − (xi − xj)

TMyj(xi − xj) > 1− ξijl

(2) ξijl > 0

(3) Mi � 0 para i = 1, . . . , c (46)

Este problema es un problema de optimización convexa también, por eso sepuede resolverlo por un método de SDP.


1.6.5 Large Margin Multi-Task Metric Learning

Multi-Task LMNN [Parameswaran y Weinberger, 2010] es una adaptación delas ideas de Multi-Task SVM [Evgeniou y Pontil, 2004] para las métricas dedistancia. Dado T tareas relacionadas, se modelan el problema como el apren-dizaje de una métrica Mahalanobis compartida dM0

a las tareas específicasdM1

, . . . ,dMty se define la métrica para la tarea t como:

dt(xi, xj) = (xi − xj)T (M0 +Mt)(xi − xj) (47)

Nótese que M0 +Mt � 0, entonces dt es una seudométrica válida. La for-mulación del método LMNN es fácil de generalizar para el aprendizaje deMulti-Task, se define como siguiente:

γ0‖M0 − I‖2F +T∑t=1

γt‖Mt‖2F (48)

donde γt controla la regularización de Mt. Cuando γ0 →∞, la métrica com-partida dM0

es simplemente la distancia Euclidiana, y la fórmula reduce a Ttareas independientes de la fórmula LMNN. Por otra parte, cuando γt>0 →∞,la tareas específicas de cada métrica son simplemente las matrices ceras y lafórmula se reduce al LMNN en la unión de todos los datos.

Métrica Euclidiana

x1i

x2i

Instancias similares

Instancias disimilares

x1i

x2i

x1i

x2i

Tare

a 1

Tare

a 2

Métricas individuales

M0

M0

M 0+M 2

M 0+M 1

Métrica unida

Figura 11: Una ilustración de Multi-Task LMNN. La matriz M0 captura las caracterís-

ticas comúnes entre varias tareas, donde Mt para t > 0 es la métrica de

distancia específica. Fuente: [Parameswaran y Weinberger, 2010].

1.7 conclusiones parciales del capítulo 36

1.7 conclusiones parciales del capítulo

El desarrollo de métodos para el aprendizaje de la función de distancia a par-tir de los datos ha tenido un desarrollo imponente en los últimos años. En sumayoría los enfoques se caracterizan por formular un problema de optimiza-ción a partir de restricciones que se obtienen de los ejemplos de aprendizaje.El proceso de minimización o maximización de la función objetivo que codi-fica las restricciones se realiza mediante un costoso algoritmo iterativo. Estosmétodos, cuando se utilizan de conjunto con un clasificador vago como elk-NN, permiten incrementar la calidad de la clasificación al costo de una com-plejidad computacional alta.

2D E S A R R O L L O D E L M É T O D O D E A P R E N D I Z A J E D ED I S TA N C I A L O C A L

The best programs are written so thatcomputing machines can perform them quickly

and so that human beings can understand them clearly.A programmer is ideally an essayist who works

with traditional aesthetic and literary formsas well as mathematical concepts,

to communicate the way that an algorithm works andto convince a reader that the results will be correct.


Contenido2.1 Distance Metric Learning from Local Pairwise Constraints 38

2.1.1 Desarrollo 39

2.1.2 Estimador de matriz de covarianza 43

2.1.3 Ball Trees 45


2.2 KISSNN per testing instance 48

2.2.1 Aprendizaje Local 48

2.2.2 Desarrollo 49

2.3 Local Discriminant KISSNN 51

2.3.1 Árbol de cubrimiento 52

2.3.2 Pre-cálculo de los modelos locales durante el entre-

namiento 53

2.3.3 Reducir el número de modelos locales que necesi-

tan ser entrenados 54



37

2.1 distance metric learning from local pairwise constraints 38

En este capítulo se propone un método para la construcción de la matriz deMahalanobis a partir de las restricciones binarias construidas en la vecindadde cada ejemplo en la sección 2.1. El método se domina Distance Metric Lear-ning from Local Pairwise Constraints (KISSNN). Se plantean cuestiones importan-tes en la escalabilidad y el grado requerido de supervisión de los métodos deaprendizaje de la distancia de Mahalanobis. La estrategia que se introducees simple y efectiva, siendo un método directo basado en la inferencia esta-dística modelando un problema de aprendizaje en espacio de diferencias. Encontraste con los métodos existentes no se apoya en problemas complejos deoptimización que requieren de un número de iteraciones muy costoso. De es-ta manera el método es comparativamente más rápido que otros del estadodel arte.

Se introduce también un enfoque local simple para KISSNN por instanciade prueba en la sección 2.2, que se denomina KISSNN per testing instan-ce (tKISSNN). Debido a que la complejidad computacional del tKISSNN es alta,se presenta un enfoque eficiente para el aprendizaje local en la sección 2.3.El método propuesto aprende un conjunto de métricas locales KISSNN en lasvecindades de las instancias en el conjunto de entrenamiento. Se desarrollaun modelo apropiado para cada instancia de prueba en el tiempo de pruebade acuerdo con una estrategia de proximidad. Se muestra que la localidadpuede ser un factor importante para acelerar sensiblemente los enfoques deaprendizaje, a diferencia de otras técnicas recientes que tienden a descartarinformación local con el fin de mejorar la escalabilidad. Este nuevo métodose denomina Local Discriminant KISSNN (LDKISSNN).

2.1 distance metric learning from local pairwise constraints

En la Figura 12a se muestra un base de casos donde k-NN obtiene un bajorendimiento del por cientos de clasificación correctos 61%. Esta base de casosse genera a partir de dos distribuciones Gaussianas con

µ1 =

(−1,250,205

),Σ1 =

(1,96 −0,55−0,55 0,16

),µ2 =

(0,60,07

),Σ2 =

(1,96 −0,55)−0,55 0,16

)

y 200 instancias con dos clases y dos atributos. El algoritmo k-NN tiene dificul-tades cuando las instancias de clases distintas están alineadas a ambos lados


de la superficie de decisión. Este efecto puede disminuirse se aplica una trans-formación lineal del espacio original, el por ciento de clasificación correcto seaumenta a 99,5% (ver Figura 12b). Se quiere investigar si es posible obtenerinformación en el espacio de diferencias para obtener la transformación ade-cuada. En la Figura 13 se puede observar cómo se distribuyen las diferenciasentre un objeto cualquiera y sus vecinos más cercanos de la misma clase. Sepuede notar que la función de distribución está centrada en cero y su talloes estrecho. En cambio, la función de distribución de las diferencias entre unobjeto cualquiera y sus vecinos más cercanos de otra clase tiene una formamás ancha aunque también está centrada en cero. Parece posible a partir dela diferencia entre dos objetos determinar si ambos son de la misma claseo no. Esta inferencia estadística se puede realizar utilizando una prueba derazón de verosimilitud.

−6 −4 −2 0 2 4−1.5

−1

−0.5

0

0.5

1

1.5

01

(a) Espacio original

−3 −2.5 −2−6

−4

−2

0

2

4

6x 10

−3

01

(b) Espacio transformado

Figura 12: Base de datos artificiales: (a) datos en el espacio original, (b) datos en el

espacio transformado.

2.1.1 Desarrollo

El método propuesto se basa en aprender a partir del espacio de diferenciaspara adaptar una función de distancia de Mahalanobis que posteriormenteserá empleada por el algoritmo k-NN. En principio se trata de lograr, en pri-mer lugar, que cada instancia xi de la entrada debe compartir la misma claseyi como sus k vecinos más cercanos de la misma clase. En segundo lugar, hayque lograr que los k vecinos más cercanos con clases diferentes a una instan-cia determinada estén separados de esta. Es específico, se quiere aprender


−1.5−1

−0.50

0.51

1.5−0.4

−0.2

0

0.2

0.4

0

2

4

6

x1

x2

P

0

2

4

6

P (x1, x2)

(a) Espacio positivo antes del aprendizaje

−1.5−1

−0.50

0.51

1.5−0.4

−0.2

0

0.2

0.4

0

2

4

6

8

x1

x2

P

0

2

4

P (x1, x2)

(b) Espacio negativo antes del aprendizaje

−1 −0.8 −0.6 −0.4 −0.2 00.2

0.40.6

0.81−4

−2

0

2

4

·10−2

0

200

400

600

800

1,000

x1

x2

P

0

500

1,000

P (x1, x2)

(c) Espacio positivo después del aprendi-zaje

−1 −0.8 −0.6 −0.4 −0.2 00.2

0.40.6

0.81−4

−2

0

2

4

·10−2

0

200

400

600

800

1,000

x1

x2

P

0

10

20

30

40

P (x1, x2)

(d) Espacio negativo después del aprendi-zaje

Figura 13: Visualización del espacio de diferencia.

una transformación lineal del espacio de entrada de forma que las instanciasde entrenamiento satisfacen estas propiedades. Para facilitar este objetivo sedefinen los dos conceptos siguientes:

Definición 5 (k−Vecindad Positiva) k−Vecindad Positiva de la instancia x: V+k (x)

es un conjunto de los k vecinos más cercanos a x en el conjunto de entrenamientocuya clase coincide con la de x.

Definición 6 (k−Vecindad Negativa) k−Vecindad Positiva de la instancia x: V−k (x)

es un conjunto de los k vecinos más cercanos a x en el conjunto de entrenamientocuya clase no coincide con la de x.

Nuestro método se basa en aprender a partir de espacio de diferencias enla cercanía de cada instancia de aprendizaje. O sea, a partir de las instanciasde entrenamientos se crea dos espacios de diferencias: espacio de diferenciasnegativas (D) y espacio de diferencias positivas (S). Estos dos espacios con-sisten en las diferencias, componente a componente, de cada instancia consus vecinos de la misma (diferente) clases, es decir, xij = xj − xi donde xj


pertenece a la k-vecindad (negativa para caso de D y positiva para caso de S)de xi.

S =⋃i,j

{xij|xij = xj − xi, xj ∈ V+

k (xi)}

D =⋃i,j

{xij|xij = xj − xi, xj ∈ V−

k (xi)}

Desde el punto de vista de la inferencia estadística, la decisión óptima estadís-tica sobre si un par (xi, xj) comparte la misma clase o no se puede obtener poruna prueba razón de función de verosimilitud (93). Por lo tanto, se prueba lahipótesis H0 (par (xi, xj) son de la clase diferente) que un par es diferente encomparación con la alternativa H1 (par (xi, xj) son de la misma clase):

σ(xi, xj) = log(p(xi, xj|H0)p(xi, xj|H1)

)(49)

Un valor alto de σ(xi; xj) significa que H0 (yij = 0) es válido. En el casocontrario, un valor bajo significa que se rechaza H0, se acepta H1 (yij = 1) yla pareja es considerado como similar. Para ser independiente de la localidadactual en el espacio de características, modelamos el problema en el espaciode las diferencias por pares (xij = xi − xj) con media cero y se puede volvera escribir la ecuación (49) :

σ(xij) = log(p(xij|H0)

p(xij|H1)

)(50)

Se tiene p(xij|H) una función de verosimilitud para una variable xij, elloimplica que:

p(xij|H) = f(xij|H) (51)

donde f(xij|H) es una función de densidad de probabilidad. Suponemos quelos datos se distribuyen según una distribución Gaussiana con media cero y


la matriz covarianza ΣD (yij = 0), ΣS (yij = 1) para simplificar el problema.Al sustituir (51) y (91) en la ecuación (50), se obtiene:

σ(xij) = log(f(xij|µ;ΣD)f(xij|µ;ΣS)

)

= log

1(2π)d/2|ΣD|1/2

exp{−12(xij − µ)

TΣ−1D (xij − µ)}

1(2π)d/2|ΣS|1/2

exp{−12(xij − µ)

TΣ−1S (xij − µ)}

= log

1(2π)d/2|ΣD|1/2

exp{−12xTijΣ

−1D xij}

1(2π)d/2|ΣS|1/2

exp{−12xTijΣ

−1S xij}

= log

(|ΣS|

12

)− log

(|ΣD|

12

)−1

2xTijΣ

−1D xij +

1

2xTijΣ

−1S xij

= log(|ΣS|

12

)− log

(|ΣD|

12

)+1

2xTij

(Σ−1S − Σ−1D

)xij (52)

Además, se eliminan los términos constantes de la ecuación (52) para obteneruna forma simplificada:

σ(xij) ≈ xTij(Σ−1S − Σ−1D

)xij (53)

Finalmente, se obtiene la métrica Mahalanobis de distancia que refleja laspropiedades de la prueba de razón de verosimilitud logarítmica:

DM(xi, xj) = xTijMxij (54)

Desde (53), para obtener la matriz M semidefinida positiva, se hace repro-yección de (Σ−1S − Σ−1D ) sobre el cono de las matrices semidefinidas positivasmediante el análisis de los valores propios. Esta proyección se calcula a partirde la diagonalización de (Σ−1S − Σ−1D ). Se expresa:

Σ−1S − Σ−1D = V∆VT

que denota la descomposición de valores propios, donde V es la matrizortonormal de vectores propios y ∆ es la matriz diagonal de valores pro-pios correspondientes. También podemos descomponer ∆ = ∆−+∆+, dondeδ+ = max(∆, 0) contiene todos los valores propios positivos y ∆− = mın(∆, 0)contiene todos los valores propios negativos. La proyección de (Σ−1S −Σ−1D ) enel cono de las matrices semidefinidas positivas está dada por:

PS(Σ−1S − Σ−1D ) = V∆+V . (55)

La proyección efectiva trunca los valores propios negativos de la etapa degradiente, haciéndolos igual a cero. En detalle, este proceso se describe en elAlgoritmo 1.


Algorithm 1 Proyectar una matriz a su cono semidefinido positivo

Entrada: M: Matriz entradaSalida: Mt ← PS(M): Matriz positiva definida

(a) Descomponer la matriz M:M→ V∆VT

(b) Descomponer la matriz diagonal ∆:∆→ ∆− +∆+, donde ∆− = mın(∆, 0), ∆+ = max(∆, 0)

(c) Retornar el cono positivo de la matriz M:Mt ← V∆+V

2.1.2 Estimador de matriz de covarianza

Las matrices de covarianza ΣS y ΣD en (53) se puede obtener mediante elestimador de máxima verosimilitud:

ΣS =1

nS

∑xij∈S

xijxTij (56)

ΣD =1

nD

∑xij∈D

xijxTij (57)

Muchos de los problemas de minimización de la varianza se resuelven invir-tiendo una matriz de covarianza. A veces la dimensión de la matriz puedeser grande. En tales situaciones, el estimador usual “la matriz de covarianzade muestra” no da buen desempeño. Cuando la dimensión de la matriz des mayor que el número de observaciones n, la muestra de matriz de cova-rianza no es ni siquiera invertible. Cuando el radio d/n es menos de uno,pero no insignificante, la matriz de covarianza de muestra es teóricamenteinvertible, pero numéricamente mal condicionada, lo que significa que in-virtiendo amplifica error de estimación dramáticamente. Para d grande, esdifícil encontrar suficientes observaciones que formulen d/n insignificante.Por lo tanto, es importante desarrollar un estimador bien condicionado dematrices de covarianza para dimensiones grandes.

Si se quiere un estimador bien condicionado a cualquier costo, siempre sepuede imponer alguna estructura de la matriz de covarianza para forzarlo aestar bien condicionado, tales como diagonalidad o un modelo de factores.Pero, en ausencia de información previa sobre la verdadera estructura de lamatriz, esta estructura ad-hoc, en general, estará mal especificada. El estima-dor resultante puede estar tan alterado que puede tener poca semejanza con


la matriz de covarianza real. Ningún estimador existente es a la vez biencondicionado y más preciso que la matriz de covarianza de muestra.

La matriz de covarianza de muestra es un estimador eficiente si el espacio delas matrices de covarianza es visto como un cono convexo extrínseca en <d×d.Muchas investigaciones en este campo han demostrado que no son buenosestimadores, y no resisten a la presencia de valores atípicos en el conjuntode datos. Ellos también muestran problemas en la inversión de matriz decovarianza se plantea en caso de que el número de observaciones es menorque el número de variables, es decir, no se puede invertir para calcular lamatriz de precisión. En este modelo se usa un estimador más preciso quela matriz de covarianza de muestra. Este enfoque fue presentado en [Ledoit,1996]. Ledoit-Wolf estimador reduce la covarianza de la muestra hacia unamatriz de identidad a escala y propuso un coeficiente de contracción que esasintóticamente óptima para cualquier distribución. Que es una combinaciónlineal de la matriz de covarianza de muestra (S) con la matriz de identidad(I):

arg mınp1,p2

E[∥∥Σ− Σ∗

∥∥2]s.t. Σ∗ = p1 ∗ I+ p2 ∗ S (58)

Para muestras pequeñas, el estimador resultante regularizado Σ∗ se puededemostrar que tiene un mejor desempeño que el estimador de máxima vero-similitud. Además, para muestras grandes, la intensidad de la contracción sereduce a cero, por lo tanto, en este caso, el estimador de la contracción seráidéntico al estimador empírica. Además de una mayor eficiencia de la esti-mación de contracción tiene la ventaja adicional de que es bien condicionadoy siempre definida positiva. La solución de (58) es simple:

Σ∗ =β2

δ2µI+

α2

δ2S (59)

donde:

µ = tr(Σ)/d

α2 =∥∥Σ− µI

∥∥2β2 = E

[∥∥S− Σ∥∥2]δ2 = E

[∥∥S− µI∥∥2]


2.1.3 Ball Trees

Varios autores han propuesto estructura de datos basada en árboles (trees)para mejorar el algoritmo k-NN. Por ejemplos, KD Trees [Moore, 1991], BallTrees [Nielsen et al., 2009; Omohundro, 1989] y árbol de cubrimientos [Bey-gelzimer et al., 2006]. Todas estas estructuras de datos explotan la misma idea:para dividir la entrada de datos espaciales en las regiones jerárquicamenteanidadas. Las regiones garantizan que la distancia a partir de un ejemplo deprueba a un ejemplo dentro de la región es al menos tan grande como la dis-tancia del ejemplo de prueba hasta la frontera de la región. Por lo tanto, paracada ejemplo de prueba, los ejemplos de entrenamiento dentro de la regiónse pueden descartar como k vecinos más cercanos si el entrenamiento k ya sehan encontrado los ejemplos que están más cerca de la frontera de la región.En este caso, k-NN puede ejecutar sin calcular explícitamente las distancias alos ejemplos de entrenamiento en la región. Esta poda de cálculos de distan-cia a menudo conduce a una aceleración significativa en tiempo de cálculode k-NN. Se ha experimentado con Ball Tree [Liu y Yu, 2005], en el que las

xtc r xt − c − r

xt −xixi

xj

xt −xj−→

−→ −→ −→

−→ −→−→ −→

−→

−→

Figura 14: Ball-tree. Fuente [Weinberger et al., 2006]

regiones son hiper-esferas.

La figura 14 ilustra la idea básica detrás de Ball Tree. Si el conjunto S de ejem-plos de entrenamiento está encapsulado dentro de una bola con el centro −→cy radio r , tal que: ∀x ∈ S :

∥∥x−−→c ∥∥ 6 r, entonces para cualquier ejemplo deprueba xt se puede acortar la distancia a cualquier ejemplo de entrenamientodentro de la bola por el siguiente expresión :

∀xi ∈ S, ‖xt − xi‖ > max(∥∥xt −−→c ∥∥2 − r, 0) (60)

Ball Trees explotan esta desigualdad para construir una estructura de datosjerárquica. La estructura de datos se basa en forma recursiva dividiendo los


ejemplos de entrenamiento en dos conjuntos disjuntos. Los conjuntos estánencapsulados por híper-esferas (o "bolas") que puede traslapar parcialmente.Los ejemplos de entrenamiento son recurrentemente divididos en gruposcada vez más pequeños hasta que ningún conjunto de la hoja contiene másde un número predefinido de ejemplos.

A partir de esta estructura de datos jerárquica, los k vecinos más cercano deun ejemplo de prueba pueden ser encontrados en una búsqueda basada en elárbol primero en profundidad. Cada nodo en el árbol tiene una híper-esferaasociado que encierra los ejemplos de entrenamiento almacenados por susdescendientes. La búsqueda k-NN ejecuta por recorrer el árbol y la distanciase calcula de un ejemplo de prueba al centro de hiper-esfera de cada nodo.El árbol es recorrido por sub-árboles descendiente en orden de esta distancia.Antes de descender un subárbol, la ecuación (60) se comprueba para determi-nar si ejemplos de entrenamiento en la subárbol más lejos que los k vecinosmás cercano estimados actualmente. Si esto es cierto, el subárbol se poda des-de la búsqueda sin más cálculos. Cuando se alcanza un nodo hoja, todos losejemplos de entrenamiento en el nodo hoja se comparan con los k vecinosmás cercano se estima en la actualidad, y las estimaciones son actualizarácuando sea necesario. Tenga en cuenta que los Ball Trees soportan consultasexactas para la búsqueda de los vecinos más cercanos.

2.1.4 Análisis de la complejidad computacional

Un pseudocódigo simple de la implementación del método propuesto KISSNN

se muestra en Algoritmo 2.

Se analiza el desempeño computacional de KISSNN desde punto de vista teó-rico de complejidad. La fase de entrenamiento de KISSNN puede ser divididoen 4 pasos siguientes:

• La construcción del espacio de diferencias positivas tiene una compleji-dad

C∑i=1

Θ(Hi log2Hi +HiV+ logHi) (61)


Algorithm 2 Distance Metric Learning from Local Pairwise Constraints

Entrada: k > 0 : número de vecinos, P : conjunto de entrenamiento.Salida: Matriz Mahalanobis M

(a) Iniciar los espacios de diferencias:S← Ø, D← Ø

(b) Buscar la vencidad positiva y negativa para cada instancia:V+k (i), V

−k (i)

(c) Construir los espacios de diferencias:For i = 1 . . .N do

For j = 1 . . . k doS← S

⋃{V+k (i)[j] − P[i]

}D← D

⋃{V−k (i)[j] − P[i]

}(d) Calcular las matrices de covarianza:

ΣS ← Estimar(S), ΣD ← Estimar(D)

(e) Retornar la matriz:M = PS(Σ

−1S − Σ−1D )

• La construcción del espacio de diferencias negativas tiene una comple-jidad

C∑i=1

Θ(Mi log2Mi +MiV− logMi) (62)

• Estimación la matriz Mahalanobis tiene una complejidad

Θ(D2V+N+D2V−N) (63)

• Proyectar la matriz Mahalanobis en su cóno positivo tiene una comple-jidad

Θ(D3) (64)

dónde,

D dimensión del conjunto de entrenamientoN número de instancias en el conjunto de entrenamientoV+ tamaño de la vecindad positivaV− tamaño de la vecindad negativaC conjunto de las clases {1, 2, ..., |C|}Hi número de instancias que cuya clase es iMi número de instancias que cuya clase es diferente que i

2.2 kissnn per testing instance 48

Tiempo de entrenamiento total, considerando el peor caso en la cual Hi = Ny Mi = N, ∀i = 1, ...,C sería:

C∑i=1

Θ(Hi log2Hi +HiV+ logHi) +C∑i=1

Θ(Mi log2Mi +MiV− logMi)+

Θ(D2V+N+D2V−N) +Θ(D3)

= Θ(CN log2N+CNV logN) +Θ(D2VN) +Θ(D3)

Si se considera razonablemente que los valores de V y C son pequeñoscomo ocurre en la práctica para los datos grandes, la complejidad seríaΘ(N log2N)

2.2 kissnn per testing instance

Si se usa una métrica global para describir todo el espacio de entrenamientopuede tener algunas limitantes en el rendimiento del aprendizaje [Vapnik yBottou, 1993]. En general, la frontera de decisión no lineal de múltiples clasesno puede ser bien modelada por una métrica de distancia. En estas situacio-nes, se puede mejorar el rendimiento de k-NN mediante el aprendizaje localde múltiples métricas de distancia. Se propone un método de aprendizaje demúltiples métricas, para construir múltiples métricas desde el conjunto de en-trenamiento. Cada modelo local está diseñado para clasificar una instanciade prueba.

A continuación se describe algunos conceptos relacionados en el Aprendiza-je Local en la sección 2.2.1. El detalle del método propuesto, se denominatKISSNN, se describe en la sección 2.2.2.

2.2.1 Aprendizaje Local

Algoritmos de Aprendizaje Local (del inglés Local Learning Algorithm) sonuna clase de los métodos de aprendizaje, introducido por Bottou y Vapnik[1992]. En lugar de estimar una función de decisión óptima (con respetos aalgunos criterios) para todos posibles ejemplos de pruebas, la idea fundamen-tal de los Algoritmos de Aprendizaje Local consisten en estimar la funciónde decisión óptima para cada ejemplo de prueba. El valor de la función es es-timado en una sub-región más pequeña del espacio de entrada alrededor del


ejemplo de prueba. Para un algoritmo de Aprendizaje Local, los puntos en lavecindad del punto de prueba tienen mayor influencia en entrenar un mode-lo local. Este método es particularmente efectivo para los datos distribuidosno uniformes, es decir, datos se presentan en diferentes regiones. Efectiva-mente, las características del proceso de aprendizaje pueden ser ajustadoslocalmente en los algoritmos de Aprendizaje Local. Una selección propia delos parámetros locales pueden reducir el error general con respeto a un cla-sificador global por principio de Minimización de Riesgo Local (del inglésLocal Risk Minimization) [Vapnik y Bottou, 1993; Vapnik, 1992]. Ejemplos delos Algoritmos de Aprendizaje Local son clasificación k vecinos más cerca-nos [Cover y Hart, 1967], Local Support Vector Machine classifier [Blanzieri yMelgani, 2006], Radial Basis Function networks [Orr et al., 1996].

A pesar de su atractivo teórico y práctico, los algoritmos de aprendizaje localno han sido estudiados en profundidad en los últimos años. Esto se debeprobablemente al hecho de que los algoritmos de Aprendizaje Local, tal comofue formulado por Bottou y Vapnik [1992], caen en la clase de aprendizajeperezoso (o aprendizaje basado en memoria) [Aha et al., 1991] que tienengran sobrecarga en la fase de prueba, a diferencia del aprendizaje ansioso(del inglés eager learning) en que la función de estimación se realiza duranteel proceso de entrenamiento.

2.2.2 Desarrollo

La Figura 15 muestra una situación donde una métrica sola no puede repre-sentar las diferentes regiones locales satisfactoriamente. El conjunto de datosde entrada consiste 8 franjas alineadas, cada una define una membresía deuna clase. La frontera de decisión local en cada grupo es absolutamente di-ferente. Esto implica que una métrica global no puede mejorar la exactitudde la clasificación k-NN. En esta situación, se puede aprender una transfor-mación lineal a nivel local para cada sub-región alrededor de cada ejemplode prueba en lugar de una transformación lineal global. En otras palabras,se aprende una métrica desde las instancias de entrenamiento alrededor dela instancia de prueba, luego se aplica la métrica resultante a la instancia deprueba. La intuición es que los ejemplos en la vecindad del ejemplo de prue-ba tienen una influencia más alta en el conjunto de entrenamiento para unamétrica local.


−12 −10 −8 −6 −4 −2 0 2 4

−4

−2

0

2

4

6

8

10

12

X

Y

12345678

Figura 15: Datos artificiales multimodales

La idea de la adaptación local de los vecinos más cercanos tKISSNN es obvia.Es decir, construir en el tiempo de predicción de un hiper-plano marginalespecífico basado en el conjunto de k vecinos. El método tKISSNN es un algo-ritmo de aprendizaje local y se propuso de la forma:

(1) Seleccionar las instancias en el conjunto de entrenamiento localizadaen la vecindad de la instancia de prueba.

(2) Aprender una métrica mediante el algoritmo KISSNN con sólo estasinstancias.

(3) Aplicar la métrica resultante a la instancia de prueba para calcular elvalor de estimación en la fase de prueba.

De hecho, se utiliza una parte pequeña de las instancias disponibles en elconjunto de entrenamiento. En la evidencia empírica está mostrado que es-te algoritmo de aprendizaje local puede mejorar significativamente el rendi-miento de la clasificación k-NN. Siempre que la distribución de las instanciasen el espacio de entrada no es uniforme, el algoritmo puede mejorar signifi-cativamente el rendimiento general. Pero tKISSNN tiene una gran limitaciónsobre la complejidad temporal en el procedimiento de prueba. Porque pa-ra cada instancia nueva de prueba, el algoritmo necesita volver a entrenar

2.3 local discriminant kissnn 51

los parámetros. Enfoques similares se han presentado como DANN [Hastiey Tibshirani, 1996], o ADAMENN [Domeniconi et al., 2002], los cuales apren-den una métrica local para cada instancia de prueba para encoger vecinosen direcciones ortogonales a las fronteras de decisión local, y alargarlos demanera paralela a estas fronteras.

Con el propósito de clasificar una instancia q, se necesita recuperar sus kvecinos más cercanos Vk(q), luego aprende una métrica sobre estos puntosM(Vk(q)). Se obtiene la regla de decisión con la nueva métrica:

KNN(q) = arg maxci∈C

p(ci|q,M(Vk(q))

)(65)

La probabilidad posterior p(ci|q) se calcula como:

p(ci|q,M(Vk(q))

)=

∑ki=1 K

(dM(Vk(q))

(xrq(i),q

))∑ki=1 K

(d(xrq(i),q

)) (66)

donde rq(i) : {1, . . . ,N} → {1, . . . ,N} es una función que reordena los índicesde los ejemplos en el conjunto de entrenamiento. rq(i) retorna el índice deli-ésimo vecino más cercano al punto q en el conjunto de entrenamiento, sedefine como:

rq(1) = arg mıni=1,...,N

d(q, xi)

rq(j) = arg mıni=1,...,N

d(q, xi), i 6= rq(1), rq(2), . . . , rq(j− 1), para j > 2

(67)

2.3 local discriminant kissnn

El algoritmo propuesto tKISSNN en la sección anterior puede mejorar el ren-dimiento de la clasificación k-NN. Sin embargo, tKISSNN sufre del alto costocomputacional en la fase de pruebas. En esta sección se presenta una nue-va técnica. La eficacia y la eficiencia de nuestro enfoque está directamen-te relacionada con el papel que desempeña la localidad en el problema deaprendizaje. Inicialmente se detalla la manera de pre-calcular la modelos lo-cales durante el entrenamiento y las estrategias para reducir el número demodelos locales. A continuación, se revisa una estructura de datos árbol decubrimiento en la sección 2.3.1. Luego se describe el mecanismo de predic-ción en la sección 2.3.2 y un enfoque para la selección de modelo local en la


fase de prueba para cada instancia de prueba en la sección 2.3.3. Finalmente,se discute el análisis de complejidad computacional del modelo en la sección2.3.4.

2.3.1 Árbol de cubrimiento

Un árbol de cubrimiento (del inglés Cover Tree) es una estructura de datosintroducido por Beygelzimer et al. [2006] para realizar la búsqueda exactade los vecinos más cercanos de una forma rápida y eficiente. árbol de cubri-miento puede ser aplicado en los espacios métricos generales sin ningunaotra hipótesis sobre su estructura.

En más detalle, un árbol de cubrimiento puede ser visto como un sub-grafode una red de navegación [Krauthgamer y Lee, 2004] y es un árbol formadopor niveles en la que cada nivel (indexados por un número entero i decre-ciente) es una cubierta (es decir, es representativo) para el nivel de debajo deella. Cada nodo de un árbol de cubrimiento T se asocia con un punto de unconjunto de datos S. Se denota Ci como el conjunto de puntos asociado conlos nodos en T en el nivel i y con d(., .) es la función de la distancia que definela métrica del espacio, los invariantes de un árbol de cubrimiento son:

• (Anidamiento) S(i) ⊂ S(i−1), esto implica que una vez un punto x ∈ X

aparece en S(i) entonces cualquier nivel inferior en el árbol tiene quetener un nodo asociado con x.

• (Cubrimiento del árbol) Para todo xi ∈ S(i−1), entonces existe un xb ∈S(i) tal que d(xa, xb) < 2i y el nodo asociado con xb en nivel i es unpadre del nodo asociado con xa en el nivel i− 1.

• (Separación) Para todos puntos distintos xa, xb ∈ S(i), d(xa, xb) > 2i orm(S(i)) > 2i.

Intuitivamente, el invariante de anidamiento significa que una vez que unpunto aparece en un nivel, está presente para cada nivel inferior. El invariantede cubrimiento del árbol implica que cada nodo tiene un padre en un nivelsuperior (ver Figura 16), tales que la distancia entre los puntos respectivoses menor que 2i, mientras que el invariante de separación asegura que ladistancia entre cada par de puntos asociados a los nodos de un nivel i esmayor que 2i. Además, la raíz del árbol (se domina C∞ y que contiene sóloun punto) es un elegido aleatorio.


iS

S-ထ

xa

xa

xb

xb

Figura 16: Visualización de la estructura de árbol de cubrimiento.

Los árbol de cubrimientos tienen buen desempeño para realizar las búsque-das exactas de los vecinos más cercanos para las métricas generales en losespacios de baja dimensión, tanto en términos de complejidad computacio-nal y el espacio requerido. Se han demostrado teóricamente por Beygelzimeret al. [2006] las siguientes complejidades:

Complejidad

Espacio requerido para la construcción Θ(n)

Tiempo de construcción Θ(c6n logn)Insertar/Eliminar Θ(c6 logn)Búsqueda Θ(c12 logn)

Donde c es una constante de expansión de S. Si S está colocado uniforme-mente en algún superficie de dimensión d, entonces c ∼ 2d.

2.3.2 Pre-cálculo de los modelos locales durante el entrenamiento

El modelo propuesto es basado en los modelos locales que se entrenan desdeel conjunto de entrenamiento. Es decir, el modelo local se entrena en losk vecinos más cercanos del punto en el conjunto de entrenamiento, en vezde punto de prueba. La función de decisión para un punto de prueba psería:

KNNt(q) = p(ci|q,M(Vk(t))

)(68)

La función de decisión original de KNN(q) corresponde al caso en el quet = q, y por lo tanto KNNq(q) = KNN(q).


KNN(q) requiere que el aprendizaje de una métrica en los k vecinos máscercanos del punto de prueba en la etapa de predicción. Este método escomputacionalmente factible sólo para los problemas con pocos puntos deprueba, una condición que pasa con poca frecuencia en los problemas reales.La primera modificación de KNN(q) consiste en utilizar la métrica del mo-delo entrenado por k vecinos más cercanos del punto más cercano de q en elespacio X.

KNNt(q) = p(ci|q,M(Vk(t))

), con t = xrq(1) (69)

Con esta formulación el aprendizaje local puede cambiar del aprendizaje pe-rezoso [Aha, 1997] al aprendizaje ansioso lo cual que la complejidad compu-tacional no depende de la fase de predicción.

Este modelo cae en la categoría de aprendizaje de múltiples métricas por ins-tancia de entrenamiento. Es decir, se aprende una métrica para cada instanciadel conjunto de entrenamiento por sus k vecinos más cercanos. Un ejemplode esta categoría es LDDM, propuso por Mu et al. [2013].

2.3.3 Reducir el número de modelos locales que necesitan ser entrenados

El pre-cálculo de los modelos locales durante la fase de entrenamiento intro-ducido anteriormente, aumenta la eficiencia computacional de la etapa depredicción. Sin embargo, se incrementa una sobrecarga considerable a la fasede entrenamiento. De hecho, el aprendizaje de una métrica para cada instan-cia de entrenamiento puede ser más lento que el aprendizaje de una métricaglobal única (sobre todo para los valores no pequeños k). Por eso, se introdu-ce otra modificación del método que pretende reducir el número de métricasque tenga que ser pre-calculada. La idea es que se puede relajar la restricciónde que una instancia de prueba q siempre se evalúa mediante una métricaformada alrededor de su vecino más cercano. La función de decisión de esteenfoque es:

LDKISSNN(q) = KNNf(q)(q) (70)

Donde f : Z 7→ C ∈ X es una función que mapea cada instancia q ∈ Z deprueba a una instancia única en el conjunto de entrenamiento X, los cualesson centros de los modelos locales que usen para evaluar q. El conjunto C esla imagen de f(.), lo cual C = f(Z).


Nótese que si f(.) = xr.(1), se tiene que C = X y LDKISSNN(q) es equivalenteal KNN(q) en la ecuación (69). En los casos generales, se necesita seleccionarun subconjunto apropiado C ∈ X de las instancias que pueden ser usadocomo centros de los modelos KNN(q). En este caso, si qrq(1) ∈ C entoncesf(q) se puede definir como f(q) = xrq(1), pero si xrq(1) /∈ C, entonces f(q)tiene que definir de tal manera que principio de localidad es preservada y laselección de modelo es rápida en la fase de predicción.

2.3.3.1 Selección de centros de los modelos locales

La idea principal del método es que cada instancia de entrenamiento debeestar en k ′ vecinos más cercanos de al menos un centro con k ′ 6 k. Enotra palabra, se tiene que cubrir todo el conjunto de entrenamiento con unconjunto de hiper-esferas cuyos centros serán las instancias en el conjunto C

y cada hiper-esfera contiene exactamente k ′ instancias:

X =⋃c∈C

{xrc(i)|i = 1, . . . ,k

′}

(71)

Esto significa que la unión de los conjuntos de la k ′ vecinos más cercanos de C

corresponde al conjunto de entrenamiento. En teoría, si k ′ es fijo, la reducciónal mínimo del número de métricas locales, se puede obtener mediante elcálculo de los centros que sus k vecinos más cercanos cubren el conjunto deentrenamiento.

El problema de selección de centros de los modelos locales sería un problemade optimización tal que la cardinalidad del C sea mínima. Este problema estárelacionado con Set Cover Problem [Johnson y Garey, 1979; Kearns y Vazirani,1994] y con Minimum Sphere Set Covering Problem [Chen, 2005]. Los cuales sonproblemas de NP duro (del inglés NP-hard).

Se desarrolla un método heurístico para resolver este problema en vez deusar un procedimiento complejo para resolver un problema NP-hard. Se se-lecciona aleatoriamente el primer centro en X y sus k vecinos más cercanos.Luego se selecciona los centros que aún no son miembros de C y que son lomás lejanos posible de los otros k vecinos más cercanos que habían seleccio-nados. Con esta heurística se espera que la cantidad de los puntos solapadospor los centros distintos sea mínima. Por eso se minimiza la cardinalidad delconjunto C.


Para formular el problema, se define la distancia mínima de un conjuntom(X):

∀xa, xb ∈ X,a 6= b : d(xa, xb) > m(X) (72)

La intuición es determinar un reordenamiento de subconjuntos Si en X conla distancia mínima decreciente. O sea:S∞ ⊂ · · · ⊂ Si ⊂ Si−1 ⊂ · · · ⊂ X

∞ > . . . > m(Si) > m(Si−1) > . . . > m(X)

(73)

Por lo tanto, con esta estrategia se puede elegir los centros de los modeloslocales por el orden de S∞, . . . , Si, Si−1, . . .. Se selecciona el centro de mo-delo local en el conjunto Si+1, luego en el conjunto Si y así sucesivamente.Esta estrategia tiene la seguridad de que la distancia entre los modelos esal menos m(Si+1), a continuación, al menos m(Si) < m(Si+1) y así sucesiva-mente.

Esto se puede hacer mediante el uso de la estructura de datos como árbol decubrimiento [Beygelzimer et al., 2006]. El árbol de cubrimiento proporcionauna estructura de datos como el árbol descendiente, cada nodo en el árbolde cubrimiento está asociado con una instancia del conjunto de entrenamien-to. Los niveles Si del árbol de cubrimiento se dividen de forma natural ygarantiza la propiedades en la ecuación (73).

Un pseudocódigo del proceso de selección de los centros se describe en elAlgoritmo 3

2.3.3.2 Selección de modelos locales para instancias de prueba

Una vez el conjunto de los centros C está definido y los modelos localescorrespondientes están entrenados, se necesita seleccionar el modelo apro-piado para usar en la predicción de la instancia de prueba. Una estrategiasimple es seleccionar el modelo cuyo centro c ∈ C es el centro más cercanocon respeto a la instancia de prueba. La función de decisión de LDKISSNN sereescribe:

LDKISSNN(q) = KNNf(q)(q), f(q) = xrCq(1) (74)

donde la función rC es la función de reordenamiento basado en el conjuntoC.


Algorithm 3 Selección de centros de los modelos locales

Entrada: k ′ > 0 : número de vecinos, P : conjunto de entrenamiento.Salida: Conjunto de centros C

(a) Construir el árbol de cubrimiento T sobre los puntos en P.(b) Iniciar el conjunto C:

C← Ø(b) Seleccionar los centros

For i = +∞ · · ·−∞ doFor j = nodo en el nivel i do

If “estado de j no es marcado” doC← C

⋃j

Poner j y sus k ′ vecinos más cercanos en el estado mar-cado.(e) Retornar el conjunto de los centros C.

LDKISSNN es satisfactorio desde el punto de vista computacional, debido aque la búsqueda de los vecinos más cercanos en la predicción se realiza sola-mente en el conjunto C (que normalmente es pequeño). Sin embargo, no seasegura que la instancia de prueba se evalúa en el modelo que la instancia deprueba misma es la más cercana en el término de rango de vecinos. Por ejem-plo, una instancia de prueba q puede ser más cercana a c1 que c2 usando ladistancia Euclidiana, pero a la vez q es el i-ésimo vecino más cercano de c1 enX y j-ésimo vecino más cercano de c2 con i > j. Esto es un problema porqueusar el modelo centrado en c2 es mejor en el término de proximidad (ver laFigura 18). Si se selecciona el modelo centrado por c1, entonces las instanciasque se usan para aprender la métrica en la predicción son muy lejanas a lasinstancias en la vecindad de q. Por lo tanto se selecciona el modelo centradopor c2, que es más conveniente para garantiza la proximidad de q.

Para superar este problema se selecciona el modelo centrado tal que la ins-tancia de prueba es el vecino más cercano en el término de rango de vecinolo cual se define por la siguiente función cnt : X 7→ C, tal que:

cnt(xi) = arg mıncj∈C

h, s.t. xi = xrcj(h) (75)

La función cnt(x) retorna el centro tal que el rango de vecino con respeto deese centro a instancia x es mínimo. Este cálculo se puede realizar fácilmente


−12 −10 −8 −6 −4 −2 0 2 4

−4

−2

0

2

4

6

8

10

12

X

Y

26

Figura 17: Visualización de LDKISSNN después del entrenamiento con k ′ = 25,

k = 50 sobre el conjunto de datos artificiales de la sección anterior. Los

círculos punteados en negrita corresponden k vecinos más cercanos que

utilizan en el proceso de entrenamiento para cada modelo local de datos

artificiales. Los cuadros presentan los centros encontrados de cada mode-

lo local con su k ′ vecinos más cercanos con el mismo color.

en el proceso de selección de centros para los modelos. Finalmente, se puededefinir la función de decisión para LDKISSNN:

LDKISSNN(q) = KNNcnt(t)(q), t = xrq(1) (76)

2.3.4 Análisis de la complejidad computacional

Un pseudocódigo simple del método LDKISSNN se presenta en el Algoritmo4. A continuación, se hace un análisis de complejidad computacional delmétodo propuesto. El proceso de entrenamiento puede dividirse en los pasossiguientes:

• Construcción del árbol de cubrimiento: Θ(N logN)

• Recuperación de los modelos locales: Θ(|C|k logN)


c(1) c(2)

q

Figura 18: Visualización del procedimiento de selección de modelos locales para ins-

tancias de prueba. Las instancias que tienen el mismo color, se usan para

entrenar el mismo modelo. La instancia de prueba q tiene el color amari-

llo.

• El entrenamiento del modelo local: Θ(k log2 k+ d3)

La complejidad total de entrenamiento sería:

Θ(N logN+Ck logN+ k log2 k+ d3) (77)

Para la fase de prueba, se puede calcular la complejidad por dos pasos:

• Búsqueda del vecino más cercano en entrenamiento: Θ(logN)

• La predicción para la instancia de prueba: Θ(k)

Algorithm 4 Local Discriminant KISSNN

Entrada: k > k ′ > 0 , P : el conjunto de entrenamiento.Salida: Los modelos locales entrenados.

(a) Seleccionar de los centros de los modelos locales por Algoritmo 3:C =

{c1, c2, . . . , cm

}(b) Computar la función cnt(.) para cada instancia en P por (75).(c) Entrenar los modelos locales:

For i = 1, . . . ,m do• Buscar los k vecinos más cercanos de ci.• Calcular la métrica del modelo sobre los vecinos encontrados.

(e) Retornar los modelos locales entrenados.



En este capítulo se propusieron tres nuevos algoritmos de aprendizaje auto-mático. El primero, KISSNN, tiene como ancestro el método KISSME y heredade él sus mejores propiedades, esto es, la estimación de la función de distan-cia por un método exacto que logra una buena eficacia en un tiempo breve.La novedad consiste en seleccionar las restricciones apareadas en la vecindadde cada instancia y en el uso de un estimador regularizado de las matricesde covarianza que garantiza su inversibilidad a la vez que su buen condicio-namiento. Este nuevo algoritmo permite mejorar la exactitud del clasificadork-NN cuando el conjunto de aprendizaje es linealmente separable después deuna transformación lineal (rotación y escalado).

Si los ejemplos de aprendizaje se distribuyen de forma multimodal, el algorit-mo anterior no puede encontrar una función de distancia que satisfaga todaslas restricciones. Por ello hemos propuesto un segundo algoritmo tKISSNN

que sigue los lineamientos del aprendizaje local, es decir, construye un mo-delo para cada instancia de prueba utilizando las instancias de su vecindad.Esto permite aprender la distribución de los datos en la cercanía del objetomientras se conservan las propiedades positivas del algoritmo que le sirvede base.

A pesar de sus ventajas aparentes, el costo computacional de tKISSNN es gran-de y por ello, hemos propuesto un tercer algoritmo de aprendizaje, denomi-nado LDKISSNN, que reune en sí las mejores características de los enfoquesanteriores. Este algoritmo es escalable para grandes volúmenes de datos yaque emplea una estructura de datos del tipo árbol de cubrimiento, que seintegra de manera natural con el nuevo método mientras que disminuyeconsiderablemente el tiempo de aprendizaje. La complejidad temporal delmétodo es polinomial Θ(N log2N).

3E X P E R I M E N T O S Y VA L I D A C I O N E S

People think that computer science is the art of geniusesbut the actual reality is the opposite,

just many people doing things that buildon eachother, like a wall of mini stones.


Contenido3.1 Configuración de experimentos 62

3.2 Metodología de comparación 63

3.3 Resultados 65

3.3.1 Experimento en los algoritmos de una métrica glo-

bal 65

3.3.2 Experimento en los algoritmos locales de múltiples

métricas 70


Con el objetivo de comparar la eficiencia y eficacia de los métodos de apren-dizaje de distancia propuestos se diseñaron experimentos que incluyen lacomparación de este con otros métodos. En particular se realizaron dos com-paraciones; la primera de ellas confronta el método con el LMNN1 [Wein-berger y Saul, 2009], ITML2 [Davis et al., 2007], Distance Metric Learningwith application to clustering with side information (Xing)3 [Xing et al., 2002],KISSME4 [Koestinger et al., 2012] —descritos anteriormente— y el métodopropuesto KISSNN. Luego se realiza una segunda comparación enfocada enlos métodos locales. Se experimentaron los modelos propuestos de múltiplesmétricas LDKISSNN y tKISSNN con el mm-LMNN5 [Weinberger y Saul, 2009] yDANN [Hastie y Tibshirani, 1996].

1 http://www.cse.wustl.edu/~kilian/code/files/mLMNN2.3.zip

2 http://www.cs.utexas.edu/~pjain/itml/download/itml-1.2.tar.gz

3 http://www.cs.cmu.edu/%7Eepxing/papers/Old_papers/code_Metric_online.tar.gz

4 http://lrs.icg.tugraz.at/research/kissme/kissme_features_full.zip

5 http://www.cse.wustl.edu/~kilian/code/files/mLMNN2.3.zip

61

http://www.cse.wustl.edu/~kilian/code/files/mLMNN2.3.zip

http://www.cs.utexas.edu/~pjain/itml/download/itml-1.2.tar.gz

http://www.cs.cmu.edu/%7Eepxing/papers/Old_papers/code_Metric_online.tar.gz

http://lrs.icg.tugraz.at/research/kissme/kissme_features_full.zip

http://www.cse.wustl.edu/~kilian/code/files/mLMNN2.3.zip

3.1 configuración de experimentos 62

Este capítulo se organiza en las siguientes secciones. Primeramente, se des-criben los datos que se utilizan para las comparaciones, así como los pará-metros de los algoritmos en la sección 3.1. Luego se introduce brevementelos métodos y las pruebas estadísticas de comparación múltiple en la sección3.2, como lo recomendado por Demsar [2006]. Por último, se muestran losresultados y las discusiones de cada experimento en la sección 3.3.

3.1 configuración de experimentos

Para este estudio se emplearon conjuntos de datos reconocidos internacio-nalmente, descritos en la Tabla 1. Estos 27 conjuntos de datos provienen deldepósito de datos para aprendizaje automatizado disponibles en el KEEL6(Knowledge Extraction based on Evolutionary Learning) [Alcalá-Fdez et al., 2009].Los conjuntos de datos fueron seleccionados de diferentes complejidades, loscuales cubren una cardinalidad entre 100 y 20000 instancias con la dimensio-nalidad menor que 100. Todos los datos están normalizados en el rango [0, 1].Los datos más complicados son letter, magic, ring y twonorm porque ellos con-tienen un gran número de dimensión e instancias.

Para el primer experimento, la base de pruebas empleada para la compara-ción fue el Matlab. Asimismo, los métodos LMNN, ITML, KISSME y Xing utiliza-dos en los experimentos fueron implementados en Matlab. Los experimentosse llevan a cabo en una máquina de Intel (R) Core (TM) i5-3570 CPU Proce-sador 3.40 GHz (4 CPUs), con 3768MB de RAM, sistema operativo Windows8 Pro de 64 bits.

Para el segundo experimento, se compara comportamientos entre los mode-los locales propuestos con mm-LMNN y DANN. Estos métodos también fueronimplementados en Matlab.

El comportamiento del algoritmo k-NN depende de la elección del númerode vecinos más cercanos. Para enfocar nuestra atención en el comportamien-to de las diferentes funciones de distancia, el valor del número vecinos per-manecerá constante para todos los experimentos, es decir se seleccionan 5vecinos. Los parámetros de los otros algoritmos quedan por defecto y V = 5

para KISSNN.

6 http://sci2s.ugr.es/keel/datasets.php

http://sci2s.ugr.es/keel/datasets.php

3.2 metodología de comparación 63

En el segundo experimento, para los algoritmos tKISSNN y LDKISSNN, se selec-ciona el número de vecinos para entrenar los modelos locales k = 50 y paraformar los centros con k ′ = 25 en los datos pequeños (número de instanciaes menor que 1000); en otros casos se usan k = 200 y k ′ = 100. Los otrosparámetros se mantiene por defecto para los algoritmos DANN y mm-LMNN,según los criterios de los autores. Es decir, usa la cantidad de grupo igual ala cantidad de la clases en mm-LMNN, usa también 50 vecinos para calcular lamétrica local por instancia de prueba en DANN.

Durante los experimentos se divide un conjunto de datos en diez partes de ta-maño similar y con una balance similar entre clases, proceso conocido comoestratificación. Luego, se conforman diez conjuntos de aprendizaje tomandoen cada caso 9 de las particiones creadas. La décima partición se utiliza paraconformar el conjunto de prueba. Cada prueba consiste en crear un conjun-to de entrenamiento usando el 90% de los datos disponibles, y valorar elrendimiento sobre el conjunto de prueba (el 10% restante). El rendimiento secalcula en términos del por ciento de clasificaciones correctas en cada prueba.En las tablas se reporta el promedio de las diez pruebas con cada conjuntode datos. Todos los algoritmos empleados utilizan las mismas particiones delos datos para evitar cualquier influencia de la forma de particionar sobrealgún algoritmo en particular.

3.2 metodología de comparación

En este capítulo se siguen las recomendaciones [Demsar, 2006] y las exten-siones presentadas en [Garcia et al., 2008] en relación con los cálculos delos valores críticos p. Se aplica primeramente un procedimiento estadísticode comparación múltiple para probar la hipótesis nula de que todos los al-goritmos de aprendizaje obtuvieron los mismos resultados en promedio. Es-pecíficamente, se utilizó la prueba no paramétrica de Friedman [Friedman,1940, 1937], equivalente a las medidas repetidas ANOVA [Fisher, 1956], con-siderando el tamaño de la muestra para comprobar la hipótesis nula de quetodos los algoritmos de aprendizaje realizan equivalentemente en promedio.Cuando la prueba Friedman rechaza la hipótesis nula, se aplicaron pruebaspost-hoc. Entonces, el objetivo se vuelve a analizar si todos los métodos reali-zan de forma equivalente a la que fue mejor que todos. En primer lugar, seha aplicado la prueba de Bonferroni-Dunn [Dunn, 1961], que define que un

3.2 metodología de comparación 64

método de aprendizaje se desempeña de manera significativamente diferentedel mejor método en el ranking si el rango medio correspondiente difiere porlo menos una Distancia Crítica (CD), que se calcula como:

CD = qα ×√nl(nl + 1)

6nds(78)

donde nl y nds es el número de algoritmo y el número de conjuntos de datosrespectivamente, y qα es el valor crítico basado en [Sheskin, 2003].

Como complemento a la comparación múltiple se utilizó el procedimientostep-down de Holm [Holm, 1979] porque la prueba Bonferroni-Dunn se di-ce que es menos potente. En esta tabla los algoritmos están ordenados conrespecto al valor z obtenido. La prueba de Holm rechaza la hipótesis deigualdad con los otros método en el caso que p < α/i.

dataset #atributos #instancias #classes

1. appendicitis 7 106 2

2. balance 4 625 3

3. banana 2 5300 2

4. bupa 6 345 2

5. ionosphere 33 351 2

6. iris 4 150 3

7. led7digit 7 500 10

8. letter 16 20000 26

9. magic 10 19020 2

10. monk-2 6 432 2

11. movement_libras 90 360 15

12. optdigits 64 5620 10

13. page-blocks 10 5472 5

14. phoneme 5 5404 2

15. pima 8 768 2

16. ring 20 7400 2

17. satimage 36 6435 7

18. segment 19 2310 7

19. sonar 60 208 2

20. spambase 57 4597 2

21. texture 40 5500 11

22. twonorm 20 7400 2

3.3 resultados 65

23. vehicle 18 846 4

24. vowel 13 990 11

25. wdbc 30 569 2

26. wine 13 178 3

27. wisconsin 9 683 2

Tabla 1: Descripción de los conjuntos de datos.

3.3 resultados

En esta sección, se presentan los resultados y discusiones de los resultadosobtenidos después de realizar experimentos en los conjuntos de datos que sedescriben en la sección 3.1. Específicamente, en primer lugar, se presentaronlos resultados de la comparación entre los algoritmos que usan solamen-te una métrica global, luego la comparación entre los algoritmos locales demúltiples métricas.

3.3.1 Experimento en los algoritmos de una métrica global

3.3.1.1 Resultados y Análisis de la exactitud

La Tabla 2 presenta los resultados experimentales con todos los conjuntosde datos seleccionados. En este experimento la precisión es medida como elporcentaje de clasificación correcta, y se obtiene para cada conjunto de datosy cada función de la distancia considerada. En algunos datos KISSME no seobtuvo resultado (se marca como N/A en la Tabla), esto debido al problemade invertir las matrices de covarianza. Mientras KISSNN y los otros métodosfueron ejecutado sin ningún problema.

dataset itml kissme xing lmnn kissnn

1. 86.00 86.41 85.00 88.82∗ 85.00

2. 91.84 89.50 89.75 84.64 96.16∗

3. 89.34 72.54 89.28 89.34 89.38∗

4. 62.05 63.77 64.28∗ 61.90 64.18

5. 87.17 85.51 85.17 89.75∗ 85.46

3.3 resultados 66

6. 94.67 96.60∗ 95.33 96.00 95.33

7. 69.80∗ 69.00 65.40 69.80∗ 67.40

8. 95.37 94.48 95.56 96.72 97.71∗

9. 83.73 83.35 83.62 83.74 84.52∗

10. 89.43 93.77 98.40∗ 97.04 96.54

11. 74.72 N/A 75.28 82.50∗ 82.22

12. 98.70 N/A 98.75 99.04∗ 98.86

13. 96.03 96.73∗ 95.78 96.24 96.02

14. 87.75 82.25 84.64 87.43 87.88∗

15. 72.93 72.87 73.32 73.19 73.59∗

16. 81.54 83.04 83.54∗ 69.22 74.89

17. 90.71 88.62 90.78 91.28 91.34∗

18. 96.36∗ N/A 95.41 96.23 95.80

19. 81.69 77.75 84.52 84.05 87.90∗

20. 87.91 89.28 87.73 90.08∗ 89.15

21. 99.29 N/A 98.49 99.89 99.91∗

22. 97.08 97.55∗ 97.22 96.97 97.34

23. 73.77 77.55 71.75 77.89 82.51∗

24. 91.82 89.41 94.85 95.35 96.26∗

25. 96.83 96.13 97.01 96.30 97.71∗

26. 96.67 98.42∗ 95.49 97.78 97.71

27. 96.80 96.72 97.09 97.10 97.39∗

Friedman 0,0098

Rank 3.435 3.478 3.348 2.609 2.130

Position 4 5 3 2 1

Tabla 2: Resultados de exactitud con la clasificación k-NN y mediante varias funcio-

nes de distancia.

Las dos últimas filas muestran el rango promedio de cada método usan-do las diferentes funciones de distancia (Rank) y su posición en el ranking(Position). Se analizó estadísticamente los resultados para detectar diferen-cias significativas entre los diferentes funciones de distancia y sus exactitudes.A los datos que no fueron experimentados con éxitos (por ejemplo en casodel algoritmo KISSME), simplemente no tenemos en cuenta estos datos en lacomparación estadística.

3.3 resultados 67

La prueba de comparación múltiple de Friedman [Friedman, 1940, 1937] re-chazó la hipótesis nula de que todos los algoritmos tienen el mismo rendi-miento en promedio con p = 0,0098. Por lo tanto, se aplicó la prueba post-hocDunn-Bonferroni [Dunn, 1961] (en α = 0,05) para detectar cuáles funcionesde distancia son equivalentes a la función de distancia del mejor método.Según la prueba el rendimiento de los dos clasificadores difiere significati-vamente si el rango promedio correspondiente es por lo menos la diferenciacrítica calculada como:


6nds

= 2,498

√5× 5+ 1

6× 27= 1,075

La prueba Dunn-Bonferroni permite ilustrar gráficamente los resultados pormedio de la distancia crítica. La Figura 19 permite visualizar fácilmente ladiferencia significativa entre las funciones de distancia al realizar una com-paración entre exactitud y tiempo de aprendizaje. Cualquier algoritmo conel rango fuera del área definida en la figura difiere significativamente delalgoritmo de control. KISSNN se comporta significativamente mejor que ITML

y Xing pero ligeramente mejor que LMNN en la exactitud.

Para contrastar los resultados, también se aplica el procedimiento step-downde Holm (ver Tabla 3), que se dice que es más potente que la prueba Dunn-Bonferroni y no hace ninguna hipótesis adicional sobre los datos. La pruebastep-down de Holm en α = 0,05 detectó diferencias significativas con ITML yXing pero no con LMNN en la precisión.

3.3.1.2 Análisis de escalabilidad del KISSNN

dataset itml kissme xing lmnn kissnn

1. 3.84 0.00∗ 0.33 1.07 0.01

2. 26.16 0.02∗ 20.79 7.17 0.04

3. 9.07 0.13∗ 114.68 256.05 1.69

4. 4.28 0.01∗ 2.87 5.09 0.01∗

5. 3.93 0.02 3.59 2.60 0.01∗

6. 16.96 0.00∗ 0.78 1.43 0.00∗

3.3 resultados 68

7. 50.22 0.01∗ 43.46 0.30 0.01∗

8. 163.17 0.67∗ 49.00 848.34 22.61

9. 81.28 0.54∗ 23.69 610.43 25.46

10. 6.11 0.01∗ 20.57 1.85 0.01∗

11. 241.31 N/A 14.30 5.56 0.05∗

12. 117.39 N/A 73.96 29.02 1.95∗

13. 43.87 0.16∗ 11.31 181.86 1.83

14. 10.41 0.14∗ 101.07 180.44 1.69

15. 4.85 0.02∗ 13.25 23.53 0.03

16. 15.80 0.27∗ 157.94 388.39 3.27

17. 77.53 0.40∗ 53.26 278.06 2.35

18. 57.05 N/A 46.50 147.06 0.27∗

19. 3.48 0.04 2.64 2.29 0.02∗

20. 9.84 0.57∗ 41.70 372.18 1.36

21. 99.94 N/A 53.28 424.61 1.67∗

22. 13.72 0.28∗ 186.06 205.21 3.59

23. 44.23 0.03∗ 23.46 30.40 0.04

24. 59.99 0.03∗ 37.01 23.21 0.05

25. 5.62 0.03∗ 8.40 5.94 0.09

26. 22.81 0.01 1.06 1.60 0.00∗

27. 8.99 0.02∗ 10.69 2.77 0.02∗

Friedman 4,186× 10−11

Rank 4.087 1.239 3.696 4.174 1.804

Position 4 1 3 5 2

Tabla 4: Tiempo (en segundos) de aprendizaje mediante varias funciones de distan-

cia.

Se aplicaron también las pruebas estadísticas sobre los resultados de tiempodel entrenamiento para hacer un análisis de la eficiencia de los algoritmosde aprendizaje. Los resultados se muestran en la Tabla 4, todos los experi-mentos fueron ejecutados en la misma máquina y se miden en segundos.KISSME y KISSNN son mucho más rápidos que los otros métodos. La prue-ba de comparación múltiple de Friedman [Friedman, 1940, 1937] rechazó lahipótesis nula de que todos los algoritmos tienen el mismo rendimiento enpromedio con p = 4,186× 10−11. Por lo tanto, se aplicó la prueba post-hoc

3.3 resultados 69

Algoritmo del control: KISSNN

i algoritmo z = (R0 − Ri)/SE p α/i hipótesis

4 KISSME 2.8908 0.0038 0.0125 Rechazado

3 ITML 2.7975 0.0051 0.0167 Rechazado

2 Xing 2.6110 0.0090 0.025 Rechazado

1 LMNN 1.0258 0.3050 0.05 Aceptado

Tabla 3: Tabla de Holm / Hochberg con α = 0,05 para la exactitud de los algoritmos

de aprendizaje de una métrica global.

Dunn-Bonferroni [Dunn, 1961] (en α = 0,05) para detectar cuáles funcionesde distancia son equivalentes a la función de distancia del mejor método (eneste caso fue KISSME). Según la prueba el rendimiento de los dos clasificado-res difiere significativamente si el rango promedio correspondiente es por lomenos la diferencia crítica calculada como:


6nds= 1,075

Luego, también se aplica el procedimiento step-down de Holm (ver Tabla 5),que se dice que es más potente que la prueba Dunn-Bonferroni y no haceninguna hipótesis adicional sobre los datos. La prueba step-down de Holm enα = 0,05 detectó diferencias significativas con ITML y Xing, LMNN pero no conKISSNN en el tiempo del aprendizaje.

Algoritmo del control: KISSME


4 LMNN 6.2944 3.0857E-10 0.0125 Rechazado

3 ITML 6.1079 1.0094E-9 0.01667 Rechazado

2 Xing 5.2687 1.3742E-7 0.025 Rechazado

1 KISSNN 1.2122 0.2254 0.05 Aceptado

Tabla 5: Tabla de Holm / Hochberg con α = 0,05 para la eficiencia de los algoritmos

de aprendizaje de una métrica global.

3.3 resultados 70

KISSNN

ITMLLMNN

KISSME

Xing

0 1 2 3 4 5

1

2

3

4

5

CDCD

CD

CD

Accuracy

Tim

e

Figura 19: Visualización de la comparación entre exactitud y tiempo de aprendizaje

de los resultados obtenidos en las Tablas 2 y 4.

3.3.1.3 Conclusiones

Los resultados estadísticos permiten concluir que:

• El método propuesto KISSNN superó significativamente al método KISSME

con respecto al rendimiento de clasificación.

• KISSNN muestra resultados ligeramente mejores con respecto a LMNN.

• KISSNN muestra diferencias significativas con respecto a ITML, Xing yITML.

• KISSNN muestra diferencias significativas con respecto a ITML, Xing yLMNN en el tiempo del aprendizaje.

3.3.2 Experimento en los algoritmos locales de múltiples métricas

dataset kissnn tkissnn ldkissnn dann mm-lmnn

1. 85.00 85.00 86.00 86.00 88.82

3.3 resultados 71

2. 96.16 95.52 93.76 96.00 83.86

3. 89.38 89.13 89.72 89.36 89.15

4. 64.18 64.00 64.69 70.21 61.90

5. 85.46 90.32 83.76 82.61 90.60

6. 95.33 95.33 95.33 96.00 96.00

7. 67.40 70.80 67.20 70.40 68.60

8. 97.71 97.62 97.41 96.33 96.72

9. 84.52 84.83 84.66 85.75 83.73

10. 96.54 98.63 96.09 92.62 97.04

11. 82.22 87.22 85.83 80.56 81.94

12. 98.86 99.13 99.09 95.23 99.02

13. 96.02 96.49 96.31 96.36 96.18

14. 87.88 88.49 88.03 88.01 87.43

15. 73.59 73.20 75.26 73.70 73.19

16. 74.89 91.70 76.5 81.86 77.50

17. 91.34 92.12 91.73 86.34 91.25

18. 95.80 97.19 96.75 96.97 96.19

19. 87.90 87.90 88.86 72.95 85.48

20. 89.15 90.39 92.17 76.07 90.15

21. 99.91 99.89 99.85 99.78 99.89

22. 97.34 97.15 97.00 92.16 96.97

23. 82.51 83.45 81.32 83.92 77.89

24. 96.26 98.79 99.39 97.37 95.35

25. 97.71 97.01 96.65 90.16 96.30

26. 97.71 97.75 98.30 95.00 97.78

27. 97.39 96.81 96.37 95.76 97.10

Friedman 0,01623

Rank 3.07 2.24 2.72 3.44 3.52

Position 3 1 2 4 5

Tabla 6: Exactitud

La Tabla 6 presenta los resultados experimentales con todos los conjuntos dedatos seleccionados sobre el rendimiento de clasificación. La prueba de com-paración múltiple de Friedman [Friedman, 1940, 1937] rechazó la hipótesis

3.3 resultados 72

nula de que todos los algoritmos tienen el mismo rendimiento en promediocon p = 0,01623. Por lo tanto, se aplicó la prueba post-hoc Dunn-Bonferroni[Dunn, 1961] (en α = 0,05) para detectar cuáles funciones de distancia sonequivalentes a la función de distancia del mejor método. La diferencia críticase calcula como:


6nds

= 2,498

√5× 5+ 1

6× 27= 1,075

La Figura 20 permite visualizar fácilmente la diferencia significativa entre lasfunciones de distancia. Cualquier algoritmo con el rango fuera del área defi-nida en la figura difiere significativamente del algoritmo de control (en estecaso el algoritmo control fue tKISSNN). Se detecta la diferencia significativaentre tKISSNN y DANN, tKISSNN y mm-LMNN. El método LDKISSNN quedó ensegundo lugar por mejores resultados, pero no se detectó ningún diferenciasignificativa con los otros métodos.

1 1.5 2 2.5 3 3.5 4

CD

tKISSNN

LDKISSNN

KISSNN DANN

mm-LMNN

Figura 20: Visualización de la comparación Dunn-Bonferroni entre los algoritmos de

aprendizaje de múltiples métricas por la exactitud.

Para contrastar los resultados, también se aplica el procedimiento step-downde Holm (ver Tabla 7). La prueba step-down de Holm en α = 0,05 detectódiferencias significativas con DANN y mm-LMNN, pero no con LDKISSNN yKISSNN en la precisión.

Tabla 8 muestra los tiempos de entrenamiento y tiempos de prueba para ca-da método en los conjuntos de datos seleccionados. Los tiempos se calculanen segundos. Todos los experimentos se hicieron bajo las mismas condicio-nes. En la fase de entrenamiento, los métodos de aprendizaje de múltiplesmétricas por instancia de prueba como DANN y tKISSNN, no hacen falta entre-nar.

3.3 resultados 73

Algoritmo del control: tKISSNN


4 mm-LMNN 2.96929 0.00298 0.0125 Aceptado

3 DANN 2.79715 0.00516 0.0167 Aceptado

2 KISSNN 1.93649 0.05281 0.025 Rechazado

1 LDKISSNN 1.11886 0.26320 0.05 Rechazado

Tabla 7: Tabla de Holm / Hochberg con α = 0,05 para la exactitud en la comparación

entre los algoritmos de aprendizaje de múltiples métricas.

Los tiempos requeridos para entrenar mm-LMNN son muchos más grandesque LDKISSNN y KISSNN. Aunque LDKISSNN es un método de múltiples métri-cas pero en algunos datos complejos, se requiere menor costo computacionalque el método de una métrica global KISSNN para entrenar. Esto se debe a queLDKISSNN se entrena en los modelos locales de tamaños más pequeño que elespacio completo como KISSNN. En la prueba de Bunn-Bonferroni no se de-tecta la diferencia significativa entre KISSNN y LDKISSNN, es decir, KISSNN yLDKISSNN tienen la misma complejidad de entrenamiento en promedio.

En la fase de prueba, como se espera los costos computacionales se redu-cen significativamente entre los métodos tKISSNN y LDKISSNN. En la pruebade Bunn-Bonferroni se detecta la diferencia significativa entre LDKISSNN ytKISSNN, LDKISSNN y DANN. Estas diferencias se demuestran en los datosgrandes y complejos.

3.3.2.1 Conclusiones

Los resultados estadísticos nos permite concluir:

• tKISSNN muestra diferencias significativas con respeto a DANN y mm-LMNN.

• tKISSNN mejoró el rendimiento del KISSNN en clasificación.

• LDKISSNN reduce el costo computacional del tKISSNN, mientras que elrendimiento se mantiene aproximadamente igual que tKISSNN.

DatasetsTiempo de entrenamiento Tiempo de prueba

KISSNN tKISNN LDKISSNN DANN mm-LMNN KISSNN tKISNN LDKISSNN DANN mm-LMNN

1. 0.01 0.00 0.02 0.00 1.13 0.00 0.02 0.00 0.05 0.002. 0.02 0.00 0.09 0.00 7.84 0.01 0.10 0.01 0.65 0.003. 1.75 0.00 1.25 0.00 256.79 0.20 1.15 0.22 37.34 0.104. 0.01 0.00 0.07 0.00 4.85 0.00 0.06 0.01 0.25 0.005. 0.01 0.00 0.40 0.00 7.45 0.00 0.13 0.01 0.85 0.006. 0.00 0.00 0.02 0.00 1.50 0.00 0.03 0.00 0.07 0.007. 0.02 0.00 0.07 0.00 1.01 0.00 0.11 0.01 0.53 0.008. 23.97 0.00 15.12 0.00 863.43 3.04 13.04 3.37 608.26 1.129. 186.22 0.00 10.21 0.00 613.26 2.64 7.60 2.81 535.35 1.2410. 0.01 0.00 0.09 0.00 2.33 0.00 0.09 0.01 0.37 0.0011. 0.05 0.00 0.96 0.00 37.21 0.00 1.08 0.01 5.34 0.01

12. 1.92 0.00 6.8 0.00 84.80 0.23 5.16 0.28 127.57 0.1413. 1.8 0.00 1.76 0.00 180.67 0.20 1.00 0.23 46.7 0.1214. 1.74 0.00 1.78 0.00 180.15 0.21 1.27 0.25 46.65 0.1115. 0.03 0.00 0.18 0.00 22.74 0.01 0.14 0.01 1.07 0.0116. 3.26 0.00 10.62 0.00 467.36 0.36 2.51 0.46 96.12 0.217. 2.4 0.00 4.17 0.00 278.35 0.28 3.04 0.32 95.15 0.1518. 0.3 0.00 0.89 0.00 145.93 0.04 0.66 0.06 11.44 0.0219. 0.02 0.00 0.25 0.00 7.73 0.00 0.25 0.00 1.07 0.0020. 1.42 0.00 4.74 0.00 369.74 0.16 5.89 0.20 87.06 0.0921. 1.71 0.00 3.11 0.00 423.33 0.21 2.81 0.23 73.38 0.1122. 3.81 0.00 8.72 0.00 205.63 0.38 2.60 0.48 92.06 0.2123. 0.04 0.00 0.27 0.00 29.24 0.01 0.24 0.02 1.59 0.0124. 0.05 0.00 0.25 0.00 22.75 0.01 0.26 0.02 1.95 0.0125. 0.02 0.00 0.18 0.00 5.86 0.00 0.15 0.01 1.27 0.0126. 0.00 0.00 0.05 0.00 1.67 0.00 0.04 0.00 0.12 0.0027. 0.02 0.00 0.09 0.00 2.80 0.01 0.07 0.01 0.94 0.01

Friedman 7,9034× 10−11 6,7415× 10−11Rank 3.07 1.54 3.85 1.54 5.00 1.83 4.00 2.72 5.00 1.44

Position 2 1 3 1 4 2 4 3 5 1

Tabla 8: Tiempo de entrenamiento y prueba en segundos para los métodos de aprendizaje de distancia.



Se mostró a través del estudio experimental con bases de datos internaciona-les el buen desempeño de los métodos KISSNN, tKISSNN y LDKISSNN lo cualse resume en:

1. El método KISSNN basado en restricciones apareadas locales permitecalcular una función de distancias de Mahalanobis que minimiza lasdistancias de los pares de instancias similares y maximiza las distanciasde los pares de instancias no similares.

2. El método KISSNN obtiene resultados comparables con los mejores ex-ponentes de su tipo a la vez que lo hace en tiempos significativamentemenores.

3. El método tKISSNN obtiene resultados mejores que el método KISSNN enlos datos complejos.

4. El método LDKISSNN mejora los costos computacionales del métodotKISSNN y obtiene resultados comparables con tKISSNN.

C O N C L U S I O N E S

En esta tesis presentan tres tres nuevos algoritmos de aprendizaje automático:KISSNN, tKISSNN y LDKISSNN que permiten resolver tareas de clasificación conniveles superiores de eficiencia y eficacia. Las nuevas propuestas, se basanen el aprendizaje de una o varias funciones de distancia a partir de los datosde aprendizaje y se aplican en diferentes contextos, desde los más simplesdonde el conjunto de aprendizaje es linealmente separable después de unatransformación lineal hasta aquellos con una distribución multimodal. En suimplementación se utiliza una estructura de datos del tipo árbol de cubri-miento, que se integra de manera natural con el nuevo método mientras quedisminuye considerablemente el tiempo de aprendizaje. Esto permite que elalgoritmo mantenga su buen comportamiento a medida que aumentan lasdimensiones del problema de aprendizaje.

Mediante la realización de una amplia validación empírica se ha podido com-probar que los nuevos algoritmos son competitivo con otros semejantes delestado del arte a la vez que los supera en cuanto a eficiencia computacional.Los métodos implementados están disponible en las plataformas MatLab yWeka para su empleo en el laboratorio de Inteligencia Artificial en particulary por la comunidad científica en general.

76

AM AT E M ÁT I C A B Á S I C A

a.1 álgebra lineal

Un vector de d-dimensional x y su transpuesto xT se pueden escribir co-mo:

x =

x1

x2...xd

y xT = (x1, . . . , xd) (79)

Donde todos los componentes pueden tomar valores reales. Se denota unamatriz rectangular de tamaño n× d y su transpuesto como:

M =

m11 m12 m13 · · · m1d

m21 m22 m23 · · · m2d...

...... . . . ...

mn1 mn2 mn3 · · · mnd

,MT =

m11 m21 · · · mn1

m12 m22 · · · mn2

m13 m23 · · · mn3...

... . . . ...m1d m2d · · · mnd

(80)

a.1.1 Producto interno

El producto interno entre dos vectores que tienen la misma dimensión sedefine como xTy:

xTy =

d∑i=1

xiyi = yTx. (81)

A veces también se le llama como producto escala o producto de punto. Te-nemos algunas propiedades interesantes:

‖x‖ =√xTx (82)

cosφ =xTy

‖x‖‖y‖ (83)

77

A.2 distribución gaussiana 78

a.1.2 Producto externo

El producto externo entre dos vectores es una matriz:

M = xyT =

x1

x2...xd

(y1 y2 y3 · · · yn

)=

x1y1 x1y2 · · · x1ynx2y1 x2y2 · · · x2yn

...... . . . ...

xdy1 xdy2 · · · xdyn

(84)

a.1.3 Derivade de las matrices

Se supone que f(x) es una función de d variables xi, i = 1, 2, ..,d, las cualespresentan el vector x. Entonces la derivada o el gradiente de f con respeto aeste vector es:

∇f(x) = gradf(x) =∂f(x)

∂x=

∂f(x)∂x1∂f(x)∂x2...

∂f(x)∂xd

(85)

Considera una matriz M que es independiente de x, se obtiene las siguientesderivadas:

∂

∂x[Mx] =M (86)

∂

∂x[yTx] =

∂

∂x[xTy] = y (87)

∂

∂x[xTMx] = [M+MT ]x (88)

a.2 distribución gaussiana

Se introducirá una de las más importantes funciones de densidad de dis-tribuciones en probabilidad para variables continuas, llamada distribuciónnormal o gaussiana.

A.2 distribución gaussiana 79

Para el caso de una variable x de una dimensión, la distribución está definidapor:

ℵ(x|µ,σ2) =1

(2πσ2)12

e−1

2σ2(x− µ)2

(89)

La cual, está presentada por dos parámetros: µ, llamado la media, y σ2, lla-mado la varianza. En (89) se muestra que la distribución gaussiana satisfa-ce:

ℵ(x|µ,σ2) > 0 (90)

Cobra interés la distribución gaussiana definida sobre un vector x D-dimensional,dado por la fórmula:

ℵ(x|µ,∑

) =1

(2π)D2 |∑

|12

e−12 (x−µ)

T∑−1(x−µ) (91)

Donde el vector µ D-dimensional es la media y la matriz D×D la covarian-za.

Ahora si se supone que se tiene un conjunto de observaciones−→x = (x1, x2, x3, . . . , xn)representando N observaciones de la variable −→x . Las observaciones son da-das independientemente desde una distribución gaussianas, en la cual µ y∑

son desconocidos, y se tienen que determinar estos parámetros desde unconjunto de datos.

Si se supone que los datos son centralizados (la media es nula), la matrizcovarianza se calcula como se muestra a continuación:∑

= E[x2] − E2[x]

= E[x2]

=1

n

n∑i=1

−→xi 2

=1

n

n∑i=1

−→xi−→xi T

Entonces, se obtiene que la matriz covarianza para conjuntos de datos centra-lizados es:∑

=1

n

n∑i=1

−→xi−→xi T (92)

A.3 prueba de razón de la función de verosimilitud 80

a.3 prueba de razón de la función de verosimilitud

a.3.1 Razón de la función de verosimilitud

Se quieren realizar pruebas en la situación donde el modelo de probabilidadadoptado involucra varios parámetros desconocidos. Se debe denotar un ele-mento del espacio de parámetros por: θ = (θ1, θ2, . . . , θk). Se utiliza la razónde función de verosimilitud, λ(x), definida como:

λ(x) =sup{L(θ; x) : θ ∈ Θ0}sup{L(θ; x) : θ ∈ Θ} , x ∈ <nX (93)

Para una variable x, determina su mejor oportunidad de ocurrencia bajo dela hipótesis H0 y también su mejor oportunidad sobre todos. La razón deestas dos oportunidades no puede exceder una unidad, pero si es pequeña,implica que la hipótesis nula(H0) se rechaza.

a.3.2 Prueba de razón de la función de verosimilitud

Una prueba de razón de la función de verosimilitud consiste en probar H0 :θ ∈ Θ contra H1 : θ ∈ Θ es una prueba con región critica de la forma:

C1 = {x : λ(x) 6 k} (94)

Donde k es un número real entre 0 y 1. La prueba tiene un nivel de significa-ción α si el k seleccionado satisface:

sup{P(λ(X) 6 k; θ ∈ Θ0)} = α. (95)

B I B L I O G R A F Í A

David W. Aha. Lazy learning. págs. 7–10. Kluwer Academic Publishers,Norwell, MA, USA, 1997. ISBN 0-7923-4584-3.

David W Aha, Dennis Kibler, y Marc K Albert. Instance-based learning algo-rithms. Machine learning, 6(1):37–66, 1991.

Jesús Alcalá-Fdez, Luciano Sánchez, Salvador García, María José del Jesús,Sebastián Ventura, JM Garrell, José Otero, Cristóbal Romero, Jaume Ba-cardit, Víctor M Rivas, et al. Keel: a software tool to assess evolutionaryalgorithms for data mining problems. Soft Computing, 13(3):307–318, 2009.

Nguyen Bac. Clasificación basada en instancias mediante aprendizaje de distanciaa partir de las restricciones apareadas locales. Lic., Universidad Central de LasVillas, Cuba — Santa Clara, 2014.

Aharon Bar-Hillel, Tomer Hertz, Noam Shental, y Daphna Weinshall. Lear-ning distance functions using equivalence relations. En ICML, tomo 3, págs.11–18. 2003.

Aharon Bar-Hillel, Tomer Hertz, Noam Shental, y Daphna Weinshall. Lear-ning a mahalanobis metric from equivalence constraints. Journal of MachineLearning Research, 6(6):937–965, 2005.

Aurélien Bellet, Amaury Habrard, y Marc Sebban. A survey on metric lear-ning for feature vectors and structured data. arXiv preprint arXiv:1306.6709,2013.

Alina Beygelzimer, Sham Kakade, y John Langford. Cover trees for nearestneighbor. En Proceedings of the 23rd international conference on Machine lear-ning, págs. 97–104. ACM, 2006.

Christopher M Bishop et al. Pattern recognition and machine learning, tomo 1.springer New York, 2006.

Enrico Blanzieri y Farid Melgani. An adaptive SVM nearest neighbor classi-fier for remotely sensed imagery. En Geoscience and Remote Sensing Sympo-sium, 2006. IGARSS 2006. IEEE International Conference on, págs. 3931–3934.IEEE, 2006.

81

bibliografía 82

Léon Bottou. Online learning and stochastic approximations. On-line learningin neural networks, 17:9, 1998.

Léon Bottou y Vladimir Vapnik. Local learning algorithms. Neural Compu-tation, 4(6):888–900, 1992. ISSN 0899-7667.

Stephen Boyd y Lieven Vandenberghe. Convex optimization. Cambridge uni-versity press, 2009.

Lev M Bregman. The relaxation method of finding the common point of con-vex sets and its application to the solution of problems in convex program-ming. USSR computational mathematics and mathematical physics, 7(3):200–217, 1967.

Yair Censor. Parallel optimization: Theory, algorithms, and applications. OxfordUniversity Press, 1997.

Long Chen. New analysis of the sphere covering problems and optimalpolytope approximation of convex bodies. Journal of Approximation Theory,133(1):134–145, 2005.

Sumit Chopra, Raia Hadsell, y Yann Lecun. Learning a similarity metric dis-criminatively, with application to face verification. En In Proc. of ComputerVision and Pattern Recognition Conference, págs. 539–546. IEEE Press, 2005.

William S Cleveland y Susan J Devlin. Locally weighted regression: an ap-proach to regression analysis by local fitting. Journal of the American Statis-tical Association, 83(403):596–610, 1988.

Thomas Cover y Peter Hart. Nearest neighbor pattern classification. Informa-tion Theory, IEEE Transactions on, 13(1):21–27, 1967.

Jason Davis, Brian Kulis, Suvrit Sra, y Inderjit Dhillon. Information-theoreticmetric learning. En in NIPS 2006 Workshop on Learning to Compare Examples.2007.

Janez Demsar. Statistical comparisons of classifiers over multiple data sets.2006.

C. Domeniconi, Jing Peng, y D. Gunopulos. Locally adaptive metric nearest-neighbor classification. IEEE Transactions on Pattern Analysis and MachineIntelligence, 24(9):1281–1285, 2002. ISSN 0162-8828. doi:10.1109/TPAMI.2002.1033219.

bibliografía 83

Carlotta Domeniconi y Dimitrios Gunopulos. Adaptive nearest neighbor clas-sification using support vector machines. En Advances in Neural InformationProcessing Systems, págs. 665–672. 2001.

Olive Jean Dunn. Multiple comparisons among means. Journal of the AmericanStatistical Association, 56(293):52–64, 1961.

Theodoros Evgeniou y Massimiliano Pontil. Regularized multi–task learning.En Proceedings of the tenth ACM SIGKDD international conference on Knowled-ge discovery and data mining, págs. 109–117. ACM, 2004.

Ronald A Fisher. The use of multiple measurements in taxonomic pro-blems. Annals of eugenics, 7(2):179–188, 1936a. doi:10.1111/j.1469-1809.1936.tb02137.x.

Ronald A Fisher. Statistical methods and scientific inference. 1956.

Ronald Aylmer Fisher. The use of multiple measurements in taxonomic pro-blems. Annals Eugen., 7:179–188, 1936b.

Jerome H Friedman. Flexible metric nearest neighbor classification. Unpu-blished manuscript available by anonymous FTP from playfair. stanford. edu (seepub/friedman/README), 1994.

Milton Friedman. The use of ranks to avoid the assumption of normalityimplicit in the analysis of variance. Journal of the American Statistical Asso-ciation, 32(200):675–701, 1937.

Milton Friedman. A comparison of alternative tests of significance for theproblem of m rankings. The Annals of Mathematical Statistics, 11(1):86–92,1940.

Salvador Garcia, Francisco Herrera, y John Shawe-taylor. An extension onstatistical comparisons of classifiers over multiple data sets for all pairwisecomparisons. Journal of Machine Learning Research, págs. 2677–2694, 2008.

Philip E Gill, Walter Murray, y Margaret H Wright. Practical optimization.1981.

Jacob Goldberger, Sam Roweis, Geoff Hinton, y Ruslan Salakhutdinov. Neigh-bourhood components analysis. En Advances in Neural Information Proces-sing Systems 17, págs. 513–520. MIT Press, 2004.

Alan A Goldstein. Convex programming in hilbert space. Bulletin of theAmerican Mathematical Society, 70(5):709–710, 1964.

bibliografía 84

J. A. Hartigan y M. A. Wong. A K-means clustering algorithm. AppliedStatistics, 28:100–108, 1979.

T. Hastie y R. Tibshirani. Discriminant adaptive nearest neighbor classi-fication. IEEE Transactions on Pattern Analysis and Machine Intelligence,18(6):607–616, 1996. ISSN 0162-8828. doi:10.1109/34.506411.

Trevor Hastie, Robert Tibshirani, y Jerome Friedman. The elements of statisticallearning, tomo 2. Springer, 2009.

Sture Holm. A simple sequentially rejective multiple test procedure. Scandi-navian journal of statistics, págs. 65–70, 1979.

David S Johnson y Michael R Garey. Computers and intractability: A guideto the theory of np-completeness. Freeman&Co, San Francisco, pág. 32, 1979.

Ian Jolliffe. Principal component analysis. Wiley Online Library, 2005.

Michael J Kearns y Umesh Virkumar Vazirani. An introduction to computatio-nal learning theory. MIT press, 1994.

Donald E. Knuth. Computer Programming as an Art. Communications of theACM, 17(12):667–673, 1974.

Martin Koestinger, Martin Hirzer, Paul Wohlhart, Peter M. Roth, y HorstBischof. Large scale metric learning from equivalence constraints. En Proc.IEEE Conf. on Computer Vision and Pattern Recognition. 2012.

Robert Krauthgamer y James R. Lee. Navigating nets: Simple algorithms forproximity search. En Proceedings of the Fifteenth Annual ACM-SIAM Sympo-sium on Discrete Algorithms, SODA ’04, págs. 798–807. Society for Industrialand Applied Mathematics, Philadelphia, PA, USA, 2004. ISBN 0-89871-558-X.

Brian Kulis, Mátyás Sustik, y Inderjit Dhillon. Learning low-rank kernel ma-trices. En Proceedings of the 23rd international conference on Machine learning,págs. 505–512. ACM, 2006.

Olivier Ledoit. A well-conditioned estimator for large dimensional covarian-ce matrices. J. Multiv. Anal, 88:365–411, 1996.

Huan Liu y Lei Yu. Toward integrating feature selection algorithms for clas-sification and clustering. Knowledge and Data Engineering, IEEE Transactionson, 17(4):491–502, 2005.

bibliografía 85

Prasanta Chandra Mahalanobis. On the generalized distance in statistics.Proceedings of the National Institute of Sciences (Calcutta), 2:49–55, 1936.

Tom M Mitchell. Machine learning. wcb. 1997.

Andrew W. Moore. An intoductory tutorial on kd-trees. 1991.

Yang Mu, Wei Ding, y Dacheng Tao. Local discriminative distance metricsensemble learning. Pattern Recognition, 46(8):2337–2349, 2013. ISSN 0031-3203. doi:10.1016/j.patcog.2013.01.010.

Frank Nielsen, Paolo Piro, y Michel Barlaud. Tailored bregman ball treesfor effective nearest neighbors. En In European Workshop on ComputationalGeometry. 2009.

Stephen M. Omohundro. Five balltree construction algorithms. Inf. téc., 1989.

Mark JL Orr et al. Introduction to radial basis function networks. 1996.

Shibin Parameswaran y Kilian Q Weinberger. Large margin multi-task metriclearning. En Advances in neural information processing systems, págs. 1867–1875. 2010.

J. Ross Quinlan. Induction of decision trees. Machine learning, 1(1):81–106,1986.

John Ross Quinlan. C4. 5: programs for machine learning, tomo 1. Morgankaufmann, 1993.

Stuart J Russell y Peter Norvig. Inteligencia Artificial: un enfoque moderno. 1996.

Noam Shental, Tomer Hertz, Daphna Weinshall, y Misha Pavel. Adjust-ment learning and relevant component analysis. En Anders Heyden,Gunnar Sparr, Mads Nielsen, y Peter Johansen, eds., Computer Vision —ECCV 2002, tomo 2353 de Lecture Notes in Computer Science, págs. 776–790. Springer Berlin Heidelberg, 2002. ISBN 978-3-540-43748-2. doi:10.1007/3-540-47979-1_52.

David J Sheskin. Handbook of parametric and nonparametric statistical procedures.crc Press, 2003.

Lieven Vandenberghe y Stephen Boyd. Semidefinite programming. SIAMreview, 38(1):49–95, 1996.

Vladimir Vapnik. Principles of risk minimization for learning theory. EnAdvances in neural information processing systems, págs. 831–838. 1992.

bibliografía 86

Vladimir Vapnik y Léon Bottou. Local algorithms for pattern recognition anddependencies estimation. Neural Computation, 5(6):893–909, 1993.

Kilian Weinberger, John Blitzer, y Lawrence Saul. Distance metric learning forlarge margin nearest neighbor classification. Advances in neural informationprocessing systems, 18:1473, 2006.

Kilian Q. Weinberger y Lawrence K. Saul. Fast solvers and efficient imple-mentations for distance metric learning. En In ICML. 2008.

Kilian Q Weinberger y Lawrence K Saul. Distance metric learning for lar-ge margin nearest neighbor classification. The Journal of Machine LearningResearch, 10:207–244, 2009.

Kilian Quirin Weinberger. Metric learning with convex optimization. Ph.d., Uni-versity of Pennsylvania, United States – Pennsylvania, 2007.

Eric P Xing, Michael I Jordan, Stuart Russell, y Andrew Ng. Distance metriclearning with application to clustering with side-information. En Advancesin neural information processing systems, págs. 505–512. 2002.

Eric P. Xing, Andrew Y. Ng, Michael I. Jordan, y Stuart Russell. Distance me-tric learning, with application to clustering with side-information. En AD-VANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 15, págs.505–512. MIT Press, 2003.

Liu Yang y Rong Jin. Distance metric learning: A comprehensive survey.Michigan State Universiy, 2, 2006.

Yiming Ying y Peng Li. Distance metric learning with eigenvalue optimiza-tion. The Journal of Machine Learning Research, 2012.

Zhihua Zhang, James T Kwok, y Dit-Yan Yeung. Parametric distance metriclearning with label information. En IJCAI, pág. 1450. Citeseer, 2003.

Í N D I C E A L FA B É T I C O

árbol de cubrimiento, 52

LMNN, 32

seudométrica, 11

Aprendizaje, 6

Aprendizaje Local, 48

asociación, 7

automatizado, 6

Ball Tree, 45

Bregman, 26

clasificación, 7

clasificador, 28

clustering, 7

constrained convex, 21

convex, 18

cuadrática, 13

decisión, 10

disimilitud, 12

Distance Metric Learning, 10

divergencia, 26

eager learning, 49

entrenamiento, 8

Euclidiana, 10

global, 16

gradient descent, 17

instance-based learning, 7

kernelización, 26

Kullbach-Leibler, 25

leave-one-out, 30

likelihood, 24

local, 16

Métrica, 12

métrica, 11

múltiples métricas, 16

Machine Learning, 6

Mahalanobis, 14

mm-LMNN, 28

NCA, 30

Newton, 25

no supervisado, 15

NP-hard, 6

optimización, 18

ortonormales, 11

perezoso, 7

programación convexa, 23

projected, 18

proyección, 20

recuperación de información, 16

SDP, 33

semidefinida positiva, 13

Semidefinite Program, 33

step size, 18

supervisado, 15

teoría de la información, 25

transformación, 12

umbral, 24

87

índice alfabético 88

hibridación del aprendizaje local y el aprendizaje de

Documents