aprendizaje por similitud

8/16/2019 Aprendizaje Por Similitud

1/15

Aprendizaje Basado en Similitud

Juan Carlos Galeano Huertas

Departamento de Ingenieŕıa de Sistemas e Industrial

Universidad Nacional de Colombia - Bogotá

1. Introducción

Los problemas de aprendizaje supervisado y no supervisado, pueden enten-derse como problemas de clasificación, de un conjunto de objetos de entrada,con naturalezas un poco distintas: en el primero, se conoce el conjunto de eti-quetas (clases) que pueden ser asignadas a los objetos y el problema consiste enasignar la etiqueta adecuada a cada objeto; en el segundo, debe encontrase unnúmero razonable de etiquetas (grupos) en los que pueda ser dividido el conjun-to total de objetos, de tal forma que un nuevo objeto pueda ser ubicado dentrodel grupo más adecuado. El criterio general para asignar la etiqueta adecuada a un nuevo objeto consite en ubicar el conjunto de objetos que comparten unamisma etiqueta y que son más parecidos al nuevo objeto. De forma similar, elcriterio general para encontrar el número razonable de grupos para dividir elconjunto total de objetos, consiste en poner juntos aquellos objetos que seanmás parecidos entre śı, definiendo aśı los ĺımites entre los grupos.

Dentro de la literatura concerniente a las técnicas de aprendiza je supervisadoy no supervisado, usualmente está presente una noción de distancia entre losobjetos del problema, la cual se contruye frecuentemente sobre la base de unespacio de caracteŕısticas que describen a esos ob jetos. Puede notarse que esanoción de cercańıa modela, de una u otra forma, un grado de (di)similitud entrelos objetos del problema, que es utilizado como criterio para resolver el problemade aprendizaje. Sin embargo, el concepto de similitud es más general que el dedistancia ya que puede mostrarse que el primero no necesariamente satisfaceciertas propiedades del segundo. Más aún, aunque parece natural describir losobjetos mediante caracteŕısticas, esto no siempre resuta fácil y en tal caso unadefinición de similitud en términos de distancia en un espacio de caracterı́sticasno es posible. Los siguientes ejemplos pueden ayudar a aclarar esta afirmaci ón:

Considere el problema de indentificar una persona: si alguien le pregunta¿conoce usted a Eduardo?, y su la respuesta es negativa, la persona intentar áayudarle a recordar describiendo a Eduardo diciendo cosas tales como “aquelque mide más o menos 1.65 m, tiene cabello liso y negro, piel trigueña, etc”, esdecir, la persona le dará un listado de cartacterı́sticas con el fin de que ustedrecuerde a Eduardo. A partir de esto, usted puede imaginarse un sistema quecontenga un conjunto de fotos de personas y le muestre aquellas que m ás se

1


2/15

parecen a una que usted describe mediante caracteŕısticas.

Ahora bien, considere el problema de identificar un olor: si alguien le pregun-ta ¿reconoce usted el perfume de Stella?, y de nuevo, su respuesta es negativa,¿cuál serı́a la estrategia utilizada por la persona para ayudarle a recordar?, se-guramente intentaŕıa decir cosas tales como “es un olor que está entre naranjay limón, se parece más al de la naranja, pero no es exactamente naranja”, esdecir, la persona le da un marco de referencia relativo a olores que usted conocey que son similares al del perfume de Stella. A partir de esto, suponga queexiste un sistema que es capaz de generar olores; si usted quiere que el sistemareproduza un olor particular, la forma quizá más natural en que usted quisieradar las intrucciones seŕıa en forma de expresiones tales como “parecido al olorde la naraja”, “parecido al olor del limón” y “más parecido al olor de la naranjaque al del limón”.

Desde el punto de vista computacional, los problemas antes planteados,

pueden verse como problemas de clasificacíon, pero de naturalezas un pocodiferentes: en el primero, usted recibe un conjunto de caracterı́sticas o atributos (caracterı́sticas f́ısicas que tiene Eduardo) de un objeto y usted debe encontrar(dentro del conjunto de sus recuerdos) el elemento que mejor se ajusta a la de-scripción para asignarle la etiqueta apropiada (Eduardo); en el segundo, ustedrecibe un conjunto de elementos (naranja, limón) que se parecen en distintas proporciones (más a naranja que a limón) a un cierto objeto y usted debe en-contrar (dentro del conjunto de sus recuerdos), el elemento que mejor se ajustaa las descripción para asignarle la etiqueta apropiada (perfume de Stella).

A partir de la discusión anterior, puede verse que el proceso de aprendizajeestá soportado por una noción de (di)similitud, en vez de por un conjunto decaracterı́sticas descriptoras. En este art́ıculo, se pretende hacer una revisión de

aquellas técnicas de aprendizaje que se basan, en mayor proporción, en unanoción de (di)similitud en vez de hacerlo en un espacio de caracteŕısticas; paraello, se hablará del enfoque basado en similitud de aprendizaje para referirse ala naturaleza del primer las primeras, y se hablar á del enfoque tradicional parareferirse a la naturaleza de las segundas.

El artı́culo está organizado de la siguiente forma: la Sección 2 describe demanera más precisa las diferencias entre los enfoques basado en similitud ybasado en caracterı́sticas; la Sección 3 hace una revisión de las relaciones entre(di)similitud y distancia y muestra algunas de estas medidas; la Sección 4 pre-senta una revisión de algoritmos de aprendizaje basados en similitud; la Sección5 enuncia algunas aplicaciones en que ha sido aplicado el enfoque basado ensimilitud; la Sección 6 presenta algunas ĺıneas de investigación y problemas queresultan de la aplicación del enfoque basado en similitud; y finalmente la Sección

7 presenta algunas conclusiones y algunas lı́neas de trabajo futuro.

2


3/15

2. Aprendizaje basado en similitud frente a apren-

dizaje basado en caracteŕısticas[explanatory figures]

The traditional approach in machine learning, pattern recognition →feature-based

En el proceso de aprendizaje se consideran dos elementos básicos: un espacio deentrada X que define el dominio del problema y un algoritmo de aprendizajeA. El objetivo de A es construir un modelo f de X a partir de una muestraX n del espacio de entrada, donde n es el tamaño de la muestra. El modelo f no es más que una función que asigna una etiqueta a cada objeto de X , para elcaso de aprendizaje supervisado; o divide a X en un cierto número de grupos,

para el caso de aprendizaje no supervisado, de tal forma que cada objeto de X pertenezca a un grupo. De esta forma, la diferencia entre los enfoques basado encaracterı́sticas y basado en similitud radicará en la forma en que la informacióncontenida en X (posibles patrones) es transmitida a A para la construcción def .

2.1. El enfoque tradicional en aprendizaje de máquina yreconocimiento de patrones

Como se dijo anteriormente, el enfoque tradicional se basa en la transfor-mación del espacio X en un espacio de caracterı́sticas F en el que cada objetoes identificado mediante un vector de atributos (v1, . . . , vn). Esta transforma-

ción es usualmente denominada representaci´ on y puede denotarse mediante lafunción φ : X → F .Dado que el proceso de aprendizaje está soportado por una noción de simil-

itud, sobre los elementos de X puede definirse una medida de similitud, quedenota el grado de semejanza entre cada par de objetos, tal funci ón se denotamediante d : X ×X → R. Sin embargo, en este caso, el algoritmo A toma comoentrada el espacio F y por tanto, es deseable que d tenga una medida correspon-diente en F , tal medida se denota como dF : F ×F → R. Usualmente, dF es unafunción de la distancia definida sobre F , y aśı, la correspondencia deseable debeser tal que d (xi, xj) ≈ dF (φ (xi) , φ (xj)), donde el śımbolo ≈ indica que puntosen el espacio F que estén cerca, deben ser imágenes de objetos en el espacio X que sean similares.

Aunque se considere la definición de la medida de similitud en X , tradicional-

mente el proceso consiste en definir directamente una función de (di)similituddF como una función de la distancia (métrica) entre vectores de F . Sin embargo,el proceso de representación no siempre es fácil de realizar debido a la naturalezade los objetos en X y, por otro lado, la función dF , definida en términos de dis-tancia, no necesariamente preserva la noción de similitud sobre X . Puede decirseentonces que este enfoque considera la transformación del espacio del problemaa un espacio de carateŕısticas, como paso previo para la definición de similitud

3


4/15

[11]. La justificación más clara para este enfoque, es el soporte matemático con

que se cuenta al transformar X en un espacio euclidiano.

2.2. ¿Por qué resulta útil el enfoque basdo en similitud?

Una de las razones para considerar este enfoque es que el proceso de rep-resentación puede resultar, en ciertos dominios, dif́ıcil e incluso innatural. Estoocurre principalmente en problemas en los que los datos del problema no sonnuméricos y tienen una estructura compleja. Por ejemplo, en problemas de per-sonalización web, los objetos del espacio X son sesiones web; una transformaciónposible es considerar F = {0, 1}m donde m es el número de páginas del sitioweb. De esta forma, cada elemento de F es un vector de m componentes, dondecada componente está asociada a una página, un 1 indica que la página fue ac-cedida en una sesión particular, y el 0 indica que no. Esta representación, tiene

el problema de que m puede ser muy grande, dependiendo del tamaño del sitio[16]. Con esta representación, el concepto de similitud entre sesiones se limita acontabilizar el número de páginas en que las dos sesiones coinciden. Sin embar-go, tal contabilización, difı́cilmente puede dar información acerca del contenidode las páginas y el orden en que fueron accedidas en cada una de las sesiones,lo cual podrı́a utilizarse para describir el comportamiento de los usuarios quenavegan a través del sitio [18]. Dentro de los dominios con objetos estructurados,se encuentran tambíen los documentos XML si se quiere realizar reconocimien-to de diferentes fuentes con el mismo tipo de información [6]. Aqúı, la medidade similitud debeŕıa reflejar una semejanza en cuanto al tipo de informacióndescrita por dos documentos XML.

Otros casos en los que la extracción de caracterı́sticas resulta innatural son

los de las reglas de asociación (minerı́a de datos) [7] y datos que utilizan repre-sentación de primer orden [10]. Sobre las primeras, es deseable hacer un procesode agrupamiento, con el fin de reducir el número de reglas dentro de un sistema,sin embargo no parece natural extraer un conjunto de caracteŕısticas del esp-cio de las posibles reglas de tal forma que la medida de similitud entre reglascorresponda a una distancia en tal espacio.

Un ejemplo más en el que no parece natural la transformación de X en F sepresenta en [1], en donde se plantea el problema de hacer clasificación de olores.En este caso, los autores argumentan la dificultad de representar los olores me-diante caracteŕısticas, sin entrar en detalles, básicamente porque correspondea la extracción de caracterı́sticas de compuestos qúımicos con estructuras het-erogénas y complejas.

3. Medidas de (di)similitud y de distancia

En esta subsección, se describen las principales estrategias utilizadas pararealizar aprendizaje, ya sea supervisado o no supervisado, tomando como infor-mación una matriz de (di)similitud. Dentro de este grupo se evidencia la poten-cialidad de estos métodos dada por la independencia de la medida de similitud.

4


5/15

Aqúı, se supone que el algoritmo tiene acceso a la medidad de similitud entre

cada par de objetos pero no a la forma de calcularla.

[explanatory figures]

general definition

Dentro de los trabajos en esta dirección, se ecuentran también [12], [17] enlos cuales el objeto de estudio es justamente la información capturada por lasmedidas de similitud. Básicamente, pueden distinguirse dos grandes grupos demedidas: Euclidianas y No Euclidianas. Dentro de las primeras, se argumentala limitación de capturar sólo estructuras esféricas mientras que las segundaspueden aportar información relevante acerca de la estructura de los datos quelas medidas Euclidianas ignoran [12]. Dentro de esta categoŕıa de trabajos, esusual que se hable, en forma general, de métricas y no métricas.

primeros en demostrar que relaciones no euclidianas efectivamente puedenaportar informacion estructural que las medidas euclidianas desconocen. Aunqueno es posible encontrar vectores que satisfagan una relación de similitud que vio-la la metrica euclidiana, es posible encontrar vectores que conservan la estructurade los grupos [12]

distance ↔ dissimilarity

• [EA] (representación dual de similitud con distancias si satisface ladesigualdad del triángulo. Si no, puede corregirse, cuando aparecenvalores negativos mediante una transformación) [16]

dissimilarity ↔ similarityFeature-based (dis)similarity/distance

• “euclidean family”

• Binary data

• cosine

Structured objects (dis)similarity/distance

La exploración en este grupo está fuertemente relacionada con la representaciónde los objetos en el espacio de entrada, según el dominio particular y el signifi-cado que quiere dársele al concepto de semejanza.

images

• [Imágenes (segmentación de texturas)] existe un camino de baja dis-imilitud entre los dos objetos

graphs

5


6/15

• trees

◦ [?] [Documentos XML] correspondencia estructural entre árbolesde tags. [6]

• web sessions

◦ [Conjunto de páginas visitadas, teniendo en cuenta el orden yel tiempo empleado en cada una. Secuencias que contienen ac-cesos a un sitio web] dos nivels: similitud entre p áginas y entresesiones. El sitio web se abstrae como un grafo. El algoritmo estábasado en un método de particionmiento de grafos. El consider-ar la secuencia de visitas tiene que ver con el comportamientoentre los usuarios. La similitud entre páginas toma en cuenta sipueden considerarse ”sinónimas” tanto desde el punto de vista decontenido como del de uso. [14]

◦ [conjunto de páginas visitadas junto con la estructura del sitioweb. No es métrica] [16]

En áreas como la mineŕıa web, donde el problema es aprender a partir de lainformación interesante para los usuarios, es necesario definir medidas que cap-turen la similitud de intereses entre usuarios, para esto, la forma más simple esrepresentar los intereses de un usuario como el conjunto de páginas visitadas enuna sesión [16], de tal forma que dos usuarios tendrán intereses similares si elconjunto intersección de las páginas visitadas es grande. Sin embargo, dado queusualmente se quiere clasificar los usuarios mediante la definici ón de ciertos per-files con el fin de hacer recomendaciones o personalizaciones en la navegaci ón,se hace necesario agregarle a la medida de similitud información acerca de la

estructura del sitio, lo cual puede interpretarse como una categorización del sitiodesde el punto de vista del usuario que está accediendo [16].En [14], los autores plantean la estrategia de mejorar la calidad de las sug-

erencias realizadas por un sitio web al usuario en sesión, mediante el aprendizajede su comportamiento. Aseguran que el comportamiento no puede ser descu-bierto únicamente con la información acerca de los intereses del usuario, sinoque es necesario obtener información acerca del orden en que los recursos sonsolicitados. Aśı que, se hace necesaria una medida de (di)similitud que considerela secuencia de páginas accedidas por el usuario [14].

documents

• [Documentos XML] correspondencia estructural entre árboles de tags.

[6]El problema de agrupar y/o clasificar documentos es otro campo en el cual ladefinición de la medida de (di)similitud es crucial y no trivial. En este caso, laforma natural de agrupar tales objetos es mediante algún grado de ”sinonimia”.Tal enfoque es adoptado en [6] en el que se pretende agrupar documentos XMLmediante el significado, el cual pretende ser extráıdo de la estructura particularde ”tags”.

6


7/15

strings

strategies for calculation and learning of (dis)similarities

• [Secuencias] Cálculo mediante Modelos Ocultos de Markov [2]

• Aprendida a trav́es de un sistema TS (reglas difusas) [nterpretaciónlingǘıstica de disimilitud] [3]

• inferencia estad́ıstica de modelos gráficos para calcular el corte delos metodos basados en particion de grafos. y para aprender unamedida apropiada de afinidad entre los datos, como alternativa a laestimacion mediante cadenas de Markov utilizada por los metodosespectrales. [20].

4. Una revisión de algoritmos de aprendizajebasados en similitud

[explanatory figures]

It’s not a new idea in machine learning

• algorithms such as k-nn (consultar Jain)

◦ [C (basada en prototipos)] [EA S (sobre los métodos de clasific-ción por prototipos) Estudio experimental de técnicas antiguasy nuevas de selección de prototipos] [13]

El siguiente grupo a considerar es el llamado basado en prototipos. En este caso,el objetivo es seleccionar un conjunto de objetos del conjunto de entrenamiento, ogenerar uno a partir de ellos, que represente una versión compacta del conjuntode datos, los elementos de ese conjunto se denominan prototipos [9]. De estaforma, cada grupo es representado por un prototipo y el proceso de clasificaci ónconsiste en asignar un objeto a un grupo basado en el grado de similitud con losprototipos. Para esto pueden adoptarse diferentes estrategias dependiendo desi cada objeto puede pertenecer a un único grupo (partición ŕıgida) o si puedetenerse grados de pertenencia (paritición difusa) [2]. Dentro de estas estrategiasse encuentran técnicas como la de los k vecinos más cercanos (KNN, por susiniciales en inglés), k medias, k medoides con las correspondientes versionesdifusas [9].

clustering

el proceso de aprendizaje está basado principlamente en la definición de rela-ciones entre los objetos, usualmente medidas de cuán semejantes o diferentesson.

Otros trabajos no realizan una definición propiamente dicha de la medida desimilitud, en vez de eso, utilizan un pequeño conjunto de datos para los cuales

7


8/15

se conocen sus (di)similitudes, como conjunto de entrenamiento de un algoritmo

de aprendizaje, con el fin de estimar la medida de similitud y a partir de esemodelo aprendido, estimar los valores de similitud para los demás objetos en elconjunto de entrenamiento.

Not a new idea in statistics

• multi dimensional scaling

◦ [A (algomerativo)] [Reglas de asociación] multi-dimensional scal-ing para embeber reglas en vectores con el fin de combinar los re-sultados del aglomerativo con el SOM. mecanismo para embeberel espacio de reglas en un espacio de caracteristicaspreservandorelaciones de distancia (para generar una representacion visualde grupos) [7]

new trend in machine learning: kernels

Un gran grupo de trabajo que cuenta con gran interés en la comunidad académi-ca es el de los métodos basados en kernels [19]. La idea principal de los métodosconsiste en realizar el proceso de representación vectorial mencionado en la Sec-ción 2 pero de forma impĺıcita. De forma general, una funcíon kernel es unafunción κ : X × X → R que calcula el producto punto de los objetos en elespacio F sin utilizar de forma expĺıcita el mapeo φ (·). En estos métodos, elespacio F es, en general, de dimensión mayor que la del espacio X y la estrategiaconsiste en encontrar una función kernel κ que corresponda a un espacio F en elque las relaciones que se buscan entre los datos correspondan a patrones lineales[19]. Nótese que desde este enfoque, una vez definida la función kernel, puedeutilizarse cualquier método de aprendizaje cuyo mecanismo utilice como únicainformación, la medida de similitud definida en el espacio de entrada. Por tanto,pueden encontrarse versiones kernel de varias técnicas conocidas, (ver [19] parauna descripción más detallada).

taxonomy

• subsection for each item

4.1. Agrupamiento como proceso de optimizacíon

[A, optimización. Función objetivo incluye disimilitud intra-grupo] [Imá-

genes (segmentación de texturas)] conectividad en vez de compacidad [5][A (obtienen árbol de jerarqúıa)] [experimentos sobre secuencias de pro-téınas] como un problema de asignación en donde debe minimizarse unafunción de costo. Variación de Simulated annealing. se minimiza una fun-ción de costo que mide la no homogeneidad para cada grupo Los primerosniveles del árbol dan información de la matriz de similitud [8]

8


9/15

[A (relacional difuso)]. agrupamiento como problema de optimizacion, fun-

cion objetivo incluye terminos de la medida de distancia, un parametrofuzziness y el grado de pertenecia. RFC-MDE (Relational Fuzzy C-MaximalDensity Estimator) y FCMdd (Relational Fuzzy c Medoids). el proced-imiento encuentra un prototipo para cada grupo [15]

4.2. Algoritmos jerárquicos

La estrategia más utilizada dentro del área corresponde con los algoritmos jerárquicos, tanto aglomerativos como divisivos (para una descripción detalladade estos mecanismos ver [9]). La diferencia principal entre estas dos estrategiasconsiste en el punto de inicio: mientras en los aglomerativos el punto de arranqueconsiste en considerar N grupos, cada uno con un objeto y cada objeto en ungrupo, en los divisivos, el punto de arranque consiste en considerar un grupo, el

cual contiene a todos los objetos. En ambas estrategias, se construye un árbol de jerarqúıas a partir de la medida de similitud (en los aglomerativos) o disimilitud(en los divisivos) en el cual cada nivel representa un cierto número de grupos,cada uno con un cierto número de objetos [9]. Nótese que en ambas estrategiasexisten dos puntos extremos: uno en el que cada objeto forma un grupo, y otroen el que todos los objetos pertenecen a un único grupo. El problema consisteentonces en encontrar el nivel en el árbol que mejor describe la estructura delos datos. Por tanto, los trabajos en esta área consisten justamente en definircriterios de selección de tal nivel. Dentro de estos se encuentra los trabajospresentados en [4], [6], [7] y [16].

[A] validación cruzada (partición significativa). particionamiento deter-minista operaciones sobre la matriz para extraer los dos grupos más rep-

resentativos del conjunto de datos. matriz de similitudes o disimilitudes.no paramétrico jerárquico divisivo [4].

[A (algomerativo)]. [Reglas de asociación] multi-dimensional scaling paraembeber reglas en vectores con el fin de combinar los resultados del aglom-erativo con el SOM [7].

[A (obtienen árbol de jerarqúıa)] como un problema de asignación en dondedebe minimizarse una función de costo. Variación de Simulated annealing.matriz de similitud. se minimiza una función de costo que mide la no homo-geneidad para cada grupo Los primeros niveles del árbol dan informaciónde la matriz de similitud [8]

[A (aglomerativo)] RDBC (Relational Distance-Based Clustering). Tam-bién, algoritmo para extraer grupos a partir del árbol sin asumir comoparámetro el número de grupos. usualmente el problema es enfrenta-do utilizando una tecnica llamada agrupamiento conceptual. (resultadosobtenidos similares al enfoque conceptual) [10]

A (aglomeración competitiva). Adaptación al paradigma relacional de unatécnica de los autores. Cuando un grupo crece, otro disminuye. evaluación

9


10/15

de la parición v́ıa promedios de distancias de los elementos dentro de un

grupo (altos) y promedios de distancias entre elementos de distintos grupos(bajos). Al final del proceso, las sesiones son caracterizadas por vectoresde probabilidad donde cada componente da un valor de importancia a lacorrespondiente pagina en el correspodiente perfil. [16]

4.3. Prototipos

[A] Secuencias. Algoritmo de agrupamiento basado en puntos. secuenciasrepresentativas. [2]

[A] Documentos XML. Construir un árbol de correspondencia de tagscomunes (prototipos) Esto es lo que se hace [6].

[C (basada en prototipos)] método de condesamiento para encontrar pro-totipos. Entrenamiento de un clasificador en el espacio de disimilitud.Puede escogerse el número de prototipos. plantea alternativas al uso dek-nn. ”Muestran” que el uso de clasificadoresmás generales basados endisimilitudes puede ser benéfico. Aseguran que la combinación entre lastécnicas de condensamiento y clasificadores lineales basados en disimili-tud provee el mejor balance entre pequeños conjuntos condensados y altaprecisión de clasificación [13]

4.4. Espectrales

[A] agrupamiento de vectores propios de la matriz de kernel.

[A] inferencia estad́ıstica de modelos gráficos para calcular el corte delos metodos basados en particion de grafos. y para aprender una medidaapropiada de afinidad entre los datos, como alternativa a la estimacionmediante cadenas de Markov utilizada por los metodos espectrales. Méto-dos de agrupamiento espectral tienen la ventaja de poder dividir gruposde formas arbitrarias y están basados en cálculos eficientes de vectorespropios.

4.5. Adaptaciones

A (aglomeración competitiva). sesiones web. Adaptación al paradigmarelacional de una técnica de los autores. Cuando un grupo crece, otrodisminuye [16]

A (basado en prototipos). versión no lineal de un algoritmo lineal conocido.Los prototipos encontrados por métodos kernel pertenecen al espacio decaracteŕısticas lo cual conduce a una carencia de interpretación en losgrupos encontrados. Los métodos utilizan algunas técnicas de poryección.Versión kernel de Fuzzy C-Means. el modelo propuesto tiene la ventajasobre otros metodos basados en funciones kernel, de proveer un significado,

10


11/15

en el espacio de entrada, de los prototipos encontrados en el espacio de

caracteristicas y además que es capaz de trabajar con datos incompletos[23].

4.6. Estrategias para embeber el espacio de entrada enuno de caracteŕısticas

[A (algomerativo)] multi-dimensional scaling para embeber reglas en vec-tores con el fin de combinar los resultados del aglomerativo con el SOM.mecanismo para embeber el espacio de reglas en un espacio de caracteris-ticaspreservando relaciones de distancia (para generar una representacionvisual de grupos) [7].

Transformación del espacio del problema a un espacio de carateŕısticas,

donde las medidas de similitud no se ven demasiado afectadas por cues-tiones de variabilidad y escala. plantea el proceso de representacion vec-torial como una transformación del espacio del problema a un espacioeuclidiano [11].

4.7. Otras estrategias

Dentro de la categoŕıa de Otras estrategias se encuentran trabajos como el de[21] en donde se presenta una técnica de agrupamiento que utiliza la matriz desimilitud para definir una Cadena de Markov donde cada objeto representa unestado y algunas estructuras estables, cuya estabilidad depende de una distanciaentre distribuciones de probabilidad, emergen durante la ejecución de la cadena.Otro trabajo relevante para destacar en este grupo de trabajos es el presentado

en [3] en el cual se utiliza ua estrategia supervisada para aprender la medidade disimilitud entre los datos y entonces utilizar esa medida aprendida paraentrenar el algoritmo Fuzzy C-Means.

[A] [Dada. Distancia entre distribuciones de probabilidad?] . Observaciónde la cadena (ergódica) en el camino hacia la distribución estacionaria.Combina un método basado en distancias (pairwise) y un método decuantización vectorial (vector-quantization). matriz de distancias. pérdi-da de información mutua para detectar estabilidad en grupos BottleneckMethod para extraer los grupos. definición de cadena de Markov a partirde la matriz de distancias estabilidad de grupos mediante distancias en-tre distribuciones de probabilidad durante el proceso de agrupamiento, no

se utiliza explicitamente la geometria del espacio que se esta explorandocuantización para interpretar grupos ”El método puede agrupoar datossin sesgo geométrico y no hace suposiciones acerca de la distribución deprobabilidad” [22].

11


12/15

5. Aplicaciones

Vale la pena mencionar que la estrategia particular de aprendizaje est á usual-mente motivada por una aplicación especı́fica, aśı por ejemplo, se encuentranestrategias basadas en similitud para segmentación de imágenes [5], para laclasificación de olores [1] y para mineŕıa de datos en la web [15].

experimentos sobre secuencias de protéınas [8].

clasificación de olores [1].

personalización. [14],[16],[15]

6. Ĺıneas de investigación y problemas abiertos

Aunque el área de aprendizaje basado en similitud tiene aplicación en muchasáreas facilitando la definición del modelo, de la exposición presentada en laSección 3 puede verse que el trabajo apunta b ásicamente en tres direcciones:definiciones de medidas de (di)similitud, definición de nuevos algoritmos cuyodesempeño depende únicamente de la información de la (di)similitud entre losobjetos y adaptación de algoritmos al paradigma, esto es, hacer que estos algo-ritmos se desempeñen independientemente de la representación adoptada parael espacio de entrada.

Dentro de las preocupaciones dentro de los investigadores en el área se en-cuentra por ejemplo el manejo de la dimensionalidad de los espacios de (di)similitud.Ya que en aplicaciones reales, es usual que haya un número mayor de datos quede dimensiones (para el caso de datos vectoriales), y en el enfoque ”directo”, ca-

da objeto, es representado mediante su (di)similitud con cada uno de los dem ásobjetos, y entonces aplicar algún algoritmo ”tradicional” de clasificación en eseespacio, ası́ que puede presentarse el problema conocido como ”la maldición dela dimensionalidad”. Este problema se ha enfrentado mediante el uso de méto-dos combinados con métodos basados en prototipos, en los que el espacio de(di)similitud se construye sobre un número reducido de ejemplos, de tal formaque la dimensión de ese nuevo espacio resulta manejable.

Vale la pena mencionar que la participación de métodos bioinspirados en estaárea es poco, sólo se cuenta con el hecho de que ciertas medidas de (di)similitudpueden ser aprendidas mediante el uso de redes neuronales [3]. Sin embargo, da-da la estrategia general del paradigma de definir una relación de (di)similitud,hace ”natural” pensar que ciertos modelos bioinspirados como los sistemas in-

munológicos artificiales pueden representar un campo fértil para explotar estaidea, ya que el elemento clave en tales modelos es el concepto de afinidad oreconocimiento entre células que usualemente ha sido representado como unafunción de la distancia de elementos en espacios vectoriales.

dimensión espacio de similitud. [1]

12


13/15

Referencias

[1] Manuele Bicego. Odor classification using similarity-based representation.Sensors and Actuators B: Chemical , 110(2):225–230, October 2005.

[2] Manuele Bicego, Vittorio Murino, and Mario Figueiredo. Similarity-basedclustering of sequences using hidden markov models. Pattern Recognition ,37(12):2281–2291, 2004.

[3] Mario G.C.A. Cimino, Beatrice Lazzerini, and Francesco Marcelloni. Anovel approach to fuzzy clustering based on a dissimilarity relation extract-ed from data using a ts system. Pattern Recognition , 39(11):2077–2091,November 2006.

[4] Shlomo Dubnov, Ran El-Yaniv, Yoram Gdalyahu, Elad Schneidman, Naf-

tali Tishby, and Golan Yona. A new nonparametric pairwise clustering algo-rithm based on iterative estimation of distance profiles. Machine Learning ,47(1):35–61, April 2002.

[5] Bernd Fischer, Thomas Zöller, and Joachim M. Buhmann. Path basedpairwise data clustering with application to texture segmentation. Lecture Notes in Computer Science , 2134:235–250, 2001.

[6] F. De Francesca, G. Gordano, R. Ortale, and A. Tagarelli. Distance-basedclustering of xml documents. In Luc De RaedtTakashi Washio, editor,MGTS03 , pages 75–78. ECML/PKDD’03 workshop proceedings, Septem-ber 2003.

[7] Gunjan K. Gupta, Alexander Strehl, and Joydeep Ghosh. Distance based

clustering of association rules. In Proceedings of the Artificial Neural Net-works in Engineering Conference (ANNIE), volume 9 of Intelligent Engi-neering Systems Through Articial Neural Networks , pages 759–764. ASMEPress, November 1999.

[8] Thomas Hofmann and Joachim M. Buhmann. Hierarchical pairwise dataclustering by mean–field annealing. In Proceedings of ICANN’95, NEURON IMES’95 , volume II, pages 197–202. EC2 & Cie, 1995., 1995.

[9] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: a review. ACM Computing Surveys (CSUR), 31(3):264 – 323, September 1999.

[10] Mathias Kirsten and Stefan Wrobel. Relational distance-based cluster-

ing. In Fritz Wysotzki, Peter Geibel, and Christina Schädler, editors, Proc.Fachgruppentreffen Maschinelles Lernen (FGML-98), pages 119–124, 10587Berlin, 1998. Techn. Univ. Berlin, Technischer Bericht 98/11.

[11] Edwin M. Knorr, Raymond T. Ng, and Ruben H. Zamar. Robust spacetransformations for distance-based operations. In Proceedings of the Sev-enth ACM International Conference on Knowledge Discovery and Data Mining (SICKDD), pages 126–135, 2001.

13


14/15

[12] Julian Laub, Volker Roth, Joachim M. Buhmann, and Klaus-Robert Müller.

On the information and representation of non-euclidean pairwise data. Pat-tern Recognition , 39(10):1815–1826, October 2006.

[13] M. Lozano, J.M. Sotoca, J.S. Sanchez, F. Pla, E. Pekalska, and R.P.W.Duin. Experimental study on prototype optimisation algorithms forprototype-based classification in vector spaces. Pattern Recognition ,39(10):1827–1838, October 2006.

[14] Giuseppe Manco, Riccardo Ortale, and Domenico Saccà. Similarity-basedclustering of web transactions. In Proceedings of the 2003 ACM symposium on Applied computing , pages 1212 – 1216, New York, NY, USA, 2003. ACMPress.

[15] O. Nasraoui, R. Krishnapuram, A. Joshi, and T. Kamdar. Automatic web

user profiling and personalization using robust fuzzy relational clustering.In Javier Segovia, Piotr S. Szczepaniak, and Marian Niedzwiedzinski, edi-tors, E-Commerce and Intelligent Methods , volume 105 of Studies in Fuzzi-ness and Soft Computing , pages 233–261. Springer-Verlag, j. kacprzyk edi-tion, 2002.

[16] Olfa Nasraoui, Hichem Frigui, Anupam Joshi, and Raghu Krishnapuram.Mining web access logs using relational competitive fuzzy clustering. InProc. Eight International Fuzzy Systems Association World Congress - IF-SA 99 , August 1999.

[17] Jan Puzicha, Thomas Hofmann, and Joachim M. Buhmann. A theory of proximity based clustering: structure detection by optimization. Pattern

Recognition , 33(4):617–634, April 2000.

[18] T. A. Runkler and J. C. Bezdek. Web mining with relational clustering. In-ternational Journal of Approximate Reasoning , 32(2-3):217–236, February2003.

[19] John Shawe-Taylor and Nello Cristianini. Kernel Methods for Pattern Anal-ysis . Cambridge University Press, 2004.

[20] N. Shental, A. Zomet, T. Hertz, and Y. Weiss. Pairwise clustering andgraphical models. In Proceedings of the Neural Information Processing Sys-tems Conference (NIPS), 2003.

[21] Ben Taskar, Eran Segal, and Daphne Koller. Probabilistic classification and

clustering in relational data. In Proceeding of IJCAI-01, 17th International Joint Conference on Artificial Intelligence , 2001.

[22] Naftali Tishby and Noam Slonim. Data clustering by markovian relax-ation and the information bottleneck method. In Proceedings of the Neural Information Processing Systems Conference (NIPS), pages 640–646, 2000.

14


15/15

[23] Dao-Qiang Zhang and Song-Can Chen. Clustering incomplete data using

kernel-based fuzzy c-means algorithm. Neural Processing Letters , 18(3):155– 162, December 2003.

15

aprendizaje por similitud

Documents