aprendizaje por similitud

Upload: raulguayaquil

Post on 05-Jul-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/16/2019 Aprendizaje Por Similitud

    1/15

    Aprendizaje Basado en Similitud

    Juan Carlos Galeano Huertas

    Departamento de Ingenieŕıa de Sistemas e Industrial

    Universidad Nacional de Colombia - Bogotá

    1. Introducción

    Los problemas de aprendizaje supervisado y no supervisado, pueden enten-derse como problemas de clasificación, de un conjunto de objetos de entrada,con naturalezas un poco distintas: en el primero, se conoce el conjunto de eti-quetas (clases) que pueden ser asignadas a los objetos y el problema consiste enasignar la etiqueta adecuada a cada objeto; en el segundo, debe encontrase unnúmero razonable de etiquetas (grupos) en los que pueda ser dividido el conjun-to total de objetos, de tal forma que un nuevo objeto pueda ser ubicado dentrodel grupo más adecuado. El criterio general para asignar la etiqueta  adecuada a un nuevo objeto consite en ubicar el conjunto de objetos que comparten unamisma etiqueta y que son más parecidos al nuevo objeto. De forma similar, elcriterio general para encontrar el número   razonable  de grupos para dividir elconjunto total de objetos, consiste en poner juntos aquellos objetos que seanmás parecidos entre śı, definiendo aśı los ĺımites entre los grupos.

    Dentro de la literatura concerniente a las técnicas de aprendiza je supervisadoy no supervisado, usualmente está presente una noción de distancia entre losobjetos del problema, la cual se contruye frecuentemente sobre la base de unespacio de caracteŕısticas que describen a esos ob jetos. Puede notarse que esanoción de cercańıa modela, de una u otra forma, un grado de (di)similitud entrelos objetos del problema, que es utilizado como criterio para resolver el problemade aprendizaje. Sin embargo, el concepto de similitud es más general que el dedistancia ya que puede mostrarse que el primero no necesariamente satisfaceciertas propiedades del segundo. Más aún, aunque parece natural describir losobjetos mediante caracteŕısticas, esto no siempre resuta fácil y en tal caso unadefinición de similitud en términos de distancia en un espacio de caracterı́sticasno es posible. Los siguientes ejemplos pueden ayudar a aclarar esta afirmaci ón:

    Considere el problema de indentificar una persona: si alguien le pregunta¿conoce usted a Eduardo?, y su la respuesta es negativa, la persona intentar áayudarle a recordar describiendo a Eduardo diciendo cosas tales como “aquelque mide más o menos 1.65 m, tiene cabello liso y negro, piel trigueña, etc”, esdecir, la persona le dará un listado de  cartacterı́sticas  con el fin de que ustedrecuerde a Eduardo. A partir de esto, usted puede imaginarse un sistema quecontenga un conjunto de fotos de personas y le muestre aquellas que m ás se

    1

  • 8/16/2019 Aprendizaje Por Similitud

    2/15

    parecen a una que usted describe mediante caracteŕısticas.

    Ahora bien, considere el problema de identificar un olor: si alguien le pregun-ta ¿reconoce usted el perfume de Stella?, y de nuevo, su respuesta es negativa,¿cuál serı́a la estrategia utilizada por la persona para ayudarle a recordar?, se-guramente intentaŕıa decir cosas tales como “es un olor que está entre naranjay limón, se parece más al de la naranja, pero no es exactamente naranja”, esdecir, la persona le da un marco de referencia relativo a olores que usted conocey que son   similares   al del perfume de Stella. A partir de esto, suponga queexiste un sistema que es capaz de generar olores; si usted quiere que el sistemareproduza un olor particular, la forma quizá más natural en que usted quisieradar las intrucciones seŕıa en forma de expresiones tales como “parecido al olorde la naraja”, “parecido al olor del limón” y “más parecido al olor de la naranjaque al del limón”.

    Desde el punto de vista computacional, los problemas antes planteados,

    pueden verse como problemas de clasificacíon, pero de naturalezas un pocodiferentes: en el primero, usted recibe un conjunto de  caracterı́sticas  o atributos (caracterı́sticas f́ısicas que tiene Eduardo) de un objeto y usted debe encontrar(dentro del conjunto de sus recuerdos) el elemento que mejor se ajusta a la de-scripción para asignarle la etiqueta apropiada (Eduardo); en el segundo, ustedrecibe un conjunto de elementos (naranja, limón) que   se parecen en distintas proporciones   (más a naranja que a limón) a un cierto objeto y usted debe en-contrar (dentro del conjunto de sus recuerdos), el elemento que mejor se ajustaa las descripción para asignarle la etiqueta apropiada (perfume de Stella).

    A partir de la discusión anterior, puede verse que el proceso de aprendizajeestá soportado por una noción de (di)similitud, en vez de por un conjunto decaracterı́sticas descriptoras. En este art́ıculo, se pretende hacer una revisión de

    aquellas técnicas de aprendizaje que se basan, en mayor proporción, en unanoción de (di)similitud en vez de hacerlo en un espacio de caracteŕısticas; paraello, se hablará del   enfoque basado en similitud  de aprendizaje para referirse ala naturaleza del primer las primeras, y se hablar á del enfoque tradicional   parareferirse a la naturaleza de las segundas.

    El artı́culo está organizado de la siguiente forma: la Sección 2 describe demanera más precisa las diferencias entre los enfoques basado en similitud ybasado en caracterı́sticas; la Sección 3 hace una revisión de las relaciones entre(di)similitud y distancia y muestra algunas de estas medidas; la Sección 4 pre-senta una revisión de algoritmos de aprendizaje basados en similitud; la Sección5 enuncia algunas aplicaciones en que ha sido aplicado el enfoque basado ensimilitud; la Sección 6 presenta algunas ĺıneas de investigación y problemas queresultan de la aplicación del enfoque basado en similitud; y finalmente la Sección

    7 presenta algunas conclusiones y algunas lı́neas de trabajo futuro.

    2

  • 8/16/2019 Aprendizaje Por Similitud

    3/15

    2. Aprendizaje basado en similitud frente a apren-

    dizaje basado en caracteŕısticas[explanatory figures]

    The traditional approach in machine learning, pattern recognition →feature-based

    En el proceso de aprendizaje se consideran dos elementos básicos: un espacio deentrada  X   que define el dominio del problema y un algoritmo de aprendizajeA. El objetivo de  A   es construir un modelo   f   de  X   a partir de una muestraX n  del espacio de entrada, donde  n  es el tamaño de la muestra. El modelo   f no es más que una función que asigna una etiqueta a cada objeto de  X , para elcaso de aprendizaje supervisado; o divide a  X   en un cierto número de grupos,

    para el caso de aprendizaje no supervisado, de tal forma que cada objeto de  X pertenezca a un grupo. De esta forma, la diferencia entre los enfoques basado encaracterı́sticas y basado en similitud radicará en la forma en que la informacióncontenida en  X   (posibles patrones) es transmitida a  A  para la construcción def .

    2.1. El enfoque tradicional en aprendizaje de máquina yreconocimiento de patrones

    Como se dijo anteriormente, el enfoque tradicional se basa en la transfor-mación del espacio  X  en un espacio de caracterı́sticas  F   en el que cada objetoes identificado mediante un vector de atributos (v1, . . . , vn). Esta transforma-

    ción es usualmente denominada   representaci´ on  y puede denotarse mediante lafunción  φ :  X  → F .Dado que el proceso de aprendizaje está soportado por una noción de simil-

    itud, sobre los elementos de  X   puede definirse una medida de similitud, quedenota el grado de semejanza entre cada par de objetos, tal funci ón se denotamediante  d  :  X  ×X  → R. Sin embargo, en este caso, el algoritmo  A  toma comoentrada el espacio F  y por tanto, es deseable que  d  tenga una medida correspon-diente en F , tal medida se denota como  dF   : F  ×F  → R. Usualmente, dF  es unafunción de la distancia definida sobre  F , y aśı, la correspondencia deseable debeser tal que d (xi, xj) ≈  dF  (φ (xi) , φ (xj)), donde el śımbolo  ≈  indica que puntosen el espacio  F  que estén cerca, deben ser imágenes de objetos en el espacio  X que sean similares.

    Aunque se considere la definición de la medida de similitud en X , tradicional-

    mente el proceso consiste en definir directamente una función de (di)similituddF  como una función de la distancia (métrica) entre vectores de F . Sin embargo,el proceso de representación no siempre es fácil de realizar debido a la naturalezade los objetos en  X  y, por otro lado, la función dF , definida en términos de dis-tancia, no necesariamente preserva la noción de similitud sobre X . Puede decirseentonces que este enfoque considera la transformación del espacio del problemaa un espacio de carateŕısticas, como paso previo para la definición de similitud

    3

  • 8/16/2019 Aprendizaje Por Similitud

    4/15

    [11]. La justificación más clara para este enfoque, es el soporte matemático con

    que se cuenta al transformar  X   en un espacio euclidiano.

    2.2. ¿Por qué resulta útil el enfoque basdo en similitud?

    Una de las razones para considerar este enfoque es que el proceso de rep-resentación puede resultar, en ciertos dominios, dif́ıcil e incluso innatural. Estoocurre principalmente en problemas en los que los datos del problema no sonnuméricos y tienen una estructura compleja. Por ejemplo, en problemas de per-sonalización web, los objetos del espacio  X  son sesiones web; una transformaciónposible es considerar  F   =  {0, 1}m donde  m   es el número de páginas del sitioweb. De esta forma, cada elemento de  F  es un vector de  m  componentes, dondecada componente está asociada a una página, un 1 indica que la página fue ac-cedida en una sesión particular, y el 0 indica que no. Esta representación, tiene

    el problema de que  m puede ser muy grande, dependiendo del tamaño del sitio[16]. Con esta representación, el concepto de similitud entre sesiones se limita acontabilizar el número de páginas en que las dos sesiones coinciden. Sin embar-go, tal contabilización, difı́cilmente puede dar información acerca del contenidode las páginas y el orden en que fueron accedidas en cada una de las sesiones,lo cual podrı́a utilizarse para describir el comportamiento de los usuarios quenavegan a través del sitio [18]. Dentro de los dominios con objetos estructurados,se encuentran tambíen los documentos XML si se quiere realizar reconocimien-to de diferentes fuentes con el mismo tipo de información [6]. Aqúı, la medidade similitud debeŕıa reflejar una semejanza en cuanto al tipo de informacióndescrita por dos documentos XML.

    Otros casos en los que la extracción de caracterı́sticas resulta innatural son

    los de las reglas de asociación (minerı́a de datos) [7] y datos que utilizan repre-sentación de primer orden [10]. Sobre las primeras, es deseable hacer un procesode agrupamiento, con el fin de reducir el número de reglas dentro de un sistema,sin embargo no parece natural extraer un conjunto de caracteŕısticas del esp-cio de las posibles reglas de tal forma que la medida de similitud entre reglascorresponda a una distancia en tal espacio.

    Un ejemplo más en el que no parece natural la transformación de  X  en F   sepresenta en [1], en donde se plantea el problema de hacer clasificación de olores.En este caso, los autores argumentan la dificultad de representar los olores me-diante caracteŕısticas, sin entrar en detalles, básicamente porque correspondea la extracción de caracterı́sticas de compuestos qúımicos con estructuras het-erogénas y complejas.

    3. Medidas de (di)similitud y de distancia

    En esta subsección, se describen las principales estrategias utilizadas pararealizar aprendizaje, ya sea supervisado o no supervisado, tomando como infor-mación una matriz de (di)similitud. Dentro de este grupo se evidencia la poten-cialidad de estos métodos dada por la independencia de la medida de similitud.

    4

  • 8/16/2019 Aprendizaje Por Similitud

    5/15

    Aqúı, se supone que el algoritmo tiene acceso a la medidad de similitud entre

    cada par de objetos pero no a la forma de calcularla.

    [explanatory figures]

    general definition

    Dentro de los trabajos en esta dirección, se ecuentran también [12], [17] enlos cuales el objeto de estudio es justamente la información capturada por lasmedidas de similitud. Básicamente, pueden distinguirse dos grandes grupos demedidas: Euclidianas y No Euclidianas. Dentro de las primeras, se argumentala limitación de capturar sólo estructuras esféricas mientras que las segundaspueden aportar información relevante acerca de la estructura de los datos quelas medidas Euclidianas ignoran [12]. Dentro de esta categoŕıa de trabajos, esusual que se hable, en forma general, de métricas y no métricas.

    primeros en demostrar que relaciones no euclidianas efectivamente puedenaportar informacion estructural que las medidas euclidianas desconocen. Aunqueno es posible encontrar vectores que satisfagan una relación de similitud que vio-la la metrica euclidiana, es posible encontrar vectores que conservan la estructurade los grupos [12]

    distance ↔  dissimilarity

    •   [EA] (representación dual de similitud con distancias si satisface ladesigualdad del triángulo. Si no, puede corregirse, cuando aparecenvalores negativos mediante una transformación) [16]

    dissimilarity ↔  similarityFeature-based (dis)similarity/distance

    •  “euclidean family”

    •   Binary data

    •   cosine

    Structured objects (dis)similarity/distance

    La exploración en este grupo está fuertemente relacionada con la representaciónde los objetos en el espacio de entrada, según el dominio particular y el signifi-cado que quiere dársele al concepto de semejanza.

    images

    •   [Imágenes (segmentación de texturas)] existe un camino de baja dis-imilitud entre los dos objetos

    graphs

    5

  • 8/16/2019 Aprendizaje Por Similitud

    6/15

    •   trees

    ◦  [?] [Documentos XML] correspondencia estructural entre árbolesde tags. [6]

    •   web sessions

    ◦   [Conjunto de páginas visitadas, teniendo en cuenta el orden yel tiempo empleado en cada una. Secuencias que contienen ac-cesos a un sitio web] dos nivels: similitud entre p áginas y entresesiones. El sitio web se abstrae como un grafo. El algoritmo estábasado en un método de particionmiento de grafos. El consider-ar la secuencia de visitas tiene que ver con el comportamientoentre los usuarios. La similitud entre páginas toma en cuenta sipueden considerarse ”sinónimas” tanto desde el punto de vista decontenido como del de uso. [14]

    ◦   [conjunto de páginas visitadas junto con la estructura del sitioweb. No es métrica] [16]

    En áreas como la mineŕıa web, donde el problema es aprender a partir de lainformación interesante para los usuarios, es necesario definir medidas que cap-turen la similitud de intereses entre usuarios, para esto, la forma más simple esrepresentar los intereses de un usuario como el conjunto de páginas visitadas enuna sesión [16], de tal forma que dos usuarios tendrán intereses similares si elconjunto intersección de las páginas visitadas es grande. Sin embargo, dado queusualmente se quiere clasificar los usuarios mediante la definici ón de ciertos per-files con el fin de hacer recomendaciones o personalizaciones en la navegaci ón,se hace necesario agregarle a la medida de similitud información acerca de la

    estructura del sitio, lo cual puede interpretarse como una categorización del sitiodesde el punto de vista del usuario que está accediendo [16].En [14], los autores plantean la estrategia de mejorar la calidad de las sug-

    erencias realizadas por un sitio web al usuario en sesión, mediante el aprendizajede su comportamiento. Aseguran que el comportamiento no puede ser descu-bierto únicamente con la información acerca de los intereses del usuario, sinoque es necesario obtener información acerca del orden en que los recursos sonsolicitados. Aśı que, se hace necesaria una medida de (di)similitud que considerela secuencia de páginas accedidas por el usuario [14].

    documents

    •   [Documentos XML] correspondencia estructural entre árboles de tags.

    [6]El problema de agrupar y/o clasificar documentos es otro campo en el cual ladefinición de la medida de (di)similitud es crucial y no trivial. En este caso, laforma natural de agrupar tales objetos es mediante algún grado de ”sinonimia”.Tal enfoque es adoptado en [6] en el que se pretende agrupar documentos XMLmediante el significado, el cual pretende ser extráıdo de la estructura particularde ”tags”.

    6

  • 8/16/2019 Aprendizaje Por Similitud

    7/15

    strings

    strategies for calculation and learning of (dis)similarities

    •   [Secuencias] Cálculo mediante Modelos Ocultos de Markov [2]

    •   Aprendida a trav́es de un sistema TS (reglas difusas) [nterpretaciónlingǘıstica de disimilitud] [3]

    •   inferencia estad́ıstica de modelos gráficos para calcular el corte delos metodos basados en particion de grafos. y para aprender unamedida apropiada de afinidad entre los datos, como alternativa a laestimacion mediante cadenas de Markov utilizada por los metodosespectrales. [20].

    4. Una revisión de algoritmos de aprendizajebasados en similitud

    [explanatory figures]

    It’s not a new idea in machine learning

    •   algorithms such as k-nn (consultar Jain)

    ◦   [C (basada en prototipos)] [EA S (sobre los métodos de clasific-ción por prototipos) Estudio experimental de técnicas antiguasy nuevas de selección de prototipos] [13]

    El siguiente grupo a considerar es el llamado basado en prototipos. En este caso,el objetivo es seleccionar un conjunto de objetos del conjunto de entrenamiento, ogenerar uno a partir de ellos, que represente una versión compacta del conjuntode datos, los elementos de ese conjunto se denominan prototipos [9]. De estaforma, cada grupo es representado por un prototipo y el proceso de clasificaci ónconsiste en asignar un objeto a un grupo basado en el grado de similitud con losprototipos. Para esto pueden adoptarse diferentes estrategias dependiendo desi cada objeto puede pertenecer a un único grupo (partición ŕıgida) o si puedetenerse grados de pertenencia (paritición difusa) [2]. Dentro de estas estrategiasse encuentran técnicas como la de los k vecinos más cercanos (KNN, por susiniciales en inglés),   k   medias,   k   medoides con las correspondientes versionesdifusas [9].

    clustering

    el proceso de aprendizaje está basado principlamente en la definición de rela-ciones entre los objetos, usualmente medidas de cuán semejantes o diferentesson.

    Otros trabajos no realizan una definición propiamente dicha de la medida desimilitud, en vez de eso, utilizan un pequeño conjunto de datos para los cuales

    7

  • 8/16/2019 Aprendizaje Por Similitud

    8/15

    se conocen sus (di)similitudes, como conjunto de entrenamiento de un algoritmo

    de aprendizaje, con el fin de estimar la medida de similitud y a partir de esemodelo aprendido, estimar los valores de similitud para los demás objetos en elconjunto de entrenamiento.

    Not a new idea in statistics

    •   multi dimensional scaling

    ◦  [A (algomerativo)] [Reglas de asociación] multi-dimensional scal-ing para embeber reglas en vectores con el fin de combinar los re-sultados del aglomerativo con el SOM. mecanismo para embeberel espacio de reglas en un espacio de caracteristicaspreservandorelaciones de distancia (para generar una representacion visualde grupos) [7]

    new trend in machine learning: kernels

    Un gran grupo de trabajo que cuenta con gran interés en la comunidad académi-ca es el de los métodos basados en kernels [19]. La idea principal de los métodosconsiste en realizar el proceso de representación vectorial mencionado en la Sec-ción 2 pero de forma impĺıcita. De forma general, una funcíon kernel es unafunción   κ   :  X  × X  →   R   que calcula el producto punto de los objetos en elespacio  F   sin utilizar de forma expĺıcita el mapeo  φ (·). En estos métodos, elespacio F  es, en general, de dimensión mayor que la del espacio  X  y la estrategiaconsiste en encontrar una función kernel κ  que corresponda a un espacio  F  en elque las relaciones que se buscan entre los datos correspondan a patrones lineales[19]. Nótese que desde este enfoque, una vez definida la función kernel, puedeutilizarse cualquier método de aprendizaje cuyo mecanismo utilice como únicainformación, la medida de similitud definida en el espacio de entrada. Por tanto,pueden encontrarse versiones kernel de varias técnicas conocidas, (ver [19] parauna descripción más detallada).

    taxonomy

    •   subsection for each item

    4.1. Agrupamiento como proceso de optimizacíon

    [A, optimización. Función objetivo incluye disimilitud intra-grupo] [Imá-

    genes (segmentación de texturas)] conectividad en vez de compacidad [5][A (obtienen árbol de jerarqúıa)] [experimentos sobre secuencias de pro-téınas] como un problema de asignación en donde debe minimizarse unafunción de costo. Variación de Simulated annealing. se minimiza una fun-ción de costo que mide la no homogeneidad para cada grupo Los primerosniveles del árbol dan información de la matriz de similitud [8]

    8

  • 8/16/2019 Aprendizaje Por Similitud

    9/15

    [A (relacional difuso)]. agrupamiento como problema de optimizacion, fun-

    cion objetivo incluye terminos de la medida de distancia, un parametrofuzziness y el grado de pertenecia. RFC-MDE (Relational Fuzzy C-MaximalDensity Estimator) y FCMdd (Relational Fuzzy c Medoids). el proced-imiento encuentra un prototipo para cada grupo [15]

    4.2. Algoritmos jerárquicos

    La estrategia más utilizada dentro del área corresponde con los algoritmos jerárquicos, tanto aglomerativos como divisivos (para una descripción detalladade estos mecanismos ver [9]). La diferencia principal entre estas dos estrategiasconsiste en el punto de inicio: mientras en los aglomerativos el punto de arranqueconsiste en considerar  N  grupos, cada uno con un objeto y cada objeto en ungrupo, en los divisivos, el punto de arranque consiste en considerar un grupo, el

    cual contiene a todos los objetos. En ambas estrategias, se construye un árbol de jerarqúıas a partir de la medida de similitud (en los aglomerativos) o disimilitud(en los divisivos) en el cual cada nivel representa un cierto número de grupos,cada uno con un cierto número de objetos [9]. Nótese que en ambas estrategiasexisten dos puntos extremos: uno en el que cada objeto forma un grupo, y otroen el que todos los objetos pertenecen a un único grupo. El problema consisteentonces en encontrar el nivel en el árbol que mejor describe la estructura delos datos. Por tanto, los trabajos en esta área consisten justamente en definircriterios de selección de tal nivel. Dentro de estos se encuentra los trabajospresentados en [4], [6], [7] y [16].

    [A] validación cruzada (partición significativa). particionamiento deter-minista operaciones sobre la matriz para extraer los dos grupos más rep-

    resentativos del conjunto de datos. matriz de similitudes o disimilitudes.no paramétrico jerárquico divisivo [4].

    [A (algomerativo)]. [Reglas de asociación] multi-dimensional scaling paraembeber reglas en vectores con el fin de combinar los resultados del aglom-erativo con el SOM [7].

    [A (obtienen árbol de jerarqúıa)] como un problema de asignación en dondedebe minimizarse una función de costo. Variación de Simulated annealing.matriz de similitud. se minimiza una función de costo que mide la no homo-geneidad para cada grupo Los primeros niveles del árbol dan informaciónde la matriz de similitud [8]

    [A (aglomerativo)] RDBC (Relational Distance-Based Clustering). Tam-bién, algoritmo para extraer grupos a partir del árbol sin asumir comoparámetro el número de grupos. usualmente el problema es enfrenta-do utilizando una tecnica llamada agrupamiento conceptual. (resultadosobtenidos similares al enfoque conceptual) [10]

    A (aglomeración competitiva). Adaptación al paradigma relacional de unatécnica de los autores. Cuando un grupo crece, otro disminuye. evaluación

    9

  • 8/16/2019 Aprendizaje Por Similitud

    10/15

    de la parición v́ıa promedios de distancias de los elementos dentro de un

    grupo (altos) y promedios de distancias entre elementos de distintos grupos(bajos). Al final del proceso, las sesiones son caracterizadas por vectoresde probabilidad donde cada componente da un valor de importancia a lacorrespondiente pagina en el correspodiente perfil. [16]

    4.3. Prototipos

    [A] Secuencias. Algoritmo de agrupamiento basado en puntos. secuenciasrepresentativas. [2]

    [A] Documentos XML. Construir un árbol de correspondencia de tagscomunes (prototipos) Esto es lo que se hace [6].

    [C (basada en prototipos)] método de condesamiento para encontrar pro-totipos. Entrenamiento de un clasificador en el espacio de disimilitud.Puede escogerse el número de prototipos. plantea alternativas al uso dek-nn. ”Muestran” que el uso de clasificadoresmás generales basados endisimilitudes puede ser benéfico. Aseguran que la combinación entre lastécnicas de condensamiento y clasificadores lineales basados en disimili-tud provee el mejor balance entre pequeños conjuntos condensados y altaprecisión de clasificación [13]

    4.4. Espectrales

    [A] agrupamiento de vectores propios de la matriz de kernel.

    [A] inferencia estad́ıstica de modelos gráficos para calcular el corte delos metodos basados en particion de grafos. y para aprender una medidaapropiada de afinidad entre los datos, como alternativa a la estimacionmediante cadenas de Markov utilizada por los metodos espectrales. Méto-dos de agrupamiento espectral tienen la ventaja de poder dividir gruposde formas arbitrarias y están basados en cálculos eficientes de vectorespropios.

    4.5. Adaptaciones

    A (aglomeración competitiva). sesiones web. Adaptación al paradigmarelacional de una técnica de los autores. Cuando un grupo crece, otrodisminuye [16]

    A (basado en prototipos). versión no lineal de un algoritmo lineal conocido.Los prototipos encontrados por métodos kernel pertenecen al espacio decaracteŕısticas lo cual conduce a una carencia de interpretación en losgrupos encontrados. Los métodos utilizan algunas técnicas de poryección.Versión kernel de Fuzzy C-Means. el modelo propuesto tiene la ventajasobre otros metodos basados en funciones kernel, de proveer un significado,

    10

  • 8/16/2019 Aprendizaje Por Similitud

    11/15

    en el espacio de entrada, de los prototipos encontrados en el espacio de

    caracteristicas y además que es capaz de trabajar con datos incompletos[23].

    4.6. Estrategias para embeber el espacio de entrada enuno de caracteŕısticas

    [A (algomerativo)] multi-dimensional scaling para embeber reglas en vec-tores con el fin de combinar los resultados del aglomerativo con el SOM.mecanismo para embeber el espacio de reglas en un espacio de caracteris-ticaspreservando relaciones de distancia (para generar una representacionvisual de grupos) [7].

    Transformación del espacio del problema a un espacio de carateŕısticas,

    donde las medidas de similitud no se ven demasiado afectadas por cues-tiones de variabilidad y escala. plantea el proceso de representacion vec-torial como una transformación del espacio del problema a un espacioeuclidiano [11].

    4.7. Otras estrategias

    Dentro de la categoŕıa de Otras estrategias se encuentran trabajos como el de[21] en donde se presenta una técnica de agrupamiento que utiliza la matriz desimilitud para definir una Cadena de Markov donde cada objeto representa unestado y algunas estructuras estables, cuya estabilidad depende de una distanciaentre distribuciones de probabilidad, emergen durante la ejecución de la cadena.Otro trabajo relevante para destacar en este grupo de trabajos es el presentado

    en [3] en el cual se utiliza ua estrategia supervisada para aprender la medidade disimilitud entre los datos y entonces utilizar esa medida aprendida paraentrenar el algoritmo Fuzzy C-Means.

    [A] [Dada. Distancia entre distribuciones de probabilidad?] . Observaciónde la cadena (ergódica) en el camino hacia la distribución estacionaria.Combina un método basado en distancias (pairwise) y un método decuantización vectorial (vector-quantization). matriz de distancias. pérdi-da de información mutua para detectar estabilidad en grupos BottleneckMethod para extraer los grupos. definición de cadena de Markov a partirde la matriz de distancias estabilidad de grupos mediante distancias en-tre distribuciones de probabilidad durante el proceso de agrupamiento, no

    se utiliza explicitamente la geometria del espacio que se esta explorandocuantización para interpretar grupos ”El método puede agrupoar datossin sesgo geométrico y no hace suposiciones acerca de la distribución deprobabilidad” [22].

    11

  • 8/16/2019 Aprendizaje Por Similitud

    12/15

    5. Aplicaciones

    Vale la pena mencionar que la estrategia particular de aprendizaje est á usual-mente motivada por una aplicación especı́fica, aśı por ejemplo, se encuentranestrategias basadas en similitud para segmentación de imágenes [5], para laclasificación de olores [1] y para mineŕıa de datos en la web [15].

    experimentos sobre secuencias de protéınas [8].

    clasificación de olores [1].

    personalización. [14],[16],[15]

    6. Ĺıneas de investigación y problemas abiertos

    Aunque el área de aprendizaje basado en similitud tiene aplicación en muchasáreas facilitando la definición del modelo, de la exposición presentada en laSección 3 puede verse que el trabajo apunta b ásicamente en tres direcciones:definiciones de medidas de (di)similitud, definición de nuevos algoritmos cuyodesempeño depende únicamente de la información de la (di)similitud entre losobjetos y adaptación de algoritmos al paradigma, esto es, hacer que estos algo-ritmos se desempeñen independientemente de la representación adoptada parael espacio de entrada.

    Dentro de las preocupaciones dentro de los investigadores en el área se en-cuentra por ejemplo el manejo de la dimensionalidad de los espacios de (di)similitud.Ya que en aplicaciones reales, es usual que haya un número mayor de datos quede dimensiones (para el caso de datos vectoriales), y en el enfoque ”directo”, ca-

    da objeto, es representado mediante su (di)similitud con cada uno de los dem ásobjetos, y entonces aplicar algún algoritmo ”tradicional” de clasificación en eseespacio, ası́ que puede presentarse el problema conocido como ”la maldición dela dimensionalidad”. Este problema se ha enfrentado mediante el uso de méto-dos combinados con métodos basados en prototipos, en los que el espacio de(di)similitud se construye sobre un número reducido de ejemplos, de tal formaque la dimensión de ese nuevo espacio resulta manejable.

    Vale la pena mencionar que la participación de métodos bioinspirados en estaárea es poco, sólo se cuenta con el hecho de que ciertas medidas de (di)similitudpueden ser aprendidas mediante el uso de redes neuronales [3]. Sin embargo, da-da la estrategia general del paradigma de definir una relación de (di)similitud,hace ”natural” pensar que ciertos modelos bioinspirados como los sistemas in-

    munológicos artificiales pueden representar un campo fértil para explotar estaidea, ya que el elemento clave en tales modelos es el concepto de afinidad oreconocimiento entre células que usualemente ha sido representado como unafunción de la distancia de elementos en espacios vectoriales.

    dimensión espacio de similitud. [1]

    12

  • 8/16/2019 Aprendizaje Por Similitud

    13/15

    Referencias

    [1] Manuele Bicego. Odor classification using similarity-based representation.Sensors and Actuators B: Chemical , 110(2):225–230, October 2005.

    [2] Manuele Bicego, Vittorio Murino, and Mario Figueiredo. Similarity-basedclustering of sequences using hidden markov models.   Pattern Recognition ,37(12):2281–2291, 2004.

    [3] Mario G.C.A. Cimino, Beatrice Lazzerini, and Francesco Marcelloni. Anovel approach to fuzzy clustering based on a dissimilarity relation extract-ed from data using a ts system.   Pattern Recognition , 39(11):2077–2091,November 2006.

    [4] Shlomo Dubnov, Ran El-Yaniv, Yoram Gdalyahu, Elad Schneidman, Naf-

    tali Tishby, and Golan Yona. A new nonparametric pairwise clustering algo-rithm based on iterative estimation of distance profiles.   Machine Learning ,47(1):35–61, April 2002.

    [5] Bernd Fischer, Thomas Zöller, and Joachim M. Buhmann. Path basedpairwise data clustering with application to texture segmentation.  Lecture Notes in Computer Science , 2134:235–250, 2001.

    [6] F. De Francesca, G. Gordano, R. Ortale, and A. Tagarelli. Distance-basedclustering of xml documents. In Luc De RaedtTakashi Washio, editor,MGTS03 , pages 75–78. ECML/PKDD’03 workshop proceedings, Septem-ber 2003.

    [7] Gunjan K. Gupta, Alexander Strehl, and Joydeep Ghosh. Distance based

    clustering of association rules. In  Proceedings of the Artificial Neural Net-works in Engineering Conference (ANNIE), volume 9 of  Intelligent Engi-neering Systems Through Articial Neural Networks , pages 759–764. ASMEPress, November 1999.

    [8] Thomas Hofmann and Joachim M. Buhmann. Hierarchical pairwise dataclustering by mean–field annealing. In Proceedings of ICANN’95, NEURON IMES’95 , volume II, pages 197–202. EC2 & Cie, 1995., 1995.

    [9] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: a review. ACM Computing Surveys (CSUR), 31(3):264 – 323, September 1999.

    [10] Mathias Kirsten and Stefan Wrobel. Relational distance-based cluster-

    ing. In Fritz Wysotzki, Peter Geibel, and Christina Schädler, editors, Proc.Fachgruppentreffen Maschinelles Lernen (FGML-98), pages 119–124, 10587Berlin, 1998. Techn. Univ. Berlin, Technischer Bericht 98/11.

    [11] Edwin M. Knorr, Raymond T. Ng, and Ruben H. Zamar. Robust spacetransformations for distance-based operations. In  Proceedings of the Sev-enth ACM International Conference on Knowledge Discovery and Data Mining (SICKDD), pages 126–135, 2001.

    13

  • 8/16/2019 Aprendizaje Por Similitud

    14/15

    [12] Julian Laub, Volker Roth, Joachim M. Buhmann, and Klaus-Robert Müller.

    On the information and representation of non-euclidean pairwise data.  Pat-tern Recognition , 39(10):1815–1826, October 2006.

    [13] M. Lozano, J.M. Sotoca, J.S. Sanchez, F. Pla, E. Pekalska, and R.P.W.Duin. Experimental study on prototype optimisation algorithms forprototype-based classification in vector spaces.   Pattern Recognition ,39(10):1827–1838, October 2006.

    [14] Giuseppe Manco, Riccardo Ortale, and Domenico Saccà. Similarity-basedclustering of web transactions. In Proceedings of the 2003 ACM symposium on Applied computing , pages 1212 – 1216, New York, NY, USA, 2003. ACMPress.

    [15] O. Nasraoui, R. Krishnapuram, A. Joshi, and T. Kamdar. Automatic web

    user profiling and personalization using robust fuzzy relational clustering.In Javier Segovia, Piotr S. Szczepaniak, and Marian Niedzwiedzinski, edi-tors, E-Commerce and Intelligent Methods , volume 105 of  Studies in Fuzzi-ness and Soft Computing , pages 233–261. Springer-Verlag, j. kacprzyk edi-tion, 2002.

    [16] Olfa Nasraoui, Hichem Frigui, Anupam Joshi, and Raghu Krishnapuram.Mining web access logs using relational competitive fuzzy clustering. InProc. Eight International Fuzzy Systems Association World Congress - IF-SA 99 , August 1999.

    [17] Jan Puzicha, Thomas Hofmann, and Joachim M. Buhmann. A theory of proximity based clustering: structure detection by optimization.   Pattern 

    Recognition , 33(4):617–634, April 2000.

    [18] T. A. Runkler and J. C. Bezdek. Web mining with relational clustering. In-ternational Journal of Approximate Reasoning , 32(2-3):217–236, February2003.

    [19] John Shawe-Taylor and Nello Cristianini. Kernel Methods for Pattern Anal-ysis . Cambridge University Press, 2004.

    [20] N. Shental, A. Zomet, T. Hertz, and Y. Weiss. Pairwise clustering andgraphical models. In Proceedings of the Neural Information Processing Sys-tems Conference (NIPS), 2003.

    [21] Ben Taskar, Eran Segal, and Daphne Koller. Probabilistic classification and

    clustering in relational data. In Proceeding of IJCAI-01, 17th International Joint Conference on Artificial Intelligence , 2001.

    [22] Naftali Tishby and Noam Slonim. Data clustering by markovian relax-ation and the information bottleneck method. In  Proceedings of the Neural Information Processing Systems Conference (NIPS), pages 640–646, 2000.

    14

  • 8/16/2019 Aprendizaje Por Similitud

    15/15

    [23] Dao-Qiang Zhang and Song-Can Chen. Clustering incomplete data using

    kernel-based fuzzy c-means algorithm.  Neural Processing Letters , 18(3):155– 162, December 2003.

    15