agrupamiento de datos utilizando técnicas...

77
Agrupamiento de Datos utilizando técnicas MAM-SOM Carlos Eduardo Bedregal Lizárraga Orientador: Prof. Mag. Juan Carlos Gutiérrez Cáceres Tesis profesional presentada al Programa Profesional de Ingeniería Informática como parte de los requisitos para obtener el Título Profesional de Ingeniero Informático. UCSP - Universidad Católica San Pablo Julio de 2008

Upload: vodieu

Post on 20-Oct-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Agrupamiento de Datos utilizando técnicas MAM-SOM

Carlos Eduardo Bedregal Lizárraga

Orientador: Prof. Mag. Juan Carlos Gutiérrez Cáceres

Tesis profesional presentada al Programa Profesional deIngeniería Informática como parte de los requisitos paraobtener el Título Profesional de Ingeniero Informático.

UCSP - Universidad Católica San PabloJulio de 2008

A mis padres y mi hermano.

Abreviaturas

MAM Métodos de Acceso Métrico

SAM Spatial Access Method

MAE Métodos de Acceso Espacial

NCD Número de Cálculos de Distancia

SOM Self-Organizing Maps

GSOM Growing Self-Organizing Maps

GHSOM Growing Hierarchical Self-Organizing Maps

GNG Growing Neural Gas

CHL Competitive Hebbian Learning

BMU Best Matching Unit

IGG Incremental Grid-Growing

RNA Redes Neuronales Artificiales

ART Adaptative Resonance Theory

MST Minimal Spanning Tree

SAT Spatial Approximation Tree

IGNG Incremental Growing Neural Gas

DBGNG Density Based Growing Neural Gas

NGCHL Neural Gas with Competitive Hebbian Learning

AESA Approximating and Eliminating Search Algorithm

3

Agradecimientos

En primer lugar deseo agradecer a Dios por haberme guiado a lo largo de mis años de estudio.

Agradezco a mi familia por el gran apoyo brindado para forjarme como un profesional.

Agradezco a la universidad por haberme brindado la formación que ahora me permitirá ayudara construir una mejor sociedad.

Agradezco de forma muy especial a Ernesto y a Juan Carlos por haberme guiado en esta tesis.

Muchas gracias también a todos los profesores con los que trabajé durante esos largos cincoaños, y al personal administrativo por la atención brindada y por su disposición a ayudar.

Resumen

Hoy en día la necesidad de procesar grandes volúmenes de datos es cada vezmás frecuente. Investigaciones recientes buscan proponer algoritmos eficientes paraproblemas complejos como el agrupamiento de datos. Una de estas investigacionesllevó al desarrollo de la familia de técnicas MAM-SOM y SAM-SOM, que proponela combinación de Self-Organizing Maps (SOM) y Métodos de Acceso para una ráp-ida recuperación de información por similitud. En esta investigación se presentanresultados empíricos del uso de técnicas MAM-SOM empleando Métodos de Acce-so recientes como Slim-Tree y Omni-Secuencial, aplicadas a tareas de agrupamientode datos; mostrando la mejora y propiedades de estas técnicas en contraste con unade las técnicas tradicionales de agrupamiento: las redes SOM.

Abstract

Nowadays the need to process lots of complex multimedia databases is morefrequent. Recent investigations pursue to find efficient algorithms to solve complexproblems such as data clustering. One of these investigations led to the develop-ment of the MAM-SOM and SAM-SOM families, which propose the combina-tion of Self-Organizing Maps (SOM) with Access Methods for a faster similarityinformation retrieval. In this investigation we present experimental results of theMAM-SOM techniques using recent Access Methods such as Slim-Tree and Omni-Sequential when performing clustering tasks, showing the improvement acquiredby these techniques and their properties in contrast with one traditional clusteringtechnique: the SOM networks.

Índice general

1. Introducción 14

1.1. Contexto y Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.2. Definición del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.4. Organización de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2. Agrupamiento de datos 17

2.1. Consideraciones iniciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2. Agrupamiento de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.1. Reducción de la dimensionalidad . . . . . . . . . . . . . . . . . . . . 19

2.2.2. Validez de un grupo . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2.3. Estimación de error . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2.4. Conocimiento del dominio de datos . . . . . . . . . . . . . . . . . . . 20

2.2.5. Otras propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3. Etapas del proceso de agrupamiento . . . . . . . . . . . . . . . . . . . . . . . 20

2.3.1. Representación del patrón . . . . . . . . . . . . . . . . . . . . . . . . 21

2.3.2. Definición de la medida de proximidad . . . . . . . . . . . . . . . . . 21

2.3.3. Agrupamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3.4. Abstracción de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3.5. Evaluación de resultados . . . . . . . . . . . . . . . . . . . . . . . . . 22

7

ÍNDICE GENERAL

2.4. Clasificación de las técnicas de agrupamiento . . . . . . . . . . . . . . . . . . 23

2.4.1. Agrupamiento jerárquico . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.4.2. Agrupamiento particional . . . . . . . . . . . . . . . . . . . . . . . . 23

2.5. Técnicas comunes para agrupamiento de datos . . . . . . . . . . . . . . . . . . 24

2.5.1. Agrupamiento con vecinos más cercanos . . . . . . . . . . . . . . . . 24

2.5.2. Agrupamiento difuso . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.5.3. Agrupamiento con RNA . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.5.4. Agrupamiento con métodos evolutivos . . . . . . . . . . . . . . . . . . 24

2.6. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.7. Consideraciones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3. Redes Neuronales Artificiales 27

3.1. Consideraciones iniciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2.1. Modelo de una neurona artificial . . . . . . . . . . . . . . . . . . . . . 28

3.2.2. Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.2.3. Aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3. Redes neuronales auto-organizables . . . . . . . . . . . . . . . . . . . . . . . 30

3.3.1. Entrenamiento de los mapas auto-organizables . . . . . . . . . . . . . 31

3.4. Redes SOM constructivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.4.1. Incremental Grid-Growing . . . . . . . . . . . . . . . . . . . . . . . . 33

3.4.2. Growing Self-Organizing Maps . . . . . . . . . . . . . . . . . . . . . 33

3.4.3. Growing Neural Gas . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.4.4. Density Based Growing Neural Gas . . . . . . . . . . . . . . . . . . . 33

3.4.5. Aprendizaje Hebbiano Competitivo . . . . . . . . . . . . . . . . . . . 33

3.4.6. Gas Neuronal con Aprendizaje Hebbiano Competitivo . . . . . . . . . 34

3.5. Growing Neural Gas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Ingeniería Informática - UCSP 8

ÍNDICE GENERAL

3.5.1. Algoritmo GNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.6. Consideraciones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4. Métodos de Acceso Métrico 39

4.1. Consideraciones iniciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.2. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.2.1. Consultas de proximidad . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.2.2. Consideraciones de eficiencia . . . . . . . . . . . . . . . . . . . . . . 41

4.3. Algoritmos de búsqueda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.3.1. Burkhard-Keller Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.3.2. Vantage-Point Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.3.3. M-Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.3.4. Slim-Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.3.5. Omni-Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.3.6. DBM-Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.4. Slim-Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.4.1. Funcionamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.5. Omni-Secuencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.6. Consideraciones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5. Técnica MAM-SOM para agrupamiento de datos 50

5.1. Consideraciones iniciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.2. Trabajos Previos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.3. Técnicas MAM-SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.3.1. MAM-SOM Híbrida . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.3.2. MAM-SOM* . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.4. Propiedades de las técnicas MAM-SOM . . . . . . . . . . . . . . . . . . . . . 54

Ingeniería Informática - UCSP 9

ÍNDICE GENERAL

5.5. Estructuras propuestas para la técnica MAM-SOM . . . . . . . . . . . . . . . 55

5.6. Agrupamiento con MAM-SOM . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.7. Consideraciones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

6. Experimentos 58

6.1. Consideraciones iniciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

6.2. Bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

6.3. Primer grupo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6.3.1. Discusión en relación al número de agrupamientos . . . . . . . . . . . 59

6.3.2. Discusión en relación al número de patrones . . . . . . . . . . . . . . 61

6.4. Segundo grupo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

6.4.1. Discusión en relación al número de conexiones . . . . . . . . . . . . . 61

6.4.2. Discusión en relación al número de patrones . . . . . . . . . . . . . . 61

6.5. Tercer grupo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

6.6. Experimentos adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

6.6.1. Discusión con respecto a los agrupamientos . . . . . . . . . . . . . . . 67

6.6.2. Discusión con respecto al tiempo consumido . . . . . . . . . . . . . . 67

7. Conclusiones y Trabajos Futuros 70

7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

7.2. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

7.3. Problemas encontrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

7.4. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

7.5. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

Bibliografía 77

Ingeniería Informática - UCSP 10

Índice de cuadros

6.1. Comparación de resultados para la base de datos COVERT (54-d) . . . . . . . 64

6.2. Comparación de resultados para la base de datos IMAGES (1215-d) . . . . . . 67

6.3. Comparación de resultados para la base de datos NURSERY (8-d) . . . . . . . 67

11

Índice de figuras

2.1. Ejemplo de agrupamientos de diferentes formas. . . . . . . . . . . . . . . . . . 18

2.2. Etapas de la tarea de agrupamiento de datos. . . . . . . . . . . . . . . . . . . . 21

3.1. Neurona McCulloch-Pitts [Jain et al., 1996]. . . . . . . . . . . . . . . . . . . . 28

3.2. Taxonomía de la arquitectura de las RNA [Jain et al., 1996]. . . . . . . . . . . 29

3.3. Mapa auto-organizable de Kohonen [Jain et al., 1996]. . . . . . . . . . . . . . 31

3.4. La red GNG se adapta a la distribución de señales con áreas y dimensionali-dades diferentes del espacio de entrada [Fritzke, 1995]. . . . . . . . . . . . . . 35

4.1. Tipos básicos de consultas por proximidad. . . . . . . . . . . . . . . . . . . . 41

4.2. Taxonomía de algoritmos en base a sus características [Chávez et al., 2001] . . 43

4.3. División de nodos con el algoritmo MST [Caetano Traina et al., 2000]. . . . . . 46

4.4. Funcionamiento del algoritmo Slim-down [Caetano Traina et al., 2000]. . . . . 47

4.5. Selección de los candidatos para una consulta de rango con diferentes cardinal-idades de F [Filho et al., 2001]. . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.1. Impacto del valor λ en la red GNG [Cuadros-Vargas and Romero, 2005]. . . . . 52

5.2. Ejemplo del proceso de poda de conexiones de las técnicas MAM-SOM* con5000 patrones y NeighborhoodSize = 3 [Cuadros-Vargas and Romero, 2002]. 54

6.1. Comparación del Número de Cálculos de Distancia acumulado de la red Grow-ing Neural Gas y la técnica MAM-SOM GNG+Slim-Tree a lo largo del procesode entrenamiento de la red en relación al número de agrupamientos generados. . 60

12

ÍNDICE DE FIGURAS

6.2. Comparación del Número de Cálculos de Distancia acumulado de la red Grow-ing Neural Gas y la técnica MAM-SOM GNG+Slim-Tree a lo largo del procesode entrenamiento de la red en relación al número de patrones presentados. . . . 62

6.3. Comparación del Número de Cálculos de Distancia acumulado de la red Grow-ing Neural Gas y la técnica MAM-SOM* Slim-Tree en relación al número deconexiones creadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

6.4. Comparación del Número de Cálculos de Distancia acumulado de la red Grow-ing Neural Gas y la técnica MAM-SOM* Slim-Tree en relación al número depatrones presentados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

6.5. Comparación del Número de Cálculos de Distancia acumulado por patrón pre-sentado usando la base de datos COVERT (54-d) . . . . . . . . . . . . . . . . 66

6.6. Comparación del Número de Cálculos de Distancia acumulado por patrón pre-sentado usando la base de datos IMAGES (1215-d) . . . . . . . . . . . . . . . 66

6.7. Comparación del Número de Cálculos de Distancia acumulado por patrón pre-sentado usando la base de datos NURSERY (8-d) . . . . . . . . . . . . . . . . 66

6.8. Reducción gradual del parámetro τ para encontrar agrupamientos en un conjun-to datos sintéticos de 1000 puntos en dos dimensiones. NeighborhoodSize = 3. 68

Ingeniería Informática - UCSP 13

Capítulo 1

Introducción

1.1. Contexto y Motivación

En el mundo actual la información se ha convertido en uno de los recursos más valiososdentro de cualquier actividad humana. Asimismo, la cantidad y complejidad de la informacióndisponible presenta un crecimiento explosivo a medida que la tecnología avanza, siendo cadavez más frecuente el caso en que aplicaciones necesiten manejar grandes volúmenes de datoscon el fin de responder a determinados problemas.

La información cumple un rol muy importante en el desarrollo de personas, organiza-ciones y sociedades. La aparición de grandes conjuntos de datos es cada vez más frecuentecomo consecuencia del acelerado desarrollo informático, en especial de la Internet (YouTube,Wikis, Google, Yahoo, etc.). De igual manera, la complejidad de los datos se va incrementan-do: desde trabajar con datos simples como números o cadenas de texto hasta problemas queinvolucran datos complejos como imágenes, vídeos o cadenas de ADN.

Proyectos como CLUTO 1 de la Universidad de Minnesota para tareas de agrupamientode datos, CYBER-T 2 de la Universidad de California para el análisis de ADN, IMEDIA 3 delgobierno de Francia para la recuperación de información en bases de datos multimedia son soloalgunos ejemplos de la necesidad de técnicas cada vez más eficientes para procesar los datos,detectar interrelaciones y agrupamientos entre ellos e incluso generar nuevo conocimiento.

El agrupamiento de datos es una tarea de análisis exploratorio que se refiere a la clasi-ficación de patrones de una forma no supervisada, formando grupos en base a las relacionesno perceptibles a simple vista, con el objetivo de poder descubrir una estructura subyacente[Duda et al., 2000, Jain et al., 2000]. La utilidad en el análisis exploratorio de datos está fuerte-mente demostrada por su uso en diversos contextos y disciplinas como la recuperación de infor-mación, la minería de datos o la segmentación de imágenes entre muchas otras [Jain et al., 1999,

1http://glaros.dtc.umn.edu/gkhome/views/cluto2http://cybert.microarray.ics.uci.edu/3http://www-rocq.inria.fr/imedia/

14

CAPÍTULO 1. Introducción

Jain and Dubes, 1988].

De las varias técnicas existentes para agrupamiento de datos, los Mapas Auto-organizablesde Kohonen [Kohonen, 1988], del inglés SOM, vienen siendo ampliamente utilizados en elagrupamiento de grandes conjuntos de datos, debido principalmente a la poca dependenciaal dominio del conocimiento y a los eficientes algoritmos de aprendizaje disponibles. Estasestructuras resaltan por su capacidad de generar mapas topológicos a través de una arquitec-tura paralela y distribuida. Estos mapas pueden ser vistos como una representación en bajasdimensiones de los datos de entrada, preservando las propiedades topológicas de la distribución[Kohonen, 1998].

Si bien los mapas auto-organizables son muy populares para tareas de agrupamientode grandes conjuntos de datos (siendo un caso muy popular WEBSOM [Lagus et al., 1999]),poseen algunas debilidades como la búsqueda secuencial de la unidad ganadora utilizada en laetapa de entrenamiento. Por cada patrón presentado a la red se hace una comparación de prox-imidad con todas las unidades (neuronas) existentes, haciendo pesado el entrenamiento de lared [Cuadros-Vargas, 2004].

Otro punto importante a tocar en las redes SOM, y de la mayoría de Redes NeuronalesArtificiales (RNA), es el dilema Estabilidad-Plasticidad [Grossberg, 1972]. La estabilidad se re-fiere a la pertenencia de cada patrón a una sola categoría a lo largo del entrenamiento, es decir,que no se activen diferentes unidades de salida en diferentes momentos, mientras que la plastici-dad se refiere a la capacidad de adaptarse a nuevos datos, incorporando nuevo conocimiento sinafectar el aprendido anteriormente. Elasticidad y plasticidad están inversamente relacionadas,ya que la presencia de una afecta a la otra.

La topología estática del modelo original de Kohonen llevo al desarrollo de técnicas con-structivas, que, incorporadas a las redes SOM, lograron abarcar el tema de la plasticidad, otor-gando a las redes la capacidad de cambiar su arquitectura durante el entrenamiento. Entre al-gunas redes constructivas representativas tenemos Growing Neural Gas (GNG) [Fritzke, 1995],Growing Self-Organizing Maps (GSOM) [Alahakoon et al., 1998], Growing Hierarchical Self-Organizing Maps (GHSOM) [Dittenbach et al., 2000] e Incremental Grid-Growing (IGG)[Blackmore and Miikkulainen, 1993].

Por otro lado, las redes SOM carecen de la capacidad para responder a búsquedas es-pecíficas como búsquedas por rango o búsquedas de los k-vecinos mas cercanos. En las co-munidades de Base de Datos y Recuperación de Información el problema de búsquedas es-pecíficas por similitud es comúnmente abordado por los Métodos de Acceso Métrico (MAM)[Chávez et al., 2001]. Algunas estructuras conocidas son BK-Tree [Burkhard and Keller, 1973],M-Tree [Ciaccia et al., 1997], Slim-Tree [Caetano Traina et al., 2000] y más recientemente DBM-Tree [Marcos R. Viera and Traina, 2004], que permiten realizar consultas de proximidad efi-cientemente. La incorporación de Métodos de Acceso Métrico en las redes SOM, técnica cono-cida como MAM-SOM [Cuadros-Vargas, 2004], logra reducir el costo computacional de labúsqueda de la unidad ganadora, acelerando drásticamente el proceso de agrupamiento.

Ingeniería Informática - UCSP 15

1.2. Definición del problema

1.2. Definición del problema

El problema en tareas de agrupamiento de datos es la complejidad algorítmica de proce-samiento y clasificación. La dificultad de agrupar grandes conjuntos de datos complejos se debeprincipalmente al alto número de cálculos de distancia entre elementos que los algoritmos SOMrealizan.

1.3. Objetivos

El objetivo principal de esta investigación es proponer un algoritmo de agrupamientoMAM-SOM eficiente para su aplicación en grandes conjuntos de datos considerando una míni-ma complejidad algorítmica.

La presente investigación pretende además demostrar la eficiencia de las técnicas MAM-SOM. Estas técnicas combinan mapas auto-organizables y métodos de acceso métrico paraagilizar el procesamiento de grandes conjuntos de datos.

Se busca demostrar la rapidez de las técnicas MAM-SOM comparándolas con otras redesSOM en tareas de agrupamiento de datos, así como la mejora y beneficios ganados al introducirMétodos de Acceso Métrico.

1.4. Organización de la tesis

La tesis está organizada como sigue:

En el capítulo 2 se desarrolla el tema de Agrupamiento de datos. Se describen sus defini-ciones, aplicaciones y etapas.

En el capítulo 3 se exponen las Redes Neuronales Artificiales, definiciones y su uso co-mo técnicas de agrupamiento de datos, características de los mapas auto-organizables y la redpropuesta para los experimentos.

En el capitulo 4 se exponen los Métodos de Acceso Métrico: definiciones, propiedades yconsideraciones de eficiencia, así como las estructuras propuestas para este investigación.

En el capítulo 5 se presentan las técnicas MAM-SOM, la combinación de los métodos deacceso y los mapas auto-organizables, y la técnica propuesta para las tareas de agrupamiento dedatos.

En el capítulo 6 se describirán y analizarán los experimentos realizados con diversas téc-nicas, y la comparación con las técnicas propuestas.

En el capítulo 7 se presentarán las conclusiones y consideraciones para trabajos futuros.

Ingeniería Informática - UCSP 16

Capítulo 2

Agrupamiento de datos

2.1. Consideraciones iniciales

El reconocimiento, descripción, clasificación y agrupamiento de patrones de forma au-tomática son problemas importantes en varias disciplinas científicas como biología, psicología,medicina, visión por computadora e inteligencia artificial. En [Watanabe, 1985] se define a pa-trón como lo opuesto al caos, una entidad vagamente definida que puede ser nombrada.

Dado un patrón, su reconocimiento/clasificación consiste en una de las siguientes dostareas [Jain et al., 2000]: 1) clasificación supervisada, en la que el patrón de entrada es identifi-cado como miembro de una clase predefinida, o 2) clasificación no supervisada (agrupamientode datos o clustering), en la que el patrón es asignado a una clase aún no conocida.

El área de reconocimiento de patrones incluye aplicaciones de minería de datos (iden-tificar una correlación entre millones de patrones multidimensionales), clasificación de docu-mentos, predicciones financieras, organización y recuperación de bases de datos multimedia, ybiometría (identificación personal basada en atributos físicos), entre otras.

En [Jain et al., 2000] se especifican cuatro métodos para el reconocimiento de patrones:1) templatematching, 2) clasificación estadística, 3) coincidencia sintáctica o estructural, y 4)redes neuronales.

En los métodos estadísticos, cada patrón es representado en términos de d característicaso medidas, y es visualizado como un punto en un espacio d-dimensional. El objetivo aquí es se-leccionar las características que permitan a los vectores de patrones que pertenecen a diferentescategorías ocupar regiones compactas y disjuntas en el espacio de características d-dimensional.

A pesar de los principios aparentemente diferentes, la mayoría de modelos de redesneuronales son implícitamente equivalentes o similares a los métodos estadísticos clásicos dereconocimiento de patrones [Jain et al., 2000]. Como veremos, las redes neuronales ofrecenademás varias ventajas.

17

2.2. Agrupamiento de datos

Figura 2.1: Ejemplo de agrupamientos de diferentes formas.

En muchas aplicaciones de reconocimiento de patrones, es en exceso costoso, difícil, oincluso imposible, etiquetar manualmente cada un patrón con su categoría correcta. Por este mo-tivo la clasificación no supervisada, conocida como agrupamiento de datos, provee una solucióna este tipo de problemas.

2.2. Agrupamiento de datos

En el área de reconocimiento de patrones, el reconocimiento o clasificación no supervisa-da (agrupamiento de datos), es el conjunto de procedimientos diseñados para encontrar gruposnaturales basados en las similitudes presentes en un conjunto de patrones; los patrones son rep-resentados como un vector de medidas o como un punto en un espacio multidimensional, paraluego ser agrupados en base a su similitud [Jain and Dubes, 1988, Jain et al., 1999].

En agrupamiento de datos, la clasificación de patrones se da de forma no supervisada, quea diferencia de la clasificación supervisada en la que se tienen patrones previamente clasificados,el objetivo radica en agrupar el conjunto de patrones no etiquetados en agrupamientos con algúnsignificado.

La clasificación no supervisada o agrupamiento es un problema complejo debido a que losdatos pueden originar grupos con diferentes formas y tamaños. En [Jain et al., 2000]se definenlas propiedades que deben cumplir los agrupamientos: 1) los patrones dentro de un grupo sonmás similares entre sí que patrones que pertenecen a grupos diferentes, y 2) un grupo consistede una relativa alta densidad de puntos separados de otros grupos por una relativa baja densidadde puntos.

El creciente uso de técnicas de agrupamiento en el campo de análisis exploratorio de pa-

Ingeniería Informática - UCSP 18

CAPÍTULO 2. Agrupamiento de datos

trones, agrupamiento, toma de decisiones y aprendizaje de máquina han demostrado su utilidad.Aplicaciones como la minería datos [Hand et al., 2001, Vesanto and Alhoniemi, 2000], dondese busca obtener información útil a partir de grandes cantidades de datos; el reconocimien-to de objetos [Lowe, 2001], caracteres [Breuel, 2001], del habla [Waibel et al., 1990] e inclusodel hablante [Xu et al., 2006]; la recuperación de información [Tombros et al., 2002]; y la seg-mentación de imágenes [Rueda and Qin, 2005, Arifin and Asano, 2006] que permite una clasi-ficación de los píxeles de una imagen para el reconocimiento de superficies o texturas (útil parala medicina o la geología); son solo algunos ejemplos de su uso práctico en el mundo actual.

En varios de estos problemas existe poca información previa de los datos, por lo que lastécnicas de agrupamiento son apropiadas para la exploración de las interrelaciones existentesentre los datos.

Entre los principales temas a considerar en las tareas de agrupamiento de datos tenemos ladimensionalidad de los datos, la determinación de la validez de un grupo, la estimación de la tasade error del sistema de reconocimiento, el conocimiento previo que se tenga sobre el dominio dedatos y las propiedades del algoritmo de agrupamiento [Jain et al., 2000, Jain and Dubes, 1988,Jain et al., 1999].

2.2.1. Reducción de la dimensionalidad

Hay dos razones principales para mantener la dimensionalidad de la representación de lospatrones lo más pequeña posible: costo de medición y precisión de la clasificación.

Un reducido conjunto de características simplifica tanto la representación del patrón comolos clasificadores que se construyen sobre la representación seleccionada. El clasificador resul-tante será más rápido y usará menos memoria, pero por otro lado la reducción del número decaracterísticas puede disminuir la exactitud del sistema al reducir el poder de discriminación.Por lo tanto, la selección de características es muy importante, ya que es posible hacer dospatrones similares arbitrariamente representándolos con características redundantes.

Para la reducción de la dimensionalidad se aplican algoritmos de selección y extracción decaracterísticas. La selección de características se refiere a algoritmos que seleccionan el mejorsubconjunto de características. Los algoritmos de extracción de características crean nuevas car-acterísticas en base a transformaciones o combinaciones del conjunto original de características.

2.2.2. Validez de un grupo

En general, se dice que un grupo es válido si es compacto y aislado. Entonces, se debedeterminar cuán compacto es un grupo midiendo la cohesión interna entre los elementos delgrupo; y cuán aislado es, midiendo la separación del grupo con otros patrones que no pertenecena él.

Ingeniería Informática - UCSP 19

2.3. Etapas del proceso de agrupamiento

2.2.3. Estimación de error

En la práctica, la tasa de error de un sistema de reconocimiento debe ser estimada a partirde todas las muestras disponibles, divididas en conjuntos de entrenando y prueba. El clasificadorse construye usando las muestras de entrenamiento, y luego se evalúa en base a la clasificaciónde las muestras del conjunto de prueba. El porcentaje de muestras de prueba que fueron malclasificadas se toma como una estimación de la tasa de error.

2.2.4. Conocimiento del dominio de datos

Debido a que la tarea de agrupamiento es subjetiva (i.e. los mismos datos pueden serparticionados de diferentes formas para diferentes propósitos), esta subjetividad es incorpora-da en el criterio de agrupamiento al añadir conocimiento del dominio en una o más fases delproceso de agrupamiento ya sea implícita o explícitamente. Este conocimiento influye en laselección de la representación de los patrones, la selección de la medida de similitud y en laselección del esquema de agrupamiento. En el caso de las Redes Neuronales Artificiales (RNA)el conocimiento del domino se usa implícitamente al seleccionar los valores de los parámetrosde control o aprendizaje.

2.2.5. Otras propiedades

Algunas de las propiedades más comunes en los algoritmos de agrupamiento de datosson:

Aglomerativo o divisivo. Una clasificación jerárquica aglomerativa coloca cada objeto enun grupo propio y gradualmente une estos grupos en otros más grandes hasta que todoslos objetos están dentro del mismo grupo, mientras que una clasificación divisiva colocainicialmente a todos los objetos en un único grupo que es gradualmente dividido.

Serial o simultáneo. Los procesos seriales manejan a los patrones uno por uno, mientrasque los simultáneos trabajan con todo el conjunto de patrones al mismo tiempo.

Rígido o difuso. Un algoritmo rígido coloca cada patrón en un solo grupo. Un algoritmodifuso asigna a cada patrón grados de pertenencia a varios grupos.

2.3. Etapas del proceso de agrupamiento

La Figura 2.2 muestra el proceso típico de agrupamiento de datos. Entonces, la actividadde agrupamiento involucra los siguientes pasos [Jain et al., 1999]:

1. Representación del patrón (extracción y selección de características),

Ingeniería Informática - UCSP 20

CAPÍTULO 2. Agrupamiento de datos

Figura 2.2: Etapas de la tarea de agrupamiento de datos.

2. Definición de una medida de proximidad de patrones apropiada al dominio de datos,

3. Agrupamiento,

4. Abstracción de datos, y

5. Evaluación de resultados.

2.3.1. Representación del patrón

La representación de patrones hace referencia al número de clases, la cantidad de patronesdisponibles y en especial al número, tipo y escala de las características con las cuales el algo-ritmo de agrupamiento trabajará. Típicamente los patrones son representados como vectoresmultidimensionales, donde cada dimensión es asociada a una característica. Las característicaspueden ser cuantitativas (como el peso) o cualitativas (como el color).

Como se mencionó anteriormente, existen dos técnicas para determinar el grupo de car-acterísticas que representarán a los patrones: selección y extracción. En la selección de car-acterísticas se identifica el conjunto de características originales más efectivo para la tarea deagrupamiento. En la extracción de características se aplican diversas transformaciones en lascaracterísticas existentes para producir nuevas características. En ambos casos lo que se buscaes mejorar el rendimiento de la clasificación y/o la eficiencia computacional.

Una investigación cuidadosa sobre las características disponibles, y sus transformaciones,puede mejorar significantemente los resultados del agrupamiento. Asimismo una buena repre-sentación de patrones facilitará el entendimiento del agrupamiento resultante.

2.3.2. Definición de la medida de proximidad

Debido a que la definición de similitud es una parte fundamental en la determinación deagrupamientos, la métrica con la que se medirá la similitud entre patrones debe ser escogidacuidadosamente. En lugar de medir la similitud entre dos patrones es más común medir ladisimilitud usando una métrica definida en el espacio de características. Esta disimilitud entrepatrones se mide por medio de una función de distancia (como la distancia Euclidiana) querefleja la diferencia entre dos patrones.

Ingeniería Informática - UCSP 21

2.3. Etapas del proceso de agrupamiento

Estas y otras consideraciones sobre los espacios métricos se abordarán con más detalle enel Capítulo 4.

2.3.3. Agrupamiento

La etapa de agrupamiento es donde se forman los grupos en sí. Este agrupamiento puededarse de diferentes maneras dependiendo del algoritmo de agrupamiento seleccionado y desus propiedades. Los grupos de salida (clusters) pueden ser rígidos o difusos. Adicionalmentepueden aplicarse otro tipo de técnicas para la etapa de agrupamiento, como métodos probabilís-ticos y de teoría de grafos.

2.3.4. Abstracción de datos

El proceso de abstracción de datos consiste en generar una representación simple delconjunto de datos que sea fácil de comprender o procesar. En el contexto de agrupamientode datos, la abstracción de datos se refiere a una descripción compacta de cada grupo, por logeneral en términos de patrones representativos o prototipos.

Para grupos pequeños e isótropos se puede utilizar al “centroide” como representación.En el caso de grupos grandes, es mejor trabajar con puntos localizados en la región externa delgrupo, requiriendo más puntos en proporción a la complejidad de la forma del grupo.

Al brindar una descripción simple e intuitiva de los grupos, la abstracción de datos es unaherramienta útil para el análisis exploratorio.

2.3.5. Evaluación de resultados

Así como se hace una evaluación previa de los datos de entrada para determinar si debenser procesados o no, en la etapa de evaluación de resultados se hace un análisis de validez delos agrupamientos en base a un criterio específico de optimización (usualmente subjetivo). Elanálisis de validez busca determinar si el agrupamiento obtenido es significativo.

Existen tres tipos de estudios para analizar la validez de los grupos formados: 1) unaevaluación externa que compara la estructura obtenida con una previa, 2) una evaluación internaque determina si la estructura es intrínsecamente apropiada para los datos y, 3) una evaluaciónrelativa que compara dos estructuras y mide el mérito relativo de cada una [Dubes, 1993].

Ingeniería Informática - UCSP 22

CAPÍTULO 2. Agrupamiento de datos

2.4. Clasificación de las técnicas de agrupamiento

La gran variedad de técnicas para la representación de los datos, medición de similitudentre elementos, y agrupamiento han producido una amplia gama de métodos de agrupamiento.No existe una técnica de agrupamiento de datos que sea universalmente aplicable debido prin-cipalmente a las suposiciones implícitas de la forma del grupo o al criterio de agrupamiento queposee cada algoritmo.

Considerando al agrupamiento de datos como una tarea de clasificación no supervisa-da, la gran mayoría de métodos pueden ser divididos en: 1) jerárquicos, que producen unaserie de particiones anidadas basadas en un criterio para unir o dividir grupos basados en susimilitud, y 2) particionales, que identifican la partición que optimiza un criterio agrupamiento[Jain et al., 1999].

Según la forma de construcción del dendograma, los métodos jerárquicos pueden clasifi-carse a su vez en aglomerativos y particionales. Según el criterio de optimización, los métodosparticionales pueden clasificarse en error cuadrático, mixture resolving, mode seeking y teoríade grafos.

2.4.1. Agrupamiento jerárquico

Los métodos jerárquicos pueden construirse de forma aglomerativa o divisiva. Los méto-dos aglomerativos construyen la jerarquía de abajo a arriba, creando un grupo por objeto paraluego unirlos gradualmente hasta que todos los objetos pertenezcan del mismo grupo. Los méto-dos divisivos construyen la jerarquía de arriba a abajo, creando inicialmente un único grupo alque pertenecen todos los objetos para luego ser dividido gradualmente.

Los métodos particionales suelen tener ventaja sobre los jerárquicos en aplicaciones dondese trabaja con grandes conjuntos de datos, debido principalmente al costo computacional de laconstrucción del dendograma de los métodos jerárquicos.

2.4.2. Agrupamiento particional

El agrupamiento particional puede ser expresado como: dados n patrones en un espaciométrico d-dimensional, determinar la partición de los patrones en K grupos, de modo que lospatrones en un grupo son más similares entre sí que con patrones de otros grupos. El valorde K puede o no ser especificado, y debe adoptarse un criterio de optimización global o local[Jain et al., 2000].

Un criterio global, como el de error cuadrático, representa cada grupo a través de un pro-totipo y asigna los patrones a los grupos de acuerdo a los prototipos más similares. Un criteriolocal forma los grupos utilizando estructuras locales en los datos, por ejemplo, identificandoregiones de alta densidad en el espacio de patrones o asignando un patrón y sus k vecinos más

Ingeniería Informática - UCSP 23

2.5. Técnicas comunes para agrupamiento de datos

cercanos al mismo grupo.

Los criterios de error cuadrático y descomposición de mezcla (mixture decomposition)son los más populares dentro de los métodos de agrupamiento particional [Jain et al., 2000],siendo el error cuadrático la estrategia más usada. Aquí el objetivo es obtener la partición que,para un determinado número de grupos, minimice el error cuadrático.

2.5. Técnicas comunes para agrupamiento de datos

2.5.1. Agrupamiento con vecinos más cercanos

Debido a que la proximidad juega un papel importante en la noción de grupo, las dis-tancias de los vecinos más cercanos sirven de base para procedimientos de agrupamiento. Unpatrón usualmente pertenece al mismo grupo que su vecino más cercano, y dos patrones sonconsiderados similares si comparten vecinos [Jain and Dubes, 1988].

2.5.2. Agrupamiento difuso

Los métodos tradicionales de agrupamiento de datos generan particiones, donde cadapatrón pertenece a un solo grupo, por lo que los grupos son disjuntos. El agrupamiento difusoasocia cada patrón con todos los grupos usando una función de pertenencia. El diseño de estafunción de pertenencia es el punto más importante en el agrupamiento difuso.

2.5.3. Agrupamiento con RNA

Las Redes Neuronales Artificiales (RNA) han sido utilizadas extensamente en las últimasdécadas tanto para agrupamiento como para clasificación. Entre las principales característicastenemos la arquitectura de procesamiento paralela y distribuida, la capacidad de aprender rela-ciones no lineales complejas, el entrenamiento y la adaptación al dominio de datos. Las redesneuronales competitivas son las más usadas para el agrupamiento de datos.

2.5.4. Agrupamiento con métodos evolutivos

Los métodos evolutivos hacen uso de operadores evolutivos y una población de solucionespara obtener la partición de datos globalmente óptima. Las soluciones candidatas para el prob-lema de agrupamiento son codificadas como cromosomas. Los operadores transforman uno omás cromosomas de entrada en uno o más de salida, siendo los más populares: selección, com-binación y mutación. Adicionalmente se aplica una función de evaluación a los cromosomaspara determinar la probabilidad de un cromosoma de pasar a la siguiente generación.

Ingeniería Informática - UCSP 24

CAPÍTULO 2. Agrupamiento de datos

Los métodos evolutivos destacan por ser técnicas de búsqueda global, a diferencia delresto de métodos que realizan búsquedas locales.

2.6. Aplicaciones

Las técnicas de agrupamiento de datos fueron inicialmente desarrolladas en biología yzoología para la construcción de taxonomías. La necesidad de varias disciplinas científicas deorganizar grandes cantidades de datos en grupos con significado ha hecho del agrupamientode datos una herramienta valiosa en el análisis de datos. Un sin número de entidades han si-do objeto de aplicaciones de agrupamiento de datos: enfermedades, huellas digitales, estrellas,consumidores e imágenes. En muchas aplicaciones no es primordial identificar el número ex-acto de grupos o la correcta pertenencia de cada patrón, basta con agrupar los objetos de unaforma eficaz para que el proceso físico, biológico o evolutivo subyacente pueda ser entendido oaprendido [Jain and Dubes, 1988].

Entre las principales aplicaciones de agrupamiento de datos tenemos la segmentación deimágenes, la minería de datos, la recuperación de información, el procesamiento del lenguajenatural y el reconocimiento de objetos.

Segmentación de imágenes. Componente fundamental en muchas aplicaciones de visión com-putacional, consiste en el exhaustivo particionamiento de una imagen de entrada para laidentificación de regiones, cada una de las cuales es considerada homogénea con re-specto a alguna propiedad de la imagen. Para cada píxel de la imagen se define unvector de características compuesto por lo general de funciones de intensidad y ubi-cación del píxel. Esta idea ha sido satisfactoriamente usada para imágenes de intensi-dad (con o sin textura), imágenes de rango (profundidad) e imágenes multiespectrales[Rueda and Qin, 2005, Arifin and Asano, 2006].

Reconocimiento de objetos. Cada objeto es representado en términos de un conjunto de imá-genes del objeto obtenidas desde un punto de vista arbitrario. Debido a la infinidad devistas posibles de un objeto tridimensional se descartan las comparaciones de una vistano conocida con las ya almacenadas. Entonces, a través de técnicas de agrupamiento esposible seleccionar e identificar al conjunto de vistas de un objeto que sean cualitativa-mente similares [Lowe, 2001].

Procesamiento del lenguaje natural. Técnicas de agrupamiento son también utilizadas parael reconocimiento de caracteres y del habla. Sistemas dependientes o independientes delsujeto capaces de reconocer lexemas y morfemas para identificar caracteres escritos ydiscursos hablados. A mayor número de sujetos con los que el sistema debe trabajar, másdifícil es discriminar entre clases debido a la superposición en el espacio de características[Breuel, 2001, Waibel et al., 1990].

Minería de datos. Es necesario desarrollar algoritmos que puedan extraer información sig-nificante de la gran cantidad de datos disponibles. La generación de información útil, oconocimiento, a partir de grandes cantidades de datos es conocida como minería de datos.

Ingeniería Informática - UCSP 25

2.7. Consideraciones finales

La minería de datos puede ser aplicada a bases de datos relacionales, transaccionales yespaciales, así como en almacenes de datos no estructurados como la Internet. El agru-pamiento de datos es a menudo un importante paso inicial de muchos procesos de mineríade datos, como segmentación de bases de datos, modelamiento predictivo, y visualización[Hand et al., 2001, Vesanto and Alhoniemi, 2000].

2.7. Consideraciones finales

El análisis de agrupamientos es una técnica muy útil e importante. La velocidad, fiabilidady consistencia con las que un algoritmo de agrupamiento puede organizar grandes conjuntos dedatos constituyen las razones de su uso en aplicaciones de minería de datos, recuperación deinformación entre otras. Los procedimientos de agrupamiento producen una descripción de losdatos en términos de grupos de datos que poseen fuertes similitudes internas [Duda et al., 2000].

Al aplicar un algoritmo de agrupamiento se debe considerar que: 1) antes de aplicar el al-goritmo los datos deben sujetarse a pruebas para ver si existe alguna tendencia de agrupamiento,2) no existe un “mejor.algoritmo de agrupamiento para los datos.

En [Jain et al., 1999] realizan una comparación de las diferentes técnicas de agrupamientode datos, donde se resalta que: la mayoría de métodos particionales utilizan la función criteriode error cuadrado, pero las particiones generadas no son tan versátiles como las generadas poralgoritmos jerárquicos. Los grupos generados son en su mayoría de forma hiperesférica. Lasredes neuronales y los algoritmos genéticos pueden implementarse en hardware paralelo paramejorar su velocidad, pero por otra parte, son sensibles a la selección de varios parámetros deaprendizaje o control.

Los métodos evolutivos presentan un buen desempeño cuando el conjunto de datos espequeño y para datos de bajas dimensiones. Generalmente, al algoritmo de k-medias y su redneuronal equivalente, la red de Kohonen, han sido aplicados en conjuntos de datos grandes.

Ingeniería Informática - UCSP 26

Capítulo 3

Redes Neuronales Artificiales

3.1. Consideraciones iniciales

Inspiradas en las redes neuronales biológicas, las Redes Neuronales Artificiales (RNA)han sido satisfactoriamente utilizadas para resolver problemas de clasificación de patrones,agrupamiento de datos, aproximación de funciones, predicción, optimización, recuperación porel contenido, y control, convirtiéndose en herramientas populares para la resolución de este tipode problema.

En el área de reconocimiento de patrones, las RNA proveen arquitecturas que permitenmapear algoritmos estadísticos de reconocimiento de patrones. La adaptabilidad de las RNA escrucial para el diseño de sistemas de reconocimiento de patrones no sólo por su capacidad degeneralización, sino por su desempeño en ambientes dinámicos durante el entrenamiento.

Dentro de la tarea de agrupamiento de datos, las principales características de las redesneuronales artificiales son [Jain et al., 1999]:

Procesamiento de vectores numéricos, por lo que los patrones deben representarse concaracterísticas cuantitativas.

Poseen una arquitectura de procesamiento distribuido y paralelo.

Pueden aprender los pesos de sus interconexiones adaptativamente, actuando como nor-malizadores de patrones y selectores de características.

3.2. Definiciones

Las redes neuronales pueden verse como sistemas de cómputo paralelos que consistenen un gran número de procesadores simples con varias interconexiones. Los modelos de re-des neuronales usan principios de organización como aprendizaje, generalización, adaptación,

27

3.2. Definiciones

Figura 3.1: Neurona McCulloch-Pitts [Jain et al., 1996].

tolerancia a fallos y procesamiento distribuido, en una red de grafos dirigidos, en la cual losnodos son neuronas artificiales y las conexiones entre las salidas de las neuronas y sus entradasson aristas dirigidas y con pesos. Entre sus principales características tenemos la habilidad deaprender complejas relaciones no lineales de entrada-salida, usar entrenamiento secuencial y laadaptación al dominio de datos [Jain et al., 1996, Haykin, 1994, Bishop, 1995].

3.2.1. Modelo de una neurona artificial

McCulloch y Pitts propusieron una unidad de umbral binario como modelo computacionalde una neurona. La Figura 3.1 muestra un diagrama esquemático de la neurona McCulloch-Pitts, la cual calcula la suma de los pesos de sus n señales de entrada, xj, j = 1, 2, . . . , n, ygenera una salida “1” si la suma está por encima de un parámetro µ, o una salida “0” en el casocontrario. McCulloch y Pitts probaron que con los pesos apropiados, un arreglo sincronizado delas neuronas es capaz de una computación universal.

Comparando este modelo con la neurona biológica, las interconexiones modelan a losaxones, los pesos de conexión representan la sinapsis, y la función de activación aproxima laactividad en el soma. Por otra parte las neuronas biológicas tiene grados de respuesta, producenuna secuencia de pulsos, y son actualizadas de forma asíncrona [Jain et al., 1996].

La neurona McCulloch-Pitts marcó una nueva era en el modelamiento computacionalde neuronas, siendo generalizado de muchas formas, principalmente remplazando la funciónumbral de activación por otras como la sinodal o la Gaussiana.

3.2.2. Arquitectura

El agrupamiento de neuronas es llamado Redes Neuronales Artificiales (RNA), la quepuede ser vista como un grafo dirigido con pesos, donde los nodos son neuronas artificiales ylas aristas son las conexiones entre las neuronas [Haykin, 1994]. Como se observa en la Figu-ra 3.2, según el patrón de conexión o arquitectura las RNA pueden clasificarse en: 1) redesfeedforward, en las que no existen ciclos en el grafo, y 2) redes feedback en las que existenciclos debido a las conexiones de retroalimentación [Jain et al., 1996].

Las redes feedforward son llamadas estáticas porque producen un solo conjunto de sal-

Ingeniería Informática - UCSP 28

CAPÍTULO 3. Redes Neuronales Artificiales

Figura 3.2: Taxonomía de la arquitectura de las RNA [Jain et al., 1996].

idas, además, no poseen memoria ya que la respuesta a una entrada es independiente de losestados previos de la red. Las redes feedback o recurrentes son sistemas dinámicos donde unnuevo estado de la red se genera por cada nueva entrada presentada, proceso que se repite hastallegar a un punto de convergencia.

3.2.3. Aprendizaje

La habilidad de aprender es una característica fundamental de la inteligencia. Un procesode aprendizaje, visto en el contexto de Redes Neuronales Artificiales, se refiere a la actual-ización de la arquitectura de la red y de los pesos de conexión. Algunos de los conceptos másimportantes en el aprendizaje de RNAs son el paradigma de aprendizaje, el algoritmo de apren-dizaje y la teoría de aprendizaje [Haykin, 1994, Bishop, 1995, Jain et al., 1996].

El paradigma de aprendizaje se refieren al modelo de entrenamiento de la red (como lainformación está disponible para la red). Los tres principales paradigmas son: 1) supervisado,2) no supervisado, e 3) híbrido.

En el aprendizaje supervisado o aprendizaje con profesor, se le proporciona a la red larespuesta correcta de cada patrón de entrenamiento. Opuestamente, en el aprendizaje no su-pervisado no se necesita la respuesta correcta de cada patrón, debido a que la red explora laestructura subyacente de datos y la correlación de los mismos, organizándolos en categorías. Elaprendizaje híbrido combina el aprendizaje supervisado y el no supervisado.

La teoría de aprendizaje estudia la capacidad, complejidad de muestras, y complejidadde tiempo de la red. La capacidad determina cuánto puede aprender la red de los ejemplos sila solución óptima está contenida en las soluciones que da la red. La complejidad de muestrasdetermina el número de patrones de entrenamiento requeridos en la red para garantizar una gen-eralización válida. Por último, la complejidad de tiempo investiga cuán rápido puede aprenderel sistema, es decir, la complejidad computacional del algoritmo para estimar una solución.

Ingeniería Informática - UCSP 29

3.3. Redes neuronales auto-organizables

El algoritmo de aprendizaje se refiere a la aplicación de las reglas de aprendizaje paraajustar los pesos de la red. Los cuatro tipos básicos de aprendizaje son: 1) corrección de error,2) Boltzmann, 3) Hebbiano, y 4) competitivo.

El algoritmo de corrección de error, aplicable al aprendizaje supervisado, utiliza la señalde error (d−y), donde y es la salida actual y d la salida deseada, para modificar los pesosde conexión y gradualmente reducir el error.

El aprendizaje Boltzmann es una regla de aprendizaje estocástico derivada de los prin-cipios de termodinámica y de teoría de información. El objetivo es ajustar los pesos delas conexiones para que el estado de las unidades visibles satisfaga una distribución deprobabilidades deseada.

En el aprendizaje Hebbiano si dos neuronas son activadas simultanea y repetitivamente,entonces la fuerza de la sinapsis es incrementada. Una propiedad importante es que elaprendizaje se da localmente.

En el aprendizaje competitivo todas las unidades de salida compiten entre ellas para seractivadas, resultando sólo una unidad de salida activada en un instante de tiempo.

Las redes más utilizadas en tareas de agrupamiento de datos son aquellas que hacen usodel aprendizaje competitivo, donde patrones similares son agrupados automáticamente en basea correlaciones de datos y representados por una neurona [Jain et al., 1999], siendo los ma-pas auto-organizables de Kohonen (SOM) [Kohonen, 1982] y las redes Adaptative ResonanceTheory (ART) [Carpenter and Grossberg, 1988] (y las derivaciones de ambos) los modelos másdifundidos.

Una característica común en ambos modelos es la simplicidad de sus arquitecturas ya queposeen una sola capa. Los patrones son presentados en la entrada para luego ser asociados conlos nodos de salida. Los pesos entre los nodos de entrada y salida son iterativamente modificadoshasta satisfacer un criterio de parada.

3.3. Redes neuronales auto-organizables

Los mapas auto-organizables de Kohonen [Kohonen, 1982], del inglés Self-OrganizingMaps (SOM), trabajan bajo el paradigma no supervisado y emplean un aprendizaje competitivoen el que se define una vecindad espacial para cada unidad de salida, pudiendo ser de formacuadrada, rectangular o circular. En este aprendizaje competitivo, se actualizan los vectores depesos asociados con la unidad ganadora y con sus vecinas.

Los mapas auto-organizables tienen la propiedad de preservar la topología, es decir, pa-trones de entrada cercanos activan unidades de salida cercanas en el mapa. La Figura 3.3 mues-tra la arquitectura básica de los SOM, pudiéndose describir como un arreglo de unidades cadauna conectada con todos los patrones de entrada.

Ingeniería Informática - UCSP 30

CAPÍTULO 3. Redes Neuronales Artificiales

Figura 3.3: Mapa auto-organizable de Kohonen [Jain et al., 1996].

3.3.1. Entrenamiento de los mapas auto-organizables

En el proceso de entrenamiento de los mapas auto-organizables, cada patrón o señal deentrada es representado por un vector de tamaño n, x = {x1, x2, . . . , xn}, y cada unidad dela red tiene asociado un vector de pesos w = {w1, w2, . . . , wn}, donde wi representa el pesoasociado al i-ésimo componente de la señal de entrada.

Inicialmente los pesos de las neuronas son establecidos aleatoriamente. Cuando se pre-senta un patrón x a la red se evalúan todas las salidas de la red, calculando la diferencia entre xy los vectores de pesos w de cada neurona presente en la red de acuerdo con la Ecuación 3.1.

‖x− w‖ (3.1)

Luego se selecciona la unidad vencedora o Best Matching Unit (BMU) de acuerdo con laEcuación 3.2. Esta unidad presenta la menor diferencia con el patrón presentado.

‖x− wc‖ = min{‖x− wi‖}∀i (3.2)

Finalmente se actualizan el vector de pesos de la neurona vencedora y los vectores depesos de sus vecinos topológicos de acuerdo a la Ecuación 3.3, de manera que toda la vecindades aproximada hacia el patrón de entrada usando una tasa de aprendizaje α que va decreciendoa través del entrenamiento.

w(t + 1) = w(t) + α[x(t)− w(t)] (3.3)

Debido a que las redes SOM pueden generar una partición no óptima si los pesos inicialesno son escogidos apropiadamente, se pueden aplicar políticas adicionales para la selección deestos pesos.

La convergencia de la red es controlada por parámetros como la vecindad de la neuronaganadora o la tasa de aprendizaje. Es aquí que surge el problema de la estabilidad, ya quees posible que un mismo patrón de entrada active diferentes unidades de salida a lo largo del

Ingeniería Informática - UCSP 31

3.4. Redes SOM constructivas

entrenamiento. Entonces, se dice que un sistema es estable si ningún patrón cambia de categoríadurante la fase de entrenamiento. Este problema esta muy relacionado con la plasticidad ohabilidad de adaptarse a nuevos datos sin perder la información obtenida anteriormente. Parasalvaguardar la estabilidad la tasa de aprendizaje debe decrecer durante el proceso, pero laplasticidad se ve aún afectada.

Con el modelo ART [Carpenter and Grossberg, 1988] se logró una red con estabilidad yplasticidad pero se sacrificó la robustez de la misma al ser dependiente del orden en el que sepresentan los patrones, obteniendo así diferentes particiones del conjunto de datos para difer-entes órdenes de presentación. Además, el tamaño y número de grupos generados por las redesART dependen del parámetro de vigilancia establecido.

También poseen un número fijo de nodos de salida, limitando el número de grupos quepueden producir.

Una desventaja del modelo original de Kohonen es la necesidad de definir el número degrupos a priori, generando la necesidad de evaluar diferentes topologías para escoger de entretodas la más óptima para la solución de un problema. Además, la distribución de datos puedevariar en el tiempo, y la red debe ser capaz de adaptarse adecuadamente a los cambios de ladistribución, creando unidades en caso de que el número de patrones aumente, o eliminandounidades que dejen de ser útiles luego de la eliminación de patrones.

Entre algunos de los modelos constructivos que surgen para solucionar la topología es-tática del modelo original de Kohonen tenemos:

Growing Neural Gas [Fritzke, 1995]

Density Based Growing Neural Gas [Ocsa et al., 2007]

Growing Self-Organizing Maps [Alahakoon et al., 1998]

Growing Hierarchical Self-Organizing Maps [Dittenbach et al., 2000]

Incremental Grid-Growing [Blackmore and Miikkulainen, 1993]

3.4. Redes SOM constructivas

Las redes SOM constructivas incorporan técnicas para poder alterar su arquitectura através del proceso de entrenamiento. Como se muestra en [Cuadros-Vargas, 2004], un algoritmoconstructivo debe: 1) reconocer y corregir las neuronas que hayan sido generadas en posicionesinapropiadas para la distribución de datos, o 2) corregir la topología existente para minimizar elerror.

Algunos de los algoritmos más representativos de redes SOM constructivas son:

Ingeniería Informática - UCSP 32

CAPÍTULO 3. Redes Neuronales Artificiales

3.4.1. Incremental Grid-Growing

El algoritmo de Incremental Grid-Growing (IGG) [Blackmore and Miikkulainen, 1993]construye la red dinámicamente modificando la estructura de las conexiones de acuerdo conlos datos de entrada. El entrenamiento se inicia con cuatro neuronas conectadas formando uncuadrado, y nuevas neuronas son creadas en los límites externos del mapa, cerca de las neuronascon mayor error acumulado. Esto permite al algoritmo IGG mantener siempre una estructura dedos dimensiones, incluso si los patrones son de dimensionalidad mayor.

3.4.2. Growing Self-Organizing Maps

El algoritmo Growing Self-Organizing Maps (GSOM) [Alahakoon et al., 1998] permiteel crecimiento de la red en forma dinámica, similar al algoritmo IGG, inicialmente se tienencuatro neuronas conectadas formando un rectángulo, y nuevas unidades son insertadas en basea la unidad con mayor error acumulado. A diferencia de IGG, GSOM posee un método deinicialización de pesos, lo que reduce la probabilidad de generar mapas inapropiados.

3.4.3. Growing Neural Gas

El algoritmo Growing Neural Gas (GNG) propuesto por Firtzke [Fritzke, 1995], permitecrear y eliminar unidades en el proceso de entrenamiento. El algoritmo GNG resulta de lacombinación de los métodos de Neural Gas [Martinetz and Schulten, 1994] y el AprendizajeHebbiano Competitivo [White, 1992], siendo un importante representante de los modelos SOMconstructivos [Cuadros-Vargas, 2004]. La red GNG posee una arquitectura feedback, y así co-mo los Self-Organizing Maps, trabaja bajo el paradigma de aprendizaje no supervisado.

3.4.4. Density Based Growing Neural Gas

Density Based Growing Neural Gas (DBGNG) propuesto en [Ocsa et al., 2007], es unared constructiva que introduce un criterio de densidad en el entrenamiento de la red, insertandoy eliminando unidades de en base a la relativa concentración de patrones en la región en laque se ubique el patrón presentado. La región de evaluación es determinada por un radio deforma similar al algoritmo Incremental Growing Neural Gas [Prudent and Ennaji, 2005], peroa diferencia de éste, se generan una mejor representación del dominio de datos.

3.4.5. Aprendizaje Hebbiano Competitivo

La técnica de Aprendizaje Hebbiano Competitivo, o Competitive Hebbian Learning (CHL)[White, 1992], permite crear conexiones dinámicamente durante el proceso de entrenamiento.

Ingeniería Informática - UCSP 33

3.5. Growing Neural Gas

A diferencia del modelo clásico de Kohonen, CHL verifica si existe una conexión entre lasunidades s1 y s2 más próximas al patrón ξ presentado, y la crea de no existir.

3.4.6. Gas Neuronal con Aprendizaje Hebbiano Competitivo

El algoritmo Gas Neuronal con Aprendizaje Hebbiano Competitivo, del inglés NeuralGas with Competitive Hebbian Learning (NGCHL) [Martinetz and Schulten, 1994] elimina lasconexiones no útiles en la red incorporando un contador que controle la “edad” de las conex-iones, contador que se incrementa cuando la neurona a la que pertenecen es elegida vencedora,y que al alcanzar un parámetro máximo de edad elimina la conexión. La principal diferenciacon GNG es la necesidad de especificar el número de unidades de la red, además de trabajarcon parámetros no constantes en el tiempo.

Todos estos modelos proporcionan estructuras capaces de trabajar en ambientes dinámi-cos. De entre la gran variedad de modelos de redes constructivas, en esta investigación se uti-lizará la red GNG por ser una red representativa, por lo que será detallada con mayor profundi-dad a continuación.

3.5. Growing Neural Gas

Growing Neural Gas (GNG) es un algoritmo de agrupamiento incremental no supervisa-do resultante de la combinación de los métodos Neural Gas [Martinetz and Schulten, 1994] yAprendizaje Hebbiano Competitivo [White, 1992]. Dada una distribución de datos de entradaen Rn, GNG crea incrementalmente un grafo, o red neuronal, donde cada nodo en el grafo tieneuna posición en Rn.

Este modelo surgió principalmente con el objetivo de mejorar algunas limitaciones delmodelo básico de Kohonen. En cuanto una red de Kohonen precisa de la iniciación de sutopología, Growing Neural Gas inicia su entrenamiento con una estructura mínima y nuevasunidades son creadas gradualmente [Fritzke, 1995]. Por tanto el modelo GNG además de tra-bajar con el paradigma no supervisado, también es constructivo, siendo capaz de generar unatopología diferente para cada tipo de problema.

Otra diferencia con el modelo de Kohonen es la forma de conectar las unidades. En losmapas de Kohonen las conexiones crean mallas rectangulares, mientras que en el modelo GNG,una unidad puede tener más de cuatro vecinos [Fritzke, 1995], generando así diversas figurasgeométricas y una red con mayor capacidad de aprendizaje como se observa en la Figura 3.4.

Comenzando con dos nodos el algoritmo construye un grafo en el que los nodos sonconsiderados vecinos si están conectados entre sí por medio de una arista. La información devecindad se obtiene mediante CHL: para cada señal de entrada x se crea una arista entre los dosnodos más cercanos a la señal medidos en una distancia Euclidiana [Fritzke, 1995].

El grafo generado por CHL, también llamado triangulación inducida de Delaunay, es un

Ingeniería Informática - UCSP 34

CAPÍTULO 3. Redes Neuronales Artificiales

Figura 3.4: La red GNG se adapta a la distribución de señales con áreas y dimensionalidadesdiferentes del espacio de entrada [Fritzke, 1995].

sub-grafo de la triangulación de Delaunay correspondiente al grupo de nodos. La triangulacióninducida de Delaunay preserva óptimamente la topología en un sentido general. CHL es uncomponente esencial del algoritmo GNG, ya que es usado para dirigir la adaptación local de losnodos y la inserción de nuevos nodos. Además, Growing Neural Gas usa solamente parámetrosque son constantes en el tiempo.

3.5.1. Algoritmo GNG

El algoritmo GNG asume que cada nodo k consiste en:

kw - un vector de referencia en Rn, es decir, la posición de un nodo en el espacio deentrada.

Errork - una variable local de error acumulado que representa la medida estadística quese usa para determinar los puntos de inserción apropiados para nuevos nodos.

Un conjunto de aristas definen la topología de los vecinos del nodo k, donde cada aristaposee una variable de edad que se usa para decidir cuándo remover las aristas viejas conel objetivo de mantener la topología actualizada.

Teniendo en cuenta lo anterior, el Algoritmo 1 muestra el proceso de entrenamiento de lared GNG.

Ingeniería Informática - UCSP 35

3.5. Growing Neural Gas

Algoritmo 1: Algoritmo de entrenamiento de una red GNG1: Inicializar la red A con dos unidades c1 e c2:

A = {c1, c2} (3.4)

Los pesos deben ser inicializados con valores aleatorios, generalmente en el intervalo [0,1].Inicializar el conjunto de conexiones C, C ⊂ A x A:

C = ∅ (3.5)

2: Presentar el patrón ξ1 a la red de acuerdo con una distribución uniforme p(ξ).3: Determinar las dos neuronas s1 y s2 más próximas a ξ de acuerdo con las ecuaciones (3.6)

y (3.7):

s1 = argmin‖ξ − wc‖ ∀c ∈ A (3.6)

s2 = argmin‖ξ − wc‖ ∀c ∈ A− {s1} (3.7)

donde ‖ξ− ~wc‖ representa la función de distancia (en este caso euclidiana) entre los vectoresξ e ~wc.

4: Si no existe conexión entre s1 y s2, entonces crearla.

C = C ∪ {s1, s2} (3.8)

Inicializar la edad de esta nueva conexión en 0.

edad(s1,s2) = 0 (3.9)

5: Actualizar la variable de error local adicionando el cuadrado de la distancia entre la neuronaganadora y el patrón presentado:

Es1 = Es1 + ‖ξ − ws1‖2 (3.10)

6: Actualizar el vector de pesos de s1 y los vectores de pesos de sus vecinos de acuerdo conlas ecuaciones 3.11 y 3.12:

4 ~ws1 = µb(ξ − ~ws1) (3.11)

4 ~wi = µn(ξ − ~wi) (∀i ∈ Ns1) (3.12)

donde Ns1 es el conjunto de vecinos topológicos de la unidad ganadora s1, µb y µn son lastasas de aprendizaje para la neurona ganadora y para sus vecinos respectivamente.

7: Incrementar la edad de todas las conexiones de s1:

edad(si, i) = edad(si, i) + 1 ∀i ∈ Ns1 . (3.13)

8: Remover las conexiones con edad mayor que amax2. Si después de este proceso existen

unidades sin conexiones, éstas deben ser removidas de la red.1ξ ∈ Rn, donde n es la dimensión de los patrones.2amax es el parámetro de entrenamiento que determina la edad máxima permitida para una conexión.

Ingeniería Informática - UCSP 36

CAPÍTULO 3. Redes Neuronales Artificiales

9: Si el número de patrones presentados hasta el momento es múltiplo del parámetro λ, unanueva unidad debe ser insertada de la siguiente forma:

Determinar la unidad q con el mayor error acumulado de toda la red.

q = max{Ec, ∀c ∈ A} (3.14)

Determinar, de entre los vecinos de q, la unidad f con el mayor error acumulado.

f = max{Ec} ∀c ∈ Nq (3.15)

Agregar una nueva unidad r a la red e interpolar su vector de pesos a partir de q y fde acuerdo con la Ecuación 3.17.

A = A ∪ r (3.16)

~wr =~wq + ~wf

2(3.17)

Conectar la nueva unidad r con q y f , y remover la conexión original entre q y f :

C = C ∪ {(r, q), (r, f)} (3.18)

C = C − {(q, f)} (3.19)

Disminuir las variables de error de las unidades q y f en una fracción α:

4Eq = −αEq, 4 Ef = −αEf (3.20)

Interpolar la variable de error de r a partir de q e f :

Er =Eq + Ef

2(3.21)

10: Disminuir la variable de error de todas las unidades en base a la tasa de corrección de errorβ:

4Ec = −βEc, ∀c ∈ A (3.22)

11: Si el criterio de parada 3 no ha sido alcanzado, volver al paso 2.

Gracias al entrenamiento, GNG puede ser usado para encontrar estructuras topológicasque reflejan la estructura de la distribución de entrada. Entonces, incluso si la distribución deentrada cambia en el tiempo, GNG es capaz de adaptarse moviendo los nodos hasta cubrir lanueva distribución.

No es necesario decidir a priori el número de nodos ya que los nodos son añadidos incre-mentalmente durante la ejecución. La inserción de nuevos nodos termina cuando se cumple uncriterio de desempeño definido por el usuario o si se llega a un tamaño máximo de la red.

3Un criterio de parada puede ser un tamaño máximo de red, un determinado número de ciclos, o alguna otramedida de desempeño.

Ingeniería Informática - UCSP 37

3.6. Consideraciones finales

3.6. Consideraciones finales

En este capítulo se presentaron las redes neuronales artificiales, algunas propiedades yconceptos básicos así como los mapas auto-organizables o Self-Organizing Maps y algunasde variaciones constructivas del modelo de Kohonen. La gran ventaja de las redes SOM es sucapacidad de aprendizaje y generalización.

Las redes SOM vienen siendo ampliamente usadas en aplicaciones de agrupamiento degrandes conjuntos de datos (como WEBSOM [Lagus et al., 1999]) debido principalmente a queestas redes son capaces de establecer nuevas relaciones entre los datos, organizando la informa-ción de entrada mediante un aprendizaje no supervisado.

Las redes SOM generan mapas topológico que mantiene las relaciones de vecindad enbase a criterios de similitud, y por lo tanto, crean de forma natural agrupamientos de patronescon características similares, lo que sumado a sus otras características, ofrece una técnica deagrupamiento de datos efectiva.

Una limitación importante de los mapas auto-organizables es la falta de una estructuracapaz de responder a consultas específicas como las de k-vecinos más cercanos o búsquedaspor rango, así como el alto costo computacional de su entrenamiento.

Ingeniería Informática - UCSP 38

Capítulo 4

Métodos de Acceso Métrico

4.1. Consideraciones iniciales

Los Métodos de Acceso Métrico (MAM) se enfocan en el problema de organización dedatos para que, en base a un criterio de similitud, facilitar la búsqueda del conjunto de elementosque estén cerca de un elemento de consulta [Chávez et al., 2001]. Este problema está presenteen un sinfín de aplicaciones que van desde escenarios de la vida cotidiana hasta las ramasde las ciencias de la computación, como el reconocimiento de patrones o la recuperación deinformación.

Tradicionalmente, las estructuras de datos han aplicado operaciones de búsqueda, dondese hace una coincidencia exacta. Por ejemplo, en las bases de datos donde se manejan registros,cada registro es comparado con los demás por medio de una clave y las búsquedas retornan losregistros cuya clave coincida con la clave suministrada.

Tras la aparición de nuevos contextos, debido principalmente al desarrollo tecnológico,vienen surgiendo nuevos algoritmos y métodos de acceso más eficientes y veloces.

En las búsquedas por similitud o proximidad, la similitud entre elementos es modeladaa través de una función de distancia que satisfaga la desigualdad triangular, y un conjunto deobjetos llamado espacio métrico.

4.2. Definiciones

Los Métodos de Acceso Métrico son estructuras ampliamente utilizadas en el campo deRecuperación de Información. Un MAM debe organizar un conjunto de datos en base a uncriterio de similitud para responder eficientemente a consultas específicas de proximidad.

Los Métodos de Acceso Métrico puedes ser descritos como una herramienta de orga-nización de datos. Los MAMs trabajan sobre espacios métricos definidos por un conjunto de

39

4.2. Definiciones

objetos y una función de distancia que mide la disimilitud entre los objetos del espacio métrico[Chávez et al., 2001].

Consideremos un conjunto U que denota el universo de objetos válidos y la funciónd : U × U −→ R que mide la distancia entre objetos. Se define como espacio métrico alsubconjunto S ⊆ U de tamaño n = |S| llamado diccionario o base de datos, que denota el con-junto de objetos de búsqueda, y a la función d() que mide la disimilitud entre objetos y satisfacelas propiedades de:

1. ∀x, y ∈ U, d(x, y) ≥ 0, positividad;

2. ∀x, y ∈ U, d(x, y) = d(y, x), simetría;

3. ∀x ∈ U, d(x, x) = 0, reflexividad;

4. ∀x, y ∈ U, x 6= y ⇒ d(x, y) > 0, positividad estricta;

5. ∀x, y, z ∈ U, d(x, y) ≤ d(x, z) + d(z, y), desigualdad triangular.

La desigualdad triangular es la propiedad más importante porque establece los límitesde distancias que aún pueden no haberse calculado, generando algoritmos de búsqueda porsimilitud significativamente más rápidos [Clarkson, 2006].

Para los espacios vectoriales (un caso particular de espacios métricos) donde cada obje-to es descrito como un vector de características (x1, x2, x3, . . . , xn) varios Métodos de AccesoEspacial (MAE) como Kd-Tree [Bentley, 1979] o R-Tree [Guttman, 1984] han sido propuestospara indexar este tipo de objetos multidimensionales. El problema principal de los espacios vec-toriales está relacionado con las altas dimensiones de los datos, la también conocida maldiciónde la dimensionalidad [Chávez et al., 2001].

4.2.1. Consultas de proximidad

Dado un objeto de consulta q ∈ U, para poder recuperar los objetos similares a q, sedefinen los siguientes tipos básicos de consulta:

Consultas de rango Rq(q, r). Recupera todos los elementos que se encuentran dentro de unradio r de q. Esto es, {u ∈ U / d(q, u) ≤ r}.

Consulta de vecino más cercano NN(q). Recupera el elemento en U más cercano a q. Estoes {u ∈ U / ∀v ∈ U, d(q, u) ≤ d(q, v)}. Adicionalmente se puede establecer un rangomáximo r.

Consulta de k-vecinos más cercanos NNk(q). Recupera los k elementos en U más cercanosa q. Esto es, {A ⊆ U / |A| = k ∧ ∀u ∈ A, v ∈ {U− A}, d(q, u) ≤ d(q, v)}.

Ingeniería Informática - UCSP 40

CAPÍTULO 4. Métodos de Acceso Métrico

(a) Ejemplo de búsqueda por rangor en un conjunto de puntos.

(b) Ejemplo de búsqueda del veci-no más cercano en un conjunto depuntos.

(c) Ejemplo de búsqueda de los k-vecinos más cercanos en un conjun-to de puntos con k = 4.

Figura 4.1: Tipos básicos de consultas por proximidad.

4.2.2. Consideraciones de eficiencia

La eficiencia de los Métodos de Acceso Métrico está determinada por muchos factores.Primero, como el conjunto inicial de datos es muy grande como para tenerlo en memoria prin-cipal, el número de accesos a disco requeridos para procesar una consulta o inserción es cru-cial. Segundo, el costo computacional de la función de distancia puede ser tan grande que elnúmero de cálculos de distancia tienen gran impacto en la eficiencia. Tercero, la capacidady uso del almacenamiento, no por el costo de almacenamiento sino por los accesos a disco[Bozkaya and Ozsoyoglu, 1997].

El tiempo total para evaluar una consulta viene determinado por la Ecuación 4.1, dondeNCD representa el Número de Cálculos de Distancia, d() es la función de distancia, tiempo E/Ses el tiempo requerido para el acceso a memoria secundaria y tiempo CPU el tiempo consumidopor el procesador [Chávez et al., 2001].

T = NCD× complejidad de d() + tiempo CPU + tiempo E/S (4.1)

En muchas aplicaciones evaluar la función d() puede ser tan costoso que los demás com-ponentes son descartados. El Número de Cálculos de Distancia (NCD) se mide en base a la com-plejidad de los algoritmos. Se puede asumir un trabajo de CPU lineal siempre que el númerode cálculos de distancia sea bajo. La importancia del tiempo E/S depende de la cantidad dememoria principal disponible y el costo relativo de calcular la función de distancia. Entonces,para poder minimizar T es necesario reducir el NCD.

Es entonces necesario diseñar algoritmos de indexación eficientes que reduzcan el NCD.En general, estas estructuras pueden resultar costosas de construir, pero el costo de construcciónes compensado por la reducción de cálculos de distancia en las consultas posteriores.

Ingeniería Informática - UCSP 41

4.3. Algoritmos de búsqueda

4.3. Algoritmos de búsqueda

Los Métodos de Acceso Métrico son estructuras que trabajan sobre espacios métricos,organizando los datos para responder eficientemente a consultas por similitud. De acuerdo con[Zezula et al., 2006], los MAMs pueden ser clasificados en:

Particionamiento de esferas: Fixed Queries Tree [Baeza-Yates et al., 1994], Vantage PointTree [Uhlmann, 1991].

Particionamiento de hiperplanos: Generalized Hyper-plane Tree [Uhlmann, 1991].

Distancias Precomputadas: Omni-Family [Filho et al., 2001], Approximating and Elimi-nating Search Algorithm [Ruiz, 1986].

Métodos híbridos: GNAT [Brin, 1995], Spatial Approximation Tree [Navarro, 2002], Mul-ti Vantage Point Tree [Bozkaya and Ozsoyoglu, 1997].

Otros métodos: M-Tree [Ciaccia et al., 1997], Slim-Tree [Caetano Traina et al., 2000], D-Index [Dohnal et al., 2003].

La Figura 4.2 muestra otra clasificación de los Métodos de Acceso Métrico propuesta en[Chávez et al., 2001], aquí se clasifican a los métodos de búsqueda en: basados en agrupamientoy basados en pivotes. Los métodos basados en agrupamiento particionan el espacio en regionesrepresentadas por un centroide o centro de grupo, para luego poder descartar regiones completascuando se hace una búsqueda. Los métodos basados en pivotes seleccionan un conjunto deelementos como pivotes, y construyen un índice en base a las distancias entre cada elemento ylos pivotes.

Se pueden encontrar buenas referencias sobre clasificación y definición de los MAMsen [Chávez et al., 2001], [Hjaltason and Samet, 2003] y [Clarkson, 2006]. A continuación sedescriben sólo algunos métodos de la gran variedad existente.

4.3.1. Burkhard-Keller Tree

La estructura Burkhard-Keller Tree (BKT) [Burkhard and Keller, 1973] inicialmente se-lecciona un elemento arbitrario p ∈ U como la raíz del árbol. Para cada distancia i > 0, sedefine Ui = {u ∈ U, d(u, p) = i} como el conjunto de todos los elementos a distancia i dela raíz p, y para cada Ui no vacío, se construye un hijo de p (etiquetado i) para luego recur-sivamente construir el BKT para Ui. Este método es conveniente para funciones de distanciadiscreta.

Ingeniería Informática - UCSP 42

CAPÍTULO 4. Métodos de Acceso Métrico

Figura 4.2: Taxonomía de algoritmos en base a sus características [Chávez et al., 2001]

4.3.2. Vantage-Point Tree

El árbol Vantage-Point Tree (VPT) presentado por Uhlmann en [Uhlmann, 1991] fue dis-eñado para funciones de distancia continua. VPT construye recursivamente un árbol binario se-leccionando también un elemento arbitrario p ∈ U como raíz y la mediana todas las distancias,M = mediana{d(p, u)/u ∈ U}. Los elementos a distancia menor o igual a M son insertadosen el subárbol izquierdo, mientras que los mayores a M son insertados en el subárbol derecho.

4.3.3. M-Tree

La estructura de datos M-Tree [Ciaccia et al., 1997] provee capacidades dinámicas (con-strucción gradual) y un buen manejo de E/S además de un reducido número de cálculos dedistancia. Es un árbol donde se selecciona un conjunto de elementos representativos en cadanodo y el elemento más cercano a cada representativo es organizado en el subárbol cuya raíz esel elemento representativo. Cada representativo almacena su radio de cobertura.

Al hacer una consulta el elemento de consulta es comparado con todos los representativosdel nodo y el algoritmo de búsqueda entra recursivamente en los nodos no descartados usandoel criterio del radio de cobertura.

La principal diferencia en M-Tree con métodos anteriores es el algoritmo de inserción. Los

Ingeniería Informática - UCSP 43

4.3. Algoritmos de búsqueda

elementos son insertados en el “mejor” subárbol, definido como aquel subárbol que minimicela expansión del radio de cobertura. El elemento es luego agregado al nodo hoja. En caso deoverflow se divide el nodo dos y se lleva un elemento del nodo a un nivel superior, obteniendouna estructura de datos balanceada.

4.3.4. Slim-Tree

Slim-Tree propuesto por Traina en [Caetano Traina et al., 2000] es un MAM dinámico ybalanceado con una estructura básica similar al M-Tree donde los datos se almacenan en losnodos hoja. Slim-Tree crece de abajo a arriba, de las hojas a la raíz, organizando los objetos enun estructura jerárquica que usa un representativo como el centro de cada región que cubre losobjetos en el sub-árbol.

Las principales características son la introducción de un nuevo algoritmo de división einserción así como el algoritmo Slim-down [Caetano Traina et al., 2000] y una medida de so-breposición llamada Fat-factor par la construcción de árboles más rápidos. El algoritmo dedivisión está basado en el MST [Kruskal, 1956], desempeñándose más rápidamente que otrosalgoritmos de división y sin sacrificar el rendimiento de las consultas. Además, el algoritmode inserción produce un considerable mayor uso de almacenamiento. El algoritmo Slim-downes introducido para reducir el grado de sobreposición, haciendo al árbol más estrecho y por lotanto mejorando el desempeño de las consultas y de la construcción, trabajando con memoriaprincipal o secundaria.

4.3.5. Omni-Tree

La familia de métodos Omni [Filho et al., 2001] trabaja de forma similar a la estructuraLAESA [Micó L., 1994], pero a diferencia de ésta, Omni propone el algoritmo HF para la se-lección estratégica de un subconjunto de objetos del conjunto de datos para ser usados comopuntos de referencia globales u Omni-coordenadas, definidas como el conjunto de distancias deun objeto a cada uno de los focos generalmente accesibles a través de una matriz con distanciasprecalculadas. Una vez que las Omni-coordenadas son calculadas y almacenadas, pueden serutilizadas para reducir el número de cálculos de distancia.

4.3.6. DBM-Tree

Un método de acceso más reciente, DBM-Tree (del inglés Density Based Metric-Tree)[Marcos R. Viera and Traina, 2004] presenta un funcionamiento similar a Slim-Tree, pero fueel primero en proponer un relajo en la altura de las regiones del árbol con alta densidad dedatos para poder reducir aún más la sobreposición de nodos. Aunque generando árboles nobalanceados, esta aproximación logra reducir el número de cálculos de distancia sin afectar elnúmero de accesos a disco.

Ingeniería Informática - UCSP 44

CAPÍTULO 4. Métodos de Acceso Métrico

Actualmente existe una gran bibliografía sobre métodos de acceso, cada uno presentandonuevas mejoras en la eficiencia de los algoritmos de búsqueda y construcción. Para la presenteinvestigación se han considerado las técnicas Slim-Tree y Omni-Secuencial, detalladas en lassiguientes secciones.

4.4. Slim-Tree

Slim-Tree [Caetano Traina et al., 2000] es un MAM dinámico. La estructura de datos bási-ca de esta técnica es similar a la de otros árboles como el M-Tree [Ciaccia et al., 1997], dondelos datos son almacenados en las hojas y se construye una jerarquía de abajo hacia arriba.Slim-Tree difiere de los demás Métodos de Acceso Métrico en los algoritmos de división e in-serción que utiliza. El algoritmo de división es más rápido que otros algoritmos y sin sacrificarel rendimiento de las consultas, además, el algoritmo de inserción hace un considerable mayoruso del almacenamiento. El principal aporte es la introducción del algoritmo Slim-down, quemantiene al árbol compacto y rápido en la etapa de post-procesamiento.

Slim-Tree es un árbol dinámico y balanceado que crece de las hojas a la raíz, organizandolos objetos en una estructura jerárquica y utilizando un nodo representativo como centro de cadaregión que cubre a los objetos en un sub-árbol. Este árbol posee dos tipos de nodos: nodos dato(hojas) y nodos índice, ambos con un tamaño de página predefinido que almacena un númeromáximo de objetos.

4.4.1. Funcionamiento

En el algoritmo de construcción de Slim-Tree, cuando se agrega un nuevo objeto, primerose busca al nodo que cubra a este objeto empezando desde la raíz. En caso de no encontrarseun nodo que cumpla con esta condición, se selecciona un sub-árbol siguiendo uno de estostres métodos: 1) selección aleatoria de uno de los nodos, 2) selección del nodo cuyo centro(también llamado centriode) posea la mínima distancia al objeto, o 3) selección del nodo quetenga la mínima ocupación de entre los nodos calificados. Este proceso se aplica recursivamenteen todos los niveles del árbol.

Cuando un nodo se desborda se crea uno nuevo en el mismo nivel y se distribuyen losobjetos entre los nodos, insertándose en el nodo padre. Si el nodo raíz se divide se crea unanueva raíz y el árbol crece un nivel.

Para la división de los nodos se proponen tres algoritmos:

Aleatorio , donde los dos nuevos centroides son seleccionados aleatoriamente y los objetosexistentes son distribuidos entre ellos, cada objeto es almacenado en el nuevo nodo cuyocentro está más cerca.

minMax , donde se consideran todos los pares de objetos como representativos potenciales.

Ingeniería Informática - UCSP 45

4.4. Slim-Tree

(a) Nodo antes de la división. (b) MST construido con los obje-tos del nodo.

(c) Nodos después de la división.

Figura 4.3: División de nodos con el algoritmo MST [Caetano Traina et al., 2000].

Para cada par, se asignan los objetos a un representativo por medio de un algoritmo lineal,escogiendo el par que minimice el radio convergente.

Minimal Spanning Tree (MST) [Kruskal, 1956], donde se construye el MST de los objetos y sedesecha el arco más largo del árbol. Gracias al algoritmo de división basado en MST,Slim-Tree logra una partición rápida de los nodos en dos grupos que posteriormente re-ducirán los tiempos de búsqueda.

El Algoritmo 2 [Caetano Traina et al., 2000] describe el funcionamiento de la división denodos usando MST. El algoritmo considera un grafo de C objetos y C(C − 1) aristas, dondeel peso de las aristas hacen referencia a la distancia entre los objetos conectados. La Figura 4.3muestra de forma gráfica este proceso de división.

Algoritmo 2: Algoritmo de división MST1: Construir el MST de los C objetos.2: Eliminar la arista más larga.3: Reportar los objetos conectados como dos grupos.4: Escoger el objeto representativo de cada grupo, por ejemplo el objeto con la menor distancia

máxima a los demás objetos del grupo.

Adicionalmente, mediante la aplicación del algoritmo Slim-down, Slim-Tree logra pro-ducir árboles estrechos y con un reducido grado de sobreposición entre nodos (overlapping).El Algoritmo 3 [Caetano Traina et al., 2000] describe el proceso del algoritmo Slim-down. LaFigura 4.4 muestra gráficamente el resultado obtenido por este algoritmo.

Algoritmo 3: Algoritmo Slim-down1: Para cada nodo i en un nivel determinado del árbol, buscar el objeto c más lejano de

su centroide.2: Buscar al nodo j hermano de i que también contenga al objeto c, si tal nodo existe,

quitar c del nodo i e insertarlo en el nodo j, corrigiendo los radios del nodo i.

Ingeniería Informática - UCSP 46

CAPÍTULO 4. Métodos de Acceso Métrico

(a) Nodos antes de aplicar el algo-ritmo de Slim-down.

(b) Nodos después de aplicar elalgoritmo de Slim-down.

Figura 4.4: Funcionamiento del algoritmo Slim-down [Caetano Traina et al., 2000].

3: Repetir los pasos 1 y 2 secuencialmente en todos los nodos de un nivel determinadodel árbol. Si en el proceso se produjo un movimiento de objetos de un nodo a otro,repetir los pasos 1 y 2 de nuevo en todos los nodos del nivel.

Las regiones de los nodos pueden sobreponerse unas con otras, fenómenos conocido comooverlaping, incrementando el número de caminos a recorrer al realizar una consulta, y porlo tanto incrementando el número de cálculos de distancia efectuados. Esta deficiencia se veclaramente mejorada en el Slim-Tree.

4.5. Omni-Secuencial

La técnica Omni [Filho et al., 2001] hacen uso de un conjunto de puntos de referencia lla-mados “focos"para reducir el número de cálculos de distancia. Cada vez que se inserta un nuevoelemento se calculan las distancias de este elemento hacia cada uno de los focos, informaciónque es luego utilizada en las consultas para reducir los cálculos de distancia haciendo uso de lapropiedad de la desigualdad triangular vista anteriormente.

Esta técnica introducen los conceptos de Omni-focos y Omni-coordenadas. Los Omni-focos son definidos como el conjunto F de distintos puntos que pertenecen al espacio métrico.Las Omni-coordenadas son definidas como el conjunto de distancias calculadas entre cada pun-to del espacio métrico y cada elemento de F , por lo tanto la cardinalidad de la coordenada esigual al número de focos. El costo adicional de calcular las Omni-coordenadas es compensadopor el ahorro obtenido en las consultas.

Uno de los puntos críticos en esta técnica es la selección del conjunto de focos F y sucardinalidad. Con respecto a la cardinalidad, y como puede ser observado en la Figura 4.5, conun mayor número de focos se puede reducir más el subconjunto de candidatos, acelerando elproceso de búsqueda, pero se requiere mayor espacio y tiempo para procesarlos. Los autoresrecomiendan una cardinalidad no mayor al doble de la dimensionalidad intrínseca de los datosya que a un mayor número de focos se obtiene un pequeño o ningún beneficio.

Ingeniería Informática - UCSP 47

4.6. Consideraciones finales

(a) Sin uso de focostodo el conjunto dedatos es candidato.

(b) Usando un foco elsubconjunto de datoscandidatos (área som-breada) se reduce.

(c) Subconjunto decandidatos usando dosfocos.

Figura 4.5: Selección de los candidatos para una consulta de rango con diferentes cardinalidadesde F [Filho et al., 2001].

Para la selección de los focos se recomienda seleccionar puntos lo más separado posibley equidistantes. Se propone el algoritmo HF para esta tarea. Este algoritmo primero seleccionaun objeto aleatoriamente y luego selecciona como primer foco al objeto más alejado de este.El segundo foco es el elemento más distante el primer foco. Por último se selecciona comosiguiente foco a aquel objeto con distancias más similares a los focos anteriores, este procesose repite hasta seleccionar todos los focos. El proceso completo está descrito en el Algoritmo 4[Filho et al., 2001].

Algoritmo 4: Algoritmo HF1: Seleccionar aleatoriamente un elemento s0 del conjunto de datos.2: Encontrar el elemento f1 más lejano a s0 y seleccionarlo como foco.3: Encontrar el elemento f2 más lejano a f1 y seleccionarlo como foco.4: Encontrar el elemento f1 más lejano a si y seleccionarlo como foco.5: Establecer edge = d(f1, f2), variable usada para encontrar a los demás focos.6: Mientras se necesiten encontrar más focos repetir los pasos 7 y 8.7: Para cada punto si del conjunto de datos calcular:

errori =∑

kkesfoco|edge− d(fk, si)|.

8: Seleccionar como foco al elemento si que posea el menor errori y que no haya sido selec-cionado anteriormente como foco.

4.6. Consideraciones finales

Las búsquedas por similitud vienen siendo ampliamente usadas en muchas áreas de lasciencias de la computación como minería de datos, bioinformática y compresión de vídeo paracitar sólo algunas. Los Métodos de Acceso Métrico han probado ser excelentes estructuras pararesolver este tipo de consultas específicas ya que han sido diseñados para trabajar sobre espaciosmétricos reduciendo los costos de búsqueda.

Debido a que el cálculo de la función de distancia en sí puede tener un costo computa-

Ingeniería Informática - UCSP 48

CAPÍTULO 4. Métodos de Acceso Métrico

cional alto, se asume que el desempeño de los MAMs depende principalmente del Número deCálculos de Distancia realizado durante los procesos de construcción y búsqueda. Trabajandocon grandes bases de datos, el número de accesos a disco es un factor que también debe serconsiderado.

La principal limitación de estos métodos es la falta de aprendizaje de las consultas anteri-ores [Cuadros-Vargas, 2004], es decir, no aprovechan el conocimiento generado por las consul-tas anteriores para reducir el tiempo de respuesta de consultas futuras.

En la literatura existente se pueden encontrar varios MAMs, pero Slim-Tree y los métodosOmni presentan ciertas características que los destacan en relación a métodos anteriores.

Ingeniería Informática - UCSP 49

Capítulo 5

Técnica MAM-SOM para agrupamientode datos

5.1. Consideraciones iniciales

Como se vio en capítulos anteriores, el proceso de entrenamiento de los mapas auto-organizables se ve drásticamente perjudicado por a la búsqueda secuencial que realizan, siendoesta una de las deficiencia más críticas al momento de trabajar con grandes conjuntos de datos.Si adicionalmente consideramos la alta dimensionalidad de los datos y la complejidad de lafunción de distancia, el uso de un entrenamiento secuencial en tareas de agrupamiento de datosresultaría altamente costoso.

El creciente uso de grandes conjuntos de datos altamente complejos ha generado la necesi-dad de técnicas que optimicen considerablemente el procesamiento con redes neuronales. Eninvestigaciones recientes se han desarrollado la familia de técnicas MAM-SOM y SAM-SOM[Cuadros-Vargas, 2004]. Estas técnicas proponen el uso de Métodos de Acceso Métrico (MAM)y Métodos de Acceso Espacial (MAE), o en inglés Spatial Access Method (SAM), para mejo-rar el rendimiento de redes Self-Organizing Maps (SOM) [Bedregal and Cuadros-Vargas, 2006,Ocsa et al., 2007].

La presente propuesta hará referencia a las técnicas MAM-SOM por el uso de Métodos deAcceso Métrico, pero cabe destacar que la implementación y características permanecen igualesa la familia SAM-SOM, es decir, usando Métodos de Acceso Espacial.

5.2. Trabajos Previos

El objetivo de utilizar métodos de acceso en el entrenamiento de las redes SOM es poderremplazar la tradicional búsqueda secuencial de la neurona ganadora por una búsqueda másrápida. Al reducir el número de comparaciones entre patrones presentados y neuronas en la

50

CAPÍTULO 5. Técnica MAM-SOM para agrupamiento de datos

red se obtiene, entre otras cosas, un entrenamiento menos costoso. Implementando una técnicaMAM-SOM es posible mejorar considerablemente la ejecución del proceso de entrenamientode la red y potenciar sus capacidades.

En el caso de las redes SOM, cada vez que un patrón es presentado, éste es comparadocon cada unidad en la red con el fin de determinar a la neurona cuyo vector de pesos sea el máscercano al patrón. Considerando que este proceso se repite un determinado número de ciclos, eltotal Número de Cálculos de Distancia (NCD) realizados durante el entrenamiento estaría dadopor la Ecuación 5.1, donde NU es el número de unidades, NP el número de patrones y NC elnúmero de ciclos de entrenamiento de la red.

NCD = NU ×NP ×NC (5.1)

En el caso de SOMs constructivas el número de unidades de la red varía a través deltiempo. En la mayoría de estas redes el crecimiento está determinado por medio del parámetroλ o tasa de inserción. Este parámetro indica que, cada λ patrones presentados a la red, una nuevaunida será creada. Por ejemplo, si λ = 100 entonces cada vez que se presenten 100 patrones ala red, se insertará una nueva neurona. El total de cálculos de distancia requeridos para construiruna red con n unidades está determinado por la Ecuación 5.2, donde NU0 es el número inicialde unidades.

NDCCSOM = λn(n− 1)−NU0(NU0 − 1)

2(5.2)

Analicemos el caso específico de la red Growing Neural Gas (GNG) [Fritzke, 1995] uti-lizada en la propuesta. Esta red inicia su topología con dos unidades en posiciones aleatorias,entonces, para el caso de λ = 1 el primer patrón será comparado con dos unidades, el segundocon tres unidades, el tercero con cuatro y así sucesivamente de manera que, para encontrar launidad ganadora para el n-ésimo patrón, se realizarán n + 1 comparaciones. De acuerdo conla Ecuación 5.2, el número total de cálculos de distancia para construir una red GNG con Nunidades estaría dado por la Ecuación 5.3 [Cuadros-Vargas, 2004].

NCDGNG = λN2 −N − 2

2(5.3)

De la Ecuación 5.3 se observa que el parámetro λ es un factor crítico para el número totalde comparaciones hechas por la red, entonces el caso que minimice la ecuación sería λ = 1.Como fue señalado en el algoritmo de entrenamiento de GNG, cuando una nueva neurona escreada, su vector de pesos y error local son interpolados a partir de las dos unidades con mayorerror acumulado. Por lo tanto, al trabajar con valores de λ pequeños la red no tiene el tiemposuficiente para adaptar las nuevas unidades a la distribución de datos, y como es altamenteprobable que estas unidades nunca resulten ganadoras, serían inútiles para la red, generandoredes deformadas como se observa en la Figura 5.1. Por otro lado, si se establece un valor muyalto para λ el NCD se elevaría considerablemente y la red podría tardar demasiado en entrenar.La Figura 5.1 muestra gráficamente el impacto de la variable λ en la red.

Ingeniería Informática - UCSP 51

5.3. Técnicas MAM-SOM

(a) 10000 patrones, λ = 500. (b) 10000 patrones, λ = 100. (c) 1000 patrones, λ = 10.

Figura 5.1: Impacto del valor λ en la red GNG [Cuadros-Vargas and Romero, 2005].

En agrupamiento de datos, donde se trabajan con grandes cantidades de datos multidimen-sionales, el tiempo de construcción de un clasificador de este tipo puede llegar a ser en excesolento. Con la finalidad de poder reducir el NCD realizados para el entrenamiento de redes SOMse propone la técnica MAM-SOM descrita a continuación.

5.3. Técnicas MAM-SOM

Como se mencionó anteriormente, las técnicas MAM-SOM son producto de la incorpo-ración de Métodos de Acceso Métrico (MAM) en redes SOM. El objetivo es aprovechar lascaracterísticas de los métodos de acceso para optimizar la construcción de la red neuronal.

Además de la búsqueda secuencial de la neurona ganadora, otra limitación de las redesSOM es la falta de capacidad para responder a consultas más precisas como la de k-vecinosmás cercanos o búsquedas por rango, consultas que resultarían costas de responder debido ala constante modificación de las regiones descritas por la red [Cuadros-Vargas, 2004]. Por lotanto, al incorporar un Métodos de Acceso Métrico en la red, se provee de una estructura capazde responder eficientemente este tipo de consultas, facilitando de esta manera la recuperaciónde información similar a un determinado patrón.

Dependiendo del grado de incorporación del método de acceso, dos familias de técnicasMAM-SOM fueron propuestas por Cuadros-Vargas en [Cuadros-Vargas, 2004]: MAM-SOMHíbrida y MAM-SOM*.

5.3.1. MAM-SOM Híbrida

La familia MAM-SOM Híbrida utiliza al MAM como una estructura independiente a lared, remplazando la búsqueda secuencial de la unidad ganadora (propia de las redes SOM) poruna búsqueda más rápida y eficiente (proporcionada por el método de acceso). El MAM permite

Ingeniería Informática - UCSP 52

CAPÍTULO 5. Técnica MAM-SOM para agrupamiento de datos

además responder a consultas de proximidad con un menor costo.

Cada unidad es insertada o eliminada en la red y en el método de acceso para preservarla correspondencia en ambas estructuras. La adaptación de pesos de las neuronas se realiza deacuerdo al algoritmo de la red, actualizando adicionalmente las unidades correspondientes enla estructura métrica para que cada unidad de la red sea exactamente reflejada en la estructuramétrica. Nótese que el costo adicional de construcción y actualización de datos en el método deacceso es recuperado en la reducción en cálculos de distancia.

5.3.2. MAM-SOM*

En la familia MAM-SOM* el método de acceso ha sido incorporado completamente en lared, generando una nueva familia de técnicas con interesantes propiedades. Para la construcciónde las técnicas MAM-SOM* se considera agregar una nueva unidad a la red por cada patrón quesea presentado, conectándola además a un determinado número de vecinos como se muestra enel Algoritmo 5. Debido a que el vector de pesos de la nueva unidad es igual al patrón presentado,no existe proceso de actualización de pesos, entonces la auto-organización de la red se da en elproceso de construcción, necesitándose sólo un ciclo de entrenamiento.

El dilema de estabilidad-plasticidad [Grossberg, 1972] es abordado por las técnicas MAM-SOM*. La estabilidad se refiere a que ningún patrón presentado a la red cambie de categoría alo largo del proceso de entrenamiento de la red, es decir, que no active diferentes unidades desalida en diferentes instantes de tiempo. La plasticidad por otro lado se refiere a la habilidadde adaptarse a nuevos datos, incorporando nuevo conocimiento sin afectar el aprendido ante-riormente. Para solucionar el problema de la estabilidad,cada patrón es asignado a una únicaneurona, eliminando la necesidad de actualización de pesos sin sacrificar el rendimiento ni lageneralización.

El Algoritmo 5 fue propuesto en [Cuadros-Vargas and Romero, 2002] describe la con-strucción de la técnica MAM-SOM*. El algoritmo considera el parámetro NeighborhoodSize(también representado por φ) que determina el número de vecinos más cercanos que seránconectados con la nueva unidad.

Algoritmo 5: Algoritmo de entrenamiento MAM-SOM*1: Inicializar la red vacía;2: InvDistSum = 0;3: Presentar el patrón ξi a la red;4: Crear una nueva unidad para ξi y agregarla a la estructura métrica;5: Para ξi, encontrar los φ-vecinos más cercanos (n1, n2, . . . , nφ) usando la estructura métrica;6: Conectar la unidad creada con ξi a nj , ∀j = 1, 2, . . . , φ;7: InvDistSum+ = 1

Distancia(ξi,nφ);

8: TamanoRecomendado = iInvDistSum

;9: Si existen más patrones regresar al paso 3.

Ingeniería Informática - UCSP 53

5.4. Propiedades de las técnicas MAM-SOM

(a) Estructura antes del proceso de poda. (b) Poda de conexiones con τ = 2,5.

Figura 5.2: Ejemplo del proceso de poda de conexiones de las técnicas MAM-SOM* con 5000patrones y NeighborhoodSize = 3 [Cuadros-Vargas and Romero, 2002].

Debido a que inicialmente el método de acceso posee pocas unidades, es posible que enesta etapa el Algoritmo 5 conecte unidades alejadas por ser consideradas vecinas. Es necesarioaplicar un proceso de poda para poder eliminar conexiones entre unidades muy distantes que noaportan información valiosa a la estructura, ajustando así la red a la distribución de datos. En elproceso de poda se eliminan las conexiones con longitud mayor a τ × TamanoRecomendado,donde τ es un parámetro de refinamiento que permite controlar la longitud de las conexionesque se podarán. El efecto de este proceso de poda puede apreciarse en la Figura 5.2.

Con el parámetro de control τ es posible encontrar agrupamientos dentro de la red. Estoes, afinando el valor de τ se van podando las conexiones de la red para encontrar grupos deunidades aisladas por similitud.

5.4. Propiedades de las técnicas MAM-SOM

La principal característica de las técnicas MAM-SOM Híbridas es la aceleración del pro-ceso de selección de la unidad ganadora, brindando la posibilidad de trabajar con redes muchomás grandes y bases de datos más complejas. Además, la recuperación de información porconsultas de similitud es soportada gracias al método de acceso.

Considerando el escenario de las técnicas MAM-SOM*, donde cada patrón es represen-tado por una unidad, podemos observar las siguientes propiedades son [Cuadros-Vargas, 2004]:

Escalabilidad: mayor número de unidades pueden ser creadas en la red.

Menor costo computacional: incluso trabajando con más unidades, el costo computa-cional es considerablemente menor que las redes SOM.

Refleja la distribución de datos: el algoritmo genera unidades nuevas de acuerdo con ladistribución de datos y no por interpolación.

Mayor información de las conexiones: las conexiones pueden contener la información dela distancia entre unidades.

Ingeniería Informática - UCSP 54

CAPÍTULO 5. Técnica MAM-SOM para agrupamiento de datos

Mayor información para detección de agrupamientos: considerando que la función de dis-tancia representa la disimilitud entre elementos se podrían eliminar conexiones mayores,generando dos grupos separados.

Mayor estabilidad-plasticidad: un patrón siempre es representado por la misma neurona,además la inserción de nuevos patrones no provoca la pérdida del conocimiento adquirido.

Aprendizaje incremental: el modelo permite la inserción de nuevos elementos en cualquierinstante, sin la necesidad de reinicializar el proceso.

Independencia del orden: gracias al Métodos de Acceso Métrico la estructura generadano depende del orden de inserción de datos.

5.5. Estructuras propuestas para la técnica MAM-SOM

Durante su entrenamiento, las redes SOM crean agrupamientos de patrones con carac-terísticas similares de forma natural. Para agrupamiento de datos con el modelo de Kohonen, elestablecer el número de grupos anticipadamente podría limitar la calidad de agrupamiento delalgoritmo, ya que, al ser una tarea de análisis exploratorio, no sabemos con precisión cuantosgrupos pueden contener los datos. Por lo tanto, se propone trabajar con la red neuronal construc-tiva Growing Neural Gas (GNG) [Fritzke, 1995] por ser una red constructiva representativa.

Por otra parte, en el campo de Métodos de Acceso Métrico, los algoritmos se enfocanen reducir el número de cálculos de distancia (o por lo menos el tiempo de CPU), descartandoconsideraciones de E/S [Chávez et al., 2001]. El MAM M-Tree [Ciaccia et al., 1997], destacópor ser un árbol balanceado especialmente diseñado para trabajar en memoria secundaria. Unamejora de M-Tree, Slim-Tree [Caetano Traina et al., 2000], introduce un algoritmo de divisiónde nodos más rápido, un nuevo algoritmo de inserción con mejor aprovechamiento del alma-cenamiento y el algoritmo Slim-down [Caetano Traina et al., 2000] que mantiene al árbol com-pacto; presentando un tiempo de consulta 35 % menor [Caetano Traina et al., 2000] que M-Tree.La aplicación del Omni-concept [Filho et al., 2001] en los métodos de acceso de la familia Omni[Filho et al., 2001] mejoraron hasta diez veces su desempeño en tiempo de respuesta y cálculosde distancia, con una implementación simple. Se propone entonces trabajar con las técnicasSlim-Tree y Omni-Secuencial.

El proceso de agrupamiento de datos utilizando las técnicas MAM-SOM Híbrida y MAM-SOM* con las estructuras propuestas se detalla en la siguiente sección.

5.6. Agrupamiento con MAM-SOM

En la tarea de agrupamiento de datos se tiene un conjunto de elementos que desean seragrupados en base a la similitud existente entre ellos,

Ingeniería Informática - UCSP 55

5.6. Agrupamiento con MAM-SOM

Siguiendo el procedimiento descrito en la Figura 2.2 del Capítulo 2, inicialmente se tienenun conjunto de datos a los que se aplican técnicas de extracción o selección de característicaspara encontrar la mejor forma de representar cada uno de los datos a través de un vector de car-acterísticas de tamaño n; este vector representa al objeto deseado en un espacio n-dimensional.Los conjuntos de datos empleados en la investigación ya han pasado por este proceso de extrac-ción de características.

Una vez obtenidos los vectores de características, es decir, el conjunto de patrones querepresentan a los elementos, se debe seleccionar la métrica o medida de similitud que se utilizarápara la comparación de los patrones. El conocimiento que se tenga del dominio de datos esun factor determinante en la selección de la métrica. En esta investigación se trabajará con laDistancia Euclidiana para medir la disimilitud entre objetos.

Luego se entrena al clasificador con el conjunto de patrones obteniendo como salida unlos agrupamientos. Para esta investigación se utilizarán a las técnicas MAM-SOM como clasi-ficadores del proceso de agrupamiento de datos. Para el caso específico de la técnica MAM-SOM*, cada unidad de la red es asociada con un elemento de la estructura métrica, y el agru-pamiento estará dado por la poda gradual de conexiones como se discutió en la Sección 5.3.2.

En el caso de la técnica MAM-SOM Híbrida usando la red Growing Neural Gas (GNG)y la estructura métrica Slim-Tree, la clasificación es determinada por la red neuronal debido aque el entrenamiento de la red sigue siendo el mismo. Para crear la relación entre el métodode acceso y la red neuronal se establece una correspondencia entre las neuronas de la red ylos datos almacenados en la estructura métrica. A medida que se va construyendo la red lasneuronas son indexadas y organizadas por el MAM, logrando que la búsqueda de la neuronaganadora se haga a través de la estructura métrica y ya no de forma secuencial.

En el entrenamiento de la técnica MAM-SOM Híbrida, siguiendo el algoritmo de la redGNG, cada vez que se presenta un patrón o señal de entrada, se buscan las dos unidades más cer-canas al patrón efectuando una búsqueda de los 2-vecinos más cercanos a través de Slim-Tree.Como inicialmente la red posee dos unidades, ambas son seleccionadas para la actualización.Al actualizar los pesos de la neurona ganadora y de sus vecinas topológicas (las que posean unaconexión con la neurona ganadora), se debe reflejar también este movimiento de unidades enel método de acceso, modificando o actualizando los elementos correspondientes dentro de laestructura. A medida que se van presentando más señales de entrada se van insertando nuevasunidades en base al parámetro λ debido a que GNG es una red constructiva. Adicionalmente es-ta inserción debe hacerse en Slim-Tree. Igualmente, la remoción de unidades de la red (aquellassin conexiones) debe realizarse en Slim-Tree para que durante todo el proceso de entrenamientolas unidades de la red estén exactamente reflejadas en la estructura métrica. El proceso continúahasta que el criterio de parada establecido se haya satisfecho. El resultando es un agrupamientomás rápido y, principalmente, escalable.

Como se señala en el algoritmo de construcción de técnicas MAM-SOM* (Algoritmo 5),para cada señal de entrada se crea una nueva unidad que representa a dicha señal igualándola alvector de pesos de la unidad. Esta nueva unidad es insertada en Slim-Tree, y debido a que cadaunidad representa a un único patrón, no hay necesidad de actualización de pesos ni de ciclos deentrenamiento adicionales. Seguidamente se conecta la unidad con sus φ-vecinos más cercanos

Ingeniería Informática - UCSP 56

CAPÍTULO 5. Técnica MAM-SOM para agrupamiento de datos

en base al parámetro NeighborhoodSize (los vecinos son encontrados mediante el método deacceso). Estas conexiones almacenan la distancia entre las unidades que conectan, informaciónsumamente útil para realizar consultas posteriores.

Durante el proceso, la variable TamanoRecomendado se actualiza para almacenar unamedida recomendada para el tamaño máximo de las conexiones en base a las distancias de cadaunidad a su vecinos más cercano. Esta variable, junto al parámetro τ , permite la poda de aristascon distancias muy grandes como se ve en la Figura 5.2.

Después de haber construido la estructura MAM-SOM*, la poda gradual de conexionesmodificando el valor de τ permite encontrar agrupamientos basados en similitud.

5.7. Consideraciones finales

Las técnicas MAM-SOM [Cuadros-Vargas, 2004] fueron propuestas para optimizar el usode redes SOM, técnicas muy populares para tareas de agrupamiento de datos. Es entonces posi-ble construir un clasificador en base a las técnicas MAM-SOM que resultaría útil para agru-pamiento de grandes conjuntos de datos ya que tienen un mejor desempeño en comparación delas redes SOM en su forma original.

La técnica MAM-SOM híbrida ofrece un entrenamiento más rápido que las técnicasSOM. Al introducir métodos de acceso métrico en la red, se remplaza la búsqueda secuencial dela neurona ganadora por una búsqueda más eficiente, además de permitir consultas específicascomo de k-vecinos más cercanos y de rango.

La técnica MAM-SOM* ofrece una estructura enriquecida con conexiones que almacenandistancias entre elementos que, sumado a sus características especiales, provee de informaciónaltamente útil para la formación de grupos.

Ingeniería Informática - UCSP 57

Capítulo 6

Experimentos

6.1. Consideraciones iniciales

En base a las ideas presentadas en esta investigación se realizaron nuevos experimentosutilizando recientes métodos de acceso. Los experimentos se realizaron en una PC de escritoriocon procesador Intel Celeron 1.8 GHz y 512 MB de memoria RAM.

Los experimentos fueron divididos en tres grupos principales:

Comparación entre la técnica MAM-SOM Híbrida y GNG,

Comparación entre la técnica MAM-SOM* y GNG, y

Comparación entre las técnicas MAM-SOM*, MAM-SOM Híbrida y GNG,

En todos los experimentos el desempeño de cada técnica fue medido en términos delNúmero de Cálculos de Distancia (NCD) realizados en el proceso de construcción como fuediscutido en el capítulo anterior.

6.2. Bases de datos

Se consideraron seis bases de datos de áreas representativas de aprendizaje de máquina:

IRAS: La base de datos de InfraRed Astronomy Satellite contiene 531 instancias 103-dimensio-nales de espectros en baja resolución obtenidas de un satélite de astronomía.

DIGITS: Esta base de datos de dígitos manuscritos creada para el reconocimiento de dígitosfue obtenida de 44 escritores. Contiene 7494 instancias 16-dimensionales.

58

CAPÍTULO 6. Experimentos

SPAM: Base de datos de datos para la detección de correos electrónicos masivos. Contiene4601 instancias 57-dimensionales.

NURSERY: Esta base de datos contiene 12960 instancias 8-dimensionales derivadas de unmodelo de decisiones jerárquico desarrollado para calificar solicitudes a escuelas de en-fermería.

COVERT: Esta base de datos contiene registros de las características de terreno en diferentesbosques en América. Se trabajará con un subconjunto de 50000 instancias 54-dimensiona-les del conjunto original de 581012 vectores.

IMAGES: Esta base de datos contiene 6000 instancias 1215-dimensionales de la base originalde 80000 vectores obtenida de la extracción de características de imágenes del ProyectoInformedia de la Universidad Carnegie Mellon.

Las bases de datos IRAS, DIGITS, SPAM, NURSERY y COVERT fueron obtenidas delRepositorio de bases de datos para el aprendizaje de máquina y teorías de dominio de la Uni-versidad de Californa - Irvine 1.

6.3. Primer grupo

En el primer grupo de experimento se utilizaron las bases de datos IRAS, DIGITS y SPAMpara comparar las técnicas MAM-SOM Híbrida GNG+Slim-Tree y la red GNG. Se consideróel NCD acumulado en dos escenarios: en relación al número de agrupamientos obtenido yen relación al número de patrones presentados a las redes. Los parámetros utilizados para elentrenamiento de la red en ambas técnicas fueron: λ = 600, α = 0,5, β = 0,0005, am = 300,µb = 0,05 y µn = 0,006.

6.3.1. Discusión en relación al número de agrupamientos

La Figura 6.1 muestra resultados obtenidos de este primer grupo de experimentos con-siderando la eficiencia de las técnicas en relación al número de unidades creadas a lo largo delproceso de construcción de las redes para las tres bases de datos. Debe notarse que a mayornúmero de unidades en la red es posible trabajar con bases de datos más grandes, pudiéndoseademás obtener agrupamientos más compactos. Se distingue claramente la ventaja que presen-ta la técnica GNG+Slim-Tree sobre su contraparte secuencial debido a que la búsqueda de laneurona ganadora se hace mediante la estructura de datos y ya no secuencialmente.

1ftp://ftp.ics.uci.edu/pub/machine-learning-databases/

Ingeniería Informática - UCSP 59

6.3. Primer grupo

1400000

1200000

1000000

800000

600000

400000

200000

403224168

Num

ero

de c

alcu

los

de d

ista

ncia

Numero de unidades

GNG secuencialGNG con Slim-Tree

(a) NCD por unidad en la red en el proceso de construc-ción utilizando la base de datos IRAS (103-d).

7000000

6000000

5000000

4000000

3000000

2000000

1000000

100908070605040302010

Num

ero

de c

alcu

los

de d

ista

ncia

Numero de unidades

GNG secuencialGNG con Slim-Tree

(b) NCD por unidad en la red en el proceso de construc-ción utilizando la base de datos DIGITS (16-d).

20000000

18000000

16000000

14000000

12000000

10000000

8000000

6000000

4000000

2000000

100908070605040302010

Num

ero

de c

alcu

los

de d

ista

ncia

Numero de unidades

GNG secuencialGNG con Slim-Tree

(c) NCD por unidad en la red en el proceso de construc-ción utilizando la base de datos SPAM (57-d).

Figura 6.1: Comparación del Número de Cálculos de Distancia acumulado de la red GrowingNeural Gas y la técnica MAM-SOM GNG+Slim-Tree a lo largo del proceso de entrenamientode la red en relación al número de agrupamientos generados.

Ingeniería Informática - UCSP 60

CAPÍTULO 6. Experimentos

6.3.2. Discusión en relación al número de patrones

Dentro del primer grupo de experimentos también se evaluó el desempeño de las dostécnicas en relación al número de patrones presentados a las redes, registrando la variación delNúmero de Cálculos de Distancia a lo largo del proceso de entrenamiento. Un bajo NCD indicala capacidad de escalabilidad de la técnica, es decir, es posible aplicarla en bases de datos másgrandes y complejas. La Figura 6.2 muestra los resultados obtenidos en estos experimentos. Unavez más la técnica propuesta presentó un desempeño notablemente mejor que al red neuronaloriginal al aplicarse en las tres bases de datos.

6.4. Segundo grupo

En el segundo grupo de experimentos se compara la red GNG esta vez con la técnicaMAM-SOM* Slim-Tree. Nuevamente se considera al NCD como medida de eficiencia en lossiguientes escenarios: considerando el número de patrones presentados a la red y considerandoel número de conexiones creadas por la técnica. En este grupo de experimentos no se hace unacomparación en relación al número de unidades creadas ya que ambas estructuras tendrán elmismo tamaño: una unidad por patrón presentado.

Las bases de datos utilizadas en este grupo de experimentos fueron las mimas del grupoanterior: COVERT, DIGITS y SPAM. Para GNG los parámetros de entrenamiento de la redtambién permanecieron constantes, a excepción del parámetro λ que fue establecido en 1 paraobtener el mismo comportamiento en ambas técnicas, ya que en MAM-SOM* cada patrón esasignado a una única neurona. Para MAM-SOM* se estableció NeighborhoodSize = 3.

6.4.1. Discusión en relación al número de conexiones

En la Figura 6.3 se observan los resultados obtenidos para el primer escenario propuesto:NCD acumulado en relación al número de conexiones creadas por las redes. Se consideraráel número de conexiones creadas ya que éstas proporcionarán la información necesaria parael descubrimiento de agrupamientos: a mayor número de conexiones, habrá más informaciónde distancias entre objetos y una mejor detección de agrupamientos y respuesta a consultas desimilitud. Entonces, es notable la mejora que representan las técnicas MAM-SOM* frente a losmodelos clásicos de redes neuronales.

6.4.2. Discusión en relación al número de patrones

Adicionalmente, y de manera similar al primer grupo de experimentos, se midió el desem-peño de las dos técnicas en base al Número de Cálculos de Distancia acumulado en relación alnúmero de patrones presentados. Los resultados fueron los esperados: un drásticamente menor

Ingeniería Informática - UCSP 61

6.4. Segundo grupo

600000

500000

400000

300000

200000

100000

1500012000900060003000

Num

ero

de c

alcu

los

de d

ista

ncia

Numero de patrones presentados

GNG secuencialGNG con Slim-Tree

(a) NCD por patrón presentado en el proceso de construc-ción utilizando la base de datos IRAS (103-d).

5000000

4000000

3000000

2000000

1000000

5000040000300002000010000

Num

ero

de c

alcu

los

de d

ista

ncia

Numero de patrones presentados

GNG secuencialGNG con Slim-Tree

(b) NCD por patrón presentado en el proceso de con-strucción utilizando la base de datos DIGITS (16-d).

10000000

8000000

6000000

4000000

2000000

10000080000600004000020000

Num

ero

de c

alcu

los

de d

ista

ncia

Numero de patrones presentados

GNG secuencialGNG con Slim-Tree

(c) NCD por patrón presentado en el proceso de construc-ción utilizando la base de datos SPAM (57-d).

Figura 6.2: Comparación del Número de Cálculos de Distancia acumulado de la red GrowingNeural Gas y la técnica MAM-SOM GNG+Slim-Tree a lo largo del proceso de entrenamientode la red en relación al número de patrones presentados.

Ingeniería Informática - UCSP 62

CAPÍTULO 6. Experimentos

1200

1000

800

600

400

200

40032024016080

Num

ero

de c

onex

ione

s cr

eada

s

Numero de unidades

GNG secuencialMAM-SOM* Slim-Tree

(a) NCD por conexión creada utilizando la base de datosIRAS (103-d).

25000

20000

15000

10000

5000

70005600420028001400

Num

ero

de c

onex

ione

s cr

eada

s

Numero de unidades

GNG secuencialMAM-SOM* Slim-Tree

(b) NCD por conexión creada utilizando la base de datosDIGITS (16-d).

18000

15000

12000

9000

6000

3000

4000320024001600800

Num

ero

de c

onex

ione

s cr

eada

s

Numero de unidades

GNG secuencialMAM-SOM* Slim-Tree

(c) NCD por conexión creada utilizando la base de datosSPAM (57-d).

Figura 6.3: Comparación del Número de Cálculos de Distancia acumulado de la red GrowingNeural Gas y la técnica MAM-SOM* Slim-Tree en relación al número de conexiones creadas.

Ingeniería Informática - UCSP 63

6.5. Tercer grupo

NCD de la técnica MAM-SOM* Slim-Tree, indicador no sólo de su eficiencia si no de la capaci-dad de ser aplicada a bases de datos mucho más grandes y complejas. La Figura 6.4 muestra losresultados obtenidos en estos experimentos.

6.5. Tercer grupo

Por último, el tercer grupo de experimentos hace una comparación de la eficiencia de lastécnicas considerando el número de patrones presentados usando las bases de datos COVERT,IMAGES y NURSERY. Las técnicas utilizadas son GNG, MAM-SOM Híbrida GNG+Slim-Tree, MAM-SOM* Slim-Tree y MAM-SOM* Omni-Secuencial.

Para obtener una comparación más precisa entre las técnicas se estableció el valor de λen 1 para GNG y MAM-SOM Híbrida. De este modo se obtiene el mismo comportamiento entodas las técnicas, ya que en MAM-SOM* cada patrón es asignado a una única neurona.

Las Figuras 6.5, 6.6 y 6.7 muestran los resultados obtenidos en términos del NCD acu-mulado de cada técnica. Es posible notar que al inicio del proceso la técnica MAM-SOM*implementada con Omni-Secuencial posee un alto NCD debido al costo de construcción de lamatriz de Omni-coordenadas. Como se puede observar, en todos los casos la red GNG obtuvoel mayor número NCD.

El Cuadro 6.1 registra los resultados obtenidos en el conjunto de datos COVERT, mostran-do la eficiencia de hasta 85,46 % obtenida por las técnicas MAM-SOM Híbrida y MAM-SOM*en comparación a la implementación secuencial de GNG.

Cuadro 6.1: Comparación de resultados para la base de datos COVERT (54-d)

Técnica NCD Acumulado % ganadoGNG secuencial 1600159995GNG+Slim-Tree 298019806 81,38 %

MAM-SOM* Slim-Tree 232737830 85,46 %MAM-SOM* Omni-Secuencial 653171081 59,18 %

El Cuadro 6.2 muestra los resultados obtenidos en el conjunto de datos IMAGES. Nueva-mente la técnica GNG obtuvo el NCD más elevado. También puede observarse que las técnicasMAM-SOM* mostraron una gran ventaja sobre ambas implementaciones de GNG con unaeficiencia mayor al 50 % con respecto a GNG secuencial y mayor al 30 % con respecto a laimplementación con Slim-Tree. Puede entonces inferirse el buen rendimiento de estas técnicasen altas dimensiones.

El cuadro 6.3 muestra los resultados obtenidos en el conjunto de datos NURSERY. Laeficiencia de las técnicas MAM-SOM es significativamente mejor que la técnica GNG, inclusoen bajas dimensiones.

Ingeniería Informática - UCSP 64

CAPÍTULO 6. Experimentos

180000

160000

140000

120000

100000

80000

60000

40000

20000

40032024016080

Num

ero

de c

alcu

los

de d

ista

ncia

Numero de unidades

GNG secuencialMAM-SOM* Slim-Tree

(a) NCD por patrón presentado utilizando la base dedatos IRAS (103-d).

50000000

45000000

40000000

35000000

30000000

25000000

20000000

15000000

10000000

5000000

70005600420028001400

Num

ero

de c

alcu

los

de d

ista

ncia

Numero de unidades

GNG secuencialMAM-SOM* Slim-Tree

(b) NCD por patrón presentado utilizando la base dedatos DIGITS (16-d).

18000000

16000000

14000000

12000000

10000000

8000000

6000000

4000000

2000000

4000320024001600800

Num

ero

de c

alcu

los

de d

ista

ncia

Numero de unidades

GNG secuencialMAM-SOM* Slim-Tree

(c) NCD por patrón presentado utilizando la base dedatos SPAM (57-d).

Figura 6.4: Comparación del Número de Cálculos de Distancia acumulado de la red GrowingNeural Gas y la técnica MAM-SOM* Slim-Tree en relación al número de patrones presentados.

Ingeniería Informática - UCSP 65

6.5. Tercer grupo

500000000

400000000

300000000

200000000

100000000

5000040000300002000010000

Num

ero

de c

alcu

los

de d

ista

ncia

Numero de patrones

GNG secuencialGNG con Slim-Tree

MAM-SOM* Slim-TreeMAM-SOM* Omni-Secuencial

Figura 6.5: Comparación del Número de Cálculos de Distancia acumulado por patrón presenta-do usando la base de datos COVERT (54-d)

30000000

24000000

18000000

12000000

6000000

600050004000300020001000

Num

ero

de c

alcu

los

de d

ista

ncia

Numero de patrones

GNG secuencialGNG con Slim-Tree

MAM-SOM* Slim-TreeMAM-SOM* Omni-Secuencial

Figura 6.6: Comparación del Número de Cálculos de Distancia acumulado por patrón presenta-do usando la base de datos IMAGES (1215-d)

34000000

26000000

18000000

10000000

2000000

1200010500900075006000450030001500

Num

ero

de c

alcu

los

de d

ista

ncia

Numero de patrones

GNG secuencialGNG con Slim-Tree

MAM-SOM* Slim-TreeMAM-SOM* Omni-Secuencial

Figura 6.7: Comparación del Número de Cálculos de Distancia acumulado por patrón presenta-do usando la base de datos NURSERY (8-d)

En el tercer grupo de experimentos, el rendimiento de la técnica MAM-SOM* Omni-Secuencial se ve afectada por el cálculo de las omni-coordenadas y principalmente por la cardi-

Ingeniería Informática - UCSP 66

CAPÍTULO 6. Experimentos

Cuadro 6.2: Comparación de resultados para la base de datos IMAGES (1215-d)

Técnica NCD Acumulado % ganadoGNG secuencial 36023995GNG+Slim-Tree 26600212 26,16 %

MAM-SOM* Slim-Tree 14682611 59,24 %MAM-SOM* Omni-Secuencial 17717785 50,82 %

Cuadro 6.3: Comparación de resultados para la base de datos NURSERY (8-d)

Técnica NCD Acumulado % ganadoGNG secuencial 144047995GNG+Slim-Tree 15165159 89,47 %

MAM-SOM* Slim-Tree 22266439 84,54 %MAM-SOM* Omni-Secuencial 72522291 49,65 %

nalidad del conjunto de focos. Como se vio en el Capítulo 4, para optimizar el rendimiento deesta técnica se debe seleccionar un número adecuado de focos en relación a la dimensionalidadde los datos. En todos los experimentos se trabajo con una cardinalidad igual al doble de ladimensión del espacio.

6.6. Experimentos adicionales

6.6.1. Discusión con respecto a los agrupamientos

La poda gradual de conexiones es el proceso propuesto para el hallazgo de agrupamientosen las técnicas MAM-SOM*. Debido a que en estas técnicas las conexiones almacenan la dis-tancia entre objetos, los agrupamientos encontrados estarán basados en un criterio de similitud,formando agrupamientos compactos y aislados.

La Figura 6.8 explica claramente el proceso de agrupamiento para un conjunto de puntosen 2 dimensiones. Como se puede observar, el decremento del parámetro τ permite encontraragrupamientos cada vez más pequeños y compactos.

6.6.2. Discusión con respecto al tiempo consumido

Para reforzar la hipótesis, se hicieron pruebas adicionales en relación al tiempo consumidoal aplicar las técnicas sobre el conjunto de datos SPAM. Los parámetros de la red permanecieronconstantes a excepción del parámetro λ y la edad máxima de conexión, que fueron cambiados a

Ingeniería Informática - UCSP 67

6.6. Experimentos adicionales

(a) Estructura inicial antes de aplicar la poda. (b) Poda de conexiones con τ = 10.

(c) Poda de conexiones con τ = 5. (d) Poda de conexiones con τ = 2,5.

Figura 6.8: Reducción gradual del parámetro τ para encontrar agrupamientos en un conjuntodatos sintéticos de 1000 puntos en dos dimensiones. NeighborhoodSize = 3.

Ingeniería Informática - UCSP 68

CAPÍTULO 6. Experimentos

1500 y 1600 respectivamente para comprobar el impacto del incremento del parámetro λ en elproceso de construcción de la red como se discutió en la Sección 5.2 del capítulo anterior.

La técnica Growing Neural Gas tardó 325.8 segundos en construir una red con 100unidades, lo cual es considerablemente más costos que la técnica GNG+Slim-tree quedemoró 205.6 segundos para la construcción de la misma red también con 100 unidades.Entonces, la técnica MAM-SOM Híbrida realizó la misma tarea en un tiempo 37 % menorque GNG.

Por otro lado, la técnica MAM-SOM* Slim-Tree aplicada en el mismo conjunto de datosdemoró sólo 95.2 segundos para la construcción de una estructura de 4601 unidades. Eltiempo requerido para obtener una estructura de las mismas dimensiones por una redGNG con el parámetro λ = 1 fue 4.5 veces mayor.

Ingeniería Informática - UCSP 69

Capítulo 7

Conclusiones y Trabajos Futuros

7.1. Conclusiones

Las características de organización de datos propia de los métodos de acceso y las propie-dades de generalización y aprendizaje de las redes neuronales, hacen de las familias MAM-SOM técnicas altamente eficientes en tareas de clasificación y recuperación de información.

Para la familia de técnicas MAM-SOM híbridas existen varias combinaciones posibles deredes neuronales del tipo Self-Organizing Maps y Métodos de Acceso Métrico. Por lo tanto, esposible aprovechar las características propias de dos estructuras al mismo tiempo, haciendo deesta familia una herramienta versátil por su aplicación en casi cualquier dominio de datos. Elresultado obtenido de estas técnicas en tareas de agrupamiento es cualitativamente igual al dela red neuronal utilizada independientemente.

La familia MAM-SOM* provee de una representación exacta de los datos con un costocomputacional mucho menor a las redes neuronales SOM sin sacrificar rendimiento ni general-ización. En este caso es posible trabajar con una gran variedad de métodos de acceso buscandoseleccionar al mejor método para el dominio de datos. Las características de los métodos deacceso permanecen inmutables, pero gracias a la alta conectividad existente en estas técnicas,se agregan más beneficios a los ya heredados.

Las tareas de agrupamiento de datos utilizando técnicas MAM-SOM* se dan estricta-mente en base al concepto de similitud. Debido a que las conexiones almacenan las distanciasentre patrones, la información de similitud está siempre disponible, información útil tanto parala detección de grupos como para la rápida recuperación de información en consultas de prox-imidad.

Las técnicas MAM-SOM ofrecen una estructura que acelera el proceso de entrenamientode las redes SOM, acelerando también la construcción del clasificador en tareas de agrupamien-to y brindando una estructura con la capacidad de responder a consultas de similitud de formamás eficiente.

70

CAPÍTULO 7. Conclusiones y Trabajos Futuros

Gracias a las técnicas MAM-SOM, es ahora posible trabajar con grandes conjuntos dedatos sin perjudicarse con altos tiempos y costos de procesamiento, incluso trabajando en altasdimensiones.

7.2. Contribuciones

En esta investigación se propuso el uso de las técnicas MAM-SOM para tareas de agru-pamiento de datos. Al demostrarse la eficiencia de estas técnicas, constituyen una excelenteherramienta para tareas de agrupamiento de grandes conjuntos de datos.

Debido a que las redes SOM vienen siendo ampliamente utilizadas en tareas de agru-pamiento de datos, el uso de las técnicas MAM-SOM beneficiará a comunidades científicascomo las de inteligencia artificial, reconocimiento de patrones, minería de datos y recuperaciónde información.

7.3. Problemas encontrados

Al trabajar con dos estructuras relacionadas (la red neuronal y el método de acceso), lacomplejidad de la implementación es mayor a el uso independiente de las mismas, debiéndoseconsiderar en todo momento la correspondencia de datos existente entre ambas estructuras.

Se debe considerar que para la mayoría de técnicas existe un proceso de afinamientoprevio a la aplicación para optimizar su rendimiento.

7.4. Recomendaciones

El conocimiento que se tenga sobre el dominio de datos es un factor influyente tanto en ladeterminación de la técnica de agrupamiento, como en la representación de patrones, selecciónde métricas y en especial en la evaluación de resultados.

Es recomendable realizar un análisis previo a la aplicación del proceso de agrupamientopara determinar la viabilidad y/o beneficios que se pueden obtener.

7.5. Trabajo futuro

Esta investigación puede servir como referencia para la creación de nuevas variantes delas familias MAM-SOM para su aplicación en tareas de agrupamiento de grandes conjuntos dedatos.

Ingeniería Informática - UCSP 71

7.5. Trabajo futuro

Debido a los beneficios de las técnicas MAM-SOM*, se plantean aplicar nuevas políticaspara el hallazgo de agrupamientos, así como realizar una evaluación cualitativa de los resulta-dos.

Para un trabajo futuro se planea aplicar técnicas MAM-SOM en un problema específicode agrupamiento de datos.

Ingeniería Informática - UCSP 72

Bibliografía

[Alahakoon et al., 1998] Alahakoon, D., Halgamuge, S. K., and Srinivasan, B. (1998). A struc-ture adapting feature map for optimal cluster representation. In International Conference onNeural Information Processing ICONIP98, pages 809–812.

[Arifin and Asano, 2006] Arifin, A. Z. and Asano, A. (2006). Image segmentation by histogramthresholding using hierarchical cluster analysis. Pattern Recognition Letters, 27(13):1515–1521.

[Baeza-Yates et al., 1994] Baeza-Yates, R. A., Cunto, W., Manber, U., and Wu, S. (1994). Prox-imity matching using fixed-queries trees. In Crochemore, M. and Gusfield, D., editors, Pro-ceedings of the 5th Annual Symposium on Combinatorial Pattern Matching, pages 198–212,Asilomar, CA. Springer-Verlag, Berlin.

[Bedregal and Cuadros-Vargas, 2006] Bedregal, C. and Cuadros-Vargas, E. (2006). Using largedatabases and self-organizing maps without tears. In Proceedings of the International JointConference on Neural Networks (IJCNN06). IEEE.

[Bentley, 1979] Bentley, J. L. (1979). Multidimensional Binary Search Trees in Database Ap-plications. IEEE Transactions on Software Engineering, 5(4):333–340.

[Bishop, 1995] Bishop, C. M. (1995). Neural networks for pattern recognition. Oxford.

[Blackmore and Miikkulainen, 1993] Blackmore, J. and Miikkulainen, R. (1993). Incrementalgrid growing: Encoding high-dimensional structure into a two-dimensional feature map. InProceedings of the International Conference on Neural Networks ICNN93,, volume I, pages450–455, Piscataway, NJ. IEEE Service Center.

[Bozkaya and Ozsoyoglu, 1997] Bozkaya, T. and Ozsoyoglu, M. (1997). Distance-based in-dexing for high-dimensional metric spaces. In SIGMOD ’97: Proceedings of the 1997 ACMSIGMOD International Conference on Management of data, pages 357–368, New York, NY,USA. ACM Press.

[Breuel, 2001] Breuel, T. M. (2001). Classification by probabilistic clustering. In ICASSP ’01:Proceedings of the Acoustics, Speech, and Signal Processing, 200. on IEEE InternationalConference, pages 1333–1336, Washington, DC, USA. IEEE Computer Society.

[Brin, 1995] Brin, S. (1995). Near neighbor search in large metric spaces. In The VLDB Jour-nal, pages 574–584.

73

BIBLIOGRAFÍA

[Burkhard and Keller, 1973] Burkhard, W. A. and Keller, R. M. (1973). Some approaches tobest-match file searching. Commun. ACM, 16(4):230–236.

[Caetano Traina et al., 2000] Caetano Traina, J., Traina, A. J. M., Seeger, B., and Faloutsos,C. (2000). Slim-trees: High performance metric trees minimizing overlap between nodes.In Proceedings of the 7th International Conference on Extending Database TechnologyEDBT00, pages 51–65, London, UK. Springer-Verlag.

[Carpenter and Grossberg, 1988] Carpenter, G. A. and Grossberg, S. (1988). The art of adap-tive pattern recognition by a self-organizing neural network. Computer, 21(3):77–88.

[Chávez et al., 2001] Chávez, E., Navarro, G., Baeza-Yates, R., and Marroquín, J. (2001).Proximity searching in metric spaces. ACM Computing Surveys, 33(3):273–321.

[Ciaccia et al., 1997] Ciaccia, P., Patella, M., and Zezula, P. (1997). M-tree: An efficient accessmethod for similarity search in metric spaces. In The VLDB Journal, pages 426–435.

[Clarkson, 2006] Clarkson, K. L. (2006). Nearest-neighbor searching and metric space dimen-sions. In Shakhnarovich, G., Darrell, T., and Indyk, P., editors, Nearest-Neighbor Methodsfor Learning and Vision: Theory and Practice, pages 15–59. MIT Press.

[Cuadros-Vargas, 2004] Cuadros-Vargas, E. (2004). Recuperação de informação por similar-idade utilizando técnicas inteligentes. PhD thesis, Department of Computer Science - Uni-versity of Sao Paulo. in portuguese.

[Cuadros-Vargas and Romero, 2005] Cuadros-Vargas, E. and Romero, R. A. F. (2005). Intro-duction to the SAM-SOM* and MAM-SOM* families. In Proceedings of the InternationalJoint Conference on Neural Networks (IJCNN05). IEEE.

[Cuadros-Vargas and Romero, 2002] Cuadros-Vargas, E. and Romero, R. F. (2002). The SAM-SOM Family: Incorporating Spatial Access Methods into Constructive Self-OrganizingMaps. In Proceedings of the International Joint Conference on Neural Networks IJCNN02,pages 1172–1177, Hawaii, HI. IEEE Press.

[Dittenbach et al., 2000] Dittenbach, M., Merkl, D., and Rauber, A. (2000). The Growing Hi-erarchical Self-Organizing Map. In Amari, S., Giles, C. L., Gori, M., and Puri, V., editors,Proc of the International Joint Conference on Neural Networks (IJCNN 2000), volume VI,pages 15 – 19, Como, Italy. IEEE Computer Society.

[Dohnal et al., 2003] Dohnal, V., Gennaro, C., Savino, P., and Zezula, P. (2003). D-index: Dis-tance searching index for metric data sets. Multimedia Tools Appl., 21(1):9–33.

[Dubes, 1993] Dubes, R. C. (1993). Cluster analysis and related issues. pages 3–32.

[Duda et al., 2000] Duda, R. O., Hart, P. E., and Stork, D. G. (2000). Pattern Classification.Wiley-Interscience Publication.

[Filho et al., 2001] Filho, R. F. S., Traina, A. J. M., Jr., C. T., and Faloutsos, C. (2001). Similar-ity search without tears: The OMNI family of all-purpose access methods. In InternationalConference on Data Engineering ICDE01, pages 623–630.

Ingeniería Informática - UCSP 74

BIBLIOGRAFÍA

[Fritzke, 1995] Fritzke, B. (1995). A growing neural gas network learns topologies. In Tesauro,G., Touretzky, D. S., and Leen, T. K., editors, Advances in Neural Information ProcessingSystems 7, pages 625–632. MIT Press, Cambridge MA.

[Grossberg, 1972] Grossberg, S. (1972). Neural expectation: Cerebellar and retinal analogs ofcells fired by learnable or unlearned pattern classes. kyb, 10:49–57.

[Guttman, 1984] Guttman, A. (1984). R-Trees: A dynamic index structure for spatial search-ing. In Yormark, B., editor, Proceedings of Annual Meeting, Boston, Massachusetts SIG-MOD84, June 18-21, 1984, pages 47–57. ACM Press.

[Hand et al., 2001] Hand, D. J., Smyth, P., and Mannila, H. (2001). Principles of data mining.MIT Press, Cambridge, MA, USA.

[Haykin, 1994] Haykin, S. (1994). Neural networks: a comprehensive foundation. PrenticeHall.

[Hjaltason and Samet, 2003] Hjaltason, G. R. and Samet, H. (2003). Index-driven similaritysearch in metric spaces. ACM Trans. Database Syst., 28(4):517–580.

[Jain and Dubes, 1988] Jain, A. K. and Dubes, R. C. (1988). Algorithms for clustering data.Prentice-Hall, Inc., Upper Saddle River, NJ, USA.

[Jain et al., 2000] Jain, A. K., Duin, R. P. W., and Mao, J. (2000). Statistical pattern recognition:A review. IEEE Trans. Pattern Anal. Mach. Intell., 22(1):4–37.

[Jain et al., 1996] Jain, A. K., Mao, J., and Mohiuddin, K. M. (1996). Artificial neural net-works: A tutorial. IEEE Computer, 29(3):31–44.

[Jain et al., 1999] Jain, A. K., Murty, M.Ñ., and Flynn, P. J. (1999). Data clustering: a review.ACM Computing Surveys, 31(3):264–323.

[Kohonen, 1982] Kohonen, T. (1982). Self-organized formation of topologically correct featuremaps. Biological Cybernetics, 43:59–69.

[Kohonen, 1988] Kohonen, T. (1988). Self-organized formation of topologically correct featuremaps. pages 509–521.

[Kohonen, 1998] Kohonen, T. (1998). Self-organization of very large document collections:State of the art. In Niklasson, L., Bodén, M., and Ziemke, T., editors, ICANN, volume 1,pages 65–74, London. Springer.

[Kruskal, 1956] Kruskal, J. B. (1956). On the shortest spanning subtree of a graph and thetraveling salesman problem. Proceedings of the American Mathematical Society, 7:48–50.

[Lagus et al., 1999] Lagus, K., Honkela, T., Kaski, S., and Kohonen, T. (1999). Websom fortextual data mining. Artificial Intelligence Rev., 13(5-6):345–364.

[Lowe, 2001] Lowe, D. (2001). Local feature view clustering for 3d object recognition.

Ingeniería Informática - UCSP 75

BIBLIOGRAFÍA

[Marcos R. Viera and Traina, 2004] Marcos R. Viera, Caetano Traina Fr., F. J. T. C. and Traina,A. J. (2004). DBM-tree: A dynamic metric access method sensitive to local density data.Brazilian Symposium on Databases.

[Martinetz and Schulten, 1994] Martinetz, T. and Schulten, K. (1994). Topology representingnetworks. Neural Networks, 7(3):507–522.

[Micó L., 1994] Micó L., Oncina J., V. E. (1994). A new version of the nearest-neighbourapproximating and eliminating search algorithm (AESA) with linear preprocessing time andmemory requirements. Pattern Recognition Letters, 15:9–17.

[Navarro, 2002] Navarro, G. (2002). Searching in metric spaces by spatial approximation. TheVLDB Journal, 11(1):28–46.

[Ocsa et al., 2007] Ocsa, A., Bedregal, C., and Cuadros-Vargas, E. (2007). DB-GNG: A con-structive self-organizing map based on density. In Proceedings of the International JointConference on Neural Networks (IJCNN07). IEEE.

[Prudent and Ennaji, 2005] Prudent, Y. and Ennaji, A. (2005). A k nearest classifier design.ELCVIA, 5(2):58–71.

[Rueda and Qin, 2005] Rueda, L. and Qin, L. (2005). An unsupervised learning scheme fordna microarray image spot detection.

[Ruiz, 1986] Ruiz, E. V. (1986). An algorithm for finding nearest neighbours in (approximate-ly) constant average time. Pattern Recognition Letters, 4(3):145–157.

[Tombros et al., 2002] Tombros, A., Villa, R., and Rijsbergen, C. J. V. (2002). The effective-ness of query-specific hierarchic clustering in information retrieval. Inf. Process. Manage.,38(4):559–582.

[Uhlmann, 1991] Uhlmann, J. K. (1991). Satisfying general proximity/similarity queries withmetric trees. Inf. Process. Lett., 40(4):175–179.

[Vesanto and Alhoniemi, 2000] Vesanto, J. and Alhoniemi, E. (2000). Clustering of the self-organizing map. IEEE-NN, 11(3):586.

[Waibel et al., 1990] Waibel, A., Hanazawa, T., Hinton, G., Shikano, K., and Lang, K. J. (1990).Phoneme recognition using time-delay neural networks. pages 393–404.

[Watanabe, 1985] Watanabe, S. (1985). Pattern recognition: human and mechanical. JohnWiley & Sons, Inc., New York, NY, USA.

[White, 1992] White, R. H. (1992). Competitive hebbian learning: algorithm and demonstra-tions. Neural Networks, 5(2):261–275.

[Xu et al., 2006] Xu, L., Qian, B., Cheng, W., and Tang, Z. (2006). Research on automaticspeaker recognition based on speech clustering. In ICICIC ’06: Proceedings of the FirstInternational Conference on Innovative Computing, Information and Control, pages 105–108, Washington, DC, USA. IEEE Computer Society.

Ingeniería Informática - UCSP 76

BIBLIOGRAFÍA

[Zezula et al., 2006] Zezula, P., Amato, G., Dohnal, V., and Batko, M. (2006). Similarity Search- The Metric Space Approach, volume 32. Springer.

Ingeniería Informática - UCSP 77