clase de analisis de conglomerados prof. eunice siso. ucv

26
UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE HUMANIDADES Y EDUCACIÓN ESCUELA DE GEOGRAFÍA ASIGNATURA: ANÁLISIS DE COMPONENTES PRINCIPALES Clase Nº 8 O7 de mayo de 2012 Análisis de Conglomera (Clusters)

Upload: eunice-siso

Post on 21-Jul-2015

64 views

Category:

Documents


0 download

TRANSCRIPT

UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE HUMANIDADES Y EDUCACIN ESCUELA DE GEOGRAFA ASIGNATURA: ANLISIS DE COMPONENTES PRINCIPALES

Anlisis de Conglomerados (Clusters)

Clase N 8

O7 de mayo de 2012

Anlisis de ConglomeradosTiene por objeto agrupar individuos en gruposhomogneos en funcin de las similitudes entre ellos; de esta forma cada grupo estar constituido por un conjunto de individuos parecidos entre s, y diferentes al resto.

Anlisis de ConglomeradosSegn Snchez (1990) a travs del anlisis de conglomerados no se pretende explicar estadsticamente ningn fenmeno, sino clasificar una poblacin definida, por unas caractersticas determinadas, en un reducido nmero de grupos mutuamente exclusivos y exhaustivos

Caractersticas del Anlisis de ConglomeradosCada elemento pertenezca a uno, y solo uno de los grupos. Todos los elementos queden clasificados. Cada grupo sea internamente homogneo.

Los grupos creados sean heterogneos entre s.

Anlisis de Conglomerados

Mtodos Jerrquicos

Mtodos No Jerrquicos Algoritmo K-Medias

Algoritmo Aglomeracin Dendrograma

Algoritmo Divisin

Mtodos JerrquicosParten de una matriz de distancias o similaridades entre los elementos de la muestra y constituyen una jerarqua basada en estas distancias. Distancia eucldea, se utiliza cuando todas las variables son continuas.

Distancia EucldeaMide el parecido entre los individuos que han sido evaluados en el conjunto de variables mtricas (cuantitativas).La distancia eucldea para dos sujetos viene dada por:

Un problema de la distancia eucldea como medida de similaridad es su dependencia con las diferentes escalas en que estn medidas las variables.

Plano de Manhattan. La distancia euclidiana (segmento verde)

Ejemplo de Distancia EucldeaSupongamos la siguiente matriz de datos compuesta por las calificaciones de tres estudiantes, en cuatro asignaturas. 3 5 2 4 X= 1 0 3 5 9 10 2 5d12 (3 1) 2 (5 0) 2 (2 3) 2 (4 5) 2 5,57 d13 (3 9) 2 (5 10) 2 (2 2) 2 (4 5) 2 7,75 d 23 (1 9) 2 (0 10) 2 (3 2) 2 (5 5) 2 12,85

Matriz de Distancias E1 E2 E3 E1 0 E2 E3 5,57 7,75 0 12,85 0

Estandarizar la matriz de distancias.

Algoritmos Jerrquicos 1. De aglomeracin: Parten de los elementos individuales y los van agregando a grupos. 2. De divisin: Parten del conjunto de elementos y lo van dividiendo sucesivamente hasta llegar a los elementos individuales.

El DendrogramaEl dendrograma o rbol jerrquico es una representacin grfica del resultado del proceso de agrupamiento en forma de rbol El dendrograma es til cuando los datos tienen una estructura jerrquica, pero pude ser engaoso cuando se interpreta mecnicamente.

Caractersticas del Dendrograma1. En la parte inferior del grfico se disponen los n individuos iniciales. 2.Las uniones entre individuos se indican por tres lneas rectas. Dos dirigidas a los individuos que se unen, y que son perpendiculares al eje de los individuos, y una paralela a este eje, que se sita al nivel en que se unen. 3.La construccin del dendrograma finaliza cuando todos los individuos estn conectados por lneas rectas.

El DendrogramaClassifi cation hi erarchiq ue dir ecte Antimano La Veg a Cari cuao El Val le El Recr eo El Par aiso San Pedr o Santa Rosali a San Juan 23_Enero Coche Macar ao La Pastor a El Junq ui to La Candelari a Catedral Santa Ter esa San Ber nar dino San Ag ustn San Jos Altag r aci a

Mtodos no jerrquicos de clasificacinTienen por objeto formar un nmero de clases homogneas excluyentes, con mxima divergencia entre ellas.

Algoritmo K-MediasEl propsito de este algoritmo es dividir un grupo de n individuos con p variables, en un nmero de grupos prefijados k.

Donde : SCDG es la suma de cuadrados dentro de los grupos.

Este algoritmo supone variables cuantitativas y aunque puede aplicarse si existe un pequeo nmero de variables cualitativas, cuando muchas son atributos es mejor utilizar los mtodos jerrquicos.

Etapas del algoritmo K-Medias1. Seleccionar K puntos como centros de los grupos iniciales. 2.Calcular las distancias eucldeas de cada individuo a los centros de los K grupos, y asignar cada individuo al grupo de cuyo centro est ms prximo.

3.Definir un criterio de homogeneidad u optimalidad y comprobar si reasignando alguno de los individuos mejora el criterio.

Nmero de GruposEn la aplicacin del algoritmo k-medias se debe fijar el nmero de grupos. Criterio de homogeneidad: SCDG = 0 Nmero de grupos = Nmero de observaciones Realizar un Test F de reduccin de variabilidad. Realizar varias particiones y evaluar la inercia interna de los grupos y la inercia entre grupos.

Distribucin de las clases en los factores 1-2

Construccin de regiones a partir del Anlisis de Conglomerados

Dendrograma de Clasificacin Jerrquica DirectaClassifi cation hi erarchiq ue dir ecte Mi randa Distrito Capi tal Zulia Carabobo Arag ua Bolivar Anzoateg ui Lar a Nuev Espar ta a Yaracuy Cojedes Tachir a Mr ida Falcn Monag as Truj ill o Sucr e Varg as Portug uesa Gurico Bari nas Apur e Delta Amacuro Amazonas

Ruptura del rbol en seis clases

CLASE 1 2 3

N DE INDIVIDUOS 3 3 9

INDIVIDUOS INTEGRANTES DE LA CLASE Amazonas, Apure y Delta Amacuro Barinas, Gurico y Portuguesa

Cojedes, Falcn, Mrida, Monagas, Nueva Esparta, Sucre, Trujillo, Vargas y YaracuyAnzotegui, Aragua, Bolvar, Carabobo, Lara y Tchira Zulia Distrito Capital y Miranda

4 5 6

6 1 2

Fuente: Resultados tomados del SPAD.4.5. Coupure 'c' de l'arbre en 6 classes.

Distancia al centro de gravedad y valores de inerciaCLASE 1 Amazonas Apure Delta Amacuro DISTANCIA 5,6807 10,9659 2,6799 CLASE 2 Barinas Gurico Portuguesa DISTANCIA 4,1375 0,9328 4,2347 CLASE 3 Cojedes Falcn Mrida Monagas Nueva Esparta Sucre Trujillo Vargas Yaracuy DISTANCIA 1,3981 1,5004 1,8482 1,9069 5,8780 2,7576 2,1706 8,9752 2,2343 1,1946

INERCIA INTRACLASE

0,8053

INERCIA INTRACLASE

0,3877

INERCIA INTRACLASE

Fuente: Resultados tomados del SPAD.4.5. Decomposition de l'inertie.

Mayor valor

Distancia al centro de gravedad y valores de inerciaCLASE 4 Anzotegui Aragua Bolvar Carabobo Lara Tchira INERCIA INTRACLASE DISTANCIA 2,9190 1,1230 1,9596 5,5269 3,3583 3,5212 0,7670 INERCIA INTRACLASE 0,0000 INERCIA INTRACLASE 0,2422 CLASE 5 Zulia DISTANCIA 0,00000 CLASE 6 Distrito Capital Miranda DISTANCIA 2,9061 2,9062

Fuente: Resultados tomados del SPAD.4.5. Decomposition de l'inertie.

Clase ms homognea

Coordenadas de las clases y su distancia al centro de gravedad de los datosCLASE N INDIVIDUOS 3 3 9 6 1 2 COORDENADAS F1 F2 4,52 1,72 0,70 -2,06 -4,36 -5,53 -1,62 -0,64 1,18 -0,06 -3,98 -0,39 DISTANCIA

Clase 1 Clase 2 Clase 3 Clase 4 Clase 5 Clase 6

25,23 8,22 2,02 4,69 38,77 34,38

Fuente: Resultados tomados del SPAD.4.5. Coordonnees avant consolidation.

Concentracin Poblacional

Hacinamiento Critico

Distribucin de las clases en los factores 1 y 2

Hacinamiento

Concentracin Poblacional

mapa