3 - mineria de datos
TRANSCRIPT
Unidad 3: Minera de Datos
1
Temario1.- Proceso de Descubrimiento del Conocimiento (KDD) 2.- Tcnicas de Minera de Datos
2
Proceso KDD Es el proceso de usar la base de datos en conjunto con cualquier seleccin, proprocesamiento, sub-muestreo, y transformaciones de ella; para aplicar mtodos de minera de dato (algoritmos) y enumerar patrones desde ella; y para evaluar los productos de la minera de datos que identifican el subconjunto de patrones enumerados que llegarn a ser el conocimiento. El descubrimiento de conocimiento puede ser: de Prediccin: patrones para predecir comportamientos futuros. de Descripcin: patrones para explicar lo que sucede en un formato entendible por el ser humano.3
Proceso KDDPor qu la Minera de Datos?
4
Proceso KDD
5
Proceso KDDPor qu la Minera de Datos?
6
Proceso KDD
7
Preparacin de DatosImportancia Necesidad
Los datos de trabajo pueden ser impuros, y conducir a la extraccin de patrones/reglas poco tiles. Motivos: Datos incompletos. Datos con ruido. Datos inconsistentes.
8
Preparacin de DatosImportancia Necesidad
La preparacin de datos puede generar un conjunto de datos ms pequeo que el original, lo cual puede mejorar la eficiencia del proceso de minera de datos. Posibilidades: Seleccin relevante de datos: mediante eliminacin de registros duplicados, de anomalas, etc. Reduccin de datos: mediante seleccin de caractersticas, muestreo o seleccin de instancias, discretizacin.9
Preparacin de DatosImportancia Necesidad
La preparacin de datos genera datos de calidad, los cuales pueden conducir a patrones/reglas de calidad a travs de: Recuperacin de informacin perdida. Eliminacin de outliers. Resolucin de conflictos. 10
Preparacin de DatosActividades
Limpieza de datos: puede ser usada para llenar valores perdidos, suavizar datos con ruido, identificar outliers y corregir datos inconsistentes.
11
Preparacin de DatosActividades: Limpieza de Datos
Herramientas: Tabla de Resumen de atributos.
12
Preparacin de DatosActividades: Limpieza de Datos
Herramientas: Histograma.12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12
13
Preparacin de DatosActividades: Limpieza de Datos
Herramientas: Grficos de Dispersin (scatterplot).
Bivariante
Etiquetado
14
Reconocimiento
Matriz de Grficos de Dispersin
15
Preparacin de DatosActividades
Integracin de datos: combina datos desde mltiples fuentes para conformar un conjunto de datos coherente. Metadatos, anlisis de correlacin, deteccin de conflictos de datos y resolucin de heterogeneidad semntica, son tcnicas que contribuyen a una integracin adecuada.
16
Preparacin de DatosActividades
Transformacin de datos: tcnicas que llevan a los datos en formatos apropiados para el minado, como por ejemplo la normalizacin de los datos.
17
Preparacin de DatosActividades
Reduccin de datos: con el objetivo de obtener una representacin reducida de los datos, minimizando la prdida en el contenido de la informacin. Tcnicas posibles son la agregacin de cubos y de dimensiones, la compresin de datos, la reduccin de la numerosidad y la discretizacin.
18
Exploracin y Seleccin de DatosVista Minable
19
Exploracin y Seleccin de DatosVista Minable
en otras palabras responder Qu parte de los datos es pertinente analizar? vista minable. Qu tipo de conocimiento se desea extraer y cmo se debe presentar? tarea, mtodo y presentacin. Qu conocimiento puede ser vlido, novedoso e interesante? criterios de calidad. Qu conocimiento previo hace falta para realizar esta tarea? conocimiento previo.20
Exploracin y Seleccin de DatosReconocimiento de Datos
Actividades de Reconocimiento: del dominio y de los usuarios: reconocer el conocimiento que podra ser til, adems de intentar obtener las reglas ya existentes. Importante tambin determinar quien usar el conocimiento obtenido y qu tipo de representacin puede ser ms aconsejable. exploracin de los datos: para obtener una vista minable, lista para ser tratada por las herramientas de minera de datos.
21
Exploracin de Datos Tcnicas posibles: Visualizacin (previa) Agrupamiento exploratorio de seleccin horizontal y vertical Interfaces grficas de Consulta y Agregacin
22
Exploracin de DatosTcnica de Ejemplo : Visualizacin
Visualizacin: objetivos Aprovechar la gran capacidad humana de ver patrones, anomalas y tendencias a partir de imgenes y facilitar la comprensin de los datos. Ayudar al usuario a comprender ms rpida-mente patrones descubiertos automticamente por un sistema KDD.
23
Exploracin de DatosTcnica de Ejemplo : Visualizacin
Visualizacin: dos tipos Previa (Minera de Datos Visual): se utiliza para entender mejor los datos, y sugerir posibles patrones o qu tipo de herramienta de KDD utilizar. Posterior: al proceso de minera de datos, se utiliza para mostrar los patrones y entenderlos mejor.
24
Exploracin de DatosTcnica de Ejemplo : Visualizacin
Visualizacin Previa: ejemplos
Funciones de densidad tridimensionales25
Exploracin de DatosTcnica de Ejemplo : Visualizacin
Visualizacin Previa: ejemplos1 100 80 60 5 40 20 0 2 Serie1 Serie2 Serie3 Serie4
4
3
Grfica radial
26
Exploracin de DatosTcnica de Ejemplo : Visualizacin
Visualizacin Previa: ejemplos100,00% Other F
75,00%
Amer-Indian-Eskimo
50K Mean 50K
25,00%
Black
0,00% Age Number of years of study Race
White Sex
M Hours-per-week
Coordenadas Paralelas27
S13 S11 S9 S7 S5 Tbco. Clstrl. S3 Tnsn. Obsd. Alcl. Prcd. S1 Strss Rsg Casos
Factores
Coordenadas Paralelas
Representacin Icnica 28
Seleccin de Datos
29
Temario1.- Proceso de Descubrimiento del Conocimiento (KDD) 2.- Tcnicas de Minera de Datos
30
Proceso KDD
31
Tcnicas de la Minera de DatosMinera de DatosDescriptiva Predictiva
Visualizacin
Correlaciones y Dependencias
Deteccin de Anomalas
Clasificacin
Regresin Estadstica
Pronsticos
rboles de Decisin Asociacin Patrones Secuenciales Redes Neuronales Artificiales Segmentacin (Agrupamiento) Induccin de Reglas
Criterios Transversales: Mtodos Difusos Mtodos Evolutivos
Mquinas de Soporte Vectorial
Mtodos Bayesianos Mtodos basados en Casos y Vecindad
32
Minera de DatosTareas y MtodosTcnicas Mtodo Apriori Algoritmos Genticos y Evolutivos Anlisis Discriminante Multivariante Anlisis Factorial y de Componentes principales rboles de decisin: CART rboles de decisin: ID3, C4.5 rboles de decisin: otros Bayes Ingenuo (Naive) CobWeb, Two Step Kmeans Mquinas de Soporte Vectorial Redes de Kohonen Redes Neuronales Artificiales Reglas CN2 Regresin Lineal y Logartmica Regresin Logstica Vecinos ms cefcanos x x x x x x x x x x x x x x x x x x x x x x x x x x x x Correlaciones Descriptivas Reglas de Asociacin x x x x x x Segmentacin Predictivas Clasificacin Regresin
33
Reglas de Asociacin
34
AsociacinDefiniciones bsicas Tarea descriptiva, no supervisada. Posibilidades:Reglas de Asociacin: Se buscan asociaciones de la siguiente forma:(X1 = a) (X4 = b)
Dependencias: asociaciones de la forma (if Ante then Cons):if (X1= a, X3=c, X5=d) (X4=b, X2=a)
35
AsociacinDefiniciones bsicasRUT 10.251.545-3 15.512.526-4 12.512.526-4 14.374.183-3 14.572.904-1 Ingreso Familiar 5.000.000 1.000.000 3.000.000 2.000.000 1.500.000 Ciudad Concepcin Valparaso Talca Valdivia Santiago Actividad Ejecutivo Abogado Ejecutivo Camarero Animador Parque Temtico Edad Hijos 45 25 35 30 30 3 0 2 0 0 Sexo Casado M M M M F S No S S No
Asociaciones frecuentes: Casado e (Hijos > 0) sexo Masculino y Casado Dependencias: (Hijos > 0) Casado Casado (Hijos > 0) Casado sexo Masculino
{40%, 2 casos} {60%, 3 casos}
{100%, 2 casos} {66.6%, 2 casos} {100%, 3 casos}
36
AsociacinTipos de Reglas de Asociacin Basado en los Tipos de Valores manejados por la Regla: Regla booleana: las asociaciones indican la ausencia o presencia del elementos, tal como:
computador
impresora
Regla cuantitativa: las asociaciones describe relaciones entre atributos cuantitativos, como por ejemplo: (30 < edad < 39) and (ingreso > 500.000)
TV con pantalla plana
37
AsociacinTipos de Reglas de Asociacin Basado en las Dimensiones de los Datos Involucrados: Regla unidimensional: los atributos hacen referencia a una nica dimensin, como por ejemplo:
computador
impresora
Regla multidimensional: se hace referencia a dos o ms dimensiones, tal como: (30 < edad < 39) and (ingreso > 500.000)
TV con pantalla plana
38
AsociacinTipos de Reglas de Asociacin Instantneas o Secuenciales. Instantnea: contemporneas. indica relaciones inmediatas,
computador
impresora
Secuencial: establece un orden temporal.
computador computador
impresora en prxima compra impresora antes de tres meses
39
AsociacinTipos de Reglas de Asociacin Basado en los Niveles de Abstraccin.
Bebidas
Postres
40
AsociacinTipos de Reglas de Asociacin Positivas o Negativas. Positiva: indica la ocurrencia o presencia de los temes relaciones.
computador
impresora
Negativa: seala la ausencia de al menos uno de los temes de la regla
computador
not impresora
41
AsociacinMedidas para la Bondad de las Reglas de Asociacin Medidas de Inters: Soporte: representa la utilidad de la regla.soporte = nmero de casos o porcentaje en los que el antecedente se hace verdadero (rc o rc /n respectivamente), siendo n el nmero de datos en estudio.
Confianza: refleja la certeza la regla.confianza = corresponde al nmero de casos que habiendo cumplido el antecedente de la regla, cumplen tambin el consecuente (rc/ra). confianza (X Y) = soporte(X U Y) / soporte(X)42
AsociacinMedidas para la Bondad de las Reglas de Asociacin Medidas de Inters (2): Elevacin (lift): corresponde al cuociente entre el soporte observado y el soporte esperado si X e Y fueran independientes.soporte(X U Y) elevacin(X Y) = ----------------------------soporte(X) * soporte(Y)
43
AsociacinMedidas para la Bondad de las Reglas de Asociacin Medidas de Inters (3): Conviccin: corresponde al cuociente entre la frecuencia con que la regla hace una prediccin incorrecta (siendo ambas partes de la regla independientes entre s) y la frecuencia observada de las predicciones incorrectas.1 soporte(Y) conviccion(X Y) = -----------------------1- confianza(X Y)
44
AsociacinAlgoritmos Los algoritmos de bsqueda de asociaciones y dependencias, en la mayora se basa en descomponer el problema en dos fases: FASE 1 - BSQUEDA DE ITEMSETS FRECUENTES. Se buscan conjuntos de temes (o atributos) con soporte mayor/igual al soporte deseado; de momento no se busca separarlos en parte izquierda y parte derecha. FASE 2 - ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas de los itemsets y se calcula la confianza de cada uno. Se retienen aquellas reglas que tienen confianza mayor/igual a la confianza deseada.45
AsociacinAlgoritmos Algoritmo Apriori: mtodo bsico para encontrar reglas booleanas, unidimensionales y mononivel. Algunas ideas asociadas... El algoritmo obtiene los llamados itemsets frecuentes para generar las reglas de asociacin booleanas. Su nombre es debido a que se basa en conocimientos previos sobre la frecuencia de los itemsets, al usar los k-itemsets para explorar los del siguiente nivel o paso (k+1). Condicin apriori: todos los subconjuntos de un itemset frecuente deben ser frecuentes. Propiedad anti-montona: si un conjunto no supera una prueba, los supra-conjuntos derivados tampoco la superarn.46
AsociacinAlgoritmos Algoritmo Apriori: dado un soporte mnimo smin...1. i=1 (tamao de los conjuntos) 2. Generar un conjunto unitario para cada atributo en Si. 3. Comprobar el soporte de todos los conjuntos en Si. Eliminar aquellos cuyo soporte < smin. 4. Combinar los conjuntos en Si para crear conjuntos de tamao i+1 en Si+1. 5. Si Si no es vaco entonces i:= i+1. Ir a 3. 6. Si no, retornar S2 S3 ... Si
47
AsociacinAlgoritmosFASE A: BSQUEDA DE ITEMSETS FRECUENTES (A PRIORI) soporte mnimo = 2Fila 1 2 3 4 1 x x 2 x x x 3 x x x 4 x 5 x x x
S1= { {1}, {2}, {3}, {4}, {5} } S1: soporte = { {1}:2, {2}:3, {3}:3, {5}:3 } S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S2: soporte = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 } S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S3: soporte = { {2,3,5}:2 } Sfinal = S2 S3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }48
AsociacinAlgoritmosFASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS)Fila 1 2 3 4 1 x x 2 x x x 3 x x x 4 x 5 x x x
soporte = 2 confianza = 0.75
{1}{3} {2}{3} {2}{5} {3}{5}
: : : :
1 0.67 1 0.67
{3}{1} {3}{2} {5}{2} {5}{3}
: : : :
0.67 0.67 1 0.67
{2,3}{5} : 1 {3,5}{2} : 1
{2,5}{3} : 0.67
49
AsociacinAlgoritmos Mejoras (extensiones) Muestreo de la base de datos. Filtro (seleccin) de atributos. Paralelismo. Aplicacin a atributos numricos discretizacin; segmentacin y asignar un valor discreto a cada grupo.
50
AsociacinAlgoritmos algoritmo AprioriAll: trata de establecer asociaciones del estilo: si compra X en T comprar Y en T+P?; es decir es para obtener patrones secuenciales. Ejemplo:
51
AsociacinAlgoritmos
52
Segmentacin
53
Segmentacin En este tipo de anlisis se busca agrupar o segmentar los datos en grupos de acuerdo a la relacin que se encuentre ellos. Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre s y diferentes de los objetos de otros grupos.
54
Segmentacin Normalmente se refiere al llamado aprendizaje no supervisado, pues no descansa sobre clases predefinidas ni ejemplos de prueba en dichas clases. Por lo anterior, usa un esquema de aprendizaje por observacin ms que por ejemplos.
55
Segmentacin El elemento clave es la eleccin de la distancia o medida de similitud entre objetos.
56
Segmentacin Ejemplo:
57
Segmentacin Distancia de edicin: de Levenstein (nmero de operacionesnecesario para transformar una cadena en otra). d(data mining, data minino) = 1 d(efecto, defecto) = 1 d(poda, boda) = 1 d(night,natch) = d(natch,noche) = 3 Para datos binarios: Distancia de Hamming.
58
SegmentacinTipos de Algoritmos 1) Mtodos de Particionamiento: dada una base de datos con n objetos, un mtodo de este tipo construye k particiones, donde cada una de stas representa un grupo, siendo k