3 - mineria de datos

Unidad 3: Minera de Datos

1

Temario1.- Proceso de Descubrimiento del Conocimiento (KDD) 2.- Tcnicas de Minera de Datos

2

Proceso KDD Es el proceso de usar la base de datos en conjunto con cualquier seleccin, proprocesamiento, sub-muestreo, y transformaciones de ella; para aplicar mtodos de minera de dato (algoritmos) y enumerar patrones desde ella; y para evaluar los productos de la minera de datos que identifican el subconjunto de patrones enumerados que llegarn a ser el conocimiento. El descubrimiento de conocimiento puede ser: de Prediccin: patrones para predecir comportamientos futuros. de Descripcin: patrones para explicar lo que sucede en un formato entendible por el ser humano.3

Proceso KDDPor qu la Minera de Datos?

4

Proceso KDD

5

Proceso KDDPor qu la Minera de Datos?

6

Proceso KDD

7

Preparacin de DatosImportancia Necesidad

Los datos de trabajo pueden ser impuros, y conducir a la extraccin de patrones/reglas poco tiles. Motivos: Datos incompletos. Datos con ruido. Datos inconsistentes.

8


La preparacin de datos puede generar un conjunto de datos ms pequeo que el original, lo cual puede mejorar la eficiencia del proceso de minera de datos. Posibilidades: Seleccin relevante de datos: mediante eliminacin de registros duplicados, de anomalas, etc. Reduccin de datos: mediante seleccin de caractersticas, muestreo o seleccin de instancias, discretizacin.9


La preparacin de datos genera datos de calidad, los cuales pueden conducir a patrones/reglas de calidad a travs de: Recuperacin de informacin perdida. Eliminacin de outliers. Resolucin de conflictos. 10

Preparacin de DatosActividades

Limpieza de datos: puede ser usada para llenar valores perdidos, suavizar datos con ruido, identificar outliers y corregir datos inconsistentes.

11

Preparacin de DatosActividades: Limpieza de Datos

Herramientas: Tabla de Resumen de atributos.

12


Herramientas: Histograma.12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12

13


Herramientas: Grficos de Dispersin (scatterplot).

Bivariante

Etiquetado

14

Reconocimiento

Matriz de Grficos de Dispersin

15


Integracin de datos: combina datos desde mltiples fuentes para conformar un conjunto de datos coherente. Metadatos, anlisis de correlacin, deteccin de conflictos de datos y resolucin de heterogeneidad semntica, son tcnicas que contribuyen a una integracin adecuada.

16


Transformacin de datos: tcnicas que llevan a los datos en formatos apropiados para el minado, como por ejemplo la normalizacin de los datos.

17


Reduccin de datos: con el objetivo de obtener una representacin reducida de los datos, minimizando la prdida en el contenido de la informacin. Tcnicas posibles son la agregacin de cubos y de dimensiones, la compresin de datos, la reduccin de la numerosidad y la discretizacin.

18

Exploracin y Seleccin de DatosVista Minable

19

Exploracin y Seleccin de DatosVista Minable

en otras palabras responder Qu parte de los datos es pertinente analizar? vista minable. Qu tipo de conocimiento se desea extraer y cmo se debe presentar? tarea, mtodo y presentacin. Qu conocimiento puede ser vlido, novedoso e interesante? criterios de calidad. Qu conocimiento previo hace falta para realizar esta tarea? conocimiento previo.20

Exploracin y Seleccin de DatosReconocimiento de Datos

Actividades de Reconocimiento: del dominio y de los usuarios: reconocer el conocimiento que podra ser til, adems de intentar obtener las reglas ya existentes. Importante tambin determinar quien usar el conocimiento obtenido y qu tipo de representacin puede ser ms aconsejable. exploracin de los datos: para obtener una vista minable, lista para ser tratada por las herramientas de minera de datos.

21

Exploracin de Datos Tcnicas posibles: Visualizacin (previa) Agrupamiento exploratorio de seleccin horizontal y vertical Interfaces grficas de Consulta y Agregacin

22

Exploracin de DatosTcnica de Ejemplo : Visualizacin

Visualizacin: objetivos Aprovechar la gran capacidad humana de ver patrones, anomalas y tendencias a partir de imgenes y facilitar la comprensin de los datos. Ayudar al usuario a comprender ms rpida-mente patrones descubiertos automticamente por un sistema KDD.

23


Visualizacin: dos tipos Previa (Minera de Datos Visual): se utiliza para entender mejor los datos, y sugerir posibles patrones o qu tipo de herramienta de KDD utilizar. Posterior: al proceso de minera de datos, se utiliza para mostrar los patrones y entenderlos mejor.

24


Visualizacin Previa: ejemplos

Funciones de densidad tridimensionales25


Visualizacin Previa: ejemplos1 100 80 60 5 40 20 0 2 Serie1 Serie2 Serie3 Serie4

4

3

Grfica radial

26


Visualizacin Previa: ejemplos100,00% Other F

75,00%

Amer-Indian-Eskimo

50K Mean 50K

25,00%

Black

0,00% Age Number of years of study Race

White Sex

M Hours-per-week

Coordenadas Paralelas27

S13 S11 S9 S7 S5 Tbco. Clstrl. S3 Tnsn. Obsd. Alcl. Prcd. S1 Strss Rsg Casos

Factores

Coordenadas Paralelas

Representacin Icnica 28

Seleccin de Datos

29

Temario1.- Proceso de Descubrimiento del Conocimiento (KDD) 2.- Tcnicas de Minera de Datos

30

Proceso KDD

31

Tcnicas de la Minera de DatosMinera de DatosDescriptiva Predictiva

Visualizacin

Correlaciones y Dependencias

Deteccin de Anomalas

Clasificacin

Regresin Estadstica

Pronsticos

rboles de Decisin Asociacin Patrones Secuenciales Redes Neuronales Artificiales Segmentacin (Agrupamiento) Induccin de Reglas

Criterios Transversales: Mtodos Difusos Mtodos Evolutivos

Mquinas de Soporte Vectorial

Mtodos Bayesianos Mtodos basados en Casos y Vecindad

32

Minera de DatosTareas y MtodosTcnicas Mtodo Apriori Algoritmos Genticos y Evolutivos Anlisis Discriminante Multivariante Anlisis Factorial y de Componentes principales rboles de decisin: CART rboles de decisin: ID3, C4.5 rboles de decisin: otros Bayes Ingenuo (Naive) CobWeb, Two Step Kmeans Mquinas de Soporte Vectorial Redes de Kohonen Redes Neuronales Artificiales Reglas CN2 Regresin Lineal y Logartmica Regresin Logstica Vecinos ms cefcanos x x x x x x x x x x x x x x x x x x x x x x x x x x x x Correlaciones Descriptivas Reglas de Asociacin x x x x x x Segmentacin Predictivas Clasificacin Regresin

33

Reglas de Asociacin

34

AsociacinDefiniciones bsicas Tarea descriptiva, no supervisada. Posibilidades:Reglas de Asociacin: Se buscan asociaciones de la siguiente forma:(X1 = a) (X4 = b)

Dependencias: asociaciones de la forma (if Ante then Cons):if (X1= a, X3=c, X5=d) (X4=b, X2=a)

35

AsociacinDefiniciones bsicasRUT 10.251.545-3 15.512.526-4 12.512.526-4 14.374.183-3 14.572.904-1 Ingreso Familiar 5.000.000 1.000.000 3.000.000 2.000.000 1.500.000 Ciudad Concepcin Valparaso Talca Valdivia Santiago Actividad Ejecutivo Abogado Ejecutivo Camarero Animador Parque Temtico Edad Hijos 45 25 35 30 30 3 0 2 0 0 Sexo Casado M M M M F S No S S No

Asociaciones frecuentes: Casado e (Hijos > 0) sexo Masculino y Casado Dependencias: (Hijos > 0) Casado Casado (Hijos > 0) Casado sexo Masculino

{40%, 2 casos} {60%, 3 casos}

{100%, 2 casos} {66.6%, 2 casos} {100%, 3 casos}

36

AsociacinTipos de Reglas de Asociacin Basado en los Tipos de Valores manejados por la Regla: Regla booleana: las asociaciones indican la ausencia o presencia del elementos, tal como:

computador

impresora

Regla cuantitativa: las asociaciones describe relaciones entre atributos cuantitativos, como por ejemplo: (30 < edad < 39) and (ingreso > 500.000)

TV con pantalla plana

37

AsociacinTipos de Reglas de Asociacin Basado en las Dimensiones de los Datos Involucrados: Regla unidimensional: los atributos hacen referencia a una nica dimensin, como por ejemplo:

computador

impresora

Regla multidimensional: se hace referencia a dos o ms dimensiones, tal como: (30 < edad < 39) and (ingreso > 500.000)

TV con pantalla plana

38

AsociacinTipos de Reglas de Asociacin Instantneas o Secuenciales. Instantnea: contemporneas. indica relaciones inmediatas,

computador

impresora

Secuencial: establece un orden temporal.

computador computador

impresora en prxima compra impresora antes de tres meses

39

AsociacinTipos de Reglas de Asociacin Basado en los Niveles de Abstraccin.

Bebidas

Postres

40

AsociacinTipos de Reglas de Asociacin Positivas o Negativas. Positiva: indica la ocurrencia o presencia de los temes relaciones.

computador

impresora

Negativa: seala la ausencia de al menos uno de los temes de la regla

computador

not impresora

41

AsociacinMedidas para la Bondad de las Reglas de Asociacin Medidas de Inters: Soporte: representa la utilidad de la regla.soporte = nmero de casos o porcentaje en los que el antecedente se hace verdadero (rc o rc /n respectivamente), siendo n el nmero de datos en estudio.

Confianza: refleja la certeza la regla.confianza = corresponde al nmero de casos que habiendo cumplido el antecedente de la regla, cumplen tambin el consecuente (rc/ra). confianza (X Y) = soporte(X U Y) / soporte(X)42

AsociacinMedidas para la Bondad de las Reglas de Asociacin Medidas de Inters (2): Elevacin (lift): corresponde al cuociente entre el soporte observado y el soporte esperado si X e Y fueran independientes.soporte(X U Y) elevacin(X Y) = ----------------------------soporte(X) * soporte(Y)

43

AsociacinMedidas para la Bondad de las Reglas de Asociacin Medidas de Inters (3): Conviccin: corresponde al cuociente entre la frecuencia con que la regla hace una prediccin incorrecta (siendo ambas partes de la regla independientes entre s) y la frecuencia observada de las predicciones incorrectas.1 soporte(Y) conviccion(X Y) = -----------------------1- confianza(X Y)

44

AsociacinAlgoritmos Los algoritmos de bsqueda de asociaciones y dependencias, en la mayora se basa en descomponer el problema en dos fases: FASE 1 - BSQUEDA DE ITEMSETS FRECUENTES. Se buscan conjuntos de temes (o atributos) con soporte mayor/igual al soporte deseado; de momento no se busca separarlos en parte izquierda y parte derecha. FASE 2 - ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas de los itemsets y se calcula la confianza de cada uno. Se retienen aquellas reglas que tienen confianza mayor/igual a la confianza deseada.45

AsociacinAlgoritmos Algoritmo Apriori: mtodo bsico para encontrar reglas booleanas, unidimensionales y mononivel. Algunas ideas asociadas... El algoritmo obtiene los llamados itemsets frecuentes para generar las reglas de asociacin booleanas. Su nombre es debido a que se basa en conocimientos previos sobre la frecuencia de los itemsets, al usar los k-itemsets para explorar los del siguiente nivel o paso (k+1). Condicin apriori: todos los subconjuntos de un itemset frecuente deben ser frecuentes. Propiedad anti-montona: si un conjunto no supera una prueba, los supra-conjuntos derivados tampoco la superarn.46

AsociacinAlgoritmos Algoritmo Apriori: dado un soporte mnimo smin...1. i=1 (tamao de los conjuntos) 2. Generar un conjunto unitario para cada atributo en Si. 3. Comprobar el soporte de todos los conjuntos en Si. Eliminar aquellos cuyo soporte < smin. 4. Combinar los conjuntos en Si para crear conjuntos de tamao i+1 en Si+1. 5. Si Si no es vaco entonces i:= i+1. Ir a 3. 6. Si no, retornar S2 S3 ... Si

47

AsociacinAlgoritmosFASE A: BSQUEDA DE ITEMSETS FRECUENTES (A PRIORI) soporte mnimo = 2Fila 1 2 3 4 1 x x 2 x x x 3 x x x 4 x 5 x x x

S1= { {1}, {2}, {3}, {4}, {5} } S1: soporte = { {1}:2, {2}:3, {3}:3, {5}:3 } S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S2: soporte = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 } S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S3: soporte = { {2,3,5}:2 } Sfinal = S2 S3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }48

AsociacinAlgoritmosFASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS)Fila 1 2 3 4 1 x x 2 x x x 3 x x x 4 x 5 x x x

soporte = 2 confianza = 0.75

{1}{3} {2}{3} {2}{5} {3}{5}

: : : :

1 0.67 1 0.67

{3}{1} {3}{2} {5}{2} {5}{3}

: : : :

0.67 0.67 1 0.67

{2,3}{5} : 1 {3,5}{2} : 1

{2,5}{3} : 0.67

49

AsociacinAlgoritmos Mejoras (extensiones) Muestreo de la base de datos. Filtro (seleccin) de atributos. Paralelismo. Aplicacin a atributos numricos discretizacin; segmentacin y asignar un valor discreto a cada grupo.

50

AsociacinAlgoritmos algoritmo AprioriAll: trata de establecer asociaciones del estilo: si compra X en T comprar Y en T+P?; es decir es para obtener patrones secuenciales. Ejemplo:

51

AsociacinAlgoritmos

52

Segmentacin

53

Segmentacin En este tipo de anlisis se busca agrupar o segmentar los datos en grupos de acuerdo a la relacin que se encuentre ellos. Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre s y diferentes de los objetos de otros grupos.

54

Segmentacin Normalmente se refiere al llamado aprendizaje no supervisado, pues no descansa sobre clases predefinidas ni ejemplos de prueba en dichas clases. Por lo anterior, usa un esquema de aprendizaje por observacin ms que por ejemplos.

55

Segmentacin El elemento clave es la eleccin de la distancia o medida de similitud entre objetos.

56

Segmentacin Ejemplo:

57

Segmentacin Distancia de edicin: de Levenstein (nmero de operacionesnecesario para transformar una cadena en otra). d(data mining, data minino) = 1 d(efecto, defecto) = 1 d(poda, boda) = 1 d(night,natch) = d(natch,noche) = 3 Para datos binarios: Distancia de Hamming.

58

SegmentacinTipos de Algoritmos 1) Mtodos de Particionamiento: dada una base de datos con n objetos, un mtodo de este tipo construye k particiones, donde cada una de stas representa un grupo, siendo k

3 - mineria de datos

Documents