minería de datos inteligente - iii-lidiweblidi.info.unlp.edu.ar/catedras/md_si/01_extraccion...

135
MINERÍA DE DATOS weblidi.info.unlp.edu.ar/catedras/MD_SI/ Prof. Laura Lanzarini

Upload: ngothuan

Post on 20-May-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

MINERÍA DE DATOS

weblidi.info.unlp.edu.ar/catedras/MD_SI/

Prof. Laura Lanzarini

Page 2: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Extracción de conocimiento en BBDD 2

A fines de los ‘80 apareció un nuevo campo de investigación llamado KDD (Knowledge Discovery in Databases)

KDD es el proceso no trivial de identificar patrones

a partir de los datos con las siguientes características:

Válidos

Novedosos

Potencialmente útiles

Comprensibles

Page 3: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Cómo obtener conocimiento?

PATRONES

y MODELOS

Page 4: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Aplicaciones 4

Análisis de bases de datos y soporte de decisiones

Análisis y gestión de mercado

Detección de Fraudes

Análisis de riesgo crediticio

Otras Aplicaciones

Minería de Texto

Minería de Datos en educación

Data Stream Mining

Page 5: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Minería de Datos vs otras disciplinas

Los sistemas tradicionales de explotación de datos están basados en la existencia de hipótesis o modelos previos.

Problemas

Quien formula la hipótesis debe saber cuál es la información que necesita.

La complejidad de los datos almacenados y sus interrelaciones dificulta la verificación del modelo.

La Minería de Datos busca el descubrimiento del conocimiento sin una hipótesis preconcebida.

Page 6: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Tipo de conocimiento a extraer 6

Descriptivo

Muestran nuevas relaciones entre las variables.

Pueden ser utilizadas para mejorar el modelo.

Ej: Reglas de asociación, correlaciones, etc.

Predictivo

En base al modelo que gobierna el sistema es posible predecir hechos futuros.

Soluciones basadas en Redes Neuronales y Algoritmos Genéticos ofrecen mejores resultados que los enfoques estadísticos.

Ej: Clasificación, Agrupamiento (clustering), etc.

Page 7: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ej.1 : Análisis de créditos bancarios

Reglas obtenidas

Si cuentas-Morosas > 0 entonces Devuelve-credito = no

Si Cuentas-Morosas=0 Y

[(Salario>2500) O (D-credito>10)] entonces

Devuelve-credito= si

IDC D-créditos

(años)

C-créditos

(pesos)

Salario

(pesos)

Casa

propia

Cuentas

Morosas

… Devuelve

crédito

101 15 60000 2200 Si 2 … no

102 2 30000 3500 Si 0 … Si

103 9 9000 1700 Si 1 … No

104 15 18000 1900 No 0 … Si

105 10 24000 2100 no 0 … No

… … … … … … … …

7

Page 8: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo 2

Se busca predecir si el tipo de fármaco que se

debe administrar a un paciente afectado de rinitis

alérgica es el habitual o no.

8

DrugY DrugC DrugX DrugA DrugB

Page 9: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo 2

Para ello se hará uso de la información disponible en los historiales

clínicos de pacientes atendidos previamente. Las variables que se

recogen son:

Age: Edad

Sex: Sexo

BP (Blood Pressure): Tensión sanguínea.

Cholesterol: nivel de colesterol.

Na: Nivel de sodio en la sangre.

K: Nivel de potasio en la sangre.

Cada paciente ha sido medicado con un único fármaco de entre

cinco posibles: DrugA, DrugB, DrugC, DrugX, DrugY.

9

Page 10: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo 2

Nro. Age Sex BP Colesterol Na K Drug

1 23 F HIGH HIGH 0,792535 0,031258 drugY

2 47 M LOW HIGH 0,739309 0,056468 drugC

3 47 M LOW HIGH 0,697269 0,068944 drugC

4 28 F NORMAL HIGH 0,563682 0,072289 drugX

5 61 F LOW HIGH 0,559294 0,030998 drugY

… … … … … … … …

… … … … … … … …

… … … … … … … …

197 16 M LOW HIGH 0,743021 0,061886 drugC

198 52 M NORMAL HIGH 0,549945 0,055581 drugX

199 23 M NORMAL NORMAL 0,78452 0,055959 drugX

200 40 F LOW NORMAL 0,683503 0,060226 drugX

10

El archivo contiene 200 muestras de pacientes atendidos previamente.

Page 11: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ej.2. Arbol de Clasificación

Page 12: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ej.2. Arbol simplificado

Page 13: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo: Seguridad en redes

Ataque Cantidad back. 300 guess_passwd. 8 imap. 1 ipsweep. 80 land. 1 loadmodule. 1 neptune. 2793 nmap. 21 normal. 4058 phf. 1 pod. 10 portsweep. 15 smurf. 2689 teardrop. 20

0

500

1000

1500

2000

2500

3000

3500

4000

4500

Page 14: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Fases del proceso de KDD 14

Page 15: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Fases del proceso de KDD

Depende del objetivo fijado

Page 16: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Fases del proceso de KDD

Por qué es necesaria?

Page 17: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Fase de Preparación de los Datos

La información almacenada siempre tiene

Datos faltantes

Valores extremos

Inconsistencias

Ruido

Tareas a realizar

Limpieza (ej: resolver outliers e inconsistencias)

Transformación (ej:discretización)

Page 18: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Limpieza de los datos

En primer lugar, debe tenerse en cuenta que hay

distintos tipos de variables o atributos.

Para cada tipo se deberá realizar un análisis de

sus valores.

Luego, se procederá a limpiarlos

Eliminando los valores con ruido

Determinando que hacer con los valores nulos.

Eliminando inconsistencias

Page 19: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Tipos de variables

Cuantitativas o numéricas

DISCRETAS (cant. de empleados, cant. de alumnos, etc)

CONTINUAS (sueldo, metros cuadrados, beneficios, etc)

Cualitativas o categóricas

NOMINALES: nombran al objeto al que se refieren sin poder establecer un orden (estado civil, raza, idioma, etc.)

ORDINALES: se puede establecer un orden entre sus valores (alto, medio, bajo, etc)

Page 20: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Analizando los datos disponibles

Se busca determinar una primera medida de

calidad de los datos

Variables Categóricas

Análisis de frecuencia mediante histogramas o gráficos de

sectores permitirán detectar valores nulos o fuera de rango.

Variables Cuantitativas

Utilizar medidas tales como: mínimo, máximo, media,

varianza, moda, mediana, etc.

También pueden usarse gráficos como los diagramas de

cajas o los histogramas.

Page 21: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejercicio Whisky.xls

Se ha relevado la siguiente información de 35

marcas de whisky

PRECIO: es el precio de una botella de whisky en

francos.

MALTA : es la graduación de malta en porcentaje

CATEGORIA : categoría comercial del whisky

AÑEJAMIENTO : Tiempo de añejamiento en meses

APRECIACION: Calificación de cada whisky por un

jurado de expertos catadores.

weblidi.info.unlp.edu.ar/catedras/MD_SI/

Page 22: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejercicio Whisky.xls

¿Cuáles son las variables a analizar y cómo

clasificaría a c/u?

Indique al menos dos formas de graficar la

información de cada variable.

weblidi.info.unlp.edu.ar/catedras/MD_SI/

Page 23: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Histograma Whisky.xls

Atributo PRECIO

Centro del Intervalo

Frecuencia

63,75 7

81,25 19

98,75 5

116,25 2

133,75 1

151,25 1

Page 24: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Diagrama de Barras Whisky.xls

Atributo CALIDAD

Page 25: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Diagrama de Caja Whisky.xls

Atributo PRECIO

Hay valores fuera

de rango?

RIC 18,5

min 45,25

max 119,25

Minimo 55

1er.Cuartil 73

2do.Cuartil 83

3er.Cuartil 91,5

Maximo 160

Page 26: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

¿Qué es un diagrama de cajas?

Es un gráfico que permite visualizar un conjunto

de valores.

Brinda información sobre los valores mínimo y

máximo y los cuartiles.

Permite determinar la existencia de valores

atípicos y la simetría de la distribución.

Page 27: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

¿Cómo se obtiene el diagrama de cajas?

Paso 1: Calcular la mediana

La mediana de una muestra es un valor numérico que

divide la muestra en dos partes con la misma cantidad

de elementos.

Cómo se calcula?

Primero hay que ordenar los valores de la muestra.

Luego, si la cantidad de elementos es impar, la mediana es

el elemento central de la muestra.

Si la cantidad de elementos es par, la mediana es el

promedio de los dos valores centrales.

Page 28: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo

Se dispone de los siguientes valores de cierto

atributo 15, 14, 40, 7, 14, 18, 2, 20, 12

Calcular la mediana

Page 29: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo 1

Se dispone de los siguientes valores de cierto

atributo 15, 14, 40, 7, 14, 18, 2, 20, 12

Calcular la mediana

Ordenar la lista de valores

2 7 12 14 14 15 18 20 40

La cantidad de elementos es 9 (impar) por lo tanto el

valor que se encuentra en el centro de la muestra

ordenada es la mediana

Page 30: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo 2

Se dispone de los siguientes valores de cierto

atributo 15, 14, 40, 7, 18, 2, 20, 12

Calcular la mediana

Ordenar la lista de valores

2 7 12 14 15 18 20 40

La cantidad de elementos es 8 (par) por lo tanto la

mediana es el promedio de los dos valores centrales

es decir que su valor es (14+15)/2=14.5

Page 31: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

¿Cómo se obtiene el diagrama de cajas?

Paso 2: Calcular el 1er. y el 3er. cuartil

Los cuartiles son valores que dividen a la muestra en 4

partes con la misma cantidad de elementos.

Cómo se calcula el primer cuartil?

Tomar el primer segmento incluyendo la mediana si la

cantidad de elementos de la muestra original es impar, es

decir, si la mediana coincide con un valor de la muestra.

Repetir el mismo proceso utilizado para la calcular la

mediana.

Para el 3er.cuartil repetir el proceso con el 2do.

segmento

Page 32: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo 1

Se dispone de los siguientes valores de cierto

atributo 15, 14, 40, 7, 14, 18, 2, 20, 12

Antes calculamos la mediana

Lista de valores ordenados

2 7 12 14 14 15 18 20 40

MEDIANA

Como la mediana es uno de los valores de la

muestra se incluye este valor en el segmento a

dividir.

Page 33: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo 1

Se dispone de los siguientes valores de cierto

atributo 15, 14, 40, 7, 14, 18, 2, 20, 12

Antes calculamos la mediana

Lista de valores ordenados

2 7 12 14 14 15 18 20 40

MEDIANA

Como la mediana es uno de los valores de la

muestra se incluye este valor en el segmento a

dividir.

Page 34: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo 1

Se dispone de los siguientes valores de cierto

atributo 15, 14, 40, 7, 14, 18, 2, 20, 12

Calcular el primer cuartil

2 7 12 14 14 15 18 20 40

1er.cuartil

Page 35: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo 1

Se dispone de los siguientes valores de cierto

atributo 15, 14, 40, 7, 14, 18, 2, 20, 12

Calcular el primer cuartil

2 7 12 14 14 15 18 20 40

3er.cuartil

Page 36: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo 2

Se dispone de los siguientes valores de cierto

atributo 15, 14, 40, 7, 18, 2, 20, 12

Antes calculamos la mediana

Lista de valores ordenados

2 7 12 14 15 18 20 40

MEDIANA = 14.5

Como la mediana NO es uno de los valores de la

muestra cada segmento tiene sólo 4 elementos.

Page 37: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo 2

Se dispone de los siguientes valores de cierto

atributo 15, 14, 40, 7, 18, 2, 20, 12

Calcular el primer cuartil

2 7 12 14 15 18 20 40

1er.cuartil = (7+12)/2 = 9,5

Page 38: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo 2

Se dispone de los siguientes valores de cierto

atributo 15, 14, 40, 7, 18, 2, 20, 12

Calcular el primer cuartil

2 7 12 14 15 18 20 40

3er.cuartil = (18+20)/2 = 19

Page 39: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Diagrama de Caja

Calcular el diagrama de caja correspondientes a

los siguientes valores de cierto atributo

15, 14, 40, 7, 14, 18, 2, 20, 12

3er.cuartil 1er.cuartil

Mediana = 2do.cuartil

3er cuartil 18.00

Mediana 14.00

1er. cuartil 12.00

Page 40: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Cómo se calculan los bigotes?

Calcular el Rango Intercuartil (RI)

RI = 3er.cuartil – 1er.cuartil

Los bigotes indican el rango de los valores de la

muestra comprendidos en el intervalo

[1er.cuartil – 1.5 * RI ; 3er.cuartil + 1.5 * RI]

Page 41: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Diagrama de Caja

Dada la muestra 15, 14, 40, 7, 14, 18, 2, 20, 12

Luego RI = 18-12 = 6. Los bigotes cubren los

valores de la muestra entre 12-1.5*6=3 y

18+1.5*6=27.

El primer valor mayor que 3 es 7.

El primer valor inferior a 27 es 20.

3er cuartil 18.00

Mediana 14.00

1er. cuartil 12.00

Page 42: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Diagrama de Caja

Calcular el diagrama de caja correspondientes a

los siguientes valores de cierto atributo

15, 14, 40, 7, 14, 18, 2, 20, 12

3er.cuartil 1er.cuartil

Mediana = 2do.cuartil

3er cuartil 18.00

Mediana 14.00

1er. cuartil 12.00

7 20

Page 43: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Diagrama de Caja

Calcular el diagrama de caja correspondientes a

los siguientes valores de cierto atributo

15, 14, 40, 7, 14, 18, 2, 20, 12

3er.cuartil 1er.cuartil

Mediana = 2do.cuartil

3er cuartil 18.00

Mediana 14.00

1er. cuartil 12.00

7 20

Fuera de

rango

Fuera de

rango

Page 44: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo 2

Calcule el diagrama de caja de la muestra

15, 14, 40, 7, 18, 2, 20, 12

Antes vimos que

3er cuartil 19.00

Mediana 14.50

1er. cuartil 9.50

http://boxplot.tyerslab.com/

Page 45: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

BoxPlotR

http://boxplot.tyerslab.com/

Page 46: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

BoxPlotR

http://boxplot.tyerslab.com/

Page 47: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

BoxPlotR

http://boxplot.tyerslab.com/

Page 48: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Limpieza - Variables con ruido

Las variables con ruido tendrán valores que caen

fuera del rango de sus valores esperados llamados

outliers.

Por qué se originan?

Error humano en la carga de datos (ej: una persona

puede aparecer con una altura de 5 metros).

Determinados cambios operacionales no han sido

registrados en el proceso.

Es preciso analizar los metadatos

Page 49: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

http://rapid-i.com

RAPID MINER HERRAMIENTA DE MINERÍA DE DATOS

Page 50: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

RAPID MINER

• Es un entorno para experimentación de análisis de

datos que posee implementadas distintas

estrategias de Minería de Datos.

• Es de distribución libre.

• Opera a través de la conexión de componentes

visuales.

Page 51: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

EJEMPLO : WHISKY.XLS

• Utilicemos Rapid Miner para analizar la información disponible.

• Antes de comenzar, asegúrese de que dispone del archivo WhiskyConFaltantes.xls.

• De no ser así, puede descargarlo de siguiente URL

weblidi.info.unlp.edu.ar/catedras/MD_SI/

Page 52: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo
Page 53: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo
Page 54: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Read Excel

Page 55: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Arrastrar y soltar

sobre el área Main

Process

Page 56: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo
Page 57: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

whiskyConFaltantes.xls

Page 58: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo
Page 59: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo
Page 60: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

El paso 2 permite elegir la hoja con

los datos cargar dentro del archivo

Excel.

Como es la correcta, no es

necesario indiciar nada aquí

Page 61: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Seleccione Name

Page 62: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Cada variable tiene

su tipo identificado.

Verifique que aquí

aparecen los nombres de

los atributos

Page 63: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Para armar algunos

modelos es preciso

indicar cual es el

atributo que identifica

la clase

Quite el tilde Cambiar a

Polynominal

Page 64: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo
Page 65: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Conectar y ejecutar

Permiten alternar entre los

datos y el proceso

Page 66: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo
Page 67: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Limpieza - Valores faltantes

Qué hacer con los valores nulos?

Ignorar la tupla.

Rellenar la tupla manualmente.

Usar una constante global para rellenar el valor nulo.

Utilizar el valor de la media u otra medida de centralidad para rellenar el valor.

Utilizar el valor de la media u otra medida de centralidad de los objetos que pertenecen la misma clase.

Utilizar alguna herramienta de Minería de Datos para calcular el valor más probable.

Page 68: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Reemplazando los valores faltantes

Page 69: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Reemplazando los valores faltantes

Falta configurarlo

Page 70: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Reemplazando los valores faltantes

Operación a realizar

Page 71: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Reemplazando los valores faltantes

Verifique que no hay datos faltantes

Page 72: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Diagrama de Cajas (Quartile Color)

¿Puede afirmarse

que la Calidad 3

tiene más

ejemplos que la

Calidad 2?

Page 73: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Atributo CATEGORIA

Utilice el operador

MAP

Page 74: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Atributo CATEGORIA

Falta configurar

Page 75: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Atributo CATEGORIA

Page 76: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Atributo CATEGORIA

Verifique los resultados

Page 77: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Transformación de atributos

Es una de las etapas más importantes porque de

ella depende el éxito del proceso.

Los atributos serán transformados según las

necesidades del algoritmo a aplicar.

Es probable que deban derivarse variables nuevas.

También es posible que se reduzcan variables

convirtiéndolas en información más significativa.

Page 78: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Transformación de atributos

Reducción de dimensionalidad

Cambia el espacio de entrada por otro que tiene

menor dimensión.

Se busca mejorar la relación entre la cantidad de

ejemplos y la cantidad de atributos.

Ejemplos

Análisis de componentes principales (PCA)

Red SOM (self-organizing maps)

Page 79: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Transformación de atributos

Aumento de la dimensionalidad a través de la

creación de características

Atributos numéricos : se utiliza suma, resta, producto,

división, máximo, mínimo, media, cuadrado, raíz cuadrada,

seno, coseno, etc.

Fechas: brindan poca información si se las usa directamente.

«Fecha»

03/09/2012

«Mes» : 9

«DiaSem» : lunes

«DiaHabil» : TRUE

Page 80: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Transformación de atributos

Aumento de la dimensionalidad a través de la

creación de características

Atributos nominales:

Se utilizan las operaciones lógicas, igualdad o

desigualdad, condiciones M-de-N (TRUE si al menos M

de las N condiciones son verdaderas).

Se puede generar un valor numérico a partir de

valores nominales, por ejemplo, las variables X-de-N

(retorna el entero X de las N condiciones que son

ciertas)

Page 81: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejemplo de creación de atributos

Atributo derivado Fórmula

Indice de obesidad Altura2 / peso

Hombre familiar Casado, varón e (hijos > 0)

Síntomas SARS 3-de-5 (fiebre alta, vómitos, tos, diarrea, dolor de

cabeza)

Riesgo de póliza X-de-N (edad<25, varón, años que conduce<2, vehículo

deportivo)

Beneficios Brutos Ingresos – Gastos

Beneficios netos Ingresos – Gastos – Impuestos

Desplazamiento Pasajeros * kilómetro

Duración media Segundos de llamada / número de llamadas

Densidad Población / Area

Retardo compra Fecha compra – Fecha campaña

Page 82: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Generando un nuevo atributo

Generemos un nuevo atributo

utilizando el componente

Generate Attributes

Page 83: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Operador Generate Attributes

Antes de

ejecutarlo haga

click aquí para

configurarlo

Generando un nuevo atributo

Page 84: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Generación de un nuevo atributo

Nombre del

nuevo atributo

definición

Page 85: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Generación de un nuevo atributo

if (Precio<=100,"NO","SI")

Page 86: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Histograma del atributo generado

Page 87: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ejercicio

El atributo Precio presenta valores fuera de rango

extremos.

Genere un nuevo atributo VALOR que contenga los

mismos valores que el atributo Precio salvo que en

caso de ser un valor extremo cambiará su valor por

el más cercano dentro de la muestra que no se

encuentre fuera de rango.

Page 88: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Transformación de atributos

Discretización

Convierte un valor numérico en un nominal ordenado

(que representa un intervalo o "bin")

Ejemplo: Podemos transformar

la edad de la persona en categorías: [0,12] niño,

(12-21) joven, [21,65] adulto y >65 anciano.

La calificación de un alumno en: [4,10] aprobado o

[0,4) desaprobado

Page 89: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Transformación de atributos

Discretización

Puede discretizarse en un número fijo de intervalos. El

ancho del intervalo se calcula

Dividiendo el rango en partes iguales

Dividiendo la cantidad de ejemplos en partes iguales

(igual frecuencia)

También puede definirse la cantidad de elementos por

intervalo

Page 90: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Discretización en Rapid Miner

Discretización por

intervalos (bins)

iguales

Page 91: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Discretización en 4 intervalos

Discretize by binning (number of bins = 4)

Page 92: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Discretización en 4 intervalos

Discretize by binning (number of bins = 4)

Page 93: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Discretización en Rapid Miner

Discretización por

frecuencia

Page 94: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Discretización en 4 intervalos

Discretize by frequency (number of bins = 4)

Page 95: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Discretización en 4 intervalos

Discretize by frequency (number of bins = 4)

Page 96: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Discretización en Rapid Miner

Discretización

indicada por el

usuario

Page 97: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Discretize by User Specification

Page 98: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Discretize by User Specification

Page 99: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Discretización en 3 intervalos

Discretize by User Specification

Page 100: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Discretización en 3 intervalos

Page 101: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Transformación de atributos

Numerización

En ocasiones los atributos nominales u ordinales deben

convertirse en números.

Para los nominales suele utilizarse una representación

binaria y para los ordinales suele utilizarse una

representación entera.

Es importante considerar que si se numeran en forma

correlativa los valores de un atributo nominal se

agrega un orden que originalmente no está presente

en la información disponible.

Page 102: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Conversión de tipos con RM

Page 103: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Nominal de Numérico

Indica el tipo de

codificación a utilizar

Page 104: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Transformación de atributos

Normalización

Se aplica según el modelo que se va a construir.

La más común es la normalización lineal uniforme

Es muy sensible a valores fuera de rango (outliers).

Si se recortan los extremos se obtiene valor negativos

y/o mayores a 1.

Page 105: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Transformación de atributos

Normalización

Existen otras transformaciones. Por ejemplo, si los datos

tienen distribución normal se pueden tipificar

De esta forma los datos se distribuyen normalmente

alrededor de 0 con desviación 1.

Page 106: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Normalización

Page 107: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Normalización usando RM

Indica el método a

aplicar

Page 108: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Relación de Atributos

Puede utilizarse el operador Correlation Matrix

para calcular la matriz de correlación.

Page 109: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Matriz de Correlación

Antes de utilizarlo numerizamos el atributo

CATEGORIA utilizando una representación de

entero único.

Page 110: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Matriz de correlación

Qué significa?

Para obtener esta matriz todos los atributos deben ser

numéricos y ninguno debe estar seleccionado como label

Page 111: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Correlación con el atributo label

Una forma alternativa de obtener el coeficiente de

correlación con el atributo que indica la clase

Page 112: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Correlación con el atributo label

Whisky.xls

Page 113: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Correlación con el atributo label

El atributo CALIDAD fue el seleccionado como label

Page 114: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Coeficiente de correlación lineal

Page 115: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Covarianza y desvío estandar

Page 116: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo
Page 117: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Coeficiente Chi cuadrado

Permite comparar dos variables cualitativas

Page 118: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Caso Whisky – Coef. Chi2

Valores OBSERVADOS

Categ \ Calidad 0 1 2 3 4 CATEG

Estandard 0 2 7 5 3 17

Lujo 4 0 5 2 0 11

Pura_Malta 1 0 1 3 2 7

CALIDAD 5 2 13 10 5 35

Page 119: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Caso Whisky – Coef. Chi2

Valores ESPERADOS

Categ \ Calidad 0 1 2 3 4 CATEG

Estandard 2.43 0.97 6.31 4.86 2.43 17

Lujo 1.57 0.63 4.09 3.14 1.57 11

Pura_Malta 1 0.40 2.60 2 1 7

CALIDAD 5 2 13 10 5 35

Page 120: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Caso Whisky – Coef. Chi2

Valores ESPERADOS

Categ \ Calidad 0 1 2 3 4 CATEG

Estandard 2.43 0.97 6.31 4.86 2.43 17

Lujo 1.57 0.63 4.09 3.14 1.57 11

Pura_Malta 1 0.40 2.60 2 1 7

CALIDAD 5 2 13 10 5 35

13*17/35 = 6.31

10*11/35 = 3.14 2*7/35 = 0.40

Page 121: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Caso Whisky – Coef. Chi2

Page 122: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Coeficiente Chi2 en RP

Page 123: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Caso Whisky – Coef. Chi2 con RP

Verifique que la

etiqueta (label)

CALIDAD sea

cualitativa

Page 124: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Caso Whisky – Coef. Chi2 con RP

Ejecute y verifique

Page 125: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Caso Whisky – Coef. Chi2 con RP

Ejecute y verifique

Page 126: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Fases del proceso de KDD

Pasemos a la fase de modelado

Page 127: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Fase de Modelado

Es la fase central del descubrimiento del

conocimiento.

Se usan los datos procesados previamente y se les

aplican los algoritmos de búsqueda del

conocimiento.

Hay distintos tipos de algoritmos según el modelo

que se desee obtener.

La elección del algoritmo a aplicar depende del

tipo de problema de resolver.

Page 128: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Ej.de problemas de Data Mining

Predecir el nivel de morosidad de un cliente.

Saber quienes son mis clientes.

Encontrar el perfil del comprador del producto A.

Encontrar los síntomas de enfermedades que suelen aparecen juntos.

Encontrar las características de la población fumadora.

Detectar alumnos en escuelas con alto riesgo de fracaso escolar.

Page 129: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Clasificación de problemas

Problemas descriptivos: Aquellos cuya meta es

encontrar una descripción de los datos en estudio

Ejemplos: cuales son los clientes de una organización,

qué productos habitualmente se compran juntos.

Problemas Predictivos : Aquellos que buscan

obtener un modelo que en un futuro pueda ser

aplicado para predecir comportamiento

Ejemplo: poder predecir si un cliente nuevo que llega al

banco pidiendo un préstamo va a devolverlo o no.

Page 130: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Tipos de problemas descriptivos

Problemas de Clustering

Buscan agrupar los datos de manera de formar grupos

lo más homogéneos que sea posible.

Ejemplo: Hallar el perfil de los clientes del producto A.

Problemas de asociación

Buscan obtener relaciones entre los valores de los

atributos de una base de datos.

Ejemplo: Qué productos se compran juntos?

Page 131: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Tipos de problemas predictivos

Problemas de clasificación

Aquellos en los que la variable a predecir tiene un número finito de valores (variable categórica).

Ejemplo: se busca obtener un modelo que dado un nuevo cliente pueda clasificarlo como “bueno”, “regular” o “malo”.

Problemas de predicción de valores

Aquellos en los que la variable a predecir es numérica.

Ejemplo: Obtener un modelo que dado un paciente nuevo determine la probabilidad de que tenga cierta enfermedad.

Page 132: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Técnicas para problemas descriptivos

Problemas de Clustering

K – Medias

Redes Neuronales SOM (self-organizing maps)

Problemas de asociación

Reglas de Asociación

Arboles de decisión

Page 133: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Técnicas para problemas predictivos

Problemas de clasificación

Arboles de clasificación

Reglas de clasificación

Redes Neuronales

Problemas de predicción de valores

Redes Neuronales con entrenamiento por

gradiente.

Page 134: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

134

Técnicas de Minería de Datos

Analizaremos

Arboles de decisión

Reglas de clasificación y asociación

Redes Neuronales

Técnicas de clustering

Page 135: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo

Fases del proceso de KDD

Es un proceso iterativo que puede

llevar a repetir las fases anteriores