minería de datos inteligente - iii-lidiweblidi.info.unlp.edu.ar/catedras/md_si/01_extraccion...

MINERÍA DE DATOS

weblidi.info.unlp.edu.ar/catedras/MD_SI/

Prof. Laura Lanzarini

Extracción de conocimiento en BBDD 2

A fines de los ‘80 apareció un nuevo campo de investigación llamado KDD (Knowledge Discovery in Databases)

KDD es el proceso no trivial de identificar patrones

a partir de los datos con las siguientes características:

Válidos

Novedosos

Potencialmente útiles

Comprensibles

Cómo obtener conocimiento?

PATRONES

y MODELOS

Aplicaciones 4

Análisis de bases de datos y soporte de decisiones

Análisis y gestión de mercado

Detección de Fraudes

Análisis de riesgo crediticio

Otras Aplicaciones

Minería de Texto

Minería de Datos en educación

Data Stream Mining

Minería de Datos vs otras disciplinas

Los sistemas tradicionales de explotación de datos están basados en la existencia de hipótesis o modelos previos.

Problemas

Quien formula la hipótesis debe saber cuál es la información que necesita.

La complejidad de los datos almacenados y sus interrelaciones dificulta la verificación del modelo.

La Minería de Datos busca el descubrimiento del conocimiento sin una hipótesis preconcebida.

Tipo de conocimiento a extraer 6

Descriptivo

Muestran nuevas relaciones entre las variables.

Pueden ser utilizadas para mejorar el modelo.

Ej: Reglas de asociación, correlaciones, etc.

Predictivo

En base al modelo que gobierna el sistema es posible predecir hechos futuros.

Soluciones basadas en Redes Neuronales y Algoritmos Genéticos ofrecen mejores resultados que los enfoques estadísticos.

Ej: Clasificación, Agrupamiento (clustering), etc.

Ej.1 : Análisis de créditos bancarios

Reglas obtenidas

Si cuentas-Morosas > 0 entonces Devuelve-credito = no

Si Cuentas-Morosas=0 Y

[(Salario>2500) O (D-credito>10)] entonces

Devuelve-credito= si

IDC D-créditos

(años)

C-créditos

(pesos)

Salario

(pesos)

propia

Cuentas

Morosas

… Devuelve

crédito

101 15 60000 2200 Si 2 … no

102 2 30000 3500 Si 0 … Si

103 9 9000 1700 Si 1 … No

104 15 18000 1900 No 0 … Si

105 10 24000 2100 no 0 … No

… … … … … … … …

Ejemplo 2

Se busca predecir si el tipo de fármaco que se

debe administrar a un paciente afectado de rinitis

alérgica es el habitual o no.

DrugY DrugC DrugX DrugA DrugB

Ejemplo 2

Para ello se hará uso de la información disponible en los historiales

clínicos de pacientes atendidos previamente. Las variables que se

recogen son:

Age: Edad

Sex: Sexo

BP (Blood Pressure): Tensión sanguínea.

Cholesterol: nivel de colesterol.

Na: Nivel de sodio en la sangre.

K: Nivel de potasio en la sangre.

Cada paciente ha sido medicado con un único fármaco de entre

cinco posibles: DrugA, DrugB, DrugC, DrugX, DrugY.

Ejemplo 2

Nro. Age Sex BP Colesterol Na K Drug

1 23 F HIGH HIGH 0,792535 0,031258 drugY

2 47 M LOW HIGH 0,739309 0,056468 drugC

3 47 M LOW HIGH 0,697269 0,068944 drugC

4 28 F NORMAL HIGH 0,563682 0,072289 drugX

5 61 F LOW HIGH 0,559294 0,030998 drugY

… … … … … … … …

197 16 M LOW HIGH 0,743021 0,061886 drugC

198 52 M NORMAL HIGH 0,549945 0,055581 drugX

199 23 M NORMAL NORMAL 0,78452 0,055959 drugX

200 40 F LOW NORMAL 0,683503 0,060226 drugX

El archivo contiene 200 muestras de pacientes atendidos previamente.

Ej.2. Arbol de Clasificación

Ej.2. Arbol simplificado

Ejemplo: Seguridad en redes

Ataque Cantidad back. 300 guess_passwd. 8 imap. 1 ipsweep. 80 land. 1 loadmodule. 1 neptune. 2793 nmap. 21 normal. 4058 phf. 1 pod. 10 portsweep. 15 smurf. 2689 teardrop. 20

Fases del proceso de KDD 14

Fases del proceso de KDD

Depende del objetivo fijado

Por qué es necesaria?

Fase de Preparación de los Datos

La información almacenada siempre tiene

Datos faltantes

Valores extremos

Inconsistencias

Tareas a realizar

Limpieza (ej: resolver outliers e inconsistencias)

Transformación (ej:discretización)

Limpieza de los datos

En primer lugar, debe tenerse en cuenta que hay

distintos tipos de variables o atributos.

Para cada tipo se deberá realizar un análisis de

sus valores.

Luego, se procederá a limpiarlos

Eliminando los valores con ruido

Determinando que hacer con los valores nulos.

Eliminando inconsistencias

Tipos de variables

Cuantitativas o numéricas

DISCRETAS (cant. de empleados, cant. de alumnos, etc)

CONTINUAS (sueldo, metros cuadrados, beneficios, etc)

Cualitativas o categóricas

NOMINALES: nombran al objeto al que se refieren sin poder establecer un orden (estado civil, raza, idioma, etc.)

ORDINALES: se puede establecer un orden entre sus valores (alto, medio, bajo, etc)

Analizando los datos disponibles

Se busca determinar una primera medida de

calidad de los datos

Variables Categóricas

Análisis de frecuencia mediante histogramas o gráficos de

sectores permitirán detectar valores nulos o fuera de rango.

Variables Cuantitativas

Utilizar medidas tales como: mínimo, máximo, media,

varianza, moda, mediana, etc.

También pueden usarse gráficos como los diagramas de

cajas o los histogramas.

Ejercicio Whisky.xls

Se ha relevado la siguiente información de 35

marcas de whisky

PRECIO: es el precio de una botella de whisky en

francos.

MALTA : es la graduación de malta en porcentaje

CATEGORIA : categoría comercial del whisky

AÑEJAMIENTO : Tiempo de añejamiento en meses

APRECIACION: Calificación de cada whisky por un

jurado de expertos catadores.

Ejercicio Whisky.xls

¿Cuáles son las variables a analizar y cómo

clasificaría a c/u?

Indique al menos dos formas de graficar la

información de cada variable.

Histograma Whisky.xls

Atributo PRECIO

Centro del Intervalo

Frecuencia

63,75 7

81,25 19

98,75 5

116,25 2

133,75 1

151,25 1

Diagrama de Barras Whisky.xls

Atributo CALIDAD

Diagrama de Caja Whisky.xls

Atributo PRECIO

Hay valores fuera

de rango?

RIC 18,5

min 45,25

max 119,25

Minimo 55

1er.Cuartil 73

2do.Cuartil 83

3er.Cuartil 91,5

Maximo 160

¿Qué es un diagrama de cajas?

Es un gráfico que permite visualizar un conjunto

de valores.

Brinda información sobre los valores mínimo y

máximo y los cuartiles.

Permite determinar la existencia de valores

atípicos y la simetría de la distribución.

¿Cómo se obtiene el diagrama de cajas?

Paso 1: Calcular la mediana

La mediana de una muestra es un valor numérico que

divide la muestra en dos partes con la misma cantidad

de elementos.

Cómo se calcula?

Primero hay que ordenar los valores de la muestra.

Luego, si la cantidad de elementos es impar, la mediana es

el elemento central de la muestra.

Si la cantidad de elementos es par, la mediana es el

promedio de los dos valores centrales.

Ejemplo

Se dispone de los siguientes valores de cierto

atributo 15, 14, 40, 7, 14, 18, 2, 20, 12

Calcular la mediana

Ejemplo 1

atributo 15, 14, 40, 7, 14, 18, 2, 20, 12

Calcular la mediana

Ordenar la lista de valores

2 7 12 14 14 15 18 20 40

La cantidad de elementos es 9 (impar) por lo tanto el

valor que se encuentra en el centro de la muestra

ordenada es la mediana

Ejemplo 2

atributo 15, 14, 40, 7, 18, 2, 20, 12

Calcular la mediana

Ordenar la lista de valores

2 7 12 14 15 18 20 40

La cantidad de elementos es 8 (par) por lo tanto la

mediana es el promedio de los dos valores centrales

es decir que su valor es (14+15)/2=14.5

¿Cómo se obtiene el diagrama de cajas?

Paso 2: Calcular el 1er. y el 3er. cuartil

Los cuartiles son valores que dividen a la muestra en 4

partes con la misma cantidad de elementos.

Cómo se calcula el primer cuartil?

Tomar el primer segmento incluyendo la mediana si la

cantidad de elementos de la muestra original es impar, es

decir, si la mediana coincide con un valor de la muestra.

Repetir el mismo proceso utilizado para la calcular la

mediana.

Para el 3er.cuartil repetir el proceso con el 2do.

segmento

Ejemplo 1

atributo 15, 14, 40, 7, 14, 18, 2, 20, 12

Antes calculamos la mediana

Lista de valores ordenados

2 7 12 14 14 15 18 20 40

MEDIANA

Como la mediana es uno de los valores de la

muestra se incluye este valor en el segmento a

dividir.

Ejemplo 1

atributo 15, 14, 40, 7, 14, 18, 2, 20, 12

2 7 12 14 14 15 18 20 40

MEDIANA

Como la mediana es uno de los valores de la

muestra se incluye este valor en el segmento a

dividir.

Ejemplo 1

atributo 15, 14, 40, 7, 14, 18, 2, 20, 12

Calcular el primer cuartil

2 7 12 14 14 15 18 20 40

1er.cuartil

Ejemplo 1

atributo 15, 14, 40, 7, 14, 18, 2, 20, 12

2 7 12 14 14 15 18 20 40

3er.cuartil

Ejemplo 2

atributo 15, 14, 40, 7, 18, 2, 20, 12

2 7 12 14 15 18 20 40

MEDIANA = 14.5

Como la mediana NO es uno de los valores de la

muestra cada segmento tiene sólo 4 elementos.

Ejemplo 2

atributo 15, 14, 40, 7, 18, 2, 20, 12

2 7 12 14 15 18 20 40

1er.cuartil = (7+12)/2 = 9,5

Ejemplo 2

atributo 15, 14, 40, 7, 18, 2, 20, 12

2 7 12 14 15 18 20 40

3er.cuartil = (18+20)/2 = 19

Diagrama de Caja

Calcular el diagrama de caja correspondientes a

los siguientes valores de cierto atributo

15, 14, 40, 7, 14, 18, 2, 20, 12

3er.cuartil 1er.cuartil

Mediana = 2do.cuartil

3er cuartil 18.00

Mediana 14.00

1er. cuartil 12.00

Cómo se calculan los bigotes?

Calcular el Rango Intercuartil (RI)

RI = 3er.cuartil – 1er.cuartil

Los bigotes indican el rango de los valores de la

muestra comprendidos en el intervalo

[1er.cuartil – 1.5 * RI ; 3er.cuartil + 1.5 * RI]

Diagrama de Caja

Dada la muestra 15, 14, 40, 7, 14, 18, 2, 20, 12

Luego RI = 18-12 = 6. Los bigotes cubren los

valores de la muestra entre 12-1.5*6=3 y

18+1.5*6=27.

El primer valor mayor que 3 es 7.

El primer valor inferior a 27 es 20.

3er cuartil 18.00

Mediana 14.00

1er. cuartil 12.00

Diagrama de Caja

15, 14, 40, 7, 14, 18, 2, 20, 12

3er cuartil 18.00

Mediana 14.00

1er. cuartil 12.00

Diagrama de Caja

15, 14, 40, 7, 14, 18, 2, 20, 12

3er cuartil 18.00

Mediana 14.00

1er. cuartil 12.00

Fuera de

Ejemplo 2

Calcule el diagrama de caja de la muestra

15, 14, 40, 7, 18, 2, 20, 12

Antes vimos que

3er cuartil 19.00

Mediana 14.50

1er. cuartil 9.50

http://boxplot.tyerslab.com/

BoxPlotR

Limpieza - Variables con ruido

Las variables con ruido tendrán valores que caen

fuera del rango de sus valores esperados llamados

outliers.

Por qué se originan?

Error humano en la carga de datos (ej: una persona

puede aparecer con una altura de 5 metros).

Determinados cambios operacionales no han sido

registrados en el proceso.

Es preciso analizar los metadatos

http://rapid-i.com

RAPID MINER HERRAMIENTA DE MINERÍA DE DATOS

RAPID MINER

• Es un entorno para experimentación de análisis de

datos que posee implementadas distintas

estrategias de Minería de Datos.

• Es de distribución libre.

• Opera a través de la conexión de componentes

visuales.

EJEMPLO : WHISKY.XLS

• Utilicemos Rapid Miner para analizar la información disponible.

• Antes de comenzar, asegúrese de que dispone del archivo WhiskyConFaltantes.xls.

• De no ser así, puede descargarlo de siguiente URL

Read Excel

Arrastrar y soltar

sobre el área Main

Process

whiskyConFaltantes.xls

El paso 2 permite elegir la hoja con

los datos cargar dentro del archivo

Excel.

Como es la correcta, no es

necesario indiciar nada aquí

Seleccione Name

Cada variable tiene

su tipo identificado.

Verifique que aquí

aparecen los nombres de

los atributos

Para armar algunos

modelos es preciso

indicar cual es el

atributo que identifica

la clase

Quite el tilde Cambiar a

Polynominal

Conectar y ejecutar

Permiten alternar entre los

datos y el proceso

Limpieza - Valores faltantes

Qué hacer con los valores nulos?

Ignorar la tupla.

Rellenar la tupla manualmente.

Usar una constante global para rellenar el valor nulo.

Utilizar el valor de la media u otra medida de centralidad para rellenar el valor.

Utilizar el valor de la media u otra medida de centralidad de los objetos que pertenecen la misma clase.

Utilizar alguna herramienta de Minería de Datos para calcular el valor más probable.

Reemplazando los valores faltantes

Falta configurarlo

Operación a realizar

Verifique que no hay datos faltantes

Diagrama de Cajas (Quartile Color)

¿Puede afirmarse

que la Calidad 3

tiene más

ejemplos que la

Calidad 2?

Atributo CATEGORIA

Utilice el operador

Atributo CATEGORIA

Falta configurar

Atributo CATEGORIA

Verifique los resultados

Transformación de atributos

Es una de las etapas más importantes porque de

ella depende el éxito del proceso.

Los atributos serán transformados según las

necesidades del algoritmo a aplicar.

Es probable que deban derivarse variables nuevas.

También es posible que se reduzcan variables

convirtiéndolas en información más significativa.

Reducción de dimensionalidad

Cambia el espacio de entrada por otro que tiene

menor dimensión.

Se busca mejorar la relación entre la cantidad de

ejemplos y la cantidad de atributos.

Ejemplos

Análisis de componentes principales (PCA)

Red SOM (self-organizing maps)

Aumento de la dimensionalidad a través de la

creación de características

Atributos numéricos : se utiliza suma, resta, producto,

división, máximo, mínimo, media, cuadrado, raíz cuadrada,

seno, coseno, etc.

Fechas: brindan poca información si se las usa directamente.

«Fecha»

03/09/2012

«Mes» : 9

«DiaSem» : lunes

«DiaHabil» : TRUE

Aumento de la dimensionalidad a través de la

creación de características

Atributos nominales:

Se utilizan las operaciones lógicas, igualdad o

desigualdad, condiciones M-de-N (TRUE si al menos M

de las N condiciones son verdaderas).

Se puede generar un valor numérico a partir de

valores nominales, por ejemplo, las variables X-de-N

(retorna el entero X de las N condiciones que son

ciertas)

Ejemplo de creación de atributos

Atributo derivado Fórmula

Indice de obesidad Altura2 / peso

Hombre familiar Casado, varón e (hijos > 0)

Síntomas SARS 3-de-5 (fiebre alta, vómitos, tos, diarrea, dolor de

cabeza)

Riesgo de póliza X-de-N (edad<25, varón, años que conduce<2, vehículo

deportivo)

Beneficios Brutos Ingresos – Gastos

Beneficios netos Ingresos – Gastos – Impuestos

Desplazamiento Pasajeros * kilómetro

Duración media Segundos de llamada / número de llamadas

Densidad Población / Area

Retardo compra Fecha compra – Fecha campaña

Generando un nuevo atributo

Generemos un nuevo atributo

utilizando el componente

Generate Attributes

Operador Generate Attributes

Antes de

ejecutarlo haga

click aquí para

configurarlo

Generando un nuevo atributo

Generación de un nuevo atributo

Nombre del

nuevo atributo

definición

Generación de un nuevo atributo

if (Precio<=100,"NO","SI")

Histograma del atributo generado

Ejercicio

El atributo Precio presenta valores fuera de rango

extremos.

Genere un nuevo atributo VALOR que contenga los

mismos valores que el atributo Precio salvo que en

caso de ser un valor extremo cambiará su valor por

el más cercano dentro de la muestra que no se

encuentre fuera de rango.

Discretización

Convierte un valor numérico en un nominal ordenado

(que representa un intervalo o "bin")

Ejemplo: Podemos transformar

la edad de la persona en categorías: [0,12] niño,

(12-21) joven, [21,65] adulto y >65 anciano.

La calificación de un alumno en: [4,10] aprobado o

[0,4) desaprobado

Discretización

Puede discretizarse en un número fijo de intervalos. El

ancho del intervalo se calcula

Dividiendo el rango en partes iguales

Dividiendo la cantidad de ejemplos en partes iguales

(igual frecuencia)

También puede definirse la cantidad de elementos por

intervalo

Discretización en Rapid Miner

Discretización por

intervalos (bins)

iguales

Discretización en 4 intervalos

Discretize by binning (number of bins = 4)

Discretización por

frecuencia

Discretize by frequency (number of bins = 4)

Discretización

indicada por el

usuario

Discretize by User Specification

Numerización

En ocasiones los atributos nominales u ordinales deben

convertirse en números.

Para los nominales suele utilizarse una representación

binaria y para los ordinales suele utilizarse una

representación entera.

Es importante considerar que si se numeran en forma

correlativa los valores de un atributo nominal se

agrega un orden que originalmente no está presente

en la información disponible.

Conversión de tipos con RM

Nominal de Numérico

Indica el tipo de

codificación a utilizar

Normalización

Se aplica según el modelo que se va a construir.

La más común es la normalización lineal uniforme

Es muy sensible a valores fuera de rango (outliers).

Si se recortan los extremos se obtiene valor negativos

y/o mayores a 1.

Normalización

Existen otras transformaciones. Por ejemplo, si los datos

tienen distribución normal se pueden tipificar

De esta forma los datos se distribuyen normalmente

alrededor de 0 con desviación 1.

Normalización

Normalización usando RM

Indica el método a

aplicar

Relación de Atributos

Puede utilizarse el operador Correlation Matrix

para calcular la matriz de correlación.

Matriz de Correlación

Antes de utilizarlo numerizamos el atributo

CATEGORIA utilizando una representación de

entero único.

Matriz de correlación

Qué significa?

Para obtener esta matriz todos los atributos deben ser

numéricos y ninguno debe estar seleccionado como label

Correlación con el atributo label

Una forma alternativa de obtener el coeficiente de

correlación con el atributo que indica la clase

Whisky.xls

El atributo CALIDAD fue el seleccionado como label

Coeficiente de correlación lineal

Covarianza y desvío estandar

Coeficiente Chi cuadrado

Permite comparar dos variables cualitativas

Caso Whisky – Coef. Chi2

Valores OBSERVADOS

Categ \ Calidad 0 1 2 3 4 CATEG

Estandard 0 2 7 5 3 17

Lujo 4 0 5 2 0 11

Pura_Malta 1 0 1 3 2 7

CALIDAD 5 2 13 10 5 35

Valores ESPERADOS

Estandard 2.43 0.97 6.31 4.86 2.43 17

Lujo 1.57 0.63 4.09 3.14 1.57 11

Pura_Malta 1 0.40 2.60 2 1 7

CALIDAD 5 2 13 10 5 35

Valores ESPERADOS

Estandard 2.43 0.97 6.31 4.86 2.43 17

Lujo 1.57 0.63 4.09 3.14 1.57 11

Pura_Malta 1 0.40 2.60 2 1 7

CALIDAD 5 2 13 10 5 35

13*17/35 = 6.31

10*11/35 = 3.14 2*7/35 = 0.40

Coeficiente Chi2 en RP

Caso Whisky – Coef. Chi2 con RP

Verifique que la

etiqueta (label)

CALIDAD sea

cualitativa

Ejecute y verifique

Pasemos a la fase de modelado

Fase de Modelado

Es la fase central del descubrimiento del

conocimiento.

Se usan los datos procesados previamente y se les

aplican los algoritmos de búsqueda del

conocimiento.

Hay distintos tipos de algoritmos según el modelo

que se desee obtener.

La elección del algoritmo a aplicar depende del

tipo de problema de resolver.

Ej.de problemas de Data Mining

Predecir el nivel de morosidad de un cliente.

Saber quienes son mis clientes.

Encontrar el perfil del comprador del producto A.

Encontrar los síntomas de enfermedades que suelen aparecen juntos.

Encontrar las características de la población fumadora.

Detectar alumnos en escuelas con alto riesgo de fracaso escolar.

Clasificación de problemas

Problemas descriptivos: Aquellos cuya meta es

encontrar una descripción de los datos en estudio

Ejemplos: cuales son los clientes de una organización,

qué productos habitualmente se compran juntos.

Problemas Predictivos : Aquellos que buscan

obtener un modelo que en un futuro pueda ser

aplicado para predecir comportamiento

Ejemplo: poder predecir si un cliente nuevo que llega al

banco pidiendo un préstamo va a devolverlo o no.

Tipos de problemas descriptivos

Problemas de Clustering

Buscan agrupar los datos de manera de formar grupos

lo más homogéneos que sea posible.

Ejemplo: Hallar el perfil de los clientes del producto A.

Problemas de asociación

Buscan obtener relaciones entre los valores de los

atributos de una base de datos.

Ejemplo: Qué productos se compran juntos?

Tipos de problemas predictivos

Problemas de clasificación

Aquellos en los que la variable a predecir tiene un número finito de valores (variable categórica).

Ejemplo: se busca obtener un modelo que dado un nuevo cliente pueda clasificarlo como “bueno”, “regular” o “malo”.

Problemas de predicción de valores

Aquellos en los que la variable a predecir es numérica.

Ejemplo: Obtener un modelo que dado un paciente nuevo determine la probabilidad de que tenga cierta enfermedad.

Técnicas para problemas descriptivos

Problemas de Clustering

K – Medias

Redes Neuronales SOM (self-organizing maps)

Problemas de asociación

Reglas de Asociación

Arboles de decisión

Técnicas para problemas predictivos

Problemas de clasificación

Arboles de clasificación

Reglas de clasificación

Redes Neuronales

Problemas de predicción de valores

Redes Neuronales con entrenamiento por

gradiente.

Técnicas de Minería de Datos

Analizaremos

Arboles de decisión

Reglas de clasificación y asociación

Redes Neuronales

Técnicas de clustering

Es un proceso iterativo que puede

llevar a repetir las fases anteriores

minería de datos inteligente - iii-lidiweblidi.info.unlp.edu.ar/catedras/md_si/01_extraccion...

Documents

informe trabajo catedras

catedras milenio

organización de computadoras -...

catedras vmrabolù001

bbdd bienvenidos fijo 20100802 al 20100809

práctica de laboratorio 3.1-bbdd moviles

conexión de bbdd con autocad

introduccion a las bbdd (lopd)

organización de computadoras -...

bbdd docentes traspasados - 20170920-final - entrega cp...

organización de computadoras -...

t17 - gestion de bbdd

08 bbdd modelo de datos relacional v2

bbdd valores normalizados awg y mm2

programa formativo sobre “buenas...

musicologia espanola en bbdd

arquitectura de computadoras -...

organización de computadoras -...

bbdd mysql administracion

bbdd 03 - modelo relacional