mineria de datos parte ii

25
Introducción a la Minería de Datos LUIS PAULO VIEIRA BRAGA LUIS IVÁN ORTIZ VALENCIA

Upload: luis-paulo-vieira-braga

Post on 25-May-2015

1.012 views

Category:

Education


3 download

TRANSCRIPT

Page 1: Mineria de datos Parte II

Introducción a la Minería de Datos

LUIS PAULO VIEIRA BRAGA

LUIS IVÁN ORTIZ VALENCIA

Page 2: Mineria de datos Parte II

Page 2

Indice

Introducción

KDD y Minería de Datos

Base de datos para minería de datos – Data Warehouse,Data Mart y Data Webhouse

Tratamiento de datos para DM

Métodos para Modelaje

Validación del Modelo

Estudios de Casos

Introducción a la Minería de Datos

Page 3: Mineria de datos Parte II

Page 3

Introducción

Herramientas

Introducción a la Minería de Datos

http://introduccionmineriadedatos.blogspot.com/

Libro texto

http://www.r-project.org/index.html

Page 4: Mineria de datos Parte II

Page 4

Introducción

Dependiendo de la finalidad del modelaje, el conjunto de datos utilizado sufre alteraciones. Podemos destacar tres finalidades comunes: datos para prospección, evaluación del riesgo y metas respecto a los clientes. Usando el sistema de base de datos se construye el Datamart apropiado para el modelaje requerido.

Introducción a la Minería de Datos

Page 5: Mineria de datos Parte II

Page 5

Introducción

El modelaje matemático, necesariamente, pasa por tres etapas:

a) Formulación del modelo (especificación)

b) Ajuste del modelo (estimación)

c) Evaluación del modelo (validación)

Introducción a la Minería de Datos

Page 6: Mineria de datos Parte II

Page 6

Tratamiento de datos para DM

MUESTREO

De una manera general, el número de registros en una base de datos es muy grande, siendo innecesario utilizar totalmente la base para el ajuste de un modelo.

Introducción a la Minería de Datos

Page 7: Mineria de datos Parte II

Page 7

Tratamiento de datos para DM

MUESTRA DE ENTRENAMIENTO

MUESTRA DE VALIDACIÓN

Introducción a la Minería de Datos

Page 8: Mineria de datos Parte II

Page 8

Tratamiento de datos para DM

Introducción a la Minería de Datos

En el caso de la estimación de proporciones tenemos los siguientes valores:

Page 9: Mineria de datos Parte II

Page 9

Tratamiento de datos para DM

PRE PROCESAMIENTO

Una vez seleccionada la muestra, los pasos siguientes son: tratar los errores, valores aberrantes (outliers) y valores faltantes (missing values).

Introducción a la Minería de Datos

Page 10: Mineria de datos Parte II

Page 10

Tratamiento de datos para DM

Valores aberrantes (outliers)

Introducción a la Minería de Datos

Page 11: Mineria de datos Parte II

Page 11

Tratamiento de datos para DM

Realce y extracción de características

El número de variables presentes en el dataset puede ser muy grande, además las variables pueden estar expresadas de forma poco conveniente. Diversas técnicas pueden ser útiles y se incluyen en la etapa de realce y extracción de características del proyecto de minería de datos.

Introducción a la Minería de Datos

Page 12: Mineria de datos Parte II

Page 12

Tratamiento de datos para DM

Reducción de Variables

Reducción de variables, o reducción de la dimensión, tiene como objetivo eliminar atributos irrelevantes, o poco relevantes teniendo en vista el problema seleccionado.

Introducción a la Minería de Datos

Page 13: Mineria de datos Parte II

Page 13

Tratamiento de datos para DM

El dengue es el tema más grande de la campaña de salud pública en Brasil, que se centra en el control de vectores Ae. aegypti. Este mosquito está adaptado para reproducirse en ambientes domésticos y peridomésticos, en recipientes donde se almacena el agua potable y recipientes desechables que se encuentran comúnmente en la basura de las ciudades donde se acumula agua de lluvia.

Introducción a la Minería de Datos

Page 14: Mineria de datos Parte II

Page 14

Tratamiento de datos para DM

El dengue está presente en los 27 estados de Brasil, distribuidos en 3.794 municipios. Brasil contribuye con alrededor del 60% de las notificaciones de dengue en las Américas.

El estudio abarcó la ciudad de Río de Janeiro, turístico y comercial en el país con una población de más de seis millones de habitantes

Introducción a la Minería de Datos

Page 15: Mineria de datos Parte II

Page 15

Tratamiento de datos para DM

O instrumento de coleta de dados é um formulário com 87 campos , além de um campo para observações adicionais. Esses campos estão agrupados segundo a seguinte classificação:

Datos generales – 1 a 4

Datos del episodio – 5 a 14

Datos de la vivienda – 15 a 25

Antecedentes Epidemiologicos – 26 a 32

Datos Clínicos – 33 a 41

Atendimento – 42 a 48

Datos de Laboratorio – 49 a 70

Conclusión – 71 a 82

Investigador – 83 a 87

Introducción a la Minería de Datos

Page 16: Mineria de datos Parte II

Page 16

Tratamiento de datos para DM

Considerando el interés de la investigación, lo incompleto de la información y la redundancia fueron eliminadas las siguientes variables:

NU_NOTIFIC:Designación del tipo (siempre individual) sin intereses

DT_NOTIFIC:Notificación de fecha (dd / mm / aa) sin intereses

NU_ANO: redundancia

ID_AGRAVO:Dengue redundancia

SG_RJ: redundancia

ID_MUNICI:redundancia

...

AUTOCTONE:unidad de la federación 43 atributos eliminados

Introducción a la Minería de Datos

Page 17: Mineria de datos Parte II

Page 17

Tratamiento de datos para DM

Englobam cualquier proceso que modifique la forma de los datos. Discretización (convertir um numérico a nominal) y numerización (viceversa).

Transformación de variables

Introducción a la Minería de Datos

Page 18: Mineria de datos Parte II

Page 18

Tratamiento de datos para DM

Como continuación del ejercicio propuesto al final del capítulo La Construcción de Modelos en el Proceso KDD/DM especifique:

a) fuente de datos que irá ser utilizada

b) variables (atributos) que serán leídas (todas)c) esquema de particiónd) criterios para detección de errorese) criterios para tratamiento de outliers

Establezca ahora procedimientos para la transformación de variables que sean necesarias para la extracción de características y realce. Prevea también procedimientos para la reducción de variables.

Introducción a la Minería de Datos

Page 19: Mineria de datos Parte II

Page 19

Métodos para Modelaje

X2

A B xx xxxxxx +++

x xxxx++++ xxxx ++++

A´ X1

B´ Função discriminante Y

Introducción a la Minería de Datos

?

Page 20: Mineria de datos Parte II

Page 20

Métodos para Modelaje

Métodos para modelos de predicción con variables de entrada y salida continuas.

Toda la familia de métodos de regresión puede ser útil para estos modelos: regresión lineal, no lineal, univariada y multivariada.

Introducción a la Minería de Datos

Page 21: Mineria de datos Parte II

Page 21

Métodos para Modelaje

Métodos para modelos de predicción con variables de entrada y salida continuas.

Análisis de Regresión Lineal – el término regresión fue introducido por Francis Galton en 1885. En estos modelos se supone que la media de una variable Y es dependiente de una o más variables (X1, X2,…, Xr). La variable Y es llamada de variable de salida o dependiente y las variables Xi son llamadas de variablesde entrada, explicativas o aún de variables independientes.

Introducción a la Minería de Datos

Page 22: Mineria de datos Parte II

Page 22

Métodos para Modelaje

Métodos para modelos de predicción con variables de entrada y salida continuas.

El ajuste del modelo para una población dada, normalmente es elaborado a partir de la minimización de la suma de los cuadrados de los errores (Método de los Mínimos Cuadrados), aunque existan otros criterios, tales como el de la máxima verosimilitud o incluso los métodos de inferencia bayesiana.

Introducción a la Minería de Datos

Page 23: Mineria de datos Parte II

Page 23

Métodos para Modelaje

Métodos para modelos de predicción con variables de entrada y salida continuas.

En minería de datos el principal interés está más en la previsión que en la explicación del papel de los coeficientes. Es obvio que para realizar la previsión es necesario estimar los coeficientes, pero no hay necesidad de profundizar el análisis. El objetivo es maximizar el poder predictivo de las variables Xi. La combinación lineal de estas variables es construida para ser una predicción óptima de la variable propuesta.

Introducción a la Minería de Datos

Page 24: Mineria de datos Parte II

Page 24

Métodos para Modelaje

Ejercício 2,parte II

Basado en el libro de Luis Torgo, “Minería de datos con R”, consulte los enlaces en el blog. El método adoptado es el de regresión lineal aplicada a un problema en el área ambiental. El problema es predecir la tasa de ocurrencia de los siete (7) tipos diferentes de algas a partir de muestras de agua tomadas en diferentes estaciones, en los ríos de diferentes tamaños, con diferentes velocidades de flujo, en el que se analizaron los niveles de ocho diferentes elementos químicos: pH mínimo de O2, con una media de cloro, el promedio de nitratos, el promedio de amoníaco, ortofosfato promedio, el fosfato y el valor promedio medio de la clorofila, además de las tasas de asistencia de algas diferentes.

Introducción a la Minería de Datos

Page 25: Mineria de datos Parte II

Page 25

Métodos para Modelaje

La muestra de formación cuenta con 200 observaciones y está archivada en algas-Entrenamiento-regresión lineal.txt en la página "Detalles" del blog.La muestra de validación tiene 140 observaciones, que fueron divididos en dos archivos, el primero validacion Alga de regresión lineal-txt no contiene ninguna información acerca de las algas. El segundo archivo, validacion algas de regresión lineal-sol-txt, sólo contiene información acerca de las algas.

El programa hace el análisis exploratorio, el entrenamiento y validación, “Regrssion lineal”, está disponible en la página de "Programas" del blog. Para utilizar el programa, los participantes del curso deben tener instalado en su computadora el paquete "DMwR".

Introducción a la Minería de Datos