7.1 mineria de datos

30
MINERIA DE DATOS Ricardo Cesar Manrique Jaeger Sebastian Mazeyra Zuñiga

Upload: maicol-k-huaman-tito

Post on 14-Apr-2016

236 views

Category:

Documents


1 download

DESCRIPTION

7.1 Mineria de Datos

TRANSCRIPT

Page 1: 7.1 Mineria de Datos

MINERIA DE DATOS

Ricardo Cesar Manrique JaegerSebastian Mazeyra Zuñiga

Page 2: 7.1 Mineria de Datos

MINERIA DE DATOS = EXPLORACION DE DATOS

Minería de datos es la exploración y análisis de grandes cantidades de datos con el objeto de encontrar patrones y reglas significativas (conocimiento)

Originalmente iba a ser llamado simplemente "la máquina de aprendizaje práctico", y el término "minería de datos" se añadió por razones de marketing

Page 3: 7.1 Mineria de Datos

La minería de datos o exploración de datos es la etapa de análisis de "Knowledge Discovery in Databases" o KDD es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.

Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos.

Page 4: 7.1 Mineria de Datos

OBJETIVOExtraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior

Análisis automático o semi-automático de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos (análisis clúster), registros poco usuales (la detección de anomalías) y dependencias (minería por reglas de asociación)

Page 5: 7.1 Mineria de Datos

MINERIA DE DATOS

El análisis e interpretación manual de los datos se torna impráctico (lento, caro y subjetivo) en la medida que los volúmenes de datos crecen exponencialmente

Page 6: 7.1 Mineria de Datos
Page 7: 7.1 Mineria de Datos

KDD se nutre de diferentes disciplinas:

• Estadística.• Sistemas de información / bases de datos.• Aprendizaje automático / Inteligencia Artificial.• Visualización de datos.• Computación paralela / distribuida.• Interfaces de lenguaje natural a bases de datos.

Page 8: 7.1 Mineria de Datos

Data Mining : confluencia de múltiples disciplinas

Data Mining

Sistemas de información

VisualizaciónEstadística

Aprendizaje automático

Otras disciplinas

Page 9: 7.1 Mineria de Datos

Integración y recopilación

Selección, limpieza y transformación

DATA MINING Evaluación e interpretación

Datos iniciales Almacén de

Datos(Data Warehouse)

Datos seleccionados

Patrones Conocimient

o

Proceso de KDD

Knowledge Discovery from DatabasesKDD

Page 10: 7.1 Mineria de Datos

Ventajas: · Generar un modelo requiere menos esfuerzo manual y permite

evaluar cantidades ingentes de datos.· Se pueden evaluar muchos modelos generados automáticamente,

y esto aumenta la probabilidad de encontrar un buen modelo. · El analista necesita menos formación sobre construcción de

modelos y menos experiencia.

HERRAMIENTAS TRADICIONALES VS MINERIA DE DATOS

• El analista empieza con una pregunta, una suposición o simplemente una intuición y explora los datos y construye un modelo. El analista propone el modelo

• Aunque el analista no pierde la posibilidad de proponer modelos, el sistema encuentra y sugiere modelos.

Page 11: 7.1 Mineria de Datos
Page 12: 7.1 Mineria de Datos

Un resultado adecuado por mineria de datos tiene las siguientes caracteristica

Es comprensible (por seres humanos) Es válido con cierto grado de certeza Es potencialmente útil Es novedoso o sirve para validar una hipótesis

Page 13: 7.1 Mineria de Datos
Page 14: 7.1 Mineria de Datos
Page 15: 7.1 Mineria de Datos

Tipos de aplicaciones de la minería de datos Aplicaciones o problemas de minería de datos

pueden clasificarse en las siguientes categorías Clasificación Estimación Pronóstico Asociación Agrupación o segmentación

Page 16: 7.1 Mineria de Datos

Clasificación

Examinar las características de un nuevo objeto y asignarle una clase o categoría de acuerdo a un conjunto de tales objetos previamente definido

Ejemplos: Clasificar aplicaciones a crédito como bajo, medio y

alto riesgo Detectar reclamos fraudulentos de seguros

Page 17: 7.1 Mineria de Datos

Estimación

Relacionado con clasificación Mientras clasificación asigna un valor discreto,

estimación produce un valor continuo Ejemplos:

Estimar el precio de una vivienda Estimar el ingreso total de una familia

Page 18: 7.1 Mineria de Datos

Pronóstico

Predecir un valor futuro con base a valores pasados

Ejemplos: Predecir cuánto efectivo requerirá un cajero

automático en un fin de semana

Page 19: 7.1 Mineria de Datos

Asociación

Determinar cosas u objetos que van juntos Ejemplo:

Determinar que productos se adquieren conjuntamente en un supermercado

Page 20: 7.1 Mineria de Datos

Agrupación o segmentación Dividir una población en un número de grupos

más homogéneos No depende de clases pre-definidas a diferencia

de clasificación Ejemplo:

Dividir la base de clientes de acuerdo con los hábitos de consumo

Page 21: 7.1 Mineria de Datos

Proceso de data mining

Un proceso típico de minería de datos tiene los siguientes pasos:

1. Selección del conjunto de datos: Variables objetivo: variables que quiero predecir. Variables independientes: variables que sirven para hacer el

calculo.

2. Análisis de las propiedades de los datos: Histogramas Diagramas de dispersión Valores atípicos etc.

Page 22: 7.1 Mineria de Datos

3. Transformación del conjunto de datos de entrada: Pre procesamiento de los datos (prepara los datos para aplicar la técnica

de data mining que mejor se adapte).

4. Seleccionar y aplicar la técnica de minería de datos: Se construye un modelo predictivo.

5. Extracción de conocimiento: Usando el modelo predictivo se obtiene los valores de las variables,

observando los patrones de comportamiento.

6. Interpretación y evaluación de datos: Se debe comprobar que las conclusiones que arrojan los modelos

predictivos sean validas y suficientemente satisfactorias. En el caso de no ser así debe encontrarse otro modelo que si cumpla

utilizando otra técnica de data mining.

Page 23: 7.1 Mineria de Datos

Técnicas del data mining

Estas técnicas provienen de la inteligencia artificial y de la estadística, y no son mas que algoritmos sofisticados que se aplican a un conjunto de datos para obtener los resultados.

Las técnicas mas representativas son:

Redes neuronales Regresión lineal Arboles de decisión Modelos estadísticos Agrupamiento Reglas de asociación

Page 24: 7.1 Mineria de Datos

Red neuronal artificial La redes neuronales artificiales son un paradigma de

aprendizaje y procesamiento automático inspirado en la forma como funciona el sistema nervioso de los animales.

Se trata de un sistema de interconexión de neuronas que colaboran entre si para producir un estimulo de salida.

Page 25: 7.1 Mineria de Datos

Regresión lineal

En estadística la regresión lineal es un método matemático que modela la relación entre una variable dependiente y las variables independientes.

Page 26: 7.1 Mineria de Datos

Arboles de decisión

Es un modelo de predicción, basado en diagramas de construcciones lógicas que sirven para representar y categorizar una serie de condiciones que ocurren de forma sucesiva .

Page 27: 7.1 Mineria de Datos

Modelos estadísticos

Un modelo estadístico es una expresión simbólica en forma de igualdad que se emplea en todos los diseños experimentales para indicar los diferentes factores que modifican la variable de respuesta.

Page 28: 7.1 Mineria de Datos

Agrupamiento Un algoritmo de agrupamiento es un

procedimiento de agrupación de una serie de vectores de acuerdo a un criterio.

Estos criterios por lo general son distancia o similitud.

El conocimiento de este grupo de vectores nos permite una descripción sintética de un conjunto de datos multidimensional complejo.

Page 29: 7.1 Mineria de Datos

Reglas de asociación

Las reglas de asociación se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.

(cebollas, vegetales) (carne)

Esta regla encontrada en un supermercado indica que un consumidor que compra cebollas y vegetales, es probable que compre también carne.

Page 30: 7.1 Mineria de Datos

Conceptos clave Paradigma: un paradigma de programación

es una propuesta tecnológica que es adoptada por una comunidad de programadores que trata de resolver uno o varios problemas claramente delimitados.

Vector: en programación, es una zona de almacenamiento continuo, que contiene una serie de elementos del mismo tipo (varios datos del mismo tipo).