7.1 mineria de datos

Post on 14-Apr-2016

237 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

7.1 Mineria de Datos

TRANSCRIPT

MINERIA DE DATOS

Ricardo Cesar Manrique JaegerSebastian Mazeyra Zuñiga

MINERIA DE DATOS = EXPLORACION DE DATOS

Minería de datos es la exploración y análisis de grandes cantidades de datos con el objeto de encontrar patrones y reglas significativas (conocimiento)

Originalmente iba a ser llamado simplemente "la máquina de aprendizaje práctico", y el término "minería de datos" se añadió por razones de marketing

La minería de datos o exploración de datos es la etapa de análisis de "Knowledge Discovery in Databases" o KDD es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.

Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos.

OBJETIVOExtraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior

Análisis automático o semi-automático de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos (análisis clúster), registros poco usuales (la detección de anomalías) y dependencias (minería por reglas de asociación)

MINERIA DE DATOS

El análisis e interpretación manual de los datos se torna impráctico (lento, caro y subjetivo) en la medida que los volúmenes de datos crecen exponencialmente

KDD se nutre de diferentes disciplinas:

• Estadística.• Sistemas de información / bases de datos.• Aprendizaje automático / Inteligencia Artificial.• Visualización de datos.• Computación paralela / distribuida.• Interfaces de lenguaje natural a bases de datos.

Data Mining : confluencia de múltiples disciplinas

Data Mining

Sistemas de información

VisualizaciónEstadística

Aprendizaje automático

Otras disciplinas

Integración y recopilación

Selección, limpieza y transformación

DATA MINING Evaluación e interpretación

Datos iniciales Almacén de

Datos(Data Warehouse)

Datos seleccionados

Patrones Conocimient

o

Proceso de KDD

Knowledge Discovery from DatabasesKDD

Ventajas: · Generar un modelo requiere menos esfuerzo manual y permite

evaluar cantidades ingentes de datos.· Se pueden evaluar muchos modelos generados automáticamente,

y esto aumenta la probabilidad de encontrar un buen modelo. · El analista necesita menos formación sobre construcción de

modelos y menos experiencia.

HERRAMIENTAS TRADICIONALES VS MINERIA DE DATOS

• El analista empieza con una pregunta, una suposición o simplemente una intuición y explora los datos y construye un modelo. El analista propone el modelo

• Aunque el analista no pierde la posibilidad de proponer modelos, el sistema encuentra y sugiere modelos.

Un resultado adecuado por mineria de datos tiene las siguientes caracteristica

Es comprensible (por seres humanos) Es válido con cierto grado de certeza Es potencialmente útil Es novedoso o sirve para validar una hipótesis

Tipos de aplicaciones de la minería de datos Aplicaciones o problemas de minería de datos

pueden clasificarse en las siguientes categorías Clasificación Estimación Pronóstico Asociación Agrupación o segmentación

Clasificación

Examinar las características de un nuevo objeto y asignarle una clase o categoría de acuerdo a un conjunto de tales objetos previamente definido

Ejemplos: Clasificar aplicaciones a crédito como bajo, medio y

alto riesgo Detectar reclamos fraudulentos de seguros

Estimación

Relacionado con clasificación Mientras clasificación asigna un valor discreto,

estimación produce un valor continuo Ejemplos:

Estimar el precio de una vivienda Estimar el ingreso total de una familia

Pronóstico

Predecir un valor futuro con base a valores pasados

Ejemplos: Predecir cuánto efectivo requerirá un cajero

automático en un fin de semana

Asociación

Determinar cosas u objetos que van juntos Ejemplo:

Determinar que productos se adquieren conjuntamente en un supermercado

Agrupación o segmentación Dividir una población en un número de grupos

más homogéneos No depende de clases pre-definidas a diferencia

de clasificación Ejemplo:

Dividir la base de clientes de acuerdo con los hábitos de consumo

Proceso de data mining

Un proceso típico de minería de datos tiene los siguientes pasos:

1. Selección del conjunto de datos: Variables objetivo: variables que quiero predecir. Variables independientes: variables que sirven para hacer el

calculo.

2. Análisis de las propiedades de los datos: Histogramas Diagramas de dispersión Valores atípicos etc.

3. Transformación del conjunto de datos de entrada: Pre procesamiento de los datos (prepara los datos para aplicar la técnica

de data mining que mejor se adapte).

4. Seleccionar y aplicar la técnica de minería de datos: Se construye un modelo predictivo.

5. Extracción de conocimiento: Usando el modelo predictivo se obtiene los valores de las variables,

observando los patrones de comportamiento.

6. Interpretación y evaluación de datos: Se debe comprobar que las conclusiones que arrojan los modelos

predictivos sean validas y suficientemente satisfactorias. En el caso de no ser así debe encontrarse otro modelo que si cumpla

utilizando otra técnica de data mining.

Técnicas del data mining

Estas técnicas provienen de la inteligencia artificial y de la estadística, y no son mas que algoritmos sofisticados que se aplican a un conjunto de datos para obtener los resultados.

Las técnicas mas representativas son:

Redes neuronales Regresión lineal Arboles de decisión Modelos estadísticos Agrupamiento Reglas de asociación

Red neuronal artificial La redes neuronales artificiales son un paradigma de

aprendizaje y procesamiento automático inspirado en la forma como funciona el sistema nervioso de los animales.

Se trata de un sistema de interconexión de neuronas que colaboran entre si para producir un estimulo de salida.

Regresión lineal

En estadística la regresión lineal es un método matemático que modela la relación entre una variable dependiente y las variables independientes.

Arboles de decisión

Es un modelo de predicción, basado en diagramas de construcciones lógicas que sirven para representar y categorizar una serie de condiciones que ocurren de forma sucesiva .

Modelos estadísticos

Un modelo estadístico es una expresión simbólica en forma de igualdad que se emplea en todos los diseños experimentales para indicar los diferentes factores que modifican la variable de respuesta.

Agrupamiento Un algoritmo de agrupamiento es un

procedimiento de agrupación de una serie de vectores de acuerdo a un criterio.

Estos criterios por lo general son distancia o similitud.

El conocimiento de este grupo de vectores nos permite una descripción sintética de un conjunto de datos multidimensional complejo.

Reglas de asociación

Las reglas de asociación se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.

(cebollas, vegetales) (carne)

Esta regla encontrada en un supermercado indica que un consumidor que compra cebollas y vegetales, es probable que compre también carne.

Conceptos clave Paradigma: un paradigma de programación

es una propuesta tecnológica que es adoptada por una comunidad de programadores que trata de resolver uno o varios problemas claramente delimitados.

Vector: en programación, es una zona de almacenamiento continuo, que contiene una serie de elementos del mismo tipo (varios datos del mismo tipo).

top related