presentacion data mining (mineria de datos)- base de datos

46
Minería de Datos Base de Datos I

Upload: marines-kl

Post on 21-Feb-2017

584 views

Category:

Data & Analytics


3 download

TRANSCRIPT

Page 1: Presentacion data mining (mineria de datos)- base de datos

Minería de DatosBase de Datos I

Page 2: Presentacion data mining (mineria de datos)- base de datos

Minería o exploración de datos es un campo de la ciencia de computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos.

Introducción

Page 3: Presentacion data mining (mineria de datos)- base de datos

También está definido por ser el proceso de detectar patrones significativos en los datos. La minería de datos es un complemento natural al proceso de explorar y entender los datos. Los algoritmos automáticos pueden procesar cantidades de datos muy grandes y detectar patrones y tendencias que, de lo contrario, estarían ocultos.

Page 4: Presentacion data mining (mineria de datos)- base de datos

- Con la llegada de la era de la computación, el mundo moderno ha experimentado un crecimiento en la cantidad de información disponible sin precedentes en la historia.

- Distintos proyectos pueden generar varios Terabytes de información (incluso en algunos casos, diaria).

- Estas bases de datos necesitan poder organizar de manera oportuna y adecuada todos los datos almacenados en las mismas, además de facilitar el acceso a esta información para todos los usuarios y, desde un punto de vista económico / ecológico ahorrativo.

Algo de historia...

Page 5: Presentacion data mining (mineria de datos)- base de datos

Skycat: Clasificación automática de objetos del firmamento.

Page 6: Presentacion data mining (mineria de datos)- base de datos

Gráficos y cifras respecto de la información y datos almacenados en las Bases de datos en aproximadamente los últimos 20 años.

Page 7: Presentacion data mining (mineria de datos)- base de datos

Como anteriormente vimos los datos y el volumen de los mismos son enormes de modo que es bastante complicado poder analizar todos los datos de forma manual. Es por esta necesidad que nacen las técnicas automáticas de exploración de datos.

Los requisitos principales de estas técnicas son: - Extracción de conocimiento en grandes bases de datos.- No triviales- Implícito- Previamente desconocido- Potencialmente útil

…Historia e inicios…

Page 8: Presentacion data mining (mineria de datos)- base de datos
Page 9: Presentacion data mining (mineria de datos)- base de datos
Page 10: Presentacion data mining (mineria de datos)- base de datos

Es desarrollar una forma de pensar (teoría) y técnicas computacionales que permitan procesar y aprender de esta información:

1.- Reducción de dimensión. 2.- Extracción de señales (filtrar el ruido). 3.- Visualización. 4.- Aprender sobre problemas de interés (inferencia). 5.- Predecir (clasificar). 6.- Detectar anomalías. El marco conceptual de la minería de datos es la teoría de aprendizaje estadístico.

Retos de la Minería de Datos:

Page 11: Presentacion data mining (mineria de datos)- base de datos

- Convertir los datos en conocimiento para tomar decisiones- Extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso

posterior.- Frecuentemente el término de minería de Datos es mal utilizado para referirse a cualquier forma de datos a gran

escala o procesamiento de la información (recolección, extracción, almacenamiento, análisis y estadísticas).- La palabra clave de este término es el descubrimiento, comúnmente se define como "la detección de algo

nuevo«.

Objetivos de la Minería de Datos

Page 12: Presentacion data mining (mineria de datos)- base de datos

El proceso de extracción de conocimientos en las Bases de Datos es:- Limpieza de Datos (eliminación de ruido e inconsistencias)- Integración de Datos (combinación de múltiples fuentes de datos)- Reducción / Selección de Datos (identificación de datos relevantes)- Transformación de Datos (preparación de los Datos para su análisis)- Minería de Datos (técnicas de extracción de patrones y medias de interés)- Presentación de resultados (técnicas de visualización y representación del conocimiento).

KDD (Knowledge Discovery in Databases)

Page 13: Presentacion data mining (mineria de datos)- base de datos
Page 14: Presentacion data mining (mineria de datos)- base de datos

La principal tarea de la Minería de Datos real es el análisis automático o semi automático de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos (análisis clúster), registros poco usuales (la detección de anomalías) y dependencias (minería por reglas de asociación).

Los términos relacionados con la obtención de datos, la pesca de datos y espionaje de los datos se refieren a la utilización de métodos de minería de

Datos.

Tareas:

Page 15: Presentacion data mining (mineria de datos)- base de datos

Podemos agrupar algunas tareas mencionadas anteriormente y otras en:- Predicción:

o Clasificacióno Regresión

- Asociación- Agrupación (clustering)

…Tareas…

Page 16: Presentacion data mining (mineria de datos)- base de datos

La Minería de Datos típicamente se emplea en casos como:- Predecir si un paciente va a ser hospitalizado con base en su historia clínica.- Clasificación de dígitos (códigos) escritos a mano.- Comprensión de información (imágenes).- Determinantes de una enfermedad (síntomas y posología)- Clasificación de clientes (instituciones financieras)- Detección de anomalías y fraudes (sector financiero).

Problemas típicos:

Page 17: Presentacion data mining (mineria de datos)- base de datos

Dependiendo de la técnica, la minería de Datos se aplica: (técnica de carácter horizontal)

- Financieras y Bancao Obtención de patrones de uso fraudulento de tarjetas de crédito

o Predicción de morosidad- Análisis de mercado

o Análisis de la cesta de comprao Segmentación de mercado

- Seguros y salud privadao Determinación de clientes potencialmente caros.

Aplicaciones de la Minería de Datos

Page 18: Presentacion data mining (mineria de datos)- base de datos

- Educacióno Detección de abandonos

- Medicinao Diagnóstico de enfermedades

- Cienciao Predecir si un compuesto químico causa cáncer

o Predecir si una persona puede tener potencialmente una enfermedad a partir de su ADN.o Clasificación de los cuerpos celestes (SKYCAT)

- Detección de Spam- Web

o Asociación de compras en línea (AMAZON)

… aplicaciones…

Page 19: Presentacion data mining (mineria de datos)- base de datos

- Webo Clasificación automática de páginas web para directorios

- Reconocimiento de caracteres, voz, texto, etc.- Predicción de la demanda de servicios (eléctrico, agua, gas, etc). Podemos mencionar también que existen herramientas de software que nos ayudan a desarrollar modelos de

minería de datos, por ejemplo:- dVelox de APARA - KXEN - KNIME- Neural Designer - OpenNN - Orange- Powerhouse - Quiterian - RapidMiner- SAS Enterprise Miner - SPSS Clementine - R- STATISTICA Data Miner - Weka - KEEL

… más aplicaciones…

Page 20: Presentacion data mining (mineria de datos)- base de datos

CLAVES OCULTAS EN LOS DATOS

Es poco costoso guardar datos del funcionamiento de nuestros procesos, o de nuestros sistemas de venta, o de nuestros clientes, etc., por lo que nuestras bases de datos crecen hasta límites insospechados.

Page 21: Presentacion data mining (mineria de datos)- base de datos

Estructuración de los datos Para poder analizar nuestros datos con fiabilidad es

necesario que exista una cierta estructuración y coherencia entre los mismos. Diferentes tipos de datos representando el mismo

concepto: un ejemplo que ha provocado uno de los mayores problemas informáticos es la representación de la fecha, donde el año se puede guardar con 2 o con 4 dígitos.

Diferentes claves para representar el mismo elemento: un mismo cliente puede ser representado por un código de

cliente propio o por su NIF.La cuestión no es sencilla, y se agrava cuando los diferentes ficheros se encuentran en sistemas informáticos y soportes diferentes.

Page 22: Presentacion data mining (mineria de datos)- base de datos

Punto de partida

Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras:

1. Recolección masiva de datos.2. Potentes computadoras con multiprocesadores.3. Algoritmos de Data Mining.

Page 23: Presentacion data mining (mineria de datos)- base de datos

Características y objetivos1. Explorar los datos se encuentran en las profundidades de las bases de

datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años.

2. El entorno de la minería de datos suele tener una arquitectura cliente-servidor.

3. El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rápidamente respuestas.

4. La minería de datos produce cinco tipos de información:1. Asociaciones.2. Secuencias.3. Clasificaciones.4. Agrupamientos.5. Pronósticos.

Page 24: Presentacion data mining (mineria de datos)- base de datos

Fases de un proceso de minería de datos El proceso de minería de datos pasa por las siguientes fases:

1. Filtrado de datos.2. Selección de Variables.3. Extracción de Conocimiento.4. Interpretación y Evaluación.

Page 25: Presentacion data mining (mineria de datos)- base de datos

FILTRADO DE DATOS Mediante el preprocesado, se filtran los datos (de forma que se

eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...).

SELECCIÓN DE VARIABLES Los métodos para la selección de características

son básicamente dos:1. Aquellos basados en la elección de los mejores

atributos del problema,2. Y aquellos que buscan variables independientes

mediante tests de sensibilidad, algoritmos de distancia o heurísticos.

Page 26: Presentacion data mining (mineria de datos)- base de datos

ALGORITMOS DE EXTRACCIÓN DE CONOCIMIENTO

Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables.

INTERPRETACIÓN Y EVALUACIÓN Una vez obtenido el modelo, se debe proceder a su

validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias.

Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Page 27: Presentacion data mining (mineria de datos)- base de datos

PRINCIPALES TÉCNICAS

Page 28: Presentacion data mining (mineria de datos)- base de datos

Las técnicas más relevantes se pueden clasificar según el tipo de problema que se estudia. Análisis supervisado:

1. Clasificación: logístico, arboles, boosting de arboles, redes neuronales.

2. Regresión: regresión lineal, shrinkage, redes neuronales, kernels. Análisis no supervisado:

1. Conglomerados.2. Reglas de asociación.3. Análisis digital

Page 29: Presentacion data mining (mineria de datos)- base de datos

Supongamos y 0,1∈ . El modelo de clasificación logístico supone que:

donde P(y = 1|x) es la probabilidad de que el resultado sea 1 cuando las características observadas son x.

La forma de estimar β es mediante el método de máxima verosimilitud. La idea es maximizar:

LOGÍSTICO

Page 30: Presentacion data mining (mineria de datos)- base de datos

La idea es hacer separaciones secuenciales de los datos de acuerdo a cada variable independiente.

CART, BOOSTING DE ÁRBOLES

Page 31: Presentacion data mining (mineria de datos)- base de datos
Page 32: Presentacion data mining (mineria de datos)- base de datos

La idea es hacer separaciones secuenciales de los datos de

acuerdo a cada variable independiente.

Sean R1,….., RM un conjunto de regiones.

Cada región la clasificamos como cero o uno dependiendo de

la proporción de datos observados con resultado cero o uno.

Sea p(m,1) La cantidad de unos en la región m como proporción de la cantidad de observaciones en esa región.

Sea k(m) = 1 si p(m,1) > p(m,0).

Page 33: Presentacion data mining (mineria de datos)- base de datos

Definimos el error de clasificación como

Ahora repetimos el siguiente algoritmo.1. Para determinar el primer nodo, la variable que hace separación es aquella que minimiza el error de

clasificación.2. En cada nodo se elige la variable (entre las que no se han usado para separar anteriormente) que minimiza el error de clasificación.3. Se continua hasta completar M nodos.

Page 34: Presentacion data mining (mineria de datos)- base de datos

Un excelente clasificador cuando se combina con boosting

Page 35: Presentacion data mining (mineria de datos)- base de datos

La característica principal es que permite introducir no linealidades

REGRESIONES

Page 36: Presentacion data mining (mineria de datos)- base de datos

El problema es describir la distribución las variables independientes. Permite detectar asociaciones entre variables cuando estas son poco frecuentes.Los conceptos claves son:

1. El soporte de un conjunto de variables es la probabilidad de encontrar esos valores entre los valores de las variables independientes.

2. Una regla A B se le asigna una confianza igual a la probabilidad condicional de B dado A.Típicamente se busca un soporte bajo y una confianza alta.

Page 37: Presentacion data mining (mineria de datos)- base de datos

Objetivos complementarios en un problema de minería de datos.1. Selección de modelos.2. Evaluación de modelo.

En ambientes ricos en información esto se puede operacionalizar dividiendo aleatoriamente los datos observados.

PRINCIPALES TÉCNICAS

Page 38: Presentacion data mining (mineria de datos)- base de datos

VALIDACIÓN CRUZADA

Page 39: Presentacion data mining (mineria de datos)- base de datos

VALIDACIÓN CRUZADA

Page 40: Presentacion data mining (mineria de datos)- base de datos

Fuentes de Datos

Page 41: Presentacion data mining (mineria de datos)- base de datos

Bases de datos relacionales

Una Base de Datos Relacional, es una base de datos que cumple con el modelo relacional el cual es el modelo más utilizado en la actualidad para implementar bases de datos ya planificadas. 

Page 42: Presentacion data mining (mineria de datos)- base de datos

Bases de datos multidimensionales

Estas bases de datos se utilizan para crear aplicaciones muy específicas, por ejemplo para crear cubos estas bases de datos se pueden representar por medio de tablas

Page 43: Presentacion data mining (mineria de datos)- base de datos

Bases de datos transaccionales

Un sistema transaccional debe controlar las transacciones para mantener la seguridad y consistencia de los datos involucrados. Los sistemas transaccionales automatizan tareas operáticas en una organización permitiendo ahorrar en personal.

Page 44: Presentacion data mining (mineria de datos)- base de datos

Evaluación de resultados Un resultado es interesante si: Es comprensible Es valido con cierto grado de certeza Es potencialmente útil Es novedoso o sirve para validar una hipótesis

Page 45: Presentacion data mining (mineria de datos)- base de datos

El interés de los resultados se puede evaluar: Objetivamente (criterios estadísticos)

Subjetivamente (perspectiva del usuario)

Page 46: Presentacion data mining (mineria de datos)- base de datos