mineria de datos

19
Inteligencia en Redes de Comunicaciones 1 Inteligencia en Redes de Comunicaciones Raquel M. Crespo García Julio Villena Román {rcrespo, jvillena}@it.uc3m.es Minería de Datos Índice Definición y conceptos Técnicas y modelos IRC - © JVR, RCG - 1

Upload: leonel-vilchez

Post on 18-Nov-2015

14 views

Category:

Documents


0 download

DESCRIPTION

Mineria de datos

TRANSCRIPT

  • Inteligencia en Redes de Comunicaciones

    1

    Inteligencia en Redes de Comunicaciones

    Raquel M. Crespo Garca

    Julio Villena Romn{rcrespo, jvillena}@it.uc3m.es

    Minera de Datos

    ndice

    Definicin y conceptos

    Tcnicas y modelos

    IRC - JVR, RCG - 1

  • Inteligencia en Redes de Comunicaciones

    2

    Tipos de conocimiento

    Conocimiento profundo

    Conocimiento oculto

    Conocimiento evidente

    Conocimiento multi-dimensional

    IRC - JVR, RCG - 2

    Fuente: Data Mining, P. Adriaans, D. Zantinge, Addison-Wesley, 1996.

    Tipos de conocimiento

    (segn su nivel de abstraccin)

    Conocimiento evidenteFcilmente recuperable SQL

    Conocimiento multi-dimensionalConsidera los datos con una cierta estructura OLAP

    Conocimiento oculto Informacin no evidente, desconocida a priori y

    potencialmente til MD

    Conocimiento profundo Informacin que est almacenada en la base de datos,

    pero que resulta imposible de recuperar a menos que se disponga de alguna clave que oriente la bsqueda

    IRC - JVR, RCG - 3

  • Inteligencia en Redes de Comunicaciones

    3

    Aprender

    Objetivo:

    Construir un sistema computacional que sea capaz de

    encontrar y modelar el conocimiento oculto que a los

    seres humanos nos resulta difcil ver

    Cmo?

    Dotando a ese sistema de algoritmos o tcnicas que

    imiten la cualidad humana del aprendizaje, esto es, ser

    capaz de extraer nuevos conocimientos a partir de las

    experiencias (ejemplos)

    IRC - JVR, RCG - 4

    KD

    Knowledge Discovery is the nontrivial extraction of

    implicit, previously unknown and potentially

    useful information from data

    W. J. Frawley,

    G.Piatetsky-Shapiro,

    C. J. Matheus

    IRC - JVR, RCG - 5

  • Inteligencia en Redes de Comunicaciones

    4

    KDD

    Knowledge Discovery in Databases: nombre tcnico con que se denomina al proceso global de

    extraccin de conocimiento de bases de datos

    IRC - JVR, RCG - 6

    Data Mining

    La minera de datos comprende una serie de

    tcnicas, algoritmos y mtodos cuyo fin es la

    explotacin de grandes volmenes de datos con

    vistas al descubrimiento de informacin

    previamente desconocida y que pueda servir de

    ayuda en el proceso de toma de decisiones,

    formando parte del conjunto de tecnologas de la

    Inteligencia de Negocio

    IRC - JVR, RCG - 7

  • Inteligencia en Redes de Comunicaciones

    5

    Business Intelligence

    Realizacin eficiente de todas las actividades

    relacionadas con la generacin, extraccin,

    organizacin, anlisis, comparticin y distribucin

    del conocimiento de una organizacin

    IRC - JVR, RCG - 8

    Datos, Informacin y Conocimiento

    Conocimiento: capacidad de convertir datos e informacin en acciones efectivas

    IRC - JVR, RCG - 9

  • Inteligencia en Redes de Comunicaciones

    6

    Objetivo

    Poner al alcance

    de cada individuo

    lo que necesita

    en el momento

    preciso

    para que su actividad

    sea efectiva

    IRC - JVR, RCG - 10

    Arquitectura tecnolgica

    Motor de minera de

    datos

    Segmentacin Asociaciones Prediccin

    Pedidos

    Catlogo

    Clientes

    Base de datos operacional

    Integracin y carga de datos

    DataWarehouse

    Modelo de datos multidimensional

    Informes de negocio

    Anlisis OLAP

    Query &Reporting

    Reservas

    Facturas

    Inventario

    Base de datos operacional

    Fuentes de datos externas

    Toma de decisiones

    IRC - JVR, RCG - 11

  • Inteligencia en Redes de Comunicaciones

    7

    Verificacin vs. descubrimiento

    Las tcnicas de minera de datos son herramientas que facilitan el descubrimiento de la informacin

    Verificacin

    1. Elaborar una hiptesis sobre la existencia de una informacin de inters

    2. Convertir la hiptesis en una consulta

    3. Ejecutar la consulta contra un sistema de informacin

    4. Interpretar los resultados5. Refinar la hiptesis y repetir la

    ejecucin

    Descubrimiento

    1. Identificar un objetivo o problema de negocio

    2. Habilitar un acceso a los datos de inters y acondicionarlos

    3. Seleccionar una tcnica de explotacin de los datos adecuada para el problema

    4. Ejecutar la tcnica contra los datos5. Interpretar los resultados

    IRC - JVR, RCG - 12

    Proceso de minera de datos

    ModeloConocimiento

    Datos

    Conocimiento

    Base de datos

    Preprocesado

    Seleccin de caractersticas

    Extraccin de conocimiento

    InterpretacinEvaluacin

    Seleccin

    IRC - JVR, RCG - 13

  • Inteligencia en Redes de Comunicaciones

    8

    Metodologa CRISP-DM

    CRoss Industry Standard Process for Data Mining

    Datos

    Comprensinmbito

    aplicacin

    ComprensinDatos

    Aplicacin

    PreprocesadoDatos

    Modelado

    Evaluacin

    IRC - JVR, RCG - 14Fuente: CRoss Industry Standard Process for Data Mining: Process Model

    http://www.crisp-dm.org/Process/index.htm

    Herramientas

    Comerciales

    Intelligent Miner / DB2 Data Warehouse Edition (IBM)

    Clementine (SPSS)

    Enterprise Miner (SAS)

    DataEngine

    De cdigo libre

    Weka

    IRC - JVR, RCG - 15

    http://www.crisp-dm.org/Process/index.htmhttp://www.crisp-dm.org/Process/index.htmhttp://www.crisp-dm.org/Process/index.htmhttp://www.crisp-dm.org/Process/index.htm

  • Inteligencia en Redes de Comunicaciones

    9

    IBM DB2 Data Warehouse Edition (1)

    IRC - JVR, RCG - 16

    IBM DB2 Data Warehouse Edition (2)

    IRC - JVR, RCG - 17

  • Inteligencia en Redes de Comunicaciones

    10

    SPSS Clementine

    IRC - JVR, RCG - 18

    SPSS Clementine (2)

    IRC - JVR, RCG - 19

  • Inteligencia en Redes de Comunicaciones

    11

    SAS Enterprise Miner

    IRC - JVR, RCG - 20

    SAS Enterprise Miner (2)

    IRC - JVR, RCG - 21

  • Inteligencia en Redes de Comunicaciones

    12

    MIT DataEngine

    IRC - JVR, RCG - 22

    MIT DataEngine (2)

    IRC - JVR, RCG - 23

  • Inteligencia en Redes de Comunicaciones

    13

    Weka

    http://www.cs.waikato.ac.nz/~ml/sounds/weka-long.auIRC - JVR, RCG - 24

    Weka (2)

    IRC - JVR, RCG - 25

    http://www.cs.waikato.ac.nz/~ml/sounds/weka-long.auhttp://www.cs.waikato.ac.nz/~ml/sounds/weka-long.auhttp://www.cs.waikato.ac.nz/~ml/sounds/weka-long.au

  • Inteligencia en Redes de Comunicaciones

    14

    Enfoque multidisciplinar

    Enfoque

    integrador

    multidisciplinar

    Diferentes

    tcnicas segn el

    tipo de

    informacin a

    extraer

    EstadsticaAprendizaje

    Bases de datos Enfoques grficos

    Mtodos analticos

    Minerade datos

    IRC - JVR, RCG - 26

    Tcnicas de minera de datos

    Tcnicas descriptivas

    Orientadas a describir un conjunto de datos

    Tcnicas predictivas

    Orientadas a estimar valores de salida

    Tcnicas de modelado

    Orientadas a la comprensin del sistema: obtener una representacin del sistema que permita imitar su comportamiento

    Emplea cualquier tcnica que no funcione como caja negra

    Agrupamiento

    rboles de decisin

    Anlisis de secuencias/asociaciones

    IRC - JVR, RCG - 27

    http://well-formed.eigenfactor.org/index.html

  • Inteligencia en Redes de Comunicaciones

    15

    Tcnicas de extraccin de conocimiento

    Tcnicas descriptivas

    Segmentacin de datos

    Agrupacin no supervisada de

    clientes

    Categorizacin automtica de

    sucursales

    Clasificacin

    Asignacin de nuevos clientes a

    segmentos predefinidos

    Identificacin de alarmas

    Anlisis de asociaciones

    Anlisis de venta cruzada de

    productos

    Correlacin de hbitos de consumo

    en base a su ocurrencia

    Tcnicas predictivas

    Anlisis de patrones secuenciales

    Deteccin de secuencias de

    compra en el tiempo

    Anlisis de similitud en series

    temporales

    Identificacin de pautas de compra

    en el tiempo

    Prediccin

    Asignacin de probabilidades de

    fraude con tarjetas

    Estimacin de la demanda y el

    rendimiento por cliente

    IRC - JVR, RCG - 28

    Segmentacin

    Para la agrupacin automtica de registros que comparten rasgos similares

    (no supervisados), existen diversas tcnicas:

    Segmentacin o clustering

    El n de segmentos se determina durante la ejecucin del algoritmo.

    Procesa tanto variables cuantitativas como cualitativas.

    Maximiza la similitud entre los miembros de un mismo segmento y las diferencias

    entre los miembros de segmentos diferentes, en base a mtricas de similitud, no de

    distancia.

    Es eficiente para la deteccin de nichos de registros.

    Segmentacin neuronal (mapas autoorganizativos de Kohonen)

    Es necesario predefinir el n de segmentos que se desean obtener y su distribucin

    bidimensional.

    Procesa tanto variables cualitativas como cuantitativas, aunque funciona mejor

    cuando dominan estas ltimas.

    Es eficiente cuando se desea particionar una poblacin imponiendo cierta relacin

    entre los segmentos obtenidos.

    IRC - JVR, RCG - 29

  • Inteligencia en Redes de Comunicaciones

    16

    Clasificacin

    Como mtodos de clasificacin supervisada (prediccin de variables

    cualitativas), algunas tcnicas son:

    Clasificacin basada en rboles de decisin

    Modelo de clasificacin en forma de rbol de decisin

    Procesando tanto variables cuantitativas como cualitativas

    Tcnicas de podado, que proporciona rboles de menor tamao.

    Son escalables, pudiendo procesar conjuntos con independencia del nmero de

    clases, atributos y registros.

    Clasificacin neuronal

    Basada en redes neuronales de propagacin hacia atrs.

    Detecta de forma automtica la topologa ms adecuada para cada problema,

    aunque permite especificar una concreta.

    Realiza un anlisis de sensibilidad para detectar las variables ms significativas para

    cada topologa.

    IRC - JVR, RCG - 30

    Prediccin

    Para la estimacin de variables cuantitativas, los mtodos ms empleados son:

    Funciones de base radial

    Pueden procesar variables cuantitativas y cualitativas a la vez.

    Detecta el nmero de centroides ptimo, predefiniendo el nmero mximo de stos

    y el nmero mnimo de registros asignados a cada centro.

    Funciona especialmente bien cuando la estructura de los datos tiende a agruparse

    en conjuntos, ya que implementa cierto tipo de segmentacin.

    Prediccin neuronal

    Basada en redes neuronales de propagacin hacia atrs.

    Detecta de forma automtica la topologa ms adecuada para cada problema,

    aunque permite especificar una concreta.

    Permite predecir datos en forma de series temporales.

    Permite implementar regresin logstica.

    IRC - JVR, RCG - 31

  • Inteligencia en Redes de Comunicaciones

    17

    Anlisis de asociaciones

    Los anlisis de asociaciones y patrones secuenciales permiten extraer

    informacin desconocida de los hbitos de compra:

    Anlisis de asociaciones

    Detecta elementos en una transaccin que implican la presencia de otros elementos

    en sta misma.

    Expresa las afinidades entre elementos en forma de reglas de asociacin X Y,

    facilitando una serie de mtricas como el soporte y confianza.

    Patrones secuenciales

    Detectan patrones entre transacciones, lo que permite optimizar las ventas a lo largo

    del tiempo

    Anlisis de similitud en series temporales

    Detecta todas las ocurrencias de secuencias similares en una coleccin de series

    temporales.

    IRC - JVR, RCG - 32

    Equipo de trabajo

    Para lograr un resultado ptimo en un proyecto de minera de datos,

    el equipo de trabajo debe incluir:

    expertos en manipulacin de datos

    expertos en inteligencia artificial y en algoritmos de extraccin de

    conocimiento

    conocedores del dominio de aplicacin o con habilidades para

    comunicarse con los expertos

    analistas de negocio

    Analista de negocio

    Herramienta de decisinMinera de datosQuery & reporting

    Bases de datos

    Datawarehouse

    Usuario de negocio

    Ingeniera de datos

    Administrador de BD

    IRC - JVR, RCG - 33

  • Inteligencia en Redes de Comunicaciones

    18

    Esfuerzo requerido

    IRC - JVR, RCG - 34

    Submodelos

    En la mayora de las ocasiones, un nico modelo no

    sirve para representar el sistema completo de manera

    fiable

    Lo habitual es aplicar la tcnica de divide y vencers y

    construir submodelos que cubren aspectos parciales del

    sistema

    Estos submodelos en conjunto resultan ms precisos o, al

    menos, acotan de forma ms precisa el error en los aspectos

    que cubren

    Para realizar la divisin en submodelos, se suele aplicar

    segmentacin (clustering) y luego se construye un modelo de

    prediccin para cada uno de los grupos encontrados

    IRC - JVR, RCG - 35

  • Inteligencia en Redes de Comunicaciones

    19

    Segmentacin + Prediccin

    Matriz de datos

    ID Hogar V. Hogar

    ID Hogar N Miembros Provincia CodPostal Zona Buzoneo

    12345677

    9912341234

    Matrices de Minera

    ID HOGAR V. Hogar V. Pedido V. Tienda V. Objetivo

    ID Hogar Antigedad VP012001 VDZ1990 VDJ2000 VDX012001Abandona Telepizza

    12345677 1

    9912341234 1

    0

    0

    0

    Conjunto Entrenamiento

    Toda la Poblacin

    Modelo de

    segmentacin

    Modelo de

    segmentacin Conjunto Test/PruebaID HOGAR V. Hogar V. Pedido V. Tienda V. Objetivo

    ID Hogar Antigedad VP012001 VDZ1990 VDJ2000 VDX012001Abandona Telepizza

    12345677 1

    9912341234 1

    0

    0

    0

    ID HOGAR V. Hogar V. Pedido V. Tienda V. Objetivo

    ID Hogar Antigedad VP012001 VDZ1990 VDJ2000 VDX012001Abandona Telepizza

    12345677 1

    9912341234 1

    0

    0

    0

    Conjunto Entrenamiento

    Para cada

    grupo Modelo prediccin

    grupo N

    (m7,r1)

    (m3,r2)good

    badaverage

    IRC - JVR, RCG - 36