mineria de datos
TRANSCRIPT
![Page 1: Mineria de Datos](https://reader036.vdocuments.co/reader036/viewer/2022082607/559e07e51a28ab97508b4701/html5/thumbnails/1.jpg)
Rafael Zamora Garrido
Julio 2009
![Page 2: Mineria de Datos](https://reader036.vdocuments.co/reader036/viewer/2022082607/559e07e51a28ab97508b4701/html5/thumbnails/2.jpg)
2
Ejemplos de objetivos de Minería de Datos
Reducir las bajas de clientes actuales en un 5%.
Aumentar las contrataciones de nuevos clientes en un 8%.
Aumentar la facturación de venta cruzada de productos a clientes actuales en un 3%.
Predecir los clientes más propensos a contratar un nuevo producto con un 75% de precisión.
Predecir qué clientes nos abandonarán en los próximos 6 meses.
![Page 3: Mineria de Datos](https://reader036.vdocuments.co/reader036/viewer/2022082607/559e07e51a28ab97508b4701/html5/thumbnails/3.jpg)
3
¿Qué es Data Mining?
La minería de datos es un proceso de análisis de datos cuyo objetivo es la identificación y extracción de conocimiento a partir de los datos.
La minería de datos analiza datos con herramientas sofisticadas, que permiten la búsqueda de relaciones complejas en los datos.
La minería de datos se caracteriza por el descubrimiento de nuevo conocimiento, la cual contrasta con el enfoque de SQL, por ejemplo, que se limita a procesar y presentar los datos ya existentes en la base de datos.
![Page 4: Mineria de Datos](https://reader036.vdocuments.co/reader036/viewer/2022082607/559e07e51a28ab97508b4701/html5/thumbnails/4.jpg)
4
¿Qué es Data Mining?
Estadística clásicaAlgoritmos de aprendizaje
para clasificación y predicción
Exploración de datos usando herramientas para su visualización gráfica y manipulación (Weka)
La minería de datos utiliza diversas técnicas para analizar y
procesar los datos:
![Page 5: Mineria de Datos](https://reader036.vdocuments.co/reader036/viewer/2022082607/559e07e51a28ab97508b4701/html5/thumbnails/5.jpg)
5
Técnicas de Minería de Datos
Clustering
El objetivo del clustering es definir grupos (o clusters) dentro de los
cuales los casos (o los clientes) sean lo más parecidos posible. Por otra
parte, los diferentes clusters deben ser, entre sí, lo más distintos posible.
Ejemplo:
Podemos definir dos clusters: los clientes más rentables y los clientes menos rentables. Dentro
del cluster de los clientes más rentables, todos los clientes deben tener una rentabilidad por
encima de un determinado umbral.
Segmentación
La segmentación es la división (o partición) de la totalidad de los datos en segmentos, según
determinados criterios.
Ejemplo: Clientes de banca
Como ejemplo de segmentación, podemos considerar una base de datos de clientes de banca. Una segmentación útil sería en términos de
rentabilidad: podríamos identificar tres grupos, los más rentables, los de rentabilidad media y los menos rentables. Para cada grupo
podríamos identificar una serie de características. Por ejemplo, en el grupo de los clientes más rentables, la media de edad del cliente es de
49 años, mientras que en el grupo de los clientes menos rentables, la media de edad es de 27 años..
Nota: No hay que confundir clustering con segmentación. La segmentación se usa para identificar grupos que tienen características comunes.
![Page 6: Mineria de Datos](https://reader036.vdocuments.co/reader036/viewer/2022082607/559e07e51a28ab97508b4701/html5/thumbnails/6.jpg)
6
Técnicas de Minería de Datos
Clasificación
Consiste en examinar las características de una entidad nueva y asignarle una clase predefinida. Por
ejemplo: Clasificar a un nuevo cliente según su riesgo de crédito (alto, medio, bajo).
Ejemplo:
Un ejemplo de una técnica de clasificación es la inducción de reglas; otro ejemplo es la red neuronal.
La inducción de reglas
La inducción de reglas crea un modelo construido a partir de reglas tipo if-then-else (si-entonces-si no). En general funciona tanto para
valores numéricos como para valores categóricos. Los modelos tienen una serie de variables de entrada y una o más variables de
salida, pero en contraste con las redes neuronales, se puede ver cómo llegan al resultado o salida.
Por ejemplo, un modelo muy sencillo tendría tres variables de entrada, edad, estado civil, cuenta de ahorro, y una de salida, contrata
hipoteca.
Las dos reglas de proceso (el modelo de datos) podrían ser:
"Si edad es entre 18 y 40 años y
estado civil es casado
y cuenta de ahorro = si
entonces contrata hipoteca
⇒ si (18450,78%)"
o
"Si edad es mayor de 40 años
y estado civil es casado
y tiene cuenta de ahorro = no
entonces contrata hipoteca
⇒ no (17490,66%)".
![Page 7: Mineria de Datos](https://reader036.vdocuments.co/reader036/viewer/2022082607/559e07e51a28ab97508b4701/html5/thumbnails/7.jpg)
7
Técnicas de Minería de Datos
Predicción
A partir de un conjunto de datos históricos con resultado conocido, se pretende modelizar estos datos
para conocer resultados futuros.
Ejemplo:
Los clientes más probables a comprar un nuevo producto,
el pronóstico de un paciente,
las agrupaciones de clientes más rentables, etc.
Un modelo predictivo tiene unas variables de entrada, tiene una o más variables de salida, y tiene un proceso intermedio que actúa sobre
las entradas para producir la salida.
Variables
de EntradaProceso Variables
de Entrada
Asociación
Las asociaciones se identifican basándose en frecuencias entre los casos.
Se pueden identificar manualmente, pero hay herramientas que pueden hacerlo de
forma automática.
Es una técnica particularmente útil en el análisis tipo "cesta de la compra" de
ventas en supermercados y tiendas en general, y permite identificar productos que se
suelen comprar juntos.
![Page 8: Mineria de Datos](https://reader036.vdocuments.co/reader036/viewer/2022082607/559e07e51a28ab97508b4701/html5/thumbnails/8.jpg)
8
Modelos CRM
Propensión de Compra Prospección de clientes nuevos. Identificar a los clientes más propensos en comprar
producto/servicio.
Venta Cruzada Clientes actuales, potenciar sus compras, ofrecerles otros productos/servicios.
Retención Identificar clientes con más riesgo de darse de baja y realizar acciones para
retenerles.
Otros Modelos • Win-Back: Recuperar clientes inactivos
• Detección de fraude: Identificar patrones atípicos
• Estudios de casuística: Identificar perfiles que diferencian a los clientes (regalo,
descuento)
![Page 9: Mineria de Datos](https://reader036.vdocuments.co/reader036/viewer/2022082607/559e07e51a28ab97508b4701/html5/thumbnails/9.jpg)
9
Creación de Modelos de Datos
Definición de un objetivo de
negocio
Definición de un conjunto de
datos
Selección de variables
Análisis de los datos usando
diferentes técnicas.
Creación de modelos de
datos
Pasos para la creación de modelos de datos:
Ahora deberíamos disponer de un
conjunto de datos con las
variables seleccionadas, que
podríamos dar como entradas a
las técnicas de modelización
![Page 10: Mineria de Datos](https://reader036.vdocuments.co/reader036/viewer/2022082607/559e07e51a28ab97508b4701/html5/thumbnails/10.jpg)
10
Ejemplo creación de Modelos de Datos
Las dos reglas de proceso (el modelo de datos) podrían ser:
"Si edad es joven
y estado civil es soltero
y tiene vivienda propia = no
entonces compra coche deportivo
⇒ si (1500,65%)"
o
"Si edad es mediana
y estado civil es casado
y tiene vivienda propia = si
entonces compra coche monovolumen
⇒ si (2800,72%)"
Ejemplo (Proceso de inducción de C4.5)
Suponemos que disponemos de un fichero de datos de
clientes con una serie de variables descriptivas sobre
ellos: edad; estado civil con posibles valores casado,
soltero, divorciado, viudo y sin especificar; vivienda
propia con posibles valores sí y no.
Para cada cliente, también disponemos de una variable
de salida que indica el tipo de coche que ha comprado
con posibles valores coche deportivo, monovolumen, etc.
La idea es entrenar un modelo predictivo con estos datos
para que sea capaz de predecir con una alta precisión el
tipo de coche que una persona comprará, únicamente a
partir de los datos de entrada.
La inducción de reglas crea un modelo construido a partir
de reglas tipo "if-then-else" (si-entonces-si no). En general
funciona tanto con valores numéricos como para valores
categóricos. Los modelos otra vez tienen una serie de
variables de entrada y una o más variables de salida, pero
se diferencian de las redes neuronales en que se puede
ver cómo llegan al resultado o salida. Suponemos que
hemos dado los datos de entrada a la técnica C4.5, y ha
producido un modelo de datos predictivo a partir de ellos.
Por ejemplo, un modelo muy sencillo tendría las tres
variables de entrada, edad, estado civil, vivienda propia, y
una de salida, compra coche tipo....
![Page 11: Mineria de Datos](https://reader036.vdocuments.co/reader036/viewer/2022082607/559e07e51a28ab97508b4701/html5/thumbnails/11.jpg)
11
Muchas gracias