aplicacion mineria datos

26
 Universidad de Buenos Aires Facultad de Ingeniería 75.71 Seminario de Ingeniería en Informática Una aplicación práctica de minería de datos utilizando la herramienta Intelligent Miner Esteban Calabria 78711 2 0 Cuatrimestre 2006 

Upload: esteban

Post on 06-Apr-2018

224 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 1/26

 

Universidad de Buenos AiresFacultad de Ingeniería

75.71 Seminario de Ingeniería enInformática 

Una aplicación práctica deminería de datos

utilizando la herramientaIntelligent Miner 

Esteban Calabria

787112 

0 Cuatrimestre 2006 

Page 2: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 2/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

2

Indice

1. INTRODUCCIÓN ................................................................... 3 1.3 ALGUNOS CONCEPTOS DE DATA MINING .............................. 41.4 DESCRIPCIÓN DEL DOMINIO .................................................. 4 

2.REGLAS DE ASOCIACIÓN ..................................................... 6 

2.1 DESCRIPCIÓN DEL PROBLEMA ............................................... 62.1 EXTRACCIÓN DE LOS DATOS.................................................. 6

2.2 EJECUCION DE LA TÉCNICA ................................................... 72.2.1 Creación de una mineria de datos.................................. 7  2.2.2 Importación de los datos................................................. 8 2.2.3 Parámetros de la mineria ............................................. 10 

2.3 R ESULTADO ......................................................................... 112.4 A NÁLISIS DEL RESUTADO .................................................... 122.5 CONCLUSIONES.................................................................... 13 

3.CLUSTERING ........................................................................ 14 3.1 DESCRIPCIÓN DEL PROBLEMA ............................................. 143.2 IMPORTACION DE LOS DATOS .............................................. 15

3.2.1 Campos y Descripción .................................................. 16  3.3 EJECUCION DEL CLUSTERING .............................................. 173.4 A NALISIS DE LOS DATOS...................................................... 193.5 CONCLUSIONES.................................................................. 221 

4.CLASIFICACIÓN .................................................................. 22 

4.1. DESCRIPCIÓN DEL PROBLEMA ............................................ 224.2. IMPORTACIÓNDE LOS DATOS .............................................. 224.3 EJECUCIÓN DE LA CLASIFICACIÓN....................................... 244.4 A NÁLISIS DE LOS DATOS...................................................... 254.5 CONCLUSIONES.................................................................... 26

Page 3: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 3/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

3

1. Introducción

Básicamente se conoce como Data mining o minería de datos a la solución deBusiness Intelligence que consiste en el conjunto de técnicas para la extracción deinformación de grandes bases de datos, con el fin de conseguir los objetivos denegocio y convertirla en conocimiento que será utilizado para tomar decisionesempresariales.

En este trabajo veremos una aplicación práctica de tres de esas técnicas sobre una base de datos cargada con datos reales utilizando la herramienta Intelligent Miner de IBM. El motor de base de datos utilizado es Interbase.

En particular aplicaremos las técnicas de reglas de asociación, clustering yclasificación. La primera nos permite, dado un conjunto de transacciones, hallar reglas que permitan predecir la ocurrencia de un ítem basado en la ocurrencia deotros ítems en la transacción. Por ejemplo sacaremos conclusiones del estilo que el50% de las personas que compran un Pendrive de 512MB también se llevan unode 256MB.

El clustering es una forma no supervisada de clasificación que nos permitiráagrupar objetos similares entre si en determinados clusters que nos ayudará a tener mayor conocimiento de la distribución de los datos. Nos permite, como haremosen el desarrollo de este trabajo, agrupar los clientes según sus patrones y

comportamiento de compra y utilizar esa información para nuestro beneficio.

Por último la clasificación nos permitirá predecir a que clase pertenece un objetodadas diferentes observaciones que hagamos sobre el mismo. Además del ejemploclásico de la detección de fraude en las tarjetas de créditos y la detección de spam,existen otras aplicaciones: en este caso clasificaremos a los clientes como

 potencialmente compradores en función e los productos que suelen adquirir deesta forma podemos tomar decisiones como darles algun trato especial, proponerledescuentos, etc.

A continuación haremos una descripción del dominio del problema y un análisis

de cual es la información que queremos aprender de la base de datos y que utilidadle podemos dar. Luego le dedica una sección a cada una de las técnicasmencionadas donde en funcion de los resultados obtenidos por la herramientasacaremos conclusiones. Las mismas no apuntan a decir cual es la decisióncorrecta a tomar sino a marcar que puntos son importantes del análisis a tener encuenta en las mismas.

En cada técnica explicaremos que conjunto de datos elegimos, como fue extraidode la base de datos en estudio y que tipo de información se espera obtener de losmismos y para que se pueden usar los resultados.

Page 4: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 4/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

4

Como contrapartida este trabajo pretende servir como un mini tutorial de la

utilización de la herramienta intelligent miner y es por ello que para la aplicaciónde la primer técnica se mostrará con cierto nivel de detalle como se procedió coneste programa para obtener los resultados.

1.3 Algunos conceptos de Data mining 

Si bien este trabajo no pretende tratar el tema de mineria de datos en profundidadni ahondar sobre el marco teórico del mismo, consideramos de utilidad explicar 

 brevemente algunos conceptos de datamining utilizados en el desarrollo delmismo para facilitar la comprensión.

Cuando hablemos de reglas de asociación mencionaremos al soporte tanto de unaregla como de un item. Este mide el porcentaje de transacciones que lo contienensobre el total. Por ejemplo si en el total de la ventas la mitad de las vecesapareciera un determinado artículo, diríamos que su soporte es del 50%.Conceptualmente un artículo con un soporte alto será un articulo que aparece másfrecuentemente.

Por otro lado si obtenemos una regla de asociacion del tipo X entonces Y, laconfianza mide cuán frecuentemente los items en Y aparecen en transacciones quecontienen X. Siguiendo el razonamiento una confianza del 100% nos dice quetodas las transacciones que contienen X contienen tambien Y.

Como medidas de base estadística utilizaremos la elevación o lift que toma encuenta la dependencia probabilística de la siguiente manera. Decimos que dadauna regla de asociacion del tipo X entonces Y entonces

Lift = P(X/Y)P(Y)

1.4 Descripción del dominio

Antes de continuar hagamos una descripción del dominio del problema y elcontexto sobre el cual se aplicará la mineria de datos.

Las distintas técnicas de aprendizaje las haremos sobre una base con datos realescorrespondientes a una empresa que se encarga de comercializar insumos

Page 5: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 5/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

5

informáticos y partes de computadoras. Realiza tanto ventas particulares como aotras empresas. Se desempeña en Capital Federal y la provincia de Buenos Aires y

 posee distintos puntos de ventas dentro de esas zonas.

En particular para este trabajo nos concentraremos alrededor de las transaccionesde ventas y los clientes de la empresa. Se desea poder aprender lo que podamossobre ellos para poder obtener información que resulte de utilidad a la hora detomar decisiones políticas adecuadas.

En particular se desea saber que productos suelen comprar los clientes y, enespecial, que conjunto de artículos se suelen comprar en conjunto por estar relacionados de alguna manera. Esto lo abordaremos en la sección 2 utilizando latécnica de reglas de asociación

Luego nos interesará agrupar los distintos clientes según sus hábitos de compras,es decir, la cantidad de veces que compran, cuanta plata gastan cada vez que lohacen cuantos articulos compran por vez y la ubicación geográfica e los mismos.Esto nos permitira determinar que lugar predominan los clientes realizan variascompras importantes, si hay muchos clientes esporádicos que compran una o dosveces y no vuelven mas, etc. Tanto la utilidad que le podemos dar a estainformación como la aplicación de la técnica de clustering que nos permitiráobtenerla se vera en la sección 3.

Por ultimo nos interesará clasificar nuestros clientes en potencialmentecompradores en funcion de la clase de artículos que suelen comprar.Intuitivamente es mas probable que una compra de 100 computadoras sea hecha

 por parte de una empresa que por una persona particular. Veremos que resultadonos trae trasladar este razonamiento a nuestros datos para los distintos artículosque vende la empresa y en la sección 4 proponer reglas de clasificación que nossugieran que si un cliente esta comprando tanta cantidad de determinados articulole prestemos atención porque tal vez estemos en presencia de un potencialcomprador.

Page 6: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 6/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

6

2.Reglas de asociación

2.1 Descripción del problema

El objetivo que nos proponemos es aprender poder predecir la ocurrencia de unítem basado en la ocurrencia de otros ítems en la transacción utilizando técnicas dereglas de asociación sobre las ventas que realiza la empresa.

Esto nos permite, entre otras cosas, tomar decisiones políticas sobre determinadosartículos. Un artículo X puede estar vendiéndose mucho pero si no nos damos

cuenta que siempre se vende de la mano de otro artículo Y, que tal vez por el costodel mismo no nos de muchas ganancias, el hecho de discontinuar el artículo Y puede afectarnos directamente sobre las ventas del articulo X.

2.1 Extracción de los datos

Esta sección abarca una parte más técnica donde se menciona como se extrajeronlos datos que nos interesa y la estructura de la base de datos de donde se lo hizo.Luego se menciona el porqué se eligieron esos datos.

De la base de datos sobre la que trabajamos nos interesan dos tablas: VENTAS yITEMS_VENTA. En ellas se registran las transacciones de venta facturadas por laempresa. En la segunda tabla se guardan los registros correspondientes a losarticulos que engloba cada venta. Ya se podra suponer que ambas tablas serelacionan mediante una relacion uno a mucho. No es necesario entrar en detallesobre todos los campos que componen cada tabla.

La consulta SQL mediante la cual extraemos los datos que nos interesan sobre lasventas mediante la siguiente consulta sql:

select ventas.id,items_venta.nombrefrom items_venta,ventaswhere ventas.id=items_venta.fk_ventas

Esa consulta nos devuelve un total de 19000 registros lo cual representa unnumero más que interesante para aplicar mineria de datos. Solamente nosinteresan dos campos: ventas.id  que corresponden al identificador de latransacción e items_venta.nombre que indica el nombre del artículo vendido.

Page 7: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 7/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

7

Elegimos esos dos campos porque nos proporcionan toda la información necesaria para aplicar la técnica. El campo items_venta.fk_ventas se necesita para hacer el

 join entre ambas tablas. 

Como trabajamos con una base de datos Interbase el Intelligent Miner no se podráconectar con ella ya que solo trabaja con bases DB2. Es por ello que mediante un

 programa en Delphi, convertiremos el resultado de esta consulta en un archivo detexto con un formato tal que permita ser importado por el Intelligent Miner quenos exige que cada campo ocupe una determinada cantidad fija de espacios.

2.2 Ejecucion de la técnica

Al ser ésta la primer técnica que vamos a aplicar explicaremos un poco más endetalle como proceder con la herramienta. En las posteriores técnicas mostraremosdirectamente el resultado. Primero explicaremos como crear una mineria de datos

2.2.1 Creación de una mineria de datos

Esto se realiza eligiendo la técnica que deseamos, reglas de asociacion(associations) en este caso, y eligiendo crear un item nuevo tal como se muestra enFigura 1.

Figura 1. Creacion de una Mineria de Datos

Page 8: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 8/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

8

Esto nos abrira un wizard que nos ira pidiendo paso a paso la información quenecesita. Lo mas importante por el momento y que puede presentar cierta

dificultad es la importación de datos que es lo que estudiaremos en esta sección.

2.2.2 Importación de los datos

Importaremos el archivo que creamos con un formato tal de modo que lo entiendael intelligent miner. Si bien la herramienta nos permite conectarnos contra una

 base de datos utilizaremos en este caso archivos de texto plano (Flat Files) pero se puede elegir si se deseara conectarse contra una base de datos DB2. Esto semuestra en la figura 2.

Figura 2. Selección de archivos de texto

Luego debemos elegir la ubicación de nuestro archivo que generamos en nuestrodisco rígido tal como se muestra en la figura 3. En nuestro caso corresponde alarchivo ventas.data.

Page 9: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 9/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

9

Figura 3. Ubicación del archivo en el FileSystem

Como mencionamos anteriormente, el archivo debe poseer un formato que elintelligent miner deba entender. En este caso cada campo debe tener una longitudfija y le debemos especificar en que caracter comienza el campo y en cual termina,es decir, la posición inicial y final.

Page 10: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 10/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

10

Figura 4. Descripción del contenido del archivo

Una vez que le digamos al Intelligent miner como intepretar el archivo, nos crearaun conjunto de datos que podemos utilizar en cualquiera de las técnicas de laherramienta.

Solamente resta fijarle los parámetros tal como mostraremos a continuación y yaestamos en condiciones de ejecutar la mineria.

2.2.3 Parámetros de la mineríia

En el caso de las reglas de clasificación se probaron distinta configuraciones de parámetros hasta encontrar una que nos genere un conjunto de reglas interesantes para poder trabajar. En la Figura 5 se muestra las que utilizamos en nuestro caso.

Page 11: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 11/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

11

Generalmente estos parámetros los define el cliente y en particular podemosalterar la confianza y el soporte mínimo de las reglas.

Figura 5. Parametros utilizado para las reglas de Asociación

Un soporte mínimo elevado ignorara los items que se compran pocas veces y ennuestro caso hacía que aparezcan pocas reglas y es por eso que se decidió utilizar un soporte mínimo del 1%

2.3 Resultado

Al ejecutar la técnica nos devolvio un conjuto de reglas de asociacion que semuestran en la Figura 6 y en la Figura 7.

Figura 6. Grilla de Reglas de asociación

Page 12: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 12/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

12

La vista como un grafo dirigido de la Figura 7 nos permite visualizar facilmentelas reglas generadas.

Figura 7. Grafo de reglas de asociación

Basandonos en la explicación de la Figura 8 nos permite entender el nivel desoporte y lift que tiene una regla viendo el color y el ancho del arcorespectivamente.

Figura 8.Lectura de los arcos del grafo

2.4 Análisis del resutado

El disco rígido de 80 GB es el item con más soporte de todos (23,42%) y ademasse encuentra presente en casi todas las reglas de asociación aprendidas. Lo sigue elservicio técnico que se le da al cliente, que si vien no es un articulo se facturacomo tal y por lo tanto lo consideraremos como uno, tiene también un soportemuy alto (10,2%) y esta presente en una gran cantidad de reglas de asociación.

Por otra parte, segun dos reglas aprendidas cuando se compra un pendrive de512MB se suele comprar tambien un pendrive de 256 MB y viceversa. Los

Page 13: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 13/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

13

artículos mencionados en la regla tienen un soporte de 1,5 y 1,7 respectivamente.Estas reglas son las que tienen confianza y lift mas altos de todasde con valores

muy parecidos : alrededor del 40% de confianza y 17,84 de lift. Se ve que esmucho es mas probable que se compre un pendrive de 512 MB si se compro otrode 256MB (y vicecersa).

Por otro lado notamos que los items de grabadoras de CD y las lectoras de 3 ½suelen encontrarse en la misma compra, y viceversa, con una confiaza 23% y 15%respectivamente y un lift de 2,97 en ambos casos.

Algo similar ocurre con las lectoras de 3 ½ y el kit Sentei de donde se desprendenun par de reglas en espejo donde una infiere la otra y viceversa con una confianzadel 13% y 22% y un lift del 2,9% para ambos casos

A estas dos últimas reglas podemos sumarles que si observamos los soportesvemos que es poco frecuente que las lectoras de 3 ½ se compren solas que sinosiempre vienen acompañados de otra cosa.

Estos datos mencionados son los que se considerar como mas relevantes alvisualizar el resultado de la mineria. Basándonos en ellos veremos que conclusión

 podemos sacar al respecto.

2.5 Conclusiones

Como el disco rígido de 80 GB es el item con más soporte de todos (23,42%) y seencuentra presente en casi todas las reglas de asociación aprendidas reconocemosimportante tomar en cuenta la importancia que tiene este artículo a la hora detomar decisiones políticas como por ejemplo asegurar su disponibilidad en stock,negociar precios por cantidad con los proveedores, etc. Algo similar, aunque enmenor medida, ocurre con el servicio técnico que tiene un soporte del 10% y está

 presente en una gran cantidad de reglas de asociación.

Por otra parte las dos reglas referentes a los pendrive de 512MB y 256 MB nos

lleva concluir que como ambos artículos estan muy relacionados y pareceríaconveniente tener en cuenta a ambos a la hora de tomar alguna decisión sobrecualquiera de ellos dos.

Las lectoras de 3 ½ son un producto bastante comprado con un soporte del 7% yestan relacionadas con los Kit Sentei y las grabadoras de CD. Como observamosque nunca se compran solas esto lleva a pensar que el cliente suele ir a comprar los otros producto y adicionalmente se suele llevar una lectora 3 ½.

Page 14: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 14/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

14

3.Clustering

3.1 Descripción del problema

En este caso vamos a utilizar la técnica de clustering para que nos agrupe losclientes de la empresa según sus hábitos de compra y su ubicación geográfica.Como hábitos de compra nos referiremos particularmente a la cantidad de comprasrealizadas, el promedio en pesos gastados y la cantidad de articulos promedio encada compra por de cada cliente.

Esto nos permitirá agrupar nuestros clientes y sacar diversas conclusiones.Podemos tomar un cluster generado, ver a que porcentaje de nuestros clientescorresponde, y indagar dentro del mismo a que zona pertenecen, cuantas vecescompran en promedio, cuanto gastan, etc.

En nuestro caso utilizaremos un clustering demográfico tal como se muestra en laFigura 9.

Figura 9. Clustering Demografico.

Page 15: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 15/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

15

3.2 Importacion de los datos

A diferencia del caso de reglas de asociación, la extracción de los datos pararealizar el clustering tiene un poco mas de lógica detras. Ademas de las dos tablasmencionadas para el caso anterior agregaremos a ESTABLECIMIEN yDOMICILIO que contienen el registro de los clientes y la ubicación geográfica delos mismos respectivamente.

A continuación se muestra la consulta realizada: 

selectfk_subdiv_geo as div_geo,(select count(*) from ventas v1 whereventas.fk_establecimien = e1.codigo) as Ventas,(select avg(Total) from ventas whereventas.fk_establecimien = e1.codigo) asPromedio_venta,(select avg(Cantidad) from ventas,items_venta whereitems_venta.fk_ventas=ventas.idand ventas.fk_establecimien= e1.codigo) as

Promedio_Items_Por_ventafromestablecimien e1,domicilio

wherecodigo in (select fk_establecimien from ventas )and e1.fk_domicilio = domicilio.id 

Si bien la consulta sql no es estandard el motor sobre el que la realizamos permitehacerla y aprovecharemos esa características. Al igual que en el caso anterior se

 procedió a generar un archivo de texto con el resultado de esa consulta mediante

un programa adicional para poder importar los datos en el Intelligent Miner.

El resultado de esta consulta nos devolvió un total aproximado de 1000 registros. Numero que logicamente coincide con la cantidad de clientes almacenados en la base de datos sin contar alguno que otro cliente al que nunca se le haya realizadoalguna venta.

A continuación veremos un poco mas en detalle que son los campos utilizados.

Page 16: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 16/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

16

3.2.1 Campos y Descripción

La configuración de los campos nos queda tal cual se muestra en la Figura 10.

Figura 10. Campos de la consulta para clustering

Los campos mostrados corresponden a distinta información extraida de la base dedatos que según un análisis previo se consideraron relevantes para el problema aresolver. Se puede observar que si bien dichos datos se armaron a partir de lasventas de los distintos clientes, no se incluyó ningún identificador o nombre de

cliente ya que no contribuiría a encontrar similitudes entre los elementos delmismo cluster.

En particular nos interesa saber la división geográfica del cliente que correspondela zona donde habita el mismo. Entre ellas figuran Capital Federal (CIAU), La

 plata (LP), Lomas de Zamora (LOMAS_DE_ZA), etc. Elegimos este dato ya queuna de las conclusiones que nos interesa poder sacar es inferir los patrones decompras de los clientes según su ubicación geográfica.

Page 17: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 17/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

17

El campo ventas corresponde a la cantidad de ventas que se le realizaron al cliente.Serviría para diferenciar los clientes casuales (los que hicieron solamente una o

dos ventas) de aquellos a los que hacen muchas compras seguidas.

El campo Promedio_Venta nos dice cual es el promedio de dinero en pesos que elcliente gastó por venta. Este campo con el anteior nos permite determinar patronesde compra correspondiente a clientes que hacen muchas ventas de pocos montos oclientes que hacen pocas compras pero de montos muy elevados, etc.

Por último tenemos el campo Promedio_items_venta que nos dice la cantidad dearticulos en promedio que se le venden al cliente en cuestión cada vez que serealiza una venta.

3.3 Ejecucion del clustering 

Se decidió para empezar probar con 5 clusters ya que se consideró como unnumero apropiado de clusters para sacar conclusiones al respecto El intelligentminer arrojó los resultados mostrados en la Figura 11 y la Figura 12.

Figura 11. Resultado de la ejecucion para 5 clusters (I)

Page 18: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 18/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

18

Figura 12. Resultado de la ejecucion para 5 clusters (II)

A primera vista pareciera que los dos primeros clusters son bastante similares,aunque no iguales. Intuitivamente ambos agrupan clientes que hacen pocascompras. Lo mismo ocurre para los dos ultimos clusters pero en este caso paraclientes que realizan muchas compras.

Si bien dichos clusters no son iguales se consideró oportuno realizar también otracorrida pero en este caso considerando 3 clusters. El resultado se muestra tambiénen la figuras 13 y 14.

Figura 13. Resultado de la ejecucion para 3 clusters (I)

Al disponer de dos corridas distintas tendremos más información sobre el cual basar nuestro análisis y sacar conclusiones a continuación.

Figura 14. Resultado de la ejecucion para 3 clusters (II)

Page 19: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 19/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

19

De esta última corrida veremos que valores se manejaron en promedio de loscampos. Esto nos ayudará a entender cuado se habla de que el promedio de ventas

fue medio, que valores en pesos manejó la mineria de datos. En este caso vemosque promedio de ventas de alrededor de los 3000 pesos es medio mientras que unoque ronde los 7000 pesos es alto.

Figura 15. Promedio de los campos

 Notese que debido al formato de los datos de entrada la coma en el promedio devetas debe interpretarse como el separador de miles. Esta diferencia se le atribuyea el formato en el cual se generó el archivo de texto plano utilizado para laimportación de los datos.

Armado de estos datos podemos proceder al análisis de los mismos para sacar nuestras conclusiones.

3.4 Analisis de los datos

Para la primer corrida el cluster mas grande corresponde al 52,38% del total denuestros clientes. La información que el Intelligent Miner nos provee como textodice: DIVGEO es predominantemente CIAU, Ventas es predominantemente 2,Promedio_Venta es medio y Promedio_tems_venta es medio.

Para obtener un poco mas de información sobre las ventas, adicionalmente a lacantidad de ventas que predomina en cada cluster, pediremos al Intelligent Miner que nos categorice las Ventas según el cluster 

Figura 16.Ventas categorizadas según cluster 

Page 20: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 20/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

20

Si sumamos los dos primeros cluster vemos que cerca del 70% de las ventas sehacen a clientes esporadicos que compran una o dos veces solamente.En particular 

los dos primeros grupos son clientes que en promedio gastan entre los de 1500 y2500 pesos por compra.

Por otro lado mientras que los ultimos dos grupos corresponden aaproximadamente el 15% de nuestras ventas, son clientes que compran muchasveces y gastan entre gastan entre 7500 y 8500 pesos por compra. Al parecer tenemos como un nicho de clientes importante ahi.

Estos datos se pudieron observar utilizando la Figura 17.

Figura 17. Promedio Ventas

En el medio tenemos un grupo del 11% predominantemente de capital federal quesuele comprar muchas y gastar en promedio 3000 pesos.

Al parecer intuitivamente tenemos un grupo de clientes que compran poco ygastan poco, un grupo que compra mucho y gasta poco y otro grupo que compramucho y gasta mucho. Esto fue lo que nos incentivó en un primer momento aachicar la cantidad de clusters a tres para ver si se confirmaba esa tendencia y asise hizo.

Para la corrida que generó los tres clusters primero multipliquemos el promedio deventas por la cantidad de ventas y luego distribuyamos esas ventas por la cantidadde clientes. Este calculo simple nos servirá para asignarle un valor en pesos paracada cluster. Utilizaremos para proceder los datos de la figura 15

Cluster Ventas (cantidad) Promedio Ventas ($) (Ventas)*( Promedio Ventas)1 5 2000 100002 40 3500 1400003 20 7700 154000

Como dijimos que manejabamos alrededor de 1000 clientes, estos datos losdistribuiremos por clientes.

Page 21: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 21/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

21

Cluster Porcentaje Tamaño (Ventas)*( Promedio Ventas)

Valoracion Cluster 

1 60,82% 608 10000 6.080.0002 21,43% 214 140000 29.960.0003 17,75 178 154000 27.412.000

Al tener los tres clusters valorizados en pesos podemos nos sirve para darle unaimportancia relativa a los clietnes de cada uno de ellos.

3.5 Conclusiones

Los clusters nos hicieron prestar atención a los clientes de la zona de de SanMiguel, Lomas de Zamora y Bahia Blanca como aquellos que gastan mucho ycompran más de una vez. Podemos suponer que si se presentara un cliente nuevode esta región que gastara mas de 7000 pesos en una compra, es posible que éstecliente vuelva a comprar por lo que se podría implementar alguna política a nivelempresa para que favorezca que ésto suceda.

Además los montos manejados dan la pauta de que en estos casos no se traten declientes particulares sino de organizaciones, empresas o casas de reventa. Por lo

tanto los esfuerzos para conseguir clientes deben ser focalizados.

Por otra parte los clientes que hacen compras chicas, menor a 3000 pesos,generalmente no vuelven a comprar. No obstante los clientes que presentan estecomportamiento son una gran mayoría (70% si consideramos el cluster 1 y el 2) yse ubican en zonas céntricas como la de Capital Federal o La Plata.Aparentemente se trata de clientes particulares y consumidores finales.

Es por ello que en esas zonas se sugiere hacer mas publicidad que se concentrenen una captura masiva de clientes y la ubicación oportuna de los distintos puntosde venta.

Page 22: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 22/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

22

4.Clasificación

4.1. Descripción del problema

Para el caso de clasificación debemos reconocer cual es la clase que nos interesa.Como en la base de datos de origen no existe ninguna que sea de interés y

 basándonos en los datos que venimos manejando hasta el momento acordaremosuna forma de clasificar a nuestros clientes como compradores o no compradores.En este caso se tratará de una clasificación binaria.

La política que estableceremos en función de multiplicar el promedio de dineroque gasta el cliente en una compra por la cantidad de veces que compró. Si elresultado supera los 25000 pesos entonces automaticamente este cliente serácatalogado como comprador.

Una vez que tengamos diferenciados nuestros clientes según esas categoríasverémos que clase de productos -disco rígidos, placas de video, computadoras,etc- suelen comprar. El objetivo es tomar los nuevos clientes que se presenten y enfunción de las compras que vayan haciendo ver si se comportan como clientescompradores para poder decidir tomar decisiones sobre ellos, como por ejemplo,alguna política que los incentive a comprar mas seguido. Concretamente

estudiaremos para cada cliente cuantas veces nos compró un producto dedeterminado tipo.

4.2. Importación de los datos

En este caso tendremos en cuenta la cantidad de veces que el cliente nos compróCPUs, memorias, placas de video, soporte técnico, DVDs y disco rígidos. Si bienexisten más categorías de artículos para esta mineria de datos utilizaremos soloesas.

Obtener todos esos datos en una sóla consulta SQL es más complejo que para loscasos anteriores y si bien es posible nos queda una consulta bastante extensa talcomo se muestra a continuación:

select 1 as Clase,Codigo,

(select count(*) from ventas,items_ventawhere items_venta.Fk_ventas = ventas.idand items_venta.nombre like '%CPU%'and ventas.fk_establecimien=e1.codigo) as CPU_COMPRADOS,

Page 23: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 23/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

23

(select count(*) from ventas,items_ventawhere items_venta.Fk_ventas = ventas.idand items_venta.nombre like '%MEMORY%'and ventas.fk_establecimien=e1.codigo) as MEMORIAS_COMPRADAS,

(select count(*) from ventas,items_ventawhere items_venta.Fk_ventas = ventas.idand items_venta.nombre like '%VIDEO%'and ventas.fk_establecimien=e1.codigo) as PLACAS_VIDEO_COMPRADAS,

(select count(*) from ventas,items_ventawhere items_venta.Fk_ventas = ventas.idand items_venta.nombre like '%SERVICIO%'and ventas.fk_establecimien=e1.codigo) as SOPORTE_COMPRADO,

(select count(*) from ventas,items_ventawhere items_venta.Fk_ventas = ventas.idand items_venta.nombre like '%DVD%'and ventas.fk_establecimien=e1.codigo) as DVD_COMPRADOS,

(select count(*) from ventas,items_ventawhere items_venta.Fk_ventas = ventas.idand items_venta.nombre like '%DISCO%'and ventas.fk_establecimien=e1.codigo) as DISCOS_COMPRADOSfrom establecimien e1where ( (select count(*) from ventas v1 where ventas.fk_establecimien = e1.codigo) *

(select avg(Total) from ventas where ventas.fk_establecimien = e1.codigo) ) > 25000

union

select 0 as Clase,Codigo,(select count(*) from ventas,items_ventawhere items_venta.Fk_ventas = ventas.idand items_venta.nombre like '%CPU%'and ventas.fk_establecimien=e1.codigo) as CPU_COMPRADOS,

(select count(*) from ventas,items_ventawhere items_venta.Fk_ventas = ventas.idand items_venta.nombre like '%MEMORY%'and ventas.fk_establecimien=e1.codigo) as MEMORIAS_COMPRADAS,

(select count(*) from ventas,items_ventawhere items_venta.Fk_ventas = ventas.idand items_venta.nombre like '%VIDEO%'and ventas.fk_establecimien=e1.codigo) as PLACAS_VIDEO_COMPRADAS,

(select count(*) from ventas,items_ventawhere items_venta.Fk_ventas = ventas.idand items_venta.nombre like '%SERVICIO%'and ventas.fk_establecimien=e1.codigo) as SOPORTE_COMPRADO,

(select count(*) from ventas,items_venta

Page 24: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 24/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

24

where items_venta.Fk_ventas = ventas.idand items_venta.nombre like '%DVD%'and ventas.fk_establecimien=e1.codigo) as DVD_COMPRADOS,

(select count(*) from ventas,items_ventawhere items_venta.Fk_ventas = ventas.idand items_venta.nombre like '%DISCO%'and ventas.fk_establecimien=e1.codigo) as DISCOS_COMPRADOS

from establecimien e1where ( (select count(*) from ventas v1 where ventas.fk_establecimien = e1.codigo) *

(select avg(Total) from ventas where ventas.fk_establecimien = e1.codigo) ) < 25000

4.3 Ejecución de la clasificación

Al ejecutar la clasificación con el intelligent miner nos arma un árbol de decisióntal como se muestra en la Figura 18. De todos las clases de artículos que tuvimosen cuenta sólo le intereso las placas de video y los cpu para tener en cuenta.

Figura 18. Arbol de Decisión(I)

Si no tuvieramos en cuenta las placas de video nos quedaría un arbol como el de lafigura 19 donde se tiene en cuenta además de los CPU el soporte técnico.

Page 25: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 25/26

75.71 Seminario de Ingeniería en Informática 

Esteban Calabria - 78711

25

Figura 18. Arbol de Decisión(II)

4.4 Análisis de los datos

El árbol obtenido en la Figura 18 le dió importancia a observar cuantas veces uncliente adquiere placas de video a tal punto que si un cliente compra placas devideo mas de 11 veces entonces podemos considerarlo como un cliente comprador y tenemos un 87,1% de pureza en el nodo según nuestra clasificación.

En caso contrario (compra placas de video menos de 11 veces) habría también quever cuantas veces compró cpus. Si lo hizo mas de 13 veces entonces podemos

considerar al cliente como comprador.Podemos enunciar las reglas correspondientes a las corridas anteriores teniendo encuenta los datos de ambas corridas y enunciando las reglas solamente para el casode clientes compradores:

•  Si un cliente compra placas de video mas de 11 veces entonces es un clienteque exhibe un comportamiento comprador 

•  Si un cliente compra placas de video menos de 11 veces pero compra CPUsmas de 13 veces entonces es un cliente que exhibe un comportamiento

comprador.

Adicionalmente podemos tomar los datos de la segunda corrida y considerar que

•  Si un cliente compra CPUs menos de 13 veces pero adquirio soporte técnicomas de 7 veces entonces es un cliente que exhibe un comportamientocomprador.

Page 26: Aplicacion Mineria Datos

8/3/2019 Aplicacion Mineria Datos

http://slidepdf.com/reader/full/aplicacion-mineria-datos 26/26

75.71 Seminario de Ingeniería en Informática 

4.5 Conclusiones

Ante la presencia de un cliente nuevo, si vamos observando la cantidad de vecesque compra y prestamos atención a que tipo de artículos lleva podemos ir dándonos cuenta si éste se va comportando como un cliente comprador según laclasificación que establecimos en esta sección.

Segun el Intelligent Miner debemos prestar sobre todo atención a la cantidad deveces que el cliente compra placas de video, luego a la cantidad de veces quecompra CPUs y por ultimo a la cantidad de veces que contrata soporte técnico. Amedida que las compras del cliente se vayan acercando a las reglas mostradas enlas dos secciones anteriores se sugiere ir prestándole especiál atencion a ese

cliente ya que estará exhibiendo un comportamiento similar a los que tienen losclientes que clasificamos como compradores.