minería de datos dr. francisco j. mata 1 análisis de asociación parte teórica tema 8

Post on 03-Mar-2015

14 Views

Category:

Documents

4 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Minería de datosDr. Francisco J. Mata

1

Análisis de asociación

Parte teórica

Tema 8

Minería de datosDr. Francisco J. Mata

2

Análisis de asociación

Encuentra reglas de asociación las cuales especifican cuáles eventos pueden ocurrir simultáneamenteAnálisis de canasta de supermercado

Objetos que se consumen simultáneamente

Análisis de patrones secuencialesOrden en que las cosas ocurren

Minería de datosDr. Francisco J. Mata

3

Análisis de canasta de supermercado

Minería de datosDr. Francisco J. Mata

4

Aplicaciones de análisis de canasta de supermercado

Elementos comprados simultáneamenteCompras hechas con una misma tarjeta de

crédito (ej., hotel y carro de alquiler)Servicios optativos u opcionalesCombinaciones inusuales en reclamos de

seguros (pueden ser un indicador de fraude)Combinaciones de tratamiento e historia de

pacientes (pueden indicar complicaciones)

Minería de datosDr. Francisco J. Mata

5

Asociación

Útil paraMinería indirecta

Utilizada como punto de arranque

Puede servir para plantear hipótesis de asociaciones en minería directaDiferencia entre almacenes nuevos y viejos

Minería de datosDr. Francisco J. Mata

6

Tipos de reglas

ÚtilesLos días jueves los compradores de supermercados

frecuentemente compran pañales desechables y cerveza

TrivialesConsumidores que compran contratos de

mantenimiento son más propensos a comprar electrodomésticos grandes

InexplicablesAl abrir un almacén de ferretería nuevo, uno de los

productos más vendidos son sillas de inodoro

Minería de datosDr. Francisco J. Mata

7

Datos para el análisis de canasta de supermercado

Minería de datosDr. Francisco J. Mata

8

Preparación de datos para análisis de canasta de supermercado

Minería de datosDr. Francisco J. Mata

9

Análisis de canasta de supermercadoCliente Productos adquiridos

1 jugo, soda

2 leche, jugo, limpiador ventanas

3 jugo, detergente

4 jugo, detergente, soda

5 limpiador ventanas, soda

Jugo Limpiador

ventanas

Leche Soda Detergente

Jugo 4 1 1 2 2

Limpiador ventanas

1 2 1 1 0

Leche 1 1 1 0 0

Soda 2 1 0 3 1

Detergente 2 0 0 1 2

Transacciones

Tabla de co-ocurrenciade ítems

Minería de datosDr. Francisco J. Mata

10

Análisis de canasta de supermercado

Extensión de una tabla de co-ocurrencia a 3 dimensiones

Minería de datosDr. Francisco J. Mata

11

Reglas de asociaciónJugo Limpiador

ventanasLeche Soda Detergente

Jugo 4 1 1 2 2

Limpiador ventanas

1 2 1 1 0

Lecha 1 1 1 0 0

Soda 2 1 0 3 1

Detergente 2 0 0 1 2

Patrones que se pueden observar1. Jugo y soda al igual que jugo y detergente son más propensos

a comprarse juntos que cualquiera otros dos productos2. Detergente nunca se compra con limpiador de ventanas o

leche3. Leche nunca se compra con soda o detergente

Minería de datosDr. Francisco J. Mata

12

¿Qué tan buena es una regla de asociación?

ConfianzaNúmero de transacciones con todos los ítemes

mencionados en la regla dividido por el número de transacciones con los ítemes que aparecen en la parte si de la reglaProporción de transacciones en las cuales la

regla es verdadera• p(condición y resultado)/p(condición)

Minería de datosDr. Francisco J. Mata

13

¿Qué tan buena es una regla de asociación?

¿Cuál es la confianza para la regla si un cliente compra soda entonces también compra jugo?: 2 de 3 compras de soda también incluyen jugo, por lo tanto 67%

p(soda y jugo)/p(soda)= 0.4/0.6=67%

¿Cuál es la confianza de la regla reversa: si un cliente compra jugo entonces también compra soda? 2 de 4 compras de jugo también incluyen soda, por lo tanto 50%

p(jugo y soda)/p(jugo)=0.4/0.8=50%

Cliente Productos adquiridos

1 jugo, soda

2 leche, jugo, limpiador ventanas

3 jugo, detergente

4 jugo, detergente, soda

5 limpiador ventanas, soda

Transacciones

Minería de datosDr. Francisco J. Mata

14

¿Qué tan buena es una regla de asociación?

ApoyoNúmero de transacciones que contienen todos

los ítemes que aparecen en la regla dividido entre el número total de transaccionesPorcentaje de transacciones que contienen todos

los ítemes que aparecen en la regla• p(condición y resultado)

Minería de datosDr. Francisco J. Mata

15

¿Qué tan buena es una regla de asociación?

¿Cuál es la apoyo para la regla si un cliente compra soda entonces también compra jugo?: 2 de 5 compras contienen de soda y jugo, por lo tanto 40%

p(soda y jugo)=2/5=40%

¿Cuál es el apoyo de la regla reversa: si un cliente compra jugo entonces también compra soda? La misma de la regla anterior, 40%

p(soda y jugo)=p(jugo y soda)

Cliente Productos adquiridos

1 jugo, soda

2 leche, JN, limpiador ventanas

3 jugo, detergente

4 jugo, detergente, soda

5 limpiador ventanas, soda

Transacciones

Minería de datosDr. Francisco J. Mata

16

¿Qué tan buena es una regla de asociación?

“Lift” o mejoríaMide cuánto mejor es una regla para predicción que

una estimación hecha tomando un cliente al azarNúmero de transacciones que soportan la regla dividido

entre número de transacciones esperado asumiendo que no existe relación entre los ítemesp(condición y resultado)/(p(condición) * p(resultado))

Cuando el lift < 1 la regla es peor que una estimación educada y la negación de la regla produce una mejor regla que una estimación al azar

Minería de datosDr. Francisco J. Mata

17

¿Qué tan buena es una regla de asociación?

¿Cuál es el “lift” para la regla si un cliente compra soda entonces también compra jugo?: p(soda y jugo)/(p(soda) * p(jugo))=0.4/(0.6 * 0.8)=0.83

¿Cuál es el “lift” de la regla negada: si un cliente compra soda entonces no compra jugo? p(soda y no jugo)/(p(soda) * p(no jugo))= 0.2/(0.6 * 0.2)=1.66

Cliente Productos adquiridos

1 jugo, soda

2 leche, jugo, limpiador ventanas

3 jugo, detergente

4 jugo, detergente, soda

5 limpiador ventanas, soda

Transacciones

Minería de datosDr. Francisco J. Mata

18

EjercicioÍtemes Probabilidad

A 45%

B 42.5%

C 40%

A y B 25%

A y C 20%

B y C 15%

B y C y no A ?????

A y B y C 5%Calcular apoyo, confianza y “lift” para reglas si A y B entonces C, si A y C entonces B, si B y C entonces A, y si A entonces B

Minería de datosDr. Francisco J. Mata

19

Respuesta

Regla Apoyo Confianza “Lift”

Si A y B entonces C

5% 20% 0.50

Si A y C entonces B

5% 25% 0.59

Si B y C entonces A

5% 33% 0.74

Si A entonces B 25% 59% 1.31

Minería de datosDr. Francisco J. Mata

20

Pasos básicos para obtener reglas de asociacíón

Minería de datosDr. Francisco J. Mata

21

Seleccionar conjunto adecuado de ítemesDebe considerarse necesidades del

negocioNivel de detalle debe ser adecuado

Minería de datosDr. Francisco J. Mata

22

Seleccionar conjunto adecuado de ítemes

Minería de datosDr. Francisco J. Mata

23

Seleccionar conjunto adecuado de ítemes

Minería de datosDr. Francisco J. Mata

24

Seleccionar conjunto adecuado de ítemesTaxonomías de productos son de utilidadAnálisis de asociación produce mejores

resultados cuando los productos aparecen aproximadamente en el mismo número de transacciones (reglas no están dominadas por los productos más comunes)

Productos raros pueden ser subidos en la taxonomía para que aparezcan más frecuentemente

Minería de datosDr. Francisco J. Mata

25

Ítemes virtuales

Ítemes virtuales no aparecen en la taxonomía

Pueden ser agregados para identificarLocalizaciónTiempo (día, mes)Almacenes nuevos vrs. viejosMarcas

Minería de datosDr. Francisco J. Mata

26

Ítemes virtuales

Deben ser escogidos cuidadosamente para evitar reglas redundantes

Minería de datosDr. Francisco J. Mata

27

Ítemes virtuales

Si reglas redundates aparecen entonces utilice elementos generalizados

Minería de datosDr. Francisco J. Mata

28

Cálculo de probabilidades

Minería de datosDr. Francisco J. Mata

29

Determinar reglas

Minería de datosDr. Francisco J. Mata

30

Determinar reglas

Entre más “accionable” sea la regla mejorEn la práctica las reglas más accionables

tienen un ítem como resultadoMejor: Si pañales desechables y jueves entonces

cerveza Peor: Si jueves entonces pañales desechables y

cerveza

Minería de datosDr. Francisco J. Mata

31

Determinar reglas

Cuando el “lift” para una regla es menor que 1, negar el resultado produce una mejor regla

Minería de datosDr. Francisco J. Mata

32

El problema de reglas con muchos ítemes

Generar reglas de asociación requiere múltiples pasos: Generar matriz de co-ocurrencias para un ítem Generar matriz de co-ocurrencia para dos ítemes (sirve para

generar reglas con dos productos) Generar matriz de co-ocurrencia para tres ítemes (sirve para

generar reglas con tres productos) Se puede continuar hasta el número total de ítemes

Cada paso incrementa exponencialmente el tiempo

Minería de datosDr. Francisco J. Mata

33

El problema de muchos ítemes

Fórmula binomial

Número de combinaciones para 100 ítemes

¡Un supermercado puede tener entre 10,000 y 30,000 productos!

Minería de datosDr. Francisco J. Mata

34

El problema de muchas transacciones

El número de transacciones por lo general es muy grandeEn el transcurso de un año una cadena de

supermecados de tamaño mediano puede generar millones de transacciones

Minería de datosDr. Francisco J. Mata

35

Superación de limitaciones prácticas

Soluciónes:Utilizar “prunning” considerando un apoyo mínimo

(mínimo número de transacciones conteniendo la combinación)Si existe 1 millón de transacciones y se utiliza unapoyo

mínimo del 1% entonces sólo las reglas apoyadas por 10,000 transacciones serán consideradas

Apoyo mínimo tiene un efecto de cascada• Si utilizamos el apoyo mínimo de 1% y la regla es si A, B

y C entonces D para que la combinación A, B, C y D aparezca por lo menos un 1% todos los elementos en la combinación deben aparecer por lo menos 1% y todas las combinaciones de dos y tres elementos deben aparecer por lo menos un 1%

Minería de datosDr. Francisco J. Mata

36

Superación de limitaciones prácticas

Solución:Limitar el número de ítemes en una reglaUso de taxonomías para reducir el número de

ítemes

Minería de datosDr. Francisco J. Mata

37

Algoritmo apriori

Mejora el rendimiento utilizando conocimiento a priori

Utiliza “prunning”Todos los subconjuntos de un conjunto

frecuente de elementos deben ser frecuentesapoyo (I) < min_apoyo entonces apoyo (I unión

{a}) < min_apoyo para todo elemento a

Minería de datosDr. Francisco J. Mata

38

Algoritmo apriori

Pasos:Sea L-1 el conjunto de k-1 elementos que

satisfacen el criterio de apoyo mínimoJoin para k elementos: añadir un ítem diferente a

cada uno de los elementos en L-1Prune para k: eliminar todos los conjuntos de L con

k ítemes que no satisfacen el criterio de apoyo mínimo

Minería de datosDr. Francisco J. Mata

39

Ejemplo algoritmo aprioriApoyo 2 o 2/9=22%

Minería de datosDr. Francisco J. Mata

40

Ejemplo algoritmo aprioriApoyo 2 o 2/9=22%

Minería de datosDr. Francisco J. Mata

41

Fortalezas del análisis de canasta de supermercado

Resultados se pueden entender claramente

De gran utilidad para minería indirectaComputacionalmente simple aunque con

crecimiento exponencial en tiempo

Minería de datosDr. Francisco J. Mata

42

Debilidades del análisis de canasta de supermecadoComplejidad crece exponencialmente

conforme crece el tamaño del problemaDifícil determinar los elementos

apropiadosElementos raros pueden producir

problemas

Minería de datosDr. Francisco J. Mata

43

Cuando aplicar análisis de asociaciónProblemas de minería indirecta que

consisten en elementos bien definidos los cuales se agrupan de maneras interesantes

Estos problemas ocurren usualmente en el comercio, donde transacciones de punto de venta son las bases del análisis

Minería de datosDr. Francisco J. Mata

44

Cuando aplicar análisis de asociaciónSe puede aplicar también en problemas

de minería directaComparar ventas en almacenes nuevos y

viejos

El algoritmo se puede modificar para considerar reglas que contienen un producto en particular (comprender sus patrones de venta)

top related