descubrimiento de subgrupos: reglas atípicas y relevantes josé ramón cano departamento de...

Descubrimiento de Subgrupos: Reglas Atípicas y Relevantes

José Ramón Cano

Departamento de Informática

Universidad de Jaén

III Taller Nacional de Minería de Datos y Aprendizaje, TAMIDA’2005 Granada, Septiembre 2005

2

Sumario

1.- Introducción

2.- Descubrimiento de Subgrupos

3.- Medidas Descriptivas de Interés de una Regla

4.- Preprocesamiento y Descubrimiento de Subgrupos

3

1.- Introducción

Especificación del

Problema

Minería de Datos:

Modelos PredictivosModelos Descriptivos

Preparación de Datos

ImplantaciónEvaluaciónInterpretaciónExplotación

Extracción de

Datos

4

1.- Introducción

•Modelos Predictivos: Dedicados a la inducción predictiva y compuestos por conjuntos de reglas empleadas en clasificación.Kweku-Muata, Osei-Bryson, Evaluation of decision trees: a multicriteria approach. Computers and Operations Research, 31, MIT Press, 1993 -1945, 2004.

Edad Tipo Coche Riesgo20 Combi Alto18 Deportivo Alto40 Deportivo Alto50 Familiar Bajo35 Minivan Bajo30 Combi Alto32 Familiar Bajo40 Combi Bajo

DatosEntrenamiento

Algoritmo Extrac. Modelos Predictivos

Clasificador(modelo)

if Edad < 31or Tipo Coche = Deport.then Riesgo = Alto

Edad < 31

Alto

Alto Bajo

Tipo Coche=Deport.

IND, S-Plus Trees, C4.5, CN2, FACT, QUEST, CART, OC1, LMDT, CAL5, T1…

Medidas de calidad: Precisión, Interpretabilidad

Servicio de Informática

Modelos predictivos basados en Reglas

5

1.- Introducción

•Modelos Descriptivos: Su finalidad es la inducción descriptiva, buscando reglas que definan patrones interesantes en los datos. El Descubrimiento de Subgrupos es un subtipo de modelo descriptivo.

N. Lavrac, B.Kavsec, P. Flach, L. Todorovski, Subgroup Discovery with CN2-SD, Journal of Machine Learning Research, 5, 153-188, 2004.

DatosEntrenamiento

Algoritmo Extrac. Modelos Descriptivos

Modelos

{Pañal} * {Cerveza},{Leche, Pan} {Huevos, Refresco},{Cerveza, Pan} {Leche}

AIS, Apriori, FP-Tree, RARM...

Id. Trans. Artículos1 Pan, Leche2 Pan, Pañal, Cerveza, Huevos3 Leche, Pañal, Cerveza, Refresco4 Pan, Leche, Pañal, Cerveza5 Pan, Leche. Pañal, Refresco

* La implicación representa simultaneidad, no causalidad

Medidas de calidad: Confidencia, Soporte

6

1.- Introducción

Diferencias entre reglas de clasificación y de asociación:

- Sintácticas:

Reglas de Clasificación Reglas de Asociación

• Un atributo en el consecuente.

• Asimetría con respecto a los atributos.

• Uno o más atributos en el consecuente.

• Simetría de los atributos.

- Semánticas:

• La Clasificación como tarea de predicción del futuro es un problema no determinístico.

• Puede aparecer overfitting/underfitting.

• Cualquier algoritmo de extracción de reglas de asociación debe de encontrar el mismo conjunto de reglas (tarea determinística).

• Al ser determinística la tarea, no hay posibilidad de overfitting/underfitting.

A. A. Freitas, Understanding the crucial differences between classification and discovery of association rules – A position paper, SIGKDD Explorations, 2, 1, 1-5, 2000.

7


“Given a population of individuals and a property of those individuals we are interested in, find population subgroups that are statistically ‘most interesting’, e.g., are as large as possible and have the most unusual statistical charasteristics with respect to the property of interest”.

W. Klösgen, Explora: A multipattern and multistrategy discovery assistant, Advance in Knowledge Discovery and Data Mining, MIT Press, 249-271, 1996.

W. Klösgen , 1996:

8


• Un subgrupo interesante tiene asociada una distribución de clases que se diferencia significativamente de la distribución global

• Emplea diferentes heurísticas para conseguir equilibrio entre acierto y generalidad.

• Las reglas de clasificación tienden a buscar subgrupos puros.

• El descubrimiento de subrupos se centra en buscar reglas con proporciones de positivos significativamente altos (o diferentes).

9


negativospositivos

Verdader.positivos

Fals.pos.

Puede modelarse mediante una clasificación con ganancias (para verdaderos pos/neg: TPr) y costes (para falsos pos/neg: FPr)

Reglas de la forma: Condición -> Clase [TPr,FPr]Donde Clase es la propiedad en la que estamos interesados.

TP=n(Cond,Clase)

FP=n(Cond, !Clase)

TN=n(!Cond,!Clase)

FN=n(!Cond,Clase)

FNTP

TPT

Pr

TNFP

FPF

Pr

TP

FP

TNFN

10


Ejemplo:

DatosEntrenamiento

Algoritmo Descub. de Subgrupos

Modelo

Explora, Midos,Apriori-SD, CN2-SD...

Si patas=2 Y plumas=si Entonces clase = pájaro [1,0]

Si pico=si Entonces clase = pájaro [1,0]

Si tamaño=grande Y vuela=no Entonces clase = elefante [0.17,0.83]

Base de Datosde Animales

N. Lavrac, B. Cestnik, D. Gamberer, P. Flach. Decision support through subgroup discovery: three case studies and the lessons learned, Machine Learning, 57, 1-2, 115-143, 2004.

11


EXPLORA: Efectúa el proceso de aprendizaje considerando todala información situada en una única tabla.

Revisión histórica:

MIDOS: Este algoritmo extiende el proceso a bases de datosmultirelacionales.

W. Klösgen, Explora: A multipattern and multistrategy discovery assistant, Advance in Knowledge Discovery and Data Mining, MIT Press, 249-271, 1996.

S. Wrobel, An algorithm for multi-relational discovery of subgroups, Proceedigs of the 4th European Conference on Principles of Data Mining and Knowledge Discovery, Springer, 78 - 87, 1997.

EXPLORA y MIDOS utilizan árboles de decisión. Posteriormente se han utilizado modelos de separate-and-conquer, diferentes de los de divide y vencerás de los árboles, que permiten introducir intersecciones no nulas entre reglas.

12


Apriori-SD: Adaptación del algoritmo Apriori-C que emplea como medida de calidad de las reglas inducidas el acierto relativo ponderado.

CN2-SD: Adaptación del algoritmo CN2 modificándole el algoritmo de cobertura, la búsqueda heurística, la clasificación probabilística de instancias y las medidas de evaluación.

B. Kavsek, N.Lavrac, V. Jovanoski, Apriori-sd: Adapating association rule learning to subgroup discovery, Proceedings of the 5th International Symposium on Intelligent Data Analysis, Springer, 230 -241, 2003.

N. Lavrac, B.Kavsec, P. Flach, L. Todorovski, Subgroup Discovery with CN2-SD, Journal of Machine Learning Research, 5, 153-188, 2004.

Revisión histórica:

13


Ejemplo de Algoritmo de Descubrimiento de Subgrupos: CN2-SD

Adaptación del algoritmo de extracción de reglas por cobertura CN2.

• Procedimiento CN2Desordenado(todosEjemplos,Clases)– ConjReglas {}– Para cada Clase en Clases

• Genera reglas con CN2ParaUnaClase(todosEjemplos,Clase)• Añade reglas a ConjReglas

– Devuelve ConjReglas

• Procedimiento CN2ParaUnaClase(Ejemplos,Clase)– Reglas {}– Repite

• mejorCondicion EncuentraMejorCondicion(Ejemplos,Clase)• If (mejorCondicion no es nula) Then

– Añade Regla ‘If mejorCondicion then Clase’ a Reglas y elimina de Ejemplos todos los ejemplos de la clase ‘Clase’ cubiertos por mejorCondición.

– Hasta que mejorCondicion sea nula– Devuelve Reglas

P. Clark, R. Boswell, Rule induction with CN2: some recent improvement, Proceedings of the 5th European Conference (EWSL-91), Springer, 151 -163, 1991.

14



Las adaptaciones del algoritmo CN2 llevadas a cabo son:

- Algoritmo de Cobertura: Incorporación de pesos en los ejemplos en el algoritmo de cobertura.

- Búsqueda Heurística: Se emplea una heurística basada en el acierto relativo ponderado que supone un equilibro entre generalización y acierto de la regla, a partir de la ponderación de ejemplos.

Peso Aditivo: Peso Multiplicativo:1

1),(

iiew j 10,),( i

j iew

'

)('

)('

),('

'

)(')(

N

Clasen

Condn

ClaseCondn

N

CondnClaseCondWRAcc

15



Modificaciones:

- Medidas de Evaluación:

- Clasificación Probabilística de Instancias:

Si patas=2 Y plumas=si Entonces clase = pájaro [1,0]

Si pico=si Entonces clase = pájaro [1,0]

Si tamaño=grande Y Vuela=no Entonces clase = elefante [0.17,0.83]

Las medidas descriptivas de interés de una regla consideradas son: Cobertura, Completitud, Tamaño, Relevancia y Atipicidad.

Si el ejemplo de entrada es: patas=2, plumas=si, pico=si, tamaño=grande y vuela=no, se disparan todas las reglas consiguiendo una distribución de [0.72,0.28], con lo que la clase seleccionada es Pájaro. (Considerando reglas desordenadas)

16

Cobertura:


N

CondnClaseCondCobRCob i

ii

)()()(

Completitud:

N

ClaseCondnClaseCondCompRComp i

ii

),()()(

Rn

ii

R

RCobn

COB1

)(1

jjiClase

iClaseCond

j CondClasenN

COMP )(1

Tamaño:RnTAM

17

Atipicidad:


Relevancia:

j j

jijiii CondpClasen

ClaseCondnClaseCondnClaseCondlRl

,log,2ReRe

Rn

ii

R

Rln

REL1

Re1

N

Clasen

Condn

ClaseCondn

N

CondnClaseCondAtiRAti i

)(

)(

),()(

Rn

ii

R

RAtin

ATI1

1

18


Especificación del

Problema

Minería de Datos:

Modelos Descriptivos

Preparación de Datos

ImplantaciónEvaluaciónInterpretaciónExplotación

Extracción de

Datos

M. Scholz, Knowledge-Based sampling for subgroup discovery, Local Pattern Detection, 3539, 171-189, 2005.

19


Ventajas del Preprocesamiento:

• Los datos reales pueden ser impuros. Pueden conducir a la extracción de reglas poco útiles

• La preparación de datos genera “datos de calidad”, los cuales pueden conducir a reglas de calidad.

• El preprocesamiento de datos puede generar un conjunto de datos más pequeño que el original, lo cual mejora la eficiencia de los algoritmos de extracción de reglas.

20


El preprocesamiento se puede llevar a cabo siguiendo las siguientes vías:

• Reducción de datos. Reducción de Datos

Selección deCaracterística

s

Selección de Instancias

Compactación de instancias ó

Data Squashing

Discretización

Ejemplo de Preprocesamiento aplicado a Descubrimiento de Subgrupos:

V. Detours, J. E. Dumont, H. Bersini and C. Maenhaut. Integration and cross-validation of high-throughput geneexpression data: comparing heterogeneous data sets, FEBS Letters 546:1, 2003, 98-102.

W. Kim, B. Choi, E-K. Hong, S-K. Kim. A Taxonomy of Dirty Data. Data Mining and Knowledge Discovery 7, 81-99, 2003.

• Integración y recolección de datos.

• Limpieza de datos.

• Transformación de datosT. Y. Lin. Attribute Transformation for Data Mining I: Theoretical, Explorations. International Journal of Intelligent Systems 17, 213-222, 2002.

J.R. Cano, F. Herrera, M. Lozano. Using evolutionary algorithms as instance selection for data reduction in Kdd: an experimental study, IEEE Transactions on Evolutionary Computation, 7, 6, 561-575, 2003.

21



Conjunto de Datos (D)

Conj. Entrenamiento (TR)

Conj. Test(TS)

Instancias Seleccionadas (TSS)

Alg. de Selección de Instancias

Alg. de Minería de Datos (CN2-

SD)

Reglas Obtenida

s

22



Algunos resultados:

- Metodología de la Experimentación: Conjunto de Datos y Parámetros

Algoritmos de Extracción de Reglas Parámetros

C4.5

CN2 Estrella=5, Discret. Anchura e ID3

CN2-SD Estrella=5, γ=0.5, Discret. Anchura e ID3

Algoritmo de Selección de Instancias Parámetros

CHC Pob=50, Eval=10000, α=0.5

Conj. Datos Núm. Instancias Núm. Atributos Núm. Clases

Adult 30132 14 2

Debido al tamaño del conjunto de datos se lleva cabo la selección de instancias siguiendo un modelo estratificado de 100 estratos:

J.R. Cano, F. Herrera, M. Lozano, Stratification for scaling up evolutionary prototype selection, Pattern Recognition Letters, 26, 953-963, 2005.

23



Algunos resultados:

COB COMP TAM REL ATI

C4.5 cl 0.004 1.000 359 49.300 0.001

CHC st +CN2 Anchura 0.026 0.972 31 343.541 -0.016

CHC st +CN2 ID3 0.017 0.966 44 212.923 -0.011

CHC st +CN2-SD Anchura 0.408 0.978 11 1997.301 -0.085

CHC st +CN2-SD ID3 0.415 0.983 10 2050.153 -0.080

Descubrimiento de Subgrupos: Reglas Atípicas y Relevantes

José Ramón Cano

Departamento de Informática

Universidad de Jaén

III Taller Nacional de Minería de Datos y Aprendizaje, TAMIDA’2005 Granada, Septiembre 2005

descubrimiento de subgrupos: reglas atípicas y relevantes josé ramón cano departamento de...

Documents