tecnicas de evaluaciÓn de algoritmos de aprendizaje césar hervás martínez universidad de...

38
TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS. Madrid Mayo 2004

Upload: ermenegildo-escovedo

Post on 22-Jan-2016

224 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

TECNICAS DE EVALUACIÓN DE

ALGORITMOS DE APRENDIZAJE

César Hervás Martínez

UNIVERSIDAD DE CÓRDOBA

GRUPO DE INVESTIGACIÓN AYRNA

RED DE MINERIA DE DATOS. Madrid Mayo 2004

Page 2: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

TEST DE COMPARACIONES DE ESTADISTICOS DE LOCALIZACIÓN

X1, X2, …Xn

Contraste de normalidad

Comparaciones de medias

Comparaciones de medianas

No

Test no-paramétrico Test no-paramétrico de Friedman de Friedman

Test de normalidad de Kolmogorov-Smirnov de los

resultados obtenidos

SiSiTest paramétrico Test paramétrico

Anova I Anova I

Test de Test de comparaciones comparaciones

múltiples, múltiples, Duncan, SNK, Duncan, SNK,

BonferroniBonferroni

TamhaneTamhane

Ordenación de medianas

Comparaciones de medias

Test t de student

Page 3: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

Ejemplo. COMPARACIÓN DE ALGORITMOS GENÉTICOS HIBRIDOS

UTILIZING HYBRID GENETIC ALGORITHMS.

Diseño experimental: 30 ejecuciones para cada problema de optimización propuesto

Variable de contraste: Valores obtenidos de la función optima en la última generación

Test de hipótesis: Contraste múltiple de medias bajo las hipótesis de normalidad de las distribuciones e independencia (ANOVA I)

Contraste de normalidad previo: Test de Shapiro-Wilks o (Kolmogorov-Smirnov)

Contrate de independencia previo: Test de correlaciones parciales (no realizado en el articulo) o P de Pearson o de máxima verosimilitud

Contraste de igualdad de varianzas: Test de Barlett o Test de Levene (no realizado en el articulo)

Page 4: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

Ejemplo. COMPARACIÓN DE ALGORITMOS GENÉTICOS HIBRIDOS

UTILIZING HYBRID GENETIC ALGORITHMS

Factor: Tipo de estrategia de búsqueda utilizada.

Niveles (12): N Algoritmo Genético; 0 AG+BL (Baldwinismo puro); 5 (primer nivel de Lamarkismo parcial), …, 95 (último nivel de Lamarkismo parcial), 100 (Lamarkismo puro)

Nivel de significación = 0.01

Regla de decisión: Si (p-value o Sig) > 0.01 Entonces existen diferencias significativas en las medias de las 12 diferentes estrategias de búsqueda o niveles del factor.

Page 5: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

Ejemplo . COMPARACIÓN DE ALGORITMOS GENÉTICOS HIBRIDOS

UTILIZING HYBRID GENETIC ALGORITHMS

Test de hipótesis (ANOVA I)Este contraste plantea en su hipótesis nula que las medias poblacionales de k poblaciones independientes son iguales

H0: 1 = 2 = ... = k

donde k es el número de grupos experimentales o muestras frente a la hipótesis alternativa de que alguna media es diferente

Región de aceptación C0 = {F* < Fk-1,N-k ()}Siendo el nivel de significación del contraste, que toma por lo general valores de 0.01; 0.05 y 0.1

Regla de decisión Si F* < Fk-1,N-k () Se acepta la hipótesis nula

Page 6: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

Ejemplo. COMPARACIÓN DE ALGORITMOS GENÉTICOS HIBRIDOS

UTILIZING HYBRID GENETIC ALGORITHMSTABLA (ANOVA I)

Fuente de Variación S. de C.

G. de L. Media de Cuadrados

F*

Modelo o dentro del grupo

SCM k-1 MCM= SCF/(k-1) MCM/MCE

Residual o entre grupos SCE N-k MCE= SCE/(N-k)

Total SCT N-1

2

1 1

( )ink

ij ii j

Y Y

2.

1 1

( )ink

iji j

Y Y

2.

1 1

( )ink

ii j

Y Y

SCM= SCT= SCE=

Page 7: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

COMPARACIÓN DE ALGORITMOS GENÉTICOS HIBRIDOS Test de hipótesis (ANOVA I)

La prueba de homogeneidad de varianzas implica que como 0.939 es mayor que 0.05 que es valor habitual del nivel de significación, la varianzas poblacionales son iguales.

La Tabla ANOVA nos indica que al ser 0.000 inferior al valor 0.05 valor habitual del nivel crítico deberemos de rechazar la hipótesis nula

Prueba de homogeneidad de varianzas

concentraciones de estroncio mg/ml

.194 4 25 .939

Estadísticode Levene gl1 gl2 Sig.

ANOVA

concentraciones de estroncio mg/ml

2193.442 4 548.361 56.155 .000

244.130 25 9.765

2437.572 29

Inter-grupos

Intra-grupos

Total

Suma decuadrados gl

Mediacuadrática F Sig.

Page 8: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

Ejemplo . COMPARACIÓN DE ALGORITMOS GENÉTICOS HIBRIDOS

Si Existen diferencias significativas, esto es, si se rechaza la hipótesis nula del test ANOVA I, Entonces

Test de Comparaciones Múltiples para igualdad de varianzas utilizados en el articulo: -Test Duncan, (minimización de la función de pérdida Bayesiana),

-Test de Student-Newman-Keuls (SNK) (test de rangos múltiple utilizado en una aproximación multietapa)

-Test de Ryan, Einot, Gabriel and Welsch (REGW) (utiliza también una aproximación multietapa que controla la proporción máxima de error del experimento bajo cualquier hipótesis parcial o completa) SAS v6.09

-Test de Comparaciones Múltiples para varianzas distintas-Test de Tamhane SPSS 11.0

Page 9: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

COMPARACIÓN DE ALGORITMOS GENÉTICOS HIBRIDOS

Si Existen diferencias significativas, esto es, si se rechaza la hipótesis nula del test ANOVA I, Entonces

Test de Comparaciones Múltiples: Test de Student-Newman-Keuls

-Es un test análogo al de Duncan, pero difiere de este en que el valor crítico del contraste se obtiene a través de las Tablas del “recorrido studentizado”, valor del extremo superior qp,GLE, .

Método: En primer lugar, se ordenan, por ejemplo de menor a mayor, las medias poblacionales según el orden de sus medias muestrales y se plantean contrastes sucesivos de hipótesis entre pares de medias poblacionales, de la forma

0 2 1

1 2 1

:

:

H

H

Page 10: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

COMPARACIÓN DE ALGORITMOS GENÉTICOS HIBRIDOS

Si Existen diferencias significativas, esto es, si se rechaza la hipótesis nula del test ANOVA I, Entonces

Test de Comparaciones Múltiples: Test de Student-Newman-Keuls

El estadístico de Student-Newman-Keuls, es

q =

Siendo MCE la media de cuadrados del error obtenida en la Tabla ANOVAI, y siendo n1 y n2 los tamaños muestrales de los niveles 1 y 2 del factor

Región de aceptación C0= {0; qp,GLE, }

Regla de decisiónSi q C0 Se acepta la hipótesis nula

2 1

2 1

1 12

x x

MCEn n

Page 11: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

COMPARACIÓN DE ALGORITMOS GENÉTICOS HIBRIDOS

Test de Comparaciones Múltiples: Test de Student-Newman-Keuls

-

Comparación B versus A

SE q p q0.05,25, p Conclusiones

5 vs. 1 58.3-32.1=26.2 1.28 20.47 5 4.166 Rechazamos 5= 1

5 vs. 2 58.3-40.2=18.1 1.28 14.4 4 3.901 Rechazamos 5= 2

5 vs. 3 58.3-41.1=17.2 1.28 13.44 3 3.532 Rechazamos 5= 3

5 vs. 4 58.3-44.1=14.2 1.28 11.09 2 2.919 Rechazamos 5= 4

4 vs. 1 44.1-32.1=12.0 1.28 9.38 4 3.901 Rechazamos 4= 1

4 vs. 2 44.1-40.2=3.9 1.28 3.05 3 3.532 Aceptamos 4= 2

4 vs. 3 No se contrasta

3 vs. 1 41.1-32.1= 9.0 1.28 7.03 3 3.532 Rechazamos 3= 1

3 vs. 2 No se contrasta

2 vs. 1 40.2-32.1= 8.1 1.28 6.33 2 2.919 Rechazamos 2= 15> 1, 5> 2, 5> 3, 5> 4, 4> 1, 4= (3)= 2, 3> 1, 2> 1,

tres clases, la primera con la población1, la segunda con 4, 3 y 2 y la tercera con 5

Page 12: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

COMPARACIÓN DE ALGORITMOS GENÉTICOS HIBRIDOS

Test de Comparaciones Múltiples: Test de Student-Newman-Keuls

Diferencia x A -xB

concentraciones de estroncio mg/ml

Student-Newman-Keulsa

6 32.0833

6 40.2333

6 41.1000

6 44.0833

6 58.3000

1.000 .103 1.000

tipos de agua1

2

3

4

5

Sig.

N 1 2 3

Subconjunto para alfa = .05

Se muestran las medias para los grupos en los subconjuntoshomogéneos.

Usa tamaño de la muestra de la media armónica = 6.000.a.

Page 13: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

Ejemplo 2. COMPARACIÓN DE ALGORITMOS GENÉTICOS HIBRIDOS

Rango de sol. test SNK

Estratégia de búsqueda

Problema N 0 5 10 20 40 50 60 80 90 95 100

Brown-20 3 2 1 1 1 1 1 1 1 1 1 1

Corana-20 4 2 8 7 6 5 4 3 2 1 1 1

Griewank-20 2 1 1 1 1 1 1 1 1 1 1 1

Rastrigin-20 2 1 1 1 1 1 1 1 1 1 1 1

Schwefelds-20 1 2 1 1 1 1 1 1 1 1 1 1

Otros

Page 14: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

COMPARACIÓN DE ALGORITMOS GENÉTICOS HIBRIDOS: RESULTADOS

La Tabla muestra el rango de los subconjuntos de las aptitudes finales de las mejores soluciones obtenidas para cada estrategia de búsqueda, donde 1 representa el mejor rango y 7 el peor.

Todas las estrategias que emplean al menos un 20% de aprendizaje Lamarkiano encuentran de forma consistente la solución final para los diferentes problemas de test.

El AG sin procedimiento de mejora local, N, se incluye para proporcionar una comparación con el procedimiento híbrido de búsqueda local.

Para la mayoría de los problemas de test, el uso de procedimientos de mejora local LS aumenta significativamente la eficiencia de un AG

Page 15: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

Ejemplo 2. COMPARACIÓN DE ALGORITMOS DE COMITES DE DECISIÓN

MULTIBOOSTING Diseño experimental: 10 validaciones cruzadas para cada conjunto de clasificación

Variable de contraste: valores obtenidos de los errores de clasificación para 36 bases de datos del repositorio de la UCI

Test de hipótesis: Contraste de signos: Test de Shapiro-Wilks o (Kolmogorov-Smirnov)

Poblaciones (5): 1 C4.5; 2 Bagging; 3 (Wagging), 4 (AdaBoost); 5 (MultiBoost)

Nivel de significación = 0.05

Regla de decisión: Si (p-value o Sig) > 0.05 Entonces existen diferencias en los rangos de buena clasificación par las 36 bases de datos para cada par de algoritmos de clasificación utilizados

Page 16: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

COMPARACIÓN DE ALGORITMOS DE COMITES DE DECISIÓN

Algoritmo C4.5 Bagging Wagging AdaBoost MultiBoostMedia de 36 conj 0.177 0.159 0.164 0.161 0.156C4.5 r 0.889 0.930 0.845 0.826

s 30/3/3 28/4/4 25/1/10 29/1/6p <0.001 <0.001 0.017 <0.001

Bagging r 1.046 0.950 0.929s 10/1/25 16/2/18 21/2/13p 0.017 0.864 0.229

Wagging r 0.908 0.888s 20/2/14 23/2/11p 0.392 0.058

Adaboost r 0.977s 21/4/11p 0.110

Comparación de errores para t=10

Page 17: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

COMPARACIÓN DE ALGORITMOS DE COMITES DE DECISIÓN

La Tabla siguiente proporciona para t= 10, esto es para una validación cruzada con 10 particiones, un resumen de comparaciones del error obtenido por cada algoritmo sobre el conjunto de las 36 bases de datos.

Por filas se indica el error medio sobre un conjunto de datos para el algoritmo etiquetado en la fila

Por columnas se indica el error medio para el algoritmo etiquetado en la columna.

La primera fila representa el error medio a través del conjunto de las 36 bases de datos.

La etiqueta r presenta la media geométrica de la proporción de error col/fila.

La etiqueta s representa el número de comparaciones donde el algoritmo fila ha sido ganador (en error medio), ha empatado o ha perdido en las 36 bases de datos cuando ha competido con el algoritmo columna.

Page 18: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

COMPARACIÓN DE ALGORITMOS DE COMITES DE DECISIÓN

La etiqueta p representa el nivel crítico del contraste bilateral del test de signos aplicado a cada par de algoritmos fila/columna, utilizando sólo los registros ganador/perdedor, esto es un test donde contrastamos si perder o ganar de un algoritmo frente a otro son sucesos aleatorios equiprobables. Las hipótesis son

Ejemplo los resultados de contrastar el rendimiento en clasificación de las 36 bases de datos por AdaBoost frente a MultiBoost, son 21/4/11, pero si eliminamos los empates tenemos = 21/32 como proporción de veces sobre 32 bases de datos en las que AdaBoots gano en error a MultiBoost.

0 0

1

: = 0.5

: 0.5

H p p

H p

Page 19: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

COMPARACIÓN DE ALGORITMOS DE COMITES DE DECISIÓN

Si consideramos que n= 32 es suficientemente grande y utilizamos el Teorema Central del Límite, entonces la distribución asintótica es

Regla de decisión: Como 21/32= 0.656 (0.327, 0.673) Se acepta la hipótesis nula, por lo que se acepta que el valor de p= 0.5. También como

el nivel crítico o p-value es 0.078 y Regla de decisión es ahora: Como 0.05 < 0.078 se acepta la hipótesis nula de que p= 0.5. El valor difiere del de la tabla (0.110) puesto que nosotros hemos utilizado una aproximación a una distribución Normal y no la distribución binomial exacta

30

ˆ N(0; 1)

/ n

p p

pq n

0.656 0.51.765

0.5 0.5 / 32

Page 20: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

Ejemplo. MÉTRICAS PARA LA VALORACIÓN Y ORDENACIÓN DE REGLAS

B Bc Total

A n(AB)=n11 n(ABc)=n12 n1.

Ac n(AcB)=n21 n(AcBc)=n22

n2.

Total n.1 n.2 n

Tabla de contingencia de la regla (A Tabla de contingencia de la regla (A B). B).

Page 21: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

MÉTRICAS PARA LA VALORACIÓN Y ORDENACIÓN DE REGLAS

Soporte (Sop[0,1]) indica el tanto por uno de instancias que contienen tanto A como

B. Es simétrica.

Sop(A B) = P(AB) y para la muestra se estima mediante ( )n A B

n

.

Confianza (Conf[0,1])). indica el máximo en tanto por uno de instancias que

conteniendo a A contienen también a B o que conteniendo a B contienen a A

Conf(A B) = max(P(B/A), P(A/B))

Interés (Int[0,]). representa un test para medir la dependencia estadística de la regla.

Es simétrica

Int(A B) = ( )

( ) ( )

P A B

P A P B

Page 22: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

MÉTRICAS PARA LA VALORACIÓN Y ORDENACIÓN DE REGLAS Factor de Certeza (FC[-1,1]). representa la incertidumbre de una regla

FC(A B) = max (( / ) ( ) ( / ) ( )

, ( ) ( )

P B A P B P A B P A

P Bc P Ac

)

Chicuadrado (2[0,]).. Es una medida estadística asociada al contraste de

independencia de dos variables dicotómicas. Es simétrica. En el caso dicotómico

2(A B)=

211 22 12 21

1. 2. .1 .2

( )n n n n n

n n n n

.

Medida de interés (MI[0,]). medida altamente lineal con respecto al coeficiente de

correlación para muchas reglas interesantes. presenta según los autores, una alta

correlación estadística en la región de bajo soporte y alto interés. Es simétrica

MI(A B) = ( )

( ) ( )

P A B

P A P B

.

Page 23: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

Entropía (S[0,]).. Es una medida de incertidumbre. Es simétrica. La información

mutua especifica el aumento de reducción en incertidumbre de una variable B

cuando se conoce una variable A

S(A B)= ( ) ( ) ( )

min[ ( ), ( )]

H A H B H A B

H A H B

, siendo

H(A)= -1

( ) log ( )m

k kk

P A P A y H(AB)=

1 1

( )( ) log

( ) ( )

m lk j

k jk j k j

P A BP A B

P A P B

Precisión Relativa Ponderada (PRP(-0.25, 0.25)). está relacionada con la

generabilidad y exactitud de la regla.. Es simétrica.

PRP(A B) = P(AB)- P(A) P(B).

Coeficiente de correlación lineal ([-1,1]).). Este coeficiente mide el grado de

correlación lineal entre dos variables aleatorias, y en el caso dicotómico su valor es

(A B)= ( ) ( ) ( )

( ) ( ) ( ) ( )

P A B P A P B

P A P B P Ac P Bc

, y su estimador muestral es 11 22 12 21

1. 2. .1 .2

n n n n

n n n n

.

Page 24: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

REGLA 1.-

Si TIEMPO. TESTF_ADMINISTRACION-ALTA(0)= ALTO

Entonces ACIERTO.TESTF_ADMINISTRACION-ALTA(0)= NO

REGLA 2.-Si NIVEL. EMULADORES_PROGRAMAS-ALTA= EXPERTO

Entonces ACIERTO. EMULADORES_PROGRAMAS-ALTA(1)= NO

BASE DE DATOS DE 265 REGLAS EXTRAÍDAS MEDIANTE

GBGP EN UNA BASE DE DATOS EN ENTORNO EDUCATIVO

Sop Conf Int CF 2 MI S PRP 0.370 1.000 1.227 1.000 41.727 0.674 2.020 0.069 0.366

0.259 0.540 1.211 0.169 16.154 0.560 0.984 0.045 0.182

0.296 0.800 1.964 0.662 19.236 0.763 0.718 0.145 0.613

VALORES DE LAS 9 MEDIDAS PROPUESTAS PARA LAS TRES PRIMERAS REGLAS

Page 25: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

MÉTRICAS PARA LA VALORACIÓN Y ORDENACIÓN DE REGLAS

Test de Kolmogorov-Smirnov (K-S) cuyos resultados se muestran en la Tabla, indica que para todas medidas excepto para MI se rechaza la hipótesis nula de normalidad para un = 0.05, puesto que los niveles críticos, o valores p, son respectivamente 0.00 o 0.01 a excepción de MI cuyo valor es 0.08.

Métrica Sop Conf Int FC 2 IS E PRP

Media 0.29 0.61 1.17 0.17 23.03 0.57 1.46 0.03 0.13

Des 0.10 0.16 0.27 0.28 16.96 0.13 0.89 0.06 0.26

Z K-S 2.58 2.37 2.57 2.27 2.84 1.26 3.82 2.12 1.62

p 0.00 0.00 0.00 0.00 0.00 0.08 0.00 0.00 0.01

Con estos resultados el test de comparaciones más adecuado es el de igualdad de medianas de valores de aptitud dados por las nueve medidas para las 265 reglas propuestas; por lo que hacemos un test no-paramétrico de Friedman considerando poblaciones independientes

Page 26: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

MÉTRICAS PARA LA VALORACIÓN Y ORDENACIÓN DE REGLAS

TEST DE FRIEDMANEl estadístico F de Friedman es de la forma:

F= siendo S=

donde n es el tamaño muestral, 265 en nuestro caso, k el número de poblaciones a comparar, 9 en nuestro caso, Ri la suma de los rangos de todos los individuos de la población i-ésima y que se muestran en la tabla.

12

( 1)

S

nk k

k2

ii=1

( 1)(R )

2

n k

Mét Sop Con Int FC 2 MI S PRP

R. 3.48 5.58 7.46 2.62 9.00 5.37 7.51 1.60 2.38

Ri 922.2 1478.7 1976.9 694.3 2385 1423.1 1990.2 424 630.7

Tabla Rango promedio y Suma de los rangos de las métricas, Ri, para todas las reglas.

Page 27: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

MÉTRICAS PARA LA VALORACIÓN Y ORDENACIÓN DE REGLAS

La región de aceptación unilateral del contraste es C0 = (0; F), donde F se obtiene a partir de unas tablas construidas por Friedman para muestras

de tamaño pequeño o si el tamaño es mayor de 30

Regla de decisión “Si FC0 Se acepta la hipótesis nula para un nivel de confianza , prefijado”.

Con los resultados anteriores C0 = (0; ), siendo

= 15.51 y por tanto F= 1908.5 C0, pues 1908.5 > 15.51.

Se rechaza la hipótesis nula de igualdad de medianas en los valores de aptitud para las 9 métricas propuestas, para un nivel de confianza del 95%

Test no parametricos de comparaciones múltiples de medianas, no existentes en nuestro conocimiento

Test de Wilcoxon de pares de variables dependientes. La cuestión es que habría que realizar 36 contrastes.

28 (0.05)

28 (0.05)

21k

Page 28: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

MÉTRICAS PARA LA VALORACIÓN Y ORDENACIÓN DE REGLAS

TEST DE WILCOXON

Utilizaremos la mediana M de la diferencia de aptitudes proporcionadas por cada una de las dos métricas como parámetro de localización dado que las distribuciones de las variables X e Y son desconocidas y las hipótesis de normalidad no son apropiadas.

El contraste bilateral se plantea en la forma:

Hipótesis 0 X Y

1 X Y

H :M - M =0

H :M - M 0

Page 29: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

MÉTRICAS PARA LA VALORACIÓN Y ORDENACIÓN DE REGLAS

TEST DE WILCOXON

El estadístico de contraste se construye a través de dos variables auxiliares, transformaciones de X e Y. Z= |X-Y| y S= sig.(X-Y), y utilizaremos los valores muestrales de las citadas transformaciones zi y si

Los rangos de los n valores de zi, se obtienen de forma tal que ri= rang.(zi) y con estos valores se define el estadístico.

W- =

La región de aceptación de la hipótesis nula es C0= (W1-/2, W/2) y la distribución de W- para muestras de tamaño mayor de 30, como es nuestro caso, se demuestra que converge a una normal

1i

i is

s r

Page 30: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

MÉTRICAS PARA LA VALORACIÓN Y ORDENACIÓN DE REGLAS

PRIMERAS CONCLUSIONES

Las salidas de SPSS de la Tabla muestran los valores de W- y de p-value de las comparaciones de las medianas de cada métrica con todas las demás métricas, donde se observa que existen diferencias significativas entre cada par individual de medianas para = 0.05, dado que el nivel crítico es 0.00 o 0.02.

De esta forma podemos concluir que la distribución de las medidas de las reglas obtenida por una métrica cualquiera es diferente de las distribuciones de las medidas de las reglas para las otras ocho métricas para cualquier valor de .

Page 31: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

MÉTRICAS PARA LA VALORACIÓN Y ORDENACIÓN DE REGLAS

Conf Int FC 2 MI S PRP

Sop -14.12 -14.11 -7.43 -14.11 -14.11 -14.11 -14.12

0.00 0.00 0.00 0.00 0.00 0.00 0.00

Conf -14.11 -13.95 -14.11 -5.38 -14.10 -14.11

0.00 0.00 0.00 0.00 0.00 0.00

Int -14.16 -14.11 -14.11 -3.03 -14.11

0.00 0.00 0.00 0.02 0.00

FC -14.11 -13.77 -14.11 -8.83

0.00 0.00 0.00 0.00

2 -14.11 -14.11 -14.11

0.00 0.00 0.00

MI -14.08 -14.11

0.00 0.00

S -14.11

0.00

-14.02 -14.11 -3.35 -14.11 -14.11 -14.11 -7.53

0.00 0.00 0.001 0.00 0.00 0.00 0.00

Page 32: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

ANALISIS EN COMPONENTES PRINCIPALES (C. P.)

X1, X2, …,Xn

Contrastes de adecuacidad

Número de C. P.

Si

Un nivel crítico p= 0.00 muestra que se Un nivel crítico p= 0.00 muestra que se rechaza la hipótesis nula por lo que existen rechaza la hipótesis nula por lo que existen correlaciones significativas entre las nueve correlaciones significativas entre las nueve

métricas métricas

Contraste de Kaiser-Meyer-Olkin asociado a medir la relación entre las 9 métricas a través de sus coeficientes de correlaciones parciales

Rotación de las C. P.

Dos componentes principales que explican el 88.4% de la varianza total

Método Varimax de KaiserMétodo Varimax de Kaiser

Page 33: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

Componentes sin rotar

Componentes rotadas

Medidas 1ª 2ª 1ª 2ª

Sop 0.654 0.619 0.313 0.844

Conf 0.712 0.499 0.418 0.762

Int 0.835 -0.479 0.961 -6.07e-02

FC 0.897 -0.132 0.863 0.278

2 0.382 0.886 -4.9e-02 0.964

MI .938 0.196 0.755 0.590

S -5.8e-03 0.918 -0.411 0.820

PRP 0.889 -0.431 0.988 5.98e-03

0.892 -0.419 0.986 1.80e-02

ANALISIS EN COMPONENTES PRINCIPALES

Puntua en 1ª CPi = 0.654Puntua en 1ª CPi = 0.654 ZSopi+0.712 ZSopi+0.712 ZConfi+ ...+ 0.889 ZConfi+ ...+ 0.889 ZPRPi+ 0.892 ZPRPi+ 0.892 Z Zii

Puntua en 2ª CPi= 0.619 Puntua en 2ª CPi= 0.619 ZSopi+ 0.449 ZSopi+ 0.449 ZConfi + .....- 0.431 ZConfi + .....- 0.431 ZPRPi- 0.419 ZPRPi- 0.419 Z Zii

Page 34: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

Resultados del Análisis en CP

La CP primera está formada por las medidas de Confianza, Interés, Factor de Certeza, Precisión Relativa Ponderada, Coeficiente de correlación lineal, así como Soporte y Medida de Interés y explica el 56.1% de la varianza total.

La CP segunda esta asociada a las medidas Chi-cuadrado y Entropía y explica el 32.3% de la varianza total. Ambas son medidas de dependencia estadística que indican el mayor o menor grado de independencia de los atributos que forman

la regla

Page 35: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

Conclusión

Las distribuciones de las medidas no son normales salvo para MI y que al aplicarles los contrastes de igualdad de medianas se observa que estas son diferentes entre si para = 0.05

Algunas medidas miden características similares de las reglas y por ello se pueden definir otras métricas como combinación lineal de varias de las iniciales (Componentes Principales)

Page 36: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

BIBLIOGRAFÍA Joines, J. A., Kay M. G. Utilizing Hybrid Genetic Algorithms. Evolutionary

Optimization. Kluwer Academic Publisher. 2002

Webb G. I. MultiBoosting: A Technique for Combining Boosting and Wagging. Machine Learning, 40, 159-196, 2000

Van Gestel, T., et al “Benchmarking least squares support vector machine classifiers”. Machine Learning, 54, 5-32, 2004

Hervás C., Romero C., Ventura S. “Comparación de medidas de evaluación de reglas de asociación”. Maeb´04 Córdoba, 126-133. 2004.

Barr, R.S., Golden, B.L., Nelly, J. P., Resende, M.G.C. and Stewart Jr., W.R.

“Designing and reporting on computacional experiments with heuristic methods”. Journal of Heuristics, 1 (1). 9-32. 1995

Hooker, J.N. Testing heuristics: “We have it all wrong”. Journal of Heuristics, 1 (1). 33-42

Tjen-Sien, L., Wei-Yin L., Yu-Shan S. A Comparison of Prediction Accuracy, Complexity, and Training Time of Thirty-Three Old and New Classification Algorithms, Machine Learning, 40, 203-228. 2000.

Page 37: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

Cuadras C., "Métodos de Análisis Multivariante", EUNIBAR, Barcelona 2ª edición (1991).

Hair, Análisis Multivariante, Prentice-Hall, (1999).

Ruiz-Maya L. Métodos Estadísticos de Investigación. INE, 1986

Fox J. An R and S-Plus companion to applied regression. SAGE Publications. 2002

Bishop, Y, Fienberg, S. and Holland, P. "Discrete Multivariate Analysis". MIT Press. Cambridge. (1991)

Jobson, J. D. "Applied Multivariate Data Analysis. Volume II: Categorical and Multivariate Methods". Ed. Springer-Verlag. (1992)

Montgomery D. C., Peck, E. A. and Vinng G.G.”Introduction to linear regression analysis” John Wiley 2001

BIBLIOGRAFÍA

Page 38: TECNICAS DE EVALUACIÓN DE ALGORITMOS DE APRENDIZAJE César Hervás Martínez UNIVERSIDAD DE CÓRDOBA GRUPO DE INVESTIGACIÓN AYRNA RED DE MINERIA DE DATOS

TECNICAS DE EVALUACIÓN DE

ALGORITMOS DE APRENDIZAJE

César Hervás Martínez

UNIVERSIDAD DE CÓRDOBA

GRUPO DE INVESTIGACIÓN AYRNA

RED DE MINERIA DE DATOS. Madrid Mayo 2004