grupo de aprendizaje automático universidad de oviedo en gijón aic.uniovi.es/mlgroup

Red de Minería y Aprendizaje

Grupo de Aprendizaje AutomáticoUniversidad de Oviedo en Gijón

www.aic.uniovi.es/MLGroup

Selección de Atributosen

Aprendizaje de Preferencias(usando SVM)


Índice de la presentación• Aprendizaje de Preferencias • Máquinas de Vectores Soporte• SVM para Aprendizaje de Preferencias• Selección de Atributos• Resultados Experimentales• Conclusiones


Aprendizaje de Preferencias• Aplicaciones típicas:

Calidad de productos Recuperación de información Interfaces adaptativas

• Problemas en los que los métodos de regresión fracasan

• ¿Por qué fracasan? Las calificaciones proceden de diferentes

fuentes (distintas escalas) Tienen un sentido relativo


Aprendizaje de Preferencias


Aprendizaje de Preferencias• No intenta predecir las etiquetas numéricas• Datos: conjuntos de relaciones de

preferencia{ (vi, ui) : i=1..l } donde vi es considerado mejor que ui (vi > ui )

Reflejan el sentido relativo de las calificaciones• Soluciones:

Clasificadores: no transitivos Funciones de Preferencia


Funciones de Preferenciaf: d tal que f(v) > f(u) siempre que v > u

Si consideramos f lineal, en ese caso fw(x) = +w,x,

+w,v, > +w,u,

(v-u) , +(u-v) , -


Máquinas de Vectores Soporte

• Introducidas en los 90 por Vapnik• Se basan en la Minimización del Riesgo

Estructural (SRM)• 92: maximización del margen y uso de kernels• 95: margen blando• Rápido desarrollo: algoritmos más eficientes,

diseño de kernels

“No hay nada más práctico que una buena teoría”


Maximización del Margen


Hiperplano Óptimo

1,1,),(...,),,( 11

YyXxyxyxS ll

))(()(

,)(

xfsignxh

bxwxf

0, bxw

libxwy ii ,...,1 , 1,

wbxw

xbwd ii

,),,(

wwbxw

wbxw

bw i

yx

i

yx iiii

2,min

,min),(

1,1,

1,min bxw ii

1, bxw

1, bxw


Problema Primal

ww,

libxwy ii ,...,1 , 1,

Maximizar el margen equivale a minimizar la norma

Minimizar:

Sujeto a:


Teoría de Optimización

l

iiii xyw

dwL

1

0

l

iiii bxwywwbwL

1

1,,21),(

lii ,...,1 0

Se usa la teoría de Lagrange (o de Kuhn-Tucker)

Lagrangiana:

Diferenciar y sustituir

l

iii ydb

L1

0 0


Problema Dual

01

l

iii y

l

jijijiji

l

ii xxyyW

1,11

,21)( Maximizar:

Sujeto a: 0i

¡Podemos usar KERNELS!


Propiedades de la solución• Margen• Problema de Optimización cuadrática:

convexidad no hay mínimos locales resoluble en tiempo polinomial

• Dualidad: permite el uso de kernels• Esparsidad: sólo son necesarios los

puntos cerca del margen (vectores soporte)


Margen blando

i


Margen blando

iiCww ,

21

libxwy iii ,...,1 , 1,

Minimizar:

Sujeto a:

01

l

iii y

l

jijijiji

l

ii xxyyW

1,11

,21)( Maximizar:

Sujeto a: Ci 0


Clasificadores no-lineales• Solución 1: crear una red neuronal

Problemas: Topología Mínimos locales Muchos parámetros

• Solución 2: transformar (kernel) el espacio de entrada en un espacio de características, y aplicar un clasificador lineal. Hay que decidir:

qué espacio de características es el adecuado para el problema

el grado de sobreajuste (C)


Clasificadores no-lineales

01

l

iii y

pji xx 1,

l

jijijiji

l

ii xxKyyW

1,11

),(21)( Maximizar:

Sujeto a: Ci 0

Kernel Polinómico

Kernel Gaussiano

Kernel Perceptrón Multicapa

2

2

2exp

ji xx

ji xx ,tanh


Espacio de característicasInput space Features space

K


Kernels


SVM puede resolver problemas de…• Clasificación binaria• Multiclasificación• Regresión• Clustering• y … de Aprendizaje de Preferencias


SVM para Preferencias [Herbrich]

l

jijjiijiji

l

ii xxxxyyW

1,1

2121

1

)(),(21)(

)( 2

1

1i

l

iiii xxyw

l

jijjiijiji

l

ii xxxxKyyW

1,1

2121

1

),(),,(21)(

ww,

)( 0 )(, ,, 212121iiiiii xxxxwxwxw

Minimizar:

Sujeto a:

),(),(),(),(),(),,( 221221112121jijijijijjii xxkxxkxxkxxkxxxxK

Dual:


FSS en Aprendizaje de Preferencias• Kernel Lineal• Ranking de conjunto de atributos: permite

construir d subconjuntos de atributos Relieve (Kohavi, John, 97), modificación de

Relief (Kira, Rendell, 92) RFE (Recursive Feature Elimination) (Guyon et al.,02)

• Selección del mejor subconjunto: Cross-Validation ADJ (Schuurmans, 97) métrica entre modelos

dFFF ,...,21


RFE (Recursive Feature Elimination)• Backward Feature Elimination: borra un atributo por iteración• Criterio (kernel lineal): menor (wi)2

siendo wi el coeficiente del atributo i en el hiperplano inducido por SVM

• Obtiene una lista ordenada de subconjuntos de atributos


RFE (Recursive Feature Elimination)Funcion SVM-RFE(T, fs): Una lista ordenada de subconjuntos de atributos //T: Conjunto de relaciones de preferencias //fs: Conjunto de atributos |fs|=d //L: Lista ordenada de subconjuntos de atributos Fd = fs; L = [ Fd ]; //Inicialmente, un subconjunto con todos los atributos Para cada j desde d hasta 2 do w = SVM( T ); //Se entrena SVM r = //Criterio de selección

Fj-1 = Fj \ fr; //Se borra el atributo r de Fj

L = L + [Fj-1]; //Se añade el subconjunto con el resto de attr. T = {x'i : x'i is xi 0 T con fr borrado}; //Borra atributo r de T FinPara Retorna L; //L: lista ordenada de subconjunto de atributosFinFuncion

))((minarg 2i

iw


ADJ (Schuurmans)• Permite la selección entre múltiples hipótesis

ordenadas por su complejidad• Adaptable para técnicas FSS dFFF ,...,21

• Define una métrica en el espacio de hipótesis• La distancia entre dos hipótesis wFi y wFj es:

xFF

def

FF dPxwxwerrwwdjiji

)(),( ,

err(wFi(x), wFj (x)) mide las discrepancias en un punto del espacio de ejemplos


ADJ (Schuurmans)• Hipótesis seleccionada: • d’ se mide las discrepancias en las predicciones

sobre dos conjuntos T y U

WwdwiF

ik , 'minarg

ik

ik

iiFFT

FFU

ikFT

def

F wwdwwd

WwdWwADJ, ,

max, ,

Sjxwxw

def

FFSjiFjkFik

wwd,,

112S

1 ,

WwADJiTiT

Wwdii FF , , '


Resultados Experimentales• Problema real: Calificación de bovinos• Idea: morfología del animal debe servir para

evaluar la capacidad como productor de carne• Sistema:

Obtención de medidas morfológicas (técnicas de Visión Artificial)

Calificación (ordenación) por grupos de expertos Aplicación de sistemas de aprendizaje de preferencias

• Proceso costoso: la selección de atributos debe jugar un papel decisivo


Resultados Experimentales


Resultados Experimentales

Relief + CV Relief +ADJ Relief +QADJ SVM%Acie. #Atrs %Acie. #Atrs %Acie. #Atrs %Acie.

BULLS-Z-120 95,43 9,3 94,42 10,5 94,42 5,9 94,17BULLS-Z-141 95,44 12,4 94,42 13,2 94,67 8,2 94,68BULLS-L-165 95,69 20,8 95,44 18,3 95,44 14,6 94,42BULLS-L-193 96,45 25,4 95,69 25,2 95,69 22,1 94,68COWS-Z-120 93 15,2 92,43 18,3 92,43 15,2 93,19COWS-Z-141 93,19 16,3 92,8 20,7 92,8 12,2 92,81COWS-L-165 93,19 42,6 93,56 51,1 93,37 18,2 93COWS-L-193 93,37 23,3 93,56 21 92,81 9,4 93

Media 94,47 20,66 94,04 22,3 93,95 13,23 93,74


Resultados ExperimentalesRFE+CV RFE+ADJ RFE+QADJ SVM

%Acie. #Atrs %Acie. #Atrs %Acie. #Atrs %Acie.BULLS-Z-120 96,46 6,4 95,96 14,5 96,21 9,1 94,17BULLS-Z-141 96,69 3,9 96,96 6,8 96,7 6,4 94,68BULLS-L-165 96,2 4,5 95,7 24,1 95,44 6,6 94,42BULLS-L-193 96,7 5,7 95,95 10 95,95 6,2 94,68COWS-Z-120 94,14 4,9 93,57 4,2 93,57 4,2 93,19COWS-Z-141 93,95 4,2 93,19 18,7 93,57 5,4 92,81COWS-L-165 94,33 4,9 94,14 7,6 94,2 5,86 93COWS-L-193 93,56 6,5 93,18 10,2 93,18 6,3 93

Media 95,25 5,13 94,83 12,01 94,85 6,26 93,74


Resultados ExperimentalesRFE+CV RFE+ADJ RFE+QADJ SVM

%Acie. #Atrs %Acie. #Atrs %Acie. #Atrs. %Acie.A-10-0 98,15 10 96,85 12 96,85 12 83,6A-10-5 96,95 10 96,95 10 96,95 10 81,3A-10-10 80,9 57 94,45 11 94,45 11 77,15A-10-15 81,55 35 79 50 90,15 13 74,3A-10-20 79,2 39 77,65 43 77,65 43 71,9A-20-0 94,3 22 94,5 24 95 21 83,65A-20-5 95,25 22 92,95 25 92,95 25 82,55A-20-10 94,4 21 93,45 22 93,45 22 78,7A-20-15 78 63 78,55 56 78,55 56 74,1A-20-20 74,15 49 70,5 154 75 46 71,1A-30-0 91,85 38 94,5 31 94,5 31 82,45A-30-5 93,9 31 86,25 51 92,75 32 80,8A-30-10 85,4 41 80,15 92 88,45 32 77,85A-30-15 79,65 53 75,8 107 83,8 29 75,45A-30-20 73,85 63 72,85 83 73,85 22 71,1A-40-0 92,5 44 94,15 40 94,15 40 83A-40-5 86,95 44 86,95 44 86,95 44 81,35A-40-10 76 63 76,3 71 77,55 26 78,25A-40-15 77 64 76,95 73 76,95 73 75,4A-40-20 70,75 52 71,05 83 70,75 58 72,65Media 85,04 41,05 84,49 54,1 86,54 32,3 77,83


Conclusiones• El aprendizaje de preferencias resuelve

tareas en las que la regresión fracasa• Las máquinas de vectores soporte

pueden aprender preferencias• Se están desarrollando técnicas de

selección de atributos para SVM• Trabajo futuro, FSS para kernels no

lineales


Grupo de Aprendizaje AutomáticoUniversidad de Oviedo en Gijón

www.aic.uniovi.es/MLGroup

Selección de Atributosen

Aprendizaje de Preferencias(usando SVM)

grupo de aprendizaje automático universidad de oviedo en gijón aic.uniovi.es/mlgroup

Documents