inaoeemorales/cursos/aprendizaje2/acetatos/multi... · los algoritmos de aprendizaje que hemos...
Post on 19-Sep-2018
221 Views
Preview:
TRANSCRIPT
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion Clasificacion Multi-Etiqueta
Eduardo Morales
INAOE
(INAOE) 1 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Contenido
1 Introduccion
2 Transformacion
3 Adaptacion
4 Evaluacion
5 Seleccion
(INAOE) 2 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Introduccion
Clasificacion Multi-Clase
• Los algoritmos de aprendizaje que hemos visto hastaahora, inducen un modelo, usando ejemplos deentrenamiento, para predecir el valor de una clase.Dados:
D = (~xi , yi)1...N , ~xi ∈ Rd ; yi ∈ C
Encontrar:f : Rd → C
• Clasificacion binaria:
f : Rd → {−1,1}
• Clasificacion multiclase:
f : Rd → {C1, . . . ,Ck}
(INAOE) 3 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Introduccion
Clasificacion Multi-Clase
(INAOE) 4 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Introduccion
Clasificacion Multi-Etiqueta
• En clasificacion multi-etiqueta lo que queremos espredecir un conjunto de valores
• Dado:D = (~xi ,Zi)1...N , ~xi ∈ Rd ;Zi ⊆ L
• Encontrar:
f : Rd → Z ,Z ⊆ L = {1, . . . ,K}
(INAOE) 5 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Introduccion
Clasificacion Multi-Etiqueta
(INAOE) 6 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Introduccion
Algunos Ejemplos
(INAOE) 7 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Introduccion
Clasificacion Multi-Etiqueta
Existen dos enfoques generales para clasificacionmulti-etiqueta:
1 Transformacion: Transforman el problema en variosproblemas de clasificacion multiclase
2 Adaptacion: Adaptan algoritmos para lidear conconjuntos de clases
(INAOE) 8 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Transformacion
Metodos de Transformacion
• Copia: Reemplaza cada ejemplo multi-etiqueta (~xi ,Yi )en |Yi | ejemplos de una sola etiqueta
• Directamente o de forma pesada ( 1|Yi |
)
(INAOE) 9 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Transformacion
Metodos de Transformacion
• Copia seleccionada: Copia y selecciona una de lasclases
• La mas frecuente (max), menos frecuente (min), enforma aleatoria (random), ignorando los ejemplosmulti-etiqueta (ignore)
(INAOE) 10 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Transformacion
Metodos de Transformacion
• Conjunto potencia (powerset): Simple y muy usado, endonde considera cada subconjunto diferente de clasescomo una nueva clase de un nuevo problema declasificacion multi-clase
(INAOE) 11 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Transformacion
Label Powerset
• ¿Como clasificamos? Si el clasificador nos da unaprobabilidad de salida, las podemos repartir en lasclases y sumarlas
(INAOE) 12 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Transformacion
RAkEL
• Random k-label sets construye un ensemble de “LabelPowersets”, cada clasificador construido con unsubconjunto pequeno de clases
• Ventajas: Mantiene las correlaciones entre las clases ymantiene el numero de clases reducido
• De nuevo ordena las salidas de los clasificadores
(INAOE) 13 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Transformacion
Binary Relevance
• Es un metodo popular que genera n clasificadoresbinarios, uno por cada valor (i) de las clases
• Cada clasificador se entrena con todos los datosoriginales, considerando ejemplos positivos a los quetienen la clase i , y negativos el resto (j 6= i), y lo hacepara todas las clases
(INAOE) 14 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Transformacion
Ranking by Pairwise Comparison• Transforma el problema multiclase en q(q−1)
2 conjuntode clases binarias (uno para cada par de clases)
• Cada conjunto de datos contiene ejemplos de algunade las clases, pero no de las dos
• Dada una nueva instancia se corre en todos losclasificadores y se cuentan los votos recibidos paracada clase
(INAOE) 15 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Adaptacion de AlgoritmosSe han realizado adaptaciones a varios algoritmos parapoder lidear con ejemplos multi-etiquetas:• Arboles de decision (permite a las hojas tener mas de
una clase y modifica la medida de entropıa)• Boosting (Adaboost): Evalua considerando multiples
clases• Campos aleatorios de Markov: Lo modifican para
considerar co-ocurrencia de etiquetas• Redes neuronales: Adaptan back-propagation para
considerar multi-etiquetas• SVM: Generan n clasificadores binarios, sus
predicciones se usan como atributos para nuevosclasificadores binarios
• kNN: Encuentra vecinos mas cercanos tomando encuenta la frecuencia de las clases
(INAOE) 16 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Multi-Dimensional Bayesian Classifiers
• Una red de clasificacion bayesiana multi-dimensional esuna red bayesiana con una topologıa restringida
• Se pueden crear diferentes estructuras y estrategias deaprendizaje para cada sub-grafo.
(INAOE) 17 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Multi-Dimensional Bayesian Classifiers
• Tree-augmented MBCs (van der Gaag, 2006)• Poly-tree structures (de Waal, 2007; Zaragoza, 2011)• Greedy approaches for filter, wrapper and hybrid
(Bielza, 2010)• Based on Markov blanquets (Borchani, 2011)
(INAOE) 18 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Chain Classifiers• La idea de los clasificadores en cadena es por un lado
tener clasificadores simples (binarios) y considerar lasdependencias entre las clases
• Se crea una “cadena” de clasificadores, en donde losatributos de clasificadores binarios se aumentan conlas predicciones de los clasificadores anteriores en lacadena
(INAOE) 19 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Chain Classifiers
• El orden de la cadena es relevante si existendependencias entre las clases
• Como no se sabe cual debe de ser el orden se crea unensamble con muchos ordenes de clases generadosaleatoriamente
• Se usa un voto simple de las clases predichas portodos los ensambles usando un umbral
(INAOE) 20 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Bayesian Chain Classifier (BCC)1
• La idea es determinar un orden con base endependecias y limitar el numero de atributos usadospara los clasificadores en la cadena
• Pasos:1 Obtener una estructura de dependencias (red
bayesiana) para las clases2 Crear una clasificador en cadena tomando en cuenta
esta estructura (solo incorpora los padres de cada clasecomo atributos adicionales)
1J.H. Zaragoza, L.E. Sucar, E.F. Morales, C. Bielza, P. Larranaga (2011).Bayesian Chain Classifiers for Multidimensional Classification. Proc. of theInternational Joint Conference on Artificial Intelligence (IJCAI-2011), pp.2192-2197.
(INAOE) 21 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Bayesian Chain Classifier
(INAOE) 22 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Bayesian Chain Classifier
(INAOE) 23 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Jerarquicos
• A veces las clases estan organizadas en una jerarquıa• Algunos algoritmos aprovechan esa informacion
adicional (dependencias jerarquicas conocidas)• Clasificacion por:
1 Tipo de jerarquıa: (i) Arbol o (ii) DAG2 Profundidad de clasificacion: (i) mandatory leaf-node
prediction o (ii) non mandatory leaf-node prediction3 Esquema de exploracion: (i) Local o (ii) Global
(INAOE) 24 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Local o Top-Down
• El entrenamiento se puede hacer de difrentes formas:1 Clasificacion binaria en cada nodo (excepto el nodo
raız)2 Usar un clasificador multi-clase en cada nodo padre3 Usar un clasificador multi-clase por nivel4 Usar un clasificador multi-clase solo para las hojas
• Normalmente se usa el mismo clasificador en toda lajerarquıa
• Inconsistency problem: Un error en algun nivel de lajerarquıa se propaga a todos sus descendientes
• El problema es porque los clasificadores se consideranindpendientes entre sı
(INAOE) 25 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Tipos de Clasificadores
Tipos: Flat, Global, Local
(INAOE) 26 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Jerarquico (MHC)2
• Aprende un clasificador multiclase para cada nodopadre
• Con un nueva instancia usa todos los clasificadorespara predecir las clases en todos los nodos y combinalos resultados de todas los caminos
• Regresa el camino con probabilidad mas alta• Se puede decidir parar la clasificacion hasta cierto nivel
(non mandatory leaf-node prediction)
2J. Hernandez, L.E. Sucar, E.F. Morales (2014). Multidimensionalhierarchical classification. Expert Systems with Applications 41 (17):7671-7677.
(INAOE) 27 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Jerarquico (MHC)
La combinacion aquı es multiplicando, pero se puedenpensar en otras formas
(INAOE) 28 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Jerarquico (HMC)3
• Usar ideas de clasificadores multi-etiqueta• Aprovechar propiedades: Un ejemplo que pertenece a
una clase, tambien pertenence a todas sussuper-clases (y un negativo se propaga a todas sussub-clases)
• Incluir las predicciones de las clases de los padres enlos atributos de los hijos (chain classifier)
3M. Ramırez-Corona, L.E. Sucar, E.F. Morales (2016). Hierarchicalmultilabel classification based on path evaluation, International Journal ofApproximate Reasoning 68: 179-193.
(INAOE) 29 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Jerarquico (HMC)
• Usar ejemplos negativos de nodos cercanos parabalancear las clases
root
y1 y4
y2 y3 y5 y8
y6 y7 y9
Tr+(C5): instances in y6 and y7
Tr+(C5) = {∀x|x∈child(y5)}
Labels: y6 and y7 # Instances: 6
Tr-(C5): subset
of instances in y8
Tr-(C5)= {∃x|
x∈sib(y5)}
Label: "unknown"
# Instances: average(child(y5))
=(3+3)/2 = 3
Training set for C5
Tr(C5)= Tr+(C5) U Tr-(C5)
Labels: y6, y7 and
"unknown"# Instances: 9
5 inst 6 inst
11 inst 12 inst
6 inst 6 inst
3 inst 3 inst 6 inst
(INAOE) 30 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Jerarquico (HMC)
• Merging rule: considera el nivel en el arbol y prediccionde cada nodo:
level(yi) = 1 +
∑mj=1 level(pa(yi)j)
|pa(yi)|
w(yi) = 1− level(yi)
maxLevel + 1
score =
p∑i=1
w(yi) ∗ log(P(yi |xe,pa(yi)))
(INAOE) 31 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Jerarquico (HMC)
root
y1 y6
y2 y3
y4
y7 y10
y5
y8 y9
w1=0.75
P(y1=1|xe)=0.4
w6=0.75
P(y6=1|xe)=0.5
w2=0.5
P(y2=1|xe,y1)=0.3
w3=0.5
P(y3=1|xe,y1)
=0.4
w4=0.375
P(y4=1|xe,y3,y6)=0.7
w5=0.125
P(y5=1|xe,y4)=0.5
w8=0.25
P(y8=1|xe,y7)=0.1
w9=0.25
P(y9=1|xe,y7)=0.5
w7=0.5
P(y7=1|xe,y6)
=0.4
w10=0.5
P(y10=1|xe,y6)=0.2
(INAOE) 32 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Adaptacion
Jerarquico (HMC)
root
y1 y6
y2 y3
y4
y7 y10
y5
y8 y9
0.75*log(0.4) 0.75*log(0.5)
0.5*log(0.3) 0.5*log(0.4)
0.375*log(0.7)
=
-0.819
0.25*log(0.1) 0.25*log(0.5)
0.5*log(0.4) 0.5*log(0.2)
0.125*log(0.5)
=
-0.560
=
-0.675
=
-0.5
=
-0.575
+ +
+
+
++
+ +
+
(INAOE) 33 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Evaluacion
Medidas de EvaluacionPara los clasificadores multi-etiqueta se han propuestodiferentes medidas de evaluacion:• Mean accuracy (por clase para d clases):
overlineAccd =1d
d∑j=1
Accj =1d
d∑j=1
1N
N∑i=1
δ(c′ij , cij)
donde δ(c′ij , cij) = 1 si c′ij = cij and 0 en otro caso• Global accuracy (por ejemplo):
Acc =1N
N∑i=1
δ(c′i,ci)
donde ci es el vector d-dimensional de las clases yδ(c′i,ci) = 1 si c′i = ci y 0 en otro caso
(INAOE) 34 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Evaluacion
Medidas de Evaluacion
• Multilabel accuracy (tambien llamado de Jaccard):
ML-Acc =1N
N∑i=1
|ci ∧ c′i ||ci ∨ c′i |
• F-measure:
F-measure =1d
d∑j=1
2pj rj
(pj + rj)
(INAOE) 35 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Evaluacion
Medidas de Evaluacion Jerarquicas• Exact-Match:
ExactMatch =1N
N∑i=1
1Yi=Yi
• Accuracy:
Accuracy =1N
N∑i=1
∣∣∣Yi ∩ Yi
∣∣∣∣∣∣Yi ∪ Yi
∣∣∣• Hamming-Loss and Hamming-Accuracy:
HammingLoss =1
N|L|
N∑i=1
∣∣∣Yi ⊕ Yi
∣∣∣donde ⊕ es or exclusivoHamming accuracy (H-Accuracy) se define como:H − Accuracy = 1− HammingLoss.
(INAOE) 36 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Evaluacion
Medidas de Evaluacion Jerarquicas
• F1-measure: Para multi-etiqueta, refiniendo precision yrecuerdo
F1 =2× precision × recall
precision + recall
Donde: Precision: |zi∧zi ||zi |
y Recall: |zi∧zi ||zi |
• F1-macro D: mide el desempeno promedio por instancia
F1macro D =1N
N∑i=0
F1(zi , zi)
• F1-macro L: mide el desempeno promedio por clase
F1macro L =1|L|
|L|∑i=0
F1(zi , zi)
(INAOE) 37 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Evaluacion
Medidas de Evaluacion Jerarquicas
• Gain-Loose Balance: premia nodes bien clasificados ycastiga los mal, considerando el numero de hermanos yla profundidad en la jerarquıa
GLB =
∑npi=0(1−
1Ni)(1− wi)∑nt
i=0(1−1Ni)(1− wi)
−
nfp∑i=0
1Ni
wi +
nfn∑i=0
1Ni
wi
Conocimiento el posible valor maximo y mınimo sepuede normalizar:
NGLB =(GLB −min)max −min
(INAOE) 38 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Seleccion
Seleccion de Atributos
• A partir de los atributos originales selecciona unsubconjunto de estos
• La meta es seleccionar el subconjunto S mas pequenode todos los atributos F , tal que P(C|S) ≈ P(C|F )
• Ventajas esperadas:1 Mejorar el desempeno predictivo2 Construir modelos mas eficientemente3 Mejorar entendimiento sobre los modelos generados
(INAOE) 39 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Seleccion
Seleccion de Atributos
En general, los algoritmos de seleccion de atributos sedistinguen por su forma de evaluar atributos y los podemosclasificar en tres:
1 Filtros (filters): seleccionan/evaluan los atributos enforma independiente del algoritmo de aprendizaje
2 Wrappers: usan el desempeno de algun clasificadorpara determinar lo deseable de un subconjunto
3 Hıbridos: usan una combinacion de los dos criterios deevaluacion en diferentes etapas del proceso debusqueda.
(INAOE) 40 / 42
Introduccion
Transformacion
Adaptacion
Evaluacion
Seleccion
Seleccion
Seleccion de Atributos en ProblemasMulti-Etiqueta
• Filter: Transforman el problema en uno o mas de unasola clase y se usa algun algoritmo de seleccion deatributos tipo filtro. Despues se sigue algun esquemade “agregacion”
• Wrapper: se pueden aplicar directamente con algunalgoritmo de clasificacion multi-etiqueta
• Tambien se han propuesto variantes de algoritmos deextraccion de atributos como LDA
(INAOE) 41 / 42
top related