inaoe - ciencias computacionales - transfer learningemorales/cursos/aprendizaje2/... · 2017. 6....

Post on 05-Oct-2020

2 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer Learning

Eduardo Morales

INAOE

(INAOE) 1 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Contenido

1 Introduccion

2 Transfer en Aprendizaje por Refuerzo

3 Tranfer en Redes Bayesianas

4 Tranfer en Arboles de Descision

5 Temas relacionados y preguntas abiertas

(INAOE) 2 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Antecedentes

• Los algoritmos de aprendizaje han logrado avancesmuy importantes en los ultimos anos

• En general suponen que los ejemplos de entrenamientoy prueba tienen los mismos atributos y provienen de lamisma distribucion

• Si la distribucion cambia, normalmente se tienen quereconstruir los modelos

• En algunas aplicaciones es muy caro o no se puedenrecolectar los ejemplos de entrenamiento parareconstruir un modelo

• Aprendizaje por transferencia o transfer learning puedeayudar en tales casos

(INAOE) 3 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Transfer Learning

• TL puede servir cuando los datos:• Son escasos• Estan desactualizados

• TL permite que los dominios, tareas y distribucionessean diferentes en los ejemplos de entrenamiento yprueba

(INAOE) 4 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Transfer Learning

• Definicion: Dado un dominio (Df ) y tarea (Tf ) fuentes,un dominio (Do) y tarea (To) objetivos, aprendizaje portransferencia busca mejorar el aprendizaje de la funcionobjetivo usando conocimiento en Df y Tf

• Cuando las tareas son diferentes entonces losdominios de las clases son diferentes

(INAOE) 5 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Transfer Learning

• En TL se consideran tres aspectos fundamentales:• ¿Que transferir?• ¿Como transferir?• ¿Cuando transferir?

• El transferir conocimiento no siempre es util y puededanar el desempeno de los algoritmos (negativetransfer)

(INAOE) 6 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Algoritmos

Podemos catalogar a los algoritmos de TL en tres:• Inductive transfer learning: la tarea fuente y objetivo son

diferentes: (i) se tienen muchos datos del dominiofuente, (ii) no se tienen datos del dominio fuente

• Transductive transfer learning: las tareas de la fuente yobjetivo son las mismas, pero los dominios sondiferentes: (i) los espacios de atributos son diferentesen la fuente y en el objetivo, (ii) los atributos son igualespero las probabilidades marginales son diferentes(P(Xf ) 6= P(Xo))

• Unsupervised transfer learning: no se tienen datosetiquetados en ningun caso, las tareas son diferentespero de alguna forma relacionadas

(INAOE) 7 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Algoritmos

(INAOE) 8 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Inductive Transfer Learning

Opciones de conocimiento a transferir:• Transferir instancias: en este caso los espacios de

atributos son iguales, aunque no necesariamente todoslos ejemplos son utiles

• Transferir la representacion de los atributos: aprenderuna representacion de baja dimensionalidad que sepueda compartir entre tareas

• Transferir parametros: ya sean parametros odistribuciones de los algoritmos de aprendizajeutilizados

• Transferir conocimiento relacional: relacionesequivalentes entre dominios

(INAOE) 9 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Transductive Transfer Learning

• En transductive learning todos los ejemplos(entrenamiento y prueba) se conocen de entrada y entransductive transfer learning se conocen algunosejemplos no etiquetados de la tarea objetivo

• Se pueden transferir:• Instancias: usan muestreos (importance sampling)• Transferir la representacion de los atributos

(INAOE) 10 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Unsupervised Transfer Learning

• No se tienen etiquetas en los ejemplos fuente y objetivo• Se pueden transferir representaciones de atributos,

e.g., Self-taught clustering: clustering de una pequenacoleccion de datos sin etiquetas usando una grancantidad de datos no etiquetados de la fuente

(INAOE) 11 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Transferencia Negativa

• Ocurre cuando el dominio y tarea fuentes reducen eldesempeno del aprendizaje en la tarea objetivo

• ¿Que falta?:• ¿Como evitar transferencia negativa?• Estudiar “transferibilidad” entre dominios fuente y

objetivo• ¿Se puede transferir parte del dominio?• Transferir entre dominios y tareas multiples con

diferentes atributos (heterogeneous transfer learning)• Escalarlo a aplicaciones mas grandes

(INAOE) 12 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Introduccion

Transfer Learning

• En esta clase solo vamos a ver algunos aspectos deInductive Transfer Learning

• Nos vamos a enfocar en transferencia en tres areas:• Aprendizaje por Refuerzo• Redes Bayesianas• Arboles de decision

(INAOE) 13 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Transfer en Aprendizaje por Refuerzo

RL:• No requiere de un modelo del ambiente• El agente aprende solo• Converge a la polıtica optima

Pero:• El aprendizaje es lento• Pocos desarrollos en ambientes complejos con

variables continuas• No se pueden reutilizar polıticas

(INAOE) 14 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Transfer en Aprendizaje por Refuerzo

• En Aprendizaje por Refuerzo (RL), TL se usa para usarconocimiento de una o mas tareas fuente paraaprender una o mas tareas objetivo

• Los pasos a seguir son:• Dada una tarea objetivo, seleccionar la(s) tarea(s)

fuente(s) de las cuales se va a transferir• Aprender como se relacionan las tareas fuente y

objetivo• Transferir de forma efectiva conocimiento de la(s)

fuente(s) a la(s) tarea(s) objetivo

(INAOE) 15 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Metricas de Desempeno

Se pueden usar diferentes metricas para evaluar losbeneficios de TL:• Jumpstart: El desempeno inicial de un agente en la

tarea objetivo• Desempeno asintotico: El desempeno final del agente

en la tarea objetivo• Recompensa total: La recompensa total acumulaa• Razon de transferencia: La division entre la

recompensa total acumulada con y sin transferencia• Tiempo para alcanzar el umbral: El tiempo requerido

para alcanzar un nivel de desempeno pre-establecido

(INAOE) 16 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Efectos de TL en RL

(INAOE) 17 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Seleccion de Diferentes Fuentes

• ¿Que suposiciones se hacen en cuanto a las posiblesdiferencias entre el fuente y el objetivo?

• ¿Como garantizar no transferir de tareas irrelevantes?• ¿Se hace seleccion de diferentes fuentes?• ¿Se hace un mapeo entre tareas? Esta dado o es

automatico? (Inter-task mapping• ¿Se puede transferir informacion cualitativa?• En general, en la mayorıa de los algoritmos el mapeo lo

da el usuario!

(INAOE) 18 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Conocimiento a Transferir

• Puede ser conocimiento de bajo nivel, e.g., tuplas< s,a, r , s′ >, funciones de valor (V ,Q), la polıtica (π),el modelo de transicion (p(s′ | s,a))

• Pueden ser de mas alto nivel, e.g., que acciones usaren determinado momento, polıticas parciales uopciones, distribuciones a priori, atributos relevantespara aprender, reward shaping, definicion de subtareas

• ¿Que algoritmos se pueden usar?

(INAOE) 19 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Conocimiento a Transferir

• Se puede transferir entre tareas que tengan diferentes:funciones de transicion (p(s′ | s,a)), espacio deestados (S), estados iniciales (s0), estados metas (sf ),variables de estado (S), funciones de recompensa (R),conjuntos de acciones (A), ...

• Relacionado: Multi-Task Learning suponen que todoslos problemas son de la misma distribucion, e.g.,aprender varios pendulos invertidos.

(INAOE) 20 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Aplicaciones

Vamos a describir aplicaciones en donde:• Transferimos (hiper-)parametros• Transferimos tuplas transformadas

En un contexto de Procesos Gaussianos

(INAOE) 21 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Procesos Gaussianos

• Distribucion Gaussiana multivariada

p(x ;µ,Σ) =1

(2π)n/2|Σ|1/2 exp(−12

(x − µ)T Σ−1(x − µ))

• Un proceso gaussiano es una generalizacion a unnumero infinito de variables: GP(m(·), k(·, ·))

(INAOE) 22 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Motivacion

Aunque parece peor trabajar con dimensionalidad infinita, loque se calcula se hace en dimensiones finitas

(INAOE) 23 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Procesos Gaussianos

• En particular, se debe cumplir que:

p

([~h~h∗

]|X ,X∗

)∼ N

(~0,[

k(X ,X ) k(X ,X∗)k(X∗,X ) k(X∗,X∗)

])• Para el ruido:

p([

~ε~ε∗

])∼ N

(~0,

[σ2I ~0~0T σ2I

])

(INAOE) 24 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Procesos Gaussianos

• Suponemos que son independientes, por lo que susuma tambien lo es:[

~y~y∗

]|X ,X∗ =

[~h~h∗

]+

[~ε~ε∗

]∼

N(~0,[

k(X ,X ) + σ2I k(X ,X∗)k(X∗,X ) k(X∗,X∗) + σ2I

])

(INAOE) 25 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Procesos Gaussianos

• Usando las reglas de condicionamiento gaussianas, sesigue que:

~y∗|~y ,X ,X∗ ∼ N (µ∗,Σ∗)

donde:

µ∗ = K (X∗,X )(K (X ,X ) + σ2I)−1~y

Σ∗ = K (X∗,X∗)+σ2I−K (X∗,X )(K (X ,X )+σ2I)−1K (X ,X∗)

(INAOE) 26 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Kernel e Hiperparametros

k(x , x ′) = α20exp(−1

2(

(x − x ′

λ)2)

(INAOE) 27 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Calculo de los Hiperparametros

• Recordando la definicion de una distribucion gaussianamultivariable:

p(x |µ,Σ) =1

(2π)n/2|Σ|1/2 exp(−12

(x − µ)T Σ−1(x − µ))

• P(y |x , θ) sigue una distribucion gaussiana multivariablecon media cero y covarianza de K + σ2

nI (siconsideramos ruido)

logp(y |x , θ) = −12

yT (K + σ2nI)−1y − 1

2log|K + σ2

nI| − n2

log2π

(INAOE) 28 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Hiperparametros

• Los hiperparametros nos determinan las posiblesdistribuciones

• Para obtener los hiperparametros podemos derivar conrespecto a θ

• Se sigue un proceso basado en gradiente (es unproblema de optimizacion no-convexo), por ejemplo,basado en gradiente conjugado o quasi-Newton

• Se puede caer en mınimos locales

(INAOE) 29 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

PILCO

• PILCO (Probabilistic Inference for Learning Control)• xt = f (xt−i ,ut−i)

• P(xt |xt−i ,ut−i) = GP(m, k)

• PILCO usa diferencias como predictor: ∆t = xt − xt−i yun kernel exponencial cuadrado

(INAOE) 30 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

PILCO

Interact with environment, apply π to obtain tuplesREPEAT

Infer transition function distribution f fromtuples and hyper-parameters θ

REPEATEvaluate policy π over fGet Vπ

Improve π (Updating parameters ψ)UNTIL convergenceπ ← π(ψ)Interact with environment, apply π to obtain more tuplesLearn θpi from all tuples

UNTIL task learned

(INAOE) 31 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Motivacion

VIDEO DE PILCO

(INAOE) 32 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

QTL• La idea es transferir hiperparametros (sesgo sobre la

distribucion de posibles funciones de transicion)• Hay que definir como hacer la transferencia• Esta se hace de forma gradual:

• Usando un factor de olvido

Θ0 = Θs

Θi = γΘi−i + (1− γ)Θpi , i > 0

• Actualizacion Bayesiana

p(Θpk ) ∼ N (µp, σ2p) σ2

k =σ2

pσ2k−i

σ2p+σ2

k+1

p(Θ | Θpk ) ∼ N (µk , σ2k ) σ2

k=0 = 1nsource

µk = σ2k

(µk−1

σ2k−1

+µp

σ2p

)σ2

p = 1ntarget

(INAOE) 33 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Transferir Tuplas

• Al transferir tuplas se tiene que definir cuales• Filtro de Lazaric:

• ¿De donde transferir? La probabilidad de que la tareaorigen genere muestras de la tarea destino (taskcompliance)

• ¿Cuales transferir? Muestras muy relevantes o muyalejadas (relevance)

(INAOE) 34 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

SST

Sıntesis de Tuplas:• Aprender una funcion de transicion en la tarea objetivo• Aprender/usar la funcion de transicion de la tarea

original• Aprender una funcion de diferencias• En espacios poco explorados, generar ejemplos

artificiales usando los ejemplos de la tarea original y lafuncion de diferencias

(INAOE) 35 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Donde y Cuantas Tuplas

• En lugares desconocidos (alejados en < s,a >): Si yatengo ejemplos, no necesito generar

• Generar hasta completar el numero de ejemplosusados en la tarea original

• Mantener ese numero fijo => ir reduciendo el numerode ejemplos de la tarea original conforme se explora latarea objetivo

(INAOE) 36 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Proceso

(INAOE) 37 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Proceso

(INAOE) 38 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Proceso

(INAOE) 39 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Proceso

(INAOE) 40 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Experimentos

Probar en 3 dominios:

1 Pendulo invertido(clasico)

2 Auto en la montana(tranferencianegativa)

3 De cuadricoptero ahelicoptero

(INAOE) 41 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Experimentos QTL

Probar:• Transferencia desde diferentes variantes• Usar hiperparametros de la tarea original• Usar la polıtica de la tarea original• Diferentes valores de γ (γ = 0 => PILCO)• Enfoque Bayesiano

(INAOE) 42 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Resultados

(INAOE) 43 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Resultados

(INAOE) 44 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Resultados

(INAOE) 45 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Experimentos SST

• PILCO• Transferir todas la tuplas• Transferir usando un filtro simple• Transferir usando el filtro de Lazaric• Todas las tuples + SST• Filtro simple + SST• Filtro Lazaric + SST

(INAOE) 46 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Resultados SST

(INAOE) 47 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Resultados SST

(INAOE) 48 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Resultados SST

(INAOE) 49 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Transfer en Aprendizaje por Refuerzo

Helicoptero a Cuadroptero

VIDEO

(INAOE) 50 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Transfer en Redes Bayesianas

• Las Redes Bayesianas han probado ser un formalismoadecuado para tratar informacion con incertidumbre

• Para aprender una Red Bayesiana necesitamosdeterminar la estructura de la red y las tablas dedependencia condicional

• Con pocos datos lo que se aprende es poco confiable• Vamos a ver un mecanimo de transferencia usando

como base el algorithm PC

(INAOE) 51 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Transfer en Redes Bayesianas

• PC aprende un esqueleto (grafo no dirigido) y despuesdetermina la direccion de las ligas

• Para determinar el esqueleto empieza con una red nodirigida completamente conectada y determina laindependencia condicional de cada par de variablesdados subconjuntos de variables

• TL en BNs: Algoritmo para aprendizaje de redbayesiana incorporando informacion de bases de datosauxiliares

(INAOE) 52 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

TL en BN

• Extension del algoritmo PC, para el caso en dondetenemos pocos datos para la tarea objetivo y tenemosmuchos datos de tareas fuentes

• Las diferencias con PC son en la forma en que seevaluan las pruebas de independencia

• Para cada par de variables X,Y la medida deindependiencia es una combinacion lineal de laestimacion de la tarea objetivo con la tarea del dominioauxiliar mas cercana

• La combinacion lineal es pesada por factores quedeterminan una medida de confianza

(INAOE) 53 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Algoritmo

Initialize a complete undirected graph G′, Set i = 0repeat

for X ∈ X dofor Y ∈ ADJ(X ) do

for S ⊆ ADJ(X )− {Y}, | S |= i doFind the most similar auxiliary domain, k , and its similaritymeasure SkXY

Determine the confidence measures α(X ,Y |S) for targetand auxiliary domainsObtain the combined independence measure IF (X ,Y | S)if IF (X ,Y | S) then

Remove the edge X − Y from G′

end ifend for

end forend fori=i + 1

until | ADJ(X ) |≤ i , ∀XOrient edges in G′

(INAOE) 54 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

TL en BN

• La medida de entropıa cruzada utilizada en PCdepende del tamano de la base de datos

• Se puede mostrar que el error de esta prueba esproporcionalmente asintotico a log N

2N , donde N es eltamano de la base de datos

• Para estimar la confianza en la prueba deindependencia entre X y Y , dado S:

α(X ,Y |S) = 1− log N2N

× T

donde T =| X | × | Y | × | S |

(INAOE) 55 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Similitud entre Tareas

• Para medir la similaridad entre tareas se usa unamedida de similaridad global y una local

• La medida global considera todas las medidas deindependencia condicional I(X ,Y | S)

SgDj = depj + indj

• depj = numero de dependencias condicionalescomunes entre la tarea objetivo y la tarea auxiliar j

• indj = numero de independencias condicionalescomunes entre todos los pares de variables en la tareaobjetivo y la tarea auxiliar j

(INAOE) 56 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Similitud entre Tareas

• La medida local de similaridad es:

SlDj(X ,Y ) =

{1,0 If I0(X ,Y |S) = IDj(X ,Y |S)0,5 If I0(X ,Y |S) 6= IDj(X ,Y |S)

Donde:• I0(X ,Y |S) = resultado de la prueba de independencia

en la tarea objetivo• IDj (X ,Y |S) = resultado de la prueba en la tarea auxiliar j

• Las constantes dan diferente peso a las estructurasauxiliares que tienen la misma o diferente estructuralocal

(INAOE) 57 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Similitud entre Tareas• Se combinan estas dos medidas como:

Sk∗XY = SgDk × SlDk (X ,Y )

• Y la medida combinada de independencia se calculacomo una combinacion lineal pesada de las medidasde independencia de las tareas objetivo y fuentes:

IF (X ,Y |S) = α0(X ,Y |S)× sgn(I0(X ,Y |S))+

Sk∗XY(αDXY (X ,Y |S)× sgn(IDXY (X ,Y |S))

)• sgn(I) = +1 si la prueba de independencia es positiva y−1 de otra forma

• α0(X ,Y |S) es la medida de confianza en el dominioobjetivo

• αDXY (X ,Y |S) es la medida de confianza en la tareaauxiliar mas similar para {X ,Y} condicionado en S

(INAOE) 58 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Aprendizaje de Parametros

• Combinar las CPTs (tablas de probabilidad condicional)• Unificar variables:

• Mismas variables: facil• Mas padres en las estructuras auxiliares: aplicar

marginalizacion (sumar sobre todos los valores de lasvariables extra)

• Menos padres en las estructuras auxiliares: duplicar losvalores de las CPTs para todos los valores de lasvariables extra

• Una combinacion de las 2 anteriores: primeromarginalizar y luego duplicar

(INAOE) 59 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Tablas de Probabilidad Condicional

Ya que se tienen las mismas variables existen varias formasde combinar los valores de las CPTs:• Lineal:

P(X ) = k ×n∑

i=1

wiPi(X )

Pi(X ) probabilidad condicional del i-esimo modelo, wies el peso asociado esa probabilidad y k es un factorde normalizacion

• Logarıtmica.

P(X ) = k ×n∏

i=1

Pi(X )wi

(INAOE) 60 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Distance Based Linear Pool

• Obten las probabilidades promedio de todas las BDsdescontadas por su nivel de confianza (fi ):

p = kn∑

i=1

(fi × pi)

k es un factor de normalizacion, y fi depende deltamano de los datos

fi =

{1− log(cf )

cfif cf ≥ 3

1− cf×log(3)3 if cf < 3

donde cf = NT×2 , donde N es el numero de datos y T el

numero de casos en la CPT

(INAOE) 61 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Distance Based Linear Pool

• Estima la nueva probabilidad condicional como:

p′target = (1− ci)ptarget + cip

donde: ci expresa cuanto considerar de las CPT deotras redes

ci = (di − dmin)×(

cmax − cmin

dmax − dmin

)+ cmin

donde dmax y dmin es la distancia maxima y mınima dela probabilidad objetivo con respecto al promedio y cmaxy cmin indica que tan cerca queremos considerar lainfluencia de otras CPT

(INAOE) 62 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Local Linear Pool

• Usa solo las mas parecidas a las locales y las pesa deacuerdo a su confianza

p′target = ftarget × ptarget + (1− ftarget )× plocal

donde ftarget da el nivel de confianza en las CPTs (fi deantes) y

plocal =1n

n∑i=1

pi ∀pi s.t. pi ∈ {ptarget ± (ptarget − p)}

(INAOE) 63 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Resultados cambiando la cantidad dedatos

(INAOE) 64 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Resultados cambiando datos y numero defuentes

(INAOE) 65 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

TL en Redes Bayesianas de NodosTemporales

• Una red bayesiana de nodos temporales sirve paramodelar procesos dinamicos que estan caracterizadospor cambios irreversibles

Dominio auxiliar

Dominio auxiliar

Dominio auxiliar

Dominio objetivo

(INAOE) 66 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Esquema General

(INAOE) 67 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Determinacion de Intervalos

(INAOE) 68 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Redes Bayesianas

Resultados en HIV

(INAOE) 69 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Arboles de Descision

Transferencia Usando Aboles de Decision

• Se tienen datos relacionados a estres y sus modelos(arboles) para varios personas

• Se tiene un usuario nuevo, con pocos datos, y se quieredar una estimacion aceptable de su nivel de estres

• Idea: Transferir datos/modelos de otros usuarios paramejorar la prediccion del nuevo

(INAOE) 70 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Arboles de Descision

Transferencia Usando Aboles de Decision

Se probaron 4 esquemas de transferencia:1 Naıve: Encuentra el modelo mas parecido, transfiere

los datos (los junta con los del nuevo usuario) e induceun nuevo arbol

2 Umbral: Encuentra los modelos mas parecidos (arribade cierto umbral), transfiere los datos de los usuariosparecidos e induce un nuevo arbol

3 Muestreo: Encuentra los k modelos mas parecidos ymuestrea sus datos proporcionalmente a su medida desimilaridad

4 Ensamble: Usa los k modelos mas parecidos, junto conel modelo del usuario y construye un ensamble pesadopor la similaridad

(INAOE) 71 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Arboles de Descision

Medidad de Similaridad entre Arboles

• Sean Di y Dj dos arboles con H y K hojas queclasifican n ejemplos.

• Formamos la matriz:M = [mhk ], h = 1, . . . ,H y k = 1, . . . ,K donde mhk es elnumero de ejemplos que pertenencen a la h-esima hojade Di y a la k -esima hoja de Dj ymh0 =

∑Kk=1 mhk ,

m0k =∑H

h=1 mhk .• La medida se disimilatidad se define como:

d(Di ,Dj) =H∑

h=1

αh(1− sh)mh0

n+

K∑k=1

αk (1− sk )m0k

n

donde las m miden la similaridad predictiva y las α y smiden la similaridad estructural

(INAOE) 72 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Arboles de Descision

Medidad de Similaridad entre Arboles

• shk mide la similaridad entre hojas tomando en cuentalas clases y ejemplos:

shk =mhkchk√mh0m0k

k = 1, . . . ,K

donde chk = 1 si la h-esima hoja de Di tiene la mismaclase que la k -esima hoja de Dj , y chk = 0 si no.

• sh = max{shk , k = 1, . . . ,K}

(INAOE) 73 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Arboles de Descision

Medidad de Similaridad entre Arboles• αh = q − p + 1 mide la disimilaridad entre hojas,

dependiendo de la longitud de los caminos diferentes(p), y la profundidad en donde difieren (q)

• El valor maximo de d(Di ,Dj) se alcanza cuando ladiferencia entre los arboles es maxima y su similaridadde prediccion es cero

• El factor de normalizacion es:

max d(Di ,Dj) =H∑

h=1

αhmh0

n+

K∑k=1

αkm0k

n

donde αh es la longitud del nodo raız a la h-esima hoja• La medida de disimilaridad normalizada es entonces:

dn =d(Di ,Dj)

max d(Di ,Dj)

(INAOE) 74 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Tranfer en Arboles de Descision

Resultados

(INAOE) 75 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Temas relacionados y preguntas abiertas

Algunas Tecnicas Relacionadas

• Lifelong learning• Imitation learing• Human advice• Shaping• Concept Drift

(INAOE) 76 / 77

Introduccion

Transfer enAprendizajepor Refuerzo

Tranfer enRedesBayesianas

Tranfer enArboles deDescision

Temasrelacionados ypreguntasabiertas

Temas relacionados y preguntas abiertas

Preguntas Abiertas

• Si se tiene un modelo de una tarea fuente, ¿comomodificarlo para la tarea objetivo?

• ¿Se pueden modificar las tareas fuentesautomaticamente para mejorar el aprendizaje?

• ¿Se pueden tomar ideas de theoryrevision/refinementpara hacer un mapeo entre tareas?

• ¿La transferencia se podrıa utilizar para mejorar elmecanismo de exploracion del agente en la tareaobjetivo?

• Transferencia negativa: No hay trabajo que defina deforma confiable cuando una transferencia va a sernegativa

(INAOE) 77 / 77

top related