aprendizaje basado en instanciashugojair/courses/ml2019/5_ibl.pdf · basado en casos introduccion´...

92
Introducci ´ on Vecinos m´ as cercanos Clasificaci ´ on basada en prototipos Regresi ´ on pesada localmente Funciones de Distancia Funciones de pesos o Kernels Pocos datos y otras conside- raciones Funciones de bases radiales Razonamiento Basado en Casos Aprendizaje Basado en Instancias Hugo Jair Escalante 1,2,3 , Eduardo Morales 1 1 INAOE, 2 CINVESTAV, M´ exico 3 ChaLearn, USA [email protected] https://ccc.inaoep.mx/ ~ hugojair/ 1 / 92

Upload: others

Post on 04-Aug-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Aprendizaje Basado en Instancias

Hugo Jair Escalante1,2,3, Eduardo Morales1

1INAOE, 2CINVESTAV, Mexico3ChaLearn, USA

[email protected]://ccc.inaoep.mx/~hugojair/

1 / 92

Page 2: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Contenido

1 Introduccion

2 Vecinos mas cercanos

3 Clasificacion basada en prototipos

4 Regresion pesada localmente

5 Funciones de Distancia

6 Funciones de pesos o Kernels

7 Pocos datos y otras consideraciones

8 Funciones de bases radiales

9 Razonamiento Basado en Casos

2 / 92

Page 3: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Introduccion

Introduccion

Aprendizaje basado en Instancias• En este tipo de aprendizaje, se almacenan los ejemplos

de entrenamiento y cuando se quiere clasificar unnuevo objeto, se extraen los objetos mas parecidos y seusa su clasificacion para clasificar al nuevo objeto.

3 / 92

Page 4: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Introduccion

Introduccion

Figura: Aprendizaje basado en Instancias.

4 / 92

Page 5: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Introduccion

Introduccion

• Contrario a los otros esquemas vistos, el proceso deaprendizaje es trivial y el de clasificacion es el queconsume el mayor tiempo.• Este tipo de aprendizaje tambien se conoce como lazy

learning o memory-based learning donde los datos deentrenamiento se procesan solo hasta que se requiere(cuando se requiere constestar alguna pregunta), y larelevancia de los datos se mide en funcion de unamedida de distancia.

5 / 92

Page 6: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Introduccion

Introduccion

Principales variantes:• K-Vecinos mas cercanos.• Clasificacion basada en prototipos.• Regresion pesada localmente.• Funciones de base radial.• Aprendizaje basado en casos.

6 / 92

Page 7: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos

• El algoritmo de k-NN (k-nearest neighbours) es el massimple.• El algoritmo es robusto con ejemplos que tienen ruido.• Idea: clasificar una instancia de acuerdo a las clases

de las k−instancias de entrenamiento mas similares.

7 / 92

Page 8: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos

Figura: Vecinos mas cercanos.

8 / 92

Page 9: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos

Figura: Vecinos mas cercanos, k = 1.

9 / 92

Page 10: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos

Figura: Vecinos mas cercanos, k = 3.

10 / 92

Page 11: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos

Figura: Vecinos mas cercanos, k = 8.

11 / 92

Page 12: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos

• Los vecinos mas cercanos a una instancia se obtienen,en caso de atributos continuos, utilizando la distanciaEuclideana sobre los n posibles atributos (luegoveremos otro tipo de distancias):

d(xi , xj) =

√√√√ n∑r=1

(ar (xi)− ar (xj))2

• El resultado de la clasificacion de k-NN puede serdiscreto (clasificacion) o continuo (regresion).

12 / 92

Page 13: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanosEn el caso discreto, el resultado de la clasificacion es laclase mas comun de los k-vecinos (ver tabla 1).

Cuadro: El algoritmo de los k vecinos mas cercanos.

Entrenamiento:almacena todos los ejemplos de entrenamiento (x , f (x))

Clasificacion:Dada una instancia xq :

Sean x1, . . . , xk los k vecinos mas cercanos a xq .Entonces:

f (xq) = argmaxv∈V

k∑i=1

δ(v , f (xi ))

donde: δ(a,b) = 1 si a = b y 0 en caso contrario.

13 / 92

Page 14: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos

Para clasificaciones continuas, se puede tomar la media delas clasificaciones.

f (xq) =

∑ki=1 f (xi)

k

14 / 92

Page 15: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos ponderados• Un extension obvia al algoritmo es pesar las clasificaciones

de los vecinos de acuerdo a su distancia con el objeto aclasificar (la clasificacion de vecinos mas cercanos tienenmas peso).

Figura: k−NN Ponderado.

15 / 92

Page 16: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos ponderados• Un extension obvia al algoritmo es pesar las clasificaciones

de los vecinos de acuerdo a su distancia con el objeto aclasificar (la clasificacion de vecinos mas cercanos tienenmas peso).

Figura: k−NN Ponderado.

16 / 92

Page 17: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos ponderados

Promedio ponderado (weigthed average) promedia la salidade los puntos pesados inversamente por su distancia.

• Para clases discretas:

f (xq) = argmaxv∈V

k∑i=1

wiδ(v , f (xi))

donde: wi = 1d(xq ,xi )2 (si la distancia es 0 entonces

w = 0).• Para clase continuas:

f (xq) =

∑ki=1 wi f (xi)∑k

i=1 wi

17 / 92

Page 18: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Por que funciona?

• Para un conjunto de datos suficientemente grande (mmuestras), la tasa de error del clasificador 1NN esmenos que el doble de la tasa de error de Bayes• Si k → ınf y k/m→ 0, entonces el error de 1NN

converge la tasa de error de Bayes conforme m→ ınfT. Cover, P. Hart. Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13(1), 1967

18 / 92

Page 19: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanosLa forma que se genera con k = 1 es un diagrama deVoronoi alrededor de las instancias almacenadas. A unanueva instancia se le asigna la clasificacion del vecino mascercano.

Figura: Diagrama de Voronoi 1-NN.

19 / 92

Page 20: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanosAlternativamente, se puede obtener una superficie dedecision.

Figura: Superficie de clasificacion inducida por 1-NN.

20 / 92

Page 21: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos y el valor de k

• Que pasa cuando k es grande?• Que pasa cuando k cercano a 1?

21 / 92

Page 22: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos y el valor de k

Superficie de decision k−NN.

Figura: Superficie de clasificacion inducida por 1-NN.

22 / 92

Page 23: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos y el valor de k

Superficie de decision k−NN.

Figura: Superficie de clasificacion inducida por 3-NN.

23 / 92

Page 24: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos y el valor de k

Superficie de decision k−NN.

Figura: Superficie de clasificacion inducida por 5-NN.

24 / 92

Page 25: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos y el valor de k

Superficie de decision k−NN.

Figura: Superficie de clasificacion inducida por 7-NN.

25 / 92

Page 26: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos y el valor de k

Superficie de decision k−NN.

Figura: Superficie de clasificacion inducida por 15-NN.

26 / 92

Page 27: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos y el valor de k

Superficie de decision k−NN.

Figura: Superficie de clasificacion inducida por 25-NN.

27 / 92

Page 28: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos: limitantes

• Problema. Como elegir el valor de k?• Solucion. Selecion de modelo.

28 / 92

Page 29: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos: limitantes

• k−NN asume que los vecinos mas cercanos nos dan lamejor clasificacion y esto se hace utilizando todos losatributos.• Problema. es posible que se tengan muchos atributos

irrelevantes que dominen sobre la clasificacion (e.g., 2atributos relevantes dentro de 20 irrelevantes nopintan).

29 / 92

Page 30: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos: limitantes

Soluciones:

1 Una posibilidad es pesar las distancias de cada atributo,dandole mas peso a los atributos mas relevantes.

2 Otra posibilidad es tratar de determinar estos pesoscon ejemplos conocidos de entrenamiento. Alterandolos pesos para minimizar el error.

3 Finalmente, tambien se pueden eliminar los atributosque se consideran irrelevantes.

30 / 92

Page 31: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos: limitantes

• El tiempo de entrenamiento de k−NN es nulo, sinembargo, todas las instancias de entrenamiento tienenque almacenarse (costo almacenamiento).• Al momento de clasificar, k−NN compara una instancia

de prueba con toda la BD (costo computacional).• Problema. El tamano de la BD.

31 / 92

Page 32: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos: limitantes

Solucion. Reduccion de instancias.

1 Seleccion de prototipos.2 Generacion de prototipos.

32 / 92

Page 33: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Vecinos mas cercanos

Vecinos mas cercanos: discusion

Un elemento practico adicional, tiene que ver con elalmacenamiento de los ejemplos. En este caso se hansugerido representaciones basadas en arboles (kd-trees)donde las instancias estan distribuidas en base a sucercania.

33 / 92

Page 34: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Clasificacion basada en prototipos

El costo computacional de k−NN esta directamenterelacionado con en numero de instancias de entrenamiento.Una forma efectiva de reducir el costo de k−NN es usandometodos de reduccion de instancias, cuyo objetivo esreducir el conjunto de entrenamiento sin comprometer laefectividad del clasificador.

1 Seleccion de prototipos. Seleccionar un subconjuntode instancias de entrenamiento.

2 Generacion de prototipos. Generar puntos sinteticosque cubran es espacio de entrada.

34 / 92

Page 35: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Seleccion de prototipos

Seleccionar un subconjunto de instancias de entrenamiento.

• Cuantas posibilidades?• Sea N el numero de instancias de entrenamiento y q el

tamano del subconjunto, hay:•(N

q

)subconjuntos de tamano q

• ∑Nj=1(N

j

)subconjuntos de todos los tamanos

35 / 92

Page 36: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Seleccion de prototipos

Existe una gran diversidad de metodos.Metodos representativos:

1 CNN. E.g., mantener los ejemplos necesarios paraclasificar correctamente los datos de entrenamiento.

2 ENN. E.g., remueve instancias cuyos vecinos son dediferente clase.

3 Algoritmos evolutivos. buscar un buen subconjuntode instancias.

36 / 92

Page 37: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Generacion de prototipos

Posiciona puntos en el espacio de entrada, problema deaprendizaje. Principales variantes.• Centroide• K-means• LVQ

37 / 92

Page 38: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Clasificacion basada en prototipos

Clasificador basado en centroide (datos numericos):• Mantienen un unico prototipo xi por clase v ∈ V .• El prototipo pv de la clase v , es el vector promedio de

instancias de la clase v :

pv =1

Nv

Nv∑j=1

xvj

donde xvj , j = 1, . . . ,Nv son las instancias de

entrenamiento de la clase v .

38 / 92

Page 39: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Clasificacion basada en prototiposClasificador basado en centroide (datos numericos):

Figura: Superficie de clasificacion.

39 / 92

Page 40: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Clasificacion basada en prototipos

Clasificador basado en centroide (datos numericos):• Computacionalmente simple, modelo rapido.• Buenos resultados en clasificacion de textos.• Robusto a cambios en los datos de entenamiento.• Puede lidiar con datos desbalanceados.

40 / 92

Page 41: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Clasificacion basada en prototipos

Extension del metodo basado en centroide con k−means.• Se obtienen k−prototipos por cada clase v ∈ V .• Para la clase v , el conjunto de prototipos se obtiene

aplicando k−means (o cualquier otra tecnica deagrupamiento).

41 / 92

Page 42: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Clasificacion basada en prototipos

Extension del metodo basado en centroide con k−means.

Figura: Superficie de clasificacion.

42 / 92

Page 43: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Clasificacion basada en prototipos

• Ambos metodos son sencillos y reducen drasticamenteel conjunto de datos.• Sin embargo, si los datos no son facilmente separables,

su efectividad es limitada.• Por que?

43 / 92

Page 44: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Learning Vector Quantization

• LVQ: es un metodo que posiciona prototiposestrategicamente con respecto a la superficie dedecision.• Es un algoritmo online: i.e., procesa instancias una a la

vez.• La idea es que los datos de entrenamiento atraigan a

prototipos de la clase correcta y repelan a los otros.

44 / 92

Page 45: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Cuadro: El algoritmo de LVQ.

Inicializacion:escoger R prototipos iniciales de cada clasee.g., mediante muestreo aleatorio: pv

1 , . . . , pvR con v ∈ V

Aprendizaje:muestrear una instancia de entrenamiento xi , sea pc el prototipo

mas cercano a xi :Si f (pc) = f (xi)Entonces: mover el prototipo hacia xj

pc ← pc + ε(xi − pc)

Si f (pc) 6= f (xi)Entonces: mover el prototipo lejos de xj

pc ← pc − ε(xi − pc)

45 / 92

Page 46: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Clasificacion basada en prototipos

Learning Vector Quantization.

Figura: Superficie de clasificacion.

46 / 92

Page 47: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Learning Vector Quantization

• ε es la tasa de aprendizaje.• LVQ puede verse como un tipo especial de red

neuronal, los prototipos son las neuronas.• LVQ es el precursor de los mapas auto-organizables.

47 / 92

Page 48: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Clasificacion basada en prototipos

Overview de otros metodos

Existen muchas otras variantes para generar (y seleccionar)prototipos para k−NN, incluyendo:• Mezclas de Gaussianas.• Optimizacion de criterio probabilista inducido por

distancia.• Algoritmos evolutivos y metodos bio-inspirados.• ...

48 / 92

Page 49: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

Regresion basada en instancias

Problema de regresion: Prediccion de una variable continua.

Figura: Problema de regresion.

49 / 92

Page 50: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

Regresion basada en instancias

Problema de regresion: Prediccion de una variable continua.

Figura: Problema de regresion.

50 / 92

Page 51: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWR

Locally weigthed regression es una generalizacion queconstruye una funcion que ajusta los datos deentrenamiento que estan en la vecindad de xq.

51 / 92

Page 52: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWR

Figura: LWR.

52 / 92

Page 53: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWR

Figura: LWR.

53 / 92

Page 54: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWR

Figura: LWR.

54 / 92

Page 55: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWR

Figura: LWR.

55 / 92

Page 56: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWR

Figura: LWR.

56 / 92

Page 57: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWR

Figura: LWR.

57 / 92

Page 58: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

Se pueden usar funciones lineales, cuadraticas, redesneuronales, etc. Si utilizamos una funcion lineal:

f (x) = w0 + w1a1(x) + . . .+ wnan(x)

Podemos usar gradiente descendiente para ajustar lospesos que minimizan el error.

58 / 92

Page 59: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

El error lo podemos expresar por diferencias de error alcuadrado de la siguiente forma:

E(W ) =12

∑x∈D

(f (x)− f (x))2

59 / 92

Page 60: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

• Lo que queremos es determinar el vector de pesos queminimice el error E . Esto se logra alterando los pesosen la direccion que produce el maximo descenso en lasuperficie del error.• La direccion de cambio se obtiene mediante el

gradiente. El gradiente nos especifica la direccion queproduce el maximo incremento, por lo que el mayordescenso es el negativo de la direccion.

60 / 92

Page 61: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

Figura: Error para diferentes hipotesis.

61 / 92

Page 62: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

La regla de actualizacion de pesos es entonces:

W ←W + ∆W

∆W = −α∇E

donde α es el factor de aprendizaje (que tanto le creemos alerror para ajustar nuestos pesos).

∂E∂wi

= ∂∂wi

12∑

x∈D(f (x)− f (x))2

=∑

x∈D(f (x)− f (x)) ∂∂wi

(f (x)− ~w · ~ax )

=∑

x∈D(f (x)− f (x))(−ai,x )

Por lo que:

∆wi = α∑x∈D

(f (x)− f (x))(−ai,x )

62 / 92

Page 63: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

Para modificar los pesos se puede hacer:1 Minimizar el error cuadrado usando los k vecinos mas

cercanos.

E(W ) =12

∑x∈k vecinas mas cercanos

(f (x)− f (x))2

2 Minimizar el error cuadrado usando todos los ejemplospesados por su distancia a xq.

E(W ) =12

∑x∈D

(f (x)− f (x))2K (d(xq, x))

3 Minimizar el error cuadrado usando los k vecinos mascercanos pesados por su distancia a xq.

E(W ) =12

∑x∈k NN

(f (x)− f (x))2K (d(xq, x))

63 / 92

Page 64: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

Para el ultimo caso, la regla de actualizacion es entonces:

∆wi = α∑

x∈k NNK (d(xq, x))(f (x)− f (x))(−ai,x )

64 / 92

Page 65: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWL LS

Alternativamente, usando el metodo de mınimos cuadradostenemos lo siguiente. Igual que antes, queremos minimizar:

E(W ) =12

∑x∈D

(f (x)− f (x))2

E(W ) =12

∑x∈D

(f (x)− f (x))(f (x)− f (x))

Si y denota el vector N-dimensional de salidas, y X es unamatriz de dimensiones N × d , donde cada fila representalos atributos de una instancia, tenemos:

E(W ) = (y− XW )T (y− XW )

65 / 92

Page 66: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWL LS

Derivando E(W ) con respecto a W :

∂E∂W

= XT (y− XW )

Igualando a cero, obtenemos:

XT (y− XW ) = 0

Cuando XT X es invertible, se tiene que la solucion unicaesta dada por:

W ′ = (XT X)−1XT y

66 / 92

Page 67: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWRSolucion de mınimos cuadrados global:

Figura: Ejemplo LS-LWR.

67 / 92

Page 68: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWRSeleccion de la instancia a clasificar:

Figura: Ejemplo LS-LWR.

68 / 92

Page 69: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWRAproximacion local:

Figura: Ejemplo LS-LWR.

69 / 92

Page 70: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWRLa solucion esta dada por los k−vecinos mas cercanos:

Figura: Ejemplo LS-LWR.

70 / 92

Page 71: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWRSolucion de mınimos cuadrados global:

Figura: Ejemplo LS-LWR 2.

71 / 92

Page 72: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWRSeleccion de la instancia a clasificar:

Figura: Ejemplo LS-LWR 2.

72 / 92

Page 73: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWRAproximacion local:

Figura: Ejemplo LS-LWR 2.

73 / 92

Page 74: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Regresion pesada localmente

LWRLa solucion esta dada por los k−vecinos mas cercanos:

Figura: Ejemplo LS-LWR 2.

74 / 92

Page 75: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Funciones de Distancia

Funciones de distancia

Las funciones de distancia las podemos clasificar en:• Funciones globales: se usa la misma funcion de

distancia en todo el espacio.• Funciones basadas en el query. Los parametros de la

funcion de distancia se ajustan con cada query,tıpicamente minimizando el error con validacioncruzada.• Funciones basadas en puntos. Cada dato tiene

asociado su propia funcion de distanciaEl cambiar/ajustar la funcion de distancia puede mejorar laspredicciones.

75 / 92

Page 76: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Funciones de Distancia

Funciones de distancia

Las funciones de distancia tıpicas para datos continuos son:• Euclideana

dE (x,q) =

√∑j

(xj − qj)2 =√

(x− q)T (x− q)

• Euclideana pesada diagonalmente

dm(x,q) =

√∑j

(mj(xj − qj)2)

=√

(x− q)T MT M(x− q) = dE (Mx,Mq)

donde mj es el factor de escala en la dimension j y Mes una matriz diagonal con Mjj = mj .

76 / 92

Page 77: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Funciones de Distancia

Funciones de distancia

• Euclideana completa o Mahalanobis

dM(x,q) =√

(x− q)T MT M(x− q) = dE (Mx,Mq)

donde M puede ser arbitraria.• Normal o Minkowski

dp(x,q) = (∑

i

|xi − qi)|p)1p

• Normal pesada diagonal o completa. Igual que laMinkowski pero incluyendo pesos.

77 / 92

Page 78: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Funciones de Distancia

Figura: Comportamiento de la distancia de Minkowski paradiferentes valores de p.

78 / 92

Page 79: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Funciones de Distancia

Funciones de distancia

• Matrices (M) diagonales hacen escalas radialessimetricas.• Se pueden crear elipses con orientaciones arbitrarias

incluyendo otras elementos fuera de la diagonal.

79 / 92

Page 80: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Funciones de pesos o Kernels

Funciones de pesos o KernelsLas funciones de peso deben de ser maximas a distancia cero ydecaer suavemente con la distancia.No es necesario normalizar el kernel, tampoco tiene que serunimodal, y tiene que ser positivo siempre.Algunos ejemplos son:

• Elevar la distancia a una potencia negativa

K (d) =1dp

• Para evitar infinitos (inverse distance):

K (d) =1

1 + dp

• Uno de los mas populares, es el kernel Gaussiano:

K (d) = exp(−d2)

• Uno relacionado es el exponencial:

K (d) = exp(−|d |)80 / 92

Page 81: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Funciones de pesos o Kernels

Funciones de pesos o KernelsLos dos ultimos tienen una extension infinita que se puedetruncar despues de un cierto umbral.

• Kernel cuadratico o Epanechnikov o Bartlett-Priestley:

K (d) =

{(1− d2) si |d | < 10 de otra forma

el cual ignora datos mas alejados que 1 unidad.• El kernel tricube:

K (d) =

{(1− |d |3)3 si |d | < 10 de otra forma

• Kernel de uniform weighting:

K (d) =

{1 si |d | < 10 de otra forma

81 / 92

Page 82: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Funciones de pesos o Kernels

Funciones de pesos o Kernels

• Kernel triangular:

K (d) =

{1− |d | si |d | < 10 de otra forma

• Variante del triangular:

K (d) =

{1−|d ||d | si |d | < 1

0 de otra forma

Se pueden crear nuevos kernels. Segun los autores ladefinicion del kernel no es tan crıtica.

82 / 92

Page 83: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Pocos datos y otras consideraciones

Pocos datos y otras consideraciones

• Un posible problema que puede surgir es cuando setienen pocos datos. Algunas de las posibles solucioneses o tratar de introducir nuevos datos artificialmente y/oreducir la dimensionalidad usando un proceso deseleccion de variables.• La eficiencia de LWR depende de cuantos datos se

tengan. Se puede usar una representacion de kd-treespara accesar datos cercanos mas rapidamente.

83 / 92

Page 84: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Pocos datos y otras consideraciones

Pocos datos y otras consideraciones

• En general, LWR es mas caro que vecinos mascercanos y promedios pesados.• Por otro lado, cualquier representacion se puede usar

para construir el modelo local (e.g., arboles de decision,reglas, redes neuronales, etc.).• Una forma sencilla de hacerlo, es tomar los vecinos

mas cercanos y entrenar un modelo/clasificador conellos.

84 / 92

Page 85: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Pocos datos y otras consideraciones

Pocos datos y otras consideraciones

Lo que se requiere para implantar un LWR es:• Una funcion de distancia. Aquı la suposicion mas

grande de LWR es que datos mas cercanos son losmas relevantes. La funcion de distancia no tiene quecumplir con los requerimientos de una metrica dedistancia.• Criterio de separabilidad. Se calcula un peso para cada

punto dado por el kernel aplicado a la funcion dedistancia. Este criterio es aparte de la funcion deprediccion (C =

∑i [L(yi , yi)K (d(xi ,q))]

• Suficientes datos para construir los modelos• Datos con salida yi .• Representacion adecuada.

85 / 92

Page 86: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Pocos datos y otras consideraciones

Pocos datos y otras consideraciones

Algunas posibles direcciones futuras de investigacionincluyen:• Combinar datos continuos y discretos• Mejores formas de sintonizacion de parametros• Sintonizacion local a multiples escalas• Usar gradientes para sintonizar parametros• Definir cuanta validacion cruzada es suficiente• Usar metodos probabilısticos• Olvidar datos• Mejorar aspectos computacionales con muchos datos• No hacer el aprendizaje completamente lazy

86 / 92

Page 87: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Funciones de bases radiales

Funciones de bases radiales

Radial basis functions (RBF) utilizan una combinacion defunciones Kernel que decrecen con la distancia(corresponderıa a K (d(xq, x)) en las expresiones de arriba).

f (x) = w0 +k∑

u=1

wuKu(d(xu, x))

Para cada instancia xu existe una funcion Kernel quedecrece con la distancia a xu.Lo mas comun es escoger funciones normales oGaussianas para las K s.

Ku(d(xu, x)) =1√

2πσ2e−

12σ2 d2(xu ,x)

87 / 92

Page 88: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Funciones de bases radiales

Funciones de bases radialesLa funcion f (x) consiste basicamente de dos elementos:uno que calcula las funciones Kernel y otro los pesos deestas.Estas se pueden aprender dentro de una red neuronal dedos capas (ver figure 37).

Figura: Una red de funciones bases radiales.88 / 92

Page 89: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Funciones de bases radiales

Funciones de bases radialesEl entrenamiento se lleva en dos pasos. Se buscan las xu yσ para cada funcion y despues de buscan los pesos paralas funciones minimizando el error global.Posibilidades:

1 Centrar cada funcion en cada punto y a todas darles lamisma desviacion estandar.

2 Seleccionar un numero limitado de funcionesdistribuidas uniformemente en el espacio de instancias.

3 Seleccionar funciones no distribuirlas uniformemente(sobretodo si las instancias no estan distribuidasuniformemente).• Se puede hacer un muestreo sobre las instancias o

tratar de indentificar prototıpos (posiblemente con unalgoritmo de clustering).

• Se puede utilizar EM para escoger k medias de lasdistribuciones Gaussianas que mejor se ajusten a losdatos.

89 / 92

Page 90: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Funciones de bases radiales

Funciones de bases radiales

En el caso de RBF, se realiza un aprendizaje previo con lasinstancias de entrenamiento (como en los sistemas deaprendizaje que se han visto) y luego se trata de clasificar alas nuevas instancias.

90 / 92

Page 91: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Razonamiento Basado en Casos

Razonamiento Basado en Casos

• Una alternativa para aprendizaje basado en instancias,es utilizar una representacion simbolica mucho masrica para representar cada instancia.• Un Razonador Basado en Casos resuelve problemas

nuevos mediante la adaptacion de soluciones previasusadas para resolver problemas similares.

91 / 92

Page 92: Aprendizaje Basado en Instanciashugojair/Courses/ML2019/5_IBL.pdf · Basado en Casos Introduccion´ Introduccion´ Aprendizaje basado en Instancias En este tipo de aprendizaje, se

Introduccion

Vecinos mascercanos

Clasificacionbasada enprototipos

Regresionpesadalocalmente

Funciones deDistancia

Funciones depesos oKernels

Pocos datos yotras conside-raciones

Funciones debases radiales

RazonamientoBasado enCasos

Razonamiento Basado en Casos

Razonamiento Basado en Casos

• Las instancias o casos tienen normalmenterepresentado el problema que solucionan, unadescripcion de como lo solucionaron, y el resultadoobtenido.• Obviamente, las medidas de distancia se vuelven mas

complejas.• Las combinaciones de las instancias tambien se

complica y generalmente involucra conocimiento deldominio y mecanismos de busqueda y razonamientosofisticados.• 4Rs: Retrieve, Reuse, Revise, Retain

92 / 92