algoritmos de estimacion· de distribuciones …neo.lcc.uma.es/pdf-charlas/eda.pdfalgoritmos de...

129
Algoritmos de Estimaci ´ on de Distribuciones = Computaci ´ on Evolutiva + Modelos Gr ´ aficos Probabil´ ısticos Pedro Larra ˜ naga Departamento de Ciencias de la Computaci ´ on e Inteligencia Artificial Universidad del Pa´ ıs Vasco http://www.sc.ehu.es/isg/ Dpto. Lenguajes y Ciencias de la Computaci ´ on · Universidad de M ´ alaga · 30 Septiembre 2002 Algoritmos de Estimaci ´ on de Distribuciones=Computaci ´ on Evolutiva + Modelos Gr ´ aficos Probabil´ ısticos– p.1/??

Upload: others

Post on 06-Aug-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

Algoritmos de Estimacion de Distribuciones=

Computacion Evolutiva + Modelos GraficosProbabilısticos

Pedro Larranaga

Departamento de Ciencias de la Computacion e Inteligencia Artificial

Universidad del Paıs Vasco

http://www.sc.ehu.es/isg/

Dpto. Lenguajes y Ciencias de la Computacion · Universidad de Malaga · 30 Septiembre 2002

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.1/??

Page 2: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

Esquema del tutorial

• 1. Introducción• 2. Modelos Gráficos Probabilísticos• 3. Algoritmos de Estimación de Distribuciones• 4. Aplicaciones de los Algoritmos de

Estimación de Distribuciones• 5. Conclusiones• Referencias

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.2/??

Page 3: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

1 Introducción i

Motivación• Algoritmos Evolutivos• varios parámetros a determinar• dificultad en la predicción de las

poblaciones a través de las generaciones• building blocks• relación entre las variables (linkage

learning)• problemas engañosos

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.3/??

Page 4: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

1 Introducción ii

Nueva aproximación a la Computación Evolutiva

• Basada en poblaciones

• Sin operadores de cruce ni mutación

• En cada generación se estima de los individuos seleccionados, la distribución deprobabilidad subyacente a los mismos

• Muestreando esta distribución se obtiene la siguiente población

• Se repiten los dos pasos anteriores hasta el criterio de terminación

EDA (Estimation of Distribution Algorithms) Mühlenbein y Paaβ, 1996

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.4/??

Page 5: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2. Modelos Gráficos Probabilísticos• 2.1 Introducción

• 2.2 Redes Bayesianas• 2.2.1 Introducción• 2.2.2 Independencia condicional• 2.2.3 Factorización de la probabilidad conjunta• 2.2.4 Propagación de la evidencia• 2.2.5 Simulación• 2.2.6 Aprendizaje estructural

• 2.3 Redes Gausssianas• 2.3.1 Normal multidimensional y redes Gaussianas• 2.3.2 Simulación• 2.3.3 Aprendizaje estructural

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.5/??

Page 6: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.1 Introducción i

• Limitación de los sistemas basados en reglas

• Intuición humana, cierto paralelismo con la probabilidad

• A finales de la década de los 80 se superaron las dificultadescomputacionales que limitaban los primitivos sistemasprobabilísticos

• Superación de las asunciones simplificadas con las que seconstruian los sistemas expertos probabilísticos en los origenesde la IA

• Concepto de independencia condicional

• Los modelos gráficos probabilísticos permiten construir sistemascon características de razonamiento –humano versus animal(visión, voz, movimiento, ....)–

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.6/??

Page 7: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.1 Introducción ii

• Redes Bayesianas (Pearl, 1988)• Redes Gaussianas (Shachter y Kenley, 1989)• Redes de Markov• Modelos ocultos de Markov• Modelos log-lineales• Grafos cadena• ...

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.7/??

Page 8: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.1 Introducción iii

Informacion en Internet

• http://bayes.stat.washington.edu/almond/belief.html

• http://http.cs.berkeley.edu/˜murphyk/Bayes/bayes.html

• http://www.afit.af.mil/Schools/EN/AI

• http://www.auai.org/

• http://www.cs.auc.dk/research/DSS/

• http://www.maths.nott.ac.uk/hsss/

• http://www.research.microsoft.com/research/dtg/

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.8/??

Page 9: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.1 Introducción iv

Software libre en Internet

• http://www.ia.uned.es/˜elvira

• http://hss.cmu.edu/html/departments/philosophy/TETRAD

• http://http.cs.Berkeley.edu/˜murphyk/Bayes/bnsoft.html

• http://kmi.open.ac.uk/projects/bkd

• http://www.city.ac.uk/˜rgc

• http://www.cs.cmu.edu/˜javabayes/Home/

• http://www.mrc-bsu.cam.ac.uk/bugs/Welcome.html

• http://www2.sis.pitt.edu/˜genie

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.9/??

Page 10: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.1 Introducción v

Software comercial en Internet

• HUGIN http://www.hugin.dk/

• DXPRESS http://www.kic.com/

• NETICA http://www.norsys.com/netica.html

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.10/??

Page 11: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.1 Introducción i

• Variables discretas, multinomiales: redes Bayesianas

• Variables continuas, normales: redes Gaussianas

• Representación utilizada para codificar incertidumbre ensistemas expertos

• Dependencias entre las variables

• En un lugar central entre los siguientes dos casos extremos• p(x) = p(x1, x2, . . . , xn) necesita 2n − 1 parámetros• p(x) =

∏ni=1 p(xi) necesita n parámetros

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.11/??

Page 12: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.1 Introducción ii

• Grafos acíclicos dirigidos (DAGs)

• Nodos: variables

• Arcos: dependencias condicionales

• Factorización de la distribución de probabilidad (X1, ...., Xn):

ρ(x) = ρ(x1, ...., xn) =n∏

i=1

ρ(xi|pa(xi))

xi representa el valor de la variable aleatoria Xi

pa(xi) representa el valor de las variables aleatorias padres–variables de las cuales parte un arco– de Xi

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.12/??

Page 13: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.1 Introducción iiiX 1

X 4

X 2 X 3

X 5

p(x )= 0.201

2 1p(x x )= 0.80

2 1p(x x )= 0.20

1

1

3p(x x )= 0.20

34 2

34 2

34 2

34 2

p(x x ,x )= 0.30

p(x x ,x )= 0.25

p(x x ,x )= 0.15

p(x x ,x )= 0.80

5 3

5 3

p(x x )= 0.95

p(x x )= 0.11

p(x x )= 0.053

p(x1, x2, x3, x4, x5) = p(x1) · p(x2 | x1) · p(x3 | x1) · p(x4 | x2, x3) · p(x5 | x3)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.13/??

Page 14: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.1 Introducción ivX = (X1, . . . , Xn) un conjunto de variables aleatorias

• X = (X1, . . . , Xn) un conjunto de variables aleatorias

• xi valor de Xi (la i-ésima componente de X)

• y = (xi)Xi∈Y valor de Y ⊆X

• El modelo gráfico probabilístico para X proporciona unafactorización de la distribución de probabilidad conjunta ρ(x)

• p(x) caso discreto• f(x) caso continuo

• Dos componentes• estructura S (DAG)• un conjunto de densidades locales

• S representa un conjunto de independencias condicionales sobretripletas de variables de X

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.14/??

Page 15: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.2 Independencia condicional i

Distribución de probabilidad conjunta de (X, Y, Z) : p(x, y, z)

x y z p(x, y, z)

0 0 0 0.12

0 0 1 0.18

0 1 0 0.04

0 1 1 0.16

1 0 0 0.09

1 0 1 0.21

1 1 0 0.02

1 1 1 0.18

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.15/??

Page 16: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.2 Independencia condicional ii

Distribuciones marginales: p(x), p(y), p(z)

p(x) =∑

y,z p(x, y, z)

p(y) =∑

x,z p(x, y, z)

p(z) =∑

x,y p(x, y, z)

x p(x) y p(y) z p(z)

0 0.5 0 0.6 0 0.271 0.5 1 0.4 1 0.73

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.16/??

Page 17: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.3 Independencia condicional iii

Marginales de orden 2: p(x, y), p(x, z), p(y, z)

p(x, y) =∑

z p(x, y, z)p(x, z) =

∑y p(x, y, z)

p(y, z) =∑

x p(x, y, z)

x y p(x, y) x z p(x, z) y z p(y, z)

0 0 0.3 0 0 0.16 0 0 0.210 1 0.2 0 1 0.34 0 1 0.391 0 0.3 1 0 0.11 1 0 0.061 1 0.2 1 1 0.39 1 1 0.34

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.17/??

Page 18: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.2 Independencia condicional iv

Probabilidades condicionadas:p(x|y) = p(x,y)

p(y) p(x|z) = p(x,z)p(z) p(y|z) = p(y,z)

p(z)

y x p(x|y) z x p(x|z) z y p(y|z)

0 0 0.5 0 0 16/27 0 0 21/270 1 0.5 0 1 11/27 0 1 6/271 0 0.5 1 0 34/73 1 0 39/731 1 0.5 1 1 39/73 1 1 34/73

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.18/??

Page 19: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.2 Independencia condicional v

• X e Y independientes sii:• p(x|y) = p(x) ∀ x, y ó• p(x, y) = p(x) · p(y) ∀ x, y

En el ejemplo X e Y son independientes pero X y Z sondependientes

• X condicionalmente independiente de Y dado Z,I(X, Y |Z), sii:• p(x|y, z) = p(x|z) ∀ x, y, z ó• p(x, y|z) = p(x|z) · p(y|z) ∀ x, y, z

En el ejemplo, existen x, y, z tal que p(x|y, z) 6= p(x|z), portanto X no es condicionalmente independiente de Y dado Z

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.19/??

Page 20: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.2 Independencia condicional vi

p(x|y, z) =p(x, y, z)

p(y, z)

y z x p(x|y, z)

0 0 0 12/21

0 0 1 9/21

0 1 0 18/39

0 1 1 21/39

1 0 0 4/6

1 0 1 2/6

1 1 0 16/34

1 1 1 18/34

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.20/??

Page 21: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.2 Independencia condicional vii

p(x|z) =p(x, z)

p(z)

z x p(x|z)

0 0 16/270 1 11/271 0 34/731 1 39/73

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.21/??

Page 22: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.2 Independencia condicional viii

¿I(X, Y |Z)?

• Basado en el criterio de separación• (i) obtener el menor grafo conteniendo X, Y y Z y

sus ancestros• (ii) moralizar el subgrafo obtenido:• añadir una arista entre padres con hijos comunes• transformar los arcos en aristas

• (iii) en el grafo no dirigido obtenido I(X, Y |Z) sii Z

bloquea todo camino entre X e Y

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.22/??

Page 23: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.2 Independencia condicional ix

X 1

X

X

X

X

X

2

3

4 5

6

¿I(X1, X5|X3)?; ¿I(X1, X6|X5)?;¿I(X4, X5|X1, X3)?; ¿I(X4, X5, X6|X1)?

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.23/??

Page 24: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.3 Factorización de la probabilidad conjunta i

Factorización de la función de densidad generalizada:

• P ai conjunto de padres de Xi en S

ρ(x) = ρ(x1, x2, . . . , xn) =

n∏

i=1

ρ(xi|paSi )

• Suponiendo que la distribución de probabilidad depende de un conjunto finito deparámetros

θS = (θ1, . . . , θn)

ρ(x|θS) =

n∏

i=1

ρ(xi|paSi , θi)

• Modelo gráfico probabilístico M = (S, θS)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.24/??

Page 25: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.3 Factorización de la probabilidad conjunta ii

i) Árbol ρ(x|θS) =

n∏

i=1

ρ(xi|xj(i), θi)

Xj(i) es el (posiblemente vacío) padre de Xi

ii) Poliárbol ρ(x|θS) =

n∏

i=1

ρ(xi|xj1(i), . . . , xjr(i), θi)

Xj1(i), . . . , Xjr(i) es el (posiblemente vacío) conjunto de padres de Xi, loscuales son mútuamente independientes:

ρ(xj1(i), xj2(i), . . . , xjr(i)) =

r∏

k=1

ρ(xjk(i)) i = 1, . . . , n

iii) Múltiplemente conectados ρ(x|θS) =

n∏

i=1

ρ(xi|paSi , θi)

a) Tree structure b) Polytree c) Multiply connected

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.25/??

Page 26: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.3 Factorización de la probabilidad conjunta iii

Notación

• Para todo i, Xi es discreta

• x1i , . . . , x

rii denotan los ri posibles valores de Xi

• p(xki |pa

j,Si , θi) = θijk es la probabilidad condicional de que

Xi esté en su k-ésimo valor, dado que el conjunto de suspadres está en su j-ésimo valor

• qi =∏

Xg∈Pairg denota el número de posibles

instanciaciones distintas de Pai

• Parámetros locales θi = (((θijk)rik=1)

qij=1)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.26/??

Page 27: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.3 Factorización de la probabilidad conjunta iv

Componentes

a) La estructura S (DAG) refleja el conjunto deindependencias condicionales entre lasvariables

b) Distribuciones a priori θi−k para todos losnodos raíces p(xk

i |∅, θi)

c) Probabilidades condicionadas, θijk, paratodos los nodos dadas todas las posiblescombinaciones de los padres p(xk

i |paj,Si , θi)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.27/??

Page 28: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.3 Factorización de la probabilidad conjunta v

!#" $ %& (' *) & (' +

!#, $ %& ' *) & ' ) & (' +

!#- $ %& *) & ) & *)& ) & . ) & / *)& ) & ) & )& ) & . ) & / +

!#0 $ %& *) & ) & ) & +

1 %32 4 +) 1 %32 +

1 %32 +) 1 %32 5 +) 1 %32 +

1 %32 4 6 2 4) 2 +) 1 %32 4 6 2 4) 2 4 +) 1 %32 4 6 2 4) 2 +)

1 %32 4 6 2 ) 2 +) 1 %32 4 6 2 ) 2 4 +) 1 %32 4 6 2 ) 2 +)

1 %32 6 2 4) 2 +) 1 %32 6 2 4) 2 4 +) 1 %32 6 2 4) 2 +)

1 %32 6 2 ) 2 +) 1 %32 6 2 ) 2 4 +) 1 %32 6 2 ) 2 +

1 %32 7 6 2 5 +) 1 %32 7 6 2 +) 1 %32 6 2 5 +) 1 %32 6 2 +

8 :9 ; < = > ; ? *@ A

1 %32 ) 2 ) 2 ) 2 + $ 1 %32 + 1 %32 + 1 %32 6 2 ) 2 + 1 %32 6 2 +

Estructura, probabilidades locales y factorización resultante de una red Bayesiana con 4

variables (X1, X3 y X4 con dos posibles valores, y X2 con tres posibles valores)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.28/??

Page 29: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.4 Propagación de la evidencia i

• Métodos exactos (Lauritzen, Spiegelhalter1988)

• Métodos aproximados• Muestreo lógico probabilístico (Henrion

1988)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.29/??

Page 30: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.4 Propagación de la evidencia ii

Métodos exactos (Lauritzen, Spiegelhalter 1988)• Moralización del DAG• Triangulación del grafo moral• Creación del grafo de juntura• Creación del árbol de juntura• Modificación del algoritmo de propagación de

la evidencia para árboles al árbol de juntura

El único paso problemático en el proceso deDAG a árbol de juntura es la triangulación

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.30/??

Page 31: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.5 Simulación iSimulación Probabilistic Logic Sampling (PLS) Henrion, 1988

Dado un orden ancestral, π, en los nodos

Para j = 1, 2, . . . , N

Para i = 1, 2, . . . , n

xπ(i) ← generar un valor de p(xπ(i)|paπ(i))

• Un orden ancestral es aquel en el que las variables P ai son anteriores a lavariable Xi

• Los casos son generados variable a variable

• Una variable es muestreada una vez que lo han sido sus variables padresAlgoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.31/??

Page 32: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.6 Aprendizaje estructural i

• Aprendizaje estructural ≡ inducción delmodelo ≡ búsqueda del modelo

• Dos aproximaciones• detección de independencias

condicionales• score + búsqueda

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.32/??

Page 33: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.5 Aprendizaje estructural ii

Detección de independencias condicionales:• A partir de tests de independencia

condicional entre tripletas de variablesobtener una lista de independencias ydependencias condicionales

• Obtener la estructura de red Bayesiana quemejor refleje las independencias ydependencias condicionales anteriores

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.33/??

Page 34: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.5 Aprendizaje estructural iiiscore:

• Máxima verosimilitud penalizada: log p(D | S, θ)− pe(N)dim(S)

n∑

i=1

qi∑

j=1

ri∑

k=1

Nijk logNijk

Nij− pe(N)dim(S)

• Nijk denota el número de casos en D en los cuales Xi toma el valor xki y

P ai toma su j-ésimo valor; Nij =

ri∑

k=1

Nijk

• dim(S) =∑n

i=1 qi(ri − 1)

• pe(N) =

1 AIC, Akaike, 197412

log N BIC, Schwarz, 1978

• Verosimilitud marginal: p(D|S, θ)

n∏

i=1

qi∏

j=1

Γ(αij)

Γ(αij + Nij)·

ri∏

k=1

Γ(αijk + Nijk)

Γ(αijk)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.34/??

Page 35: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.5 Aprendizaje estructural iv

búsqueda:• Búsqueda voraz• Heurísticos: Enfriamiento Estadístico,

Algoritmos Genéticos, Búsqueda Tabu,Colonias de Hormigas, .....

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.35/??

Page 36: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.5 Aprendizaje estructural v

Algoritmo K2. Cooper y Herskovits (1992)• Las variables de la base de datos son

discretas• Dado un modelo de Red Bayesiana los casos

ocurren independientemente• No hay casos que tengan variables con datos

perdidos• f(BP |BS) tiene una distribucion uniforme

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.36/??

Page 37: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.5 Aprendizaje estructural viAlgoritmo K2. Cooper y Herskovits (1992)

• Un conjunto de n variables discretas Xi (i = 1, . . . , n), con ri posibles valores

• D la base de datos con N casos

• BS una estructura de Red Bayesiana

• P aia los padres de la variable Xi

• qi el número de instanciaciones diferentes de P ai

• Nijk el número de casos en D para los cuales Xi toma su k-ésimo valor y P ai

está en su j-ésima instanciación

• Nij =∑ri

k=1 Nijk

P (BS , D) = P (BS)

n∏

i=1

qi∏

j=1

(ri − 1)!

(Nij + ri − 1)!

ri∏

k=1

(Nijk)! = P (BS)

n∏

i=1

g(i, P ai).

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.37/??

Page 38: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.5 Aprendizaje estructural viiINPUT: Un conjunto de n nodos, un orden entre los nodos, una cota superior udel numero de padres que puede tener un nodo, y una base de datos D conteniendo m casosOUTPUT: Para cada nodo, el conjunto de sus nodos padresBEGIN K2

FOR i := 1 TO n DOBEGIN

P ai := ∅;Pold := g(i, P ai):OKtoProceed := TRUEWHILE OKtoProceed AND |P ai| < u DO

BEGINSea Z el nodo en Pred(Xi)− P ai que maximiza g(i, P ai ∪ Z);Pnew := g(i, P ai ∪ Z);IF Pnew> Pold THEN

BEGINPold := Pnew;P ai := P ai ∪ Z

ENDELSE OKtoProceed := FALSE;

END;WRITE(‘Nodo:’, Xi, ‘Padres de este nodo:’, P ai)

END;END K2

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.38/??

Page 39: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.2.5 Aprendizaje estructural viii

• Se necesita un orden entre las variables

• Hace falta una cota superior del número de padres para cada variables

• Todas las estructuras son igualmente probables al inicio

• Para cada nodo K2 busca el conjunto de padres que maximiza:

g(i, P ai) =

qi∏

j=1

(ri − 1)!

(Nij + ri − 1)!

ri∏

k=1

Nijk!

• K2 comienza asumiendo que un nodo no tiene padres

• En cada paso K2 añade de manera incremental aquel nodo padre cuya inclusiónmas incrementa g(i, P ai)

• K2 para cuando la inclusión de un padre simple no incrementa g(i, P ai)

• K2 es un algoritmo greedy

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.39/??

Page 40: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.3.1 Normal multidimensional y redes Gaussianas i

• Es un modelo gráfico probabilístico donde cada variable Xi ∈X es continua

• Las funciones de densidad locales coinciden con el modelo de regresión lineal:

f(xi | paSi , θi) ≡ N (xi; mi +

xj∈pai

bji(xj −mj), vi)

• N (x; µ, σ2) distribución normal univariada con media µ y varianza σ2

• bji intensidad de la relación entre Xj y Xi (bji = 0 sii no existe el arco de Xj aXi)

• vi es la varianza de Xi condicionada a P ai

• θi = (mi, bi, vi) parámetros locales, bi = (b1i, . . . , bi−1i)t

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.40/??

Page 41: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.3.1 Normal multidimensional y redes Gaussianas ii

De distribuciones normales multivariantes a redes Gaussianas

f(x) ≡N (x; µ,Σ) ≡ (2π)−n2 |Σ|− 1

2 e−12(x−µ)tΣ−1

(x−µ)

• µ vector de esperanzas matemáticas

• Σ matriz de covarianzas n× n

• W = Σ−1 matriz de precisión

• f(x) =n∏

i=1

f(xi|x1, . . . , xi−1) =n∏

i=1

N (xi; µi +∑

xj∈pai

aji(xj − µj), σi2)

interpretación de distribución normal multivariante como una red Gaussiana:mi ≡ µi, bji ≡ aji, vi ≡ σi

2

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.41/??

Page 42: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.3.1 Normal multidimensional y redes Gaussianas iii

De una red Gaussiana a una distribución normal multivariante

• µi = mi

• W de vi y bi por medio de la siguiente fórmula recursiva:

W (1) =1

v1

W (i + 1) =

W (i) +bi+1b

ti+1

vi+1, −bi+1

vi+1

−bti+1

vi+1, 1

vi+1

i = 1, . . . , n− 1

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.42/??

Page 43: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.3.1 Normal multidimensional y redes Gaussianas iv

Local densitiesStructure

f(x1, x2, x3, x4) = f(x1)f(x2)f(x3|x1, x2)f(x4|x3) =

Factorization of the joint density function

X1 X2

X3

X4

1√2πv1

e− 1

2v1(x1−m1)2

· 1√2πv2

e− 1

2v2(x2−m2)2

·

1√2πv3

e− 1

2v3(x3−(m3+b13(x1−m1)+b23(x2−m2)))2

·

1√2πv4

e− 1

2v4(x4−(m4+b34(x3−m3)))2

θ1 = (m1, −, v1) fX1→ N (x1; m1, v1)

θ2 = (m2, −, v2) fX2→ N (x2; m2, v2)

θ3 = (m3, b3, v3) fX3|X1=x1,X2=x2→

θ4 = (m4, b4, v4) fX4|X3=x3→ N (x4; m4 + b34(x3 − m3), v4)

b3 = (b13, b23)′ N (x3; m3 + b13(x1 − m1) + b23(x2 − m2), v3)

b4 = (b34)′

Estructura, densidades locales y factorización resultante de una red Gaussiana concuatro variablesAlgoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.43/??

Page 44: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.3.2 Simulación

Dado un orden ancestral, π, de los nodos

Para j = 1, 2, . . . , N

Para i = 1, 2, . . . , n

xπ(i) ← generar un valor de f(xπ(i)|paπ(i))

• Un orden ancestral es aquel en el que las variables P ai son anteriores a lavariable Xi

• Los casos son generados variable a variable

• Una variable es muestreada una vez que lo han sido sus variables padres

• Para muestrear una distribución normal univariada:• suma de 12 variables uniformes independientes, Box y Muller, 1958• ratio de uniformes, Ripley, 1983

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.44/??

Page 45: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.3.3 Aprendizaje estructural i

score:

• Máxima verosimilitud penalizada: log f(D | S, θ)− pe(N)dim(S)

N∑

r=1

n∑

i=1

− log(

√2πvi)−

1

2vi

xir −mi −

xj∈pai

bji(xjr −mj)

2 +

−pe(N) · (2n +n∑

i=1

|P ai|)

• xir es la i-ésima componente del r-ésimo elemento de la muestra

• pe(N) =

1 AIC, Akaike, 197412

log N BIC, Schwarz, 1978

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.45/??

Page 46: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

2.3.3 Aprendizaje estructural ii

• Verosimilitud marginal: f(D|S, θ)

f(D | S) =

n∏

i=1

f(DXiP ai | Sc)

f(DP ai | Sc)

donde

f(D | Sc) = (2π)−nN2 (

ν

ν + N)

n2

c(n, α)

c(n, α + N)|T0|

α2 |TN |−

α+N2

búsqueda:

• Búsqueda voraz

• Heurísticos: Enfriamiento Estadístico, Algoritmo Genético, ...

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.46/??

Page 47: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3. Algoritmos de Estimación de Distribuciones

• 3.1 Introducción

• 3.2 Optimización combinatorial por medio del aprendizaje y la simulación de redesBayesianas• 3.2.1 Sin dependencias• 3.2.2 Dependencias a pares• 3.2.3 Dependencias múltiples

• 3.3 Optimización en dominios continuos por medio del aprendizaje y la simulaciónde redes Gausssianas• 3.3.1 Sin dependencias• 3.3.2 Dependencias a pares• 3.3.3 Dependencias múltiples

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.47/??

Page 48: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.1 Introducción i

Motivación• Algoritmos Evolutivos• varios parámetros a determinar• dificultad en la predicción de las

poblaciones a través de las generaciones• building blocks• relación entre las variables (linkage

learning)• problemas engañosos

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.48/??

Page 49: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.1 Introducción ii

Nueva aproximación a la Computación Evolutiva

• Basada en poblaciones

• Sin operadores de cruce ni mutación

• En cada generación se estima de los individuos seleccionados, la distribución deprobabilidad subyacente a los mismos

• Muestreando esta distribución se obtiene la siguiente población

• Se repiten los dos pasos anteriores hasta el criterio de terminación

EDA (Estimation of Distribution Algorithms) Mühlenbein y Paaβ, 1996

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.49/??

Page 50: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.1 Introducción iii

max h(x) =6∑

i=1

xi con xi = 0, 1

(a) D0 p0(Xi = 1) = 0,5 para i = 1, . . . , 6

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.50/??

Page 51: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.1 Introducción ivX1 X2 X3 X4 X5 X6 h(x)

1 1 0 1 0 1 0 32 0 1 0 0 1 0 23 0 0 0 1 0 0 14 1 1 1 0 0 1 45 0 0 0 0 0 1 16 1 1 0 0 1 1 47 0 1 1 1 1 1 58 0 0 0 1 0 0 19 1 1 0 1 0 0 3

10 1 0 1 0 0 0 211 1 0 0 1 1 1 412 1 1 0 0 0 1 313 1 0 1 0 0 0 214 0 0 0 0 1 1 215 0 1 1 1 1 1 516 0 0 0 1 0 0 117 1 1 1 1 1 0 518 0 1 0 1 1 0 319 1 0 1 1 1 1 520 1 0 1 1 0 0 3

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.51/??

Page 52: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.1 Introducción v

(b) |DSe0 | = 10 truncación

X1 X2 X3 X4 X5 X6

1 1 0 1 0 1 0

4 1 1 1 0 0 1

6 1 1 0 0 1 1

7 0 1 1 1 1 1

11 1 0 0 1 1 1

12 1 1 0 0 0 1

15 0 1 1 1 1 1

17 1 1 1 1 1 0

18 0 1 0 1 1 0

19 1 0 1 1 1 1

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.52/??

Page 53: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.1 Introducción vi

(c)

p1(x) = p1(x1, . . . , x6) =

6∏

i=1

p(xi|DSe0 )

modelo a aprender

p(X1 = 1|DSe0 ) = 0,7

p(X2 = 1|DSe0 ) = 0,7

p(X3 = 1|DSe0 ) = 0,6

p(X4 = 1|DSe0 ) = 0,6

p(X5 = 1|DSe0 ) = 0,8

p(X6 = 1|DSe0 ) = 0,7

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.53/??

Page 54: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.1 Introducción vii(d) muestreando p1(x) D1

X1 X2 X3 X4 X5 X6 h(x)1 1 1 1 1 1 1 62 1 0 1 0 1 1 43 1 1 1 1 1 0 54 0 1 0 1 1 1 45 1 1 1 1 0 1 56 1 0 0 1 1 1 47 0 1 0 1 1 0 38 1 1 1 0 1 0 49 1 1 1 0 0 1 4

10 1 0 0 1 1 1 411 1 1 0 0 1 1 412 1 0 1 1 1 0 413 0 1 1 0 1 1 414 0 1 1 1 1 0 415 1 1 1 1 1 1 616 0 1 1 0 1 1 417 1 1 1 1 1 0 518 0 1 0 0 1 0 219 0 0 1 1 0 1 320 1 1 0 1 1 1 5

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.54/??

Page 55: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.1 Introducción viii

(e) |DSe1 | = 10 truncación

X1 X2 X3 X4 X5 X6

1 1 1 1 1 1 1

2 1 0 1 0 1 1

3 1 1 1 1 1 0

5 1 1 1 1 0 1

6 1 0 0 1 1 1

8 1 1 1 0 1 0

9 1 1 1 0 0 1

15 1 1 1 1 1 1

17 1 1 1 1 1 0

20 1 1 0 1 1 1

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.55/??

Page 56: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.1 Introducción ix

(f) repetir• Seleccionar Se individuos de Dl obteniendo

DSel

• Aprender la distribución de probabilidad delos seleccionados

pl(x) =6∏

i=1

p(xi|DSel−1)

• Muestrear pl(x) obteniendo Dl

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.56/??

Page 57: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.1 Introducción x

BDC E(F E(G E(H EJI KL M NO O P O O OQSR TUT P P O O Q TR VU

RWRWR RWRWR RWRWR RWRWR RWRWR RWRWRX O O P P Q VR O T

B YZ\[*] F EDF EDG E H E(I KL M NO P P O O Q TR TUT O O O O Q QSR ^_

R`RWR R`RWR R`RWR R`RWR R`RWR R`RWRa K O O P P Q VR O T

ba K N Kc d efg f h a K i X eg j eL e jk M Nl

mn opE(F m n opE(Gmn opE H

q q3r ss3tmn opE(Ibu [ vxw yJz u [ vw B YZ|[*] F y

~g jk c d e fg f h d K f M e N e d f j K N

B [ EDF EDG E H E(I KL M NO O O O O Q QSR ^_T P P O O Q TR VU

R3RWR R3RWR R3RWR R3RWR R3RWR R3RWRX P P P P Q ^R T

a M N eg h f u [ vw y

s s s s s s s sa K N Kc d e fg f h a K i Xeg j eL e jk M Nl

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.57/??

Page 58: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.1 Introducción xiEDA

D0 ← Generar N individuos (la población inicial) al azar

Repetir para l = 1, 2, . . . hasta la condición de parada

DSel−1 ← Seleccionar Se ≤ N individuos de Dl−1 siguiendo

un método de selección

pl(x) = p(x|DSel−1)← Estimar la distribución de probabilidad

de los individuos seleccionados

Dl ← Muestrear N individuos (la nueva población) de pl(x)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.58/??

Page 59: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.1 Optimización combinatorial por medio del aprendizaje y la simulación de redes Bayesianas i

• Sin dependencias

• Dependencias bivariadas

• Redes Bayesianas• Ideas básicas• Aprendizaje• Simulación

• Dependencias múltiples

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.59/??

Page 60: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2 Optimización combinatorial por medio del aprendizaje y la simulación de redes Bayesianas ii

• Sin dependencias (UMDA, BSC, PBIL, cGA)• Dependencias bivariadas (MIMIC, COMIT,

BMDA)• Dependencias múltiples• FDA, EcGA• .........Redes Bayesianas• EBNA, BOA, LFDA

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.60/??

Page 61: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.1 Sin dependencias i

UMDA (Univariate Marginal Distribution Algorithm) Mühlenbein, 1998

UMDAD0 ← Generar M individuos (la poblacion inicial) al azar

Repeat for l = 1, 2, . . . hasta que se verifique el criterio de parada

DSel−1 ← Seleccionar N ≤M individuos de Dl−1 de acorde con un

metodo de seleccion

pl(x) = p(x|DSel−1) =

∏ni=1 pl(xi) =

∏ni=1

∑Nj=1 δj(Xi=xi|DSe

l−1)

N←

Estimar la distribucion de probabilidad conjunta

Dl ← Muestrear M individuos (la nueva poblacion) de pl(x)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.61/??

Page 62: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.1 Sin dependencias iiPBIL (Population Based Incremental Learning) Baluja, 1994

Obtener un vector de probabilidad inicial p0(x)

while no convergencia dobegin

Usando pl(x) obtener M individuos: xl1, . . . , xl

k, . . . , xlM

Evaluar y ordenar xl1, . . . , xl

k, . . . , xlM

Seleccionar los N (N ≤M ) mejores individuos: xl1:M , . . . , xl

k:M , . . . , xlN :M

Actualizar el vector de probabilidades pl+1(x) = (pl+1(x1), . . . , pl+1(xn))

for i = 1, . . . n dopl+1(xi) = (1− α)pl(xi) + α 1

N

∑Nk=1 xl

i,k:M

end

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.62/??

Page 63: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.1 Sin dependencias iiicGA (compact Genetic Algorithm) Harik et al., 1998

Paso 1. Inicializar el vector de probabilidades p0(x)p0(x) = p0(x1, . . . , xi, . . . , xn) = (p0(x1), . . . , p0(xi), . . . , p0(xn)) =(0,5, . . . , 0,5, . . . , 0,5)

Paso 2. l = l + 1. Muestrear pl(x) with l = 0, 1, 2, . . . obteniendo dosindividuos: xl

1, xl2

Paso 3. Evaluar y ordenar xl1 and xl

2 obteniendo:xl

1:2 (el mejor) y xl2:2 (el peor)

Paso 4. Actualizar el vector de probabilidades pl(x) hacia xl1:2

for i = 1 to n

if xli,1:2 6= xl

i,2:2 entoncesif xl

i,1:2 = 1 entonces pl(xi) = pl−1(xi) + 1K

if xli,1:2 = 0 entonces pl(xi) = pl−1(xi)− 1

KPaso 5. Chequear si el vector de probabilidades pl(x) ha convergido

for i = 1 to n doif pl(xi) > 0 y pl(xi) < 1 entonces volver al Paso 2

Paso 6. pl(x) representa la solucion final

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.63/??

Page 64: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.1 Sin dependencias iv

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.64/??

Page 65: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.2 Dependencias bivariadas i

MIMIC (Mutual Information Maximization for Input Clustering) De Bonet y col., 1997

pπl (x) = pl(xi1 |xi2 ) · pl(xi2 |xi3 ) · . . . · pl(xin−1 |xin ) · pl(xin )

donde π = (i1, i2, . . . , in) es una permutación de los índices 1, . . . , n

• en cada generación tratar de encontrar la permutación π que minimiza la distanciade Kullback-Leibler entre pπ

l (x) y p(x|DSel−1)

• algoritmo voraz basado en la teoría de la información• buscar la variable Xin con menor entropía• en cada paso seleccionar –del conjunto de variables no elegidas hasta el

momento– la variable cuya entropía condicional media con respecto a lavariable seleccionada en el paso anterior es mínima

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.65/??

Page 66: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.2 Dependencias bivariadas ii

• COMIT (Combining Optimizers with Mutual Information Trees)Baluja y Davies, 1997

pl(x) =n∏

i=1

pl(xi|xj(i))

• en cada generación se utiliza una adaptación del algoritmoMWST de Chow y Liu, 1968 para buscar, para cada variableXi, la variable Xj(i):

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.66/??

Page 67: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.2 Dependencias bivariadas iii• para cada par de variables calcular:

I(Xi, Xj) =∑

xi,xj

p(xi, xj) logp(xi, xj)

p(xi)p(xj)

• asignar las dos ramas más largas al árbol que se estáconstruyendo

• examinar la siguiente rama más larga y añadirla al árbol amenos que forme un ciclo, en cuyo caso descartar la ramaactual y considerar la siguiente más larga

• repetir los pasos anteriores hasta que se hayanseleccionado n− 1 ramas

• pl(x) puede ser calculado seleccionando al azar un nodoraíz y siguiendo la estructura de árbol obtenida

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.67/??

Page 68: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.2 Dependencias bivariadas iv

BMDA (Bivariate Marginal Distribution Algorithm)Pelikan y Mühlenbein, 1998• Basado en la construcción de un grafo de

dependencias: conjunto de árboles nonecesariamente conexos

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.68/??

Page 69: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.2 Dependencias bivariadas v

• Escoger al azar una variable como nodo raiz• Seleccionar de entre las variables no

incorporadas al árbol la que tenga mayordependencia (test chi-cuadrado) concualquiera de las previamente incorporadas

• Repetir el paso anterior hasta que ninguna delas variables que quedan fuera pase el test.En ese momento seleccionar al azar unavariable de entre las que faltan por incorporarcomo nodo raiz de un nuevo árbol

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.69/??

Page 70: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.2 Dependencias bivariadas vi

a) MIMIC structure

b) Tree structure c) BMDA

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.70/??

Page 71: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.3 Dependencias múltiples i

• EBNA (Estimation of Bayesian NetworkAlgorithm) Etxeberria y Larrañaga, 1999• uso de redes Bayesianas para aprender y

simular pl(x|DSel−1)

• M0 es un DAG sin ningún arcop(Xi = xi) = 1

ri, i = 1, . . . , n

• la búsqueda voraz comienza con elmodelo obtenido en la generación previa

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.71/??

Page 72: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.3 Dependencias múltiples ii

EBNABIC

M0 ← (S0, θ0)

D0 ← Muestreando M0, obtener N individuosRepetir para l = 1, 2, . . . hasta que se cumpla el criterio de parada

DSel−1 ← Seleccionar Se individuos de Dl−1

S∗l ← Buscar la estructura que maximice BIC(Sl, DSel−1)

θl ← Calcular θlijk =

N lijk+1

N lij+ri

usando DSel−1 como conjunto de datos

Ml ← (S∗l , θl)

Dl ← Utilizando PLS muestrear Ml para obtener N individuos

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.72/??

Page 73: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.3 Dependencias múltiples iii• BOA (Bayesian Optimization Algorithm) Pelikan y col., 1999• score: verosimilitud marginal• búsqueda: búsqueda voraz partiendo de una estructura vacía

en cada generación

• LFDA (Learning Factorized Distribution Algorithm) Mühlenbein yMahnig, 1999a• score: BIC• búsqueda: búsqueda voraz partiendo de una estructura vacía

en cada generación

• EcGA (Extended compact Genetic Algorithm) Harik, 1999• Factorización: la distribución de probabilidad conjunta se

factoriza como un producto de distribuciones marginalespl(x) =

∏C

c=1 pl(xc)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.73/??

Page 74: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.2.3 Dependencias múltiples iv

FDA EBNA, BOA EcGA

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.74/??

Page 75: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.3 Optimización en dominios continuos via aprendizaje y simulación de redes Gaussianas

• Sin dependencias (UMDAc, SHCLVND, PBILc)

• Dependencias bivariadas (MIMICc)

• Dependencias múltiples• EMNAa

• EMNAee

• EGNABIC ,• EGNABGe

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.75/??

Page 76: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.3.1 Sin dependencias i

• UMDAc (Univariate Marginal Distribution Algorithm continuous) Larrañaga y col.,2000

fl(x; θl) =

n∏

i=1

fl(xi, θli)

• en cada generación cada variable puede seguir una distribución deprobabilidad diferente

• estimación máximo verosímil de los parámetros• UMDAG

c cada variable sigue una normal univarianteθl

i = (µli, σ

li):

µli = Xi

l=

1

Se

Se∑

r=1

xli,r; σl

i =

√√√√ 1

Se

Se∑

r=1

(xli,r −Xi

l)2

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.76/??

Page 77: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.3.1 Sin dependencias ii

fN (x; µ,∑

) =n∏

i=1

fN (xi; µi, σi) =n∏

i=1

1√2πσi

e− 1

2(

xi−µiσi

)2

• SHCLVND (Stochastic Hill Climbing with Learning by Vectors of NormalDistributions) Rudlof y Köppen, 1996• el vector de medias µ = (µ1, ..., µi, ..., µn) se adapta por medio de una regla

Hebbiana:

µl+1 = µl + α · (bl − µl)

con 0 < α < 1 y bl el baricentro de los k mejores individuos• adaptación del vector de varianzas σ:

σl+1 = σl · β (β < 1)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.77/??

Page 78: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.3.1 Sin dependencias iii

fN (x; µ,∑

) =n∏

i=1

fN (xi; µi, σi) =n∏

i=1

1√2πσi

e− 1

2(

xi−µiσi

)2

• PBILc (Population Based Incremental Learning. Continuous)Sebag y Ducoulombier, 1998• dados x1,l, x2,l y xSe,l el mejor, segundo mejor y el peor

individuo en la l-ésima generación:

µl+1 = (1− α) · µl + α · (x1,l + x2,l − xSe,l)

• cuatro heurísticas de adaptación de σl+1

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.78/??

Page 79: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.3.2 Dependencias a pares iMIMICG

c (Mutual Information Maximization for Input Clustering. Continuous. Gaussian)Larrañaga y col. 2000

• La distribución marginal para cada par de variables se supone que es una normalbidimensional

• Dada una permutación π = (i1, i2, . . . , in) la factorización es:

fπ(x) = f(xi1 | xi2 ) · f(xi2 | xi3 ) · . . . · f(xin−1 | xin ) · f(xin )

• En cada generación buscar la permutación que minimiza la distancia deKullback-Leibler entre la función de densidad verdadera f(x) y las densidadesfπ(x)

• Esto es equivalente a minimizar:

Jπ(x) = h(Xi1 | Xi2 ) + h(Xi2 | Xi3 ) + . . . + h(Xin−1 | Xin ) + h(Xin )

donde h(X) es la entropía de Shannon de la variable X yh(X|Y ) = h(X, Y )− h(Y )

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.79/??

Page 80: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.3.2 Dependencias a pares ii• En el caso Gaussiano:

h(X) =1

2(1 + log 2π) + log σX

h(X | Y ) =1

2

[(1 + log 2π) + log(

σ2Xσ2

Y − σ2XY

σ2Y

)

]

donde σ2XY es la covarianza entre las variables X e Y

MIMICGc

Paso 1. Escoger in = arg mınj

σ2Xij

Paso 2. Escoger ik = arg mınj

σ2Xij−

σ2Xij

Xik+1

σ2Xik+1

j 6= ik+1, . . . , in; k = n− 1, n− 2, . . . , 1

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.80/??

Page 81: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.3.3 Dependencias múltiples i

EMNAglobal(Estimation of Multivariate Normal Algorithm. Global) Larrañaga y Lozano2001

EMNAglobal

D0 ← Generar M individuos (la poblacion inicial) al azar

Repetir for l = 1, 2, . . . hasta que se verifique el criterio de parada

DSel−1 ← Seleccionar N ≤M individuos de Dl−1 de acorde a un

metodo de seleccion

fl(x) = f(x|DSel−1) = N (x; µl,Σl)← Estimar

la funcion de densidad normal mutidimensional a partir de los individuos seleccionados

Dl ← Muestrear M individuos (la nueva poblacion) de fl(x)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.81/??

Page 82: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.3.3 Dependencias múltiples iiEMNAglobal

• µl = (µ1,l, . . . , µn,l)

• Σl con elementos: σ2ij,l with i, j = 1, . . . , n

• En cada generación hace falta estimar 2n +

n− 1

2

parámetros: n

esperanzas matemáticas, n varianzas y

n− 1

2

covarianzas

µi,l = Xli =

1

N

N∑

r=1

xli,r i = 1, . . . , n

σ2i,l =

1

N

N∑

r=1

(xli,r −X

li)

2 i = 1, . . . , n

σ2ij,l =

1

N

N∑

r=1

(xli,r −X

li)(x

lj,r −X

lj) i, j = 1, . . . , n i 6= j.

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.82/??

Page 83: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.3.3 Dependencias múltiples iii

EMNAa (Estimation of Multivariate Normal Algorithm. Adaptive) Larrañaga y Lozano,2001

EMNAa

D0 ← Generar al azar N individuos (la población inicial)Obtener la primera densidad normal multivariante N (µ0,Σ0)

Repetir para l = 1, 2, . . . hasta cumplir la condición de paradaGenerar un individuo xl

ge de N (µl,Σl)

si xlge es mejor que el peor individuo, xl,N , entonces

añadir xlge a la población y borrar xl,N de esta

obtener N (µl+1,Σl+1)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.83/??

Page 84: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.3.3 Dependencias múltiples iv

EMNAi Fórmulas de adaptaciónModificar la función de densidad multivariante:µl+1 = µl +

1

N(xl

ge − xl,N )

σ2ij,l+1 = σ2

ij,l −1

N2(xl

ge,i − xl,Ni ) ·

N∑

r=1

(xl,rj − µl

j)+

− 1

N2(xl

ge,j − xl,Nj ) ·

N∑

r=1

(xl,ri − µl

i) +1

N2(xl

ge,i − xl,Ni )(xl

ge,j − xl,Nj )+

− 1

N(xl,N

i − µl+1i )(xl,N

j − µl+1j ) +

1

N(xl

ge,i − µl+1i )(xl

ge,j − µl+1j )

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.84/??

Page 85: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.3.3 Dependencias múltiples v

EMNAi (Estimation of Multivariate Normal Algorithm incremental) Larrañaga y Lozano,2001

EMNAi

D0 ← Generar M individuos (la poblacion inicial) al azarSeleccionar N ≤M individuos de D0 de acorde con un metodo de seleccionObtener la primera densidad normal multivariante N (x; µ1,Σ1)

Repetir for l = 1, 2, . . . hasta que se verifique un criterio de paradaGenerar un individuo xl

ge de N (x; µl,Σl)

Añadir xlge a la poblacion

Obtain N (x; µl+1,Σl+1)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.85/??

Page 86: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.3.3 Dependencias múltiples vi

EMNAi Fórmulas de adaptación:

µl+1 =Nl

Nl + 1µl +

1

Nl + 1xl

ge(1)

σ2ij,l+1 =

Nl

Nl + 1σ2

ij,l +1

Nl + 1(xl

ge,i − µli)(x

lge,j − µl

j).(2)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.86/??

Page 87: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.3.3 Dependencias múltiples vii

EMNAee (Estimation of Multivariate Normal Algorithm. Edge Exclusion) Larrañaga y col.,2000

• Basado en la detección de independencias entre pares de variables

• El aprendizaje se realiza por medio de

n

2

test de exclusión de arcos

• Xi y Xj son independientes sii se acepta el siguiente test de hipótesis (Smithy Whittaker, 1998)

H0 : wij = 0 hipótesis nula

HA : wij 6= 0 hipótesis alternativa

• test de la razón de verosimilitud:

Tlik = −n log(1− r2ij|rest) con rij|rest = −wij(wiiwjj)

−1/2

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.87/??

Page 88: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

3.3.3 Dependencias múltiples viii

• EGNABIC (Estimation of Gaussian Network Algorithm. BIC) Larrañaga y Lozano,2001• score: máxima verosimilitud penalizada (BIC)• búsqueda: búsqueda voraz• primera generación: se comienza con una estructura sin arcos• el resto de las generaciones: comenzar con el modelo obtenido en la

generación previa

• EGNABGe (Estimation of Gaussian Network Algorithm. BGe) Larrañaga y col.,2000• score: verosimilitud marginal (BGe métrica Bayesiana para Gaussianas

verificando la propiedad de score equivalence)• búsqueda: búsqueda voraz• primera generación: se comienza con una estructura sin arcos• el resto de las generaciones: comenzar con el modelo obtenido en la

generación previa

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.88/??

Page 89: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4 Aplicaciones de los Algoritmos de Estimación de Distribuciones

• 4.1 Introducción

• 4.2 Algoritmos de estimación de distribuciones en optimización• 4.2.1 Introducción• 4.2.2 Problema de la mochila• 4.2.3 Problema del viajante del comercio

• 4.3 Algoritmos de estimación de distribuciones en aprendizaje automático

• 4.3.1 Introducción• 4.3.2 Selección de variables• 4.3.3 Pesado de variables en K-NN• 4.3.4 Inducción de reglas• 4.3.5 Clustering particional• 4.3.6 Ajuste de pesos en redes neuronales• 4.3.7 Inferencia abductiva en redes Bayesianas

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.89/??

Page 90: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.1 Introducción i

Optimización versus aprendizaje automático con EDAs

• Similitudes:• Ambos se pueden ver como un problema de búsqueda• Problemática común de generar soluciones factibles

• Diferencias en la evaluación:• En optimización directamente el valor de la función

objetivo• En aprendizaje automático se estima (holdout, k-fold

croos-validation, bootstrapping, ...)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.90/??

Page 91: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.2.1 Introducción i

• Dificultades al aplicar los EDAs derivadas de:• generación de soluciones factibles• utilización de codificaciones basadas en

permutaciones• Soluciones:• modificar el PLS• obtener permutaciones a partir de

simulaciones de redes Gaussianas

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.91/??

Page 92: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.2.2 Problema de la mochila i

• max∑n

i=1 bixi sujeto a•

∑ni=1 wixi ≤ C

• xi = 0, 1

• bi beneficio; wi peso; C capacidad• Problema NP-completo

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.92/??

Page 93: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.2.2 Problema de la mochila ii

• EDAs utilizados: discretos y continuos

• Codificación: binaria y permutación

• Gestión de las restricciones:• penalización• algoritmo first fit

• Inicialización:• uniforme• probabilidad proporcional al ratio (beneficio/peso)• siguiendo la siguiente distribución de probabilidad:

p0(xi) =

α si el item xi es seleccionado por el first fit

1− α si el item xi no es seleccionado por el first fit

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.93/??

Page 94: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.2.2 Problema de la mochila iii

Resultados experimentales: 50, 200, 1000

Representación binaria (200):

penalizacion first fit

unif. prop. d. prob. unif. prop. d. prob.

UMDA 7964.0 7977.3 8011.6 8018.0 8018.0 8018.2

MIMIC 7977.2 7990.2 8013.0 8017.2 8018.0 8018.6

UMDAc 7935.4 8003.8 8010.4 8016.8 8016.8 8014.5

MIMICc 7950.2 7985.0 8010.0 8017.8 8016.8 8014.1

Representación basada en permutaciones (200):

uniforme proporcional dis. prob.

UMDAc 8012.0 8012.1 8016.5

MIMICc 8005.8 8014.4 8016.2

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.94/??

Page 95: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.2.2 Problema de la mochila iv

Conclusiones:• first fit funciona mejor que la penalización• n = 50, inicialización uniforme,

representación binaria• n = 200, evaluación first fit, representación

binaria, UMDA• n = 1000, evaluación first fit, representación

basada en permutaciones y distribución deprobabilidad

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.95/??

Page 96: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.2.3 Problema del viajante de comercio i

• Problema: dado un conjunto de ciudades, yuna matriz de distancias entre pares deciudades, encontrar una ruta de costomínimo que pasa por cada ciudad una solavez y vuelve a la ciudad de origen

• Problema NP-completo• Algoritmos de búsqueda local: 2-opt, 3-opt,

etc.

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.96/??

Page 97: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.2.3 Problema del viajante de comercio ii

• EDAs discretos: UMDA, MIMIC, TREE, EBNA• EDAs continuos: UMDAc, MIMICc, EGNA,

EMNA• Codificación: basada en permutaciones• Hibridación: 2-opt• Experimentos: Gröstel24, Gröstel48,

Gröstel120

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.97/??

Page 98: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.2.3 Problema del viajante de comercio iii

Grostel24

500-sin 500-con

Mejor Media Mejor Media

Local-opt. 1272 1285

GA-ER∗ 1272 1272

GA-OX2∗ 1300 1367

UMDA 1339 1495 1272 1272

MIMIC 1391 1486 1272 1272

TREE 1413 1486 1272 1272

EBNA 1431 1528 1272 1272

UMDAc 1289 1289 1272 1272

MIMICc 1289 1289 1272 1272

EGNA 1289 1306 1272 1272

EMNA 1289 1289 1272 1272

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.98/??

Page 99: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.2.3 Problema del viajante de comercio iv

Grostel48

500-sin 500-con

Mejor Media Mejor Media

Local-opt. 5200 5290

GA-ER∗ 5074 5138

GA-OX2∗ 5251 5715

UMDA 6715 7432 5079 5149

MIMIC 6679 7083 5046 5053

TREE - - 5046 5071

EBNA 7044 7476 5165 5193

UMDAc 5142 5248 5046 5048

MIMICc 5122 5176 5046 5046

EGNA 5122 5249 5046 5046

EMNA 5336 5532 5046 5048

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.99/??

Page 100: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.2.3 Problema del viajante de comercio v

Grostel120

500-sin 500-con

Mejor Media Mejor Media

UMDA 14550 15530 7171 7257

MIMIC 13644 14432 7050 7092

UMDAc 7546 7667 7077 7113

MIMICc 7658 7767 7055 7078

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.100/??

Page 101: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.2.3 Problema del viajante de comercio vi

Conclusiones:• EDAs continuos obtienen mejores resultados

que discretos• con poblaciones pequeñas mejores

resultados que con grandes• mejores resultados con optimización local• sugerencia: combinación de EDA discretos y

continuos

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.101/??

Page 102: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.1 Introducción i

• Evaluación imprecisa: validación del modelo• entrenamiento-testeo• K-fold CV• bootstraping

• Búsqueda en el espacio de modelos

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.102/??

Page 103: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.2 Selección de variables i

• Objetivo: reducir el número de característicasde cara a mejorar el rendimiento de losalgoritmos de aprendizaje

• Variables irrelevantes, variables redundantes• Aproximación indirecta (filter), aproximación

directa (wrapper)• Clasificador Naive-Bayes• Codificación: array binario• Validación: 5×2 CV

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.103/??

Page 104: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.2 Selección de variables ii

Dimensionalidad pequeña y mediana

Dominio Num. de ejemplos Num. de variables

(1)Ionosphere 351 34

(2)Horse-colic 368 22

(3)Soybean-large 683 35

(4)Anneal 898 38

(5)Image 2,310 19

(6)Sick-euthyroid 3,163 25

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.104/??

Page 105: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.2 Selección de variables iiiDom. W. FSS SFS SBE FSS-GA-o FSS-GA-u FSS-EBNA

(1) 84,84 90,25 91,39 91,17 90,97 92,40

(2) 78,97 83,31 82,12 83,43 83,51 83,93

(3) 81,96 86,38 87,78 85,64 86,09 88,64

(4) 93,01 86,72 92,49 92,95 93,13 94,10

(5) 79,95 88,65 88,82 88,67 89,12 88,98

(6) 84,77 90,73 95,57 95,97 95,90 96,14

• Sin selección de variables (W. FSS)

• Selección secuencial hacia adelante (SFS)

• Eliminación secuencial hacia atrás (SBE)

• Algoritmo genético con cruce basado en un punto (FSS-GA-o)

• Algoritmo genético con cruce uniforme (FSS-GA-u)

• FSS-EBNA

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.105/??

Page 106: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.2 Selección de variables iv

Alta dimensionalidadDominio Num. de ejemplos Num. de variables

Audiology 226 69

Arrhythmia 452 279

Cloud 1,834 204

DNA 3,186 180

Internet advertisements 3,279 1558

Spambase 4,601 57

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.106/??

Page 107: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.2 Selección de variables vDominio Sin FSS FSS-GA-o FSS-GA-u

Audiology 52,39 68,29 68,44

Arrhythmia 39,91 63,23 64,73

Cloud 68,18 74,49 75,17

DNA 93,93 94,00 95,01

Internet adv. 95,23 96,10 96,38

Spambase 81,71 88,92 88,77

Dominio FSS-PBIL FSS-BSC FSS-MIMIC FSS-TREE

Audiology 70,22 68,29 68,88 70,09

Arrhythmia 64,62 65,01 64,33 64,51

Cloud 75,18 76,24 76,31 75,84

DNA 94,86 95,40 95,53 95,40

Internet adv. 96,49 96,37 96,46 96,69

Spambase 88,63 89,52 89,80 89,60

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.107/??

Page 108: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.3 Pesado de variables en K-NN i

• K-NN• almacena todos los conjuntos de entrenamiento• al presentarle un ejemplo de testeo, lo compara con el ejemplo del conjunto

de entrenamiento que se encuentre mas cercano• usa dicho ejemplo mas cercano para predecir la clase del ejemplo de testeo

distancia(x,y) =

√√√√n∑

i=1

wi × diferencia(xi, yi)2

• x = (x1, ..., xi, ..., xn), y = (y1, ..., yi, ..., yn) son ejemplos de entrenamiento• wi denota el peso asignado a la variable Xi

• Objetivo: usar EDAs para buscar los pesos óptimos

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.108/??

Page 109: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.3 Pesado de variables en K-NN ii

• Codificación: w = (w1, ..., wi, ..., wn)• Discreta: 0,0, 0,5, 1,0• Continua: wi ∈ IR

• Aproximación wrapper: clasificador1-NN• Validación: 5×2 CV

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.109/??

Page 110: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.3 Pesado de variables en K-NN iii

Dominio Número de ejemplos Número de variables

(1)LED24 600 24

(2)Waveform-21 600 21

(3)3-Weights 600 12

(4)C-Weights 600 10

(5)Glass 214 9

(6)CRX 690 15

(7)Vehicle 846 18

(8)Contraceptive 1,473 9

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.110/??

Page 111: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.3 Pesado de variables en K-NN iv

Dominio no-FW DIET-10 GA-o EBNA IB4 EGNA

(1) 47,37 63,84 68,64 69,03 66,70 61,55

(2) 76,20 76,66 76,71 76,87 77,96 76,90

(3) 77,19 81,91 82,88 85,99 80,32 82,00

(4) 81,01 83,55 83,93 83,55 81,98 84,33

(5) 64,85 71,34 71,32 71,12 61,13 70,09

(6) 81,56 82,12 83,14 83,74 85,48 82,17

(7) 67,33 68,71 69,86 69,43 64,65 69,58

(8) 43,61 47,54 48,10 48,32 45,66 44,95

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.111/??

Page 112: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.4 Inducción de reglas i• Reglas SI-ENTONCES• simplicidad, transparencia y comprensión

• Notación:• X = X1, X2, . . . , Xn variables predictoras• C etiqueta de clase• |Xi| = ri

• |C|• Codificación: n + 1 variables• las primeras n posiciones representan antecedentes de

las reglas• la última posición representa el consecuente

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.112/??

Page 113: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.4 Inducción de reglas iiX1, . . . , X5 con r1 = r2 = r3 = 3 y r4 = r5 = 4, |C| = 2

(1, 2, 2, 3, 4, 1) ≡SI (X1 = 1 y X2 = 2 y X3 = 2 y X4 = 3 y X5 = 4) ENTONCES

C = 1

• Aproximación xi, cardinalidad del espacio de búsqueda:| C |∏n

i=1 ri

(1, 2, 2, 3, 4, 1) ≡ SI (X1 = 1 y X2 = 2 y X3 = 2 y X4 = 3 yX5 = 4) ENTONCES C = 1

• Aproximación xi, #, cardinalidad del espacio de búsqueda:| C |∏n

i=1(ri + 1)

(1, 2, 4, 3, 5, 2) ≡ SI (X1 = 1 y X2 = 2 y X4 = 3) ENTONCESC = 2

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.113/??

Page 114: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.4 Inducción de reglas iii

X1, . . . , X5 con r1 = r2 = r3 = 3 y r4 = r5 = 4, |C| = 2

(1, 2, 2, 3, 4, 1) ≡SI (X1 = 1 y X2 = 2 y X3 = 2 y X4 = 3 y X5 = 4) ENTONCES C = 1

• Aproximación xi, #, 6= xi, cardinalidad del espacio de búsqueda:| C |∏n

i=1(2ri + 1)

(5, 2, 7, 5, 8, 2) ≡ SI (X1 6= 1 y X2 = 2 y X3 6= 3 y X5 6= 3) ENTONCES C = 2

• Regla de complejidad aumentada, cardinalidad del espacio de búsqueda:| C |∏n

i=1(2ri + 1)k

(2, 2, 2, 1, 3, 3, 2, 1, 4, 1, 2) ≡ SI (X1 = 2 y X2 = 2 y X3 = 2 y X4 = 1 y X5 = 3)or (X1 = 3 y X2 = 2 y X3 = 1 y X4 = 4 y X5 = 1) ENTONCES C = 2

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.114/??

Page 115: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.4 Inducción de reglas iv

Dominio Número de ejemplos Número of variables

Heart 270 13

Cleveland 303 13

2-Attractors 2,000 12

Dominio CN2 RIPPER

Heart 78,17± 2,61 77,04± 1,44

Cleveland 79,84± 3,18 78,88± 3,30

2-Attractors 87,05± 0,85 81,15± 0,88

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.115/??

Page 116: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.4 Inducción de reglas v

Disyunción de dos reglas simples

Dominio UMDA TREE EBNA

Heart 77,33± 0,42 77,11± 1,46 79,70± 1,91

Cleveland 77,35± 0,82 78,41± 0,89 77,22± 0,96

2-Attractors 77,34± 0,25 75,10± 0,62 76,96± 0,40

Disyunción de 4 reglas simples

Dominio UMDA TREE EBNA

Heart 80,22± 2,08 77,92± 2,36 80,07± 1,23

Cleveland 78,01± 1,70 78,48± 1,58 78,08± 1,50

2-Attractors 80,85± 0,37 78,27± 0,62 80,15± 0,33

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.116/??

Page 117: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.5 Clustering i

• Problema: distribuir n objetos en k clusters

• Cardinalidad del espacio de búsqueda:

S(n, k) =1

k!

k∑

j=1

(−1)k−1

k

j

jn

• k-Medias:

k-Medias (k clusters, i iteraciones) Tomar los k primeros objetos como clusters inicialesRepetir para cada objeto

Asignar el objeto al cluster más cercanoCalcular los nuevos centroides de los clusters

Hasta ningún objeto cambia de grupo o número de iteraciones > i

• EDAs como método alternativo a k-Medias

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.117/??

Page 118: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.5 Clustering ii

• Codificación: 6 objectos en 3 clusters,A, B, C, D, E, F particionado como sigue:A, B, E, C, D, F, la codificación es:(1, 2, 3, 3, 2, 3)

• Una partición es legal si aparecen los kvalores =⇒ adaptar PLS

• Minimizar la función:

F (W, C) =k∑

i=1

n∑

j=1

uijD(vj, ci)

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.118/??

Page 119: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.5 Clustering iii

No. Clusters No. Objetos No. Variables

Cleveland 4 303 14

Wine 3 178 13

Iris 3 150 5

Soybean 4 47 36

Voting 2 345 17

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.119/??

Page 120: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.5 Clustering iv

Resultados for Cleveland (k-Medias: 10048.9)

Tamano Heur. GA BSC MIMIC TREE EBNABIC

200 Ninguno 14514.2 9994.2 9755.8 10442.2 9709.2

200 Hıbrido 14502.6 9841.0 9739.9 10523.8 9705.0

500 Ninguno 14636.6 9763.3 9728.7 9956.1 9704.7

500 Hıbrido 14907.8 9717.9 9702.9 9836.9 9703.7

1000 Ninguno 14668.8 9734.7 9719.0 9797.0 9738.7

1000 Hıbrido 15021.2 9718.4 9698.5 9692.3 9711.0

• EDAs mejoran los resultados obtenidos por k-Medias y algoritmos genéticos

• Mejores resultados con la aproximación híbrida

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.120/??

Page 121: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.6 Ajuste de pesos en redes neuronales i

• Motivación: BP riesgo de quedarse atrapado enmínimos locales

• Objetivo: comparar BP, GAs, ESs, EDAs

• Codificación: cada peso se asocia con cada variable

• Minimizar RMSE (rooted mean square error)

• Experimentos: base de datos ECOLI, predicción de lalocalización de proteinas en células eucariotidas, 336ejemplos, 8 variables descriptivas, 8 clases,arquitectura de la red neuronal 8-4-2-8

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.121/??

Page 122: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.6 Ajuste de pesos en redes neuronales ii

Algoritmo error–entrenamiento error–testeo–5CV porcen–test–5CV

BP 0.2584±0.005 0.1289±0.001 8.3333±6.390

GA 0.1968±0.016 0.1001±0.003 47.8308±7.894

ES 0.1667±0.008 0.0891±0.002 65.8929±2.530

UMDAc 0.1830±0.006 0.0808±0.002 58.5970±5.928

MIMICc 0.1778±0.013 0.0802±0.001 58.5075±4.815

GA+BP 0.3004±0.012 0.1522±0.004 8.0398±5.992

ES+BP 0.1925±0.020 0.0939±0.001 53.5417±4.251

UMDAc+BP 0.2569±0.006 0.1593±0.001 9.8209±6.943

MIMICc+BP 0.2587±0.006 0.1585±0.001 10.4179±7.328

• Ordenación de los algoritmos respecto al error-testeo-5CV: MIMICc, UMDAc, ES,ES+BP, GA, BP, resto de híbridos

• La aproximación híbrida funciona peor que la no híbrida

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.122/??

Page 123: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.7 Inferencia abductiva en redes Bayesianas i

Tipos de razonamiento en una red Bayesiana sobre X = X1, . . . , Xn• Propagación de la evidencia: p(xi|XO = xO)

• Inferencia abductiva total ≡ explicación mas probable (MPE):

x∗U = arg max

xUp(xU |XO = xO)

XU = X \XO variables no observadas

• Inferencia abductiva parcial ≡ problema de búsqueda del máximo a posteriori(MAP):

x∗E = arg max

xEp(xE|XO = xO) = arg max

xE

xR

p(xE, xR|xO)

XE ⊂ XU conjunto de explicación, XR = XU \ XE

En general x∗E no coincide con la configuración que se obtiene al quitar de x∗

U laparte que no está en XE

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.123/??

Page 124: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.7 Inferencia abductiva en redes Bayesianas ii

• Objetivo: usar EDAs para buscar x∗E

• Codificación: un individuo es un posible valordel conjunto de explicación

• Función de evaluación: basada en el junctiontree

• Interés en encontrar los K mejores MAPs

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.124/??

Page 125: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.7 Inferencia abductiva en redes Bayesianas iii

#exp. |XE | red XE |ΩXE|

1 18 Alarm pseudo-random 143,327,232

2 19 Alarm pseudo-random 214,990,848

3 20 Alarm pseudo-random 382,205,952

4 30 random100 pseudo-random 1,073,741,824

5 30 random100e pseudo-random 1,073,741,824

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.125/??

Page 126: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.7 Inferencia abductiva en redes Bayesianas iv

%mass1′ %mass10′ %mass25′ %mass50′

UMDA 80.77 ± 10 75.16 ± 12 71.07 ± 12 68.25 ± 12

MIMIC 85.21 ± 12 80.43 ± 15 76.66 ± 17 74.19 ± 17

EBNA 95.56 ± 09 93.62 ± 12 92.44 ± 14 91.75 ± 16

GA 97.04 ± 00 89.63 ± 01 85.16 ± 01 83.19 ± 02

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.126/??

Page 127: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

4.3.7 Inferencia abductiva en redes Bayesianas iv

0

10

20

30

40

50

60

70

80

90

100

500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500

%m

ass1

Number of different evaluated individuals

UMDAMIMICEBNA

GA

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.127/??

Page 128: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

5. Conclusiones

• EDAs como una nueva herramienta en computación evolutiva

• Basados en el aprendizaje de una distribución de probabilidadconjunta (la de los mejores individuos en cada generación) y suposterior simulación

• Las relaciones entre las variables utilizadas para codificar lospuntos del espacio de búsqueda se explicitan

• Buen comportamiento en problemas con funciones objetivo decomputación costosa

• En problemas de búsqueda de la mejor permutación, EDAscontinuos mejores resultados que EDAs discretos

• Muchas posibilidades de investigar en este área de lacomputación evolutiva

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.128/??

Page 129: Algoritmos de Estimacion· de Distribuciones …neo.lcc.uma.es/pdf-charlas/EDA.pdfAlgoritmos de Estimacion· de Distribuciones = Computacion· Evolutiva + Modelos Gracos· Probabil·

Referencias

• P. Larrañaga, J. A. Lozano (2001) (editores) Estimation of Distribution Algorithms.A New Tool for Evolutionary Computation. Kluwer Academic Publishers.

• P. Larrañaga, J. A. Lozano (2002) (editores invitados) Número especial tituladoSynergies between Probabilistic Graphical Models and Evolutionary Computationen International Journal of Approximate Reasoning.

• Workshop titulado Optimization by Building and Using Probabilistic Models.OBUPM’2000 dentro del congreso GECCO’2000. Las Vegas 2000.

• Workshop titulado Optimization by Building and Using Probabilistic Models.OBUPM’2001 dentro del congreso GECCO’2001. San Francisco 2001.

• Workshop titulado Optimization by Building and Using Probabilistic Models.OBUPM’2002 dentro del congreso GECCO’2002. Nueva York 2002.

• International Symposium on Adaptive Systems. Evolutionary Computation andProbabilistic Graphical Models. ISAS1999 La Habana 1999.

• International Symposium on Adaptive Systems. Evolutionary Computation andProbabilistic Graphical Models. ISAS2001 La Habana 2001.

Algoritmos de Estimacion de Distribuciones=Computacion Evolutiva + Modelos Graficos Probabilısticos– p.129/??