modelos de markov escondidos (hmm) - quantil s.a.s

31
HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones Modelos de Markov Escondidos (HMM) Quantil S.A.S. Juan Pablo Lozano Julio - 2014 Juan Pablo Lozano Modelos de Markov Escondidos (HMM)

Upload: others

Post on 14-Jul-2022

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Modelos de Markov Escondidos(HMM)

Quantil S.A.S.

Juan Pablo Lozano

Julio - 2014

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 2: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

1 HMM y Redes Bayesianas

2 Modelos HMM y Algoritmos

3 Extensiones y Problemas de los HMM

4 Aplicaciones

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 3: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Definicion HMM

Un HMM esta compuesto por dos procesos estocasticos:

Un proceso ”escondido” que consta de las variables de estadoSt. Las llamaremos estados.Un proceso ”observado” de variables Yt las cuales songeneradas por la variable St. Las llamaremos observaciones.

Ambos procesos cumplen la propiedad de Markov.

Se asume que las variables escondidas son discretas. St puedetomar K valores enteros.

Las variables observadas pueden tomar valores discretos comoreales.

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 4: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

HMM Cont...Basandose en las propiedades Markovianas de los HMM, la proba-bilidad conjunta de una secuencia de estados y observaciones es lasiguiente:

P (S1:T , Y1:T ) = P (S1)P (Y1|S1)T∏t=2

P (St|St−1)P (Yt|St)

Esta factorizacion de la probabilidad conjunta se ilustra de la sigu-iente manera:

Figure: Representacion Grafica HMM

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 5: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

HMM Cont...

¿Que se necesita para calcular esta probabilidad?

Distribucion de probabilidad inicial P (S1).

Matriz K ×K de trancision.

Distribucion de output para definir P (Yt|St)

Se puede incluir un proceso de inputs Ut de las cuales dependa lamatriz de transicion, P (St|St−1, Ut)

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 6: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Redes Bayesianas

Definicion: Una red bayesiana es una representacion grafica de lasindependencias condicionales de un conjunto de variables aleatorias.

Independencia Condicional: A es condicionalmente independientede B dado C si P (A,B|C) = P (A|C)P (B|C) para todo A,B,Ctal que P (C) 6= 0.

De manera mas general: Dos conjuntos de nodos A,B son indepen-dientes condicionalmente dado C si C d-separa a A y B. Es decir,si para todo camino indirecto entre A y B, existe un nodo D talque: 1) D tiene flechas convergentes y ni D ni sus descendientesestan en C o 2) D esta en C pero no tiene flechas convergentes.

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 7: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Ej: P (W,X, Y, Z) = P (W )P (X)P (Y |W )P (Z|X,Y )

Figure: Ejemplo Red Bayesiana

Con base en este ejemplo se puede ver que W es condicionalmenteindependiente de X dado C = {Z, Y }

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 8: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Evidencia y Belief PropagationAlgoritmos para calcular probabilidades conjuntas ymarginales (Belief Propagation)Teniendo los valores de algunas variables en la red, el objetivoes actualizar la probabilidad marginal de todas las variables enla red para incorporar esta evidencia.Mensajes locales

Figure: Ejemplo Red BayesianaJuan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 9: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

P (n|e) ∝

[ ∑p1,...,pk

P (n|p1, . . . , pk)k∏i=1

P (pi|e+(pi)

]l∏

j=1

P (cj , e−(cj)|n)

En el ejemplo se tiene, por ejemplo, lo siguiente si se observa queZ = z,X = x.

P (Y |Z = z,X = x) ∝ P (Y )P (Z = z|X = x, Y )P (X = x)

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 10: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Redes Bayesianas Dinamicas y Modelos Espacio-Estado

Redes Bayesianas Dinamicas: Son redes bayesianas para modelarseries de tiempo (HMM).

Modelos Espacio-Estado: Son HMM en los cuales las variablesobservadas son vectores D-dimensionales con valores reales. Lo es-pecial de estos modelos es lo siguiente:

La probabilidad de transicion P (Xt|Xt−1) se puededescomponer en componentes deterministicos y estocasticos.Es decir: Xt = ft(Xt−1) + wt.

De igual manera P (Yt|Xt) se puede descomponer comoYt = gt(Xt) + vt

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 11: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Si ft y gt son lineales e invariantes bajo el tiempo, y los ruidos tienendistribucion Normal entonces el modelo se conoce como ModelosEspacio-Estado lineal Gaussiano.

Xt = AXt−1 + wt; Yt = CXt + vt

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 12: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Elementos de HMM

Matriz de transicion entre estados A.

Matriz de probabilidades de observacion B.

Distribucion de probabilidad inicial π

Numero de estados N

El numero de valores de los estados K.

El numero de valores de las observaciones M

Tiempo T .

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 13: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Preguntas sobre HMM

Dada la estructura de un HMM, surgen tres problemas claves paraque estos modelos se implementen en la vida real.

1 Teniendo una secuencia de observaciones Y = Y1, . . . , YT yun modelo M = (A,B, π), ¿Como se calcula P (Y |M), laprobabilidad que las observaciones se ajusten al modelo?

2 Teniendo una secuencia de observaciones Y = Y1, . . . , YT¿Como se escoge una secuencia de estados S1, . . . , ST que seaoptima en algun sentido?

3 ¿Como ajustar los parametros del modelo M = (A,B, π) paramaximizar P (Y |M)?

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 14: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Algoritmo Forward-Backward

Objetivo: Calcular P (St|Y1, . . . , YT )

El algoritmo se divide en dos pasos: el paso Forward y el pasoBackward.

En el paso Forward se define αt(St) = P (St, Y1, . . . , Yt) y laidea es encontrar cada αt(St) de forma iterativa.

En el paso Backward se definen βt(St) = P (Yt+1, . . . , YT |St)y de igual manera, se quieren encontrar de forma iterativa.

Al final obtendremos que

P (St|Y1, . . . , YT ) ∝ αt(St)βt(St)

Luego es un algoritmo que permite hacer inferencia sobre losestados basandose en las variables observables.

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 15: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Algoritmo Forward

Objetivo: Lograr calcular P (St, Y1, . . . , Yt), ∀t sabiendo M = (A,B, π).

Algoritmo:

1 Se inicializa α1(S1) = πS1P (Y1|S1)2 Para t = 1, . . . , T − 1 y 1 ≤ St ≤ K

αt(St) =∑St−1

αt−1(St−1)P (St|St−1)P (Yt|St)

Lo interesante de este algoritmo es que la complejidad computa-cional es del orden de O(TK2), en vez de O((2T − 1)KT .

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 16: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Algoritmo Backward

Objetivo: Lograr calcular P (Yt+1, . . . , YT |St), ∀t sabiendo M =(A,B, π).

Algoritmo:

1 Se inicializa βT (ST ) = 1

2 Para t = T − 1, . . . , 1 y 1 ≤ St ≤ K

βt(St) =∑St

βt+1(St+1)P (St+ 1|St)P (Yt+1|St+1)

Este algoritmo tambien tiene complejidad computacional del ordende O(TK2).

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 17: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Algoritmo Forward-Backward Cont...

De los pasos del algoritmo se pueden llegar a 3 posiblesformas de calcular P (Y |M)

1 P (Y |M) =∑K

ST=1 αT (ST ).

2 P (Y |M) =∑K

S1=1 β1(S1).

3 P (Y |M) =∑K

St=1 αt(St)βt(St).

Luego de hacer los pasos Forward y Backward iterativamentepara todo t, se derivan las siguientes variables:

γt(St) = P (St|Y1, . . . , YT ) =αt(St)βt(St)∑KSt=1 αt(St)βt(St)

ηt(St) =αt−1(St−1)P (St|St−1)P (Yt|St)βt(St)∑

St,St−1αt−1(St−1)P (St|St−1)P (Yt|St)βt(St)

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 18: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Algoritmo de Viterbi

Objetivo: Encontrar la cadena de estados mas probable S∗ te-niendo en cuenta las observaciones. Es decir, encontrar S∗ =argmaxS1,...,ST

P (S1, . . . , ST |Y1, . . . , YT ).

Algoritmo:

Inicializar un µ1(S1) = πS1P (Y1|S1) y Ψ1 = 0.

Para 2 ≤ t ≤ T

µt(St) = maxSt

P (Yt|St)P (St|St−1)µt−1(St−1)

Ψt(St) = argmaxSt

P (St|St−1)µt−1(St−1)

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 19: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Algortimo de Viterbi Cont...

Se definen P ∗ = maxST

µT (ST ) y i∗T = argmaxST

µT (ST ).

Ahora se hace un retroceso para poder calcular la cadena deestados usando el siguiente metodo: para t = T − 1, . . . , 1tenemos que i∗t = Ψt+1(i

∗t+1).

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 20: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Algoritmo EM

El algoritmo EM es el encargado de estimar los parametros del mod-elo para que se maximice la probabilidad que las observaciones ven-gan de un modelo con estos parametros.

Se basa en usar la logverosimilitud, encontrar una funcion que seacota inferior de ella y empezar a estimar parametros para llegar lomas cerca posible a la logverisimilitud.

La logverosimilitud es entonces: L(θ) = logP (Y |θ) = log∑

S P (Y, S|θ).

Para cualquier distribucion Q(S) sobre los estados se tiene:

L(θ) ≥∑S

Q(S)logP (S, Y |θ)−∑S

Q(S)logQ(S) = F(Q, θ)

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 21: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Algoritmo EM Cont...

Los pasos del EM son entonces los siguientes en el caso general:

Paso E: Qk+1 ← argmaxQ

F(Q, θk).

Paso M: θk+1 ← argmaxθ

F(Qk+1, θ)

El maximo en el paso E se obtiene cuando Qk+1(S) = P (S|Y, θk),lo que hace que se de la siguiente igualdad F(Qk+1, θk) = L(θk).

Entonces como antes del paso M F(Qk+1, θk) = L(θk) y el pasoE no cambia a θ, se garantiza que este metodo no disminuye laverosimilitud luego de cada paso combinado del algoritmo. Es decir,P (Y |M) ≥ P (Y |M)

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 22: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

EM para HMM

Para el caso de HMM el algoritmo EM se simplifica sustancialmenteusando los resultados obtenidos del Algoritmo Forward-Backward.

Si se aplica el logaritmo a la probabilidad conjunta de estados yobservaciones se obtiene lo siguiente:

logP (S1:T , Y1:T ) = logP (S1)+

T∑t=1

logP (Yt|St)+T∑t=2

logP (St|St−1)

Si representamos el estado St como un vector unitarioK-dimensional.(Ej. St = [0, 0, 1, 0, . . . , 0]T significa que en el tiempo t el valor deSt es 3.)

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 23: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

EM para HMM Cont...

Usando estas convenciones se tiene lo siguiente:

logP (St|St−1) = STt logφSt−1.

logP (S1) = ST1 logπ.

logP (Yt|St) = Y Tt (logE)St

Ahora, usando resultados anteriores se tiene que:

πi = γ1,i(S1,i)

Ed,i =∑T

t=1 Yt,dγt,i∑Tt=1 γt,i

φi,j =∑T

t=2 ηt,i,j∑Tt=2 γt,i

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 24: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Problemas y Generalizaciones

Aunque los HMM son bastante utiles para hacer inferencia y apren-dizaje de maquinas, pueden llegar a tener limitaciones en cuantoal numero de estados posibles y como el costo computacional queesta ligado a esto. Para poder sobrepasar estas limitaciones existenextensiones de HMM.

1 HMM Factoriales.

2 HMM con estructura de arbol.

3 Modelos de espacio con cambio de estado.

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 25: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Extensiones de HMM

Figure: Representacion Grafica HMM Factorial

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 26: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Figure: Representacion Grafica HMM Arbol

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 27: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Figure: Representacion Grafica HMM Switch

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 28: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Inferencia Aproximada e Intractabilidad

El problema con las extensiones de HMM es que algunasprobabilidades se vuelven casi imposibles de calcular pormedios convencionales por su complejidad computacional(Ej.El Algoritmo Forward-Backward para HMM Factoriales tieneorden O(TMKM+1).

Existen dos metodos para calcular probabilidades usandoaproximaciones (Inferencia Aproximada):

1 Muestreo de Gibbs: Actualizacion estocastica de las variablesde estado muestreando cada una usando la probabilidadcondicional del estado condicionado a estados cercanos a este.

2 Metodos Variacionales: Se define una distribucion parametricaQ y hacer variar los parametros de esta distibucion paraaproximar la distribucion P .

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 29: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Estructura de Modelo

Hay dos problemas muy importantes ligados al aprendizaje de HMM:overfitting y la seleccion y estructura del modelo (numero de estados,formas de las matrices de transicion y de observacion). Existen tresmetodos que permiten ayudar a lidiar con estos problemas:

1 Cross-Validation.

2 Regularizacion.

3 Integracion Bayesiana (Monte Carlo, Aproximacion de Laplacey el metodo variacional bayesiano)

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 30: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Aplicaciones

Clustering suave (Modelo de mezcla Gaussiana).

Reconocimiento de voz.

Posicionamiento de objetos.

Prediccion de texto.

Motores de busqueda (Google).

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)

Page 31: Modelos de Markov Escondidos (HMM) - Quantil S.A.S

HMM y Redes Bayesianas Modelos HMM y Algoritmos Extensiones y Problemas de los HMM Aplicaciones

Referencias

Rabiner L.R., Juang B.H., 1986. An Introduction to Hidden Markov Models.

Gahramani Z., 2001. An Introduction to Hidden Markov Models and BayesianNetworks.

Dempster A., Laird N., Rubin D., 1977. Maximum Likelihood from IncompleteData via the EM Algorithm.

Kim J., Pearl J., 1983. A computational Model for Causal and Diagnostic

Reasoning in Inference Systems.

Juan Pablo Lozano

Modelos de Markov Escondidos (HMM)