bioinformática: fundamentos y aplicaciones de actualidad curso de verano 2005 revisión de algunos...

30
Bioinformática: Fundamentos y aplicaciones de Bioinformática: Fundamentos y aplicaciones de actualidad actualidad Curso de verano 2005 Curso de verano 2005 Revisión de algunos modelos Revisión de algunos modelos probabilísticos de evolución probabilísticos de evolución genética genética (Procesos de Markov (Procesos de Markov y cadenas de Markov ocultas) y cadenas de Markov ocultas) César Sánchez Sellero César Sánchez Sellero Universidad de Santiago de Universidad de Santiago de Compostela Compostela

Upload: aureliano-canedo

Post on 28-Jan-2016

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Bioinformática: Fundamentos y aplicaciones de actualidadBioinformática: Fundamentos y aplicaciones de actualidad

Curso de verano 2005Curso de verano 2005

Revisión de algunos modelos Revisión de algunos modelos probabilísticos de evolución genéticaprobabilísticos de evolución genética

(Procesos de Markov(Procesos de Markovy cadenas de Markov ocultas)y cadenas de Markov ocultas)

César Sánchez SelleroCésar Sánchez Sellero

Universidad de Santiago de CompostelaUniversidad de Santiago de Compostela

Page 2: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

1.1. MotivaciónMotivación

2.2. ProbabilidadProbabilidad

3.3. Procesos estocásticosProcesos estocásticos

4.4. Cadenas de MarkovCadenas de Markov

5.5. Cadenas de Markov ocultasCadenas de Markov ocultas

6.6. AplicacionesAplicaciones

Page 3: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Motivación: Modelo para familias de proteínasMotivación: Modelo para familias de proteínas

m1

i1

d1

m2

i2

d2

m3

i3

d3

m4

i4

d4

m0

i0

m5

Page 4: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

ProbabilidadProbabilidad

Ejemplo. Lanzar una moneda. Ω={c, +}.

Experimento aleatorio. Es un experimento cuyos resultados posibles son conocidos de antemano, pero se desconoce cuál de ellos va a ocurrir.

Espacio muestral. Es el conjunto formado por todos los resultadosposibles del experimento aleatorio. Lo denotamos por Ω.

Suceso. Cualquier subconjunto del espacio muestral.

Suceso elemental. Es un suceso unitario. Está constituido por un único elemento.Decimos que ha ocurrido un suceso cuando se ha obtenido alguno de los resultados que lo forman.

Ejemplo. Lanzar un dado. Ω={1, 2, 3, 4, 5, 6}. A=“que salga par”={2, 4, 6}.

Page 5: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Suceso seguro. Es el que siempre ocurre, y por tanto, es Ω.Suceso imposible. Es el que nunca ocurre, y por tanto, es el vacío, Ø.

Unión. Ocurre AUB si ocurre al menos uno de los sucesos A o B.

Diferencia de sucesos. Ocurre A\B si ocurre A pero no ocurre B. A\B=A Bc.

Sucesos incompatibles. A y B son incompatibles sino pueden ocurrir a la vez. A B = Ø.

Suceso contenido en otro. Siempre que sucede A, sucede también B. A B.

Intersección. Ocurre A B si ocurren los dos sucesos A y B a la vez.

Complementario. Ocurre Ac si y sólo si no ocurre A.

Page 6: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Definición. Se define la probabilidad como una aplicación que a cada suceso le asigna un número entre cero y uno ( su probabilidad), y que cumple las siguientes condiciones:

Propiedades

i. P(Ω)=1.

ii. Si A B = Ø entonces P(AUB)=P(A)+P(B).

1. P(Ø)=0.

2. Si A1, A2, …, An son sucesos incompatibles dos a dos, entonces P(A1, A2, …, An) = P(A1) + P(A2) + … + P(An).

3. P(Ac) = 1 - P(A)

4. Si A B, entonces P(A) ≤ P(B).

5. Si A y B son dos sucesos cualesquiera, se cumple

P(AUB) = P(A) + P(B) - P(A B)

Page 7: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Asignación de probabilidadesAsignación de probabilidades

La asignación de probabilidades a veces se deduce de la estructura del experimento.

Si Ω es finito, en ciertas ocasiones podemos pensar que todos los sucesos elementales tienen la misma probabilidad (equiprobables).

Esto permite calcular la probabilidad de cualquier otro suceso mediante la regla de Laplace:

Casos favorables( )

Casos posiblesP A

Page 8: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Probabilidad condicionada. Probabilidad condicionada. Independencia.Independencia.

A

B

Bc

Ac

B

Bc

0.6

0.4

0.3

0.7

0.8

0.2

P(B/A)

P(A)

P(A B)=P(A).P(B/A)=0.6x0.3=0.18

0.42

0.32

0.08

1.00

Page 9: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Regla del productoRegla del producto

1 2 3 1 2 1 3 1 2P A A A P A P A A P A A A

3 1 2P A A A

1P A

A1

A1c

A2

A2c

A3

A3c

2 1P A A

Page 10: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Ley de las probabilidades totalesLey de las probabilidades totales

A1

A2

An

.

.

.

B

Bc

B

Bc

B

Bc

P(A1 B)=P(A1).P(B/A1)

P(A2 B)=P(A2).P(B/A2)

P(An B)=P(An).P(B/An)

P(B)

Page 11: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Teorema de BayesTeorema de Bayes

A1

A2

An

.

.

.

B

Bc

B

Bc

B

Bc

P(A1 B)=P(A1).P(B/A1)

P(A2 B)=P(A2).P(B/A2)

P(An B)=P(An).P(B/An)

1 1 11

1 1 2 2 n n

P A B P A P B AP A B

P B P A P B A P A P B A P A P B A

Page 12: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Procesos estocásticosProcesos estocásticos

Indice del proceso, t

1 2 3 4 5 6 7 8 9 10

Espacio de estados

Page 13: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Cadenas de MarkovCadenas de MarkovDefinición. Una cadena de Markov es un proceso estocástico que presenta las siguientes propiedades:

i. Es un proceso en tiempo discreto.

ii. El espacio de estados es discreto.

iii. Dependencia markoviana.

iv. Las probabilidades de transición no dependen de la etapa.

Elementos de una cadena de Markov.

1 2, , , sE E E E

11 12 1

21 22 2

1 2

s

s

s s ss

p p p

p p pP

p p p

Espacio de estados:

Matriz de transición:

1siendo ij t j t ip P X E X E

0 0 0 01 2, , , sP p p p Distribución inicial:

00siendo i ip P X E

Page 14: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Representación de una cadena de MarkovRepresentación de una cadena de Markov

1 2 3, ,E E E EEjemplo. 0 0 1

0.25 0.25 0.5

0 1 0

P

0.25

0.5

11

0.25

E1 E2

E3

Page 15: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Distribución de probabilidad en la etapaDistribución de probabilidad en la etapa t t

1 0P P P

Por la ley de probabilidades totales, la distribución de probabilidad en la primera etapa se puede obtener así

0t tP P P

Pero esto nos permite pasar también a la segunda etapa, y así sucesivamente a cualquier etapa, multiplicando por la matriz de transición tantas veces como etapas haya que recorrer.

Page 16: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Tipos de estadosTipos de estados

Efímero. Ningún estado conduce a él.

Recurrente. Si no es transitorio, esto es, si tras pasar por él, la cadena de Markov siempre regresa a él.

Absorbente. Al llegar a él, ya no se sale a ningún otro estado.

Transitorio. Tras pasar por él, al cabo de cierto número de etapas, la cadena de Markov ya no regresa a él.

Page 17: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Distribución estacionaria y comportamiento Distribución estacionaria y comportamiento límitelímite

Definición. Л es una distribución estacionaria sobre E si Л P= Л .

1. Las distribuciones estacionarias otorgan probabilidad cero a los estados transitorios.

2. Cada grupo de estados recurrentes intercomunicados tiene una única distribución estacionaria.

3. Cuando el número de etapas converge a infinito,

0 0 y tt tP S P P P P S

4. Si Rt es el número de veces que la cadena pasa por el estado Ei en las t primeras etapas, cuando t tiende a infinito,

0 casi seguro.tR P St

Page 18: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Estimación de los parámetros de una cadena de Estimación de los parámetros de una cadena de MarkovMarkov

A partir de una realización de la cadena de Markov, se pueden estimar las probabilidades de transición mediante las siguientes proporciones observadas:

Numero de transiciones observadas de a ˆ

Numero de transiciones observadas desde i j

iji

E Ep

E

Esto presenta limitaciones dependiendo de cómo haya evolucionado la realización observada. Además, no permite estimar las probabilidades iniciales.

Por estos motivos es conveniente disponer de varias realizaciones de la cadena de Markov.

Page 19: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Cadenas de Markov ocultasCadenas de Markov ocultasEn lugar de observar los estados de la cadena de Markov, observamos otros elementos, bajo ciertas probabilidades:

Elementos de una cadena de Markov oculta.

1 2, , , sE E E E

11 12 1

21 22 2

1 2

s

s

s s ss

p p p

p p pP

p p p

Espacio de estados:

Matriz de transición:

1siendo ij t j t ip P X E X E

0 0 0 01 2, , , sP p p p Distribución inicial:

00siendo i ip P X E

1, , mA a a

iB b a

Alfabeto de símbolos observables:

Probabilidades de emisión:

siendo emita el simbolo i ib a P E a

Page 20: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Tres problemasTres problemas

Llamemos λ al conjunto de parámetros del modelo de Markov oculto, y

Problema 1. Calcular P ( O / λ ) .

1, , TO O O

a una realización de la cadena de Markov oculta.

Problema 2. Encontrar la secuencia de estados

1, , TX X X

que mejor se corresponda con la secuencia observada O, bajo el modelo λ .

Problema 3. Estimar los parámetros del modelo. Lo haremos buscando λ que haga máxima P ( O / λ ) .

Page 21: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Una primera ideaUna primera idea

Si supiéramos cuál ha sido la sucesión de estados, entonces

1 21 2,

Tx x x TP O X b O b O b O

La probabilidad de una sucesión de estados es

1 1 2 2 3 1

0

T Tx x x x x x xP X p p p p

Entonces, por la ley de probabilidades totales

1 1 2 2 3 1 1 2

01 2

,

T T T

X

x x x x x x x x x x TX

P O P X P O X

p p p p b O b O b O

Page 22: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Procedimiento Adelante/Atrás (Inducción)Procedimiento Adelante/Atrás (Inducción)

Definimos las funciones adelante así:

1 2, , , ,t T t ii P O O O X E

Las funciones adelante se pueden calcular por inducción así:

01 1i ii p b O Paso inicial

1 11

s

t t ji j tj

i j p b O

Inducción

1

s

Ti

P O i

Paso final

Page 23: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Definimos las funciones atrás así:

1 2, , , ,t t t T t ii P O O O X E

Las funciones atrás se pueden calcular por inducción así:

1T i Paso inicial

1 11

s

t ij j t tj

i p b O j

Inducción

1

s

Ti

P O i

Paso final

Page 24: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Algoritmo de ViterbiAlgoritmo de Viterbi

Buscamos la cadena de estados que mejor se corresponda con la secuencia observada (problema 2). Formalizamos esto en el objetivo siguiente:

1 2 1

1 2 1 1 2, , ,max , , , , , , , ,

tt t t i t

x x xi P x x x x E O O O

Estas funciones y los argumentos donde se alcanza el máximo se pueden calcular por inducción así:

01 1 1 0i ii p b O i Paso inicial

1 11, , 1, ,

max arg maxt t ij j t t t ijj s j s

i j p b O i j p

Inducción

* *max arg maxT T Ti i

P i x i Paso final

max ,XP O X

Definimos las funciones:

* *1 1t t tx x Secuencia de

estados

Page 25: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Estimación de los parámetros del modeloEstimación de los parámetros del modelo

Lo haremos por máxima verosimilitud y aplicaremos un método de tipo EM.

1, , ,t t i t ji j P x E x E O

Se pueden calcular a partir de las funciones adelante y atrás así:

max P O

Definimos las funciones:

1 1, t ij j t tt

i p b O ji j

P O

Además podemos considerar todas las transiciones que parten de un estado:

1

,s

t tj

i i j

01

1

11

1

:

1

ˆ

ˆ t k

i

T

tt

ij T

tt

T

tt O a

i T

tt

p i

i jp

i

i

b ki

Los parámetros estimados se actualizan de la siguiente manera:

Page 26: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

AplicacionesAplicaciones

Modelos para familias de proteínasModelos para familias de proteínas Alineamiento de secuenciasAlineamiento de secuencias Descubrimiento de subfamiliasDescubrimiento de subfamilias Modelación de dominios dentro de la Modelación de dominios dentro de la

cadena de aminoácidoscadena de aminoácidos

Page 27: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Modelo para familias de proteínasModelo para familias de proteínas

m1

i1

d1

m2

i2

d2

m3

i3

d3

m4

i4

d4

m0

i0

m5

Page 28: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Alineamiento de secuenciasAlineamiento de secuencias

Una vez construido el modelo de Markov oculto y estimados sus parámetros, se puede emplear el modelo para reconstruir la sucesión de estados más probable que corresponde a cierta secuencia de aminoácidos.

Dicho de otro modo, a partir de una secuencia de aminoácidos podemos encontrar cuál es la sucesión de inserciones o supresiones que se han producido (con mayor probabilidad).

Ejemplo. Secuencias CAEFDDH y CDAEFPDDH. Modelo de longitud 10.

m0m1m2m3 m4d5d6m7m8m9m10

m0m1i1m2m3 m4d5m6m7m8m9m10

Entonces las dos secuencias se alinean así

Se ajustan las sucesiones de estados más probables y resultan

C _ A E F _ _ D D H

C D A E F _ P D D H

Page 29: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Descubrimiento de subfamiliasDescubrimiento de subfamilias

Modelo 1

Modelo 2

Modelo k

Inicio Fin

Page 30: Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos

Modelación de dominios dentro de la cadena Modelación de dominios dentro de la cadena de aminoácidosde aminoácidos

Inicio Finm0 mN+1

Modelo para el dominio

IA ID