alineamiento multiple: metodos alternativos grace velapatiño maría jesús olarte sofía espinoza...

Post on 02-Feb-2016

229 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ALINEAMIENTO MULTIPLE:METODOS ALTERNATIVOS

Grace VelapatiñoMaría Jesús Olarte

Sofía EspinozaJimena Murguía

Alineamiento de dos secuencias - mismo principio - alineamiento múltiple

Alinear óptimamente las secuencias para obtener el mayor numero de caracteres similares dentro de la misma columna

del alineamiento

Métodos usados para alineamiento múltiple

1) Alineamiento global progresivo de las secuencias - comienzan con un alineamiento de las secuencias mas parecidas y luego construyen un alineamiento adicionando mas secuencias. ( CLUSTAL)

2) Métodos iterativos que se basan en hacer un alineamiento inicial de grupos de secuencias y luego revisan los alineamientos para lograr un resultado mas razonable.( DIALING)

3) Métodos estadísticos y modelos probabilísticos de las secuencias.( modelos de Markov)

1) Alineamientos basados en patrones conservados encontrados en el mismo orden en las secuencias.

Método progresivo

•ClustalW

Hay tres etapas importantes:

1.Hacer un alineamiento por pares

2.Crear un árbol filogenetico

3.Usar el árbol filogenético para llevar a cabo el alineamiento múltiple

Principales problemas

•Dependencia de los alineamientos de los pares iniciales utilizados.

•Escoger una matriz adecuada y penalidad de gaps.

METODOS ITERATIVOSMETODOS ITERATIVOS

Métodos Iterativos

Objetivo: Mejorar el score general del alineamiento (Suma de pares*)

Realinear repetidamente subgrupos de las secuencias y luego alinear éstos en un alineamiento global de todas las secuencias

Selección de los grupos: Orden de las secuencias en un árbol filogenético

Secuencia separadas

Selección aleatoria

Programas: PRRP, DIALIGN, SAGA, etc.

Repetitivo: Instrucciones ejecutadas múltiples veces, genera aproximaciones sucesivas a una solución

Algoritmo Genético

Simulación de los cambios evolutivos en

secuencias.

Mediante rearreglos

Score cada vez más alto para el

AM

Programa SAGA (Sequence Alignment by Genetic Algorithm)

Equivalencias

Población: grupo de secuencias alineadas

Fitness: score

Generación: grupo de alineamientos resultantes de cambios en el grupo inicial o anterior

Operadores genéticos: mutaciones (inserciones: gaps) y recombinación (rearreglos)

Pasos del algoritmo

Población inicial

Se pone a prueba el fitness de cada individuo

Individuos con el mejor fitness son

seleccionados

Son modificados

Mutación Recombinación

Nueva población

Terminación

Se alcanzó número máximo de

generaciones o fitness satisfactorio

Población de msa

Se determina un score para cada msa

Score1 Score2 Score3 Score4

Fitness

msas con los mejores scores

Directamente a siguiente generación

Los demás msas

Siguiente generación

Mutación

Inserción de gaps

Mover bloque

s de gaps

RecombinaciónCondiciones de

terminación

Nuevos msa

Nueva población

Pasos del algoritmo

MODELO OCULTO DE MODELO OCULTO DE MARKOV (HHM)MARKOV (HHM)

Modelo oculto de Markov (HMM) Modelo oculto de Markov (HMM)

Modelo estadístico que asume que el sistema a modelar sigue un PROCESO DE MARKOV de parámetros desconocidos dependencia del evento anterior

OBJETIVO determinar los parámetros desconocidos (ocultos) a partir de parámetros observables.

salidas observables

estados ocultos

probabilidades de transición

probabilidades de salida

•En el HMM el estado no es visible más sí las variables influidas por el estado.

•Cada estado tiene una distribución de probabilidad sobre los posibles símbolos de salida.

•En el modelo de Markov normal los estados son visibles. (a son los únicos parámetros)

HMM en el MSAHMM en el MSA

•Método que considera todas las posibles combinaciones de matches, mismatches, gaps y las transiciones para generar un alineamiento de un conjunto se secuencias.

•HMM aparte de ser utilizado para MSA también se utiliza para analizar la composición de secuencias, para localizar genes prediciendo ORF y para producir predicciones de estructuras secundarias de proteínas.

En los términos de un típico modelo oculto de Markov:

Estados observables columnas individuales del alineamiento

A C A - - - A T G T C A A C T A T C A C A C - - A G C A G A - - - A T C A C C G - - A T C

Estados ocultos la supuesta secuencia ancestral desde la cual las secuencias del conjunto problema se presume han descendido.

El éxito de un HMM depende de tener un buen modelo “a priori”.

- Cada columna es un estado

- Contar el número de bases en cada columna (probabilidades)

Algoritmos asociados a HMMAlgoritmos asociados a HMM

ALGORITMO DE AVANCE - RETROCESO

EL algoritmo avance-retroceso: reduce la complejidad de encontrar todos los posibles caminos para alinear las secuencias.

El HMM comienza con un alineamiento al azar construye un modelo mejora las probabilidades en base a un entrenamiento iterativo se detiene cuando los alineamientos no cambian.

Algoritmos asociados a HMMAlgoritmos asociados a HMM

ALGORITMO DE BAUM-WELCH

El algoritmo de Baum-Welch utiliza una técnica iterativa que utiliza las probabilidades de transición y emisión para generar un nuevo modelo de HMM. (el proceso se repite hasta que no obtenga mejora en el modelo)

ALGORITMO DE VITERBI

El algoritmo de ViIterbi se usa para alinear sucesivamente el MSA en crecimiento con la siguiente secuencia del conjunto problema para generar un nuevo MSA. ( DIFERENTE a MDAP).

Ventajas: Ventajas:

•Usualmente un HHM arroja un MSA bueno.

•Es un método fundamentado por la teoría de la probabilidad

•No se requiere de un orden en las secuencias

•Las penalidades de inserción y deleción no son necesarias.

•Se puede utilizar información experimental

Desventajas:Desventajas:

Se necesitan al menos 20 secuencias (si no más) para poder acomodar la historia evolutiva.

SOFTWARESOFTWARE

•HMMer : realiza alineamiento de secuencias y búsqueda en bases de datos.

•SAM (Sequence Alignment and Modeling System, sistema de alineamiento y modelado de secuencia).

•SAM se ha usado como una fuente de alineamientos para predicción de estructura de proteínas y para desarrollar una base de datos de proteínas predichas en la especie de levadura S. CerevisiaeS. Cerevisiae

ALINEAMIENTOS LOCALIZADOS DE

SECUENCIAS (motif finding)

Alineamientos Localizados de Secuencias (motif finding)

Localización de motivos en MSA globales.

Dependiendo de si las regiones altamente conservadas (‘‘motivos’’) contienen o no gaps:

Profile Analysis (regiones con gaps) Block Analysis (sin gaps)

Profile Analysis (regiones con gaps) Se genera matriz, similar a una de sustitución,

denominada perfil (profile)

Buscar otras secuencias con motivos similares (otros miembros de la misma familia???)

Para refinar los alineamientos múltiples de secuencias (MSAs), mejorándolos.

Blocks Analysis (sin gaps)

Los bloques se pueden generar desde un MSA o pueden ser extraídos de secuencias sin alinear usando un conjunto precalculado de motivos previamente generado a partir de familias conocidas de genes para lo cual se han desarrollado métodos estadísticos de descubrimiento de patrones (ej: algoritmo expectación-maximización, el muestreo de Gibbs, HMM, etc).

La puntuación de los bloques depende generalmente del espaciado de los caracteres con altas frecuencias, en lugar de recaer sobre el cálculo de una matriz de sustitución explícita.

Utilidad: Alineamientos basados en patrones localmente conservados

top related