blast fasta electiva4 - universidad nacional de...
Post on 16-Aug-2020
6 Views
Preview:
TRANSCRIPT
23/3/10
1
EMILIANO BARRETO H. Profesor Asociado
Pregunta Biológica y contexto de la búsqueda
Secuencia Problema
BD de secuencias
Parámetros del programa (Sistema de puntaje)
comparación
Similaridades observadas
(alineamientos, puntajes)
Interpretación Biológica Estadística
Inferencias Biológicas Características estructurales, funcionales,
evolutivas
“El principal motivo fue hacer la comparación de una secuencia contra todas las secuencias de
una base de datos en un tiempo razonable”
Por Qué Algoritmos Heurísticos?
23/3/10
2
ALGORITMOS HEURÍSTICOS
Disminuyen el espacio de búsqueda
Restringe el proceso de alineamiento: A secuencias seleccionadas A algunas porciones de las secuencias
No garantizan encontrar la solución optima
Son mucho mas rápidos (> 50x).
Loa métodos mas conocidos: BLAST FASTA
BLAST vs. FASTA
• FASTA es teóricamente mas sensible para secuencias relacionadas distantemente que BLAST
• FASTA no filtra regiones de baja complejidad
• La significancia de los hits de BLAST es resuelto teóricamente
• La significancia de FASTA es determinada con base en la distribución de hits en la base de datos
• Mínima longitud de palabra para FASTA es 1
23/3/10
3
• Una búsqueda se inicia si hay dos o mas hits cercanos sin gaps.
• Los hits son “palabras” idénticas.
• El parámetro de control es el tamaño de palabra. A mayor tamaño, mayor rápidez y menor sensibilidad
• Los hits se unen y se extienden. Las extensiones se pueden unir si caen dentro de una franja diagonal.
• Los mejores regiones se realinean por Smith-Waterman, por lo que incluyen gaps
(Lipman & Pearson, 1985, Pearson & Lipman 1988)
Reducir el espacio de búsqueda
¿ En qué diagonales es más probable que se encuentre el mejor alineamiento ?
Identifica todos los apareamientos K-tuple
Puntea las 10 regiones con el mejor score
Puntaje init1
Puntaje initn
Puntaje Opt
Aplica procedimiento de unión Aplica PD limitada
ALGORITMO FASTA
23/3/10
4
• La base de datos esta indexada. • Se inicia con un hit, que es una región de alto parecido (“high scoring”) • El parámetro de control define el score mínimo del parecido. Si
aumenta, la búsqueda es mas rápida y menos sensible. • Los matches se extienden sin gaps. Cuando el score de un extremo se
vuelve negativo, se explora un poco mas allá, y si no se recupera, se termina la extensión.
• La expectancia esta basada en estadística Karlin-Altschul, y puede combinar varios “matches” compatibles.
• Asociado a NCBI-GeneBank
Identificación de las mejores diagonales utilizando criterios de semejanza
ALGORITMO BLAST1 Primer paso:
Para cada posición p de la secuencia problema, encuentra la lista de palabras de longitud w con mas puntaje que T cuando aparean con la palabra que inicia en p:
Lista de palabras de longitud w, con mayor puntaje que T
con p-palabras
p-palabra
Segundo paso:
Para cada lista de palabras, identifique todos los apareamientos exactos con secuencias de la bases de datos:
p-palabra Lista de palabras
Secuencias de las Bases de datos
Tercer paso:
Para cada “HIT” extender alineamiento sin gap en ambas direcciones. Para cuando S disminuye para mas que X desde el mas alto valor alcanzado por S.
HSP= Par de segmentos con alto puntaje
MSP= Par de segmento máximo
Reportar todos los HSPs que tienen puntaje S sobre un limite, o equivalentemente, que tengan valor E por debajo un limite
valor E = el número de HSPs tienen puntaje S (o mayor) que se espera que ocurran solamente por azar
Aplicar estadísticas de suma para evaluar la significancia de una combinación de HSPs involucrando la misma secuencia de BD
ALGORITMO BLAST1
23/3/10
5
Punt
aje
acum
ulad
o
Extensión sin gaps de “Hits”
Extensión del hit
• Bit Score – el bit score es calculado con base en la frecuencia de un particular par
de a.a. alineado comparado con la frecuencia del mismo par de a.a. en una secuencia al azar
• Valor-E – indica significancia estadística
>El bit score es siempre el mismo para un query y el Valor-E depende de la
base de datos utilizada
Primer paso: Como con BLAST1, genera listas de palabras con puntaje mayor que T con palabras de la secuencia problema
Segundo paso: Generación de hits: identifica todos las palabras apareadas en secuencias de la BD
Tercer paso: extensión de hits: requiere un segundo hit sobre la misma diagonal a una distancia menor que A
NCBI-BLAST2
Necesidades de los “dos hits”
Este paso genera HSPs sin gaps Cuarto paso: extensión con gaps de los HSPs con puntaje por encima de un limite S g
23/3/10
6
BLAST CON GAPS
Similar a un BLAST clásico, pero:
• Requiere 2 hits cercanos para comenzar la extensión.
• Si la extensión produce un segmento de suficiente puntaje, se inicia un alineamiento con gaps.
• Solo si la expectancia (E- value) del alineamiento es suficientemente baja, se le reporta.
• BLAST es una familia de programas:
– BLASTN – Compara la secuencia de nucleótidos contra bd de nucleótidos.
– BLASTP – Compara la secuencia problema de aminoacidos contra bd de proteínas
– BLASTX - Compara la secuencia problema de nucleótidos traducida en sus seis posibles marcos de lectura contra una base de datos de
secuencias de proteínas. – TBLASTN - Compara la secuencia problema de aminoácidos contra
toda bd de nucleótidos traducida en sus seis posibles marcos de lectura.
– TBLASTX - Compara la secuencia problema de nucleotidos traducida en sus 6 marcos de lectura contra bd de nucleótidos traducida en sus 6 marcos de lectura
PSI-BLAST Position Specific Iterated BLAST
23/3/10
7
PHI-BLAST Pattern-Hit Initiated BLAST
– Mezcla de búsquedas de patrones y alineamiento de secuencias.
– Inicia con una secuencia y un patrón
– Busca todas aquellas secuencias que presenten ese patrón.
– Comprueba que las regiones vecinas al patrón sean parecidas entre las secuencias
Otros BLAST??????
– makemat y copymat:
– rps-blast:
– megablast:
– Blastclust
top related