para qué buscar en la base de datos de las secuencias? identificar la función estructura terciaria...

Para qué buscar en la base de datos de las secuencias?

Identificar la función Estructura terciaria de una nueva

proteína por analogía con una proteína de

función y/o estructura 3D conocida

Por qué se creo?

El método de Needleman and Wunch no funcionaba bien, trabajaba demasiado lento para las computadoras de ese tiempo.

Introducción Descrito por Lipman and Pearson

(1985)FASTA es un programa para hacer un

alineamiento rápido de pares de proteínas y secuencias ADN

Se basa en la identificación de palabras pequeñas o K-tuples, comunes a ambas secuencias bajo comparación.

K-tuplesProteínas: 1 ó 2 residuosADN: 1- 6 bases

Reminder – Dot Plot Analysis

La comparación ente k-tuples y sus derivados entre dos secuencias, pueden ser observados enfocándose en “matches” diagonales en una matriz de programación dinámica. 1 59 117 175 233 291 349 407 465 496

1

47

93

139

185

231

277

323

369

415

484

AAB04045

244000 comparisons (488 x 500)

FastAUsa una aproximación heurística para

unir K-tuples que caen muy cercanas en la misma diagonal

Las regiones formadas en esta forma contienen mismatches cayendo entre matching k-tuples.

Si un número significativo de matches es encontrado, FastA usa un algoritmo de programacion dinámica para computar alineamientos con gaps que incorporen las regiones sin gaps.

FASTAProvee una forma rápida de encontrar

extensiones cortas de secuencias similares entre una secuencia nueva y cualquier secuencia en la base de datos.

Cada secuencia es partida en pequeñas palabras de unos cuantos caracteres de longitud. Y estas palabras son organizadas en una tabla indicando donde se encuentran ellas dentro de la secuencia.

Si una o mas palabras están presentes en ambas secuencias, y especialmente si varias palabras pueden ser unidas, entonces las secuencias deben ser similares en esas regiones

FASTAMas que comparar residuos

individuales, busca palabras o patrones de secuencias emparejadas, llamadas K-tuples

Este patrón comprende K emparejamientos consecutivos en ambas secuencias.

FASTADebido a la habilidad del algoritmo de

encontrar secuencias emparejadas en la base de datos de una secuencia con gran velocidad, FASTA es útil para búsquedas rutinarias de este tipo.

Para búsquedas en ADN es teóricamente mas capaz de encontrar parejas que BLAST porque se debe usar un K-tuple menor al mínimo obligatorio uno, de 7 para el BLASTN.

¿Cómo FASTA encuentra similaridades entre secuencias?

4 steps:use lookup table to find all identities at least

ktup long, find regions of identities (Fig.1A)rescan 10 regions (diagonals) with highest

density of identities using PAM250 (Fig.1B)join regions if possible without decreasing

score below threshold (Fig.1C)rescore ala Smith-Waterman 32 residues

around initial region (Note: doesn’t save alignment) (Fig.1D)

Initial scans with ktup=1 and ktup=2

1 85 169 253 337 421 5001

67

133

199

265

331

397

463

529

595

661

695

AAB04045

1 83 165 247 329 411 4991

67

133

199

265

331

397

463

529

595

694

AAB04045

default ktup = 2 for proteins, 6 for DNA

Parametros de FASTABusca primero palabras cortas (kups-

secuencias ordenadas de k residuos) que están en la secuencia query y en el banco de datos: init 1 score.

Después, usando BLOSUM 50, el algortimo asigna un puntaje a los 10 alineamientos sin gaps y con kups mas parecidos: init n score.

Realiza un alineamiento con gaps y un alineamiento local optimo con puntaje registrado (puntaje optimizado): opt score.

FASTACuanto menor el valor de kup, mas

lenta y cuidadosa seran las busquedas; valores mayores de kup favorecen busquedas mas rapidas y con menos falsos positivos.

Los alineamientos resultantes, se basan en el algoritmo de Smith-Waterman.

Diferencias entre FASTA y BLAST(Durand et al 1997)

FASTA provee alineamientos de secuencias con espacios, pero de forma optimizada. BLAST provee alineamientos de secuencias sin espacios.

Ambos programas no usan el mismo sistema de puntaje para alinear las secuencias de las bases de datos emparejadas con la secuencia query.

ktup. Tanto FASTA como BLAST usan una estrategia de búsqueda inicial basada en palabras cortas.

ktup en FASTA es el parámetro que indica el tamaño de la palabra utilizada en esta búsqueda inicial. FASTA utiliza por default ktup=2, mientras que BLAST utiliza ktup=3. Sin embargo, FASTA sólo considera identidades respecto a la palabra, mientras que BLAST utiliza identidades y sustituciones conservativas. Por lo tanto BLAST con ktup=3 es en general más sensible que FASTA con ktup=2. FASTA con ktup=1 es más sensible, pero es también más lento.

Matrices y scores

Homólogos distantes. Existe una opción en FASTA (-F) que les permite ignorar (i.e. que no aparezcan en el output) secuencias altamente similares al query. Esto es útil, por ejemplo, para focalizar una búsqueda en las secuencias más divergentes. No existe una opción similar en BLAST.

Filtrado de secuencias de baja complejidad. Por default, BLAST filtra secuencias de baja complejidad o repeticiones. FASTA no!.Esto puede afectar la capacidad de discriminar falsos positivos, aunque FASTA provee otro tipo de opciones para manejar este tipo de casos. Ver la sección específica sobre este punto más abajo

Secuencias cortas. Ya sea que busquen un primer o un péptido, si quieren utilizar BLAST o FASTA para esto, tengan en cuenta que BLAST es generalmente inútil al respecto. Esto es porque BLAST tiene un límite inferior sobre la longitud que puede tener una palabra (ktup). En el caso de nucleóti

dos, el límite inferior es 7 (el default es 11). En este sentido FASTA es mejor, porque siempre pueden usar ktup=1. Por otra parte, en el caso específico de péptidos, FASTA provee algunos algoritmos particulares de búsqueda (fastf3, fasts3 y tfasf3, tfasts3).

Muchas secuencias son altamente repetitivas. Si la secuencia query contiene regiones de baja complejidad o repeticiones, es posible que una búsqueda encuentre muchas secuencias no relacionadas, con altos scores (por ej hits contra colas de poly-A o regiones ricas en Prolina).En otros casos, la secuencia puede contener vector (plásmido) o repeticiones como Alu, que ustedes pueden querer omitir en la búsqueda.

BLAST permite filtrar el primer tipo de casos, mediante la opción -F.

FASTA en cambio no provee esta alternativa. Es el usuario el que tiene que filtrar el query antes de realizar una búsqueda.

Versiones de FASTAFASTA: compara secuencia de una proteina

Query / biblioteca de secuencias de proteínas.TFASTA: compara secuencia de una proteina

Query / biblioteca de secuencias de ADNFASTF/TFASTF y FASTS/TFASTS: compara

pequeños fragmentos de pépticos / base de datos de secuencias de proteína (FASTF/FASTS) o base de datos de secuencias de ADN (TFASTF/TFASTS).

FASTX y FASTY: Traduce una secuencia de ADN en sus 3 regiones de marco de lectura forward y compara estos 3 marcos con una base de datos de proteínas.

TFASTX y TFASTY: compara una secuencia de proteínas con una base de datos de ADN traduciendo cada secuencia de ADN en sus 6 posibles marcos de lectura.

Ejemplo:Realizaremos un FASTA de la secuencia de M.

bovisMBOVIS(MrWr)

MRALIIVDVQNDFCEGGSLAVTGGAALARAISDYLAEAADYHHVVATKDFHIDPGDDFSGTPDYSSSWPPHCVSGTPGADFHPSLDTSAIEAVFYKGAYTGAYSGFEGVDENGTPLLNWLRQRGVDEVDVVGIATDHCVRQTAEDAVRNGLATRVLVDLTAGVSADTTVAALEEMRTASVELVCSPDGTA

para qué buscar en la base de datos de las secuencias? identificar la función estructura terciaria...

Documents