alineamiento de secuencias búsqueda de secuencias en bases de datos
DESCRIPTION
Alineamiento de secuencias Búsqueda de secuencias en bases de datos. Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín [email protected]. Finches of the Galápagos Islands observed by Charles Darwin on the voyage of HMS Beagle. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/1.jpg)
1 Fernán Agüero
Alineamiento de secuenciasBúsqueda de secuencias en bases de datos
Fernán AgüeroInstituto de Investigaciones BiotecnológicasUniversidad Nacional de General San Martín
![Page 2: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/2.jpg)
2 Fernán Agüero
Análisis comparativo
Finches of the Galápagos Islands observed by Charles Darwin on the voyage of HMS Beagle
El alineamiento de secuencias es similar a otros tipos de análisis comparativo.
En ambos es necesario cuantificar las similitudes y diferencias (scoring) entre un grupo relacionado de entidades.
![Page 3: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/3.jpg)
3 Fernán Agüero
Homología vs similitud
• Homología entre dos entes biológicos implica una herencia compartida
• Homología es un término cualitativo
• Se es homólogo o no se es
• Similitud implica una apreciación cuantitativa o una cuantificación directa de algún caracter
• Podemos usar una medida de similitud para inferir homología
![Page 4: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/4.jpg)
4 Fernán Agüero
Análisis comparativo
Los algoritmos que alinean secuencias modelan procesos evolutivos
GATTACCA
GATGACCA GATTACCA
inserción
GATTGATCA
GATTACCA GATTATCA GATTACCA
GATCATCA
sustitución deleción
GAT_ACCADeriva de un ancestro común a través de cambios incrementales debido a errores en la replicación del DNA, mutaciones, daño o crossing-over desigual.
![Page 5: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/5.jpg)
5 Fernán Agüero
Análisis comparativo
Algoritmos de alineamiento modelan procesos evolutivos
GATTACCA
GATGACCA GATTACCA
Deriva a partir de un ancestro común a través de cambio incremental. GATCATCA GATTGATCA
GATTACCA GATTATCA GATTACCA
GATACCA
Sólo las secuencias actuales son conocidas, las secuencias ancestrales se postulan.
GATCATCA GATTGATCA
GATTACCA
GATACCA
![Page 6: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/6.jpg)
6 Fernán Agüero
Análisis comparativo
La palabra homología implica una herencia común (un ancestro común), el cual puede ser inferido a partir de observaciones de similitud de secuencia.
Algoritmos de alineamiento modelan procesos evolutivos
GATTACCA
GATGACCA GATTACCA
Deriva a partir de un ancestro común a través de cambio incremental. Mutaciones que no matan al individuo pueden pasar a la población.
GATCATCA GATTGATCA
GATTACCA GATTATCA GATTACCA
GATACCA
![Page 7: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/7.jpg)
7 Fernán Agüero
Alineamientos
• Qué es un alineamiento?– El procedimiento de comparación de dos (o más)
secuencias que busca una serie de caracteres individuales o patrones de caracteres que se encuentren en el mismo orden en ambas secuencias
• Cómo alineamos dos secuencias?– a mano (como en los viejos tiempos)– usando un método/algoritmo
![Page 8: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/8.jpg)
8 Fernán Agüero
Definición de alineamiento: tipos
Alineamientos locales:
Alineamiento global:
Alineamiento:
Todas las bases se alinean con otra base o con un gap (“-”)
Cada base se usa a lo sumo una vez
No hay necesidad de alinear todas las bases
Align BILLGATESLIKESCHEESE and GRATEDCHEESE
G-ATESLIKESCHEESE or G-ATES & CHEESE
GRATED-----CHEESE GRATED & CHEESE
![Page 9: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/9.jpg)
9 Fernán Agüero
Alineamientos buenos y malos?
Cuál es el ‘mejor’ alineamiento?
GCTACTAGTT------CGCTTAGCGCTACTAGCTCTAGCGCGTATAGC
GCTACTAG-T-T--CGC-T-TAGCGCTACTAGCTCTAGCGCGTATAGC
0 mismatches, 5 gaps
3 mismatches, 1 gap
![Page 10: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/10.jpg)
10 Fernán Agüero
Cómo decidir cuál es el mejor?
• Respuesta: el más significativo desde el punto de vista biológico
• Pero: necesitamos una medida objetiva
• sistemas de puntaje (scoring)– reglas para asignar puntos– el más simple: match, mismatch, gap
![Page 11: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/11.jpg)
11 Fernán Agüero
Un primer ejemplo de scores
G-ATESLIKESCHEESE
GRATED-----CHEESE
Score
(10 * 1) + (1 * 0) + (5 * (-1)) = +5
Ejemplo de sistema de score
match = +1 mismatch = 0 gap = -1
Usando otro sistema de score
Score
(10 * 2) + (1 * 0) + (5 * (-1)) = +15
![Page 12: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/12.jpg)
12 Fernán Agüero
No se pueden comparar scores
• Primera conclusión importante:– no tiene sentido comparar scores de distintos
alineamientos
– a menos que se especifique el sistema de scoring utilizado
![Page 13: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/13.jpg)
13 Fernán Agüero
Gap penalties
1- Abrir un gap es costoso
GCTACTAGTT------CGCTTAGCGCTACTAGCTCTAGCGCGTATAGC
GCTACTAG-T-T--CGC-T-TAGCGCTACTAGCTCTAGCGCGTATAGC
Penalty = 5 * (-5) + 6 * (-1) = -31
Penalty = 1 * (-5) + 6 * (-1) = -11
2 - Extender un gap es menos costoso
gap opening penalty = -5gap extension penalty = -1
![Page 14: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/14.jpg)
14 Fernán Agüero
Dot plots: introducción
Dot-plot: Fitch, Biochem. Genet. (1969) 3, 99-108.
A
C
G
T
C G T A C C G T
0 0 0 1 0 0 0 0
1
0
0
0 0 0 1 1 0 0
1 0 0 0 0 1 0
0 1 0 0 0 0 1
Eje horizontal: secuencia 1
Eje
vert
ical: s
ecu
enci
a 2
![Page 15: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/15.jpg)
15 Fernán Agüero
Similitud local
FXII F2 E F1 E K Catalytic
PLAT F1 E K CatalyticK
Dominios mezclados confunden a los algoritmos de alineamiento.
Módulos en el factor XII de coagulación y en el activador de plasminógneos – tissue plasminogen activator (PLAT)
F1,F2 Fibronectin repeatsE EGF similarity domainK Kringle domainCatalytic Serine protease activitiy
Módulos en orden reverso
Módulos repetidos
![Page 16: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/16.jpg)
16 Fernán Agüero
Dot plots: ejemplo
Tis
sue
Pla
smin
ogen
Act
ivat
or (
PLA
T)
Coagulation Factor XII (F12)
K
K
Catalytic
Cat
aly
ticK
EF1EF2
EF
1
![Page 17: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/17.jpg)
17 Fernán Agüero
Dot plots: ejemplo (cont.)
Tis
sue
Pla
smin
ogen
Act
ivat
or (
PLA
T)
Coagulation Factor XII (F12)
K
K
Catalytic
Cat
aly
ticK
EF1EF2
EF
1
Dominios repetidos muestran un patrón característico.
![Page 18: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/18.jpg)
18 Fernán Agüero
Dot plots: path graphs
90 137
72
23
90 137
72
23
PLAU 90 EPKKVKDHCSKHSPCQKGGTCVNMP--SGPH-CLCPQHLTGNHCQKEK---CFE 137PLAT 23 ELHQVPSNCD----CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE 72
Dominios EGF conservados en la urokinse plasminogen activator (PLAU) y el tissue plasminogen activator (PLAT)
Dot plots sugieren caminos (paths) a través del espacio de alineamientos posibles.
Path graphs son representaciones más explícitas de un alineamiento.
Cada path es un alineamiento único.
![Page 19: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/19.jpg)
19 Fernán Agüero
Path graphs: encontrar el mejor camino
Rutear una llamada telefónica desde NY a San Francisco
Los problemas que involucran encontrar la mejor ruta o camino (Best-path problems) son comunes en computación científica.
El algoritmo para encontrar el mejor camino entre dos extremos y pasando por varios puntos se llama ‘dynamic programming’
![Page 20: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/20.jpg)
20 Fernán Agüero
Dynamic programming: introducción
G A T A C T AG A T T A C C A
Construir un alineamiento óptimo entre estas dos secuencias
Utilizando las siguientes reglas de scoring:
Match:
Mismatch:
Gap:
+1
-1
-1
Un ejemplo:
![Page 21: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/21.jpg)
21 Fernán Agüero
Dynamic programming: ejemplo
G A T A C T AGATTACCA
Ordenar las dos secuencias en una matriz bidimensional
Los vértices de cada celda se encuentran entre letras (bases).
Needleman & Wunsch (1970)
![Page 22: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/22.jpg)
22 Fernán Agüero
Dynamic programming: ejemplo (cont.)
G A T A C T AGATTACCA
El objetivo es encontrar la ruta (path) óptimo
Desde aquí
Hasta acá
![Page 23: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/23.jpg)
23 Fernán Agüero
Dynamic programming: paths posibles
G A T A C T AGATTACCA
Cada path corresponde a un alineamiento único
Cuál es el óptimo?
![Page 24: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/24.jpg)
24 Fernán Agüero
Dynamic programming: scores: match
G A T A C T AGATTACCA
El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados).
A alineada con AMatch = +1
![Page 25: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/25.jpg)
25 Fernán Agüero
Dynamic programming: scores: mismatch
G A T A C T AGATTACCA
A alineada con TMismatch = -1
El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados).
![Page 26: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/26.jpg)
26 Fernán Agüero
Dynamic programming: scores: gaps
G A T A C T AGATTACCA
T alineada con NADA
Gap = -1
T alineada con NADA
El score para una ruta (path) es la suma incremental de los scores de sus pasos (diagonales o lados).
![Page 27: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/27.jpg)
27 Fernán Agüero
Dynamic programming: paso a paso (1)
G A T A C T AGATTACCA
Extender el path paso por paso
0 -1
+1-1G
G
–
G
G
–
+1 -1 -1
![Page 28: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/28.jpg)
28 Fernán Agüero
Dynamic programming: paso a paso (2)
G A T A C T AGATTACCA
0
+1-1
-2
-2
-1
Recordar el mejor subpath que lleva a cada punto en la matriz.
Incrementar el path paso a paso
![Page 29: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/29.jpg)
29 Fernán Agüero
G A T A C T AGATTACCA
0
-1
-2
0 +2
+1
-1
-20
Dynamic programming: paso a paso (3)
Recordar el mejor subpath que lleva a cada punto en la matriz.
Incrementar el path paso a paso
![Page 30: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/30.jpg)
30 Fernán Agüero
G A T A C T AGATTACCA
0 -2
0 +2
+1
-1
-20
-2
-1
Dynamic programming: paso a paso (4)
Recordar el mejor subpath que lleva a cada punto en la matriz.
Incrementar el path paso a paso
![Page 31: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/31.jpg)
31 Fernán Agüero
G A T A C T AGATTACCA
0
+1
-1
-2-1
-3-2
-3
-2
+3
-1
-1
0
0
+1
+1
+2
Dynamic programming: paso a paso (5)
Recordar el mejor subpath que lleva a cada punto en la matriz.
Incrementar el path paso a paso
![Page 32: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/32.jpg)
32 Fernán Agüero
G A T A C T AGATTACCA
0
+1
-1
-1
-2
-2 0
0
+1+2
-5-4
-5
-4
-3
-3
-1 -3-2
-10
+1
+2
0
+1-1
+2
-3 -1
-2
+1 +3
+2 +1
+2+3
Dynamic programming: paso a paso (6)
Recordar el mejor subpath que lleva a cada punto en la matriz.
Incrementar el path paso a paso
![Page 33: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/33.jpg)
33 Fernán Agüero
G A T A C T AGATTACCA
0
+1
-1
-1
-2
-2 0
0
+1+2
-4
-4
-3
-3
-1 -2
0
+2
0
+1-1
+2-2 +2 +1
+2+3
-8
-7
-6
-5
-7-6-5
-5-3
-2 -3
-4
-1
-1
0+1
+1
+1 +3
+2
-4
-6
-3
-2
-3
-1
-4
-5
+1 +3
+1
0 +2
+4
+4
+3
+2
+2
+3
-2 0
-1
+2 +2
+3
Dynamic programming: paso a paso (7)
Recordar el mejor subpath que lleva a cada punto en la matriz.
Incrementar el path paso a paso
![Page 34: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/34.jpg)
34 Fernán Agüero
Dynamic programming: best path
G A T A C T AGATTACCA
Recorrer el camino de atrás hacia adelante para obtener el mejor path y alineamiento.
0
+1
-1
-1
-2
-2 0
0
+1+2
-4
-4
-3
-3
-1 -2
0
+2
0
+1-1
+2-2 +2 +1
+2+3
-8
-7
-6
-5
-7-6-5
-5-3
-2 -3
-4
-1
-1
0+1
+1
+1 +3
+2
-4
-6
-3
-2
-3
-1
-4
-5
+1 +3
+1
0 +2
+4
+4
+3
+2
+2
+3
-2 0
-1
+2 +2
+3
![Page 35: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/35.jpg)
35 Fernán Agüero
Dynamic programming: alineamiento obtenido
G A T A C T AGATTACCA
Imprimir el alineamiento
AA-TTTAACCTCAA
GG
![Page 36: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/36.jpg)
36 Fernán Agüero
Dynamic programming: Smith-Waterman
• El método fue modificado (Smith-Waterman) para obtener alineamientos locales
• El método garantiza la obtención de un alineamiento óptimo (cuyo score no puede ser mejorado)
• La complejidad es proporcional al producto de las longitudes de las secuencias a alinear
![Page 37: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/37.jpg)
37 Fernán Agüero
Similitud global y local
El algoritmo de programación dinámica puede ser implementado para alineamientos locales o globales.
Optimal global alignment
Needleman & Wunsch (1970)
Las secuencias se alinean
esencialmente de un extremo a otro
Optimal local alignment
Smith & Waterman (1981)
Las secuencias se alinean en regiones pequeñas y aisladas
![Page 38: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/38.jpg)
38 Fernán Agüero
Global y local
• Un algoritmo de alineamiento local, siempre produce alineamientos locales?
• Un algoritmo de alineamiento global siempre produce alineamientos globales?
• NO– dependiendo del sistema de scoring (scores para
match/mismatch/gaps) SW puede producir alineamientos globales
– dependiendo la penalidad asignada a los gaps en los extremos de un alineamiento global (o alterando significativamente el sistema de scoring) NW puede producir alineamientos locales
![Page 39: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/39.jpg)
39 Fernán Agüero
Matrices
• Un sistema de scoring simple, penaliza por igual cualquier mismatch
• Biológicamente tiene sentido penalizar ciertos cambios y ser más permisivo con otros– En proteínas: residuos hidrofóbicos reemplazados entre
sí.– En DNA: transversiones vs transiciones
• Una matriz no es otra cosa que un sistema de scoring que permite asignar puntajes individuales a cada una de las letras del alfabeto en uso.
![Page 40: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/40.jpg)
40 Fernán Agüero
Matrices
• Un ejemplo de matriz de scoring podría ser el clásico ejemplo de penalizar más los cambios que alteran las propiedades químicas de un residuo (aa)– hidrofóbicos: Ile, Val, Leu, Ala– Polares (+): Lys, Arg – Polares (-): Glu, Asp– Aromáticos: Phe, Tyr, Trp– etc.
Ile x Val = -1Ile x Asp = -5Phe x Tyr = -1Phe x Gly = -8
![Page 41: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/41.jpg)
41 Fernán Agüero
Matrices derivadas por observación
• PAM (Dayhoff, 1978)– proveen estimaciones de plausibilidad de cambio de
un aminoácido en otro en proteínas homólogas– derivadas a partir de un grupo de secuencias > 85%
similares– los cambios de aminoácidos observados son
llamados “accepted mutations”– Se extrapolan matrices a períodos evolutivos más
largos
![Page 42: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/42.jpg)
42 Fernán Agüero
Matrices derivadas por observación
• BLOSUM (Henikoff)– Blocks Amino Acid Substitution Matrices– Sustituciones de amino ácidos observadas en un
conjunto grande de ‘blocks’– Representan más de 500 familias de proteínas
– Se agrupan los blocks de acuerdo a su identidad y se generan matrices
– blocks 80% idénticos -> BLOSUM80– Blocks 60% idénticos -> BLOSUM60– etc
![Page 43: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/43.jpg)
43 Fernán Agüero
Sistemas de scoring: BLOSUM62
BLOSUM62A 4
R -1 5
N -2 0 6
D -2 -2 1 6
C 0 -3 -3 -3 9
Q -1 1 0 0 -3 5
E -1 0 0 2 -4 2 5
G 0 -2 0 -1 -3 -2 -2 6
H -2 0 1 -1 -3 0 0 -2 8
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4
A R N D C Q E G H I L K M F P S T W Y V
Algunas sustituciones son más comunes que otras
Los scores provienen del la observación de los tipos y frecuencias de sustitución en distintas familias proteicas
![Page 44: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/44.jpg)
44 Fernán Agüero
A 4
R -1 5
N -2 0 6
D -2 -2 1 6
C 0 -3 -3 -3 9
Q -1 1 0 0 -3 5
E -1 0 0 2 -4 2 5
G 0 -2 0 -1 -3 -2 -2 6
H -2 0 1 -1 -3 0 0 -2 8
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4
A R N D C Q E G H I L K M F P S T W Y V
Sistemas de scoring: BLOSUM62: identidades
Las identidades tienen scores positivos, pero algunas son más valoradas que otras.
BLOSUM62
![Page 45: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/45.jpg)
45 Fernán Agüero
Sistemas de scoring: BLOSUM62: sustituciones
A 4
R -1 5
N -2 0 6
D -2 -2 1 6
C 0 -3 -3 -3 9
Q -1 1 0 0 -3 5
E -1 0 0 2 -4 2 5
G 0 -2 0 -1 -3 -2 -2 6
H -2 0 1 -1 -3 0 0 -2 8
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4
A R N D C Q E G H I L K M F P S T W Y V
Algunas sustituciones tienen scores positivos, pero la mayoría son negativos.
BLOSUM62
![Page 46: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/46.jpg)
46 Fernán Agüero
Más matrices
• PAM• BLOSUM• Otras
– Comparación simple de propiedades químicas de amino ácidos
– Análisis complejos de sustituciones en estructura secundaria de proteínas, a partir de alineamientos estructurales
– Gonnet (1994). Sustitución de dipéptidos– Jones (1994) matriz específica de proteínas
transmembrana
• Algunas de estas matrices sirven para alinear proteínas en base a características estructurales y pueden no ser útiles para análisis evolutivos!
![Page 47: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/47.jpg)
47 Fernán Agüero
Y ahora?
• Tenemos un método (algoritmo) que nos garantiza un alineamiento óptimo entre dos secuencias
• Tenemos un sistema de scoring complejo que refleja mejor nuestras ideas biológicas acerca de lo que es un alineamiento
![Page 48: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/48.jpg)
48 Fernán Agüero
Usemos la fuerza bruta
• Tenemos una base de datos con secuencias
• Tenemos una secuencia ‘query’ en la que estamos interesados
• Podemos encontrar secuencias similares al query en la base de datos?
• Tomar una por una las secuencias de la base de datos• Calcular un alineamiento y su score• Elegir los mejores alineamientos en base al score• Finalmente usar nuestro criterio y evaluar si la/s secuencia/s
encotradas son lo suficientemente similares
![Page 49: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/49.jpg)
49 Fernán Agüero
Evaluando alineamientos
• Qué hacemos cuando estamos comparando dos secuencias que no son claramente similares, pero que muestran un alineamiento prometedor?
• Necesitamos un test de significancia
• Tenemos que responder a la pregunta:– Cuál es la probabilidad de que un alineamiento
similar (con un score similar) ocurra entre proteínas no relacionadas?
![Page 50: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/50.jpg)
50 Fernán Agüero
Estadística de los alineamientos
• Generar secuencias al azar de la misma longitud y composición que la secuencia query y alinearlas– Karlin & Altschul (1990); Altschul et al (1994); Altschul & Gish (1996)
• Analizar la distribución de scores que se obtiene
![Page 51: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/51.jpg)
51 Fernán Agüero
The Gumbel Extreme value distribution
• Los valores de score obtenidos no se distribuyen en forma normal
E = K mn e -S
Número de alineamientos con un score >= S que espero por azar
m,n: longitud de las secuencias
K,: parámetros estimados a partir de la matriz de scoring y del tamaño de la muestra
![Page 52: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/52.jpg)
52 Fernán Agüero
Observed vs expected
• Si la base de datos es suficientemente grande y contiene mayoritariamente secuencias no relacionadas la distribución de scores observados debería coincidir bastante con la distribución de scores esperados por azar (Pearson 1998)
![Page 53: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/53.jpg)
53 Fernán Agüero
Tamaño de la base de datos
E(S > x) = p(S > x) D
• El número de alineamientos con un score > S se incrementa linealmente con el tamaño de la base de datos
una secuencia (un alineamiento con un score S) encontrada en una búsqueda contra un genoma bacteriano con 1000-5000 secuencias va a ser 50-250 veces más significativa que un alineamiento con exactamente el mismo score en una base de datos como OWL (250,000 secuencias)
• Sin embargo, vimos que la base de datos tiene que ser suficientemente grande como para poder estimar P y E
Compromiso
![Page 54: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/54.jpg)
54 Fernán Agüero
Tamaño de la base de datos: un ejemplo
• Objetivo: encontrar el homólogo en E. coli de la DAHP synthase de B. subtilis
• E. coli proteome– kdsA, E(4283) < 0.00015
• Swissprot– kdsA, E(74417) < 0.0017
• OWL– kdsA, E(260784) < 0.0085
• El mismo alineamiento, con el mismo score es 50 veces más significativo en la base de datos más chica.
![Page 55: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/55.jpg)
55 Fernán Agüero
Identificar homólogos con eficiencia
• Buscar en bases de datos pequeñas primero
• Repetir la búsqueda en una base de datos pequeña con un algoritmo más sensible (fasta3 con ktup 1 o ssearch)
• Si no hay hits significativos, buscar bases de datos más grandes, como nr (GenPept, TrEMBL)
![Page 56: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/56.jpg)
56 Fernán Agüero
Límites de la estadística
• En ciertos casos, la estadística de los alineamientos falla– Lo que falla son las suposiciones que hicimos para
llegar al modelo estadístico que describe - en este caso - la distribución de scores entre secuencias no relacionadas
• En general se obtienen estimaciones incorrectas de E cuando– Se usan penalidades de gap incorrectas– Existen regiones de baja complejidad en la
secuencia query
![Page 57: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/57.jpg)
57 Fernán Agüero
Evaluando la estadística
Mirar el histograma de scores esperados y observados
Mirar el E de la secuencia no relacionada con mayor score
![Page 58: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/58.jpg)
58 Fernán Agüero
Evaluando la estadística (cont)
Si los histogramas Obs vs Exp coinciden
Y si el E del mejor alineamiento no relacionado es ~1
La estimaciones estadísticas están funcionando bien
![Page 59: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/59.jpg)
59 Fernán Agüero
Buscando homólogos en los límites
• Secuencias homólogas distantes a menudo no tienen similitud estadísticamente significativa
• Secuencias con regiones de baja complejidad pueden tener similitud estadísticamente significativas, aunque no sean homólogas
• Secuencias homólogas generalmente son similares sobre toda la longitud de la secuencia o de un dominio
• Secuencias homólogas comparten un ancestro común– Si hay homología entre A y B; entre B y C; y entre C y D, A y D
deben ser homólogos, aun cuando no muestren similitud estadísticamente significativa
![Page 60: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/60.jpg)
60 Fernán Agüero
Búsquedas en bases de datos
Compara una secuencia (query) contra una base de datos de secuencias > fasta myquery swissprot -ktup 2
Programa query Base de datos
Parámetros opcionales
Una búsqueda típica tiene 4 elementos básicos.
![Page 61: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/61.jpg)
61 Fernán Agüero
Búsqueda en bases de datos
Con el crecimiento exponencial de las bases de datos las búsquedas son cada vez más lentas …
> fasta myquery swissprot -ktup 2
searching . . . . . .
![Page 62: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/62.jpg)
62 Fernán Agüero
Database searching
La lista de hits provee los ‘títulos’ y scores de las secuencias que fueron seleccionadas por la secuencia ‘query’.
> fasta myquery swissprot -ktup 2The best scores are: initn init1 opt z-sc E(77110)gi|1706794|sp|P49789|FHIT_HUMAN BIS(5'-ADENOSYL)- 996 996 996 1262.1 0gi|1703339|sp|P49776|APH1_SCHPO BIS(5'-NUCLEOSYL) 412 382 395 507.6 1.4e-21gi|1723425|sp|P49775|HNT2_YEAST HIT FAMILY PROTEI 238 133 316 407.4 5.4e-16gi|3915958|sp|Q58276|Y866_METJA HYPOTHETICAL HIT- 153 98 190 253.1 2.1e-07gi|3916020|sp|Q11066|YHIT_MYCTU HYPOTHETICAL 15.7 163 163 184 244.8 6.1e-07gi|3023940|sp|O07513|HIT_BACSU HIT PROTEIN 164 164 170 227.2 5.8e-06gi|2506515|sp|Q04344|HNT1_YEAST HIT FAMILY PROTEI 130 91 157 210.3 5.1e-05gi|2495235|sp|P75504|YHIT_MYCPN HYPOTHETICAL 16.1 125 125 148 199.7 0.0002gi|418447|sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 42 42 140 191.3 0.00058gi|3025190|sp|P94252|YHIT_BORBU HYPOTHETICAL 15.9 128 73 139 188.7 0.00082gi|1351828|sp|P47378|YHIT_MYCGE HYPOTHETICAL HIT- 76 76 133 181.0 0.0022gi|418446|sp|P32083|YHIT_MYCHR HYPOTHETICAL 13.1 27 27 119 165.2 0.017gi|1708543|sp|P49773|IPK1_HUMAN HINT PROTEIN (PRO 66 66 118 163.0 0.022gi|2495231|sp|P70349|IPK1_MOUSE HINT PROTEIN (PRO 65 65 116 160.5 0.03gi|1724020|sp|P49774|YHIT_MYCLE HYPOTHETICAL HIT- 52 52 117 160.3 0.031gi|1170581|sp|P16436|IPK1_BOVIN HINT PROTEIN (PRO 66 66 115 159.3 0.035gi|2495232|sp|P80912|IPK1_RABIT HINT PROTEIN (PRO 66 66 112 155.5 0.057gi|1177047|sp|P42856|ZB14_MAIZE 14 KD ZINC-BINDIN 73 73 112 155.4 0.058gi|1177046|sp|P42855|ZB14_BRAJU 14 KD ZINC-BINDIN 76 76 110 153.8 0.072gi|1169825|sp|P31764|GAL7_HAEIN GALACTOSE-1-PHOSP 58 58 104 138.5 0.51gi|113999|sp|P16550|APA1_YEAST 5',5'''-P-1,P-4-TE 47 47 103 137.8 0.56gi|1351948|sp|P49348|APA2_KLULA 5',5'''-P-1,P-4-T 63 63 98 131.3 1.3gi|123331|sp|P23228|HMCS_CHICK HYDROXYMETHYLGLUTA 58 58 99 129.4 1.6gi|1170899|sp|P06994|MDH_ECOLI MALATE DEHYDROGENA 70 48 91 122.9 3.7gi|3915666|sp|Q10798|DXR_MYCTU 1-DEOXY-D-XYLULOSE 75 50 92 121.9 4.3gi|124341|sp|P05113|IL5_HUMAN INTERLEUKIN-5 PRECU 36 36 85 121.3 4.7gi|1170538|sp|P46685|IL5_CERTO INTERLEUKIN-5 PREC 36 36 84 120.0 5.5gi|121369|sp|P15124|GLNA_METCA GLUTAMINE SYNTHETA 45 45 90 118.9 6.3gi|2506868|sp|P33937|NAPA_ECOLI PERIPLASMIC NITRA 48 48 92 117.4 7.6gi|119377|sp|P10403|ENV1_DROME RETROVIRUS-RELATED 59 59 89 117.0 8gi|1351041|sp|P48415|SC16_YEAST MULTIDOMAIN VESIC 48 48 97 117.0 8gi|4033418|sp|O67501|IPYR_AQUAE INORGANIC PYROPHO 38 38 83 116.8 8.3
![Page 63: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/63.jpg)
63 Fernán Agüero
E-value
Los hits pueden ser ordenados de acuerdo a su E-value o a su Score.
El E-value – más conocido como EXPECT value – es una función del score, el tamaño de la base de datos y de la longitud de la secuencia ‘query’.
E-value: Número de alineamientos con un score >=S que se espera encontrar si la base de datos es una colección de letras al azar.
Ejemplo: En el caso de un score=1 (un match o identidad) debería haber un número enorme de alineamientos. Uno espera encontrar menos alineamientos con un score de 5, 10, etc. Eventualmente, cuando el score es lo suficientemente alto, uno espera encontrar un número insignificante de alineamientos que sean debidos al azar.
Valores de E-value menores que 1e-6 (1* 10-6) son generalmente muy buenos para proteínas, mientras que E<1e-2 puede considerarse significativo. Es posible que un hit cuyo E > 1 sea biológicamente importante, aunque es necesario analizarlo más detalladamente para confirmarlo.
![Page 64: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/64.jpg)
64 Fernán Agüero
Búsquedas en bases de datos
El detalle de los alineamientos se muestra más abajo > fasta myquery swissprot -ktup 2
>>gi|1703339|sp|P49776|APH1_SCHPO BIS(5'-NUCLEOSYL)-TETR (182 aa)initn: 412 init1: 382 opt: 395 z-score: 507.6 E(): 1.4e-21Smith-Waterman score: 395; 52.3% identity in 109 aa overlap
10 20 30 40 50gi|170 MSFRFGQHLIKPSVVFLKTELSFALVNRKPVVPGHVLVCPLRPVERFHDLRPDEVADLF : X: .:.:: :.:: ::..:::::: : : : :..:: :.:..:::gi|170 MPKQLYFSKFPVGSQVFYRTKLSAAFVNLKPILPGHVLVIPQRAVPRLKDLTPSELTDLF 10 20 30 40 50 60
60 70 80 90 100 110gi|170 QTTQRVGTVVEKHFHGTSLTFSMQDGPEAGQTVKHVHVHVLPRKAGDFHRNDSIYEELQK ....: :.:: : ... ....::: .::::: :::::..::: .:: .:: .: :X.:gi|170 TSVRKVQQVIEKVFSASASNIGIQDGVDAGQTVPHVHVHIIPRKKADFSENDLVYSELEK 70 80 90 100 110 120
120 130 140gi|170 HDKEDFPASWRSEEEMAAEAAALRVYFQ ..gi|170 NEGNLASLYLTGNERYAGDERPPTSMRQAIPKDEDRKPRTLEEMEKEAQWLKGYFSEEQE 130 140 150 160 170 180
>>gi|1723425|sp|P49775|HNT2_YEAST HIT FAMILY PROTEIN 2 (217 aa)initn: 238 init1: 133 opt: 316 z-score: 407.4 E(): 5.4e-16Smith-Waterman score: 316; 37.4% identity in 131 aa overlap
10 20 30 40gi|170 MSFRFGQHLIKPSVVFLKTELSFALVNRKPVVPGHVLVCPLRP-VER :.. :. .v^: :.. ..:::: ::.::::::. ::X :
![Page 65: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/65.jpg)
65 Fernán Agüero
Búsquedas en bases de datos: hashing methods
Query sequence
Data
base
sequ
en
ce
La búsqueda más simple es un gran ejemplo de dynamic programming.
Para una secuencia query de N letras, contra una base de datos de M letras, se requieren MxN comparaciones.
![Page 66: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/66.jpg)
66 Fernán Agüero
Hashing methods
Hashing es un método común para acelerar búsquedas en bases de datos.
MLILII
MLIIKRDELVISWASHERE query sequence
IIKIKRKRDRDEDELELVLVIVISISWSWAWASASHSHEHERERE
Todas las palabras posibles de
longitud ktup
ktup = 3
Compilar un “diccionario” de palabras a partir de la secuencia ‘query’. Armar un índice con todas las palabras.
![Page 67: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/67.jpg)
67 Fernán Agüero
Consulta del hash (índice)
Cada palabra tiene asignado un identificador (número entero) único. (Ejemplo para una palabra de 3 letras formada por un alfabeto de 20 letras posibles.)
1. Asignar un código para cada letra: Código(L)= 0 a 19
2. Para una palabra de 3 letras L1, L2, L3:
identificador = Código(L1)*202 + Código(L2)*201 + Código(L3)
3. Armar una lista con las posiciones de cada palabra asociadas al valor (código) que tiene esa palabra.
1
0 1 2 3
Position in query sequence of word
![Page 68: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/68.jpg)
68 Fernán Agüero
Hashing methods
Construir el diccionario de palabras para la secuencia ‘query’ requiere N-2 operaciones.
MLILII
MLIIKRDELVISWASHERE query sequence
IIKIKRKRDRDEDELELVLVIVISISWSWAWASASHSHEHERERE
all overlappingwords of size 3
La base de datos contiene M-2 palabras y se requiere una sola operación para buscar ...
![Page 69: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/69.jpg)
69 Fernán Agüero
Hashing methods
Query sequence
Scan the database, looking up words in the dictionary
Use word hits to determine were to search for alignments
fills the dynamic programming matrix
in (N-2)+(M-2) operations instead
of MxN. Data
base
sequ
en
ce
![Page 70: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/70.jpg)
70 Fernán Agüero
Hashing methods
Query sequence
Data
base
sequ
en
ce
Scan the database, looking up words in the dictionary
Use word hits to determine were to search for alignments
FASTA searches in a band
![Page 71: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/71.jpg)
71 Fernán Agüero
Hashing methods
Query sequence
Data
base
sequ
en
ce
BLAST extends from word hits
Scan the database, looking up words in the dictionary
Use word hits to determine were to search for alignments
![Page 72: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/72.jpg)
72 Fernán Agüero
BLAST: varios HSPs
Cum
ulat
ive
Sco
re
T
S
XHSP
Intenta extender el HSP, siempre que la caída del score sea menos que X (bits). Si lo logra, se repite con el próximo pico.
X
![Page 73: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/73.jpg)
73 Fernán Agüero
BLAST: algoritmos
![Page 74: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/74.jpg)
74 Fernán Agüero
FASTA: algoritmos
• FASTA– protein-protein, DNA-DNA
• fastx, fasty– translated query, protein database– Permite frameshifts sólo entre codones (fastx) o dentro de
un codón (fasty)
• Ssearch– Una implementación rigurosa del algoritmo de Smith-
Waterman (sin heurísticas)
• Prss – Evalua el significado de un alineamiento por permutación
de una secuencia
• Tfastx, tfasty– Protein sequence vs DNA database
![Page 75: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/75.jpg)
75 Fernán Agüero
Referencias
Bioinformatics. Sequence and Genome analysis. David W Mount, CSHL Press (2001)
Hugues Sicotte (NCBI)(slides DP)
![Page 76: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/76.jpg)
76 Fernán Agüero
Alineamiento múltiple de secuencias
Fernán AgüeroInstituto de Investigaciones BiotecnológicasUniversidad Nacional de General San Martín
![Page 77: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/77.jpg)
77 Fernán Agüero
Multiple alignment
Un método de alineamiento múltiple verdadero, alinea todas las secuencias al mismo tiempo.
FHIT_HUMAN MSFRFGQHLIKPSVVFLKTELSFALVNRKPVVPGHVLV...
APH1_SCHPO MPKQLYFSKFPVGSQVFYRTKLSAAFVNLKPILPGHVLV...
HNT2_YEAST MILSKTKKPKSMNKPIYFSKFLVTEQVFYKSKYTYALVNLKPIV PGHVLI...
Y866_METJA MCIFCKIINGEIPAKVVYEDEHVLAFLDINPRNKGHTLV...
FHIT_HUMAN -----------MS-F RFGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV...
APH1_SCHPO -----------MPKQ LYFSKFPVG-SQVFY RTKLSAAFVNLKPIL PGHVLV...
HNT2_YEAST MILSKTKKPKSMNKP IYFSKFLVT-EQVFY KSKYTYALVNLKPIV PGHVLI...
Y866_METJA -----------MCIF CKIINGEIP-AKVVY EDEHVLAFLDINPRN KGHTLV...
![Page 78: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/78.jpg)
78 Fernán Agüero
Multiple alignment
Pero no existe un método computacional que pueda realizar esto en tiempo razonable para más de 3
secuencias cortas
FHIT_HUMAN -----------MS-F RFGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV...
APH1_SCHPO -----------MPKQ LYFSKFPVG-SQVFY RTKLSAAFVNLKPIL PGHVLV...
HNT2_YEAST MILSKTKKPKSMNKP IYFSKFLVT-EQVFY KSKYTYALVNLKPIV PGHVLI...
Y866_METJA -----------MCIF CKIINGEIP-AKVVY EDEHVLAFLDINPRN KGHTLV...
Un método de alineamiento múltiple verdadero, alinea todas las secuencias al mismo tiempo.
![Page 79: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/79.jpg)
79 Fernán Agüero
True multiple alignment
• Cómo se resuelve un alineamiento múltiple de 3 secuencias?• Usando dynamic programming en una matriz tridimensional• El problema es el mismo: encontrar el camino óptimo en el
espacio
![Page 80: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/80.jpg)
80 Fernán Agüero
Complejidad del algoritmo DP
• El número de comparaciones que DP tiene que hacer para llenar la matriz (sin usar heurísticas y excluyendo gaps) es el producto de las longitudes de las dos secuencias
• La complejidad del algoritmo crece en forma exponencial con el número de secuencias
• Alinear dos secuencias de longitud 300 implica realizar 90,000 comparaciones
• Alinear tres secuencias de longitud 300 implica realizar 27,000,000 comparaciones
![Page 81: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/81.jpg)
81 Fernán Agüero
MSA: global optimal MSAs
• MSA (Lipman et al. 1989)– http://www.psc.edu/general/software/packages/msa/manual/manual.html
– Multidimensional dynamic programming– Usa heurísticas para reducir el espacio de búsqueda– Varios programas:– msa_50_150 - Alinea no más de 50 secuencias. (c/u < 150 residuos)– msa_25_500 - Alinea no más de 25 secuencias (c/u < 500 residuos) – msa_10_1000 - Alinea no más de 10 secuencias (c/u < 1000 residuos)
![Page 82: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/82.jpg)
82 Fernán Agüero
MSA: progressive multiple alignments
• Alinear todas las secuencias de a pares• Usar los scores para construir un árbol
filogenético• Alinear secuencialmente (siguiendo el
orden que sugiere el árbol) las secuencias para producir un MSA
• No es un verdadero MSA• Las secuencias siempre se alinean de a
pares
![Page 83: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/83.jpg)
83 Fernán Agüero
MSA: progressive multiple alignments
FHIT_HUMAN APH1_SCHPO HNT2_YEAST Y866_METJA
FHIT_HUMAN
APH1_SCHPO 395
HNT2_YEAST 316 380
Y866_METJA 290 300 340
Pairwise alignments: compute distance matrix
Align all pairs of sequences.
APH1_SCHPO
HNT2_YEAST Y866_METJA
FHIT_HUMAN
![Page 84: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/84.jpg)
84 Fernán Agüero
Progressive multiple alignments
FHIT_HUMAN APH1_SCHPO HNT2_YEAST Y866_METJA
FHIT_HUMAN
APH1_SCHPO 395
HNT2_YEAST 316 380
Y866_METJA 290 300 340
Pairwise alignments: compute distance matrix
APH1_SCHPO
HNT2_YEAST
Y866_METJA
FHIT_HUMANGuide Tree
![Page 85: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/85.jpg)
85 Fernán Agüero
Multiple alignment
Alinear las dos secuencias más
cercanas
FHIT_HUMAN MSFRFGQHLIKPSVVFLKTELSFALVNRKPVVPGHVLV...
APH1_SCHPO MPKQLYFSKFPVGSQVFYRTKLSAAFVNLKPILPGHVLV...
HNT2_YEAST MILSKTKKPKSMNKPIYFSKFLVTEQVFYKSKYTYALVNLKPIVPGHVLI...
Y866_METJA MCIFCKIINGEIPAKVVYEDEHVLAFLDINPRNKGHTLV...
FHIT_HUMAN MSFR FGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV...
APH1_SCHPO MPKQ LYFSKFPVGSQVFY RTKLSAAFVNLKPIL PGHVLV...
HNT2_YEAST MILSKTKKPKSMNKPIYFSKFLVTEQVFYKSKYTYALVNLKPIVPGHVLI...
Y866_METJA MCIF CKIINGEIPAKVVYEDEHVLAFLDINPRNKGHTLV...
El alineamiento genera un consenso que se utiliza para alinear las secuencias que
quedan.
Desde el punto de vista del alineamiento del primer par, el gap puede insertarse en
cualquier lugar
![Page 86: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/86.jpg)
86 Fernán Agüero
Multiple alignment
FHIT_HUMAN MS-F RFGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV...
APH1_SCHPO MPKQ LYFSKFPVG-SQVFY RTKLSAAFVNLKPIL PGHVLV...
HNT2_YEAST MILSKTKKPKSMNKPIYFSKFLVTEQVFYKSKYTYALVNLKPIVPGHVLI...
Y866_METJA MCIFCKIINGEIP-AKVVYEDEHVLAFLDINPRNKGHTLV...
FHIT_HUMAN -----------MSF RFGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV...
APH1_SCHPO -----------MPK QLYFSKFPVGSQVFY RTKLSAAFVNLKPIL PGHVLV...
HNT2_YEAST MILSKTKKPKSMNK PIYFSKFLVTEQVFY KSKYTYALVNLKPIV PGHVLI...
Y866_METJA MCIF CKIINGEIPAKVVYEDEHVLAFLDINPRNKGHTLV...
Una vez insertado el gap no se puede mover porque es
parte del consenso.
Alinear las dos secuencias más
cercanas
![Page 87: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/87.jpg)
87 Fernán Agüero
Multiple alignment
FHIT_HUMAN -----------MS-F RFGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV...
APH1_SCHPO -----------MPKQ LYFSKFPVG-SQVFY RTKLSAAFVNLKPIL PGHVLV...
HNT2_YEAST MILSKTKKPKSMNKP IYFSKFLVT-EQVFY KSKYTYALVNLKPIV PGHVLI...
Y866_METJA MCIFCKIINGEIPAKVVYEDEHVLAFLDINPRNKGHTLV...
FHIT_HUMAN -----------MSFR FGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV...
APH1_SCHPO -----------MPKQ LYFSKFPVGSQVFY RTKLSAAFVNLKPIL PGHVLV...
HNT2_YEAST MILSKTKKPKSMNKP IYFSKFLVTEQVFY KSKYTYALVNLKPIV PGHVLI...
Y866_METJA -----------MCIF CKIINGEIPAKVVY EDEHVLAFLDINPRN KGHTLV...
Con suerte, el resultado llegue a ser similar al resultado que obtenido por un veradero método de alineamiento múltiple.
Debido al orden de los alineamientos, la posición del gap no puede cambiarse para alinear estas dos
Prolinas (lo cual hubiera resultado en un score mayor.
Alinear la secuencia siguiente
![Page 88: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/88.jpg)
88 Fernán Agüero
clustalW
Clustalw is a progressive multiple alignment tool.
• Adaptive gap opening and extension scores
• Choice of DNA or protein gap penalty alignments.
• Available on the web or on PC / Mac / unix.
http://dot.imgen.bcm.tmc.edu:9331/multi-align/options/clustalw.html
![Page 89: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/89.jpg)
89 Fernán Agüero
MSA: métodos iterativos
• Distintos programas implementan distintas estrategias
• Se realinean subgrupos de secuencias en forma repetida, buscando optimizar el score final del MSA– MultAlin (Corpet 1988)– PRRP (Gotoh, 1996)– DIALIGN (Morgenstern et al. 1996)
![Page 90: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/90.jpg)
90 Fernán Agüero
MSA: algoritmo genético
• SAGA (Notredame & Higgins, 1996)– Sequence Alignment by Genetic Algorithm
– Genera diferentes MSAs por rearreglos que simulan inserciones de gaps similares a los que ocurren durante la replicación del DNA
– El proceso continúa hasta que converge en un score que no puede ser mejorado
– Los MSAs no tienen garantía alguna de ser óptimos
– Sin embargo, los alineamientos que produce este método son similares a los que se obtienen por otros métodos
![Page 91: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/91.jpg)
91 Fernán Agüero
Query-anchored alignments (master slave)
Clustalw:
Produce MSAs
No produce MSAs, pero puede mostrar los alineamientos de a pares de una forma que parece un alineamiento múltiple, aunque todas las secuencias estén alineadas con la primera.!
Gaps en el subject
Esta columna no está alineada. Se muestra por conveniencia
Los gaps en el query quieren decir que nada se pudo alinear en este lugar.
Blast:
![Page 92: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/92.jpg)
92 Fernán Agüero
Bases de datos de alineamientos
• Pir-ALN– http://www-nbrf.georgetown.edu/pirwww/search/textpiraln.html
– Alineamientos anotados derivados de PIR– Incluye alineamientos al nivel de superfamilia, familia y dominio– 3983 alineamientos, 1480 superfamilias, 371 dominios
• Protomap– http://www.protomap.cs.huji.ac.il– Clasificación automática de proteínas en Swissprot en grupos
(clusters) de proteínas relacionadas– Tiene organización jerárquica para distinguir sub y super familias
• COG– http://www.ncbi.nlm.nih.gov/COG– Clusters of Orthologous Groups of Proteins– Proteomas completos– Contiene alineamientos de cada COG
![Page 93: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/93.jpg)
93 Fernán Agüero
Local MSAs
• BLOCKS– http://blocks.fhcrc.org/blocks
– Representan regiones conservadas de un MSA global
– No incluyen gaps– Una serie de blocks conservados pueden describir la
pertenencia o no a una familia– Pueden buscar usando una secuencia– Pueden usar un MSA para generar blocks
![Page 94: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/94.jpg)
94 Fernán Agüero
Información representada en un MSA
• Un MSA contiene información acerca de las secuencias que lo componen
• Si representa a una familia de proteínas:– regiones conservadas– residuos conservados
• Qué cosas podemos hacer con esta información?– Muchas
• Qué cosas no deberíamos hacer con esta información?– Generar un consenso
![Page 95: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/95.jpg)
95 Fernán Agüero
Consensos
• Un consenso derivado de un MSA contiene para cada posición el residuo más frecuente
OPS2_DROME MERSHLPETP FDLAHSGP-- RFQ-AQSSGN GSV---LDNV LPDMAHLVNPOPS2_DROPS MERSLLPEPP LAMALLGP-- RFE-AQTGGN RSV---LDNV LPDMAPLVNPOPS2_LIMPO ---------- -MANQLSY-- SSLGWPYQPN ASV---VDTM PKEMLYMIHEOPS2_HEMSA ----MTNATG PQMAYYGA-- ASMDFGYPEG VSI---VDFV RPEIKPYVHQOPS2_SCHGR ---------- -MVNTTDFYP VPAAMAYESS VGLPLLGWNV PTEHLDLVHPOPS2_PATYE ----MPFPLN RTDTALVISP SEFRIIGIFI SICCIIGVLG NLLIIIVFAKConsenso MERSMLPETP ?MMA?LGP?P …
Problemas!
![Page 96: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/96.jpg)
96 Fernán Agüero
Usos de los MSAs
• Para extraer / generar– Patterns/Motifs– Profiles– Fingerprints– Position Specific Scoring Matrices– HMMs
• Para qué extraer / generar patterns, motifs, etc, etc?– Para clasificar– Para alinear secuencias – Para buscar secuencias similares por métodos más
sensibles
![Page 97: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/97.jpg)
97 Fernán Agüero
Motifs
Webster's New Collegiate Dictionary:mo-tif n[F, motive, motif] 1 a: a usu. recurring salient thematic element in a
work of art; esp: a dominant idea or central theme
• En secuencias biológicas un motif es un patrón recurrente (común) en una serie de secuencias relacionadas
• Los MSAs permiten distinguir regiones de evolución lenta (conservadas) y otras de evolución más rápida en un grupo de secuencias
• Cómo describir/representar las características salientes de un motif?
![Page 98: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/98.jpg)
98 Fernán Agüero
Usando expresiones regulares
• Patterns– Descripción (usando una sintaxis particular) de una
región corta que tenga relevancia funcional
– Cómo se construye un pattern• A partir de la literatura. Se testea contra Swissprot• A partir de • Enzyme catalytic sites• Prostethic group attachment sites (heme,
pyridoxal-phosphate, biotin, etc)• Amino acids involved in binding a metal ion• Cysteines involved in disulfide bonds• Regions involved in binding a molecule (ADP/ATP,
GDP/GTP, calcium, DNA, etc.) or another protein
http://www.expasy.ch/prosite
![Page 99: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/99.jpg)
99 Fernán Agüero
Patterns
http://www.expasy.ch/prosite
MSAResiduos
funcionales importante
s
Encontrar 4-5 residuos conservado
s
Core pattern
El pattern rescata sólo las
secuencias correctas
El pattern rescata muchos
falsos positivos.
Incrementar el pattern y volver a testear.
Buscar en
Swissprot
El pattern es una expresión regular:
[AC]-x-V-x(4)-{ED}
ala/cys-any-val-any-any-any-any-(any except glu or asp)
![Page 100: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/100.jpg)
![Page 101: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/101.jpg)
101 Fernán Agüero
Profiles
• Representan un MSA en forma de tabla
• Cada posición en el alineamiento corresponde a una fila en el profile
• Para cada posición en el alineamiento el profile contiene la información de frecuencias de aminoácidos que ocurren en esa posición
• Esta información se encuentra representada en forma de scores y penalties e incluye a gaps
• Un profile no es otra cosa que una serie de matrices de scoring, una para cada posición en el alineamiento
1 2 3 4 5 6 7 8 9
12345678
MSA
Profile
![Page 102: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/102.jpg)
102 Fernán Agüero
rhle_ecoli GVDVLVATPG RLLDLEHQNA ....VKLDQV EILVLDEADR MLDMGFIHDI dbp2_schpo GVEICIATPG RLLDMLDSNK ....TNLRRV TYLVLDEADR MLDMGFEPQI dbp2_yeast GSEIVIATPG RLIDMLEIGK ....TNLKRV TYLVLDEADR MLDMGFEPQI dbpa_ecoli APHIIVATPG RLLDHLQKGT ....VSLDAL NTLVMDEADR MLDMGFSDAI rm62_drome GCEIVIATPG RLIDFLSAGS ....TNLKRC TYLVLDEADR MLDMGFEPQI p68_human GVEICIATPG RLIDFLECGK ....TNLRRT TYLVLDEADR MLDMGFEPQI rhlb_ecoli GVDILIGTTG RLIDYAKQNH ....INLGAI QVVVLDEADR MYDLGFIKDI yn21_caeel RPHIIVATPG RLVDHLENTK ...GFNLKAL KFLIMDEADR ILNMDFEVEL yhm5_yeast KPHIIIATPG RLMDHLENTK ...GFSLRKL KFLVMDEADR LLDMEFGPVL me31_drome KVQLIIATPG RILDLMDKKV ....ADMSHC RILVLDEADK LLSLDFQGML drs1_yeast RPDIVIATPG RFIDHIRNSA ...SFNVDSV EILVMDEADR MLEEGFQDEL if4a_rabit APHIIVGTPG RVFDMLNRRY ....LSPKYI KMFVLDEADE MLSRGFKDQI if41_human APHIIVGTPG RVFDMLNRRY ....LSPKYI KMFVLDEADE MLSRGFKDQI vasa_drome GCHVVIATPG RLLDFVDRTF ....ITFEDT RFVVLDEADR MLDMGFSEDM srmb_ecoli NQDIVVATTG RLLQYIKEEN ....FDCRAV ETLILDEADR MLDMGFAQDI dead_ecoli GPQIVVGTPG RLLDHLKRGT ....LDLSKL SGLVLDEADE MLRMGFIEDV if4a_orysa GVHVVVGTPG RVFDMLRRQS ....LRPDYI KMFVLDEADE MLSRGFKDQI dead_klepn GPQIVVGTPG RLLDHLKRGT ....LDLSKL SGLVLDEADE MLRMGFIEDV pl10_mouse GCHLLVATPG RLVDMMERGK ....IGLDFC KYLVLDEADR MLDMGFEPQI p54_human TVHVVIATPG RILDLIKKGV ....AKVDHV QMIVLDEADK LLSQDFVQIM if4a_drome GCHVVVGTPG RVYDMINRKL .....RTQYI KLFVLDEADE MLSRGFKDQI ded1_yeast GCDLLVATPG RLNDLLERGK ....ISLANV KYLVLDEADR MLDMGFEPQI ms16_yeast RPNIVIATPG RLIDVLEKYS ...NKFFRFV DYKVLDEADR LLEIGFRDDL pr28_yeast GCDILVATPG RLIDSLENHL ....LVMKQV ETLVLDEADK MYDLGFEDQV if4n_human GQHVVAGTPG RVFDMIRRRS ....LRTRAI KMLVLDEADE MLNKGFKEQI an3_xenla GCHLLVATPG RLVDMMERGK ....IGLDFC KYLVLDEADR MLDMGFEPQI dbp1_yeast GCDLLVATPG RLNDLLERGK ....VSLANI KYLVLDEADR MLDMGFEPQI if4a_yeast DAQIVVGTPG RVFDNIQRRR ....FRTDKI KMFILDEADE MLSSGFKEQI spb4_yeast RPQILIGTPG RVLDFLQMPA ....VKTSAC SMVVMDEADR LLDMSFIKDT if4a_caeel GIHVVVGTPG RVGDMINRNA ....LDTSRI KMFVLDEADE MLSRGFKDQI pr05_yeast GTEIVVATPG RFIDILTLND .GKLLSTKRI TFVVMDEADR LFDLGFEPQI if42_mouse APHIVVGTPG RVFDMLNRRY ....LSPKWI KMFVLDEADE MLSRGFKDQI dhh1_yeast TVHILVGTPG RVLDLASRKV ....ADLSDC SLFIMDEADK MLSRDFKTII db73_drome KADIVVTTPG RLVDHLHATK ...GFCLKSL KFLVIDEADR IMDAVFQNWL yk04_yeast GCNFIIGTPG RVLDHLQNTK VIKEQLSQSL RYIVLDEGDK LMELGFDETI ybz2_yeast SGQIVIATPG RFLELLEKDN .TLIKRFSKV NTLILDEADR LLQDGHFDEF yhw9_yeast KPHFIIATPG RLAHHIMSSG DDTVGGLMRA KYLVLDEADI LLTSTFADHL glh1_caeel GATIIVGTVG RIKHFCEEGT ....IKLDKC RFFVLDEADR MIDAMGFGTD
ATP binding RNA helicase ("DEAD" box family)
Un MSA particular
![Page 103: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/103.jpg)
103 Fernán Agüero
Un profile generado a partir del MSA
Cons A B C D E F G H I K L M N P Q R S T V W Y Z Gap Len .. G 17 18 0 19 14 -22 31 0 -9 12 -15 -5 15 10 9 6 18 14 1 -15 -22 11 100 100 P 18 0 13 0 0 -12 13 0 8 -3 -3 -1 -2 23 2 -2 12 11 17 -31 -8 1 100 100 H 5 24 -12 29 25 -20 8 32 -9 9 -10 -9 22 7 30 10 0 4 -8 -20 -7 27 100 100 I -1 -12 6 -13 -11 33 -12 -13 63 -11 40 29 -15 -9 -14 -15 -6 7 50 -17 8 -11 100 100 V 3 -11 1 -11 -9 22 -3 -11 46 -9 37 30 -13 -3 -9 -13 -6 6 50 -19 2 -8 100 100 V 5 -9 9 -9 -9 19 -1 -13 57 -9 35 26 -13 -2 -11 -13 -4 9 58 -29 0 -9 100 100 A 54 15 12 20 17 -24 44 -6 -4 -1 -11 -5 12 19 9 -13 21 19 9 -39 -20 10 100 100
T 40 20 20 20 20 -30 40 -10 20 20 -10 0 20 30 -10 -10 30 150 20 -60 -30 10 100 100 P 31 6 7 6 6 -41 19 11 -9 6 -16 -11 0 89 17 17 24 22 9 -50 -48 12 100 100 G 70 60 20 70 50 -60 150 -20 -30 -10 -50 -30 40 30 20 -30 60 40 20 -100 -70 30 100 100
! 11 R -30 10 -30 0 0 -50 -30 50 -30 80 -40 20 10 30 40 150 10 -10 -30 140 -60 20 100 100 L -2 -17 -15 -18 -12 38 -13 -9 38 -12 49 39 -15 -9 -9 -15 -11 0 38 6 12 -10 100 100 L 0 -12 -15 -14 -9 32 -12 -7 32 -7 41 35 -11 -9 -6 -12 -9 0 29 6 9 -7 100 100 D 15 58 -27 78 54 -52 35 27 -12 16 -26 -21 38 6 41 3 9 10 -12 -57 -25 50 100 100 L -5 -5 -7 -8 -4 24 -12 13 13 -6 25 17 -1 -7 0 -2 -8 -3 10 11 17 -2 100 100 L 3 -13 -13 -13 -8 31 -11 -8 34 -9 41 36 -12 -7 -5 -13 -8 2 31 -1 8 -6 100 100 E 6 19 -15 23 27 -21 9 15 -6 18 -8 -1 16 6 23 12 6 5 -6 -15 -16 25 100 100 K 3 14 -12 11 12 -16 2 10 -5 23 -7 4 15 6 15 22 8 3 -5 7 -15 14 100 100 G 11 17 0 16 14 -16 19 5 -6 11 -11 -5 16 9 8 4 14 15 -1 -13 -14 11 100 100 T 12 9 -1 7 7 -8 9 2 4 12 0 4 10 5 4 3 9 12 7 -8 -8 5 100 100! 21 D 1 1 0 2 1 -1 1 0 1 0 0 0 1 0 1 0 0 1 2 -3 -1 1 22 22 T 2 2 0 3 2 -2 3 0 2 0 0 0 1 1 1 -1 1 4 2 -5 -2 2 22 22 K 0 1 -3 0 1 0 0 0 1 4 1 3 1 0 1 1 0 3 1 0 -2 1 22 22 G 3 3 0 4 4 -1 6 -1 3 0 1 1 3 1 1 -2 4 3 5 -6 -3 2 22 22 L 5 -6 -4 -7 -4 16 -2 -4 21 -4 23 17 -5 -4 -4 -8 -2 4 19 0 6 -4 22 22 B 5 16 -6 15 11 -15 10 6 -3 16 -8 -1 15 4 9 10 12 7 -2 -3 -11 10 100 100 L 1 -13 -12 -14 -9 27 -8 -7 24 -8 36 30 -10 -5 -7 -10 -4 7 23 6 9 -8 100 100 D 7 19 -7 22 17 -22 13 7 -6 19 -11 -3 14 8 15 14 17 6 -5 -5 -18 16 100 100 K 11 10 -3 10 9 -12 5 9 -4 16 -6 0 10 6 11 12 10 4 -4 3 -8 10 100 100 V 7 -10 11 -11 -10 14 0 -8 31 -11 19 16 -10 0 -10 -12 2 8 34 -22 9 -10 100 100K 8 9 -4 9 9 -13 11 1 0 16 -4 4 8 7 8 11 13 12 3 -2 -15 8 100 100 L 3 4 -9 3 6 3 -2 8 9 7 10 10 5 0 8 3 0 5 7 -2 0 7 100 100 L 1 -13 -13 -13 -9 32 -11 -7 32 -9 42 36 -12 -7 -6 -13 -9 3 33 2 8 -7 100 100 * 99 0 25 208 120 94 137 44 181 105 256 94 41 62 64 144 59 99 162 3 35 0
![Page 104: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/104.jpg)
104 Fernán Agüero
Usos de los profiles
• Derivación de motifs (patterns)• Generación de un MSA
– partiendo de un MSA que se supone representativo de una familia o grupo de proteínas, se genera un profile
– el profile se usa para generar alineamientos nuevos con proteínas no representadas originalmente en el profile
– Más sensible que una matriz de scoring sitio-inespecífica
• Búsqueda de secuencias similares en bases de datos– El ‘query’ no es una secuencia, sino el profile
![Page 105: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/105.jpg)
105 Fernán Agüero
Profile HMMs
• La información contenida en un profile puede representarse de otras formas
• Los profiles originales contienen scores y penalidades basados en las frecuencias de ocurrencia
• Un profile (o un MSA) puede representarse como una cadena de eventos con probabilidades de ocurrencia (Markov Model)
• Veamos un ejemplo!
![Page 106: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/106.jpg)
106 Fernán Agüero
Profile HMMs
![Page 107: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/107.jpg)
107 Fernán Agüero
Profiles vs Profile HMMs
• Qué propiedad adicional agrega un HMM a un profile?
• El profile modela un MSA en base a frecuencias sitio-específicas
• Pero todos los sitios son independientes
• Un profile HMM agrega probabilidades a posteriori (Bayesian statistics)– Probabilidades complejas– La probabilidad de que el próximo aa en el MSA sea
Alanina no es fija, depende eventos anteriores
![Page 108: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/108.jpg)
108 Fernán Agüero
Profile HMMs: HMMER
• HMMER– http://hmmer.wustl.edu
• Paquete de programas para trabajar con profile HMMs– genera profile HMMs a partir de MSAs– usa los HMMs para realizar búsquedas en bases de
datos de secuencias– puede buscar en bases de datos de profile HMMs a
partir de una secuencia
![Page 109: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/109.jpg)
109 Fernán Agüero
Pfam
• Una base de datos de profile HMMs• (y de MSAs)
– WUSTL– Sanger Centre– Karolinska Institutet
• Representan dominios proteicos• Pueden buscar
– a partir de palabras clave– a partir de una secuencia
• Pfam 8.0 (February 2003, 5193 families)
![Page 110: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/110.jpg)
110 Fernán Agüero
Pfam: HMMs
![Page 111: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/111.jpg)
111 Fernán Agüero
PSSMs
• Los motifs se pueden representar de distintas maneras (patterns por ejemplo)
• Sin embargo, los patterns no les dan peso a las distintas sustituciones
• [AC]-x-V-x(4)-{ED}
• Una Position Specific Scoring Matrix es una descripción de un motif en términos de una matriz
![Page 112: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/112.jpg)
112 Fernán Agüero
PSSMs
• Evaluar la información que contiene una PSSM usando Sequence Logos
• http://www.lecb.ncifcrf.gov/~toms/sequencelogo.html
![Page 113: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/113.jpg)
113 Fernán Agüero
PRINTS
• Protein Fingerprints DB– http://www.bioinf.man.ac.uk/dbbrowser/PRINTS
– Qué es un fingerprint?• Una serie de motifs conservados en un orden particular• Se utilizan para predecir la ocurrencia de motifs similares
en una secuencia• Importa la presencia y el orden de los motifs
• Una proteína de la misma familia tiene todos los motifs en orden.
• En el caso de una superfamilia, miembros de distintas familias pueden tener matchs parciales contra el fingerprint
![Page 114: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/114.jpg)
![Page 115: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/115.jpg)
115 Fernán Agüero
InterPro
• Integra varias otras bases de datos en un solo lugar y provee referencias a otras bases de datos (GO)– http://www.ebi.ac.uk/interpro
– Prosite, PRINTS, Pfam, ProDom, SMART
![Page 116: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/116.jpg)
![Page 117: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/117.jpg)
![Page 118: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/118.jpg)
![Page 119: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/119.jpg)
![Page 120: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/120.jpg)
120 Fernán Agüero
MSA: frecuencias de sustitución de aas
• Un MSA es la base para determinar las frecuencias de sustitución de amino ácidos en un grupo particular de secuencias– frecuencias de sustitución globales
• Se utilizan para generar matrices de scoring:• Matrices PAM, BLOSUM, etc• Dan puntaje y penalizan por igual los mismos cambios,
independientemente del contexto
– frecuencias de sustitución sitio por sitio• Position Specific Scoring Matrices (PSSM)• Profiles
![Page 121: Alineamiento de secuencias Búsqueda de secuencias en bases de datos](https://reader035.vdocuments.co/reader035/viewer/2022062217/56813f50550346895daa0c89/html5/thumbnails/121.jpg)
121 Fernán Agüero
Cómo los uso?
• Así como BLAST/FASTA pueden buscar sobre secuencias utilizando secuencias, distintos programas pueden buscar sobre secuencias usando– patterns– motifs– profiles– PSSMs– etc.
• Y en general también vale la inversa (buscar usando secuencias)
• Vamos a ver ejemplos en el TP de EMBOSS