Download - 3_Alineamientos de Pares
Alineamiento de pares de secuenciasRodrigo Santamara
S
Alineamiento de pares de secuenciasIntroduccinDefiniciones Ejemplo
Algoritmos Matrices de puntuacin
S2
Objetivo
S Determinar si una secuencia de nucletidos o aminocidos
(un gen o una protena) est relacionada con otraS Esto nos permite determinarS Si evolucionaron desde un ancestro comn S Si tienen funciones comunes S En el caso de protenas, si tienen formas similares
3
Homologa
S Dos secuencias son homlogas si comparten un ancestro
comn
S No hay grados, o se es homlogo o no (soy un 30% tu padre) S Dos protenas homlogas suelen tener una estructura 3D
similarS Dos protenas o genes homlogos suelen tener secuencias
parecidas
4
Ortologa y Paraloga
S Ortlogo: secuencias homlogas en diferentes diferentes especies que
vienen de un ancestro comn
S P. ej.: el gen de la mioglobina en ratas y humanos tiene un ancestro comn
hace 80 millones de aos (MYA)
S Parlogo: secuencias homlogas pero debidas a un mecanismo
distinto a la evolucin
S Tpicamente, duplicacin gentica
S Simplificacin (no totalmente equivalente) S Ortlogo: homlogo entre diferentes especies S Parlogo: homlogo dentro de una misma especie
5
Similitud e Identidad
S Similitud: grado de coincidencia entre dos secuenciasS El grado de similitud entre dos secuencias es de un 45%
S Identidad: coincidencia total entre dos secuenciasS Aunque muchas veces se usa como sinnimo de similitud
S Analoga: grado muy alto de similitud entre dos secuencias S La homologa no siempre garantiza analogaS La -globina y la neuroglobina slo comparten un 22% de sus
secuencias a pesar de ser homlogas6
Alineamiento de pares
S Colocacin de dos secuencias para que se maximice su similitud ROJO ROSSO "+2" ROUGE "+2" RED "+1" ROJO ROSSO" ** * "+3 (75%)" ROJO ROUGE "" ** +2 (50%)"
ROJO RED" * "+1 (25%)"
S Las secuencias son largas y la capacidad de combinacin altaS Necesidad de mtodos algortmicos para realizar el alineamiento7
Huecos (gaps)
S Separaciones aadidas artificialmente a una secuencia para
maximizar su alineamiento con otra(s).S Representan posibles mutaciones sufridas durante la evolucin
que han causado divergencia entre las secuencias:S Inserciones S Deleciones
S Un hueco puede ocurrir en medio o en los extremos de la
secuencia8
Alineamiento global y local
S Alineamiento global: las secuencias se alinean a lo largo de
toda su longitud, intentando alinear secuencias completasS til para secuencias muy parecidas y de longitud similar
S Se introducen huecos para igualar las longitudes de secuencia
S Alineamiento local: slo se alinean la partes ms parecidas
de la secuencia
S Favorece encontrar patrones similares dentro de la secuencia S Un alineamiento local es una combinacin de muchos
alineamientos globales de secuencias cortas.9
Alineamiento de pares. EjemploS Un ejemplo biolgico: -globina (NCBI NP_00508) y -globina
(NP_000509) en humano
S Protenas homlogas con estructura 3D similar.
S Algoritmo BLAST de pares del NCBI para protenasS http://blast.ncbi.nlm.nih.gov/Blast.cgi 1. Enter query sequence: 1. introducir NP_000508 o su secuencia FASTA 2. Seleccionar align two or more sequences 2. Enter subject sequence: introducir NP_000509 o su FASTA 3. Click BLAST
10
Alineamiento de pares. Ejemplo
Query y Sbjct: secuencias. Ambas se alinean para maximizar su similitud Coincidencias: lnea entre Query y Sbjct Letra: coincidencia idntica +: coincidencia conservada (aminocidos bsicos, cidos, hidrfobos) Espacio en blanco: no hay coincidencia Score: valor del algoritmo de alineamiento Identities/Positives: porcentaje de coincidencias idnticas/conservadas Gaps: porcentaje de huecos incluidos en el alineamiento
Alineamiento de pares de secuenciasIntroduccin AlgoritmosDiagramas de puntos Alineamiento global Alineamiento local
Matrices de puntuacin
S13
Algoritmos de alineamiento
S Procedimientos de comparacin entre dos secuencias
mediante alineamientos ptimosS Una secuencia por s sola no es muy informativaS Necesitamos compararla con otras para descubrir relacionesS Funcionales: dos secuencias tienen la misma funcin o similar S Estructurales: dos secuencias de aminocidos (protenas) tienen la
misma estructura 3DS Evolutivas: dos secuencias proceden de un ancestro comn
14
Tipos de algoritmos de alineamientoS Diagramas de puntos S Algoritmos dinmicosS Alineamiento globalS Needleman and Wunsch (1970)
S Alineamiento localS Smith and Waterman (1981)
15
Diagramas de puntos (dot plots)S Es el algoritmo ms sencilloS No requiere computacin (data de 1970)S
Aunque se puede programar
S No requiere hiptesis biolgicas S Verificacin visual
S Se coloca una secuencia en el eje X y otra en el eje YS En cada lugar donde las secuencias coincidan se dibuja un punto S Las secuencias similares aparecern en forma de lneas diagonales
16
Dot plots: ejemploTCCGTCCATTGATTACAAAAGTCC
Cada vez que haya una coincidencia en un nucletido, colocamos un punto. Por ejemplo, en el caso del primer nucletido de la secuencia horizontal (T)
TCCGACTTGAGATTACAGAAGTCG
Dot plots: ejemploTCCGTCCATTGATTACAAAAGTCC
Continuamos con secuencias de 2, 3, 4, etc. Se suele establecer un umbral mnimo, o tamao de ventana (p. ej. 3)
TCCGACTTGAGATTACAGAAGTCG
Dot plots: ejemploTCCGTCCATTGATTACAAAAGTCC
Los puntos suelen sustituirse con lneas
TCCGACTTGAGATTACAGAAGTCG
Dot plots: Dotlet
S Applet Java para clculo y visualizacin de dot plotsS Applet: pequeo programa que se carga en un navegador y que
se ejecuta en la mquina cliente S Java: lenguaje de programacinS Fcil de usarS Regla general: buscar una seal clara S Veremos varios ejemplos S URL: http://myhits.isb-sib.ch/cgi-bin/dotlet20
Identificadores UniProt Protena de mosca y humano
Repeticiones de secuenciaScore: medida de similitud
Tamao de ventana
Umbrales x%-y%: sec. similares de score mayor que y% se muestran en blanco, menores que x% en negro, intermedias en grises
Frecuencias: nmero de secuencias idnticas con tamao n% respecto a la longitud total
Dot plot
log frecuencias: para distinguir mejor
21
Refinando el resultado podemos encontrar dominios similares entre ambas protenas
22
Globina del caracol Biomphalaria glabrata (cdigo NCBI de protenaCAJ44466)
Estructura interna de la protena: repeticiones de dominios
Hay un dominio que se repite 13 veces
23
Estructura interna de la protena: repeticiones de dominios
24
Cuatro bloques grandes ricos en leucina Seis bloques (ms uno) con dominios EGF
Repeticin de dos dominios en la protena SLIT de Drosophila melanogaster (P24014):
http://myhits.isb-sib.ch/util/dotlet/doc/repeats.html
Dotplot: consideraciones
S Comparando una secuencia consigo mismaS El dot plot es simtrico S El nmero de repeticiones de un patrn viene dado por el nmero
de diagonales por arriba o por abajo S La longitud del patrn repetido lo da la longitud de la lneaS Ahora veamos algunos ejemplos msS Regiones de baja complejidad S Exones e intrones S Conservacin entre especies
26
Dotlet
Conservacin entre especies: la globina de glabrata son 13 repeticiones de la citoglobina humana
Lieb et al. Red blood with blue-blood ancestry: Intriguing structure of a snail hemoglobin. PNAS, 2006
27
Las regiones de baja complejidad (periodicidad de uno o pocos aminocidos/nucletidos) aparecen como rectngulos, como por ejemplo en esta protena del P. Falciparum (UniProt P69192)
Identificacin de exones: comparamos la secuencia de un gen (horizontal) con su producto. Los exones sern las coincidencias entre ambos En este caso se ha seleccionado el gen de la calmodulina del E. Nidulans (Uniprot J05545) y su producto (P19533). Notad los cambios en los parmetros para optimizar la claridad de la representacin
29
Dotlet
S Permite detectar fcilmenteS Dominios internos en una secuencia S Dominios conservados entre dos secuencias S Zonas de baja complejidad S Exones e intrones S Etc.
S LimitacionesS Complejidad computacional O(n2) S Y si hay huecos?30
Necesidad de otros algoritmos
S Queremos el mejor alineamiento de todos los posibles S El que nos da una puntuacin mejor S El nmero de posibles alineamientos permitiendo huecos
para dos secuencias de longitud n esS Para n=30 1017
S Programacin dinmica: el problema se divide en
subproblemas, de manera que la solucin a los subproblemas simplifica la solucin del problema global31
Programacin dinmicaS Alineamiento global: Needleman-Wunsch (NW)S 1970, PMID: 5420325
S Alineamiento local: Smith-Waterman (SW)S 1981, PMID: 7265238
32
Puntuaciones
S Estos algoritmos funcionan en base a un sistema de
puntuaciones de cun parecidas son dos secuencias
S Por ejemplo S +1 por cada elemento igual (match) S -1 por cada elemento desigual (mismatch) S -1 por cada hueco introducido (gap) S Esta es una puntuacin muy simple que se usar slo para ilustrar el funcionamiento de los algoritmos NW y SWS Las puntuaciones se refinarn con PAM y BLOSUM ms adelante33
Alineamiento global Needleman-Wunsch: inicioS Creamos una matriz, con unaC0
O
E
L
A
C
A
N
T
H
secuencia en horizontal y la otra en vertical.S La primera fila y columna
-1
-2
-3
-4
-5
-6
-7
-8
-9
-10
P E L I C A N34
-1
-2
contienen valores de distancia al origen (gap scores)S Asegura el alineamiento
-3
-4
hacia atrs y hasta el origen
-5
-6
-7
NW: llenado o induccinS Para cada celda se calculan tresPC MM=-1 C0
valores, que son la suma de una celda adyacente ms el match/ mismatch (MM) de la celda actual S MM + celda superior S MM + celda izquierda S MM + celda superior izquierda
0-1=-1 -1-1=-2 -1-1=-2 E
O
L
A
C
A
N
T
H
-1
-2
-3
-4
-5
-6
-7
-8
-9
-10
P E L I C A35
-1
-1
-2
-3
-4
-5
-6
-7
-8
-9
-10
S Para cada celda S Se le asigna el mximo de los
-2
-2
-2
-1
-2
-3
-4
-5
-6
-7
-8
-3
-3
-3
-2
0
-1
-2
-3
-4
-5
-6
tres valores S Se le asigna la direccin a la celda que propici ese valor S En caso de que sean valores iguales, se elige un criterio de desempate
-4
-4
-4
-3
-1
-1
-2
-3
-4
-5
-6
-5
-3
-4
-4
-2
-2
0
-1
-2
-3
-4
-6
-4
-4
-5
-3
-1
-1
1
0
-1
-2
N
-7
-5
-5
-5
-4
-2
-2
0
2
1
0
NW: trace-backC O
E
L
A
C
A
N
T
H
S Seguimos la ruta con mejor score S Comenzando en la esquinaP E L I C A N
0
-1
-2
-3
-4
-5
-6
-7
-8
-9
-10
inferior derechaS Siguiendo las flechas S desplazamiento de la
-1
-1
-2
-3
-4
-5
-6
-7
-8
-9
-10
-2
-2
-2
-1
-2
-3
-4
-5
-6
-7
-8
-3
-3
-3
-2
0
-1
-2
-3
-4
-5
-6
cadena vertical respecto a la horizontalS desplazamiento de la
-4
-4
-4
-3
-1
-1
-2
-3
-4
-5
-6
-5
-3
-4
-4
-2
-2
0
-1
-2
-3
-4
horizontal respecto a la verticalS no hay desplazamiento36
-6
-4
-4
-5
-3
-1
-1
1
0
-1
-2
-7
-5
-5
-5
-4
-2
-2
0
2
1
0
COELACANTH" -PELICAN--"
Needleman-Wunsh: ejemplo real
Alineamiento local y globalGlobalS tiles cuando las secuencias
LocalS til con secuencias de distinto
tienen un tamao muy parecidoS Un alineamiento local hace
tamao pero que se espera que tengan regiones comunesS Los algoritmos tienen un coste
mltiples alineamientos globales sobre subsecuencias
computacional ms alto
Global " " Local " "
"FTFTALILLAVAV" "F-TAL-LLA-AV" "FTFTALILL-AVAV" "--FTAL-LLAAV--"38
Alineamiento local Smith-WatermanS Modificacin del algoritmo NW S La matriz se construye igual excepto que:S La primera fila y columna son 0s, en vez de -1,-2,-3,-4 S Mismatch es -1 y match 1S Si algn valor de celda queda negativo, lo ponemos a 0
S El trace-back comienza en la puntuacin ms alta y termina
cuando llegue a un 0
39
Smith-Waterman1 O vs E -1 + max(0,0,0) -1 0 2 L vs L 1 + max(0,1,0) 2 1 2
COELACANTH" -PELICAN--"
40
Smith-Waterman: ejemplo real
41
Alineamiento de pares de secuenciasIntroduccin Algoritmos Matrices de puntuacinPAM BLOSUM
S42
Matrices de puntuacin
S Necesitamos mtodos de puntuacin ms sofisticados, con
sentido biolgico:S Gentico: coste de mutacin de un aminocido en otro S Qumico: similitud en las caractersticas de los aminocidos S Evolutivo: frecuencia evolutiva de cambio en aminocidosS Lod scores S PAM S BLOSUM
43
Thr ACG Glu GAA GAC S Matriz de coste de mutacin 3 3
ACA ACC 2 3 3 2
ACU 3 3
S Nmero mnimo de cambios de base requeridos para convertir un
aminocido en otro distinto (entre 1 y 3)44
S Matriz de similitud de caractersticas qumicasS El coste de mutacin tiene en cuenta el cdigo gentico, pero no tiene45
en cuenta la presin selectiva en los cambios de un aminocido a otro
Construccin de las matrices a partir de resultados experimentales
46
Matrices de puntuacin
S Matriz con puntuaciones (lod scores) para todas las
sustituciones de aminocidos posiblesS Las puntuaciones representan estimaciones de la probabilidad
de sustitucin respecto a una sustitucin aleatoria S Se basa en las evidencias conocidas de sustituciones evolutivasS Los lod scores son nmeros reales, peroS Usualmente se representan mediante nmeros enteros (raw
scores) multiplicndolos antes por un factor de escala
47
Matrices de puntuacin: historiaS 1965: Emile Zuckerkandl y Linus
Pauling disean la primera matriz de puntuaciones para distintas secuencias de globina S Rojo: sustituciones que nunca ocurren S Blanco: sustituciones que ocurren en con una frecuencia menor al 20% S Con nmero si entre 21 y 39% S Gris: sustituciones que ocurren con una frecuencia del X% (>=40%) S Con parntesis si se tienen pocas evidencias para esa sustitucin48
Matrices de puntuacin: historia
S 1978: Dayhoff et al. estudiaron 1572
sustituciones en 71 grupos de protenas muy parecidas entre s S Accepted Point Mutation (PAM): sustitucin de un aminocido por otro, que ha sido aceptada por la seleccin natural para una determinada protena matriz de Dayhoff con una base de datos de 500 alineamientos (BLOCKS) entre protenas poco parecidas entre s
S 1992: Henikof y Henikof mejoran laMargaret Dayhoff
49
Matriz de DayhoffS Se reconstruye un rbol filogentico para cada uno de los 71
grupos de protenas (parecidas entre s, >=85% de similitud)S Y se determinan cuntos reemplazos (mutaciones aceptadas)
hay respecto al ancestro comn
50
ALEU
Aij
1572 mutaciones aceptadas (PAMs) estudiadas entre los distintos aminocidos, multiplicadas por 10 Por ejemplo, 20.7 de las 1572 PAMs ocurren entre Leu y Met Leu tiene un total de 142.8 mutaciones relacionadas51
Matriz de DayhoffPara Ala se toma un valor arbitrario de 100
mj
S
Mij probabilidad de que el aminocido j cambie al aminocido i en un intervalo evolutivo dado - constante de proporcionalidad (para Dayhoff, ~0.013) MMET-LEU = mLEUAMET-LEU/ALEU = 0.01340207/1428 = 0.08%
! m j Aij M ij = Aj
SMutabilidad relativa segn Dayhoff et al. 1978
S
52
Matriz con probabilidades de mutacin PAM1 1 PAM se define como la unidad de divergencia evolutiva en la que han ocurrido un 1% de mutaciones entre dos secuencias de protenas53
PAMn
S Podemos multiplicar la matriz PAM1 por s misma n veces para obtener
las probabilidades de sustitucin si hay un n% de probabilidades de que cada aminocido de la cadena haya mutado.S S
til para estudiar sustituciones entre aminocidos en protenas muy distintas, con probabilidad de sustitucin muy baja PAM60, PAM80, PAM100, PAM250
S Multiplicacin de matrices
54
qij
Matriz con probabilidades de mutacin PAM250 Para conseguir esta matriz, se multiplica la matriz PAM1 por s misma 250 veces
Matriz de puntuacin: lod scoresS Las matrices PAM calculadas no se utilizan directamente en los
algoritmos de alineamiento, requieren de una normalizacin previa para facilitar los clculos sustitucin de un aminocido por otro
S Lod (log odd) score: puntuacin del logaritmo de la frecuencia deS Las propiedades del logaritmo permiten sumar los lod scores, en
vez de multiplicarlos, durante el alineamiento, lo cual es computacionalmente menos costosoS
log(mn)=log(m)+log(n)
S Los lod scores son simtricos, simplificando las matrices. S Los lod scores suelen simplificarse a enteros (raw scores),
simplificando los clculos
56
lod scores en Dayhoffqij Sij = 10 ! log10 piS Sij lod score: logaritmo de la
frecuencia con la que el aminocido i se convierte en el aminocido j aparicin del aminocido i S Es una normalizacin de la mutabilidad relativa por j en PAMn
S pi frecuencia normalizada de
S qij probabilidad de sustitucin de i57
Lod scores: ejemploS El lod score de la sustitucin de Alanina (A) en Arginina (R) en PAM250 es: S SA,R=10xlog10(qAR/pA)=10xlog10(0.06/0.087)=-1.61 ~ -2 S Significado: la posibilidad de que haya una sustitucin de A por R en dos
cadenas (en un alineamiento regido por el estudio evolutivo de Dayhoff en PAM250) es 10-0.161 ~ un 70% de la posibilidad de que se d esa correspondencia aleatoriamenteS
Y en SA,A, que es igual a 2? 2=10xlog10(x) x=100.2=1.58
58
lod score PAM250
Es una matriz simtrica Debido a la normalizacin y redondeo al entero ms cercano Simplifica los clculos de los algoritmos de alineamiento Se dan lod scores simplificados al entero ms cercano (raw scores) Simplifican los clculos de los algoritmos de alineamiento Puede introducir pequeos errores (asumibles)
Qu PAM uso?
S El uso de una matriz PAM u otra depende de la similitud
entre las secuenciasS Para secuencias muy parecidas PAM10 puede dar buenos
alineamientos S Para secuencias muy distintas PAM250 puede ser mejorS A priori no siempre sabemos la similitud de las secuenciasS Puede ser necesario repetir los alineamientos con varias
matrices y quedarse con la que d el mejor alineamiento
60
BLOSUM
S BLOcks amino acid SUbstitution MatricesS Se construyen a partir de la base de datos BLOCKS, que
contiene segmentos alineados sin huecos, correspondientes a las regiones de protenas ms conservadasS BLOCKS contena inicialmente 500 patrones, ahora ~2000
S Cada matriz BLOSUM se refiere a un % de similitud en las
secuencias de partidaS BLOSUM45, BLOSUM62, BLOSUM80
61
BloqueS Ejemplo de bloque:
62
Clculo BLOSUMA" S En BLOSUM no conocemos el rbol filogentico: cualquier A" secuencia se considera un ancestro posible de las dems A" Pares posibles f AA = 6 + 5 + 4 + 3+ 2 +1 = 21 f AK = 7 A" A" f AA 21 f AK 7 Probabilidades de qAA = = = 0.75 A" qAK = = = 0.25 los pares f AA + f AK 21+ 7 f AA + f AK 21+ 7 A" K" Probabilidad de que A o qAS 0.25 qKK estn en un par
pA = qAA +
2
= 0.75 +
2
= 0.875 pK =
2
= 0.125
Probabilidad esperada de que ocurra AA o AK
eAA = pA ! pA = 0.76525
eAK = 2 ! pA ! pK = 0.21875
lod score
qij sij = 2 ! log 2 eij
sAA = 2 ! log 2
qAA " #0.06 eAA63
sAK = 2 ! log 2
qAK " 0.39 eAK
BLOSUM62Segn Henikoff & Henikoff (1992) BLOSUM62 es mejor alternativa que PAM y otros BLOSUM para un alineamiento genrico. Es utilizada como matriz por defecto por la mayora de los programas de alineamiento y de bsquedas en bases de datos
64
PAM vs BLOSUM
S PAM: basada en familias de protenas muy relacionadasS til para alinear secuencias parecidas
S BLOSUM: basada en observaciones de alineamientos entre
secuencias muy distintasS til para alinear secuencias distintas
65
La dimensin desconocidaS Hasta qu punto dos protenas
pueden divergir de forma detectable?S PAM250 considera que hay un
250% de probabilidades de que cada aminocido haya mutado equivale a una similitud del ~20% S El rea de similitud entorno al 20% se llama la twilight zone o dimensin desconocidaS Las secuencias pueden estar
relacionadas, pero no podemos detectarlo mediante el alineamiento66
Alineamiento de protenas vs alineamiento de ADNS Por qu no hablamos de matrices de puntuacin para
ADN?
S Normalmente el alineamiento de protenas nos da ms
informacin:
S Muchos cambios de un nucletido de un codn no varan el
aminocido resultante ms estable S Muchos aminocidos comparten propiedades biofsicas S Muchas protenas comparten estructura o regiones estructurales S El ADN sufre distintas modificaciones pos-translacionales que pueden influir en la protena que codifica
67
Matrices de puntuacin para nucletidosS No obstante, existen matrices para nucletidos
A T C GMatriz utilizada por BLAST
A T C G! 2" -7 2 " -7 -5 2" -5 -7 -7 2 "
Matriz PAM1 para nucletidos La transicin (mutacin entre purinas A-G, o entre pirimidinas C-T) es ms comn que la transversin (de purina a pirimidina)68
Resumen
S
La bioinformtica se basa en la comparacin de datos. Para maximizar la calidad de la comparacin de dos secuencias, necesitamos alinearlas. La comparacin de secuencias nos ayuda a inferir funciones, relaciones, dominios, etc. Para realizar el alineamiento, debemos decidir cmo evaluar las diferencias entre las secuencias (matriz de puntuacin) y qu estrategia usar para maximizar la similitud (algoritmo)
S
S
El algoritmo puede ser global (NW) o local (SW). NW alinea la secuencia completa a la vez y es til para secuencias similares en longitud. SW es una evolucin de NW y es til para secuencias ms variables, encontrando en general mejores soluciones, a costa de una mayor complejidad computacional. Las matrices de puntuacin ms usadas son PAM y BLOSUM, ambas basadas en evidencias evolutivas. Las matrices tienen distintas versiones, que corresponden a distintas suposiciones sobre la distancia evolutiva entre las dos secuencias a alinear
S
69
Preguntas para debate
S Al calcular los lod scores crees que los errores que introduce este
clculo adicional son asumibles? Prueba a calcular SR,A como se calcul SA,R en la diapositiva 58
S Si quieres comparar dos protenas, hay una matriz ideal que
utilizar? Hay algn modo de conocer cul es la mejor matriz de puntuacin a utilizar? dominio que evoluciona lentamente y otro que lo hace rpidamente. Para compararla con otra protena, usaras dos alineamientos distintos (por ej. con matrices PAM40 y PAM250) o uno solo, con una matriz intermedia?
S Muchas protenas tienen varios dominios. Imagina una que tiene un
70
Lecturas adicionales
S Pevsner, 2009: Ch 3 Pairwise Sequence Alignment S Yi-Kuo Yu and Stephen F. Altschul, The construction of amino acid
substitution matrices for the comparison of proteins with non-standard compositions, Bioinformatics. 2005 Apr 1;21(7):902-11,S
PMID: 15509610
S Eddy SR., Where did the BLOSUM62 alignment score matrix come
from? Nat Biotechnol. 2004 Aug;22(8):1035-6.S PMID: 15286655
71
72
Genome Valence es un proyecto de Ben Fry para visualizar el proceso de alineamiento de pares con BLAST Se representan las dos secuencias a alinear, que se van rompiendo en pedazos y unindose si se alinean http://benfry.com/genomevalence/
73