biotecnología - alineación de secuencias · busqueda de similaridad en secuencias los...

64
Biotecnolog´ ıa Alineaci´ on de secuencias Dpto. Ciencias de la Computaci´ on e Inteligencia Artificial Universidad de Sevilla

Upload: others

Post on 07-Jul-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

BiotecnologıaAlineacion de secuencias

Dpto. Ciencias de la Computacion e Inteligencia ArtificialUniversidad de Sevilla

Page 2: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Busqueda de similaridad en secuencias

• Los secuenciadores de ultima generacion hacen quesecuenciar organismos sea cada vez mas ”barato”

• El ensamblado y anotacion de las secuencias continuasiendo una ardua tarea

• Ya hay mucha informacion de secuencias previamenteanotadas

• No necesitamos partir de cero, se puede tratar de inferirinformacion de anotaciones previas

• Para ello, existen muchas herramientas de busqueda desecuencias similares a la nuestra

Page 3: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Motivacion

Una vez localizado un “gen”

• Buscamos parecidos con genes de los que se conoce su funcion

El oncogen ν − sis del virus simian sarcoma (causante de untipo de cancer en monos) coincide con el gen platelet-derivedgrowth factor (PDGF) que da lugar a una proteına que seencarga de estimular el crecimiento celular.

El problema es que se expresa en el momento equivocado.

Page 4: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Eyeless

• Una parte relativamente grande de los genes de cualquierorganismo es compartida incluso entre especies remotamenterelacionadas.• Versiones ligeramente distintas del gen regulador eyeless se

encuentran en especies muy diversas:• Humanos, ratones, ascidias, calamares, tigres, . . .

• La proteına que produce da lugar a una cascada de senales queactiva otros genes (en algunos casos mas de 2000) encargadosde la formacion de los ojos

• El resto de los distintos genes involucrados en la formacion delos ojos no son homologos y han evolucionado de formaindependiente.

• En algunos organismos este gen controla la formacion de losoıdos, . . .

Page 5: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Mutacion/Expresion de un gen

https://www.slideshare.net/bellevictorino/chapter7-59678255

Page 6: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Expresion de un gen similar

https://www.studyblue.com/notes/note/n/genetic-control-of-development/deck/8768442

Page 7: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Dominios de proteınas

• Dependiendo de su funcion una proteına puede tener uno omas dominios (pequenos tramos) que realizan diferentestareas.

• En la mayorıa de los casos son la parte mas importante de lamolecula por lo que se conserva invariante.

• En el gen eyeless hay un tramo, que codifica unos 60aminoacidos, que se encuentra en un gran numero de genesreguladores.

Page 8: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Homologıa

• Gen homologo: Heredado por dos especies a partir de unancestro comun. Suelen tener una secuenciacion similar.• Gen ortologo: Las especies son diferentes• Gen paralogo: Dentro de la misma especie por duplicidad

Pares de genes/proteınas homologas suelen tener:

• Secuencias parecidas

• Funcionalidades parecidas

• Estructuras 3D parecidas

Secuencias similares no tienen por que significar homologıa.Secuencias homologas no tienen por que ser similares

Page 9: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Ortologıa/Parologıa

es ortologo entre las especies B, E y F

y (dentro de la especie C) son parologos

y son homologos (ni ortologos, ni parologos)

Page 10: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Alineacion de secuencias

La alineacion de secuencias se utiliza sobre todo para medir elgrado de similitud entre dos secuencias.

• Prediccion: Inferir la funcion de proteınas desconocidas apartir de una proteına similar en algun otro organismo.

• Busqueda en bases de datos: Localizar, dado un genconocido, una secuencia similar en otros organismos.

• Localizacion de genes: Comparar la secuencia completa de dosorganismos puede revelar la existencia de genes desconocidos

• Ensamblado de secuencias• En proteınas, > 25% aminoacidos identicos• En genes, > 70% nucleotidos identicos

Page 11: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Importancia de la similaridad

Si dos secuencias son similares, muy probablemente...

• Deriven de una secuencia ancestral comun

• Compartan una misma estructura

• Tengan una funcion biologica similar

Page 12: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

• La busqueda de similaridad se lleva a cabo mediante elalineamiento de secuencias• Alineamiento de dos cadenas (entre dos dadas, o de una dada

contra una base de datos)• Global (secuencia completa contra otra/s)• Local (busca subsecuencias similares)• Semiglobal (huecos en extremos no penalizados)

• Alineamiento multiple

Page 13: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Preguntas

• ¿Cual es la mejor forma de alinear dos secuencias?

• ¿Como podemos medir la calidad de una alineacion?

• La alineacion ¿es fruto del azar o es debida a una historiacomun?

– V I V A L A S V E G A SS V I V A D A – V – – I S

Mutaciones, inserciones/borrados (indels)

Page 14: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Alinear dos secuencias

Incluir saltos en alguna de las dos (nunca en las dossimultaneamente).

• Primera:

– T G C – A T A TA T C C G A T – –

• Segunda:

– T G C A T A TA T C C G – A T

• Tercera:

T G C A T – – – A T– – – A T C C G A T

• ...

Page 15: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Valoracion

Si dos letras coinciden: match, si difieren: mismatch, si hayhuecos: indels, los huecos superiores: insertions y los huecosinferiores, deletions

– T G C – A T A TA T C C G A T – –

ins. mat. mis. mat. ins. mat. mat. del. del.

Cuatro matches, un mismatch y cuatro indels.

Page 16: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Valoracion

Si dos letras coinciden: match, si difieren: mismatch, si hayhuecos: indels, los huecos superiores: insertions y los huecosinferiores, deletions

– T G C A T A TA T C C G – A T

ins. mat. mis. mat. mis. del. mat. mat.

Cuatro matches, dos mismatch y dos indels.

Page 17: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Valoracion

Si dos letras coinciden: match, si difieren: mismatch, si hayhuecos: indels, los huecos superiores: insertions y los huecosinferiores, deletions

T G C A T – – – A T– – – A T C C G A T

del. del. del. mat. mat. ins. ins. ins. mat. mat.

Cuatro matches y seis indels.

Page 18: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Valoracion

Si dos letras coinciden: match, si difieren: mismatch, si hayhuecos: indels, los huecos superiores: insertions y los huecosinferiores, deletions

T G C A T – – – A T– – – A T C C G A T

del. del. del. mat. mat. ins. ins. ins. mat. mat.

Cuatro matches y seis indels.

A cada una se le da una puntuacion ¿que puntuamos?

• Elegir un metodo para puntuarlas

• Elegir una alineacion con la que se obtenga la mejorpuntuacion.

Page 19: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Cada alineacion se corresponde con un camino en la siguientematriz:

T G C A T A TATCCGAT

Page 20: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

• Primera:↑ ↖ ↖ ↖ ↑ ↖ ↖ ← ←– T G C – A T A TA T C C G A T – –

T G C A T A T

A ↑T ↖C ↖C ↖G ↑

A ↖T ↖

← ←

Page 21: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

• Segunda:↑ ↖ ↖ ↖ ↖ ← ↖ ↖– T G C A T A TA T C C G – A T

T G C A T A T

A ↑T ↖C ↖C ↖G ↑ ↖

←A ↖ ↖T ↖ ↖

← ←

Page 22: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

• Tercera:← ← ← ↖ ↖ ↑ ↑ ↑ ↖ ↖T G C A T – – – A T– – – A T C C G A T

T G C A T A T← ← ←

A ↑ ↖T ↖ ↖C ↖ ↑C ↖ ↑G ↑ ↖ ↑

←A ↖ ↖T ↖ ↖

← ←

Page 23: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Alineacion global

• Asignacion de huecos a dos secuencias (incluidos los extremos)de tal forma que se pueda establecer una correspondenciaentre los sımbolos (o sımbolo y hueco) de ambas.

• Representacion: Matriz de dos filas y c columnas, cada filacon los sımbolos (y huecos intercalados) de cada una de lassecuencias.• No hay dos huecos en una misma columna.• c no puede ser mayor que la suma de las longitudes de ambas.

T G C A T . . . – – – A Tx1 x2 x3 x4 x5 . . . xc−4 xc−3 xc−2 xc−1 xc– – – A T . . . C C G A Ty1 y2 y3 y4 y5 . . . yc−4 yc−3 yc−2 yc−1 yc

Page 24: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Alineacion global

• Asignacion de huecos a dos secuencias (incluidos los extremos)de tal forma que se pueda establecer una correspondenciaentre los sımbolos (o sımbolo y hueco) de ambas.

• Representacion: Matriz de dos filas y c columnas, cada filacon los sımbolos (y huecos intercalados) de cada una de lassecuencias.• No hay dos huecos en una misma columna.• c no puede ser mayor que la suma de las longitudes de ambas.

• Puntuacion: una funcion σ : A ∪ {–} × A ∪ {–} → R• Valoracion de la alineacion:

c∑i=1

σ(xi , yi )

Page 25: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Ejemplo

Dada la funcion de puntuacion:

σ(−, a) = σ(a,−) = σ(a, b) = −1 ∀a, b ∈ A | a 6= bσ(a, a) = 2 ∀a ∈ A

La alineacion

– V I V A L A S V E G A SS V I V A D A – V – – I S

tiene una valoracion de(−1)+2+2+2+2+(−1)+2+(−1)+2+(−1)+(−1)+(−1)+2 = 8.

Page 26: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Matrices de sustitucion

Dado un alfabeto A de longitud nUna matriz de sustitucion o matriz de puntuacion, M, asociada aA se define como:

• una matriz cuadrada y simetrica de orden (n + 1)× (n + 1)

• las n primeras filas y columnas se corresponden con lossımbolos del alfabeto A• la ultima fila y columna corresponden con el hueco –.

Los elementos Mi ,j , para todo 1 ≤ i , j ≤ n, representa el valorasociado a la correspondencia entre los sımbolos ai y aj .Los elementos Mi ,n+1 y Mn+1,i , para todo 1 ≤ i ≤ n, representa elvalor asociado a la correspondencia entre los sımbolos ai y el hueco–.

Page 27: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Matrices de susticion para nucleotidos

Page 28: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Matrices de susticion para nucleotidos

Los nucleotidos se dividen en purinas {A,G} y pirimidinas{C ,T}.• Sustituciones entre nucleotidos del mismo tipo se denominan

transiciones.

• Sustituciones entre nucleotidos de distinto tipo se denominantransversiones.

• Debido a sus propiedades bioquımicas las transiciones son masfrecuenteas que las transversiones

A T C G –

A 1 -1.5 -1.5 -1 -2T -1.5 1 -1 -1.5 -2C -1.5 -1 1 -1.5 -2G -1 -1.5 -1.5 1 -2– -2 -2 -2 -2 N/D

Page 29: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Matrices de sustitucion para aminoacidos

• No todas las sustituciones posibles entre aminoacidos seobservan con la misma frecuencia debido a sus propiedadesbioquımicas tales como tamano, poralidad y hidrofobicidad.

• Las matrices de sustitucion tienden a dar menorespenalizaciones a los aminoacidos mas intercambiables.• Las dos familias de matrices de substitucion mas utilizadas

para aminoacidos son:• La familia de matrices PAM (Point Accepted Mutations)• La familia de matrices BLOSUM (BLOcks Substitution

Matrix)

Page 30: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Matrices de susticion para aminoacidos

Page 31: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Matrices PAM

• Se obtienen a partir de una matriz base PAM1 que se estimarealizando un aprendizaje supervisado a partir dealineamientos conocidos entre secuencias que tan solo sediferencian en un 1%.

• Para comparar secuencias mas divergentes se utilizanextrapolaciones de esta matriz que se obtienen comopotencias de PAM1. Por ejemplo, PAM250 se obtienemultiplicando PAM1 por sı misma 250 veces.

• CUIDADO: la extrapolacion no es lineal, es decir, PAM250no se utiliza para secuencias que divergen un 250%.

Page 32: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

PAM250

Page 33: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Matrices BLOSUM

• Las matrices BLOSUM (BLOcks SUbstitution Matrix) seestiman a partir de alineamientos conocidos entre secuenciasque son identicas en un porcentaje fijo.

• Por ejemplo, la matriz BLOSUM62 se construye utilizandosecuencias para las que es conocido que coinciden en un 62%.

• Cada termino se calcula con la siguiente formula:

Mij =1

λlog

pijqi · qj

• λ: factor de escala para asegurar que la matriz contengavalores enteros dispersos y facilmente tratables

• pij : probabilidad de que dos aminoacidos i y j reemplacen unoal otro en una secuencia homologa

• qi (resp. qj): probabilidad de encontrar el aminoacido i (resp.j) en cualquiera de las proteınas

Page 34: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

BLOSUM62

Page 35: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Bioconductor• La familia de matrices PAM y BLOSUM se encuentran

disponibles en paquetes del proyecto Bioconductor

• Bioconductor es un proyecto de desarrollo de softwarecolaborativo que proporciona herramientas para el analisis dedatos genomicos de altas prestaciones (microarrays, RNA-seq,qPCR, citometrıa de flujo, etc).

• Bioconductor esta formado por muchas bibliotecas).

• Para instalar alguna de dichas bibliotecas utiliza las siguientesinstrucciones:

> if (!requireNamespace("BiocManager", quietly = TRUE))

install.packages("BiocManager")

> BiocManager::install("nombreDeLaBiblioteca")

> library("nombreDeLaBiblioteca")

• Instalar la biblioteca Biostrings y cargar los datos referentes alas matrices PAM250 y BLOSUM62 con las instruccionesdata(PAM250) y data(BLOSUM62)

Page 36: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Matrices PAM y BLOSUM

• PAMNUM• Tiempo evolutivo• Numeros mayores representan mayores tiempos de divergencia

desde el ancestro en comun

• BLOSUMNUM• Similitud de secuencias• Numeros mayores representan una mayor similitud

Page 37: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Alineacion global optima

Alineacion global entre dos secuencias que maximiza su valoracion

• De ahı la importancia en la eleccion de la puntuacion

• El numero de posibles alineaciones entre dos secuencias detamano n es de

(2nn

)∗• Algoritmo Needleman–Wunsch (1970)

(∗) (nk

)= n!

k!(n−k)!, para n = 30 alrededor de 1017

Page 38: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Needleman–Wunsch

Para alinear s = “ATGA” y t = “ACGAT”

1. Construir las matrices de valoracion y rastreo

– A T G A– 0ACGAT

– A T G A– *ACGAT

Page 39: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Needleman–Wunsch

Para alinear s = “ATGA” y t = “ACGAT”.

1. Construir las matrices de valoracion y rastreo

– A T G A– 0 -2 -4 -6 -8A -2C -4G -6A -8T -10

– A T G A– * ← ← ← ←A ↑C ↑G ↑A ↑T ↑

V1,j = V1,j−1 + σ(sj−1,−) R1,j =←

Vi ,1 = Vi−1,1 + σ(−, ti−1) Ri ,1 =↑

Page 40: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Needleman–Wunsch

Para alinear s = “ATGA” y t = “ACGAT”.

1. Construir las matrices de valoracion y rastreo

– A T G A– 0 -2 -4 -6 -8A -2C -4G -6A -8T -10

– A T G A– * ← ← ← ←A ↑C ↑G ↑A ↑T ↑

Vi,j = max

Vi−1,j−1 + σ(sj−1, ti−1)Vi,j−1 + σ(sj−1,−)Vi−1,j + σ(−, ti−1)

Ri,j =

↖←↑

segun argmax

Page 41: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Needleman–Wunsch

Para alinear s = “ATGA” y t = “ACGAT”.

1. Construir las matrices de valoracion y rastreo

– A T G A– 0 -2 -4 -6 -8A -1 0 + 1C -4G -6A -8T -10

– A T G A– * ← ← ← ←A ↑ ↖C ↑G ↑A ↑T ↑

Vi,j = max

Vi−1,j−1 + σ(sj−1, ti−1)Vi,j−1 + σ(sj−1,−)Vi−1,j + σ(−, ti−1)

Ri,j =

↖←↑

segun argmax

Page 42: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Needleman–Wunsch

Para alinear s = “ATGA” y t = “ACGAT”.

1. Construir las matrices de valoracion y rastreo

– A T G A– 0 -2 -4 -6 -8

A -20 + 1

-2+(-2)C -4G -6A -8T -10

– A T G A– * ← ← ← ←

A ↑ ↖←

C ↑G ↑A ↑T ↑

Vi,j = max

Vi−1,j−1 + σ(sj−1, ti−1)Vi,j−1 + σ(sj−1,−)Vi−1,j + σ(−, ti−1)

Ri,j =

↖←↑

segun argmax

Page 43: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Needleman–Wunsch

Para alinear s = “ATGA” y t = “ACGAT”.

1. Construir las matrices de valoracion y rastreo

– A T G A– 0 -2 -4 -6 -8

A -20 + 1-2+(-2)-2+(-2)

C -4G -6A -8T -10

– A T G A– * ← ← ← ←

A ↑↖←↑

C ↑G ↑A ↑T ↑

Vi,j = max

Vi−1,j−1 + σ(sj−1, ti−1)Vi,j−1 + σ(sj−1,−)Vi−1,j + σ(−, ti−1)

Ri,j =

↖←↑

segun argmax

Page 44: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Needleman–Wunsch

Para alinear s = “ATGA” y t = “ACGAT”.

1. Construir las matrices de valoracion y rastreo

– A T G A– 0 -2 -4 -6 -8A -2 1C -4G -6A -8T -10

– A T G A– * ← ← ← ←A ↑ ↖C ↑G ↑A ↑T ↑

Vi,j = max

Vi−1,j−1 + σ(sj−1, ti−1)Vi,j−1 + σ(sj−1,−)Vi−1,j + σ(−, ti−1)

Ri,j =

↖←↑

segun argmax

Page 45: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Needleman–Wunsch

Para alinear s = “ATGA” y t = “ACGAT”.

1. Construir las matrices de valoracion y rastreo

– A T G A– 0 -2 -4 -6 -8A -2 1 -1 -3 -5C -4 -1 0 -2 -4G -6 -3 -2 1 -1A -8 -5 -4 -1 2T -10 -7 -4 -3 0

– A T G A– * ← ← ← ←A ↑ ↖ ← ← ↖C ↑ ↑ ↖ ← ←G ↑ ↑ ↑ ↖ ←A ↑ ↖ ↑ ↑ ↖T ↑ ↑ ↖ ↑ ↑

Vi,j = max

Vi−1,j−1 + σ(sj−1, ti−1)Vi,j−1 + σ(sj−1,−)Vi−1,j + σ(−, ti−1)

Ri,j =

↖←↑

segun argmax

Page 46: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Needleman–Wunsch

Para alinear s = “ATGA” y t = “ACGAT”.

2. Reconstruir la alineacion siguiendo la matriz de rastreo

– A T G A– 0 -2 -4 -6 -8A -2 1 -1 -3 -5C -4 -1 0 -2 -4G -6 -3 -2 1 -1A -8 -5 -4 -1 2T -10 -7 -4 -3 0

– A T G A– * ← ← ← ←A ↑ ↖ ← ← ↖C ↑ ↑ ↖ ← ←G ↑ ↑ ↖ ↖ ←A ↑ ↖ ↖ ↑ ↖T ↑ ↑ ↖ ↑ ↑

Valoracion: 0↖ ↖ ↖ ↖ ↑A T G A –A C G A T

Page 47: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Otra funcion de puntuacion

A T C G –A 2 -2 -2 -2 -1T -2 2 -1 -2 -1C -2 -1 2 -1 -1G -2 -2 -1 2 -1– -1 -1 -1 -1 N/D

– A T G A– 0 -1 -2 -3 -4A -1 2 1 0 -1C -2 1 1 0 -1G -3 0 0 3 2A -4 -1 -1 2 5T -5 -2 1 1 4

– A T G A– * ← ← ← ←A ↑ ↖ ← ← ↖C ↑ ↑ ↖ ↖ ←G ↑ ↑ ↑ ↖ ←A ↑ ↖ ↑ ↑ ↖T ↑ ↑ ↖ ↑ ↑

Valoracion: 4↖ ↖ ↖ ↖ ↑A T G A –A C G A T

Page 48: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Algunas propiedades

• Vi+1,j+1 proporciona el valor optimo en el alineamiento de lassubsecuencias s[1 : j ] y t[1 : i ].

• Puede existir mas de una solucion (dependiendo de la eleccionen los casos de empate)

Page 49: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Alineacion local

Alineacion global entre dos subsecuencias

• Dominios comunes entre proteınas distintas

Q U E V I V A L A S V E G A SV I V A D A – V I S

Alineacion local optima: la mejor alineacion global entrecualesquiera dos subsecuencias

• Algoritmo Smith–Waterman (1981)

Page 50: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Smith–Waterman

Para alinear s = “SVVIVADE” y t = “VIVAASES”.

1. Construir las matrices de valoracion y rastreo

– S V V I V A D E

– 0

V

I

V

A

A

S

E

S

– S V V I V A D E

– *

V

I

V

A

A

S

E

S

Page 51: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Smith–Waterman

Para alinear s = “SVVIVADE” y t = “VIVAASES”.

1. Construir las matrices de valoracion y rastreo

– S V V I V A D E– 0 0 0 0 0 0 0 0 0V 0I 0V 0A 0A 0S 0E 0S 0

– S V V I V A D E– * * * * * * * * *V *I *V *A *A *S *E *S *

V1,j = 0 R1,j = ∗

Vi ,1 = 0 Ri ,1 = ∗

Page 52: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Smith–Waterman

Para alinear s = “SVVIVADE” y t = “VIVAASES”.

1. Construir las matrices de valoracion y rastreo

– S V V I V A D E– 0 0 0 0 0 0 0 0 0V 0 0 2 2 1 2 1 0 0I 0 0 1 1 4 3 2 1 0V 0 0 2 3 3 6 5 4 3A 0 0 1 2 2 5 8 7 6A 0 0 0 1 1 4 7 7 6S 0 2 1 0 0 3 6 6 6E 0 1 0 0 0 2 5 5 8S 0 2 1 0 0 1 4 4 7

– S V V I V A D E– * * * * * * * * *V * * ↖ ↖ ← ↖ ← * *I * * ↑ ↖ ↖ ← ← ← *V * * ↖ ↖ ↑ ↖ ← ← ←A * * ↑ ↑ ↖ ↑ ↖ ← ←A * * * ↑ ↖ ↑ ↖ ↖ ↖S * ↖ ← * * ↑ ↑ ↖ ↖E * ↑ * * * ↑ ↑ ↖ ↖S * ↖ ← * * ↑ ↑ ↖ ↑

Vi,j = max

0Vi−1,j−1 + σ(sj−1, ti−1)Vi,j−1 + σ(sj−1,−)Vi−1,j + σ(−, ti−1)

Ri,j =

∗↖←↑

segun argmax

Page 53: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Smith–Waterman

Para alinear s = “SVVIVADE” y t = “VIVAASES”.

2. Localizar el maximo y reconstruir la alineacion

– S V V I V A D E– 0 0 0 0 0 0 0 0 0V 0 0 2 2 1 2 1 0 0I 0 0 1 1 4 3 2 1 0V 0 0 2 3 3 6 5 4 3A 0 0 1 2 2 5 8 7 6A 0 0 0 1 1 4 7 7 6S 0 2 1 0 0 3 6 6 6E 0 1 0 0 0 2 5 5 8S 0 2 1 0 0 1 4 4 7

– S V V I V A D E– * * * * * * * * *V * * ↖ ↖ ← ↖ ← * *I * * ↑ ↖ ↖ ← ← ← *V * * ↖ ↖ ↑ ↖ ← ← ←A * * ↑ ↑ ↖ ↑ ↖ ← ←A * * * ↑ ↖ ↑ ↖ ↖ ↖S * ↖ ← * * ↑ ↑ ↖ ↖E * ↑ * * * ↑ ↑ ↖ ↖S * ↖ ← * * ↑ ↑ ↖ ↑

Valoracion: 8S V V I V A D E

V I V A A S E S

Page 54: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Homologıa

Alineacion global

• Generamos permutaciones de una de las secuencias

• Calculamos la distribucion de las valoraciones de lasalineaciones globales con la otra secuencia

Alineacion local

• Generamos una permutacion de una de las secuencias

• Calculamos las valoraciones de todas las posibles alineacioneslocales.

La valoracion con la secuencia original debe estar por encima de lamenor valoracion obtenida por el 5% de las mejores valoracionescon la secuencia aleatoria.

Page 55: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Fragmento emparejado

Localizar secuencias similares en una base de datos y proporcionaruna estimacion de la relevancia de los resultados obtenidos.

• Subsecuencias del mismo tamano alineadas sin huecos

• Localmente optimo: Su valoracion no puede mejorarsemodificando el tamano de las subsecuencias.

• Maximo: Maximo fragmento emparejado con la mayorvaloracion entre todos los posibles

Page 56: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

BLAST

• Basic Local Alignment Search Tool

• Busca emparejamientos de fragmentos (de un determinadotamano) con una valoracion superior a cierto umbral (basadoen alguna consideracion estadıstica) e intenta extenderlos paraobtener el mayor fragmento posible con una valoracion porencima del umbral.

• Desarrollado por Stephen Altschul, Warren Gish, Webb Miller,Eugene Myers, y David J. Lipman (et. al.) en 1990

Utilizar BLAST para comparar:

• Homeobox protein HOXA7 [Homo sapiens]: AAD01939

• Antennapedia [Drosophila virilis]: AAQ67266

Page 57: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Caracterısticas

• Algoritmo mas extendido de alineamiento local

• Metodo heurıstico, no garantiza solucion optima

• Emplea programacion dinamica

• Busca secuencias similares en bases de datos

• Existen muchos programas de la familia blast

• Existen muchas variantes de BLAST

• Y muchas herramientas para ello

Page 58: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Resultados con BLAST (I)

Buscar secuencias parecidas a “Homeobox protein HOXA7 [Homosapiens]” (ID AAD01939)

Page 59: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Resultados con BLAST (II)

Buscar parecidos entre “Homeobox protein HOXA7 [Homosapiens]” (ID AAD01939) y “Antennapedia [Drosophila virilis]” (IDAAQ67266)

Page 60: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

BLAST: descripcion

Funcionamiento basico• Busqueda de hits, subsecuencias similares cuya puntuacion

supere un umbral:• Regiones identicas (o, al menos, con una alta puntuacion

segun la matriz de puntuacion) de una cierta longitud.

• Extension de pares de hits proximos (si tras la extensionsuperan umbral ⇒ HSP, high scoring pair)

• Evaluacion del alineamiento (e-value)

Page 61: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

BLAST: (Algunos detalles)

• un par: dos subsecuencias, una del problema y la otra de labase datos, de la misma longitud, superando un umbral depuntuacion.

• El algoritmo busca coincidencias de longitud fija, que seextienden a continuacion hasta que se alcanzan ciertosparametros umbral.

• Los pares de puntuacion alta (HSP, high scoring pairs)constituyen la base de los alineamientos que obtiene comosalida BLAST.

Page 62: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Variantes de BLAST

• blastp: proteınas con base de datos de proteınas

• tblastn: proteınas con bd nucleotidos

• blastn: nucleotidos con base de datos de nucleotidos

• blastx: nucleotidos con base de datos de proteınas

• tblastx: a partir de nucleotidos traduce a proteınas, quecompara con base de datos de nucleotidos

Page 63: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Multiples secuencias

Comparamos la secuencia MODELO con MUNDO, CORDEL yMODO.

M O D E L OM U N D O +1C O R D E L +2M O D O +3

Se pueden introducir huecos a fin de aumentar la similitud:

M O D E L OM U N D - O +2C O R D E L +2M O - D - O +4

O bien podemos hacer esta otra distribucion

M O - D E L OM U N D - - O +3C O R D E L +4M O - D - - O +4

Page 64: Biotecnología - Alineación de secuencias · Busqueda de similaridad en secuencias Los secuenciadores de ultima generaci on hacen que secuenciar organismos sea cada vez m as "barato"

Alineaciones multiples

• Asignacion de huecos a k secuencias (incluidos los extremos)de tal forma que se pueda establecer una correspondenciaentre los sımbolos (o sımbolo y hueco) de todas ellas.

• Representacion: Matriz de k filas y c columnas, cada fila conlos sımbolos (y huecos intercalados) de cada una de lassecuencias.• No hay ninguna columna con k huecos

• Los algoritmos de alineacion tienen un coste que creceexponencialmente con k

• CLUSTAL: Intenta establecer que secuencias tienen un mayorgrado de similitud utilizando tecnicas de clustering