mòdul 8.1. seqüenciació de proteïnes. mètodes de...

Módulos 8.3. (T) y 8.4. (P)Análisis de secuencias de proteínas.

Alineamiento de secuencias de proteínas, simples y múltiples: BLAST. Análisis de secuencies de proteínas: motivos y perfiles

(perfiles HMM): Prosite, Pfam, Prints, etc. Matrices de puntuación (PAM, ...). Familias proteicas. Dominios estructurales.

Curs d’Especialista Universitari en Bioinformàtica

Abril 2007

Curs d’Especialista Universitari en Bioinformàtica. Abril 2007 2

ContenidosAnálisis de secuencias de ácidos nucleicos

Traducción de secuenciasAnálisis de secuencias de proteína - fuentes primarias

Recuperación de secuencias completas de proteínaBúsqueda rápida de la identidad de una secuenciaBúsqueda de semejanzas de una secuencia

Alineamiento de secuencias: Global vs. LocalAlineamiento de secuencias de proteínas, simples i múltiples: BLAST

Matrices de puntuación (PAM, BLOSUM)Análisis de secuencias de proteínas - fuentes secundarias

Búsqueda de patrones, perfiles y Hidden Markov Models (HMM, Modelos de Markov ocultos)

Análisis de secuencias de proteínas: motivos y perfiles (perfilesHMM): Prosite, Pfam, Prints, etc.

Búsqueda de patronesBúsqueda de perfiles y HMMsBúsqueda de bloques.

Familias proteicasDominios estructurales


Estudio a partir de la secuencia de aminoácidos

Clasificación de los aminoácidos de acuerdo a sus propiedades físicas: aminoácidos apolares



Clasificación de los aminoácidos de acuerdo a sus propiedades físicas: aminoácidos polares



Clasificación de los aminoácidos de acuerdo a sus propiedades físicas: aminoácidos básicos

aminoàcidos ácidos


Alineamiento de secuencias de proteínas

¿Por qué comparar secuencias?

Cambios en las secuencias :Reemplazo puntual

Sinónimos/No-SinónimosInserción y Delección (InDels)

Afecta pautas de lecturaTraslocaciónDuplicación

En todos los niveles y escalas de organización

ATG GAC CCA CGT TCG GAGCódigo estándar

AAA K ACA T AGA R ATA IAAC N ACC T AGC S ATC IAAG K ACG T AGG R ATG MAAT N ACT T AGT S ATT ICAA Q CCA P CGA R CTA LCAC H CCC P CGC R CTC LCAG Q CCG P CGG R CTG LCAT H CCT P CGT R CTT LGAA E GCA A GGA G GTA VGAC D GCC A GGC G GTG VGAG E GCG A GGG G GTG VGAT D GCT A GGT G GTT VTAA . TCA S TGA . TTA LTAC Y TCC S TGC C TTC FTAG . TCG S TGG W TTG LTAT Y TCT S TGT C TTT F

MDPRSE…

GAT

D

GCA

A

TAG

*


Alineamiento de secuencias de proteínasSignificado biológico:

Similitud de secuencia = relación evolutiva¿Porqué secuencias similares se supone que son homólogas?

Estructura

Función

SecuenciaLa secuencia de aminoácidos de una proteína

determina su estructura

La estructura de una proteína determina su función (exp. de desnaturalización, interacciones molec.,

modelos de sitios activos de enzimas)

La función es el objetivo de la selección natural (ni la secuencia ni la estructura). En ese caso, los cambios

en la secuencia y en la estructura son retringidos.



La divergencia está restringidaDebe existir alguna presión para mantener ciertas funciones

Estructura

Función

SecuenciaSecuencias similares de aminoácidos deben plegarse

dando estructuras también similares

Y proteínas con similares estructuras deben realizar funciones también similares

Devos and Valencia (2000)



Objetivos:Para determinar el grado de semejanza entre ellasPara deducir si tienen un antepasado comúnPara identificar las regiones conservadasque pueden ser de importancia estructural o funcionalPara hacer predicciones sobre la función y estructuraPara identificar

secuencias similares en bases de datos


Homología, ortología y paralogíaLa semejanza o la identidad es un parámetro cuantificableLa homología no es cuantificable y denota ascendencia comúnDos proteínas son ortólogas si sus diferencias se presentaron durante el proceso de especiación. Se asume que para tener una función igual o muy similar (ortólogo = de la misma subfamilia)Dos proteínas son parálogas si son codificadas por los genes originados por un proceso de duplicación de gen

Especie 1gen A

Especie 2

gen A

Especie 0

gen A

Especiación

gen Agen B

Duplicacióndel gen

Ortólogos

Ortólogos

Parálogos

Homólogos


Generalidades

Secuencia: Cadena lineal finita y ordenada de símbolos pertenecientes a un alfabeto

Alfabeto: Conjunto de símbolos básicos de las secuenciasADN: A= {a,c,g,t|u}Proteínas= A={a,c,d,e,f,g,h,I,k,l,m,n,p,q,r,s,t,v,w,y}

ADN y Proteínas son cadenas co-linaelesExisten otros alfabetos diversos

Comparación: Encontrar la posición relativa entre dos secuencias que maximice su parecido


Comparación básica por identidades

Algoritmo: Desplazar una secuencia debajo de la otra anotando el número de coincidencias que ocurren, seleccionando como resultado la posición de mayor valor

Seq X = TCAGACGATTG (n=11)Seq Y = ATCGGAGCTG (m=10)


Comparación básica por identidades TCAGACGATTG ATCGGAGCTG (0)

TCAGACGATTG ATCGGAGCTG (1)




















Comparación básica por identidadesTCAGACGATTG (r=4)ATCGGAGCTG

0 1 2 3 4 5 6 7 8 9 10 11┌───┬───┬───┬───┬───┬───┬───┬───┬───┬───┬───┬───┐

0 │ │ T │ C │ A │ G │ A │ C │ G │ A │ T │ T │ G │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-1 │ A │ │ │ 1 │ │ 1 │ │ │ 1 │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-2 │ T │ 1 │ │ │ │ │ │ │ │ 2 │ 1 │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-3 │ C │ │ 2 │ │ │ │ 1 │ │ │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-4 │ G │ │ │ │ 1 │ │ │ 2 │ │ │ │ 3 │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-5 │ G │ │ │ │ 3 │ │ │ 1 │ │ │ │ 1 │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-6 │ A │ │ │ 1 │ │ 4 │ │ │ 2 │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-7 │ G │ │ │ │ 2 │ │ │ 2 │ │ │ │ 2 │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-8 │ C │ │ 1 │ │ │ │ 1 │ │ │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-9 │ T │ 1 │ │ │ │ │ │ │ │ 3 │ 1 │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-10│ G │ │ │ │ 2 │ │ │ 3 │ │ │ │ 2 │└───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┘


Comparación básica por identidadesDesplazar una secuencia bajo la otra equivale a recorrer una matriz por sus diagonales

0 1 2 3 4 5 6 7 8 9 10 11┌───┬───┬───┬───┬───┬───┬───┬───┬───┬───┬───┬───┐

0 │ │ T │ C │ A │ G │ A │ C │ G │ A │ T │ T │ G │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-1 │ A │ │ │ 1 │ │ 1 │ │ │ 1 │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-2 │ T │ 1 │ │ │ │ │ │ │ │ 2 │ 1 │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-3 │ C │ │ 2 │ │ │ │ 1 │ │ │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-4 │ G │ │ │ │ 1 │ │ │ 2 │ │ │ │ 3 │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-5 │ G │ │ │ │ 3 │ │ │ 1 │ │ │ │ 1 │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-6 │ A │ │ │ 1 │ │ 4 │ │ │ 2 │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-7 │ G │ │ │ │ 2 │ │ │ 2 │ │ │ │ 2 │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-8 │ C │ │ 1 │ │ │ │ 1 │ │ │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-9 │ T │ 1 │ │ │ │ │ │ │ │ 3 │ 1 │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-10│ G │ │ │ │ 2 │ │ │ 3 │ │ │ │ 2 │└───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┘

La diagonal se calcula restando las posiciones de la secuencia horizontal menos la secuencia vertical:

1 - 2 = -1


Comparación básica por identidadesDesplazar una secuencia bajo la otra equivale a recorrer una matriz por sus diagonales

0 1 2 3 4 5 6 7 8 9 10 11┌───┬───┬───┬───┬───┬───┬───┬───┬───┬───┬───┬───┐

0 │ │ T │ C │ A │ G │ A │ C │ G │ A │ T │ T │ G │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-1 │ A │ │ │ 1 │ │ 1 │ │ │ 1 │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-2 │ T │ 1 │ │ │ │ │ │ │ │ 2 │ 1 │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-3 │ C │ │ 2 │ │ │ │ 1 │ │ │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-4 │ G │ │ │ │ 1 │ │ │ 2 │ │ │ │ 3 │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-5 │ G │ │ │ │ 3 │ │ │ 1 │ │ │ │ 1 │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-6 │ A │ │ │ 1 │ │ 4 │ │ │ 2 │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-7 │ G │ │ │ │ 2 │ │ │ 2 │ │ │ │ 2 │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-8 │ C │ │ 1 │ │ │ │ 1 │ │ │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-9 │ T │ 1 │ │ │ │ │ │ │ │ 3 │ 1 │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-10│ G │ │ │ │ 2 │ │ │ 3 │ │ │ │ 2 │└───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┘

Complejidad O (N x M)N y M son las longitudes de las secuencias a comparar

O = 11 x 10 = 110

Si consideramos N y M iguales (como cuando hay muchas comparaciones):

O = (N)2

Complejidad algorítmicaRelacionado con el número de operaciones que se requiere para resolver el problema


Comparación básica por identidades

Los fragmentos alineados aparecen como diagonales

en la matriz

Si se representan las identidades como puntos de una cuadrícula se obtiene una matriz de puntos o DotPlot.


Matriz de puntos o DotPlot


Dimensiones del problema

EMBL Nucleotide Sequence Database (versión 90, marzo 2007) (http://www.ebi.ac.uk/embl/index.html)

Nº entradas > 87 millones Nº bases > 159 GigaBytes90 archivos, 73 GB comprimido, 395 GB expandido

Recursos ComputacionalesCPU: 4,77 MHz (1983) Intel 8088

> 500 MHz (1999) Pent III, Celeron, Itanium,...> 1 GHz (2001) Pentium IV> 3 GHz (2007) Core 2 Duo


Métodos de reducción de la complejidad algorítmicaOptimización para reducir el tiempo de cálculo

Tabla de Dispersión (Hash)Lista con las posiciones de todos los elementos posibles de la secuencia

pos: 12345678901 Seq X: TCAGACGATTG n=11

Tabla (seqX)A 3, 5, 8C 2, 6G 4, 7, 11T 1, 9, 10

Secuencia a compararpos: 1234567890

Seq Y: ATCGGAGCTG m=10Se deben acumular las identidades en cada diagonal (d= h-v, si xh alinea con yv)

y1 (A) en d2 (3-1), d4 (5-1) y d7 (8-1)y2 (T) en d-1 (2-1), d7 (9-2) y d8 (10-2)…


Métodos de reducción de la complejidad algorítmica

Optimización para reducir el tiempo de cálculo

Complejidad: Será igual a cada elemento de la secuencia Y vs. el número de elementos de la tabla hash para ese símbolo, por tanto

O (N x media elementos celdas)media elementos celdas = M/longitud tabla

siendo (N, M = long de sec X y sec Y)

Proteínas: a más entradas (longitud de tabla) menos elementos por entrada dimensión de la tabla = Lk

Para proteínas: L alfabeto = 20 aa, k = 2Lk = 202 = 400 entradasProteínas: longitud media = 400 aaPor tanto equivale a 1 elemento por entradaComplejidad O (N + M)


Comparación por semejanzaLimitaciones (Doolittle, 1981):

Código genético degenerado o redundante (1 codón ≠ 1 aa, excepto Met, Trp)Se pueden dar substituciones sin influencia (aa con las propiedades parecidas)Hay que considerar las inserciones y deleccionesLos símbolos no son todos iguales: hay que considerar la cantidad de información que acarrea cada uno (= asociada a la frecuencia)Tener en cuenta el conocimiento biológico en el método de valoración

Proteínas: coincidencias de aa raros más importantes que de aanormales (Cys vs. Ala)DNA: purinas A-G y pirimidina C-T mejor que purina-pirimidina)

Distancia: El coste de transformar una secuencia en otra por medio de la aplicación de una serie de operaciones (sustitución, inserción, borrado).


Matrices de puntuaciónCon ellas se intenta valorar los cambios evolutivos para captar el significado biológico de las semejanzasSe deben considerar los reemplazos conservativos y las diferencias en las frecuencias observadas

Matrices PAM. Dayhoff (1972) Compara frecuencias en alineamientos relacionados con alineamientos no relacionados: proporcional a log(fAB/f'AB)

fAB frecuencia AB en alineamientos relacionadosf'AB frecuencia en los alineamientos no relacionados (f'AB=fAxfB)

fAB Depende de la semejanza entre las proteinaspara secuencias muy relacionadas = bajaa mayores distancias evolutivas = aumentapara grandes distancias = al azar

Se calcula a partir de alineamientos múltiples con no más de un 15% de diferencias por identidad con las tablas de las frecuencias de sustitución entre residuos y se normaliza (en 100 residuos 1 mutación) => PAM, 1% PercentAccepted Mutation, se extrapola a diferentes distancias (120, 250, 320, etc) PAMs.


Matrices de puntuaciónMatrices BLOSUM. Altschul (1991)

No se conoce a priori lo semejante que son las secuencias a buscarPAM extrapola las relaciones lejanas a partir de relaciones cercanas (esta hipótesis favorece las posiciones más mutables)

Se calcula a partir de alineamientos de bloques de secuencias. Bloque: Matriz cuyas filas representan segmentos de secuencias alineadas sin interrupciones

BLOSUMnn (BLOcks SUbstitution Matrices): (nn: umbral de identidad utilizado para la seleccionar los bloques)

Un BLOSUM bajo (umbral bajo de identidad) se corresponde con un número alto de PAM (distancia evolutiva grande)

EKPRKVMLMVRAGDVVDQFIEALLPHLEEGEKPRKIFLMVTAGKPVDSVIQSLKPLLEEGETPRKILLMVKAGTATDATIQSLLPHLEKDETPRKILLMVKAGTATDATIQSLLPHLEKDETPRRILLMVKAGAGTDAAIDSLKPYLDKGETPRRILLMVKAGSGTDSAIDSLKPYLDKG


Matrices de puntuaciónpam250 (inferior) y BLOSUM62 (superior)

A R N D C Q E G H I L K M F P S T W Y V B Z X *--+-------------------------------------------------------------------------+---| 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 | A | 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 | R

A | 2 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 | NR | -2 6 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 | DN | 0 0 2 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 | CD | 0 -1 2 4 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 | QC | -2 -4 -4 -5 12 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 | EQ | 0 1 1 2 -5 4 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 | GE | 0 -1 1 3 -5 2 4 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 | HG | 1 -3 0 1 -3 -1 0 5 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 | IH | -1 2 2 1 -3 3 1 -2 6 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 | LI | -1 -2 -2 -2 -2 -2 -2 -3 -2 5 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 | KL | -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 | MK | -1 3 1 0 -5 1 0 -2 0 -2 -3 5 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 | FM | -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 | PF | -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 4 1 -3 -2 -2 0 0 0 -4 | SP | 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6 5 -2 -2 0 -1 -1 0 -4 | TS | 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 11 2 -3 -4 -3 -2 -4 | WT | 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 7 -1 -3 -2 -1 -4 | YW | -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 4 -3 -2 -1 -4 | VY | -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 4 1 -1 -4 | BV | 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 4 -1 -4 | ZB | 0 -1 2 3 -4 1 2 0 1 -2 -3 1 -2 -5 -1 0 0 -5 -3 -2 2 -1 -4 | XZ | 0 0 1 3 -5 3 3 -1 2 -2 -3 0 -2 -5 0 0 -1 -6 -4 -2 2 3 1 | *X | 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 |--+-------------------------------------------------------------------------+---

A R N D C Q E G H I L K M F P S T W Y V B Z X *


Comparación Global vs. Local

Esquema de Pesos┌───┬───┬───┬───┬───┐│ │ A │ C │ G │ T │├───┼───┼───┼───┼───┤│ A │ 4 │-3 │ 1 │-3 │├───┼───┼───┼───┼───┤│ C │-3 │ 4 │-3 │ 1 │├───┼───┼───┼───┼───┤│ G │ 1 │-3 │ 4 │-3 │├───┼───┼───┼───┼───┤│ T │-3 │ 1 │-3 │ 4 │└───┴───┴───┴───┴───┘

4: Residuos iguales1: Residuos del mismo tipo

purinas (AG), pirimidinas (CT)-3: Combinaciones restantes.

E= -0,26= 0,25x0,25 [4x4+ 1x4 +(-3)x8]

SecH G T C C G A C T A G T GSecV C A T C G G A G C T G Puntos 1 4 4 -3 4 4 -3 1 -3 4 Acum. 1 5 9 6 10 14 11 12 9 13

Ejemplo Global


Comparación Global vs. LocalEsquema de Pesos┌───┬───┬───┬───┬───┐│ │ A │ C │ G │ T │├───┼───┼───┼───┼───┤│ A │ 4 │-3 │ 1 │-3 │├───┼───┼───┼───┼───┤│ C │-3 │ 4 │-3 │ 1 │├───┼───┼───┼───┼───┤│ G │ 1 │-3 │ 4 │-3 │├───┼───┼───┼───┼───┤│ T │-3 │ 1 │-3 │ 4 │└───┴───┴───┴───┴───┘

Ejemplo LocalRecorrido exhaustivo de las diagonales

Fragmento con puntuación acumulada máximaNo se puede incrementar estirando ni recortando por los extremos

Inicia en Celda positiva Avanza acumulando valores (mientras acum.>0). Fin: Fin de diagonal: Acumulado <0 => regresar al máximoNo incorpora zonas no-conservadas

G T C C G A C T A G T GC (1) (4) (4 (4) (1 (1A (1 1 (4 4 (1 1)=2T 4 (1 (1) -3 1 (4 -3 4)=5C 1 4 4 4)=6 1 -3 1G (4) -3 4 (1) 1 4)=5 4)=7G (4) 4 1)=10 (1 4 (4)A (1) (1 4)=14 (4 1)=2 -3 (1)G (4 (4) 1 (1) 4 4-)=1

2C 1 (4 (4) 4 (1) 1)=9T (4) 1)=6 1 (1) 4 (4G (4) 4)=9 (1) 1)=11 (4) 4)=8


Comparación Global vs. LocalSecH G T C C G A C T A G T G SecV C A T C G G A G C T G Puntos 1 4 4 -3 4 4 -3 1 -3 4 Global 1 5 9 6 10 14 11 12 9 13 Local 1 5 9 6 10 14 1 4 Sem. G 3 <- -- -- -- -- -> <> <>

Las interrupciones o GapsPodemos aumentar el parecido deformando lo que comparamos¿Penalizarlos?

X: TCAG-ACG-ATTG TCAGACGATTG|| | | | | | || || | | |

Y: ATC-GGA-GC-T-G ATCGGA-GCT-G


Comparación Global vs. LocalCada continuidad de las coincidencias a lo largo de cualquier diagonal es un alineamiento LOCALLOCALPara un alineamiento GLOBAL se deben conectar los diversos alineamientos locales y definir una trayectoria que representa el alineamiento a lo largo de toda las secuencias. Esto implica definir explícitamente inserciones y delecciones.Pueden ser posible varias trayectorias, cada una de las cuales representa una solución distinta y posible del alineamiento


Comparación Global vs. LocalCada continuidad de las coincidencias a lo largo de cualquier diagonal es un alineamiento LOCALPara un alineamiento GLOBALGLOBAL se deben conectar los diversos alineamientos locales y definir una trayectoria que representa el alineamiento a lo largo de toda las secuencias. Esto implica definir explícitamente inserciones y delecciones.Pueden ser posible varias trayectorias, cada una de las cuales representa una solución distinta y posible del alineamiento


FASTA

Lipman & Pearson, 1985, Pearson & Lipman 1988

Reducir el espacio de búsqueda¿En qué diagonales es más probable que se encuentre el mejor alineamiento?Método:

Etapa I: Buscar regiones (diagonal) por identidad y sin GapsUso de k-tuplas para acelerar (palabras long. k iguales)Resultado: Las mejores diagonales (10)Complejidad: de O (N2) a O (N+M)

Etapa II: Re-evaluación de las regiones por semejanzaUnión de regiones con Gaps

Etapa III: Evaluación exhaustiva de las mejores secuencias


BLASTBasic Local Alignment Search Tool (BLAST): herramienta de alineamiento local básica (Altschul, S.F., Gish W., Miller W., MyersE.W., and Lipman D.J. J. Mol. Biol. (1990) 215:403-10)

Identificación de las mejores diagonales utilizando criterios de semejanza

Método:Uso de k-tuplas por semejanza (amplía el espacio de búsqueda de FASTA)Corte estadístico (por baja probabilidad de ocurrencia):

1. Identificación rápida de segmentos (MSP: maximal segment pair)Segmento: sub-secuencia continua de cualquier longitudPuntaje: Suma de la semejanza de cada par

2. Análisis detallado de los MSPs con mas probabilidad de formar parte del alineamiento final (umbral T para eliminar efecto debido al azar)

Tabla Hash (long=w) de Sq con Score > T (umbral de SS)La long de la tabla es función de w y T


Nuevas herramientas

Gapped BLAST y PSI-BLAST

A new Generation of Protein DB search Programs (Altschul, S.F., Madden T.L., Schaffer A.A., Zhanng J., Zhang Z., Miller W., and LipmanD.J. Nucleid Acids Research (1997) v.25, n.17 3389-3402)

Mejoras sobre la versión originalMétodo de dos coincidencias.

Exige la presencia de dos palabras (no solapen, misma diagonal, distancia A entre ellas) para recuperar sensitividad, disminuir T

Segmentos interrumpidos ¿Dos fragmentos forman el mismo alineamiento?Programación dinámica limitando el ancho de ventanaAlineamientos alternativos que no disminuyen la puntuación más de Xg

Búsqueda iterativa Construcción de una matriz de pesos específica por posición


Clasificación de las aplicaciones

n=1, m=1: comparación de parejas de secuencias (pairwisecomparison) para determinar la semejanza entre ellas. Exhaustiva. Programas: GAP, BESTFIT, BLAST2SEQ

n=1, m>>1: búsqueda en bases de datos para estudiar una secuencia problema obtenida en el laboratorio e inferir algunas propiedades. Rápida, consume tiempo de calculo. Programas: FASTA, BLAST

n>1, m>1: alineamiento múltiple, varias contra varias para tener el caso intermedio a los dos anteriores. Primer paso en los procesos de clasificación de secuencias en familias y grupos o para estudios de filogenia. Programas: PILEUP, CLUSTALW, T-COFFEE.


Alineamiento múltiple de secuencias

Para tres secuencias


Alineamiento múltiple de secuencias. ClustalW

Improving the sensitivity of progressive multiple sequence alignment through sequence weighting position specific gap penalties and

weight matrix choice. Thomson JD, Higgins DG, Gibson TJ (1994) Nucleid Acids Research 22 (22) 4673-4680

El algoritmo comienza realizando una comparación todos contra todos en parejasEl par más similar de secuencias se alinea y se considera desde entonces como un grupo o clusterSe trata ese cluster como si fuera una sola secuencia, y se repite el proceso hasta que se alinean todas las secuenciasDisponible como servidor o en modo local


A partir de este tipo de estudios

El uso de este tipo de comparaciones múltiples permite agrupar proteínas en base a su semejanza de secuencia formando cluster o familiasObservación: En proteínas de la misma familia podemos detectar pequeñas regiones conservadas llamadas motivos motivos ((motifsmotifs)), a menudo asociadas a su función. Ej. sitios de unión, centros activos de enzimas, etc.La semejanza de la secuencia puede ser perceptible solamente en bloques de alineamiento múltiple de secuencias en fragmentos que son importantes desde el punto de vista funcional o estructuralCaracterísticas: La conservación no es perfecta. No son detectables mediante técnicas de homología de secuencia completa (BLAST, FASTA, etc).


A partir de este tipo de estudios

La divergencia está restringidaDebe existir alguna presión para mantener ciertas funciones

Estructura

Función

SecuenciaSecuencias similares de aminoácidos deben plegarse

dando estructuras también similares

Y proteínas con similares estructuras deben realizar funciones también similares

Devos and Valencia (2000)


Motivos proteicos

Definición: pequeñas zonas conservadasLos motivos se conservan incluso a grandes distancias evolutivas debido a restricciones estructurales o funcionalesEstán relacionados con la función por tanto se conservanPermiten hacer predicciones al ser detectar homólogos remotosSe han desarrollado bases de datos de motivos y herramientas para búsqueda de motivos en secuencias o búsqueda de secuencias con un cierto motivo.


Motivos proteicos


Secuencias consenso y patrones

De la información obtenida en el alineamiento múltipleSecuencias consenso

AGTVATVSCAGTSATHACIGRCARGSCIGEMARLACIGDYARWSC.........IGTVARVSC <= Ejemplo de secuencia consenso

Patrones o expresiones regulares (para caracterizar motivos)ALRDFATHDDFSMTAEATHDSIECDQAATHEASA-T-H-[DE]


Sintaxis de expresiones regulares o patrones

Cualquier aminoácido: xAmbigüedades:

A o B o …: [AB…]Ni A, ni B, ni …: {AB…}

Repeticiones: A(2,4) el paréntesis indica el rango de repeticiones que pueden darse, en este caso, AA, AAA o AAAAExtremo N-terminal: <Extremo C-terminal: >

Ejemplo: [A,C]-x-V-x(4)-{E,D}Ala o Cys-cualquiera-Val-cualquiera-cualquiera-cualquiera-cualquiera-cualquiera menos Glu o Asp


Otro ejemploAGTVATVSCAGTSATHACIGRCARGSCIGEMARLACIGDYARWSC.........IGTVARVSC <= Ejemplo de secuencia consenso

[AI]-G-x-x-A-[RT]-x-[AS]-C <= patrón

Problemas y condicionantesSe construyen de manera más o menos subjetivamente, comprobación por ensayo-errorDeben tener una alta sensibilidad y especificidad

Equilibrio: suficientemente cortos para sensibilidadsuficientemente largos para especificidad

Hay algunos métodos automáticos (PRATT del EBI)Bases de datos: PrositeCualquier región que no se ajuste no se detectará

http://www.ebi.ac.uk/pratt/

http://www.expasy.org/prosite


Perfiles o matrices de pesoSon tablas de pesos o puntuaciones de aa en posiciones específicas y del coste de deleccionesMás sensibles que las expresiones regularesSe da información de todos los aas posibles no sólo de los más probables

A -18 -10 -1 -8 8 -3 3 -10 -2 -8 C -22 -33 -18 -18 -22 -26 22 -24 -19 -7 D -35 0 -32 -33 -7 6 -17 -34 -31 0 E -27 15 -25 -26 -9 23 -9 -24 -23 -1 F 60 -30 12 14 -26 -29 -15 4 12 -29 G -30 -20 -28 -32 28 -14 -23 -33 -27 -5 H -13 -12 -25 -25 -16 14 -22 -22 -23 -10 I 3 -27 21 25 -29 -23 -8 33 19 -23 K -26 25 -25 -27 -6 4 -15 -27 -26 0 L 14 -28 19 27 -27 -20 -9 33 26 -21 M 3 -15 10 14 -17 -10 -9 25 12 -11 N -22 -6 -24 -27 1 8 -15 -24 -24 -4 P -30 24 -26 -28 -14 -10 -22 -24 -26 -18 Q -32 5 -25 -26 -9 24 -16 -17 -23 7 R -18 9 -22 -22 -10 0 -18 -23 -22 -4 S -22 -8 -16 -21 11 2 -1 -24 -19 -4 T -10 -10 -6 -7 -5 -8 2 -10 -7 -11 V 0 -25 22 25 -19 -26 6 19 16 -16 W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28 Y 34 -18 -1 1 -23 -12 -19 0 0 -18

Usa pesos discriminatorios no solo para los aas que aparecen. Para los que no aparecen se basa en las frecuencias observadas en proteínas que poseen el dominio y en la probabilidad de que el aa sea sustituido

F K L L S H C L L V F K A F G Q T M F Q Y P I V G Q E L L G F P V V K E A I L K F K V L A A V I A D L E F I S E C I I Q F K L L G N V L V C

A tiene más baja probabilidad que M que, aunque no aparece, sabemos que M es fisicoquímicamente más similar a L, I, V y F que síaparecen


Perfiles HMMHMM (hidden Markov models o modelos de Markov ocultos) son modelos estadísticos de la estructura primaria consenso de una familia de secuenciasSe supone que lo que vemos es el resultado de un proceso oculto (hidden) del que tenemos un modeloEs el más usado. Corres-ponde a un alineamiento con tres estados (m1, m2, m3) con 20 probabilidadesde ser un residuo (barras) cuatro estados de inserción (i0, i1, i2, i3) y tres estados de delección (d1, d2, d3).Las flechas representan las probabilidades de transición entre estados.

Todos o algunos de los parámetros pueden ser estimados de los datos.


Bases de datos de motivos

PROSITE: Expresiones regulares y perfiles. Basada en motivos conocidos (SwissProt) [PPSearch]BLOCKS: Perfiles. Basada en PROSITE.PRINTS: Perfiles. Basada en motivos conocidos.Pfam: Perfiles HMM. Generación automática de motivos. SwissProt + SP-TrEMBL. Obtenidos directamente de alineamientos. En algunos casos no se sabe su significado.

PROSITEBLOCKS PRINTS

PfamInformación

Swis

sPro

t SP-

TrEM

BL

Expresionesregulares

PrecisiónPerfiles

simples múltiples HMMs

http://www.ebi.ac.uk/ppsearch/

http://blocks.fhcrc.org/

http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/

http://pfam.janelia.org/


ID Identification (Begins each entry; 1 per entry) AC Accession number (1 per entry)DT Date (1 per entry)DE Short description (1 per entry)PA Pattern (>=0 per entry)MA Matrix/profile (>=0 per entry)RU Rule (>=0 per entry)NR Numerical results (>=0 per entry)CC Comments (>=0 per entry)DR Cross-references to SWISS-PROT (>=0 per entry)3D Cross-references to PDB (>=0 per entry)DO Pointer to the documentation file (1 per entry)// Termination line (Ends each entry; 1 per entry)

Ejemplo de patrón

ID T4_DEIODINASE; PATTERN.AC PS01205;DT NOV-1997 (CREATED); JUL-1999 (DATA UPDATE); JUL-1999 (INFO UPDATE).DE Iodothyronine deiodinases active site.PA R-P-L-[IV]-x-[NS]-F-G-S-[CA]-T-C-P-x-F.NR /RELEASE=40.7,103373;NR /TOTAL=16(16); /POSITIVE=16(16); /UNKNOWN=0(0); /FALSE_POS=0(0);NR /FALSE_NEG=0; /PARTIAL=0;CC /TAXO-RANGE=??E??; /MAX-REPEAT=1;CC /SITE=12,active_site;DR P49894, IOD1_CANFA, T; O42411, IOD1_CHICK, T; P49895, IOD1_HUMAN, T;DR Q61153, IOD1_MOUSE, T; O42449, IOD1_ORENI, T; P24389, IOD1_RAT , T;DR P79747, IOD2_FUNHE, T; Q92813, IOD2_HUMAN, T; Q9Z1Y9, IOD2_MOUSE, T;DR P49896, IOD2_RANCA, T; P70551, IOD2_RAT , T; O42412, IOD3_CHICK, T;DR P55073, IOD3_HUMAN, T; P49898, IOD3_RANCA, T; P49897, IOD3_RAT , T;DR P49899, IOD3_XENLA, T;DO PDOC00925;//

http://us.expasy.org/cgi-bin/prosite-search-ac?PDOC00925


Ejemplo de perfilID HSP20; MATRIX.AC PS01031;DT JUN-1994 (CREATED); JUN-1994 (DATA UPDATE); NOV-1995 (INFO UPDATE).DE Heat shock hsp20 proteins family profile.MA /GENERAL_SPEC: ALPHABET='ACDEFGHIKLMNPQRSTVWY'; LENGTH=97;MA /DISJOINT: DEFINITION=PROTECT; N1=2; N2=96;MA /NORMALIZATION: MODE=1; FUNCTION=GLE_ZSCORE;MA R1=239.0; R2=-0.0036; R3=0.8341; R4=1.016; R5=0.169;MA /CUT_OFF: LEVEL=0; SCORE=400; N_SCORE=10.0; MODE=1;MA /DEFAULT: MI=-210; MD=-210; IM=0; DM=0; I=-20; D=-20;MA /M: SY='R'; M=-12,-44,-11,-13,-13,-22,-2,-7,18,-12,5,-3,-11,0,21,-6,-5,-11,-16,-34;MA /M: SY='D'; M=1,-41,17,16,-41,-3,3,-11,-1,-22,-12,8,-7,12,-7,0,-2,-19,-53,-36;MA /M: SY='D'; M=2,-37,15,13,-36,2,5,-15,-3,-26,-17,10,-6,7,-10,3,2,-17,-53,-28;MA /M: SY='P'; M=1,-41,6,8,-38,-4,2,-20,9,-30,-14,6,13,9,8,3,0,-22,-48,-45;MA /M: SY='D'; M=2,-43,23,20,-42,2,9,-18,2,-30,-18,14,-5,14,-6,2,0,-21,-57,-35;MA /M: SY='D'; M=4,-34,9,8,-34,6,0,-17,5,-29,-14,8,-1,5,1,5,2,-17,-47,-38;MA /M: SY='F'; M=-28,-32,-38,-38,50,-42,-1,2,-11,6,-6,-21,-35,-27,-27,-24,-23,-14,-3,47;MA /M: SY='Q'; M=0,-33,-2,-7,-26,-9,-4,1,1,-10,1,-1,-5,2,0,-2,1,0,-44,-37;MA /M: SY='L'; M=-13,-36,-34,-37,23,-31,-21,28,-15,29,24,-24,-25,-24,-27,-20,-10,22,-33,0;MA /M: SY='K'; M=-8,-32,-5,-5,-19,-16,3,-11,13,-19,-2,1,-9,2,12,-3,-3,-15,-32,-28;MA /M: SY='L'; M=-10,-39,-30,-32,15,-26,-20,20,-16,27,20,-21,-20,-21,-27,-17,-9,16,-32,-5;MA /M: SY='D'; M=3,-48,33,27,-51,4,6,-19,0,-35,-22,18,-10,13,-13,2,0,-16,-65,-41;MA /I: MI=-55; MD=-55; I=-5;MA /M: SY='V'; D=-5; M=-3,-33,-23,-32,-5,-19,-21,28,-16,26,30,-17,-14,-15,-19,-12,-1,30,-48,-28;MA /I: MI=-55; MD=-55; I=-5;MA /M: SY='P'; D=-5; M=1,-2,-1,0,-3,0,0,-1,-1,-2,-2,0,4,0,0,1,0,-1,-4,-4;MA /I: MI=-55; MD=-55; I=-5;..... Se han omitido algunas líneas ...

http://www.expasy.org/prosite/PS01031


Ejemplo de perfil (cont.)

..MA /M: SY='K'; M=-11,-52,1,-1,-1,-17,2,-18,43,-28,3,9,-10,8,33,-2,-1,-23,-33,-43;MA /I: MI=*; MD=*; I=0;NR /RELEASE=40.7,103373;NR /TOTAL=181(180); /POSITIVE=176(175); /UNKNOWN=5(5); /FALSE_POS=0(0);NR /FALSE_NEG=0; /PARTIAL=4;CC /MATRIX_TYPE=protein_domain;CC /SCALING_DB=reversed;CC /AUTHOR=P_Bucher;CC /TAXO-RANGE=A?EP?; /MAX-REPEAT=2;DR P30223, 14KD_MYCTU, T; P46729, 18K1_MYCAV, T; P46730, 18K1_MYCIT, T;DR P46731, 18K2_MYCAV, T; P46732, 18K2_MYCIT, T; P12809, 18KD_MYCLE, T;DR P80485, ASP1_STRTR, T; O30851, ASP2_STRTR, T; P02497, CRA2_MESAU, T;DR P24622, CRA2_MOUSE, T; P24623, CRA2_RAT , T; P15990, CRA2_SPAEH, T;..... Some lines omitted....DR P96193, IBPB_AZOVI, T; P29210, IBPB_ECOLI, T; P29778, OV21_ONCVO, T;DR P29779, OV22_ONCVO, T; Q06823, SP21_STIAU, T; P34328, YKZ1_CAEEL, T;DR P12812, P40_SCHMA , T;DR P81083, HS11_PINPS, P; P81161, HS2M_LYCES, P; P30220, HS3E_XENLA, P;DR Q9QUK5, HSB7_RAT , P;DR Q29438, ODFP_BOVIN, ?; Q14990, ODFP_HUMAN, ?; Q61999, ODFP_MOUSE, ?;DR Q29077, ODFP_PIG , ?; P21769, ODFP_RAT , ?;DO PDOC00791;

PS01031

http://www.expasy.org/prosite/PS01031


Homología, ortología y paralogíaLa semejanza o la identidad es un parámetro cuantificableLa homología no es cuantificable y denota ascendencia comúnDos proteínas son ortólogas si sus diferencias se presentaron durante el proceso de especiación. Se asume que para tener una función igual o muy similar (ortólogo = de la misma subfamilia)Dos proteínas son parálogas si son codificadas por los genes originados por un proceso de duplicación de gen

Especie 1gen A

Especie 2

gen A

Especie 0

gen A

Especiación

gen Agen B

Duplicacióndel gen

Ortólogos

Ortólogos

Parálogos

Ortólogos


In-paralogs y out-paralogs

Muchas veces las duplicaciones no dan lugar a nuevas proteínas con nuevas funciones, sino que los genes duplicados conservan su función y siguen perteneciendo al grupo original. in-parálogos: se usa para referirnos a las relaciones entre genes que proceden de duplicaciones recientes y conservan las características de la proteína de la que proceden. out-parálogos: en este caso ya no se conservan las características de la proteína de la que proceden.

Ejemplo: en el ser humano hay diversas copias del gen de ras, implicado en transducción de señales. Estas proteínas conservan más o menos la función original, aunque cada una se expresa en distintos tejidos, bajo distintas condiciones. Son in-parálogos. Por contra, las proteínas rab son parientes de las ras, y son out-parálogos.


Homólogos: superfamilias, familias y subfamilias.

Una superfamilia es un conjunto de proteínas con un origen evolutivo común, un conjunto de homólogos. Las superfamilias se pueden dividir, más o menos arbitrariamente, según lo grandes que sean, en familias y subfamilias. Son conceptos paralelos a los de ortólogos y parálogos: las proteínas de una misma subfamilia son ortólogas entre sí (también puede haber in-paralogs), mientras que son parálogas de las de otras subfamilia que pertenezca a la misma superfamilia.

Superfamilia: grupo de proteínas con un origen común

Familia/Subfamilia: grupo de proteínas con una función común (jerarquía subjetiva)


Ejemplo

F. Abascal. UCM-CNB


Superfamilias y familias

Suflé de dominios (domain shuffling)

Las proteínas homólogas pueden tener diferente organización de dominiosEl dominio y no el gen es la unidad evolutiva básicaLa función de una proteína es el resultado de las funciones de sus dominiosLas propiedades de una proteína pueden ser explicadas pero no deducidas a partir de sus dominios

mòdul 8.1. seqüenciació de proteïnes. mètodes de...

Documents