¿por qué es útil la comparación de secuencias? parte ii lipman, david (nih/nlm/ncbi)

32
¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Upload: marguerita-monserrate

Post on 12-Mar-2015

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

¿Por qué es útil la comparación de

secuencias?Parte II

Lipman, David (NIH/NLM/NCBI)

Page 2: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Casi 100 Trillones de comparaciones BLAST por cuarto (10/01)

0,E+00

1,E+13

2,E+13

3,E+13

4,E+13

5,E+13

6,E+13

7,E+13

8,E+13

9,E+13

1,E+14

1998 1999 2000 2001

Cuarto

Page 3: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Búsqueda rápida de similitudes de banco de datos de ácido nucleico y proteínas.

Wilbur WJ, Lipman DJ.

Proc Natl Acad Sci U S A 1983 Feb;80(3):726-30

Con el desarrollo de grandes bancos de datos de secuencias de proteínas y ácidos nucleicos, la necesidad de métodos eficientes de búsqueda en tales bancos para secuencias similares a una secuencia dada se ha vuelto evidente. Presentamos un algoritmo para la comparación global de secuencias basados en k-tuples pareados de secuencia de elementos para un k fijado. El método resulta en reducción substancial del tiempo requerido para la búsqueda en el banco de datos cuando se compara con técnicas anteriores de análisis de similitud, con mínima pérdida de sensibilidad. El algoritmo también ha sido adaptado, en una implementación separada, para producir alineación rigurosa de secuencias. Actualmente, usando el sistema DEC KL-10, podemos comparar todas las secuencias en el Banco de datos de proteína de la Fundación de Investigación Biomédica con una búsqueda de secuencia 350-residuos en menos de 3 minutos y efectuar un análisis similar con un búsqueda de secuencia 500-base contra todas las secuencias eucarióticas en la Báse de Datos de Ácido Nucleico en los Álamos en menos de 2 minutos.

Page 4: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Gene del cáncer encuentra su pareja

NY Times Julio 3, 1983“…una búsqueda computarizada por serendipia…”

v-sis: 6 QGDPIPEELYKMLSGHSIRSFDDLQRLLQGDSGKEDGAELDLNMTRSHSGGELESLARGK 65

QGDPIPEELY+MLS HSIRSFDDLQRLL GD G+EDGAELDLNMTRSHSGGELESLARG+

PDGF : 10 QGDPIPEELYEMLSDHSIRSFDDLQRLLHGDPGEEDGAELDLNMTRSHSGGELESLARGR 69

v-sis: 66 RSLGSLSVAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ 125

RSLGSL++AEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ

PDGF : 70 RSLGSLTIAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQ 129

v-sis: 126 CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCEIVAAARAVTRSPGTSQEQR 185

CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCE VAAAR VTRSPG SQEQR

PDGF : 130 CRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCETVAAARPVTRSPGGSQEQR 189

v-sis: 186 AKTTQSRVTIRTVRVRRPPKGKHRKCKHTHDKTALKETLGA 226

AKT Q+RVTIRTVRVRRPPKGKHRK KHTHDKTALKETLGA

PDGF : 190 AKTPQTRVTIRTVRVRRPPKGKHRKFKHTHDKTALKETLGA 230

V-sis y factor de crecimiento derivado de plaquetas (PDGF)

Waterfield MD et al., Nature 1983 Jul 7;304(5921):35-39Doolittle RF et al., Science 1983 Jul 15;221(4607):275-277

Page 5: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Un temprano, más sutil descubrimiento …

Productos del gene viral src están relacionados a la cadena catalítica de proteìn-kinasa dependiente de cAMP de mamíferos Barker WC, Dayhoff MO. PNAS 1982 Mayo;79(9):2836-2839

Query: 113 YAAQIVLTFEYLHSLDLIYRDLKPENLLIDQQGYIQVTDFGFAKR---VKGRTWT---LC 166 Y+ +V +LHS +++ DLKP N+LI +Q +++DFG +++ ++GR + + Sbjct: 125 YSLDVVNGLLFLHSQSILHLDLKPANILISEQDVCKISDFGCSQKLQDLRGRQASPPHIG 184

Query: 167 GTPEYLAPEIILSKGYNKAVDWWALGVLIYEMAAGYPPFFADQPIQIYEKIVSGKVR 223 GT + APEI+ + D ++ G+ +++M P ++ +P + +V+ +RSbjct: 185 GTYTHQAPEILKGEIATPKADIYSFGITLWQMTTREVP-YSGEPQYVQYAVVAYNLR 240

Biología no algoritmos

- Comparan proteínas, no DNA- deberá detectar aminoácidos similares no sólo

identidades

(para animación de la diapositiva, por favor de click en el área de la diapositiva p en el botón de mostrar la diapositiva).

Page 6: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

¿Con qué frecuencia encontraremos similitudes?

¿Cuántas familias de proteínas habrá?

Similitudes inesperadas deberán ser raras.

En 1983, hubo sólo un pequeño porcentaje de genes de los genomas de distintos

organismos, diferentes en su evolución (por ejemplo hombre, mosca, e. coli,

levadura).

(para animación de la diapositiva, por favor de click en el área de la diapositiva p en el botón de mostrar la diapositiva).

Page 7: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Estimando el número de familias de proteínas

(para animación de la diapositiva, por favor de click en el área de la diapositiva p en el botón de mostrar la diapositiva).

Page 8: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Estimaciones tempranas del número de familias de proteínas-

~1000 • Zuckerkandl,E. (1974) Accomplissement et perspectives de la

paleogenetique chimique. In: Ecole de Roscoff –1974, p. 69. Paris:CNRS.

“La aparición de nuevas estructuras y funciones en proteínas durante evolución”,

J. Mol. Evol. 7, 1-57 (1975).

• Dayhoff, M.O. (1974) Federation Proceedings 33, 2314.

“El origen y evolución de superfamilias de proteínas”, Fed.Proc. 35, 2132-2138

(1976).

Page 9: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Margaret Dayhoff

Page 10: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Atlas de Secuencia y Estructura de Proteína, Vol. 5, Suplemento 3 (1978)

pg. 10: “Se ha estimado que en el humano hay 50,000

proteínas de importancia funcional o médica. … Un hito en la biología molecular ocurrirá cuando un miembro de cada superfamilia haya sido elucidado. A la tasa actual de 25 por año, tomará al menos 15 años.”

Page 11: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Hubris, el Proyecto Genoma y familias de proterínas

Chothia, C. (1992). Mil familias para el biólogo molecular. Nature, 357, 543-544.

Green P, Lipman D, Hillier L, Waterson R, States,D, and Claverie JM (1993). Ancient Conserved Regions in New Gene Sequences and the Protein Databases. Science, 259, 1711-1716.

ACR = similitud detectada entre secuencias de organismos remotamente relacionados

(Para animación de la diapositiva click en el área de la diapositiva o el botón de mostrar diapositiva)

Page 12: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

1992: ¿Qué nuevas familias tenemos del proyecto genoma?

Set N Codificación de secuencias

Sec. con ACRs

ACRs

humano ESTs 2644 600-1200 197 (16-33%)

103

gusano ESTs 1472 1370 570 (42%) 240

Genes gusano 234 234 74 (32%) 59

Levadura ORFs

182 182 43 (24%) 35

Sets comparados Secuencias pareadas

ACRs ACRs en base de datos

gusano ESTs, humano ESTs 77, 66 34 31 (91%)

gusano ESTs, levadura ORFs 23, 13 9 8 (89%)

gusano genes, humano ESTs 17, 17 12 12 (100%)

gusano genes, levadura ORFs 6, 4 4 3 (75%)

humano ESTs, levadura ORFs 14, 13 10 10 (100%)

(Para animación de la diapositiva click en el área de la diapositiva o el botón de mostrar diapositiva)

Page 13: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

1960 1965 1970 1975 1980 1985 1990 1995 2000

0.0

2.0*105

4.0*105

6.0*105

8.0*105

1.0*106

1.2*106

0

20

40

60

80

100

Núm

ero

de p

rote

ínas

Familias con dominio conservado

Secuencias de proteínas

% F

amilias H

it

Dayhoff 10%de superfamilias

Green et al. 85% de ACRs

Crecimiento acumulado en número de proteínas y número de dominios conservados (de Geer, L., Bryant, S., & Ostell, J.)

(Para animación de la diapositiva click en el área de la diapositiva o el botón de mostrar diapositiva)

Page 14: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

¿Por qué son pocas familias y por qué evolucionan lentamente?

Vista estructural

Termodinámica: Finkelstein, AV, “¿Por qué aon las mismas proteínas usadas para realizar diferentes funciones?” FEBS 325, pp. 23-28 (1993)

Típica Muy rara

Page 15: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Limitantes debido a función biológica pueden ser más importantes

procarioteseucariotes

Compare pares de secuencias de clases relacionadas de proteínas

Grado dentro de clases similares > entre clases similares indica importancia de limitantes debido a función biológica

– Todas las secuencias deberían al menos compartir similitudes en la estructura

– Secuencias dentro de una clase comparten función pero las secuencias entre clases tienen diferente función

–Los tiempos de divergencia para todas las secuencias deben ser aproximadamente las mismas

Divergencia funcional

Un gen

Duplicación de genes

Último ancestro universal común

(para animación de la diapositiva click el área de la diapositiva o click en Mostrar Diapositiva)

Page 16: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

•Dos clases no relacionadas de aaRS, cada una incluye 10 aaRS relacionadas entre sí

•El último ancestro común universal (LUCA) de formas de vida moderna ya tenía al menos 17 aaRS•La duplicación que da lugar a aaRS de diferentes especificidades debió haber ocurrido durante un relativamente corto periodo de evolución temprana.•La evolución post-LUCA de aaRS tomó mucho más que la fase temprana cuando las especificidades fueron establecidas. Sin embargo, los cambios que ocurrieron después de aaRS fueron cerradas en sus especificidades son pequeños comparados a los cambios trazados en la fase temprana.

Ejemplo de la aminoacil-tRNA sintestasas (aaRS) (de E. Koonin & Y. Wolf)

enzimas esenciales responsables para la incorporación de aminoácidos en proteínas

(para animación de la diapositiva click el área de la diapositiva o click en Mostrar Diapositiva)

Page 17: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Orthologs … (de S. Bryant)

Page 18: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Paralogs … (de S. Bryant)

Page 19: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Ejemplo de las aminoacil-tRNA sintetasas (aaRS) (de E. Koonin & Y. Wolf)

ArgRS

0.0

0.2

0.4

0.6

0.8

1.0

0.00 0.10 0.20 0.30 0.40

o

n

HisRS

0.0

0.2

0.4

0.6

0.8

1.0

0.00 0.10 0.20 0.30 0.40

o

n

ValRS

0.0

0.2

0.4

0.6

0.8

1.0

0.00 0.10 0.20 0.30 0.40

o

n

TrpRS

0.0

0.2

0.4

0.6

0.8

1.0

0.00 0.10 0.20 0.30 0.40

Exepciones - glutamina/glutamato,asparagina/aspartato y triptofano/tirosina

Page 20: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

¿Cuantos genes humanos?80,000 Antequera F & Bird A, “Number of CpG islands and genes in

human and mouse”, PNAS 90, 11995-11999 (1993).

120,000 Liang F et al., “Gene Index analysis of the human genome estimates approximately 120,000 genes”, Nat. Gen., 25, 239-240 (2000)

35,000 Ewing B & Green P, “Analysis of expressed sequence tags indicates 35,000 human genes”, Nat. Gen. 25, 232-234 (2000)

28,000-34,000 Roest Crollius, H. et al., “Estimate of human gene numberProvided by genome-wide analysis using Tetraodon nigroviridis DNA Sequence”, Nat. Gen. 25, 235-238 (2000).

41,000-45,000 Das M et al., “Assessment of the Total Number of Human Transcription Units”, Genomics 77, 71-78 (2001)

(para animación de la diapositiva click el área de la diapositiva o click en Mostrar Diapositiva)

Page 21: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

¿Cuantos genes humanos con ACRs? (de S. Resenchuk, T.Tatusov, L. Wagner, A. Souverov)

12,245 mRNA caracterizados de RefSeq

78% tienen ACR, i.e., vertebrados en E <10e-6 ( 9,496/12,245)

90% de estos han correspondido a predicciones de GenomeScan los cuales también tienen ACR (8501/9496)

20,245 modelos GS para el genoma humano completo tienen ACR

15,573 modelos GS después de corrección para splitting (20,245/1.3)

17,300 genes humanos estimados con ACRs ( ~15,573/.9)

(para animación de la diapositiva click el área de la diapositiva o click en Mostrar Diapositiva)

Page 22: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

¿Cuantos genes tienen los humanos?

S.cerev. S. Pombe A.thal. C. Elegans D. mela.

ACRs/genes

4022/6306 63%

4846/6593 73%

14443/24605 58%

11598/20850 55%

10469/14335 73%

17,303 estimación de genes humanos con ACRs

17,303/.55 = ~31,500 Total de genes humanos

¡Más complicado que esto!

Ahora use comparación de genomas…

(para animación de la diapositiva click el área de la diapositiva o click en Mostrar Diapositiva)

Page 23: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

Conservación, nivel de expresión longitud de proteína y número exon

EST # 0 0-20 0-200 >200 AllRefSec # 396 2716 9454 2791 12,245

RS + ACR 240 (61%) 1718 (63%) 7049 (75%) 2447 (88%) 9496 (78%)

GS + ACR 158 (66%) 1424 (83%) 6256 (89%) 2245 (92%) 8501 (90%)Long. de Prot.

319 419 486 517 493

Avg. exon# 3.82 6.25 8.78 10.38 9.15

23,600 estimación revisada de genes humanos con ACRs (~15,573/.66)

43,000 límite superior del estimado del total de genes humanos (23,600/.55) 35,000 es un límite más razonable con esta forma

(para animación de la diapositiva click el área de la diapositiva o click en Mostrar Diapositiva)

Page 24: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

La relación de conservación de proetína y longitud de secuencia

• Lipman DJ, Souvorov A, Koonin EV, Panchenko AR, Tatusova TA

• BMC Evol Biol. 2002 2:20

       

                      

Page 25: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

0

20

40

60

80

100

120

140

0 200 400 600 800 1000

E-coliN

um

be

r

Length

conservada

No conservada

Dominios estructurales

Set de Salmonella

4279 proteínas

Longitud

Núm

ero

Page 26: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

0

20

40

60

80

100

0 200 400 600 800 1000

Archaeoglobus fulgidusN

úm

ero

Longitud

2420 proteínas

conservada

No conservada

Dominios estructurales

Page 27: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

0

50

100

150

200

250

300

350

400

0 200 400 600 800 1000

Yeast

me

ro

Longitud

6305 proteínas

conservada

No conservada

Dominios estructurales

Page 28: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

0

10

20

30

40

50

0 200 400 600 800 1000

Drosophila

me

ro

2390 proteínas

conservada

No conservada

Dominios estructurales

Longitud

Page 29: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

0

50

100

150

200

250

300

0 200 400 600 800 1000

HumanoN

úm

ero

Longitud

14538 proteínas

Conservada

No conservada

Dominios estructurales

Page 30: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

0

50

100

150

200

0 200 400 600 800 1000

E-coli

Num

be

r

Length

4279 proteinsE-value 1.e-3

Conservada

No conservada

0

20

40

60

80

100

120

140

0 200 400 600 800 1000

E-coli

Num

be

r

Length

4279 proteinsE-value 1.e-9

A

B

Page 31: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

0

0.2

0.4

0.6

0.8

1

1.2

0

2

4

6

8

10

0 200 400 600 800 1000

Fra

ctio

nC

onta

ct de

nsity

Length

Archaeoglobus fulgidus

Escherichia coli

Densidad de contacto

Page 32: ¿Por qué es útil la comparación de secuencias? Parte II Lipman, David (NIH/NLM/NCBI)

ReconocimientosSteve Bryant Greg Schuler

Lewis Geer Alex Souverov

Alex Kondrashov Tatiana Tatusov

Eugene Koonin Lukas Wagner

Jim Ostell Yuri Wolf

Sergei Resenchuk Phil Murphy (NIAID)

Y todos mis colegas en NCBI y NIH