identificación de familias de...

39

Upload: others

Post on 03-Feb-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios
Page 2: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

Identificación deIdentificación deFamilias de ProteínasFamilias de Proteínas

Cursos de Cursos de Doctorado Doctorado UAM UAM 2007 2007

Luis Sánchez Pulido Luis Sánchez Pulido Centro Nacional de Biotecnología Centro Nacional de Biotecnología

Madrid Madrid

Page 3: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

¿Por qué analizamos secuencias?

Proteínas de Secuencia conocida

3DFunciónAmbas?????

Page 4: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

Crecimiento de las bases de datos de secuencias.

Tomado de www3.ebi.ac.uk/Services/DBStats/

¡¡¡ ESTAMOS DESBORDADOS !!!

Page 5: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

Gracias a la identificación de homología entre proteínas,

podemos

TRANSFERIR INFORMACIÓN

Estructural y/o Funcional

Page 6: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

Homólogos: par de proteínas con un ancestro común.

...y dependiendo del motivo de su divergencia:

• ortólogos - especiación

• parálogos – duplicación génica

• xenólogos – transferencia horizontal

Page 7: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

TRANSFERIR INFORMACIÓN•Estructural a partir de proteínas HOMÓLOGAS de estructura conocida por RayosX, RMN o ME

•Funcionala partir de proteínas HOMÓLOGAS caracterizadas experimentalmente...y su contexto genómico y proteómico.

Page 8: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

La estructura se conserva mejor que la secuencia!

D'Alfonso G, Tramontano A, Lahm A.

Structural conservation in single-domain proteins: implications for homology modeling.

J Struct Biol. 134, 246-56. (2001)

Page 9: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

A Remote Homology example:

Familia SBDS

1NYN1P9Q

Page 10: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

Rost B. (1999)

Twilight zone of

protein sequence alignments.

Protein Eng. 12:85-94.

Verdaderos Negativos

Definiendo Homología Remota

Page 11: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

= =

100

50

20%

10 50 100 150 200

Identity

Size

Comparisons between pairs of sequences with known structure

Rmsd > 3A Rmsd < 3A

Twilight zone

Chothia & Lesk, 1986

Rost, 1999

Page 12: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

TRANSFERIR INFORMACIÓN•Estructural a partir de proteínas HOMÓLOGAS de estructura conocida por RayosX, RMN o ME

•Funcionala partir de proteínas HOMÓLOGAS caracterizadas experimentalmente...y su contexto genómico y proteómico.

Page 13: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

¿FUNCTION?

They are homologous Proteins...

The Function could bevery divergent

But... All of them bind GTP

Page 14: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

La Madre Naturaleza Consintió

Dependen de la Definciónde Función

Page 15: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

Tarea Compleja la de transferir informaciónestructural y/o funcional entre proteínas

homólogas.

Qué Hacemos??Dividir cada una de las dificultades a

examinar, en tantas partes como sea

posible y necesario para resolverlas mejor

Page 16: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

DEFINICIÓN DE DOMINIOLos dominios de proteínas han sido descritos, desde un punto de vista estructural, como unidades estructurales compactas y localmente independientes, caracterizadas usualmente por un núcleo hidrofóbico bien definido.

Desde el punto de vista del análisis de secuencia, los dominios se definen como regiones conservadas evolutivamente y adquieren mayor relevancia si son descritos como módulos móviles, es decir, presentes en diferentes familias de proteínas de arquitectura diversa.

Page 17: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios
Page 18: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

REPEATS – In the limits of Domain Definition

WD40

HEAT

PFTA

LRR

beta-l

TPR

Protein repeats. Short specialist review for the Encyclopedia of Genomics, Proteomics, and Cedida por: Perez-Iratxeta C, Andrade MA (2005) Bioinf. Ed. Wiley and Sons Ltd., UK.

Page 19: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

� Protein irregularities that hinder sequence analysis� Low complexity regions� Repeats, Trans-membrane and Coiled-coil regions (high mutation rates)� and Fold irregularities, such as: Circular Permutations and Insertions

Page 20: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

The role of domains in protein evolution

Shuffling, Accretion and Supra-Domains

VERSATILITY !!

Page 21: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

METHODSON

DOMAINORIENTED

SEQUENCE ANALYSIS

Page 22: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

ISS (Blast, FASTA)

Profiles(PSSMs: PsiBlast, HMMs)

¡Recíproco!

Detection of homologous protein sequences

Two strategies

Page 23: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios
Page 24: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios
Page 25: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios
Page 26: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

Sequence

Sequence DataBases

GenBank

dbEST

Domain Databases

ALIGNMENT

DOMAIN

Functional

Hypothesis

HMMer

Biochemical Knowledge

HypotheticalDomain

Domain Oriented

Sequence Analysis

Flow-Chart

HMMer

Page 27: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

REAL-LIFEEXAMPLES

Page 28: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

SPOC: A widely distributed domain associated with cancer, apoptosis and transcription.

Sanchez-Pulido L, Rojas AM, Van Wely K, Martinez-A C, Valencia A.

CNB-CSIC

DATF1_HUMAN (DIDO-1)

TFS2M SPOC PHD

dPHD

Page 29: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

Domain located in, at least,

Two Architectures

Page 30: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios
Page 31: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

Gas1 is related to the GFRα family and regulates Ret signaling

Cabrera J.R., Sánchez-Pulido L., Rojas A.M., Valencia A.,

Ma es S., Naranjo J.R. & Mellstrom B. (2005)ń

CNB – CSIC

PROTEÍNA INICIAL: GAS1 (Growth Arrest Specific 1)

FUNCIÓN: Regulación de procesos apoptóticos.

En un primer abordaje:

� Péptido se alń

� Duplicación Interna

� GPI-Anclaje

Page 32: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

GAS1 & GFR -α

Model Structure

Page 33: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios
Page 34: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

� Arquitectura similar

Page 35: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

BIBLIOGRAFÍA

La Familia GFRα convergeen la transducción de la se al ń

en su interacción con la quinasa Ret -----> ¿Y GAS1...?

JR CabreraCNB-CSIC

Diferentes factores tróficos o ligandos:

� GDNF Glial cell Derived Neurotrophic Factor

� NRTN Neurturin

� ARTN Artemin

� PSPN Persephin

Page 36: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

Computational predictions

supported by experimental analysis.

Page 37: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

Jorge Ruben,Santos

&Ana

DTRGHYFASSTNDR????????????

Page 38: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

“As a general guide to functional annotation, it should be keptin mind that current methods for genome analysis, even the most powerful and sophisticated of them, facilitate, but do not supplant the work of a human expert.”

Eugene Koonin.

CONCLUSIONE

¡Ogni Proteina `e un Mondo!

Page 39: Identificación de Familias de Proteínasubio.bioinfo.cnio.es/Cursos/cursoDoctoradoUAM2007/luisSanchez/luisUAM... · Desde el punto de vista del análisis de secuencia , los dominios

Basic References:

Zuckerkandl E, y Pauling L. (1965)Evolutionary divergence and convergence in proteins.

Evolving Genes and Proteins,

Academic Press, New York, 97-166.

Bork P, Gibson TJ. (1996) Applying motif and profile searches.

Methods Enzymol. 266:162-184.

Iyer LM, Aravind L, Bork P, Hofmann K, Mushegian AR, Zhulin IB, Koonin EV. (2001)Quoderat demonstrandum? The mystery of experimental validation of apparently erroneous

computational analyses of protein sequences. Genome Biol. 2:RESEARCH0051.

Questions:

[email protected]