bases de datos en biología molecular - pdg.cnb.uam.es€¦ · almacenar datos de forma ordenada la...

33
Bases de Datos en Biolog Bases de Datos en Biolog í í a a Molecular Molecular Curso de Verano 2003 Ramón Alonso-Allende

Upload: trinhxuyen

Post on 10-Oct-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Bases de Datos en BiologBases de Datos en BiologííaaMolecularMolecular

Curso de Verano 2003Ramón Alonso-Allende

8 julio 03 R. A-Allende2

GuGuííaa

Evolución de las Bases de datosen Biología Molecular

Crecimiento de los datosCaracterísticas de los datosCambios en la estructura

Tipos de Bases de Datos enBiología Molecular

En función a la estructuraEn función al contenidoEn función de la finalidad

Acceso a las bases de datosProblemas de las BD en BMIntegración de Bases de Datos

Evolución de las Bases de datosen Biología Molecular

Crecimiento de los datosCaracterísticas de los datosCambios en la estructura

Tipos de Bases de Datos enBiología Molecular

En función a la estructuraEn función al contenidoEn función de la finalidad

Acceso a las bases de datosProblemas de las BD en BMIntegración de Bases de Datos

Acceso y obtención deinformación de las Bases de Datos

SRSEntrez

Acceso y obtención deinformación de las Bases de Datos

SRSEntrez

TeoríaTeoría PrácticasPrácticas

Programación con bases deDatos Biológicas

Scripts de acceso a bases de datos

Programación con bases deDatos Biológicas

Scripts de acceso a bases de datos

ProgramaciónProgramación

8 julio 03 R. A-Allende3

Base de datosBase de datos

“Conjunto de datos organizado de tal modo que permitaobtener con rapidez diversos tipos de información”DRAE

8 julio 03 R. A-Allende4

DB secuencias de Nucleótidos

Crecimiento de los datosCrecimiento de los datos

DB de secuencias de Proteínas

DB estructuras de Proteínas

8 julio 03 R. A-Allende5

Bases de Datos en BMBases de Datos en BMEl crecimiento de los datos enbiología molecular es enorme, seestima 1 Tera por semana (~1463CDs)Los datos de biología molecularson muy heterogéneos BDs enBiología Molecular son muyheterogéneas en su contenido,estructura y finalidadDescubrir nuevas relación de lainformación conocida

Existen mas de 1000 bases de datos enbiología molecularLas bases de datos son muyheterogeneas en estructura contenidoy finalidadLa mayoría de las BDs de biologíacarecen de un esquema relacionaladecuado

Organizados en texto planosMantenimiento es muy costoso

Actualmente muchos de los antiguosrepositorios de datos están emigrandoa esquemas más adecuados alvolumen de datos que manejanLas nuevas BDs en biología molecularse basan en esquemas estructuradosbajo sistemas de gestión de BDs

8 julio 03 R. A-Allende6

CaracterCaracteríísticas de los datos en BMsticas de los datos en BMEl rápido crecimiento de los datos en BM exige una grancapacidad de almacenamientoLa heterogeneidad de lo resultados de los diferentesexperimentos requieren esquemas de datos estructuradosLa rápida evolución de los datos obliga a un gran flexibilidad yfácil actualizaciónLa creciente comunicación y accesibilidad a los datos por lacomunidad científica precisa de una sistema de intercambio dedatos estructuradoLa necesidad de acceder a los datos sin necesidad de estarfamiliarizado con las bases de datos implica el desarrollo de uninterface web

8 julio 03 R. A-Allende7

ClasificaciClasificacióón de n de BDsBDsEn función a la estructura:

Con esquemas relacionales o de objetosTextos planos

En función al contenido:Nivel I: datos elementales de Biología MolecularNivel II: subclasificaciones o resultados de análisis de las BDs de nivel INivel III: resultados experimentales que junto a las bases de datos de nivel I yII ayudan una visión mas global

En función a la finalidadRepositorios generalesBases de datos de proyectos

8 julio 03 R. A-Allende8

Estructuras BD IEstructuras BD IID AV213602 standard; RNA; EST; 371 BP.XXAC AV213602;XXSV AV213602.1XXDT 29-OCT-1999 (Rel. 61, Created)DT 29-OCT-1999 (Rel. 61, Last updated, Version 1)XXDE Mus musculus ES cells cDNA, RIKEN full-length enriched library,DE clone:2410128L11, 3' end partial sequence, similar to ddbj:AB017697 MusDE musculus TLP21 mRNA for 21-kDa TBP-like protein.XXKW EST(expressed sequence tag).XXOS Mus musculus (house mouse)OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;OC Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus.XX

Simple ArrayExpress data base schema (EBI)

8 julio 03 R. A-Allende9

Estructuras DB IIEstructuras DB II

Almacenar datos de formaordenada la informaciónControl sobre datos (ej.evitar entradas repetidas,campos vacíos…)Búsqueda datos de formarápida y sencillaAnálisis de los datos enprofundidadFácil intercambio deinformación

Almacenar datos de formaordenada la informaciónControl sobre datos (ej.evitar entradas repetidas,campos vacíos…)Búsqueda datos de formarápida y sencillaAnálisis de los datos enprofundidadFácil intercambio deinformación

Desarrollo de un esquemaque se ajuste a la realidadbiológicaAcceso limitado a los datos(a través de servidores web)

Desarrollo de un esquemaque se ajuste a la realidadbiológicaAcceso limitado a los datos(a través de servidores web)

Estructura relacionalEstructura relacional

VentajasVentajas DesventajasDesventajas

8 julio 03 R. A-Allende10

Estructuras DB IIIEstructuras DB III

Comprensible para lacomunidad biológicaComprensible para lacomunidad biológica

No hay control sobre los datosNo permite búsquedas complejasBúsquedas lentas, costosas ydifícilesOcupan mucho espacio en discoLas actualizaciones son muycostosasFormato estático

No hay control sobre los datosNo permite búsquedas complejasBúsquedas lentas, costosas ydifícilesOcupan mucho espacio en discoLas actualizaciones son muycostosasFormato estático

Estructura textos planosEstructura textos planos

VentajasVentajas DesventajasDesventajas

8 julio 03 R. A-Allende11

Mol. Biol

NucleótidosProteínas

Estructuras

Literatura

Taxonomía

MetabolismoTranscripción

ExpresiónInteracción

Dominios

Genomas

Ontologías

EST

SNP

MotivosEstructurales

Promotores

8 julio 03 R. A-Allende12

Bases de DatosBases de DatosNucleótidos

EMBL, GeneBank, DDBJProteínas

Swissprot, TremblLiteratura

PubMedTaxonomía

NCBIEstructuras

PDB

NucleótidosEMBL, GeneBank, DDBJ

ProteínasSwissprot, Trembl

LiteraturaPubMed

TaxonomíaNCBI

EstructurasPDB

DominiosPFAM, PRODOM, INTERPRO…

Motivos estructuralesSCOP, CATH …

OntologiasGO

SNPdbSNP

ESTdbEST

PromotoresEPD

DominiosPFAM, PRODOM, INTERPRO…

Motivos estructuralesSCOP, CATH …

OntologiasGO

SNPdbSNP

ESTdbEST

PromotoresEPD

InteractionDIP,BIND, INTACT

ExpresiónSMD, ArrayExpress

MetabolismoKEGG, EMP, WIT

TranscripciónTRNASFAC

InteractionDIP,BIND, INTACT

ExpresiónSMD, ArrayExpress

MetabolismoKEGG, EMP, WIT

TranscripciónTRNASFAC

8 julio 03 R. A-Allende13

Bases de Datos deBases de Datos de Nuce NuceóótidostidosLas tres bases de datos son parte del International NucleotideSequence Database CollaborationSe intercambian información y actualizan automáticamente cada 24horas, de manera que contienen la misma información

8 julio 03 R. A-Allende14

GeneBankGeneBank

Contiene TODAS las secuencias de DNA que hansido hechas públicasLas secuencias provienen de los mismos centros quelas producen. Depositar las secuencias en GenBankes un requisito que imponen muchas revistascientíficas para aceptar la publicación de artículos enlos que se hacen públicas nuevas secuenciasCada dos meses se hace pública una nueva versióncompleta de la base de datos.

8 julio 03 R. A-Allende15

Formatos de ficheros de secuencias: Genbank FlatFile (GBFF)

GeneBank GeneBank IIII

8 julio 03 R. A-Allende16

GeneBank GeneBank IIIIII

LOCUS BSBOFCGEN 2664 bp DNA linear BCT 15-APR-1997DEFINITION B.subtilis bofC, orf1, csbX, and orf4 genes.ACCESSION X93081VERSION X93081.1 GI:1941915KEYWORDS bofC gene; csbX gene; ORF1; ORF4.SOURCE Bacillus subtilis ORGANISM Bacillus subtilis Bacteria; Firmicutes; Bacillales; Bacillaceae; Bacillus.REFERENCE 1 AUTHORS Gomez,M. and Cutting,S.M. TITLE BofC encodes a putative forespore regulator of the Bacillus subtilis sigma K checkpoint JOURNAL Microbiology 143 (Pt 1), 157-170 (1997) MEDLINE 97177783 PUBMED 9025289REFERENCE 2 (bases 1 to 2664) AUTHORS Cutting,S.M. TITLE Direct Submission JOURNAL Submitted (14-NOV-1995) S.M. Cutting, Dept. of Microbiology, University of Pennsylvania School of Medicine, 346 Johnson Pavillon, 3610 Hamilton Walk, Philadelphia, PA 19104-6076, USA

LOCUS BSBOFCGEN 2664 bp DNA linear BCT 15-APR-1997DEFINITION B.subtilis bofC, orf1, csbX, and orf4 genes.ACCESSION X93081VERSION X93081.1 GI:1941915KEYWORDS bofC gene; csbX gene; ORF1; ORF4.SOURCE Bacillus subtilis ORGANISM Bacillus subtilis Bacteria; Firmicutes; Bacillales; Bacillaceae; Bacillus.REFERENCE 1 AUTHORS Gomez,M. and Cutting,S.M. TITLE BofC encodes a putative forespore regulator of the Bacillus subtilis sigma K checkpoint JOURNAL Microbiology 143 (Pt 1), 157-170 (1997) MEDLINE 97177783 PUBMED 9025289REFERENCE 2 (bases 1 to 2664) AUTHORS Cutting,S.M. TITLE Direct Submission JOURNAL Submitted (14-NOV-1995) S.M. Cutting, Dept. of Microbiology, University of Pennsylvania School of Medicine, 346 Johnson Pavillon, 3610 Hamilton Walk, Philadelphia, PA 19104-6076, USA

GBFF: HeaderGBFF: Header

8 julio 03 R. A-Allende17

GeneBank GeneBank IVIV

FEATURES Location/Qualifiers source 1..2664 /organism="Bacillus subtilis" /strain="PY79" /isolate="168" /db_xref="taxon:1423" /germline gene 1..275 /gene="orf1" CDS <1..275 /gene="orf1" /codon_start=3 /transl_table=11 /protein_id="CAA63619.1" /db_xref="GI:1941916" /db_xref="SPTREMBL:O05389" /translation="AAADNSRPTTVEVSTADFVMKDKPHFFFLERYKDSYEEEILRFA EAIGTNQETPCTGNDGLQAGRIARAAQQSLAFGMPVSIEHTEKIAF" gene 346..1650 /gene="csbX" CDS 346..1650 /gene="csbX" /note="sigma B transcribed gene" /codon_start=1

FEATURES Location/Qualifiers source 1..2664 /organism="Bacillus subtilis" /strain="PY79" /isolate="168" /db_xref="taxon:1423" /germline gene 1..275 /gene="orf1" CDS <1..275 /gene="orf1" /codon_start=3 /transl_table=11 /protein_id="CAA63619.1" /db_xref="GI:1941916" /db_xref="SPTREMBL:O05389" /translation="AAADNSRPTTVEVSTADFVMKDKPHFFFLERYKDSYEEEILRFA EAIGTNQETPCTGNDGLQAGRIARAAQQSLAFGMPVSIEHTEKIAF" gene 346..1650 /gene="csbX" CDS 346..1650 /gene="csbX" /note="sigma B transcribed gene" /codon_start=1

GBFF: FeaturesGBFF: Features

8 julio 03 R. A-Allende18

GeneBank GeneBank VV

BASE COUNT 670 a 518 c 690 g 786 tORIGIN 1 ctgcagcggc tgacaatagc aggccgacaa cggttgaggt gtcaacagct gattttgtga 61 tgaaggataa accgcatttc tttttccttg aacgctataa ggattcatat gaggaggaga 121 ttctccgttt tgcagaagcg atcggcacaa accaggagac tccctgcacc ggcaatgacg 181 gtttacaggc cgggaggatc gccagagcag cacagcaatc gcttgctttt ggcatgcctg 241 ttagcattga gcacactgaa aaaatcgctt tttaatctaa caggattaca attcagcaag 301 cttgggtata tactccattg atactttaag taggcggtgg agaaaatgaa tacagtacat 361 gctaaaggaa atgttttgaa caaaatcgga attccttctc acatggtttg gggttatatt 421 ggcgttgtca tctttatggt tggagacggc ctcgaacaag gctggctgtc tccttttctc 481 gttgatcatg gtctcagtat gcagcaatcc gcatcgttat ttaccatgta cggcattgct 541 gtcaccatct cagcttggct ttcaggaacg tttgtggaaa cttgggggcc gagaaaaacg 601 atgactgtcg gattgcttgc atttatcctc ggttcggccg cttttatcgg ctgggcgatt 661 cctcatatgt attatccggc tctcttgggc agctatgctc ttagaggctt gggatatccg 721 ctgtttgcat actcttttct cgtatgggtg tcatacagca cctctcaaaa tattcttgga 781 aaagccgtcg gctggttttg gtttatgttt acgtgcggcc ttaacgtgct cggtccgttc 841 tattccagct atgcagttcc ggcctttgga gaaatcaata cgctttggag cgctttactg 901 tttgtggcgg caggcggaat tcttgcctta ttttttaaca aagataaatt tactccgata 961 caaaaacaag atcagccgaa atggaaagaa ctgtcgaagg catttacgat tatgtttgaa 1021 aaccctaagg taggcatcgg cggagtggtc aagacgatta atgcgatagg acaatttgga 1081 tttgccatct ttcttcctac ttatttagca cgatacgggt attcggtttc ggaatggctg 1141 caaatatggg ggactctgtt ttttgtgaat attgtgttta atatcatttt cggtgcagtc

BASE COUNT 670 a 518 c 690 g 786 tORIGIN 1 ctgcagcggc tgacaatagc aggccgacaa cggttgaggt gtcaacagct gattttgtga 61 tgaaggataa accgcatttc tttttccttg aacgctataa ggattcatat gaggaggaga 121 ttctccgttt tgcagaagcg atcggcacaa accaggagac tccctgcacc ggcaatgacg 181 gtttacaggc cgggaggatc gccagagcag cacagcaatc gcttgctttt ggcatgcctg 241 ttagcattga gcacactgaa aaaatcgctt tttaatctaa caggattaca attcagcaag 301 cttgggtata tactccattg atactttaag taggcggtgg agaaaatgaa tacagtacat 361 gctaaaggaa atgttttgaa caaaatcgga attccttctc acatggtttg gggttatatt 421 ggcgttgtca tctttatggt tggagacggc ctcgaacaag gctggctgtc tccttttctc 481 gttgatcatg gtctcagtat gcagcaatcc gcatcgttat ttaccatgta cggcattgct 541 gtcaccatct cagcttggct ttcaggaacg tttgtggaaa cttgggggcc gagaaaaacg 601 atgactgtcg gattgcttgc atttatcctc ggttcggccg cttttatcgg ctgggcgatt 661 cctcatatgt attatccggc tctcttgggc agctatgctc ttagaggctt gggatatccg 721 ctgtttgcat actcttttct cgtatgggtg tcatacagca cctctcaaaa tattcttgga 781 aaagccgtcg gctggttttg gtttatgttt acgtgcggcc ttaacgtgct cggtccgttc 841 tattccagct atgcagttcc ggcctttgga gaaatcaata cgctttggag cgctttactg 901 tttgtggcgg caggcggaat tcttgcctta ttttttaaca aagataaatt tactccgata 961 caaaaacaag atcagccgaa atggaaagaa ctgtcgaagg catttacgat tatgtttgaa 1021 aaccctaagg taggcatcgg cggagtggtc aagacgatta atgcgatagg acaatttgga 1081 tttgccatct ttcttcctac ttatttagca cgatacgggt attcggtttc ggaatggctg 1141 caaatatggg ggactctgtt ttttgtgaat attgtgttta atatcatttt cggtgcagtc

GBFF: SequenceGBFF: Sequence

8 julio 03 R. A-Allende19

GeneBank GeneBank VIVI

>gi|1941915|emb|X93081.1|BSBOFCGEN B.subtilis bofC geneCTGCAGCGGCTGACAATAGCAGGCCGACAACGGTTGAGGTGTCAACAGCTGATTTTGTGATGAAGGATAAACCGCATTTCTTTTTCCTTGAACGCTATAAGGATTCATATGAGGAGGAGATTCTCCGTTTTGCAGAAGCGATCGGCACAAACCAGGAGACTCCCTGCACCGGCAATGACGGTTTACAGGCCGGGAGGATCGCCAGAGCAGCACAGCAATCGCTTGCTTTTGGCATGCCTGTTAGCATTGAGCACACTGAAAAAATCGCTTTTTAATCTAACAGGATTACAATTCAGCAAGCTTGGGTATATACTCCATTGATACTTTAAGTAGGCGGTGGAGAAAATGAATACAGTACATGCTAAAGGAAATGTTTTGAACAAAATCGGAATTCCTTCTCACATGGTTTGGGGTTATATTGGCGTTGTCATCTTTATGGTTGGAGACGGCCTCGAACAAGGCTGGCTGTCTCCTTTTCTCGTTGATCATGGTCTCAGTATGCAGCAATCCGCATCGTTATTTACCATGTACGGCATTGCTGTCACCATCTCAGCTTGGCTTTCAGGAACGTTTGTGGAAACTTGGGGGCCGAGAAAAACGATGACTGTCGGATTGCTTGCATTTATCCTCGGTTCGGCCGCTTTTATCGGCTGGGCGATTCCTCATATGTATTATCCGGCTCTCTTGGGCAGCTATGCTCTTAGAGGCTTGGGATATCCGCTGTTTGCATACTCTTTTCTCGTATGGGTGTCATACAGCACCTCTCAAAATATTCTTGGAAAAGCCGTCGGCTGGTTTTGGTTTATGTTTACGTGCGGCCTTAACGTGCTCGGTCCGTTCTATTCCAGCTATGCAGTTCCGGCCTTTGGAGAAATCAATACGCTTTGGAGCGCTTTACTGTTTGTGGCGGCAGGCGGAATTCTTGCCTTATTTTTTAACAAAGATAAATTTACTCCGATACAAAAACAAGATCAGCCGAAATGGAAAGAACTGTCGAAGGCATTTACGATTATGTTTGAAAACCCTAAGGTAGGCATCGGCGGAGTGGTCAAGACGATTAATGCGATAGGACAATTTGGATTTGCCATCTTTCTTCCTACTTATTTAGCACGATACGGGTATTCGGTTTCGGAATGGCTGCAAATATGGGGGACTCTGTTTTTTGTGAATATTGTGTTTAATATCATTTT

GeneBank: FASTAGeneBank: FASTAGI Accession Locus Aditional information

8 julio 03 R. A-Allende20

EMBL yEMBL y GeneBank GeneBank

Locus: cadena única de 10 caracteres, usado sólo por GenBank y, en general, no mantenido enotras bases de datos. Al principio, las cadenas de caracteres reflejaban alguna propiedad dela secuencia (por ejemplo, el organismo de origen y la función de la proteína). En desuso, semantiene por razones históricas.

Accession: identificador único de la secuencia en la GenBank. No cambia cuando las entradasson actualizadas. Ideal para citar en publicaciones. Se mantiene en el formato EMBL, en laslíneas identificadas como AC. EMBL también asigna a cada secuencia su propioidentificador, que aparece en la línea ID. Si la secuencia proviene originalmente deGenBank, ID puede tomar el valor de Locus o de Accession.

Nucleotide gi (gen identifier): identificador único para cada entrada en GenBank, numérico,que cambia con las actualizaciones. El identificador correspondiente en EMBL es elNucleic Acid Identifier, y aparece en las lineas NI.

Accession.version: sistema nuevo en el que la combinación accession.version actúa comoaccession y gi. El identificador correspondiente en EMBL se localiza en las líneas SV.

Identificadores de secuencias de nucleótidos en EMBL yGeneBankIdentificadores de secuencias de nucleótidos en EMBL yGeneBank

8 julio 03 R. A-Allende21

EMBLEMBL

ID AF010316 standard; RNA; HUM; 1729 BP.XXAC AF010316;XXSV AF010316.1XXDT 29-SEP-1997 (Rel. 52, Created)DT 03-MAR-2000 (Rel. 62, Last updated, Version 5)XXDE Homo sapiens Pig12 (PIG12) mRNA, complete cds.XXKW .XXOS Homo sapiens (human)OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata;

Euteleostomi; Mammalia;OC Eutheria; Primates; Catarrhini; Hominidae; Homo.XXRN [1]RP 1-1729

8 julio 03 R. A-Allende22

DDóónde encontrar Bases de datosnde encontrar Bases de datosLa mayoría de bases de datos de Biología Molecular sonaccesibles a través de Internet.También en Internet pueden encontrarse muchos sitios en losque se mantienen listas con enlaces a bases de datos.

La revista Nucleic Acid Research publica anualmente un catálogo de bases dedatos y mantiene una versión electrónica del mismo, ordenado tantoalfabéticamente como por áreas. http://www3.oup.co.uk/nar/database/Deambulum Dabank Index es otro catálogo de bases de datos que mantieneInfobiogen, una institución francesa dedicada a compilar y distribuirinformacion sobre biología molecular y biomedicina:http://www.infobiogen.fr/services/deambulum/english/banques.htmlEl Instituto Weizmann (Israel) mantiene también una lista de bases de datosorganizada por área:http://bip.weizmann.ac.il/mb/molecular_biol_databases.html

8 julio 03 R. A-Allende23

Acceso a las Bases de datosAcceso a las Bases de datosLa mayoría de las bases de datos de biología molecular son desolo lecturaLa inserción o actualización de los datos se lleva a cabo por losadministradores de las bases de datos.Gran parte de ellas se pueden consultar a través de servidoresweb propiosGeneralmente las búsquedas parten de un campo de texto libredonde se escriben secuencias, nombres de genes,identificadores o cualquier termino que se quiera buscar. Losresultados tendrán enlaces a datos relacionados disponibles enla base de datos de forma que se navegue por los datos sinnecesidad de tener conocimientos informáticos de ningún tipo.

8 julio 03 R. A-Allende24

Estructuras de DBEstructuras de DB

Estructura Relacional

Formato fichero plano Estructura XML

Interface Web

Tres Niveles de estructuraEstructura relacional

Fichero Plano (compatibilidad)Estructura XML (intercambio de datos)

• Interface Web

Tres Niveles de estructuraEstructura relacional

Fichero Plano (compatibilidad)Estructura XML (intercambio de datos)

• Interface Web

8 julio 03 R. A-Allende25

Acceso a Bases de DatosAcceso a Bases de Datos

Sistema desarrollado porNCBINo se distribuyeUn único servidorRepositorios propios delsistemahttp://www.ncbi.nlm.nih.gov/entrez/

Sistema desarrollado porNCBINo se distribuyeUn único servidorRepositorios propios delsistemahttp://www.ncbi.nlm.nih.gov/entrez/

Sistema desarrollado porLIONSe distribuye (versiónpublica y versión privada)Varios servidoresRepositorios independientesdel sistemaServidores públicos de SRShttp://downloads.lionbio.co.uk/publicsrs.html

Sistema desarrollado porLIONSe distribuye (versiónpublica y versión privada)Varios servidoresRepositorios independientesdel sistemaServidores públicos de SRShttp://downloads.lionbio.co.uk/publicsrs.html

Servidores de acceso a datos de biología molecularServidores de acceso a datos de biología molecular

8 julio 03 R. A-Allende26

ENTREZENTREZ

NCBI toolkit: blast, psiblast, herramientas de clustering …LinkOut: enlaces a repositorios de datos del mismo NCBI y algunos externosE-utilities: scrips y herramientas que permiten consultar por linea de comandos

8 julio 03 R. A-Allende27

SRSSRSSRS es un sistema deINDEXADO yvisualización de datosRelaciona diferentesrepositorios por medio dela clave principalEl numero de repositoriosdepende del mirror al quenos conectemosEl SRS público dereferencia es el del EBIsrs.ebi.ac.uk

8 julio 03 R. A-Allende28

ENTREZ IIENTREZ IIBases de datosBases de datos CamposCampos

Formatos de presentaciónFormatos de presentación OrdenarOrdenar EnviarEnviar

DetallesDetallesRestriccionesRestricciones HistoriaHistoria

Bases de datos: http://www.ncbi.nlm.nih.gov/Entrez/index.htmlBases de datos: http://www.ncbi.nlm.nih.gov/Entrez/index.html

Campos: http://www.ncbi.nlm.nih.gov/entrez/query/static/help/Summary_Matrices.htmlCampos: http://www.ncbi.nlm.nih.gov/entrez/query/static/help/Summary_Matrices.html

Restricciones : AND, OR, NOTRestricciones : AND, OR, NOT

Presentación : los datos se pueden obtener en diferentes formatos y se pueden enviarpor mail, a un fichero o al clipboard y ordenar por determinados camposPresentación : los datos se pueden obtener en diferentes formatos y se pueden enviarpor mail, a un fichero o al clipboard y ordenar por determinados campos

8 julio 03 R. A-Allende29

SRS IISRS II

Repositorios de datosRepositorios de datos

Búsquedas: rápida, standard, avanzadaBúsquedas: rápida, standard, avanzada Presentación de resultadosPresentación de resultados

Resultados (historia)Resultados (historia) ProyectosProyectos

8 julio 03 R. A-Allende30

Integracion Integracion de Bases de datosde Bases de datosCon el crecimiento de los datos y el desarrollo de nuevas técnicas se hangenerado gran cantidad de Bases de datosPueden existir diferencias conceptuales en la información de distintas basesde datos

Unos guardan un gen desde el ATG hasta el STOP mientras que otros incluyen comoparte del gen el promotor y las zonas enhancer

La representación de los datos varia de un sistema de base de datos a otroAsí nos podemos encontrar que las coordenadas con las que se determina un gen enuna base de datos no son iguales a las utilizadas en otras ya que se refieren a diferentescontigs

Es difícil mantener la integridad y fiabilidad de los datos.Los administradores de repositorios públicos no pueden juzgar a priori la fiabilidad deuna entrada insertada por un expertoSe invierten muchos recursos en herramientas de análisis de inconsistencias de datos

Los sistemas de enlaces de datos como SRS o Entrez son costosos demantener

8 julio 03 R. A-Allende31

Bases de Datos DistribuidasBases de Datos DistribuidasLa integración distribuida de datos tiene variasventajas

Menor coste de mantenimientoMayor facilidad de integración de datos heterogéneos

El sistema tiene toda la información sobre losrepositorios de datos que integra de forma que:

Conoce el tipo de dato estamos trabajandoSabe que información podemos obtener de las diferentes fuentesde datos a partir de ese datoQue tipo de herramientas pueden analizar ese dato

8 julio 03 R. A-Allende32

Genenames

Overview:Overview:

MOBYCentral

MOBY hosts & services

Sequencealignment SequenceExpress. Protein Alleles…

AlignPhylogenyPrimers

8 julio 03 R. A-Allende33

Otras iniciativasOtras iniciativas

Existen distintas iniciativas deintegración de datos tantopublicas como pribadas:

BioMoby http://biomoby.org/DAS http://biodas.orgMyGrid http://www.mygrid.info/ISYS http://www.ncgr.org/isys/