Download - Anotaci ón Automática
Anotación Automática
Dante Travisany
Temas• Pipeline
• Tools
• Bases de Datos
• Conceptos
• Ejemplos
• Ensembl
Identificación del Problema
• Virus : 15 – 20
• Bacteria 3000 - 5000
• Eucariontes: sobre los 10000
Pipeline
Pipeline• Unix
• Símbolo: |
• Segmentación
Tools• BLAST • InterProScan• AmiGO• Pathway Tools• Infernal• Glimmer• Critica• GeneMark• GeneWise• BedTools• Samtools• GenomicTools• KEGG-API
Base de Datos
BLAST DB Protein-KEGG-PRIAM-SWISSPROT-UNIPROT-NR
BLAST DB Nucleotide- NT- REFSEQ- RDP
InterProScan - Databases
- Pfam- SSF- Gene3D- TIGRfam
Nuevo Problema
• Gran cantidad de bases de datos.
• Errores en Anotación, doble anotación.
• Necesidad de Crear un vocabulario Controlado
• Gene Ontology, UniPROT, SwissPROT, InterProScan.
• Capacidad de realizar referencias cruzadas en las bases de datos.
Algunos Conceptos Importantes
• Gene Name
• Vocabulario Controlado
• IFAA
GeneName:
Para cada Organismo existen gene names particulares, según la base de datos de Referencia.
HUGO:www.genenames.org
Gene Ontology ConsortiumGene Ontology:
Proyecto colaborativo entre variadas instituciones.
Vocabulario:EstructuradoPrecisoComún Controlado
Permite describir los roles de los genes y los productos génicos en cualquier organismo.
División Gene Ontology
• Proceso Biológico
• Función Molecular
• Componente Celular
COG - KOG
Idea
• Filtrar por bases de datos
• Generar una rutina automática capaz de iterar el proceso, para cada set de genes.
Tools & Databases
Resumen
• Hasta ahora, se han visto:
NGS sequencing.Assembly.Gene Prediction.Annotation (Databases).Automatic Annotation
Caso Transcriptómica
Nannochloropsis salina transcriptomics
RNA processing and modification
Chromatin structure and dynamics
Energy production and conversion
Cell cycle control, cell division, chromosome partitioning
Amino acid transport and metabolism
Nucleotide transport and metabolism
Carbohydrate transport and metabolism
Coenzyme transport and metabolism
Lipid transport and metabolism
Translation, ribosomal structure and biogenesis
Transcription
Replication, recombination and repair
Cell wall/membrane/envelope biogenesis
Cell motility
Posttranslational modification, protein turnover, chaperones
Inorganic ion transport and metabolism
Secondary metabolites biosynthesis, transport and catabolism
General function prediction only
Function unknown
Signal transduction mechanisms
Intracellular trafficking, secretion, and vesicular transport
Defense mechanisms
Extracellular structures
Nuclear structure
Cytoskeleton
AB
CD
EF
GH
IJ
KL
MN
OP
QR
ST
UV
WY
Z
0 5 10 15 20 25
KOG Category N.salina v/s C.reindhardtii
N.salinaC.reindhartii
Category Percentage
KOG
Cate
gory
23
GenDB
– Automatic Annotation System for Prokaryotic genomes
• Development for the University of Bielefeld since 2002.
• Modular system developed using an OOP and a relational database (O2DBI).
• Provide an Application program Interface (API).
24
GenDB
• Folker Meyer et all. GenDB an open source genome annotation system for prokaryote genomes. Nucleic Acids Research,2003
25
GenDBPipeline
25
26
GenDB
Ensembl
• Inicio:1999
• Objetivo: generar herramientas de anotación automática.
Ensembl Pipeline.
• Website:http://www.ensembl.org/