introducción a la bioinformática i tomás arredondo vidal 7...

62
Introducción a la Bioinformática I Tomás Arredondo Vidal 7/4/2007

Upload: lamthuy

Post on 24-Jan-2019

212 views

Category:

Documents


0 download

TRANSCRIPT

Introducción a la Bioinformática I

Tomás Arredondo Vidal7/4/2007

Introducción a la Bioinformática

Esta charla trata de lo siguiente:

• Introducción a aspectos de la bioinformática

• Discusión acerca de algunas bases de datos y herramientas utilizadas en la bioinformática

Introducción a la Bioinformática

Motivación para los estudios Bioinformáticos:

Medicina:• Nuevas drogas, nuevas vacunas de ADN, terapias genéticas• Producción de medicinas usando bacterias y levaduras

Genómica:• Fuente de información para medicina preventiva, terapéutica, diagnóstico

Ingeniería de tejidos:• Métodos para generar piel, cartílago, huesos

Biomateriales, Nanotecnologia, ApplicacionesIndustriales y Químicas

De adonde partió el estudio de la Bioinformática?

Introducción a la Bioinformática

Evolución

Muchos la han investigado:• El filósofo Griego Anaximandro (611-547 a.C.) y el romano Lucrecio (99-55 a.C.) intuyeron que todas las cosas vivas se encuentran relacionadas y que ellas cambiaron en el transcurso del tiempo• Aristóteles desarrolló su Scala Naturae, o Escala de la naturaleza, para explicar su concepto del avance de las cosas vivientes desde lo inanimado a las plantas, luego a los animales y finalmente al hombre• El Arzobispo James Usher de Irlanda, a mediados del siglo 17, calculó la edad de la Tierra basado en la genealogía desde Adán y Eva. De acuerdo a sus cálculos, la Tierra se formó el 22 de Octubre, 4004 a.C.

Introducción a la Bioinformática

Evolución

Muchos la han investigado...:• Leonardo da Vinci calculó, en base a los sedimentos del río italiano Po, que debió haber tomado unos 200.000 para formarse sus depósitos• James Hutton , considerado el padre de la moderna Geología, desarrolló (en 1795) la teoría del uniformismo en la cual ciertos procesos geológicos operaron en el pasado en la misma forma que lo hacen hoy en día• Por lo tanto muchas estructuras geológicas no podían explicarse con una Tierra de solo 5.000 años

Introducción a la Bioinformática

Evolución

Muchos la han investigado...:• Jean Baptiste de Lamarck (1744-1829) el mismo científico que acuñó el término biología, concluyó que los organismos mas complejos evolucionaron de organismos mas simples preexistentes• Charles Darwin (1836) y Alfred Wallace, ambos trabajando independientemente, realizaron extensos viajes y, eventualmente, desarrollaron la misma teoría acerca de como cambió la vida a lo largo de los tiempos como así también un mecanismo para ese cambio: la selección natural• Darwin viajo en el H.M.S. Beagle (His Majesty's Ship) al mando de Robert FitzRoy

Introducción a la Bioinformática

Evolución

Muchos la han investigado...:• Darwin escribio en The Voyage of the Beagle (1845)• “After having been twice driven back by heavy southwestern gales, Her Majesty's ship Beagle, a ten-gun brig, under the command of Captain Fitz Roy, R. N., sailed from Devonport on the 27th of December, 1831. The object of the expedition was to complete the survey of Patagonia and Tierra del Fuego, commenced under Captain King in 1826 to 1830, -- to survey the shores of Chile, Peru, and of some islands in the Pacific -- and to carry a chain of chronometrical measurements round the World.”• Eventualmente Darwin viajo por muchos paisesincluyendo: Islas Cape Verde, Brazil, Argentina, Chile, Peru, Ecuador (Islas Galapagos), Tahiti, Nueva Zelandia, Australia, Islas Keeling, Mauritius.

Introducción a la Bioinformática

Evolución

Muchos la han investigado...:• En Julio Darwin llego a Valparaiso:•“July 23rd. -- The Beagle anchored late at night in the bay of Valparaiso, the chief seaport of Chile. When morning came, everything appeared delightful. After Tierra del Fuego, the climate felt quite delicious -- the atmosphere so dry, and the heavens so clear and blue with the sun shining brightly, that all nature seemed sparkling with life. The view from the anchorage is very pretty. The town is built at the very foot of a range of hills, about 1600 feet high, and rather steep. From its position, it consists of one long, straggling street, which runs parallel to the beach, and wherever a ravine comes down, the houses are piled up on each side of it.”

Introducción a la Bioinformática

Evolución

Muchos la han investigado...:• “...In a north- westerly direction there are some fine glimpses of the Andes: but these mountains appear much grander when viewed from the neighbouring hills: the great distance at which they are situated can then more readily be perceived. The volcano of Aconcagua is particularly magnificent. This huge and irregularly conical mass has an elevation greater than that of Chimborazo; for, from measurements made by the officers in the Beagle, its height is no less than 23,000 feet. The Cordillera, however, viewed from this point, owe the greater part of their beauty to the atmosphere through which they are seen. When the sun was setting in the Pacific, it was admirable to watch how clearly their rugged outlines could be distinguished, yet how varied and how delicate were the shades of their colour.”

Introducción a la Bioinformática

Evolución

Conclusiones de Darwin:• Todos los organismos están relacionados por una descendencia común• Todos han evolucionado por la Selección Natural.

“probably all the organic beings .. have descended from some one primordial form”.

“This preservation of favour-able variations and the rejection of injurious variations, I call Natural Selection.”

(C. Darwin, The Origin of Species, 1859)

Introducción a la Bioinformática

Evolución Genetica

Gregor Mendel:• En 1865 el sacerdote Agustino Gregor Mendel hizo experimentos sobre híbridos de plantas (arvejas) basados en el fenotipo observable de ellas• Mendel, desarrolló los principios fundamentales de que hoy es la moderna ciencia de la genética• A través de la estadística de los resultados de sus cruces Mendel demostró que las características heredables son llevadas en unidades discretas que se heredan por separado en cada generación • Estas unidades discretas, que Mendel llamó elemente, se conocen hoy como genes• Los genes ocupan posiciones (e.g. locus) en macromoléculas llamadas cromosomas

Introducción a la Bioinformática

Evolución Genetica

Gregor Mendel hizo experimentos sobre híbridos de plantas (1866):• Así, Mendel aisló 7 pares de caracteres que eran razas puras: cada carácter estudiado se presentaba en dos variantes, tales como: altura de la planta (alta o baja), superficie de la semilla (lisa o rugosa), forma de la vaina (inflada o contraída), forma de la vaina y otras• En sus experimentos Mendel uso unas 28.000 plantas de arvejas• Las posibles codificaciones viables de ADN de un gen que ocupan una posición (locus) en el genoma de un organismo se denominan alelos

Introducción a la Bioinformática

Evolución Genetica

Gregor Mendel hizo experimentos sobre híbridos de plantas (1866)...:• Los alelos de un gen son responsables de las diferentes expresiones de los genes (e.g. color de un pétalo) que es visto en el fenotipo del organismo• En un organismo diploide hay dos copias de cada cromosoma en cada célula (e.g. humanos 1013 células), por ende hay dos alelos para cada gen • En organismos diploides las celulas sexuales (e.g. gametos) son haploides (e.g. tienen una copia de cada cromosoma) y se juntan para formar un cigoto (e.g. zygote) que es la celula que se divide repetidamente para formar el embrión

Introducción a la Bioinformática

Evolución Genetica

• Como ejemplo observo que el tamaño y forma de las arvejas correspondía a dos características (genes) que tenían múltiples versiones (alelos)• En el caso de tamaño es alto y bajo en el caso de la forma es arrugado o redondo

Gregor Mendel hizo experimentos sobre híbridos de plantas (1866):

Introducción a la Bioinformática

Evolución Genética

Proporciones vistas por Mendel con arvejas:

• Las arvejas arrugadas y redondas corresponden a distintos alelos del gen responsable de la forma• Las altas y bajas son alelos del gen responsable del tamaño• Las verdes y amarillas son alelos del gen responsable del color

Ejemplo: Aquí se ven las proporciones observadas en muchos cruces mono-híbridas y di-híbridas

Introducción a la Bioinformática

Evolución Genetica

Conclusiones o Leyes de Mendel (1866):• Ley de uniformidad: El tipo hereditario de la prole no es intermedio entre los tipos de los padres, sino que en él predomina el de uno u otro. Si se cruzan dos variedades bien definidas de una misma especie, el descendiente híbrido mostrará las características distintivas de uno de los progenitores (característica dominante)• Ley de la segregación de los genes antagónicos: La característica del otro progenitor (recesiva) es latente y se manifestará en la siguiente generación resultante de cruzar a los híbridos entre sí. Tres cuartos muestran la característica dominante y un cuarto la recesiva• Ley de la recombinación de los genes: Cada una de las características puras de cada variedad (color, rugosidad de la piel, etc.) se transmiten a la siguiente generación de forma independiente entre sí, siguiendo las dos primeras leyes

Introducción a la Bioinformática

Evolución Genetica

Conclusiones o Leyes de Mendel (1866):• En 1905 Bateson, Saunders y Punnett descubrieron la conexión genética a través de las cromosomas• Ellos determinaron que genes están localizados en cromosomas y que cada cromosoma es una unidad que se reproduce intactamente• Esta idea fue modificada posteriormente por Thomas Hunt Morgan• Esto nos lleva al estudio de la células y la Genética...

Introducción a la Bioinformática

Células

Función:• Las funciones biológicas de los organismos dependen de las células para la producción y regulación de compuestos necesarios para su funcionamiento• Los organismos se clasifican de acuerdo a sus características celulares:

• Eukariotes (hongos, animales, plantas, humanos)• Prokariotes (bacterias)• Virus • Archaea (organismos similares a las bacteria que viven en ambientes extremos)

Introducción a la Bioinformática

Introducción a la Bioinformática

ADN

Watson y Crick• En 1953, James Watson y Francis Crick, descubrieron la estructura tridimensional del ácido desoxirribonucleico (ADN) al encontrar un modelo que explicaba todos los datos obtenidos hasta el momento• El ADN es un polímero (gr. poly - muchas, meros -partes) o sea una macro molecula de muchas componentes individuales

Es una cadena doble compuesta por fosfatos (PO4), azucar(desoxiribosa) y una base nitrogenada

PO-4|

Azúcar - Base|

PO-4|

Azúcar - Base|

PO-4

Introducción a la Bioinformática

ADN• En el modelo de Watson y Crick, el ADN es una doble hélice, con las bases dirigidas hacia el centro, perpendiculares al eje de la molécula y un esqueleto de azúcar-fosfato a lo largo de los lados de la hélice (que protege las bases del ambiente)

• Las hebras que la conforman son complementarias y antiparalelas. Las bases de cada cadena se aparean de forma complementaria Adenina con Timina (A-T) y Guanina con Citosina(C-G)

• Cada base tiene puentes de hidrógeno con su complementaria, uniendo así las dos cadenas

Introducción a la Bioinformática

ADN y ARN

Estructura• Los ácidos nucleicos que se conocen son el ácido desoxirribonucleico (ADN) y el ácido ribonucleico (RNA)

• Ambos están compuestos por nucleótidos en formas monocatenarias (ARN) o de doble cadena (DNA)

• Las bases nitrogenadas que componen los ácidos nucleicos son los compuestos que codifican la información genética en la molécula (el código genético: A, T, C, G)

• Las bases nitrogenadas se clasifican en dos grandes familias: púricas y pirimidínicas

Introducción a la Bioinformática

ADN y ARN

Estructura• Bases púricas: Adenina,Guanina• Bases pirimidínicas: Citosina, Timina, Uracilo• El ADN contiene adenina-guanina-citosina y timina que se emparejan en una doble hélice A-T y G-C• El ARN contiene Uracilo en vez de Timina • El ARN tiene diferentes nombres dependiendo de su funcion (e.g. ARNm: ARN mensajero, ARNt: ARN de transferencia, ... hay mas tipos de ARN)• El DNA y todas las formas bicatenarias (duplex) de los ácidos nucleícos se unen entre sí gracias a los enlaces de hidrógeno que se establecen entre sus bases• La Timina enlaza con la Adenina con dos enlaces y la Guanina y la citosina se unen entre sí por tres enlaces de hidrógeno

Introducción a la Bioinformática

ADN y ARN

Bases

Enlaces

Introducción a la Bioinformática

ADN

Estructura• En el ADN las azucares sucesivas se conectan a través del fosfato y una hebra tiene la orientación de 5' a 3' y la otra hebra (complementaria) de 3' a 5' (dado que la molécula de azúcar esta rotada)

PO-4 PO-4| |

5' Azucar - C === G - Azucar 3'3' | | 5'

PO-4 PO-4| |

5' Azucar - C === G - Azucar 3'3' | | 5'

PO-4 PO-4

Introducción a la Bioinformática

ADN de Células:

Prokariotas• Organismos microscópicos• Su genoma es una molécula circular de ADN • Genoma es del orden de 0.6-8 Mpb (millones de pares de bases)• Densidad de genes es de aproximadamente un gen = 1000 pares de bases• Sus genes no son sobrepuestos (no overlap)• Sus genes son transcritos (copiados a ARNm) inmediatamente después de una región llamada promotor• Son continuamente codificantes (sin intrones)

Introducción a la Bioinformática

ADN de Células:

Eukariotes• Organismos variados (plantas, animales, hongos,...)• Genoma consiste de múltiples pedazos contiguos de ADN típicamente denominados cromosomas• Genoma es del orden de 10-3000 Mpb (millones de pares de bases)• Densidad de genes es de aproximadamente un gen = 100000 pares bases• Genoma incluye muchas áreas no codificartes• Sus genes son transcritos (copiados a ARNm) después de una región llamada promotor pero elementos en la secuencia a gran distancia pueden tener gran efecto en el proceso• Genes pueden derivar en múltiples formas de ARNm y proteínas• Mas complejas!

Introducción a la Bioinformática

Introducción a la Bioinformática

Introducción a la Bioinformática

Dogma Central (Watson & Crick)

• Transferencia general de la informaciónDe ADN a ADN, de ADN a ARN, de ARN a Proteína

Introducción a la Bioinformática

Dogma Central (Watson & Crick)

• Transferencia general de la informaciónDe ADN a ADN, de ADN a ARN, de ARN a Proteína

Introducción a la Bioinformática

Dogma Central (Watson & Crick)

Introducción a la Bioinformática

ADN

Codigo Genetico:• Las funciones biológicas de los organismos dependen de las células para la producción y regulación de compuestos necesarios para su funcionamiento• Codones: tripletes de bases codificantes• Comienzo: ATG (Met)• Termino: TAA, TAG, TGA• Exones: secciones codificantes (con genes)• Intrones: secciones entre medio de exones no codificantes

Sequencias Codificantes:• ORF: Open Reading Frame (de codon de comienzo a término)• CDS: Coding Sequence

Introducción a la Bioinformática

ADN

Codigo Genetico:• La secuencia genética del ADN esta codificada en secuencias de nucleotidos (Adenosina, Timina, Citosina, Guanina) • El ARN substituye Timina (T) por Uracilo (U)• El ADN actúa como un molde en la replicación celular para producir mas ADN (mitosis)• El ADN también transmite la información necesaria para la reproducción celular (meiosis)• Los genes se organizan en cromosomas para la reproducción durante meiosis• En el caso de meiosis se intercambia material genético entre cromosomas homologas• La unidad de intercambio genético es el gen

Introducción a la Bioinformática

F

L

SY C

L PH

Q

R

I

MT

N

K

S

R

V A

D

EG

W

Introducción a la Bioinformática

ADN

Mitosis :• Watson y Crick formularon la hipótesis semiconservativa que fue posteriormente demostrada por Meselson y Stahl en 1957• Según esta hipótesis, la nuevas moléculas de DNA duplexo contienen una hebra de material original y otra nueva

Introducción a la Bioinformática

ADNMeiosis:•Thomas Hunt Morgan en 1910 estudio en detalle la conexión genética con moscas de la fruta•El determino que los genes en los cromosomas tienen conexión parcial (partial linkage) al estudiar Meiosis•Esto ocurre porque las cromosomas homologas pueden intercambiar ADN durante la fase Prophase I• La frecuencia con la cual los genes son separados por cruces es directamente proporcional con su distancia en su cromosoma

Introducción a la Bioinformática

Genes: Partial Linkage

Introducción a la Bioinformática

Bioinformática: Algunas áreas de Estudio

• Genómica – Estudio, mapeo, y secuenciacion de genomas• Microarreglos – Arreglos experimentales para determinar el nivel de actividad o precencia de muchos genes en parallelo• Proteomica – Estudio, vusualizacion y quantificacion de las moleculas de proteinas presentes en tejidos u organismos• Estructurales – Simulacion y estudio de la estructura de proteinas

Introducción a la Bioinformática

Genomica

Vías Metabólicas

• Vías metabólicas: reacciones elementales celulares que producen compuestos centrales para la sobrevivencia de la célula

• Con el metabolismo se describen los mecanismos de las células para extraer y convertir la energía de los compuestos químicos y para construir las moléculas necesarias para la síntesis y regulación de los ácidos nucleicos, proteínas, membranas, y polisacáridos

• El metabolismo es una red compleja de reacciones químicas dentro de los confines de la célula, y que puede ser analizado como conjuntos separados conocidos como vías metabólicas

Introducción a la Bioinformática

Genomica

Vías Metabólicas

• Hay dos áreas principales en la bioquímica del metabolismo:

• Catabolismo: la degradación oxidativa de moléculas

• Anabolismo: la síntesis reductiva de moléculas

• Las vías, ya sean catabólicas o anabólicas, son interdependientes, controladas por las necesidades energéticas y las demandas estructurales del organismo

• La célula controla cuales vías están activas y por cuanto tiempo

Introducción a la Bioinformática

Genomica

Fundamentos de las Vías Metabólicas

• Reacciones Químicas

• Balance energético y termodinámica

• La Integración celular (las células deben gastar mucha de su energía transportando substrato a través de las membranas biológicas)

• Mecanismos regulatorios de las vías. Las vías pueden ser activadas o desactivadas. Modulación de la actividad enzimática (proteica), y disponibilidad de la enzima (expresión genética , control de translación)

Introducción a la Bioinformática

Introducción a la Bioinformática

Genomica

Bases de datos de nucleótidos

• La bioinformática requiere encontrar e interpretar datos biológicos. De nuestro interés son las bases de datos para nucleótidos , proteínas y vías metabólicas• Algunas bases de datos de nucleótidos incluyen: Genbank, NCBI LocusLink, TIGR, Ensembl• Genbank es la base de datos principal de nucleótidos y mantiene un registro histórico (primario) de todos las secuencias de nucleótidos que se han introducido en el• Se utiliza el Gene ID (e.g. X01714) para iniciar búsquedas en Genbank

Introducción a la Bioinformática

Genomica

Bases de datos de proteínas

• La principal base de datos de proteínas por la calidad de sus datos anotados es SWISS-PROT• Se utiliza el Primary Accession Number para identificar una secuencia que se quiere encontrar (e.g. P32861)•SWISS-PROT es un recurso de datos derivado (secundario) de la literatura y manualmente verificados• TrEMBL es una base de datos automáticamente anotada

Introducción a la Bioinformática

Genomica

Bases de datos de Vías Metabólicas

• Algunas recursos sobre vías metabólicas incluyen: KEGG, BRENDA, IUBMB, ECOCYC• KEGG (Kyoto Encyclopedia of Genes and Genomes) incluye una gran cantidad de vías metabólicas y es la mas importante a nivel mundial• En KEGG típicamente se utiliza el numero de la enzima (E.C. para comenzar una búsqueda)• BRENDA es un sistema de información enzimático• IUBMB es el sitio oficial de la Unión de Bioquímica y Biología Molecular • ECOCYC es la enciclopedia de genes y el metabolismo de E.Coli

Introducción a la Bioinformática

Genomica

Bases de datos de Vías Metabólicas: KEGG

# [ LinkDB | KEGG ]# ENTRY EC 2.7.1.2# NAME Glucokinase# CLASS Transferases Transferring phosphorus-containing groups Phosphotransferases with an alcohol group as acceptor# SYSNAME ATP:D-glucose 6-phosphotransferase# REACTION ATP + D-Glucose = ADP + D-Glucose 6-phosphate# SUBSTRATE ATP D-Glucose# PRODUCT ADP D-Glucose 6-phosphate# COMMENT A group of enzymes found in invertebratesand microorganisms highly specific for glucose.<...>

Introducción a la Bioinformática

Genomica

Aplicaciones Para Comparar Secuencias

• BLAST (Basic Local Alignment Search Tool) es la principal aplicación para comparar secuencias• Las principales versiones son BLASTP y TBLASTN• BLASTP compara la secuencia de una proteína con una base de datos de proteínas• TBLASTN comparar la secuencia de una proteína con una base de datos de nucleótidos

Introducción a la Bioinformática

Genomica

Usos de BLAST

• Para encontrar algo acerca de la función de mi proteína: usar BLASTP para comparar con otras proteínas en las bases de datos • Para descubrir nuevos genes que codifican a alguna proteína (o enzima): usar TBLASTN para comparar la proteína con secuencias de ADN traducidas en todas sus posibles ORFs

Introducción a la Bioinformática

Genomica

Resultados de BLAST

• Sequence Accesion Number• Description• Bit score – estima el significado del alineamiento (mientras mayor mejor)• E-value – estima el numero de veces que se pudiera encontrar un alineamiento tan bueno aleatoriamente (mientras menor mejor)• Alineamientos (%identidad, largo)

Introducción a la Bioinformática

Genomica

Aplicaciones Para Comparar Secuencias Múltiples

• También es deseable muchas veces hacer alineamientos múltiples. Hay muchas herramientas para esto. Entre ellas: CLUSTALW, TCOFFEE• Mas en el laboratorio!

Introducción a la Bioinformática

Genomica

Evolución Genética

• Todos los genes están relacionados (Zuckerkandl, Pauling 1960’s)• Los genes a veces evolucionan independientemente del organismo (formulado por R. Dawkins 1976)• Solamente unos pocos miles de familias de genes existen (C. Chothia, 1992, Nature 357)

Introducción a la Bioinformática

Genomica

Análisis Filogenético: Definiciones

• Genes Homólogos : Genes con un ancestro común• Genes Ortólogos : Homólogos separados por especiacion en el cual un ancestro común genera dos subgrupos que lentamente se separan para convertirse en nuevas especies• Genes Paralogs : Homólogos separados por un evento de duplicación. Una de las copias típicamente mantiene su función mientras que la otra tiene otra función pero relacionada• Genes Xenologs : Xenologs ocurren por la transferencia horizontal de una especie a otra. No hay historia del nuevo gen en el genoma que fue insertado

Introducción a la Bioinformática

Búsqueda de secuencias/proteínas homologas:

Introducción a la Bioinformática

Genomica

Análisis filogenético: Ortólog y Paralog

A

A B

A1 B1 A2 B2

Duplicación

Especiación

Introducción a la Bioinformática

Genomica

Análisis filogenético: Globina y Myoglobina

Ancestralglobingene

duplication

Myoglobinmouse

globinGlobinancestor

globinman

globinmouse

Myoglobinman

Myoglobin

Introducción a la Bioinformática

Genomica

Análisis Filogenético: Algunas herramientas

• ClustalW: Herramienta de tipo caja negra para análisis filogenético• Phylip: Método mas sofisticado que permite controlar los parámetros necesarios en la reconstrucción

Introducción a la Bioinformática

Motivación para los estudios Bioinformáticos: Medicina

Genome Gene map Gene sequence Expression

t

a

g

c

t

a

g

c g c

t

c

g

c

t

g t

c

g t

g

g

t

ct

g

a

t

g

a

t

g

t

t

g

t

g

t

a

a

a

a

c

g

g

c Alzheimers

Cancer

Arthritis

MS

CV Disease

Obesity

Vision

Arthritis

Diseases

t

g

Introducción a la Bioinformática

Motivación para los estudios Bioinformáticos: Producción de Vacunas

Introducción a la Bioinformática

Virus: amigos y enemigos

SE ACABO?

Introducción a la Bioinformática

Referencias

• Brown, T.A., Genomes, Wiley, 1999• Claverie, J.M., Bioinformatics for Dumies, Wiley, 2003• Perkus, J. K., Mathematics of Genome Analysis, 2002• Gibas, C., Developing Bioinformatics Computer Skills,

2001• http://www.biologia.edu.ar/index.html• http://www.arrakis.es/%7Elluengo/• Link antiguo: http://www.multisan2001.com