capitulo i introducción a la bioinformatica

47
RESUMEN La revelación de la secuencia completa del genoma humano posibilitó conocer las causas moleculares de las enfermedades, así como descubrir la significación de las diferencias genéticas entre las personas para el desarrollo de enfermedades. La comprensión sobre cómo las variantes genéticas y el medio ambiente regulan el fenotipo de las células, tejidos y órganos, ocupará la investigación del siglo XXI. Y, en esta búsqueda, es donde se inserta precisamente la bioinformática, una disciplina emergente una disciplina emergente que utiliza las tecnologías de la información para captar, organizar, analizar y distribuir información biológica con el propósito de responder preguntas complejas en biología. Sin embargo, el objetivo final es mucho más amplio y consiste en utilizar esta información para desarrollar nuevas formas de tratar, curar o prevenir las miles de enfermedades que afligen a la humanidad. El análisis del volumen de la producción científica sobre bioinformática por años en el período estudiado, muestra un crecimiento lineal, que denota el momento de avance y expansión que experimenta esta nueva disciplina 5

Upload: isis-fokers

Post on 12-Dec-2015

15 views

Category:

Documents


1 download

DESCRIPTION

Bioinformatica

TRANSCRIPT

Page 1: Capitulo i Introducción a La Bioinformatica

RESUMEN 

La revelación de la secuencia completa del genoma humano posibilitó conocer las causas moleculares de las enfermedades, así como descubrir la significación de las diferencias genéticas entre las personas para el desarrollo de enfermedades. La comprensión sobre cómo las variantes genéticas y el medio ambiente regulan el fenotipo de las células, tejidos y órganos, ocupará la investigación del siglo XXI. Y, en esta búsqueda, es donde se inserta precisamente la bioinformática, una disciplina emergente una disciplina emergente que utiliza las tecnologías de la información para captar, organizar, analizar y distribuir información biológica con el propósito de responder preguntas complejas en biología.

Sin embargo, el objetivo final es mucho más amplio y consiste en utilizar esta información para desarrollar nuevas formas de tratar, curar o prevenir las miles de enfermedades que afligen a la humanidad.

El análisis del volumen de la producción científica sobre bioinformática por años en el período estudiado, muestra un crecimiento lineal, que denota el momento de avance y expansión que experimenta esta nueva disciplina

5

Page 2: Capitulo i Introducción a La Bioinformatica

CAPITULO I INTRODUCCIÓN A LA BIOINFORMATICA.

1. ¿Qué es la Bioinformática?

La Bioinformática es el uso de técnicas computacionales, matemáticas y estadísticas para el análisis, interpretación y generación de datos biológicos.

La bioinformática es una ciencia muy joven, si miramos a través del tiempo algunos descubrimientos fueron de la siguiente manera:

1958 Primera secuencia de proteína 1975 Primera secuencia de ADN 1986 Desarrollo PCR (Polímeros) Inicio de la era Genómica.

La bioinformática estudia la Minería de Datos de:

ADN (Ácido Desoxirribonucleico) Proteínas Genómicas Mutación /Polimorfismo

En la bioinformática lo que se hace es:

Almacenar datos de genes a través de minería de datos. Observar que hacen los genes

2. Bases de Química.

Química: Estudio de la materia. La materia está hecha de átomos

Química (palabra que podría provenir de los términos griegos χημία o χημεία, quemia y quemeia respectivamente). Es la ciencia que estudia tanto la composición, estructura y propiedades de la materia como los cambios que ésta experimenta durante las reacciones químicas y su relación con la energía. Es definida, en tanto, por Linus Pauling, como la ciencia que estudia las sustancias, su estructura (tipos y formas de acomodo de los átomos), sus propiedades y las reacciones que las transforman en otras sustancias con referencia al tiempo.

La química moderna se desarrolló a partir de la alquimia, una práctica protocientífica de carácter filosófico, que combinaba elementos de la química, la metalurgia, la física, la medicina, la biología, entre otras ciencias y artes.

6

Page 3: Capitulo i Introducción a La Bioinformatica

Bases de biología.

Biología: Ciencia que estudia los seres vivos.

Ser vivo: Es todo lo que es capaz de reproducirse.

La biología tiene las siguientes características:

1. Universalidad: Las reacciones químicas básicas son las mismas en todos los seres vivos.

2. Evolución: Todos los organismos se evolucionaran de un único ancestro común.

3. Taxonomía: Todos los seres se dividen en una categoría y subcategorías.

Encontramos tres (3) niveles:

Orgánico: Tejidos, agregaciones de célula.

Biología Celular: Estudio sobre las células. Esto incluye su anatomía, su fisiología, las interacciones de ésta con el medio, su ciclo vital, y su división y muerte.

Biología Molecular: Estudio de las moléculas. La biología molecular concierne principalmente al entendimiento de las interacciones de los diferentes sistemas de la célula, lo que incluye muchísimas relaciones, entre ellas las del ADN con el ARN, la síntesis de proteínas, el metabolismo, y el cómo todas esas interacciones son reguladas para conseguir un correcto funcionamiento de la célula.

Célula: Unidad funcional de todo ser vivo. Encontramos dos categorías de células:

Procariotas: No tienen núcleo. Eucariotas: Tienen núcleo.

Entre las células eucariotas encontramos la vegetal y animal, estas poseen diferencias que las podemos observar en la figura donde ilustra las estructuras que son comunes en las células animales y vegetales, así como las estructuras que les son únicas. Las estructuras que son comunes a plantas y animales, están en medio de la imagen. Las estructuras propias de las plantas, a la izquierda y las animales a la derecha.

7

Page 4: Capitulo i Introducción a La Bioinformatica

Las células hacen parte de dos clases de organismos: Pluricelulares y Mono celulares por ejemplo la célula animal es pluricelular y las bacterias mono celulares. La célula tienen las siguientes funciones:

Nutrición. Crecimiento. Multiplicación. Diferenciación. Señalización. Evolución

3. Bases de genética

4.1 Genética

La genética estudia los genes que determinan nuestras características.

Hay cuatro (4) tipos de genética:

a) Genética Clásica: trata de cromosomas y genes. Cromosomas: Es como el ADN se empaqueta.Genes: Secuencia larga (3Gb) en el genoma humano cada gen codifica las proteínas que dan nuestras características físicas. Los genes están dentro de los cromosomas. En nuestro cuerpo hay 33.000 características.

b) Genética Cuantitativa: Estudia el impacto de los fenotipos. c) Genética Evolutiva: Estudia como los genes se vuelven a través del tiempo en

determinada población. d) Genética Molecular: Estudia lo mismo que la genética clásica, cuantitativa y

evolutiva pero a nivel molecular.

3.2 Dogma Central de la Biología Molecular

El Dogma Central de la Bilogía nos habla de cómo se pasa de genotipo a fenotipo. El paso de genotipo a fenotipo se llama expresión genética lo podemos ver en la siguiente figura

Transcripción Traducción |Genotipo|----------> |ADN|-------------------->|ARN|--------------->|Proteínas| | _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ | \/ Expresión Técnica |Fenotipo|

Dogma Central (Paso de Genotipo a Fenotipo)

8

Page 5: Capitulo i Introducción a La Bioinformatica

4.3 Ácido Desoxirribunocleico (ADN).

Ácido Desoxirribonucleico (ADN): Contiene la información genética.

Es una molécula -> (conjunto de átomos con estructura tridimensional). Se puede afirmar que el ADN es un poli nucleótido el cual es una cadena de moléculas pequeñas.

4.4 Traducción y Transcripción Genética.

Transcripción es el proceso de fabricación ARN usando el ADN como molde.

Traducción es la construcción de una secuencia de aminoácidos (poli péptido) con la información proporcionada por la molécula de ARN.

El esquema de este "dogma" ha sido encontrada repetidamente y se considera una regla general (salvo en los retrovirus).

El Ácido Ribonucleico mensajero (ARNm) es el molde para la construcción de la proteína.

El Ácido Ribonucleico ribosómico (ARNr) se encuentra en el sitio donde se construye la proteína: el ribosoma.

El Ácido Ribonucleico de transferencia (ARNt) es el transportador que coloca el aminoácido apropiado en el sitio correspondiente.

El ARN tiene el azúcar ribosa en vez de desoxirribosa. La base uracilo (U) reemplaza a la timina (T) en el ARN. El ARN tiene una sola hebra, si bien el ARNt puede formar una estructura de forma de trébol debido a la complementariedad de sus pares de bases.

4.5 Código Genético.

20 aminoácidos están representados en el código genético por la agrupación de tres letras (triplete) de las cuatro existentes. Si uno considera las posibilidades de arreglo de cuatro letras agrupadas de a tres (43) resulta que tenemos 64 posibilidades de palabras a codificar, o 64 posibles codones (secuencia de tres bases en el ARNm que codifica para un aminoácido específico o una secuencia de control).

4.6 Proteínas.

Las proteínas son biomoléculas formadas por cadenas lineales de aminoácidos. El nombre proteína proviene de la palabra griega πρωτεῖος ("proteios"), que significa "primario" o del dios Proteo, por la cantidad de formas que pueden tomar.

Las proteínas desempeñan un papel fundamental para la vida y son las biomoléculas más versátiles y más diversas. Son imprescindibles para el

9

Page 6: Capitulo i Introducción a La Bioinformatica

crecimiento del organismo. Realizan una enorme cantidad de funciones diferentes, entre las que destacan:

Estructural. Ésta es la función más importante de una proteína. Inmunológica (anticuerpos), Enzimática (sacarosa y pepsina), Contráctil (actina y miosina). Homeostática: colaboran en el mantenimiento del pH, Transducción de señales (rodopsina) Protectora o defensiva (trombina y fibrinógeno)

Las proteínas están formadas por aminoácidos. Las proteínas de todos los seres vivos están determinadas mayoritariamente por su genética (con excepción de algunos péptidos antimicrobianos de síntesis no ribosomal), es decir, la información genética determina en gran medida qué proteínas tiene una célula, un tejido y un organismo.

Las proteínas se sintetizan dependiendo de cómo se encuentren regulados los genes que las codifican. Por lo tanto, son susceptibles a señales o factores externos. El conjunto de las proteínas expresadas en una circunstancia determinada es denominado proteoma.

4. NCBI ENTREZ Entrez es un portal y un buscador que permite acceder a la base de datos del National Center forBiotechnologyInformation (NCBI). NCBI es una parte de la National Library of Medicine (NLM), así como un departamento de NationalInstitutes of Health (NIH) del Gobierno de los Estados Unidos. Aquí toda la información biológica es de dominio público. No se puede patentar la información genética.

10

Page 7: Capitulo i Introducción a La Bioinformatica

CAPITULO II SECUENCIAS DE ADN

1. Formato FASTA

El formato FASTA es el formato más común de secuencia de ADN, ARN y Proteínas. Es un formato de solo texto(se puede escribir oleer en un bloc de notas). Hay unas líneas de descripción y unas líneas donde esta nuestra secuencia. La secuencia máxima de las líneas del formato FASTA es de 80 caracteres de longitud, es decir que cuando llegamos a 80 se empieza una nueva línea.

2. Alineamiento de Secuencias.

Alinear: Comparar dos (2) secuencias. Resaltar sus similitudes y diferencias. Cuando se analizan secuencias es común utilizar los términos similitud y homología de forma indiscriminada, pero estos dos términos hacen referencia a conceptos distintos.

3. BLAST

El algoritmo y el programa de computadora que lo implementa fueron desarrollados por: Stephen Altschul, Warren Gish, David Lipman en el Centro Nacional de Información Biotecnológica (NCBI, por sus siglas en inglés), Webb Millar en la Universidad estatal de Pennsylvania, y Gene Myers en la Universidad de Arizona. También es basado en el algoritmo Smith-Waterman y es local, bastante rápido pero no garantiza el mejor resultado solo el mejor alineamiento. Es usado para encontrar probables genes homólogos, es decir con funciones similares.

Para ejecutarse, BLAST requiere dos secuencias como entrada: una secuencia de consulta (también llamada secuencia blanco) y una base de datos de secuencias. BLAST encontrará subsecuencias en la consulta que son similares a subsecuencias de la base de datos. En el uso típico, la secuencia de consulta es mucho más pequeña que el banco de datos, por ejemplo, la consulta puede ser de mil nucleótidos mientras que la base de datos es de varios miles de millones de nucleótidos. BLAST busca alineamientos de secuencias de alto puntaje entre la secuencia de consulta y las secuencias en el banco de datos usando un enfoque heurístico. La velocidad y la relativamente buena precisión de BLAST son la clave de la innovación técnica de los programas BLAST y probablemente el porqué es la herramienta de búsqueda más popular en bioinformática.

11

Page 8: Capitulo i Introducción a La Bioinformatica

3.1 Etapas

a) Asemilladlo (Seeding): BLAST busca coincidencias exactas de una pequeña longitud fija W entre la secuencia de consulta y las secuencias de la base de datos. Por ejemplo, dadas las secuencias AGTTAC y ACTTAG y el largo de palabra W = 3, BLAST podría identificar la subcadena coincidente TTA que es común en ambas secuencias. Por defecto, W = 11 para "semillas" nucleicas.

b) Extensión: BLAST trata de extender la coincidencia en ambas direcciones, comenzando por la semilla. El proceso de alineamiento sin huecos, extiende la coincidencia de la semilla inicial de longitud W en cada dirección en un intento de estimular el puntaje de alineación. Inserciones y eliminaciones no son consideradas durante esta etapa. Para nuestro ejemplo, el alineamiento sin huecos entre las secuencias AGTTAC y ACTTAG centrado alrededor de la palabra en común TTA podría ser: Si es encontrado un alineamiento sin huecos de alto puntaje, la base de datos de secuencias pasa a la tercera etapa.

c) Evaluación: BLAST realiza un alineamiento con huecos entre la secuencia de consulta y la secuencia de la base de datos usando una variación del algoritmo de Smith-Waterman. Entonces los alineamientos relevantes estadísticamente son mostrados al usuario.

3.2 Familia Blast.

BlastN: Busca una secuencia ADN/ARN en la base de datos de Nucleotidos (ADN/ARN).

BlastP: Busca una proteína en una base de datos de proteínas. BlastX: Busca nucleótidos (ADN) en la base de datos de proteínas. TBlastN: Busca proteínas en el ADN. Traduce de la BD(Base de Datos) a

proteínas. La traducción va en un solo sentido.

3.3 Variantes de BLAST.

Gapped BLAST: Esta es una mejora al algoritmo original del BLAST.2 También se lo conoce como BLAST 2.0. Se trata de un BLAST que contempla la existencia de pequeñas inserciones o eliminaciones en las secuencias que se están comparando, permitiendo así alinear uno o varios nucleótidos o aminoácidos con huecos vacíos llamados gaps.

PsiBLAST: Esta variante de BLAST2 es usada para buscar posibles homólogos en organismos muy lejanos entre ellos, filogenéticamente hablando. Está disponible sólo para secuencias de aminoácidos.

BLAST no garantiza que las secuencias que alinea sean homólogas y mucho menos que tengan la misma función, simplemente provee posibles candidatos.

12

Page 9: Capitulo i Introducción a La Bioinformatica

13

Page 10: Capitulo i Introducción a La Bioinformatica

CAPITULO III GENES

1. Código Genético

El código genético viene a ser como un diccionario que establece una equivalencia entre las bases nitrogenadas del ARN y el leguaje de las proteínas, establecido por los aminoácidos. Después de muchos estudios (1955 Severo Ochoa y Grumberg; 1961 M.Nirenberg y H. Mattaei) se comprobó que a cada aminoácido la corresponden tres bases nitrogenadas o tripletes (61 tripletes codifican aminoácidos y tres tripletes carecen de sentido e indican terminación de mensaje).

El código genético nos indica que aminoácido corresponde a cada triplete o codón del ARN mensajero.

1.1 Características Del Código Genético

a) El Código es Organizado en Tripletes o Codones: Si cada nucleótido determinara un aminoácido, solamente podríamos codificar cuatro aminoácidos diferentes ya que en el ADN solamente hay cuatro nucleótidos distintos. Cifra muy inferior a los 20 aminoácidos distintos que existen.

14

Page 11: Capitulo i Introducción a La Bioinformatica

b) El Código Genético es Degenerado: Como hemos dicho anteriormente existen 64 tripletes distintos y 20 aminoácidos diferentes, de manera que un aminoácido puede venir codificado por más de un codón. Este tipo de código se denomina degenerado. Las moléculas encargadas de transportar los aminoácidos hasta el ribosoma y de reconocer los codones del ARN mensajero durante el proceso de traducción son los ARN transferentes (ARN-t). Los ARN-t tienen una estructura en forma de hoja de trébol con varios sitios funcionales:

Extremo 3': Lugar de unión al aminoácido (contiene siempre la secuencia ACC).

Lazo dihidrouracilo (DHU): lugar de unión a la aminoacil ARN-t sintetasa o enzimas encargadas de unir una aminoácido a su correspondiente ARN-t.

Lazo de T ψ C: lugar de enlace al ribosoma. Lazo del anti codón: lugar de reconocimiento de los codones del mensajero.

c) El Código Genético es No Solapado o Sin Superposiciones: Un nucleótido solamente forma parte de un triplete y, por consiguiente, no forma parte de varios tripletes, lo que indica que el código genético no presenta superposiciones. Por tanto, el código es no solapado.

d) La Lectura del Código Genético es "Sin Comas": Teniendo en cuenta que la lectura se hace de tres en tres bases, a partir de un punto de inicio la lectura se lleva a cabo sin interrupciones o espacios vacíos, es decir, la lectura es seguida "sin comas". De manera, que si añadimos un nucleótido (adición) a la secuencia, a partir de ese punto se altera el cuadro de lectura y se modifican todos los aminoácidos.

e) El Código Genético es Universal: Los experimentos realizados hasta la fecha indican que el código genético nuclear es universal, de manera que un determinado triplete o codón lleva información para el mismo aminoácido en diferentes especies. Hoy día existen muchos experimentos que demuestran la universalidad del código nuclear, algunos de estos experimentos son:

Utilización de ARN mensajeros en diferentes sistemas acelulares. Por ejemplo ARN mensajero y ribosomas de reticulocitos de conejo con ARN transferentes de E. coli. En este sistema se sintetiza un poli péptido igual o muy semejante a la hemoglobina de conejo.

Las técnicas de ingeniería genética que permiten introducir ADN de un organismo en otro de manera que el organismo receptor sintetiza las proteínas del organismo donante del ADN. Por ejemplo, la síntesis de proteínas humanas en la bacteria E. coli.

15

Page 12: Capitulo i Introducción a La Bioinformatica

1.2 Splicing

En el caso de los organismos Eucariotas el ADN no se transcribe completamente sino solo por partes; Las secciones que no se transcriben se llaman Intrónes, los cuales son regiones del ADN que debe ser eliminada del transcrito primario de ARN, y las secciones que se trascriben se llaman Exones, los cuales son regiones que codifican para una determinada proteína.

2. Open Reading Frames (ORF)

2.1 Marco Abierto de Lectura

Es una secuencia de información genética que contiene datos que pueden ser utilizados para codificar aminoácidos; Los marcos de lectura se encuentran en el ADN y ARN. En el caso de ADN, el ADN contiene conjuntos de nucleótidos conocida como tripletes o codones. Cada codón puede ser transcrito por el ARN en otro triplete. El marco de lectura es la sección de ADN o ARN que contiene instrucciones para hacer una proteína completa. En el ADN, hay seis marcos de lectura posibles, ya que el inicio de un marco de lectura depende de donde uno empieza a leer, y el ADN es de doble cadena. Con el ARN, existen tres posibles marcos de lectura. Una sección de lectura comienza con un codón de inicio (AUG) y uno de parada (UAA, UAG o UGA). Un marco abierto de lectura puede contener un gen completo, o los genes que se solapan; el código genético no siempre es tan ordenada como uno podría imaginar. De hecho, el código genético contiene mucho de lo que se conoce como el ADN no codificante, es decir, que el ADN no parece cumplir una función en términos de la expresión génica. No codificante del ADN puede contener información interesante acerca de la herencia genética de una especie, y puede utilizarse para otras funciones.

Existen 6 sentidos en los que se puede aparecer un marco de lectura: +1, +2, +3, -1, -2, -3. Si una secuencia se empieza a leer desde el 1er carácter, entonces el marco de lectura es +1; si se empieza desde la 2da, entonces el marco de lectura es +2; Y si se comienza desde la 3era, entonces el marco de lectura es +3. Para la secuencia complementaria, si se empieza a leer desde el 1er carácter, entonces el marco de lectura es -1; si se empieza desde la 2da, entonces el marco de lectura es -2; Y si se comienza desde la 3era, entonces el marco de lectura es -3.

16

Page 13: Capitulo i Introducción a La Bioinformatica

2.2 ORF Finder (Open Reading Frame Finder) - NCBI

ORF Finder busca marcos abiertos de lectura (ORF) en la secuencia de ADN que Ud. introduzca. El programa devuelve el rango de cada ORF, junto con la traducción de la proteína correspondiente. ORF Finder soporta el alfabeto IUPAC y varios códigos genéticos. Utilice ORF Finder para buscar posibles segmentos de codificación de proteínas en nuevas secuencias de ADN.

3. Modelos Estocásticos

Estocástico: Utiliza probabilidad. un proceso estocástico es un concepto matemático que sirve para caracterizar una sucesión de variables aleatorias (estocásticas) que evolucionan en función de otra variable, generalmente el tiempo. Cada una de las variables aleatorias del proceso tiene su propia función de distribución de probabilidad y, entre ellas, pueden estar correlacionadas o no.

3.1. Modelo Oculto de Markov.

Un método de previsión muy fiable sería aquel que analizase la evolución de distintos desarrollos teniendo en cuenta las interrelaciones entre dichos desarrollos e introdujese la variable tiempo.

Este modelo se caracteriza por el desarrollo secuencial tecnológico mediante dos parámetros probabilísticos: la secuencia de los desarrollos y el tiempo entre desarrollos sucesivos. Estos dos parámetros se pueden representar con los conceptos transición de estados y tiempo de permanencia en el estado. Se dice que un proceso es de Markov cuando verifica la propiedad de Markov: la evolución del proceso depende del estado actual y del próximo, y no de anteriores o posteriores.

4. GENSCAN

GENSCAN fue desarrollado por Chris Burge en el grupo de investigación de Samuel Karlin, Departamento de Matemáticas de la Universidad de Stanford. El programa y el modelo que subyace en ella se describen en: Burge, C. y Karlin, S. (1997) Predicción de la estructura de los genes completos en ADN genómico humano. J. Mol. Biol. 268, 78-94.

17

Page 14: Capitulo i Introducción a La Bioinformatica

CAPITULO IV ALINEAMIENTO DE SECUENCIAS Y PROTEÍNAS

1. Alineamiento de Secuencias

1.1 Alineamiento múltiple de Secuencias Un método de alineamiento múltiple verdadero, alinea todas las secuencias al mismo tiempo.

Pero no existe un método computacional que pueda realizar esto en tiempo razonable para más de 3 secuencias cortas.

El alineamiento de múltiples secuencias es muy utilizado en la búsqueda de que varias especies estén emparentadas por un ancestro común.

a. Método Global: Confronta una secuencia con otra completa. Los primeros programas que se desarrollaron para el alineamiento de secuencias fueron diseñados para tratar de crear alineamientos globales, es decir para detectar similaridades utilizando las proteínas enteras. Sin embargo, existen numerosas proteínas "modulares", entendiendo por tal el hecho de que en su secuencia es posible identificar varios dominios diferentes.

b. Programación Dinámica: La técnica de programación dinámica es teóricamente aplicable a cualquier número de secuencias; sin embargo, y puesto que es computacionalmente costosa tanto en tiempo como en memoria, raramente se usa en su forma más básica para más de tres o cuatro secuencias. Este método requiere la construcción de un equivalente n-dimensional a la matriz formada por dos secuencias, donde “n” es el número de secuencias problema.

c. Árbol Filogenético: La filogenia y el alineamiento de secuencias son campos íntimamente relacionados debido a su necesidad compartida de evaluar el parentesco entre secuencias. La filogenia hace un uso extensivo de los alineamientos de secuencias en la construcción e interpretación de árboles filogenéticos, que se usan para clasificar las relaciones evolutivas entre genes homólogos representados en el genoma de especies divergentes.

18

Page 15: Capitulo i Introducción a La Bioinformatica

1.2 Árbol Filogenético

Todos los seres vivos comparten su origen: todos provienen del reino móneras. Este reino abarca los seres unicelulares procariotas, que carecen de núcleo celular. Son las arqueo bacterias y las eubacterias. De los móneras surgieron los protoctistas. Este reino reúne seres eucariotas unicelulares heterótrofos y con digestión interna (protozoos), y eucariotas unicelulares o pluricelulares sin tejidos, autótrofos fotosintéticos (algas). El reino de los hongos comprende seres eucariotas, unicelulares o pluricelulares, sin tejidos, heterótrofos y con digestión externa. Las metáfitas o plantas son eucariotas pluricelulares con tejidos y nutrición autótrofa.

Estudiando los ácidos nucleicos, especialmente el ARN ribosómico, se ha comprobado que se pueden clasificar los seres vivos en solo tres grandes grupos o dominios. Esta técnica se denomina filogenia molecular y tiene una gran utilidad para establecer las relaciones de parentesco entre taxones de seres vivos, basándose en la similitud genética existente entre éstos.

Los árboles filogenéticos son una representación gráfica de las similitudes y diferencias entre unas secuencias determinadas . Habitualmente, las secuencias de los genes y las proteínas son más parecidas entre organismos más cercanos evolutivamente. Los organismos que hace más tiempo que se separaron en la evolución suelen tener más diferencias en las secuencias de sus respectivos genes, y, por lo tanto, cuando se realiza un árbol filogenético, aparecen más alejados entre sí

19

Page 16: Capitulo i Introducción a La Bioinformatica

2. ClustalWJalview

2.1 Clustal.

CLUSTAL es un programa que permite hacer alineamientos globales de proteínas y ácidos nucleicos y que además tiene un algoritmo heurístico progresivo, bastante rápido, para calcular alineamientos múltiples. En combinación con herramientas como BLAST, CLUSTAL es muy útil para definir familias de proteínas y de ácidos nucleicos. Al igual que BLAST, también hay servidores web para correr CLUSTALW sin necesidad de instalar software, pero asimismo tiene ventajas instalarlo localmente, sobre todo para correr trabajos de alineamiento múltiple a gran escala y tener todo el proceso bajo control.

2.2 Jalview JalView es un editor de alineamiento múltiple por escrito en Java. Se utiliza ampliamente en una variedad de páginas web (por ejemplo, el servidor de EBI Clustalw y la base de datos de proteínas Pfam dominio), pero está disponible como un editor de propósito general, la alineación y banco de trabajo de análisis.

3. Proteínas y Proteómica

3.1 Proteínas Es una macromolécula -> Cadena muy larga de aminoácidos. Los tipos principales de macromoléculas son las proteínas, formadas por cadenas lineales de aminoácidos; los ácidos nucleicos, DNA y RNA, formados por bases nucleotídicas (purinas y pirimidinas), los polisacáridos, formados por subunidades de azúcares y los lípidos formados por glicerol, ácidos grasos o colesterol. Los aminoácidos de las proteínas están unidos por enlaces peptídicos, los carbohidratos de los polisacáridos por enlaces glucosídicos o peptídicos y los lípidos y ácidos nucleicos por enlaces éster. Nuestro cuerpo posee 500.000 proteínas. El estudio de las proteínas permite estudiar: * Su Estructura: Es la manera como se organiza una proteína para adquirir cierta forma. Se puede estudiar su forma: • 3D: Se realiza Experimentalmente (Rayos X, etc.) o Matemáticamente. • Dominios Funcionales: Subsecuencia que desarrolla una función específica.

3.2 Proteóma Es el conjunto de todas las proteínas producidas por una célula en un instante de tiempo. El término proteoma se utilizó por primera vez en 1995 y ha sido aplicado a diferentes escalas en los sistemas biológicos. El proteoma celular es la totalidad de proteínas expresadas en una célula particular bajo condiciones de medioambiente y etapa de desarrollo, (o ciclo celular) específicas, como lo puede ser la exposición a estimulación hormonal. También se puede hablar del proteoma completo de un organismo que puede ser conceptualizado como las proteínas de

20

Page 17: Capitulo i Introducción a La Bioinformatica

todas las variedades de proteomas celulares. Es aproximadamente, el equivalente proteínico del genoma. El Proteoma es un elemento altamente dinámico, cuyos componentes varían en un organismo, tejido, célula o compartimento subcelular, como consecuencia de cambios en su entorno, situaciones de estrés, administración de drogas, señales bioquímicas o su estado fisiológico o patológico.

3.3 Proteómica Ciencia que estudia el Proteoma. estudios que se han realizado tradicionalmente mediante la técnica de electroforésis en gel de dos dimensiones. En la primera dimensión las proteínas se separan por isoelectroenfoque, que separa las proteínas con base en su carga eléctrica. En la segunda dimensión, las proteínas se separan por peso molecular utilizando SDS-PAGE.

21

Page 18: Capitulo i Introducción a La Bioinformatica

La Proteómica engloba un conjunto de metodologías orientadas al estudio sistemático de las proteínas, que son los componentes primordiales que regulan la maquinaria biológica. Los cambios experimentados por las células de un tejido, por la acción de factores naturales, drogas o fármacos o a causa de alguna patología, son consecuencia de cambios, más o menos sutiles, en la pauta de proteínas que producen las células en ese momento. Si bien estos cambios pueden analizarse de forma indirecta mediante técnicas genómicas (chips de microarrays de DNA), los resultados no siempre reflejan el grado real de expresión de las proteínas.

4. Análisis Comparativo de Proteínas Significa tomar una proteína compararla con otras proteínas conocidas para ver fundamentalmente su función. La proteínas al estudiar su estructura se pueden dividir por Familias esta clasificación es jerárquica. Superfamilias, familias y subfamilias Una superfamilia es un conjunto de proteínas con un origen evolutivo común, un conjunto de homólogos. Las superfamilias se pueden dividir, más o menos arbitrariamente, según lo grandes que sean, en familias y subfamilias. Son conceptos paralelos a los de ortólogos y parálogos: las proteínas de una misma subfamilia son ortólogas entre sí (también puede haber in-paralogs), mientras que son parálogas de las de otras subfamilia que pertenezca a la misma superfamilia.

5. PROSITE, PRINTS, Pfam, InterPro

5.1 PROSITE PROSITE es una base de datos de familias y dominios de proteínas creada por Amos Bairoch en 1988.Consiste en entradas que describen dominios, familias y sitios funcionales así como patrones de aminoácidos. Estos son manualmente verificados por un equipo del Instituto Suizo de Bioinformática e integrado con la base de datos de Swiss-Prot. Sus usos incluyen la identificación de posibles funciones de las proteínas recientemente descubiertas y el análisis de aquellas ya conocidas pero con actividades previamente desconocidas. PROSITE ofrece herramientas para el análisis de secuencias de proteínas y detección de motivos de proteínas; es parte de los servidores de análisis de proteómica de ExPASy.

5.2 PRINTS Es una colección de las llamadas "FingerPrints ": proporciona tanto un recurso de anotación detallada de las familias de proteínas , y una herramienta de diagnóstico para recién determinar las secuencias. Una huella digital es un grupo de conservación motivos tomados de un alineamiento de secuencias múltiples - en conjunto, los motivos forman una firma característica de la familia de proteínas alineadas. Los mismos motivos que no son necesariamente contiguos en la

22

Page 19: Capitulo i Introducción a La Bioinformatica

secuencia, pero pueden agruparse en un espacio 3D para definir los sitios de unión molecular o las superficies de interacción.

5.3 Pfam La base de datos Pfam es una de las más importantes colecciones de información en el mundo para la clasificación de las proteínas. La base de datos clasifica el 75 por ciento de proteínas conocidas para formar una biblioteca de familias de proteínas - una "tabla periódica" de la biología. El recurso de acceso abierto se estableció en el Instituto Wellcome Trust Sanger en 1998. Su visión es ofrecer una herramienta que permite a los biólogos experimentales, computacionales y la evolución de clasificar las secuencias de proteínas y responder a preguntas sobre lo que hacen y cómo han evolucionado. El proyecto Pfam es dirigido por el Dr. Alex Bateman en el Instituto Sanger.

5.4 InterPro InterPro es una base de datos de familias, dominios y sitios funcionales de proteínas en donde las características identificables encontradas en proteínas conocidas pueden ser aplicadas a nuevas secuencias de proteínas. Fue creada en 1999 tras la formación del InterProConsortium entre el grupo de Swiss-Prot en el Instituto Europeo de Bioinformática y el Instituto Suizo de Bioinformática y los miembros fundadores de las bases de datos Pfam, PRINTS, PROSITE y ProDom. Actualmente integra información de las bases de datos PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMs, PIRSF, SUPERFAMILY, GENE3D y PANTHER. La base de datos está disponible para búsquedas por texto y basadas en secuencia a través de un servicio web, y para descargas por FTP anónimo. Incluye varios formatos de salida como tablas de texto, documentos XML y gráficos para facilitar el análisis de sus resultados. Al igual que las otras bases de datos del Instituto Europeo de Bioinformática, se encuentra en dominio público.

23

Page 20: Capitulo i Introducción a La Bioinformatica

CAPITULO V BASES DE DATOS

BASE DE DATOS

Una base de datos es un “almacén” que nos permite guardar grandes cantidades de información de forma organizada para que luego podamos encontrar y utilizar fácilmente. A continuación te presentamos una guía que te explicará el concepto y características de las bases de datos.

El término de bases de datos fue escuchado por primera vez en 1963, en un simposio celebrado en California, USA. Una base de datos se puede definir como un conjunto de información relacionada que se encuentra agrupada ó estructurada.

Desde el punto de vista informático, la base de datos es un sistema formado por un conjunto de datos almacenados en discos que permiten el acceso directo a ellos y un conjunto de programas que manipulen ese conjunto de datos.

Cada base de datos se compone de una o más tablas que guarda un conjunto de datos. Cada tabla tiene una o más columnas y filas. Las columnas guardan una parte de la información sobre cada elemento que queramos guardar en la tabla, cada fila de la tabla conforma un registro.

Bases de datos no proporcionan unos datos organizados, en un entorno estético, según determinados criterios, y facilitan su exploración y consulta selectiva.

Se pueden emplear en múltiples actividades como por ejemplo: seleccionar datos relevantes para resolver problemas, analizar y relacionar datos, extraer conclusiones, comprobar hipótesis. Las preguntas que nos realizamos para la realización son del tipo: ¿Qué características tiene este dato? ¿Qué datos hay con la característica X? ¿Qué datos hay con las características X e Y?.

Las bases de datos pueden tener una estructura jerárquica (si existen unos elementos subordinantes de los que dependen otros subordinados, como los organigramas), relacional (si están organizadas mediante unas fichas o registros con una misma estructura y rango) o documental (si utiliza descriptores y su finalidad es almacenar grandes volúmenes de información documental: revistas, periódicos, etc.).

En cualquier caso, según la forma de acceder a la información se pueden distinguir dos tipos:

24

Page 21: Capitulo i Introducción a La Bioinformatica

Bases de datos convencionales. Tienen la información almacenada en ficheros, mapas o gráficos, que el usuario puede recorrer según su criterio para recopilar información.

Bases de datos tipo sistema experto. Son bases de datos muy especializadas que recopilan toda la información existente de un tema concreto y además asesoran al usuario cuando accede buscando determinadas respuestas.

Descomposición y Normalización

Siempre que un analista de sistemas de base de datos arma una base de datos, queda a su cargo descomponer dicha base en grupos y segmentos de registros.

Este proceso es la descomposición; el mismo es necesario independientemente de la arquitectura de la base de datos - relacional, red o jerárquica-.Sin embargo, para la base de datos relacional, la acción correspondiente puede dividirse y expresarse en términos formales y se denomina normalización a la misma.La normalización convierte una relación en varias sub-relaciones, cada una de las cuales obedece a reglas. Estas reglas se describen en términos de dependencia.

Una vez que hayamos examinado las distintas formas de dependencia, encontraremos procedimientos a aplicar a las relaciones de modo tal que las mismas puedan descomponerse de acuerdo a la dependencia que prevalece. Esto no llevará indefectiblemente a formar varias subrelaciones a partir de la única relación preexistente.

Biología de Visualización de Datos

Es una rama de la bioinformática relacionada con la aplicación de gráficos por ordenador, visualización científica, y la visualización de la información a las diferentes áreas de las ciencias de la vida. Esto incluye la visualización de secuencias de genomas, las alineaciones, las filogenias, estructuras macromoleculares, la biología de sistemas, la microscopía, y los datos de resonancia magnética. Herramientas de software utilizadas para la visualización de los datos biológicos van desde simples programas independientes a los sistemas complejos e integrados. Hoy en día estamos experimentando un rápido crecimiento en el volumen y la diversidad de los datos biológicos, presentando un desafío cada vez mayor para los biólogos. Un paso clave en la comprensión y el aprendizaje a partir de estos

25

Page 22: Capitulo i Introducción a La Bioinformatica

datos es la visualización. Por lo tanto, ha habido un aumento correspondiente en el número y la diversidad de los sistemas de visualización de datos biológicos.

Una nueva tendencia es la difuminación de las fronteras entre la visualización de las estructuras 3D a resolución atómica, la visualización de los complejos más grandes de crio-microscopía electrónica, y la visualización de la ubicación de las proteínas y complejos dentro de las células y los tejidos conjunto. Una segunda tendencia emergente es un aumento en la disponibilidad y la importancia de la resolución temporal de datos de la biología de sistemas, la microscopía electrónica y de imágenes de células y tejidos. Por el contrario, la visualización de trayectorias ha sido durante mucho tiempo una parte importante de la dinámica molecular.

Base de Datos Biológicas

Casi todos los desarrollos que se hacen a día de hoy en bioinformática de una u otra manera hacen uso de datos almacenados en bases de datos “biológicas” o “bioinformáticas”. Gestores de bases de datos y los distintos productos que hay disponibles, tanto de pago como de código abierto, que permiten interrogar de diversas maneras (usando el lenguaje de consultas SQL) la información almacenada en una instancia del gestor.En bioinformática, el concepto de “base de datos biológica” no alude tanto a la tecnología usada como al contenido almacenado. Una base de datos biológica es un almacén de datos para información derivada de los datos obtenidos experimentos biológicos, ni más ni menos. Y una base de datos bioinformática es un almacén de datos para información derivada de datos biológicos y de programas bioinformáticos. Si bajamos al nivel más técnico, las bases de datos biológicos y bioinformáticas están disponibles generalmente como un conjunto de ficheros planos, cuyo tamaño suele ser enorme. Lo más importante de todo: casi todas estas bases de datos son de libre disposición (cualquiera puede descargarlas).Ello es posible porque la información almacenada en la mayor parte de estas bases de datos es de dominio público y casi siempre estática, al venir de investigación científica ya terminada financiada con fondos públicos. Estos ficheros están casi siempre en formato textual, y la razón viene de los orígenes de la bioinformática: poder entender, ver y manipular sus contenidos sin depender de herramientas especializadas. Los contenidos de estos ficheros, al ser textuales, son muy comprimibles, y por eso suelen estar comprimidos con gzip, bzip2, xz, etc…

26

Page 23: Capitulo i Introducción a La Bioinformatica

CAPÍTULO VI ESTRUCTURAS BIOLÓGICAS

Introducción

Como es lógico la rapidez con que se suceden las innovaciones de toda índole

tanto científicas como humanísticas resulta difícil adaptarse a los avances

alcanzados, en los momentos actuales, que se dan a nivel mundial, que coloca

esta ciencia entre las primeras con más descubrimientos y logros..

AL hacer este estudio, se ha tenido en cuenta los progresos de la Biología y de

la Genéticacon un tema tan interesante como lo es la estructura del ADN y ARN.

Esperamos que este estudio no sea un tema complicado más sin embargo que

nos sea fácil de entender y discutir con gran facilidad.

1. Ácido desoxirribonucleico (ADN) 

Ácido desoxirribonucleico (ADN), material genético de todos los organismos

celulares y casi todos los virus. El ADN lleva la información necesaria para dirigir

la síntesis de proteínas y la replicación. Se llama síntesis de proteínas a la

producción de lasproteínas que necesita la célula o el virus para realizar sus

actividades y desarrollarse.

La replicación es el conjunto de reacciones por medio de las cuales el ADN se

copia a sí mismo cada vez que una célula o un virus se reproduce y transmite a la

descendencia la información que contiene.En casi todos los organismos celulares

el ADN está organizado en forma de cromosomas, situados en el núcleo de la

célula.

1.1 Estructura del ADN

Cada molécula de ADN está constituida por dos cadenas o bandas formadas por

un elevado número de compuestos químicos llamados nucleótidos. Estas cadenas

forman una especie de escalera retorcida que se llama doble hélice. Cada

nucleótido está formado por tres unidades: una molécula de azúcar llamada

desoxirribosa, un grupo fosfato y uno de cuatro posibles compuestos nitrogenados

llamados bases: adenina (abreviada como A), guanina (G), timina (T) y citosina

(C).

27

Page 24: Capitulo i Introducción a La Bioinformatica

La molécula de desoxirribosa ocupa el centro del nucleótido y está flanqueada por

un grupo fosfato a un lado y una base al otro. El grupo fosfato está a su vez unido

a la desoxirribosa del nucleótido adyacente de la cadena. Estas subunidades

enlazadas desoxirribosa-fosfato forman los lados de la escalera; las bases están

enfrentadas por parejas, mirando hacia el interior, y forman los travesaños.

Los nucleótidos de cada una de las dos cadenas que forman el ADN establecen

unaasociación específica con los correspondientes de la otra cadena. Debido a la

afinidad química entre las bases, los nucleótidos que contienen adenina se

acoplan siempre con los que contienen timina, y los que contienen citosina con los

que contienen guanina. Las bases complementarias se unen entre sí por enlaces

químicos débiles llamados enlaces de hidrógeno.

En 1953, el bioquímico estadounidense James Watson y el biofísico británico

Francis Crick publicaron la primera descripción de la estructura del ADN. Su

modelo adquirió tal importancia para comprender la síntesis proteica, la replicación

del ADN y las mutaciones, que los científicos obtuvieron en 1962 el Premio Nobel

de Medicina por su trabajo.

1.2 Síntesis Proteica

Una de las tareas más importantes de la célula es la síntesis de proteínas,

moléculas que intervienen en la mayoría de las funciones celulares.

El material hereditario conocido como ácido desoxirribonucleico (ADN), que se

encuentra en el núcleo de la célula, contiene la información necesaria para dirigir

la fabricación de proteínas.

El ADN incorpora las instrucciones de producción de proteínas. Una proteína es

un compuesto formado por moléculas pequeñas llamadas aminoácidos, que

determinan su estructura y función.

La secuencia de aminoácidos está a su vez determinada por la secuencia de

bases de los nucleótidos del ADN.

Cada secuencia de tres bases, llamada triplete, constituye una palabra del código

genético o codón, que especifica unaminoácido determinado.

28

Page 25: Capitulo i Introducción a La Bioinformatica

Así, el triplete GAC (guanina, adenina, citosina) es el codón correspondiente

al aminoácido leucina, mientras que el CAG (citosina, adenina, guanina)

corresponde al aminoácido valina.

Por tanto, una proteína formada por 100 aminoácidos queda codificada por un

segmento de 300 nucleótidos de ADN.

De las dos cadenas de polinucleótidos que forman una molécula de ADN, sólo

una, llamada paralela, contiene la información necesaria para la producción de

una secuencia de aminoácidos determinada. La otra, llamada antiparalela, ayuda

a la replicación.

La síntesis proteica comienza con la separación de la molécula de ADN en sus

dos hebras. En un proceso llamado transcripción, una parte de la hebra paralela

actúa como plantilla para formar una nueva cadena que se llama ARN mensajero

o ARNm.

El ARNm sale del núcleo celular y se acopla a los ribosomas, unas estructuras

celulares especializadas que actúan como centro de síntesis de proteínas. Los

aminoácidos son transportados hasta los ribosomas por otro tipo de ARN llamado

de transferencia (ARNt). Se inicia un fenómeno llamado traducción que consiste

en el enlace de los inoácidos en una secuencia determinada por el ARNm para

formar una molécula de proteína.

Un gen es una secuencia de nucleótidos de ADN que especifica el orden de

aminoácidos de una proteína por medio de una molécula intermediaria de ARNm.

La sustitución de un nucleótido de ADN por otro que contiene una base distinta

hace que todas las células o virus descendientes contengan esa misma secuencia

de bases alterada.

Como resultado de la sustitución, también puede cambiar la secuencia de

aminoácidos de la proteína resultante. Esta alteración de una molécula de ADN se

llama mutación. Casi todas las mutaciones son resultado de errores durante el

proceso de replicación. La exposición de una célula o un virus a las radiaciones o

a determinados compuestos químicos aumenta la probabilidad de sufrir

mutaciones.

Replicación

29

Page 26: Capitulo i Introducción a La Bioinformatica

En casi todos los organismos celulares, la replicación de las moléculas de ADN

tiene lugar en el núcleo, justo antes de la división celular. Empieza con la

separación de las dos cadenas de polinucleótidos, cada una de las cuales actúa a

continuación como plantilla para el montaje de una nueva cadena complementaria.

A medida que la cadena original se abre, cada uno de los nucleótidos de las dos

cadenas resultantes atrae a otro nucleótido complementario previamente formado

por la célula.

Los nucleótidos se unen entre sí mediante enlaces de hidrógeno para formar los

travesaños de una nueva molécula de ADN. A medida que los nucleótidos

complementarios van encajando en su lugar, una enzima llamada ADN polimerasa

los une enlazando el grupo fosfato de uno con la molécula de azúcar del siguiente,

para así construir la hebra lateral de la nueva molécula de ADN. Este proceso

continúa hasta que se ha formado una nueva cadena de polinucleótidos a lo largo

de la antigua; se reconstruye así una nueva molécula con estructura de doble

hélice.

2. Ácido Ribonucleico ARN

El ARN es una sola molécula trenzada con un azúcar ribosa. Tiene una estructura distintiva y, a diferencia del ADN, hay variaciones y varios tipos de estructuras de ARN.

La estructura básica del ARN

Sin embargo, la estructura básica del ARN, puede definirse como un azúcar ribosa, que se numera de 1' a 5', con:

una base unida a la posición 1' un grupo hidroxilo en la posición 2 un fosfato Unido a la posición 3' de una ribosa y la posición 5' de la siguiente

2.1 Bases de RNA

Una base depende de la posición de 1', generalmente adenina (A), citosina (C), guanina (G) o uracilo (U).

Adenina y guanina son purinas; citosina y uracilo son pirimidinas. Las bases pueden formar enlaces de hidrógeno entre la citosina y guanina, entre adenina y uracilo y entre guanina y uracilo.

30

Page 27: Capitulo i Introducción a La Bioinformatica

A diferencia de ADN que contiene sólo cuatro bases A, T, G y C, RNA maduro puede contener bases modificadas y azúcares.

Pseudouridina (Ψ), en el que la vinculación entre uracilo y ribosa se cambia de un bono C–N a un enlace C–C y ribothymidine (T), se encuentran en varios lugares. Otra notable base modificada es hipoxantina, una base de adenina desaminada cuyos análogos de los nucleósidos se llaman inosina (I).

2.2 Grupo hidroxilo de RNA

Hay presencia de un grupo hidroxilo en la posición 2' del azúcar ribosa. Esto diferencia a RNA de ADN y hace el ARN adopte una geometría de un formulario en lugar de la forma B más comúnmente observados en el ADN. Esto significa que hay un surco mayor muy profundo y estrecho y un surco poco profundo y ancho menor.

El grupo hidroxilo en 2' significa que en las regiones flexibles de una molécula de ARN productos químicos pueden atacar el enlace fosfodiester adyacentes para romper la columna vertebral.

2.3 Grupo de fosfato de RNA

Un grupo fosfato está unido a la posición 3' de una ribosa y la posición 5' del siguiente.

Los grupos fosfato tienen una carga negativa. Esto hace que el ARN una molécula cargada (polyanion).

2.4 Estructura terciaria de RNA

Una vez que se forma el ARN, como las proteínas requiere someterse a cambios para formar una estructura terciaria específica. El andamio para esta estructura es proporcionado por elementos estructurales secundarios que son enlaces de hidrógeno en la molécula. El filamento forma bucles de horquilla, bultos y bucles internos. Ya está cargada RNA, iones metálicos como Mg2 + son necesarios para estabilizar muchas estructuras secundarias y terciarias. Las estructuras terciarias de ARN se determinan usando asignación de interferencia de sondeo y modificación química, cristalografía de rayos x y resonancia magnética nuclear (RMN), criomicroscopía electrónica.

3. Estructura de Proteínas La palabra proteína proviene del griego protop (lo primero, lo principal, lo más importante). Las proteínas son las responsables de la formación y reparación de los tejidos, interviniendo en el desarrollo corporal e intelectual. Las proteínas son biopolímeros (macromoléculas orgánicas), de elevado peso molecular, constituidas básicamente por carbono (C), hidrógeno (H), oxígeno (O) y nitrógeno

31

Page 28: Capitulo i Introducción a La Bioinformatica

(N); aunque pueden contener también azufre (S) y fósforo (P) y, en menor proporción, hierro (Fe), cobre (Cu), magnesio (Mg), yodo (Y). Estos elementos químicos se agrupan para formar unidades estructurales (monómeros) llamados aminoácidos (aa), a los cuales se consideran como los "ladrillos de los edificios moleculares proteicos". Estos edificios macromoleculares se construyen y desmoronan con gran facilidad dentro de las células, y a ello debe precisamente la materia viva su capacidad de crecimiento, reparación y regulación. Se clasifican, de forma general, en Holo proteínas y Heteroproteínas según estén formadas, respectivamente, sólo por aminoácidos o bien por aminoácidos más otras moléculas o elementos adicionales no aminoacídicos.

La organización de una proteína viene definida por cuatro niveles estructurales denominados: estructura primaria, estructura secundaria, estructura terciaria y estructura cuaternaria. Cada una de estas estructuras informa de la disposición de la anterior en el espacio.

a) Estructura Primaria. Una cadena polipeptídica consiste en una cadena lineal de aminoácidos unidos por enlaces peptídicos. El primer puesto de la cadena corresponde al grupo amino terminal, y la estructura primaria es la secuencia en la que están situados todos los constituyentes hasta llegar al carboxilo terminal está codificada genéticamente.

b) Estructura Secundaria. La estructura secundaria es la forma en la que la cadena poli peptídica se pliega en el espacio. En una proteína, cada tramo de cadena polipeptídica tiene distinta estructura secundaria. Existen varias formas definidas de estructura secundaria, las más importantes de las cuales son las llamadas hélice a y hoja plegada b. Las estructuras secundarias definidas están mantenidas por puentes de hidrógeno formados exclusivamente entre los grupos amino y carboxilo que constituyen el esqueleto de la cadena polipeptídica. Consecuentemente, los parámetros estructurales (distancias, ángulos) serán iguales, independientemente de la proteína y de los aminoácidos que formen la estructura.

c) Estructura Terciaria. La estructura terciaria de la proteína es la forma en la que se organizan en el espacio los diferentes tramos de la cadena polipeptídica, que pueden tener una estructura secundaria definida, como las hélices u hojas o no tenerla. La estructura terciaria está mantenida por enlaces iónicos y de puentes de hidrógeno entre las cadenas laterales de los aminoácidos, enlaces hidrofóbicos y eventualmente puentes disulfuro.

d) Estructura Cuaternaria. La estructura cuaternaria de una proteína es la forma en la que se asocian las distintas subunidades constituyentes, si es que existen. Es decir, para poder hablar de estructura cuaternaria es necesario que la proteína esté formada por varias subunidades. Como ejemplos de proteínas con estructura cuaternaria se puede considerar la hemoglobina, las inmunoglobulinas o la miosina.

32

Page 29: Capitulo i Introducción a La Bioinformatica

4. Protein Data Bank

El Protein Data Bank es un repositorio de descripciones experimentales de las estructuras moleculares de proteínas y ácidos nucleicos resueltos hasta el momento. Cada descripción es un archivo de texto que contiene las coordenadas atómicas de la molécula en cuestión en un formato que se llama PDB.

Crecimiento Cuando se fundó, el PDB contenía tan sólo 7 estructuras de proteínas. Desde entonces ha experimentado un crecimiento aproximadamente exponencial en el número de estructuras y nada parece indicar que el ritmo vaya a decaer.

El ritmo de crecimiento del PDB ha sido analizado en profundidad en diversos estudios.

5. Folding de Proteínas Las proteínas para llevar a cabo sus funciones deben alcanzar una forma determinada, conocida como “Pliegue”, en otras palabras, antes de realizar su trabajo tienen que ensamblarse a sí mismas. Este proceso de auto ensamblaje se le llama “Plegamiento”. Las proteínas plegadas incorrectamente por lo general carecen de actividad biológica, pero en algunos casos pueden estar asociadas con enfermedades. Para esto las células tienen sistemas que reducen las posibilidades de que las proteínas estén mal plegadas, además cualquier proteína de este tipo son degradados por grupos celulares especializados del sistema de eliminación.

5.1 Proceso De Folding La explicación de la eficiencia de la célula en la promoción de plegamiento de las proteínas probablemente se encuentra en los chaperones, la cual es una clase de proteína que se encuentra en todos los organismos desde las bacterias hasta en los seres humanos. Los chaperones están localizados en cada compartimiento celular, unidos a una gran variedad de proteínas, y la función de la chaperona en general es el mecanismo de plegamiento de las proteínas en las células. Existen dos tipos de Chaperonas:

Chaperonas Moleculares: Se unen para estabilizar las proteínas desplegadas o parcialmente doblados, impidiendo así que estas proteínas se agreguen y se degraden. Chaperoninas: Facilitan directamente el plegamiento de las proteínas.

5.1.1 Chaperonas Moleculares De particular importancia son las chaperonas presentes en todos los tipos de células y en los compartimentos celulares. Algunas chaperonas interactúan con las cadenas recién formadas que emergen de los ribosomas. En tanto que otras guían en las etapas posteriores del plegado.

33

Page 30: Capitulo i Introducción a La Bioinformatica

5.1.2 Chaperoninas Las chaperoninas utilizan su estructura para ayudar en el plegamiento de muchas proteínas mediante un mecanismo muy general pero poco eficiente, que se basa en el aislamiento de la proteína a plegar. En los organismos eucariotas esta arquitectura ha generado la chaperonina CCT, que pliega eficientemente un reducido número de proteínas.

6. Alineamiento de Estructuras Un alineamiento estructural es un tipo de alineamiento de secuencias basado en la comparación de la forma. Estos alineamientos intentan establecer equivalencias entre dos o más estructuras de polímeros basándose en su forma y conformación tridimensional. El proceso se aplica normalmente a las estructuras terciarias de las proteínas, pero también puede usarse para largas moléculas de ARN. En contraste a la simple superposición estructural, donde al menos se conocen algunos residuos equivalentes de las dos estructuras, el alineamiento estructural no requiere un conocimiento previo de posiciones equivalentes. Es una valiosa herramienta para la comparación de proteínas con baja similitud entre sus secuencias, en donde las relaciones evolutivas entre proteínas no pueden ser fácilmente detectadas por técnicas estándares de alineamiento de secuencias. El alineamiento estructural puede usarse, por lo tanto, para sugerir relaciones evolutivas entre proteínas que comparten una secuencia común muy corta. Sin embargo, el uso de los resultados como evidencia de un ancestro evolutivo común debe realizarse con cautela dados los posibles efectos de confusión con la evolución convergente, según la cual múltiples secuencias de aminoácidos sin relación filogenética entre si convergen a una misma estructura terciaria."

34

Page 31: Capitulo i Introducción a La Bioinformatica

CONCLUSIÓN

Se realizó una recopilación de conceptos y un repaso por las bases de la bioinformática, así como las ciencias que la componen para afianzar nuestro propio concepto con respecto al tema.

Algunos de los conceptos de la bioquímica aplicada a la bioinformática dieron más ideas y compresión acerca de las bases de datos que se pueden crear para el desarrollo y avance en cuanto al conocimiento de la información de los organismos en general.

35

Page 32: Capitulo i Introducción a La Bioinformatica

BIBLIOGRAFÍA.

Apuntes de Clase de Bioinformática. Ingeniería Telemática. Docente Marco Regalia. Universidad Distrital Francisco José de Caldas. 2011

http://www.aulaclic.es/sqlserver/b_1_1_4.htm

http://www.monografias.com/trabajos5/norbad/norbad.shtml#ixzz3l0CPoRmD

https://adnestructurayfunciones.wordpress.com/2008/08/15/adn/

http://biology.kenyon.edu/courses/biol63/watson_06.pdf

http://www.news-medical.net/health/RNA-Structure-(Spanish).aspx

http://tecnologica.udistrital.edu.co/moodle/course/view.php?id=36

http://www.um.es/molecula/anucl03.htm

http://scielo.sld.cu/scielo.php?pid=S1024-94352004000600002&script=sci_arttext

36