opción b b5:...

26
Biotecnología y bioinformática Opción B B5: Bioinformática Tema 9 de Biología NS Diploma BI Idea Fundamental: La bioinformática consiste en el uso de computadores para analizar secuencias de datos en investigaciones biológicas. IMAGEN: http://4.bp.blogspot.com

Upload: ngodiep

Post on 04-Oct-2018

224 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Biotecnología y bioinformáticaOpción B

B5: Bioinformática

Tema 9 de Biología NS

Diploma BI

Idea Fundamental: La bioinformáticaconsiste en el uso de computadorespara analizar secuencias de datos eninvestigaciones biológicas.

IMA

GE

N:

htt

p:/

/4.b

p.b

logsp

ot.

com

Page 2: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Bases de datos Una base de datos es una colección estructurada de información

almacenada en un ordenador, que puede incluir datos en un rango deformatos como imágenes, artículos, información cualitativa ocuantitativa.

Las bases de datos facilitan a los científicos un sencillo acceso ala información.

Alguna de las bases de datos usadas en bioinformática incluyen:

IMAGEN: www.webconsultas.com

- Secuencias denucleótidos (EMBL).

- Secuencias deproteínas (SwissProt).

- Estructura 3D deproteínas (PDB).

- Expresión génica dechips de ADN.

- Rutas metabólicas(KEGG).

Page 3: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Bases de datos En la actualidad es posible la comprobación de una hipótesis a partir de

las bases de datos, y no solo a partir de datos obtenidos directamentepor uno mismo.

Un investigador puede emplear una base de datos para:

IMAGEN: stellamariscollege.org

- Añadir lospropios datos queha obtenido paraque tengan accesoa ellos otrosinvestigadores.

- Extraer unsubconjunto dedatos.

- Hacer unabúsqueda deuna secuencia enconcreto.

Page 4: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Crecimiento de las bases de datos Los avances tecnológicos han provocado que el ritmo de creación y

publicación de datos está incrementando, de hecho, el cuerpo de losdatos almacenados en las bases de datos aumentaexponencialmente.

IMAGEN: ulacir.ac.cr

Los avances en la tecnologíade secuenciación genómica,chips de ADN, programas demodelización 3D y en lacapacidad de computación,han resultado en un númerode proyectos colaborativos deinvestigación a gran escalaque han culminado en estecrecimiento de los datosalmacenados en las bases dedatos.

Page 5: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

NATURALEZA CIENCIAS: Cooperación y

colaboración entre grupos científicos La mayoría de las bases de datos bioinformáticas son públicas y de libre

acceso a todos los investigadores. Frecuentemente, cuando se añadendatos a una base de datos, se sincronizan inmediatamente con otrasbases de datos.

Las bases de datos eninternet facilitan a loscientíficos el acceso libre ala información.

El acceso libre y lasincronización facilitan lacolaboración y el espíritu decooperación.

Sin embargo, hay quienpiensa que la comercializaciónde las bases de datosbioinformáticas es unaamenaza para este espíritu.

IMAGEN: ngeeks.com

Page 6: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

NATURALEZA CIENCIAS: Cooperación y

colaboración entre grupos científicos Algunos trabajadores de compañías privadas no facilitan el acceso libre a

sus datos, debido a la necesidad de obtener beneficios.

Así, algunas bases de datos que en el pasado eran de acceso libre, hansido adquiridas por compañías que han comenzado a cambiar el acceso ala información.

IMAGEN: senescense.info

Un ejemplo de ello son lasbases de datos de la levaduraSaccharomyce cereviciae ydel gusano Caenorhabditiselegans, dos de losorganismos modelo eucariotasmás usados. Esto generó grancontroversia, dado quecontenían datos de estudiospublicados y comunicacionespersonales.

Page 7: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

NATURALEZA CIENCIAS: Cooperación y

colaboración entre grupos científicos Otro ejemplo de esto puede encontrase en la revista científica Science,

que aún habiendo publicado la secuenciación del genoma humano por laempresa Celera en 2001, y del arroz por Syngenta en 2002, permitió queambas almacenaran dichas secuencias en sus servidores privados, enlugar de hacerlos públicos en GenBank, como se hacía hasta el momento.

IMAGEN: sciencemag.com

Esto además, está encontra de otro de losprincipios de lainvestigacióncientífica, que es quelos datos publicadosdeben ser de libreacceso para que lacomunidad científicapueda verificarlo.

Page 8: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Búsqueda de secuencias similares: BLAST Una vez que un investigador identifica por primera vez una secuencia de

interés, ya sea tras secuenciar un gen, identificar un marco abierto delectura o encontrar unos altos niveles de ARNm, el siguiente paso esrealizar una búsqueda con software BLAST para identificarsecuencias similares en organismos diferentes.

El acrónimo BLAST viene delinglés “Basic Local AlignmentSearch Tool”. Este programainformático lleva a cabo unalgoritmo matemático quepermite encontrar regiones desimilitud entre secuencias(nucleótidos o aminoácidos)alojadas en las bases de datos.

Page 9: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Búsqueda de secuencias similares: BLAST Una vez que un investigador

ha identificado un marcoabierto de lectura en unasecuencia de nucleótidos,puede realizar unabúsqueda con el softwareBLASTn, que permite unaalineación de secuenciasde nucleótidos en las basesde datos con objeto dedeterminar si existe dichoORF en otras especies.

Por otro lado, el softwareBLASTp permite unaalineación de proteínas.

El software tBLASTn permitelocalizar en el genoma el gende una determinada proteína.

Video1/2

Page 10: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Búsqueda de secuencias similares en la base de datos

Los investigadores puedenrealizar búsquedas en lasbases de datos paracomparar secuenciasrecién identificadas consecuencias que tienenfunciones conocidas enotros organismos.

Así, si se tiene una secuenciade nucleótidos, puederealizarse una búsquedaBLASTn con objeto dedeterminar su función a partirde su comparación conorganismos modelo consecuencias similares yfunción conocida.

Web1

Page 11: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Organismos modelo Un organismo modelo es una especie particular que ha sido

extensamente estudiada, al haberse asumido que los descubrimientosrealizados en este organismo modelo tendrán relevancia en otrosorganismos.

Algunos de estos organismos modelos másestudiados Mus musculus (ratón común),Drosophila melanogaster (mosca de la fruta),Caenorhabditis elegans (gusano), Arabidopsisthaliana (jaramago), Escherichia coli (bacteria)y Saccharomyces cerevisiae (levadura).

Page 12: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Organismos modelo El genoma de estos organismos ha sido secuenciado, y dado que a lo

largo de la diversidad de la vida existen rutas metabólicas y secuenciasgénicas conservadas, estos organismos se usan como modelos in vivo deenfermedades relacionadas con rutas conservadas o con mutaciones enestas secuencias conservadas.

La función de los genes puede estudiarse usando organismosmodelo con secuencias similares.

Se utilizan, por ejemplo, diferentes modelos para investigar losmecanismos moleculares del envejecimiento.

IMAGEN:aging-academic.blogspot.com.es

Page 13: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

APLICACIÓN: Uso de la tecnología de bloqueos de genes Un método para determinar la función de un gen, es mediante el uso de

la tecnología de bloqueo de genes (gene knockout) en ratones, unode los organismos modelo.

Este método implica:

Paso 1. Reemplazaren células madreembrionarias de unblastocisto de ratónla secuenciafuncional de undeterminado gen, poruna secuencia nofuncional del mismo.

IMAGEN: http://www.nobelprize.org

Page 14: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

APLICACIÓN: Uso de la tecnología de bloqueos de genesPaso 2. Inyectar las células embrionarias con la copia no funcional delgen en otro blastocisto, el cual contendrá una mezcla de célulasembrionarias con el gen funcional y con el gen no funcional. El blastocistoes implantado es un ratón, cuya progenie se denomina ratón quimera.

IMAGEN: leptinoblachno.blogspot.com.es/

El ratón quimera escruzado con unratón normal. Losheterocigotosobtenidos soncruzados hasta quese obtienen un ratónhomocigoto para elgen bloqueado.

Page 15: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

APLICACIÓN: Uso de la tecnología de bloqueos de genes

La pérdida de actividad del gen permitirá obtener un fenotipo observableen el ratón, lo que permitirá a los investigadores determinar la probablefunción del gen.

Mediante esta técnica seevidenció que la hormonaleptina juega un papel enla regulación de ladeposición de grasa y elmetabolismo energético.

IMAGEN: leptinoblachno.blogspot.com.es/Web2

IMAGEN: www.bio.miami.edu/dana/dox/knockout.html

Page 16: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Alineación de secuencias Las secuencias que son similares entre diferentes organismos, sugieren

una relación de tipo evolutivo. Cuanto mayor es esta similitud, másestrecha es la relación, es decir, menos tiempo hace que comparte unmismo ancestro común.

Existen softwares de alineación de secuencias que permitencomparar secuencias de distintos organismos.

Estos programas, como ClustalOmega o MUSCLE, se basan enalgoritmos e indican el grado designificación estadístico delmismo.

IMAGEN: personales.upv.es

IMAGEN: bioinfo

Page 17: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

HABILIDAD: Uso de software para alinear 2 proteínas El EMBL (European Molecular Biology Laboratory) posee muchas bases

de datos, así como herramientas de bioinformática online. Una de estasherramientas es Clustal Omega, un software informático que permiterealizar múltiples alineamientos de secuencias.

Buscar la secuencia de la proteína catalasa en el humano (homosapiens) y la patata (Solanum tuberosum) y alinearlas usando ClustalOmega.

Page 18: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

HABILIDAD: Uso de software para alinear 2 proteínas

Cuando la proteína es másgrande en una especie que enotra, en aquellos huecosdonde no hay aminoácidos enesa posición aparece un guión(-).

Los asteriscos indican aquellosaminoácidos conservados, esdecir, aquellos sitios dondeambas proteínas muestran elmismo aminoácido.

Cuando los aminoácidos sondiferentes pero parecidos enforma o en propiedadesaparecen (·) o (:),respectivamente.

Cuando los aminoácidos sondiferentes, aparece un hueco.

Page 19: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Alineación de secuncias múltiples La filogenia hace referencia a la

historia evolutiva de una especie ogrupo de especies.

Un árbol filogenético es un diagramaque describe la filogenia existenteentre un grupo de especies.

La alineación de secuenciasmúltiples se usa en estudios defilogenética.

Cuando se comparan múltiplessecuencias de aminoácidos onucleótidos, frecuentemente seidentifican secuencias consenso,es decir, secuencias comunes entodos los organismos.

Aquellas secuencias relacionadasevolutivamente, y que por tantopresenta una alta similitud, sedenominan secuencias homólogas. Video3

Page 20: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

HABILIDAD: Uso de software para elaborar

cladogramas y filogramas

Un cladograma es un diagrama usado en la cladística que esquematizala filogenia o historia evolutiva más probable de un grupo deorganismos.

Un cladograma muestra un patrón de ramificación donde la longitud desus ramas no representa tiempo o la cantidas relativa de cambios quehan ocurrido a lo largo de la rama.

Un filograma es un árbolfilogenético donde la longitud decada rama es proporcional a lacantidad de cambios producidos.

Filograma

Cladograma

Video4

Page 21: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

HABILIDAD: Uso de software para elaborar

cladogramas y filogramas

Existen softwares gratuitos online, como Clustal Omega, que permiten laelaboración de cladogramas y filogramas.

Para la elaboración de un cladograma, se llevan a caso los siguientespasos:

Video4

1. Se alinean las secuencias deuna misma proteína endiferentes especies conobjeto de cuantificar lasdiferencias y semejanzas.

2. Se utilizan algoritmosmatemáticos, como el demínimos cuadrados, máximaparsimonia o máximaverosimilitud, para generar elcladograma, seleccionando elmejor modelo.

Page 22: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Marcadores de secuencia expresada (EST)

Cuando un gen se expresa,el ARNm transcrito seencontrará en la célula.Este ARNm puede usarsepara buscar el gen a partirdel que se produjo, usandola técnica de marcación desecuencia expresada(EST). Un EST es unmarcador de secuenciaexpresada que se puedeusar para identificargenes potenciales.

A partir del ARNm loscientíficos producen unADNc mediante latranscriptasa inversa,usando este ADNc parasintetizar un EST.

IMAGEN: https://lookfordiagnosis.com

Page 23: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Los EST son pequeñassecuencias de ADN de 200-500 nucleótidos generadas apartir de los extremos 3’ y 5’del ADNc.

Los extremos 5’ poseen unasecuencia conservada a lolargo de las especies y dentrode una misma familia génica.

Sin embargo, en el extremo 3’es más probable encontraruna secuencia única del gen.

La localización de un gen enel genoma puede localizarse através de técnicas de mapeofísico o mediante la búsquedaen bases de datos de EST.

Marcadores de secuencia expresada (EST)

IMAGEN: bib.oxfordjournals.org

Page 24: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Debido a la utilidad y la facilidad con la que son generados, se hangenerado un gran número de EST.

Las secuencias son depositadas en una base de datos denominadadbEST, que contiene EST de más de 300 organismos. Por tanto,pueden descubrirse genes mediante prospección de datos EST.

APLICACIÓN: Descubrimiento de genes mediante EST

Una vez que tienen unEST, los científicospueden realizar unBLAST para determinarsi su secuenciacoincide la secuenciade ADN de un genconocido y de funciónidentificada.

IMAGEN: bib.oxfordjournals.org

Web3

Page 25: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

El proyecto Ensembl recopila información genómica de 75 organismos,permitiendo una exploración detallada de secuencias codificantes y nocodificantes de cada cromosoma de estas especies.

El cromosoma 21 es el cromosoma humano más pequeño y tal vez elmás conocido, debido al síndrome de Down o trisomía del par 21, ypuede explorarse mediante esta base de datos.

HABILIDAD: Exploración del cromosoma 21

Web4

IMAGEN: www.ensembl.org/index.html

Page 26: Opción B B5: Bioinformáticadpbiologia.weebly.com/uploads/2/1/5/5/21553524/gtp_t9.biotecnolog... · sus datos, debido a la necesidad de obtener beneficios. Así, algunas bases de

Como puede observarse, el brazo p del cromosoma 21 es más corto queel brazo q, por lo que este cromosoma con dos brazos de diferentelongitud se clasifica como submetacéntrico.

HABILIDAD: Exploración del cromosoma 21

Como es lógico, el brazop contiene menos genesal ser de menor longitudque el brazo q.

Este cromosoma poseemás genes que nocodifican a proteínas quegenes que sí codifican aproteína.

IMAGEN: www.ensembl.org/index.html