1 biología computacional / bioinformática laboratorio introducción / bases de datos

38
1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos.

Upload: jenaro-prudencio

Post on 09-Feb-2015

25 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Biología Computacional / Bioinformática

LaboratorioIntroducción / Bases de Datos.

Page 2: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

¿Qué es la Bioinformática?

La bioinformática es el campo de la ciencia en donde la biología, la ciencia de la

computación, y la tecnología de información se funden en una disciplina.

El objetivo principal es el descubrimiento de nuevos indicios biológicos, como también

crear una perspectiva global de la cual poder unificar principios de la biología.

(NCBI Education)

Page 3: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Subdisciplinas

■ Desarrollo de nuevos algoritmos que permitan determinar relaciones en muestras de gran tamaño.

■ Análisis e interpretación de varios tipos de datos, incluyendo secuencias de nucleótidos y aminoácidos, dominio de proteínas, y estructuras de proteínas.

■ Desarrollo e implementación de herramientas para permitir un acceso eficiente a la información.

Page 4: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Herramientas.

Problema Biológico■ Secuenciación.■ Captura de genes.■ Localización

subcelular de proteínas.

■ Comparación de proteínas.

Solución Computacional■ Base de datos.■ Planillas de cálculo.■ Alineamiento.■ Reconocimiento de

patrones.■ Datamining.■ Especializadas.

Page 5: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Bases de datos

Page 6: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

¿Qué es una base de datos?

Una Base de Datos es un conjunto de datos relacionados y almacenados para un

proposito particular con una estructura lógica.

Base de Datos = Estructura + Datos.

Page 7: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Ejemplo: Un biblioteca.

Page 8: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

¿Cómo se organizan los datos?

La organización depende de las consultas que se piensan realizar sobre

la base de datos.De las consultas se concluye los conjuntos, relaciones y lógicas que

existen entre los datos.

Page 9: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Ejemplo: Biblioteca II

AUTOR Lista de Autores

TÍTULO Lista de Títulos

TEMA Temas x Estantes

Consulta...

Page 10: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

¿Cómo mantener una base de datos?

El motor de base de datos es el software encargado de mantener consistencia en los datos y responder las consultas a realizar.

El software debe tener las siguientes herramientas para ser declarado como un motor de base de datos:

■ Lenguaje de Definición de Estructura.■ Lenguaje de Modificación de Datos.■ Lenguaje de Consultas.

Page 11: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Ejemplo: Biblioteca III

El Bibliotecario...

Page 12: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

¿Cómo se crea una base de datos?

La creación de la base de datos excede los objetivos de la materia, pero se darán las pautas

más importantes para su creación.

■ Consultas y operaciones:– ¿Qué voy a consultar? ¿Qué necesito almacenar?

■ El diseño debe ser formal, no debe haber ambigüedades.– Existen lenguajes gráficos que ayudan al diseño.

■ ¡Un mal diseño puede complicar la consistencia de los datos! Aún siendo formal...

■ ¡Tiempo!

Page 13: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Operaciones

■ Las operaciones básicas en una base de datos son la consulta, la inserción, modificación y eliminación de datos.

■ Quienes realizan estas operaciones son los usuarios. Los usuarios no solo son personas sino también procesos o sistemas externos.

■ Existen dos clases de bases de datos según sus operaciones más comunes: operacionales y analíticas.

Page 14: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Base de Datos por Consulta

■ Base de datos operacionales.– Continua inserción de datos.– Los datos provienen de un proceso automático o

repetitivo, pueden traer error.– Los datos están actualizados.– Objetivo: Almacenar datos.

■ Bases de datos analíticas– Optimizada para consultas.– Los datos están confirmados.– Los datos no están actualizados.– Objetivo: Buscar información.

Page 15: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Diseño formal

Los motores de base de datos necesitan formalidad para crear las estructuras físicas necesarias para mantener la base de datos.

Las herramientas que se usan para simplificar el diseño son los lenguajes

gráficos formales como UML y ER.

Page 16: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Diagramas ER y UML

Page 17: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

¿Algo más?

El diseño esta relacionado al motor de base de datos. Las bases de datos fueron

evolucionando durante los últimos años dejando varios modelos que permiten

representar la organización de los datos, por supuesto, uno más restrictivo que otro.

Page 18: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Modelos de Base de datos.

■ Planas: No se verifica la consistencia de los datos. (¡No es una base de datos!)

■ Jerárquicas: Fichas, Jerarquía.■ Red: Registro, Campo, Conjunto, ■ Relacionales: Tablas, Registros, Atributos y

Relaciones.■ Objetos: Clases, Objetos y Mensajes.

Page 19: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Otras necesidades...

No solo de las operaciones depende el diseño. También de otros requerimientos y

funcionalidades.Muchas veces depende de los recursos que

se tienen.

Como consecuencia fue necesario clasificar las bases de datos según la distribución de

física de los datos.

Page 20: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Organización Física

■ Centralizada.– Existe un único repositorio responsable de los

datos.– La consulta se realiza sobre el repositorio.

■ Distribuida.– Existen varios respositorios responsables de los

datos.– La consulta se realiza en cualquiera de los

repositorios.– El usuario ve un único repositorio.– Existe un proceso de sincronización de los datos.

Page 21: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Organización Física

■ Mixta.– Existen varios repositorios responsables de los

datos.– La consulta se realiza en el repositorio adecuado.– La interconexión entre los repositorios pueden ser

visible o invisible.– Existen procesos independientes a los

repositorios que realizan la sincronización.– La forma de distribución y almacenamiento de

datos es eterogenea.

Page 22: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

¿Qué se puede almacenar?

La pregunta correcta es...¿Qué queremos almacenar?

Page 23: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Datos Biológicos

■ Bibliografía.■ Nucleótidos.■ Proteínas.■ Genoma.■ Estructuras.■ Alineamientos.■ Organismos.■ Genes.

■ Resultados de Microarrays.

■ Mutaciones.■ Etc.

Page 24: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Características

■ Alta complejidad.■ Gran cantidad y variabilidad de la información.■ Múltiples origenes de la información.■ Múltiples interpretaciones.■ Consultas impredecibles.

Page 25: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Nueva Clasificación

Las bases de datos biológicas tienen características especiales que promovieron

una nueva clasificación para poder identificar la calidad de los datos

almacenados.

Page 26: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Clases de Bases de Datos Biológicas

■ x Confianza en los datos.– Curadas: Los datos están confirmados biológicamente.

Aún así esto no significa que puedan variar.– No curadas: Los datos no fueron confirmados. Son

obtenidos de procesos automáticos o son resultados parciales.

■ x Redundancia en los datos.– Redundantes: No se puede confirmar que los datos

existentes no se encuentran repetidos varias veces.– No redundantes: Los datos no están repetidos bajo un

criterio... y las ¿secuencias repetidas?

Page 27: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

El problema

■ Nadie conoce cual es la mejor implementación.■ No existe un estándar (¿SQL?).■ La actualización de los recursos es lenta con

respecto a la cantidad de datos.■ No todos los laboratorios tienen la misma calidad

de recursos.■ La consulta a los datos varia según el objeto de

estudio.■ Problemas políticos.

Page 28: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Solución actual

■ Especificar las bases de datos.■ Relacionar las bases de datos a través de

Internet: Enlaces!■ Centralizar en grandes centros de bioinformática

con recursos suficientes.■ Permitir acceso a los grandes centros vía Internet.■ Mantenimiento de los datos a través de sistemas

de versiones.

Page 29: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Ejemplo: Bases de Datos Biológicas

Entrez+ ¡De todo!- Pero separado...¿Por donde empezar?

Entrez+ ¡De todo!- Pero separado...¿Por donde empezar?

ExPASy+ Confiable.- Todo separado.- Pocos datos.

ExPASy+ Confiable.- Todo separado.- Pocos datos.

AceDB+ ¡De todo!- Especializado a un genoma.

AceDB+ ¡De todo!- Especializado a un genoma.

GenBank+ Todas las secuencias.- No es confiable.

GenBank+ Todas las secuencias.- No es confiable.

Operacional

AnalíticaAnalíti

ca

y

Operacional

Analítica

Page 30: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Nuevos problemas.

■ Una consulta seria implica 'navegar' por varias bases de datos diferentes.

■ Los resultados no siempre son satisfactorios.■ Las herramientas están especializadas a las

distintas bases de datos.■ Es muy fácil marearse...■ ¿Dónde empezar la consulta?■ ¿Qué tan confiable es lo encontrado?

Page 31: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Se necesitan una solución

■ Las soluciones tienen que ser integradoras y accesibles, de bajo costo y políticamente aceptable.

■ Los grandes centros de bioinformática quieren imponer su solución integradora, siendo la mayoría gratuitas y multiplataformas. Esto limita la fusión de los datos acotando las consultas.

■ Es por ello que surgieron soluciones puntuales para integrar las herramientas existentes.

Page 32: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Solución I: Scripts

Los lenguajes de scripts permiten simplificar tareas automatizables y tediosas. Existen extensiones para procesos comunes para la Bioinformática.

■ Ventajas– Sencillos y rápidos de implementar.– Permiten intercomunicar base de datos.

■ Desventajas– Saber programación.

■ Ejemplos– BioPerl, BioPython, etc.

Page 33: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Solución II: XML

■ Lenguaje de representación y organización de datos.

■ Flexible.■ Fácil de interpretar y consultar.■ Cualquier sistema que entiende XML puede

interpretar los datos.■ Pensado para intercambiar datos por Internet.■ HTML es primo mayor de XML.

Page 34: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

¿El futuro?

La integración de los datos...

Page 35: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

BioGrid, posible solución?

■ Base de datos de objetos organizada jerárquicamente.

■ Información distribuida.■ Independencia en la administración.■ Lenguaje de consulta muy amplio.■ Tecnología de Directorios: 10 años de

experiencia.■ Automáticamente integrable con otras grillas

de información científica.

Page 36: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Problemas del proyecto BioGrid

■ Concepto nuevo en Bioinformática.– Ignorancia.– En fase de prueba.– Necesita implementar consultas específica de la

bioinformática.■ Debe ser aceptado políticamente.

– La solución es integradora... nadie se puede imponer.– La organización de los datos es diferente.– Las herramientas deben cambiar de conceptos.

Lo más parecido... AceDB.

Page 37: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

¿Preguntas?

Page 38: 1 Biología Computacional / Bioinformática Laboratorio Introducción / Bases de Datos

1

Fin de la presentación...

Ir a los fierros...