la minería de datos en bioinformática dra. rocío romero zaliz m4m lab [email protected] dept....

69
La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab www.m4m.es [email protected] Dept. Ciencias de la Computación e Inteligencia Artificial, Universidad de Granada

Upload: heriberto-solorzano

Post on 02-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

La minería de datos en bioinformática

Dra. Rocío Romero Zaliz

M4M Lab

www.m4m.es

[email protected]

Dept. Ciencias de la Computación e Inteligencia Artificial,

Universidad de Granada

Page 2: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Bioinformática

• Necesidad de herramientas para el manejo de grandes cantidades de datos

– Automatización de procesos– Herramientas de búsqueda en grandes bases de

datos– Búsqueda de información oculta en los repositorios– Herramientas de predicción y simulación

Page 3: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Automatización de procesos• Open Bioinformatics Foundation• Open Source• Ayuda a la programación open source en

bioinformática:– Servidores– CVS– Reuniones y conferencias

Page 4: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Open Bioinformatics Foundation

• BioPerl (http://www.bioperl.org)

• BioPython (http://www.biopython.org)

• BioJava (http://www.biojava.org)

• BioSQL (http://www.biosql.org)

• Etc… (http://www.open-bio.org)

Page 5: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Búsqueda de información oculta en repositorios de datos• Inteligencia Artificial (AI)• Minería de Datos (DM)• Minería de Textos (TM)• Descubrimiento de

información (KD)• Aprendizaje Automático (ML)

Page 6: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Inteligencia Artificial

• Automatizar tareas que requieran un comportamiento inteligente:– Control– Planificación y organización– Escritura manual– Lenguaje natural– Reconocimiento del habla– Reconocimiento de caras

Page 7: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Aprendizaje automático

• Desarrollo de técnicas y algoritmos que permitan a los ordenadores “aprender”– Teoría de juegos– Análisis de mercados– Detección de fraudes en

tarjetas de crédito– Motores de búsqueda– Bioinformática

Page 8: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Aprendizaje automático

• Aprendizaje supervisado• Aprendizaje no supervisado• Aprendizaje semi-supervisado• Aprendizaje por refuerzo

Page 9: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Minería de datos

• “Proceso de búsqueda de patrones automático en grandes volúmenes de datos”

• Clasificación• Reglas de asociación• Agrupamiento de datos• Estadística

Page 10: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Minería de textos

• Text data mining– “proceso de adquirir

información de calidad a partir de un texto”

• Objetivos– Categorización de texto– Agrupamiento de textos– Extracción de conceptos– Sumarización de

documentos

Page 11: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Agrupamiento de datos

Page 12: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Agrupamiento de datos

• El agrupamiento de datos o data clustering consiste en la clasificación de objetos similares en diferentes grupos.

• Más precisamente, consiste en particionar un conjunto de datos en subconjuntos o clusters de tal manera que estos tengan “algo en común”. – Proximidad– Similitud

• Aprendizaje no supervisado

Page 13: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Tipos de clustering

• Particionales

• Jerárquicos– Aglomerativos– Divisibles

Page 14: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Clustering particional

Page 15: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Clustering jerárquico

Aglomerativo Divisible

Page 16: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Objetivo

• Minimizar la distancia intracluster

• Maximizar la distancia entre clusters

Page 17: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Propiedades de los clusters

• Numéricos vs. Categóricos

Page 18: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Propiedades de los clusters

• Disjuntos vs. No disjuntos

Page 19: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Propiedades de los clusters

• Completos vs. Incompletos

Page 20: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Formas de los clusters

Page 21: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

K-means

• Particional

• Distancia euclídea

• Necesita el valor de k (#clusters)

• Búsqueda de prototipos

• Sensible a outliers

Page 22: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

K-means

• Ubicar k (2) puntos en el espacio representado por los objetos a ser agrupados. Estos k puntos son los centroides iniciales de cada grupo

Page 23: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

K-means

• Asignar cada objeto al grupo que esté más cercano a su centroide

Page 24: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

K-means

• Recalcular la posición de los k centroides

Page 25: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

• Repetir pasos 2 y 3 hasta que los prototipos ya no varíen

K-means

De esta manera se minimiza la distancia intracluster según la metrica dada

Page 26: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

K-means

http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html

Page 27: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Single-linkage

• Jerárquico

• Aglomerativo

• Si hay un error en algún paso no se puede volver atrás …

Page 28: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Single-linkage

• Dado un conjunto de N (5) elementos a ser agrupado y una matriz de distancia (o similitud) de N x N:

d 1 2 3 4 5

1 0 5 6 10 13

2 5 0 1 5 8

3 6 1 0 4 7

4 10 5 4 0 3

5 13 8 7 3 0

Page 29: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Single-linkage

• Comenzar por asignar cada item a un cluster.• Tenemos 5 clusters• Sean las distancias entre los clusters las mismas que

entre los elementos de cada cluster

d 1 2 3 4 5

1 0 5 6 10 13

2 5 0 1 5 8

3 6 1 0 4 7

4 10 5 4 0 3

5 13 8 7 3 0

Page 30: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Single-linkage

• Encontrar el par más cercano de clusters y unirlo en un único cluster.

• Tenemos 4 clusters

d 1 2 3 4 5

1 0 5 6 10 13

2 5 0 1 5 8

3 6 1 0 4 7

4 10 5 4 0 3

5 13 8 7 3 0

Page 31: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Single-linkage

• Calcular las distancias entre el nuevo cluster y los viejos clusters

d 1 2-3 4 5

1 0 5,5 10 13

2-3 5,5 0 4,5 8,5

4 10 4,5 0 3

5 13 8,5 3 0

d 1 2 3 4 5

1 0 5 6 10 13

2 5 0 1 5 8

3 6 1 0 4 7

4 10 5 4 0 3

5 13 8 7 3 0

Page 32: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Single-linkage

• Repetir los pasos 2 y 3 hasta que todos los elementos se encuentren en el mismo cluster de tamaño N

Page 33: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Single-linkage

Page 34: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Microarrays

Page 35: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Microarray

Page 36: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Fabricación

Page 37: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Fuentes de errores técnicos• Variación entre spots replicados en el mismo

slide.• Variación entre spots replicados en distintos

slides.• Variación introducida por rayones o polvo.• Variación introducida por eliminación del

background.• Variación introducida a tomar las muestras de

tejidos. • Variación introducida por la extracción del RNA.

Page 38: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Fuentes de errores sistemáticos

• Por utilizando dyes diferentes.• Por problemas en el print tip.

Page 39: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Dye swap

• Solo para el caso de microarrays de dos canales.• Hay un sesgo al hibridar con un dye o con otro.• Se hace todo por duplicado:

– Array 1: A vs. B– Array 2: B vs. A

• Luego se promedio los valores obtenidos y se normalizan.

Page 40: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Diseño de experimentos

• ¿Cuántas replicas biológicas son necesarias?• ¿Cuántas réplicas técnicas son necesarias?

• Balance entre costo, equipamiento, precisión, etc.• Es necesario mantener las condiciones de entorno

para los diferentes microarrays para evitar introducir sesgos.

• Es necesario mantener una cantidad suficiente de referencia común entre los distintos experimentos.

Page 41: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Referencia universal

Page 42: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Análisis de la imagen

• Balance de color.

• Fondo.

• Polvo y rayaduras.

BIEN MAL

Page 43: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Malas imágenes

Page 44: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Detección de spots

SRG Fixed Circle

Page 45: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Normalización

• ¿Por qué?– Para corregir las diferencias entre muestras en el

mismo microarray o entre diferentes microarrays que no corresponden a variaciones biológicas.

• ¿Como sabemos si es necesario?– Examinado spots de control, donde se sabe que no

hay expresión diferenciada.

Page 46: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Expresión diferenciada

• Intentamos detectar genes que son diferencialmente regulados entre tratamiento y control.

• Algunos estudios intentan además identificar un grupo de genes que funcionan en forma conjunta.

• Los microarray son en realidad un guía para futuros estudios más precisos, como ser RT-PCR.

Page 47: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Expresión diferenciada

• El análisis es heurístico.

• Proveer una lista ordenada de candidatos a futuros estudios.

Page 48: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Test de hipótesis

• ¿Hay una diferencia significativa entre las dos distribuciones?

Page 49: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Agrupamiento de datosbasado en Ontologías

Page 50: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Aplicación: respuesta inflamatoria

• Respuesta inflamatoria de seres humanos al aplicarles una endotoxina en forma intravenosa, en comparacion con un grupo de control al cual se le inyecta un placebo

• Sangre de los ocho pacientes tratados, cuatro con la endotoxina (pacientes 1-4) y cuatro con el placebo (pacientes 5-8)

• Datos extraídos en diferentes instantes de tiempo, a 0, 2, 4, 6, 9 y 24 horas, y se han procesado utilizando GeneChips ® y HG-U133A v2.0 de Aymetrix Inc ®

Page 51: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Microarrays

Page 52: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Ontologías• El término ontología hace referencia al intento de

formular un exhaustivo y riguroso esquema conceptual dentro de un dominio dado.

• Definición de entidades relevantes y sus relaciones dentro del dominio.

• Finalidad de facilitar la comunicación y la compartición de la información entre diferentes sistemas.

Page 53: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Ontologías• Open Biomedical Ontologies

• Vocabularios controlados bien estructurados

• Para uso compartido entre diferentes dominios médicos y biológicos

Page 54: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Gene Ontology• Ontología de genes

• PB – FM – CC

• Relaciones “es_un” y “es_parte_de”

• Grafo dirigido acíclico

Page 55: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Gene Ontology (GO)• El proyecto de Gene Ontology (GO) busca crear

descripciones consistentes de productos de genes provenientes de diferentes bases de datos

• Se han desarrollado 3 ontologías (vocabularios controlados y estructurados):– Procesos biológicos– Funciones moleculares– Componentes celulares

• El uso de términos GO en diferentes bases de datos uniformiza las búsquedas en ellas

• Diferentes niveles

Page 56: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Gene Ontology (GO)

• 3 ontologías• 2 clases de relaciones

Page 57: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Gene Ontology (GO)

• Biological Process– GO:0006446

• Molecular Function– GO:0003723– GO:0003742

• Cellular Component– GO:0016281

Page 58: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Gene Ontology (GO)

• Diferentes relaciones• Un nodo puede tener

más de un padre• Diferentes niveles de

especificidad• Un nodo puede

encontrares en diferentes niveles al mismo tiempo

Page 59: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Clustering Conceptual

Page 60: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

EMO-CC

• Clustering Conceptual• Algoritmos Evolutivos MultiObjetivo

• Aplicaciones:– Análisis de microarrays– Redes regulatorias– Moléculas

Page 61: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

EMO-CC: Aprendizaje

Page 62: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

EMO-CC: Objetivos

• Sensitividad

• Especificidad

Page 63: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

EMO-CC: Aprendizaje

Page 64: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

EMO-CC: Modelos

Page 65: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

EMO-CC: Predicción

Page 66: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Web server http://gps-tools2.wustl.edu/onto-cc/

Page 67: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Web server

Page 68: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Web server

Page 69: La minería de datos en bioinformática Dra. Rocío Romero Zaliz M4M Lab  rocio@decsai.ugr.es Dept. Ciencias de la Computación e Inteligencia Artificial,

Preguntas…

http://www.m4m.es