la minería de datos en bioinformática dra. rocío romero zaliz m4m lab [email protected] dept....

La minería de datos en bioinformática

Dra. Rocío Romero Zaliz

M4M Lab

www.m4m.es

[email protected]

Dept. Ciencias de la Computación e Inteligencia Artificial,

Universidad de Granada

http://www.m4m.es/

Bioinformática

• Necesidad de herramientas para el manejo de grandes cantidades de datos

– Automatización de procesos– Herramientas de búsqueda en grandes bases de

datos– Búsqueda de información oculta en los repositorios– Herramientas de predicción y simulación

Automatización de procesos• Open Bioinformatics Foundation• Open Source• Ayuda a la programación open source en

bioinformática:– Servidores– CVS– Reuniones y conferencias

Open Bioinformatics Foundation

• BioPerl (http://www.bioperl.org)

• BioPython (http://www.biopython.org)

• BioJava (http://www.biojava.org)

• BioSQL (http://www.biosql.org)

• Etc… (http://www.open-bio.org)

Búsqueda de información oculta en repositorios de datos• Inteligencia Artificial (AI)• Minería de Datos (DM)• Minería de Textos (TM)• Descubrimiento de

información (KD)• Aprendizaje Automático (ML)

Inteligencia Artificial

• Automatizar tareas que requieran un comportamiento inteligente:– Control– Planificación y organización– Escritura manual– Lenguaje natural– Reconocimiento del habla– Reconocimiento de caras

Aprendizaje automático

• Desarrollo de técnicas y algoritmos que permitan a los ordenadores “aprender”– Teoría de juegos– Análisis de mercados– Detección de fraudes en

tarjetas de crédito– Motores de búsqueda– Bioinformática

Aprendizaje automático

• Aprendizaje supervisado• Aprendizaje no supervisado• Aprendizaje semi-supervisado• Aprendizaje por refuerzo

Minería de datos

• “Proceso de búsqueda de patrones automático en grandes volúmenes de datos”

• Clasificación• Reglas de asociación• Agrupamiento de datos• Estadística

Minería de textos

• Text data mining– “proceso de adquirir

información de calidad a partir de un texto”

• Objetivos– Categorización de texto– Agrupamiento de textos– Extracción de conceptos– Sumarización de

documentos

Agrupamiento de datos

Agrupamiento de datos

• El agrupamiento de datos o data clustering consiste en la clasificación de objetos similares en diferentes grupos.

• Más precisamente, consiste en particionar un conjunto de datos en subconjuntos o clusters de tal manera que estos tengan “algo en común”. – Proximidad– Similitud

• Aprendizaje no supervisado

Tipos de clustering

• Particionales

• Jerárquicos– Aglomerativos– Divisibles

Clustering particional

Clustering jerárquico

Aglomerativo Divisible

Objetivo

• Minimizar la distancia intracluster

• Maximizar la distancia entre clusters

Propiedades de los clusters

• Numéricos vs. Categóricos


• Disjuntos vs. No disjuntos


• Completos vs. Incompletos

Formas de los clusters

K-means

• Particional

• Distancia euclídea

• Necesita el valor de k (#clusters)

• Búsqueda de prototipos

• Sensible a outliers

K-means

• Ubicar k (2) puntos en el espacio representado por los objetos a ser agrupados. Estos k puntos son los centroides iniciales de cada grupo

K-means

• Asignar cada objeto al grupo que esté más cercano a su centroide

K-means

• Recalcular la posición de los k centroides

• Repetir pasos 2 y 3 hasta que los prototipos ya no varíen

K-means

De esta manera se minimiza la distancia intracluster según la metrica dada

K-means

http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html

http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html

Single-linkage

• Jerárquico

• Aglomerativo

• Si hay un error en algún paso no se puede volver atrás …

Single-linkage

• Dado un conjunto de N (5) elementos a ser agrupado y una matriz de distancia (o similitud) de N x N:

d 1 2 3 4 5

1 0 5 6 10 13

2 5 0 1 5 8

3 6 1 0 4 7

4 10 5 4 0 3

5 13 8 7 3 0

Single-linkage

• Comenzar por asignar cada item a un cluster.• Tenemos 5 clusters• Sean las distancias entre los clusters las mismas que

entre los elementos de cada cluster

d 1 2 3 4 5

1 0 5 6 10 13

2 5 0 1 5 8

3 6 1 0 4 7

4 10 5 4 0 3

5 13 8 7 3 0

Single-linkage

• Encontrar el par más cercano de clusters y unirlo en un único cluster.

• Tenemos 4 clusters

d 1 2 3 4 5

1 0 5 6 10 13

2 5 0 1 5 8

3 6 1 0 4 7

4 10 5 4 0 3

5 13 8 7 3 0

Single-linkage

• Calcular las distancias entre el nuevo cluster y los viejos clusters

d 1 2-3 4 5

1 0 5,5 10 13

2-3 5,5 0 4,5 8,5

4 10 4,5 0 3

5 13 8,5 3 0

d 1 2 3 4 5

1 0 5 6 10 13

2 5 0 1 5 8

3 6 1 0 4 7

4 10 5 4 0 3

5 13 8 7 3 0

Single-linkage

• Repetir los pasos 2 y 3 hasta que todos los elementos se encuentren en el mismo cluster de tamaño N

Single-linkage

Microarrays

Microarray

Fabricación

Fuentes de errores técnicos• Variación entre spots replicados en el mismo

slide.• Variación entre spots replicados en distintos

slides.• Variación introducida por rayones o polvo.• Variación introducida por eliminación del

background.• Variación introducida a tomar las muestras de

tejidos. • Variación introducida por la extracción del RNA.

Fuentes de errores sistemáticos

• Por utilizando dyes diferentes.• Por problemas en el print tip.

Dye swap

• Solo para el caso de microarrays de dos canales.• Hay un sesgo al hibridar con un dye o con otro.• Se hace todo por duplicado:

– Array 1: A vs. B– Array 2: B vs. A

• Luego se promedio los valores obtenidos y se normalizan.

Diseño de experimentos

• ¿Cuántas replicas biológicas son necesarias?• ¿Cuántas réplicas técnicas son necesarias?

• Balance entre costo, equipamiento, precisión, etc.• Es necesario mantener las condiciones de entorno

para los diferentes microarrays para evitar introducir sesgos.

• Es necesario mantener una cantidad suficiente de referencia común entre los distintos experimentos.

Referencia universal

Análisis de la imagen

• Balance de color.

• Fondo.

• Polvo y rayaduras.

BIEN MAL

Malas imágenes

Detección de spots

SRG Fixed Circle

Normalización

• ¿Por qué?– Para corregir las diferencias entre muestras en el

mismo microarray o entre diferentes microarrays que no corresponden a variaciones biológicas.

• ¿Como sabemos si es necesario?– Examinado spots de control, donde se sabe que no

hay expresión diferenciada.

Expresión diferenciada

• Intentamos detectar genes que son diferencialmente regulados entre tratamiento y control.

• Algunos estudios intentan además identificar un grupo de genes que funcionan en forma conjunta.

• Los microarray son en realidad un guía para futuros estudios más precisos, como ser RT-PCR.

Expresión diferenciada

• El análisis es heurístico.

• Proveer una lista ordenada de candidatos a futuros estudios.

Test de hipótesis

• ¿Hay una diferencia significativa entre las dos distribuciones?

Agrupamiento de datosbasado en Ontologías

Aplicación: respuesta inflamatoria

• Respuesta inflamatoria de seres humanos al aplicarles una endotoxina en forma intravenosa, en comparacion con un grupo de control al cual se le inyecta un placebo

• Sangre de los ocho pacientes tratados, cuatro con la endotoxina (pacientes 1-4) y cuatro con el placebo (pacientes 5-8)

• Datos extraídos en diferentes instantes de tiempo, a 0, 2, 4, 6, 9 y 24 horas, y se han procesado utilizando GeneChips ® y HG-U133A v2.0 de Aymetrix Inc ®

Microarrays

Ontologías• El término ontología hace referencia al intento de

formular un exhaustivo y riguroso esquema conceptual dentro de un dominio dado.

• Definición de entidades relevantes y sus relaciones dentro del dominio.

• Finalidad de facilitar la comunicación y la compartición de la información entre diferentes sistemas.

Ontologías• Open Biomedical Ontologies

• Vocabularios controlados bien estructurados

• Para uso compartido entre diferentes dominios médicos y biológicos

Gene Ontology• Ontología de genes

• PB – FM – CC

• Relaciones “es_un” y “es_parte_de”

• Grafo dirigido acíclico

Gene Ontology (GO)• El proyecto de Gene Ontology (GO) busca crear

descripciones consistentes de productos de genes provenientes de diferentes bases de datos

• Se han desarrollado 3 ontologías (vocabularios controlados y estructurados):– Procesos biológicos– Funciones moleculares– Componentes celulares

• El uso de términos GO en diferentes bases de datos uniformiza las búsquedas en ellas

• Diferentes niveles

Gene Ontology (GO)

• 3 ontologías• 2 clases de relaciones

Gene Ontology (GO)

• Biological Process– GO:0006446

• Molecular Function– GO:0003723– GO:0003742

• Cellular Component– GO:0016281

Gene Ontology (GO)

• Diferentes relaciones• Un nodo puede tener

más de un padre• Diferentes niveles de

especificidad• Un nodo puede

encontrares en diferentes niveles al mismo tiempo

Clustering Conceptual

EMO-CC

• Clustering Conceptual• Algoritmos Evolutivos MultiObjetivo

• Aplicaciones:– Análisis de microarrays– Redes regulatorias– Moléculas

EMO-CC: Aprendizaje

EMO-CC: Objetivos

• Sensitividad

• Especificidad

EMO-CC: Aprendizaje

EMO-CC: Modelos

EMO-CC: Predicción

Web server http://gps-tools2.wustl.edu/onto-cc/

http://gps-tools2.wustl.edu/onto-cc/

Web server

Preguntas…

http://www.m4m.es

la minería de datos en bioinformática dra. rocío romero zaliz m4m lab [email protected] dept....

Documents