datamining y machine learning para ciencias biológicas

59
Minería de Datos y Aprendizaje Estadístico en Ciencias Biológicas Carlos Manuel Estévez-Bretón MSc., PhD(c) - 2015

Upload: carlos-manuel-estevez-breton-riveros

Post on 16-Jan-2017

519 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Datamining y Machine Learning para Ciencias Biológicas

Minería de Datos y Aprendizaje Estadístico en Ciencias Biológicas

Carlos Manuel Estévez-Bretón MSc., PhD(c) - 2015

Page 2: Datamining y Machine Learning para Ciencias Biológicas

Algo a cerca de miPhD(c) en el Lab de Sistemas

Inteligentes - UNAL.• Analizo funcionalmente el

metabolismo. • Propongo una analogía lingüística. • Aplico Sistemas inteligentes para

obtener información

Otros Proyectos:

Proponer desde la Biología de Sistemas moléculas para un nanosensor de MTB

Proteínas de secreción en helmintos

Sistema de Recomendación de fuentes de financiamiento científico

Page 3: Datamining y Machine Learning para Ciencias Biológicas

Modelamiento Estadístico Dos Culturas

Statistical Science 2001, Vol. 16, No. 3, 199–231

Page 4: Datamining y Machine Learning para Ciencias Biológicas

• Una asume que los datos son generados por un modelo estocástico de datos.

• La otra usa modelos algorítmicos y trata los mecanismos de datos como desconocidos

Modelamiento Estadístico Dos Culturas

Page 5: Datamining y Machine Learning para Ciencias Biológicas

La estadística y los datos

naturaleza xy

Los datos se generan en una «caja negra»

X es un vector de variables de entrada

(independientes)y son las variables de respuesta

Dentro de la caja negra la naturaleza funciona asociando las variables del «predictor» con las de «respuesta»

Page 6: Datamining y Machine Learning para Ciencias Biológicas

La estadística y los datos

naturaleza xyDos objetivos en el análisis de datos:

Predicción: Ser capaz de predecir que respuestas van a ver de acuerdo a las variables de entrada futuras

Información: Extraer algo de cómo la naturaleza asocia variables de respuesta a las de entrada.

Page 7: Datamining y Machine Learning para Ciencias Biológicas

Cultura del Modelamiento de Datosnaturaleza xy

Inicia asumiendo un modelo estocástico de datos para el interior de la caja negra

Ej. : Un modelo comúnmente usado es que los datos son generados por «sorteos» independientes

variables de respuesta = f ( variables del predictor, ruido aleatorio, parámetros)

Page 8: Datamining y Machine Learning para Ciencias Biológicas

Cultura del Modelamiento de Datosregresión lineal

regresión logistica Cox

xy

El valor de los parámetros son estimados a partir de datos y entonces el modelo es usado para información y/o predicción.

Validación del modelo

Si o No, usando pruebas de bondad de ajuste y examen de residuales.

Estimación de la población. 98% de todos los estadísticos

Page 9: Datamining y Machine Learning para Ciencias Biológicas

Cultura del Modelamiento Algorítmico

El análisis considera el interior de la caja complejo y desconocido.

La aproximación es la de encontrar una función f(x), que es un algoritmo que opera en x para predecir y.

desconocido xy• árboles de decisión • redes neurales • …

Page 10: Datamining y Machine Learning para Ciencias Biológicas

Cultura del Modelamiento Algorítmico

desconocido xy• árboles de decisión • redes neurales • …

Validación del modelo.Medido por la precisión de predicción.

Estimación de la población. 2% de los estadísticos, muchos de otras áreas del conocimiento.

Page 11: Datamining y Machine Learning para Ciencias Biológicas

Relación entre las Ciencias

Page 12: Datamining y Machine Learning para Ciencias Biológicas

Relación entre las Ciencias

http://today.slac.stanford.edu/images/2009/colloquium-web-collide.jpg

La relación esta dada por la transversalidad de las Tecnologías de la Información y la Comunicación

Page 13: Datamining y Machine Learning para Ciencias Biológicas

Interdisciplinariedad

Modificado de :http://www.slideshare.net/AdrianCuyugan/text-mining-association-rules-and-decision-tree-learning-48455111

Bibliotecología

Matemáticas

Procesamiento de Lenguaje

Natural Minería de Datos

Aprendizaje Automatizado

(Machine Learning)

Minería de Texto

EstadísticaIA

Administración de Bases de Datos

Ciencias de la Computación

Page 14: Datamining y Machine Learning para Ciencias Biológicas

Aprendizaje Automático

MLMinería de

Datos

Conocimiento Curado

Sistemas Inteligentes(IA)

Ciencias de la Computación

Big

Dat

a

Modificado de: https://inovancetech.com/buzzwords.html

Sistemas Inteligentes (AI): son un subcampo de las Ciencias Computacionales (CC).

Aprendizaje Automatizado (ML): Método para desarrollar algoritmos para reconocer patrones dentro de los datos..

Minería de Datos (DM): Es una Comprende la totalidad del proceso de descubrimiento de información, preparación datos y limpieza de datos, análisis, postprocesamiento y visualización de resultados.

Usa técnicas desarrolladas en ML y estadística

Page 15: Datamining y Machine Learning para Ciencias Biológicas

Subcategorías de DM

RegresiónAprendizaje

por reglas de asociación

Detecciónde

Anomalías

Clasificación

Agrupamiento«Summarization»

Existen diferentes métodos y algoritmos para cada Categoría. Ej:

Clasificación: SVM, ANN, CTrees, CN.2, RandomForest, KNN, NaiveBayes, Regresión Logística

Regresión: SVM, Lineal, KNN, PADE, PLS, Media.

Agrupamiento: Jerárquico, Grafos de Interacción, MDS, SOM, K-Means, Mapas de Distancias.

Page 16: Datamining y Machine Learning para Ciencias Biológicas

Aprendizaje por reglas de Asociación

Page 17: Datamining y Machine Learning para Ciencias Biológicas

Aprendizaje por reglas de Asociación

SOMReducción de

Dimencionalidad

AgrupamientoReglas de AsociaciónModelamiento

Estadístico

Recomendadores

Métodos de Kernel

Aprendizaje Supervisado

Aprendizaje NO Supervisado

Page 18: Datamining y Machine Learning para Ciencias Biológicas

Supervisado

RefuerzoNo Supervisado

Aprendizaje

• Datos Etiquetados • Retroalimentación Directa • Predice la salida/futuro

• Sin Etiquetas • Sin Retroalimentación • Busca la «estructura

subyacente»

• Procesos de decisión • Sistemas de

bonificación • Aprende series de

actos

Page 19: Datamining y Machine Learning para Ciencias Biológicas

No Supervisado

No se tienen etiquetas o marcas.

No se conocen a priori las relaciones entre los datos

Metagenómica

Page 20: Datamining y Machine Learning para Ciencias Biológicas

No Supervisado

http://us.hudson.com/portals/US/images/blogs/legal/wp/2011/09/Unsupervised-Learning2.jpg

Page 21: Datamining y Machine Learning para Ciencias Biológicas

SupervisadoSe sabe que experimentos se realizaron, su significado, condiciones.

Cientos o miles de datos plenamente identificados.

Transcriptómica: Microarreglos, RNA Seq

Page 22: Datamining y Machine Learning para Ciencias Biológicas

Supervisado

http://kurniawan03.blog.binusian.org/files/2014/05/Supervised-Learning1.jpg

Page 23: Datamining y Machine Learning para Ciencias Biológicas

Aprendizaje Supervisado

Colecta de Datos Crudos

Pre-ProcesamientoDatos Faltantes

Extracción de Características

Muestreo

Entrenamiento del Conjunto de Datos

Validación Cruzada

Pre-ProcesamientoEvaluar

Conjunto de Datos

Nuevos datos

Extracción de Características

Reducción de Dimensionalidad

Escalar Características

Refinamiento

Selección del Modelo

Métricas de Desempeño

Entrenamiento de Algoritmo de Aprendizaje

Optimización de Hiperparámetros

Post-Procesamiento

Clasificación Final/ Modelo de Regresión Adaptado: de Sebastian Raschka

Page 24: Datamining y Machine Learning para Ciencias Biológicas

• Escalamiento de características• Ej. estandarización • Rápida convergencia • Distancias en la misma escala

(k-NN Dist. Euclidiana) • Centrado por media • Datos distribuidos

normalmente • Estabilidad numérica evitando

pequeños pesos.

• Valores faltantes• Remover características

(columnas) • Remover muestras (filas) • Imputar (media,

Vecindad, …)

• Muestreo• División aleatoria entre conjuntos

de datos de entrenamiento y validación.

• Típicamente 60/40, 70/30, 80/20 • No usar conjunto de validación

hasta el puro final (sobreentrenamiento)

Page 25: Datamining y Machine Learning para Ciencias Biológicas

Nomenclatura

sepal length sepal width petal length petal width class5.1 3.5 1.4 0.2 Iris-setosa4.9 3.0 1.4 0.2 Iris-setosa4.7 3.2 1.3 0.2 Iris-setosa4.6 3.1 1.5 0.2 Iris-setosa5.0 3.6 1.4 0.2 Iris-setosa5.4 3.9 1.7 0.4 Iris-setosa4.6 3.4 1.4 0.3 Iris-setosa

Iris

Instancias (muestras, observaciones)

Características (atributos, dimensiones, experimentos)

Clases (objetivo)

Page 26: Datamining y Machine Learning para Ciencias Biológicas

Variables CategóricasColor Tamaño Precio Clase

1 verde M 10.1 clase12 rojo L 13.5 clase23 azul XL 15.3 clase1

Color=azul

Color=verde

Color= Rojo Precio Clase Tamaño

1 0 1 0 10.1 0 12 0 0 1 13.5 1 23 1 0 0 15.3 0 3

nominalazul (1,0,0) verde (0,0,1) rojo (0,1,0) ordinal

M 1 L 2 XL 3

Page 27: Datamining y Machine Learning para Ciencias Biológicas

Validación cruzada

Es una de las técnicas para evaluar diferentes selecciones de combinaciones de características.

Existen multiples sabores de validación cruzada, el más común podría ser «k-fold cross-validation».

Conjunto de Datos Completo

Conjunto de Datos de Entrenamiento

Conjunto de Datos de Validación

Conjunto de

Validación

Conjunto de

Validación

Conjunto de

Validación

Conjunto de

Validación

fold 1 fold 2 fold 3 fold 4

k-fold cross-validation (k=4)

1ª iteración

2ª iteración

3ª iteración

4 iteración

calc error

calc error

calc error

calc error

cálculo de error

promedio

Page 28: Datamining y Machine Learning para Ciencias Biológicas

Evaluación del Modelo

1-Especificidad/Taza de falsas alarmas

Taza de Error = 1 - Exactitud

Variable de Respuesta Evaluada:Y es realmente:

Positiva Negativa

Positiva

Negativa

# Falsa Negativa

# Verdadera Negativa

# Falsa Positiva

# Verdadera Positiva

VP+VNP+NExactitud =

Precisión = VPVP+FP

Recall/Sensibilidad= VPVP+FN

Especificidad /Verdadera Taza de Error = VNVN+FP

Matriz de Confusión

Page 29: Datamining y Machine Learning para Ciencias Biológicas

Evaluación del Modelo

http://www.intechopen.com/source/html/38584/media/image56.jpeg

Área bajo la Curva ROC - AUC

http://wwww.cbgstat.com/v2/method_ROC_curve_MedCalc/images/ROC_curve_MedCalc_Snap17.gifTaza de Falsos Positivos

True positive rate

Taza

de

Verd

ader

os P

ositi

vos

Page 30: Datamining y Machine Learning para Ciencias Biológicas

Clasificación & Agrupamiento

Page 31: Datamining y Machine Learning para Ciencias Biológicas

Clasifiquen…

Page 32: Datamining y Machine Learning para Ciencias Biológicas
Page 33: Datamining y Machine Learning para Ciencias Biológicas

¿Cuantas Cases hay? ¿Cuáles objetos en cada una? ¿Qué hace que estén en Cada Clase?

Page 34: Datamining y Machine Learning para Ciencias Biológicas

Fácil, no?

Page 35: Datamining y Machine Learning para Ciencias Biológicas

Ahora…

Page 36: Datamining y Machine Learning para Ciencias Biológicas
Page 37: Datamining y Machine Learning para Ciencias Biológicas

¿Cuantas Cases hay? ¿Cuáles objetos en cada una? ¿Qué hace que estén en Cada Clase?

Page 38: Datamining y Machine Learning para Ciencias Biológicas

…. y ahora….

Page 39: Datamining y Machine Learning para Ciencias Biológicas

15-7

15. Classification And Evolution

FOSSILS (continued)

15-7

15. Classification And Evolution

FOSSILS (continued)

15-6

15. Classification And Evolution

LIVING CAMINALCULES

FOSSIL CAMINALCULES(numbers in parentheses indicate age in millions of years)

15-6

15. Classification And Evolution

LIVING CAMINALCULES

FOSSIL CAMINALCULES(numbers in parentheses indicate age in millions of years)

Page 40: Datamining y Machine Learning para Ciencias Biológicas

¿Un poco mas complicado?

¿Por qué?

Page 41: Datamining y Machine Learning para Ciencias Biológicas

Etiquetas

Características

Page 42: Datamining y Machine Learning para Ciencias Biológicas

Aprendizaje

Page 43: Datamining y Machine Learning para Ciencias Biológicas

Clasificación

X2

X1 ?

1) Aprender de los datos de entrenamiento

2) Mapear nuevos datos (nunca vistos)

Page 44: Datamining y Machine Learning para Ciencias Biológicas

Clasificadores Comunes

Perceptron Multicapa

Bayesiano Ingenuo

Regresión Logística

KNN- K Vecinos más Cercanos

Redes Neurales Artificiales - AAN / Aprendizaje Profundo

Máquinas de Soporte Vectorial - SVM

Árboles de Decisión

C4.5

Page 45: Datamining y Machine Learning para Ciencias Biológicas

C4.5• Construye un clasificador en forma de un árbol de decisión.

• Usa ganancia de Información en el proceso de generación del árbol.

• A pesar de que otros sistemas también incorporan podado, C4.5 utiliza un proceso de podado de un solo paso para mitigar el sobreentrenamiento.

• Puede trabajar tanto con datos continuos como con discretos.

• Third, C4.5 can work with both continuous and discrete data. Hace esto especificando rangos o umbrales para los datos continuos convirtiendo así a los datos continuos en datos discretos.

Page 46: Datamining y Machine Learning para Ciencias Biológicas

K Nearest Neighbor - KNN• Este es un método de clasificación no

paramétrico, que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento x pertenezca a la clase Cj a partir de la información proporcionada por el conjunto de prototipos.

• En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables predictoras.

Page 47: Datamining y Machine Learning para Ciencias Biológicas

Support Vector Machine (SVM)• Muestren hiperplanos que son capaces

de separar dos o múltiples clases. Eventualmente el hiperplano con el mayor margen se selecciona, el margen es definido como la distancia mínima de los puntos de muestra al hiperplano. Las muestra (puntos) que forman el margen son llamadas vectores de soporte y establecen el modelo SVM

Page 48: Datamining y Machine Learning para Ciencias Biológicas

Support Vector Machine (SVM)

Page 49: Datamining y Machine Learning para Ciencias Biológicas

Clasificador Bayesiano• El Teorema de Bayes: calcula el la

probabilidad posterior basado en la probabilidad del prior, en lo que se llama también verosimilitud.

• Un clasificador Bayesiano Ingenuo asume que todos los atributos son condicionalmente independientes, de este modo, computar la verosimilitud se simplifica al cálculo del producto de las probabilidades condicionales de los atributos de los individuos observados dada una clase.

Page 50: Datamining y Machine Learning para Ciencias Biológicas

Clasificador BayesianoVerosimilitud

Probabilidad de la clase prior

Probabilidad del posterior

Predictor de Probabilidad del prior

Posterior = Anterior * ProbabilidadEvidencia

Page 51: Datamining y Machine Learning para Ciencias Biológicas

Redes Neurales Artificiales (ANN)

• Clasificadores de tipo grafo bioinspirados en el cerebro animal donde los los nodos interconectados representan neuronas.

Page 52: Datamining y Machine Learning para Ciencias Biológicas

Árboles de Decisión • Son grafos tipo árbol, en los que los

nodos del grafo evalúan ciertas condiciones en un grupo particular de características y las ramas van dividiendo la decisión hasta llegar a los nodos hoja.

• Las hojas representan los niveles mas bajos en el grafo y determina las etiquetas de las clases. El árbol óptimo se entrena minimizando con «Gini Impurity*» o maximizando la ganancia de información.

*Es una medida de que tan frecuentemente un elemento del conjunto escogido aleatoriamente puede ser etiquetado de forma incorrecta, si este fuera aleatoriamente marcado acorde a la distribución de etiquetas en el subconjunto.

Page 53: Datamining y Machine Learning para Ciencias Biológicas

Hiperparámetros• Los hiperparámetros de un clasificador o estimador que no son directamente

aprendidos en el paso de aprendizaje estadístico de los datos de entrenamiento, son optimizados de forma separada.

• El objetivo de la optimización de hiperparámetros es el de mejorar el desempeño del un clasificador y lograr una buena generalización del algoritmo de aprendizaje.

• Un método popular de optimización es «grid Search», que típicamente es implementado como una búsqueda, en contraste con la optimización aleatoria.

• Después de todas las posibles combinaciones de parámetros para un modelo, se evalúan, se retiene la mejor combinación.

Page 54: Datamining y Machine Learning para Ciencias Biológicas

Agrupamiento Jerárquico• Es un método de agrupamiento que busca construir una jerarquía de

grupos. Usa estrategias de dos tipos:

• Aglomerativa: Una aproximación «Bottom UP», cada observación inicia con un único grupo, y pares de grupos van emergiendo a medida que uno se mueve hacia la parte superior de la jerarquía.

• Divisiva: Es la aproximación «Top Down» todas las observaciones forman un único grupo en el que las divisiones ocurren recursivamente a medida que se mueve hacia abajo en la jerarquía.

• En general, las uniones y divisiones son determinadas de forma voraz.

• El resultado del agrupamiento usualmente ese presenta en forma de dendrograma

Page 55: Datamining y Machine Learning para Ciencias Biológicas

k-meansk-means crea k grupos de un conjunto de objetos de forma tal que los miembros de los grupos sean los mas similares entre ellos.

Es una técnica de análisis de agrupamiento popular en la exploración de conjuntos de datos.

¿Cómo sabe cuál es el mejor k?

Silhouette

Page 56: Datamining y Machine Learning para Ciencias Biológicas

Mapa Auto-Organizado - SOM• Es un tipo de red neuronal artificial,

entrenada usando aprendizaje no supervisado para producir una representación discreta del espacio de las muestras de entrada, llamado mapa.

• Usan una función de vecindad para preservar las propiedades topológicas del espacio de entrada.

• Son útiles para visualizar vistas de baja dimensión de datos de alta dimensión, semejante a un escalado multidimensional.

Page 57: Datamining y Machine Learning para Ciencias Biológicas

Nada es gratis…Los modelos son una simplificación de la realidad

La simplificación es basada en presunciones (sesgo del modelo)

Las presunciones fallan en algunas ocaciones

No existe un único modelo que funcione igual de bien para todas las situaciones

Page 58: Datamining y Machine Learning para Ciencias Biológicas

¿Cuál Algoritmo Escoger?• ¿Cuál es el tamaño y dimensionalidad del conjunto de entrenamiento?

• ¿Son los datos lineaments separables?

• ¿Que tanto hay que preocuparse por la eficiencia computacional

• Construcción del modelo vs tiempo real de predicción

• Aprendizaje:

• ansioso vs perezoso / en línea vs en lote / desempeño de predicción vs velocidad

• ¿Debe tenerse cuidado en la interpretabilidad de los resultados?

• ….

Page 59: Datamining y Machine Learning para Ciencias Biológicas