intelligent system group u.p.v. / e.h.u. aprendizaje automático en bioinformática pedro larrañaga...

22
Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Pedro Larrañaga Intelligent Systems Group Intelligent Systems Group Departamento de CCIA Departamento de CCIA UPV-EHU UPV-EHU Lejona, 12 de noviembre de 2003 Lejona, 12 de noviembre de 2003

Upload: nilda-mejias

Post on 28-Jan-2016

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

Intelligent System GroupU.P.V. / E.H.U.

Aprendizaje Automático en Bioinformática

Pedro LarrañagaPedro Larrañaga

Intelligent Systems GroupIntelligent Systems Group

Departamento de CCIADepartamento de CCIA

UPV-EHUUPV-EHU

Lejona, 12 de noviembre de 2003Lejona, 12 de noviembre de 2003

Page 2: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

2Aprendizaje Automático en Bioinformática

Esquema

IntroducciónIntroducción ClusteringClustering Clasificación SupervisadaClasificación Supervisada Selección de VariablesSelección de Variables ConclusionesConclusiones

Page 3: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

3Aprendizaje Automático en Bioinformática

Introducción

Gran volumen de datosGran volumen de datos Problemas de almacenamiento (bases de Problemas de almacenamiento (bases de

datos)datos) Problemas de tratamiento de imagenProblemas de tratamiento de imagen Problemas de optimizaciónProblemas de optimización Sistemas de ayuda: predicción de Sistemas de ayuda: predicción de

enfermedades, descubrimiento de enfermedades, descubrimiento de conocimientoconocimiento

Page 4: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

4Aprendizaje Automático en Bioinformática

Clustering

Tenemos caracterizados 50 pacientes, con Tenemos caracterizados 50 pacientes, con su expresión génica en 2000 genessu expresión génica en 2000 genes

Nos interesa:Nos interesa: Grupos de pacientes con expresiones Grupos de pacientes con expresiones

génicas parecidasgénicas parecidas Grupos de genes que se comportan de la Grupos de genes que se comportan de la

misma formamisma forma

Page 5: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

5Aprendizaje Automático en Bioinformática

Clustering

Objetivo: agrupar objetos en grupos, Objetivo: agrupar objetos en grupos, homogeneidad dentro, heterogeneidad entrehomogeneidad dentro, heterogeneidad entre

Dos técnicas básicas:Dos técnicas básicas: Clustering particional: k-means Clustering particional: k-means

(MacQueen, 1967)(MacQueen, 1967) Clustering jerárquico (McQuitty, 1962)Clustering jerárquico (McQuitty, 1962)

Page 6: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

6Aprendizaje Automático en Bioinformática

k-means

Paso 1: Seleccionar k centroidesPaso 1: Seleccionar k centroides Paso 2: Asignar cada objeto a agrupar al Paso 2: Asignar cada objeto a agrupar al

centroide más cercanocentroide más cercano Paso 3: Iterar hasta convergenciaPaso 3: Iterar hasta convergencia

Paso 3.1: Recalcular los centroides como Paso 3.1: Recalcular los centroides como baricentros de los objetos de cada grupobaricentros de los objetos de cada grupo

Paso 3.2: Reasignar cada objeto al Paso 3.2: Reasignar cada objeto al centroide más cercanocentroide más cercano

Page 7: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

7Aprendizaje Automático en Bioinformática

k-means

Iteración 0 Iteración 1Iteración 0 Iteración 1

Page 8: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

8Aprendizaje Automático en Bioinformática

k-means

Iteración 1 Iteración 2Iteración 1 Iteración 2

Page 9: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

9Aprendizaje Automático en Bioinformática

k-means

Iteración 3 Iteración 4Iteración 3 Iteración 4

Page 10: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

10Aprendizaje Automático en Bioinformática

Clustering ascendente jerárquico

Técnica aglomerativaTécnica aglomerativa ““Fusiona” objetos de Fusiona” objetos de

forma sucesivaforma sucesiva Definición de distancia Definición de distancia

entre “superobjetos”entre “superobjetos” VisualizaciónVisualización

Dendrograma (árbol)Dendrograma (árbol) Diagrama de VennDiagrama de Venn

J K E W D R S A

Page 11: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

11Aprendizaje Automático en Bioinformática

Clustering ascendente jerárquico

Enlace simple (single Enlace simple (single linkage)linkage) La distancia entre La distancia entre

dos superobjetos se dos superobjetos se define como la define como la mínima distancia mínima distancia entre pares de entre pares de objetos objetos pertenecientes a los pertenecientes a los mismosmismos

x x

x

x

O OO

O

Page 12: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

12Aprendizaje Automático en Bioinformática

Clustering ascendente jerárquico

Enlace medio (mean Enlace medio (mean linkage)linkage) La distancia entre dos La distancia entre dos

superobjetos se define superobjetos se define como la media entre como la media entre las distancias de las distancias de todos los pares de todos los pares de objetos cada uno de objetos cada uno de ellos de distintos ellos de distintos superobjetossuperobjetos

x x

x

x

O OO

O

Page 13: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

13Aprendizaje Automático en Bioinformática

Clustering ascendente jerárquico

Enlace completo Enlace completo (complete linkage)(complete linkage) La distancia entre dos La distancia entre dos

superobjetos se define superobjetos se define como el máximo entre como el máximo entre las distancias de las distancias de todos los pares de todos los pares de objetos cada uno de objetos cada uno de ellos de distintos ellos de distintos superobjetossuperobjetos

x x

x

x

O OO

O

Page 14: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

14Aprendizaje Automático en Bioinformática

Page 15: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

15Aprendizaje Automático en Bioinformática

Clasificación supervisada Objetivo: a partir de unas muestras Objetivo: a partir de unas muestras

etiquetadas, ser capaz de etiquetar nuevas etiquetadas, ser capaz de etiquetar nuevas muestrasmuestras

0.70.7 -0.2-0.2 SanoSano

0.60.6 0.50.5 SanoSano

-0.6-0.6 0.10.1 EnfermoEnfermo

00 -0.9-0.9 SanoSano

-0.4-0.4 0.40.4 SanoSano

-0.8-0.8 0.60.6 EnfermoEnfermo

0.50.5 -0.7-0.7 SanoSano

0.60.6 -0.1-0.1 ??

0.40.4 0.60.6 ??

-0.1-0.1 0.20.2 ??

00 -0.5-0.5 ??

-0.3-0.3 0.40.4 ??

-0.8-0.8 0.70.7 ??

0.30.3 -0.7-0.7 ??

Page 16: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

16Aprendizaje Automático en Bioinformática

Clasificación supervisada

Paradigmas clasificatoriosParadigmas clasificatorios Clasificadores BayesianosClasificadores Bayesianos Árboles de clasificaciónÁrboles de clasificación K-NNK-NN Inducción de reglasInducción de reglas Redes neuronalesRedes neuronales Máquinas de soporte vectorialMáquinas de soporte vectorial

Page 17: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

17Aprendizaje Automático en Bioinformática

Clasificación supervisada

Criterios de comparación de clasificadoresCriterios de comparación de clasificadores Tasa de aciertoTasa de acierto Área bajo la curva ROCÁrea bajo la curva ROC Complejidad algorítmica del inductorComplejidad algorítmica del inductor Interpretabilidad del modeloInterpretabilidad del modelo Simplicidad del modeloSimplicidad del modelo

Page 18: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

18Aprendizaje Automático en Bioinformática

Clasificación supervisada

Clasificadores Bayesianos: naïve BayesClasificadores Bayesianos: naïve Bayes

...

C

X1 X2 X3 Xn

)|()|()|()(),,,|( 2121 cxpcxpcxpcpxxxcp nn

Page 19: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

19Aprendizaje Automático en Bioinformática

Clasificación supervisada

Árboles de clasificaciónÁrboles de clasificación

gen_32

gen_27 gen_91

gen_40 gen_98

sano25/5

sano26/2

sano40/6

enfermo 3/17

enfermo 4/30

enfermo 2/40

< .34 > .34

< .72> .72> .59 < .59

< .29 > .29 < .63 > .63

Page 20: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

20Aprendizaje Automático en Bioinformática

Selección de variables

MotivaciónMotivación Mejora en el eficacia, eficiencia y rapidez de Mejora en el eficacia, eficiencia y rapidez de

uso del modelouso del modelo Mejor comprensibilidad de los datosMejor comprensibilidad de los datos

Variables redundantes, variables irrelevantesVariables redundantes, variables irrelevantes Dos tipos de aproximación:Dos tipos de aproximación:

FiltradoFiltrado EnvolturaEnvoltura

Page 21: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

21Aprendizaje Automático en Bioinformática

Selección de variables

Naïve BayesNaïve Bayes Árbol de Árbol de clasificaciónclasificación

K-NNK-NN Inducción de Inducción de reglasreglas

noFSSnoFSS 84.7284.72 84.7284.72 86.1186.11 75.0075.00

filter3filter3 90.1890.18 87.5087.50 81.9481.94 86.1186.11

filter20filter20 90.2890.28 93.0693.06 80.5680.56 81.9481.94

envolturaenvoltura 95.8395.83

44

95.8395.83

44

100.0100.0

33

97.2297.22

33

Porcentaje de casos bien clasificados para la base de datos Leukemia (Golub et al., 1999): 7129 genes, 72 casos (25 AML, 47 ALL) (Inzay col., 2003)

Page 22: Intelligent System Group U.P.V. / E.H.U. Aprendizaje Automático en Bioinformática Pedro Larrañaga Intelligent Systems Group Departamento de CCIA UPV-EHU

22Aprendizaje Automático en Bioinformática

Conclusiones

Biología molecular rica en datosBiología molecular rica en datos Técnicas de aprendizaje automático válidas para: Técnicas de aprendizaje automático válidas para:

descubrir conocimientodescubrir conocimiento sugerir nuevas hipótesissugerir nuevas hipótesis crear modelos predictivoscrear modelos predictivos estudiar la corregulación entre genesestudiar la corregulación entre genes resolver problemas de optimizaciónresolver problemas de optimización