minería de datos con weka para el diagnóstico preventivo de cáncer

23
UNIVERSIDAD TECNICA PARTICULAR DE LOJA Minería de datos con WEKA para el diagnóstico preventivo de cáncer Integrantes: Alvarado Pablo Peralta Diego Román Carlos

Upload: pablo-antonio-alvarado-ruiz

Post on 08-Jun-2015

2.751 views

Category:

Education


4 download

TRANSCRIPT

Page 1: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

UNIVERSIDAD TECNICA PARTICULAR DE LOJA

Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Integrantes:

Alvarado Pablo

Peralta Diego

Román Carlos

Page 2: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Resumen La utilización de técnicas de inteligencia artificial para

“diagnóstico asistido por computadora” ha tenido hasta ahora una prominente trayectoria en la resolución de problemas basados netamente en imágenes, sin embargo también el campo de diagnóstico preventivo -de cáncer- ha madurado haciendo uso de técnicas como redes bayesianas (RB) o algoritmos evolutivos (AE), tomando como base modelos probabilísticos. En el presente ensayo se abordará aspectos teóricos que llevan a entender la importancia de tratar de diagnosticar preventivamente el cáncer mediante mecanismos de clasificación y predicción, así como comprender los factores involucrados específicamente en los aspectos a los que el cáncer como enfermedad supone, de allí la necesidad de proponer un diagnóstico intuitivo realizado por computadora con la ayuda de WEKA, previo a la evaluación médica del paciente.

Page 3: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Introducción El cáncer persiste como un desafío para la medicina, porque a

pesar de los avances en las técnicas de diagnóstico y en los recursos terapéuticos, las estadísticas reflejan las pocas curaciones con relación a la cantidad de enfermos asistidos. Esto se debe en buena parte a que en los últimos años no han habido respuestas significativas a los intentos de reducir la exposición a carcinógenos, y también a que no mejoró la detección del tumor en una etapa temprana, lo cual hubiera podido aumentar la probabilidad de curación, pero sobre todo a que todavía no se cuenta con la solución apropiada para esta patología.

“El porcentaje de sobrevivientes se ha estancado en los últimos 30 años tan solo en un 15% (para cáncer de pulmón, páncreas, hígado) y por sobre el doble de la cifra anterior para otros tipos de cáncer menos agresivos” [06], así, estos tres tipos de cáncer cobran más víctimas que el de mama, próstata o colon juntos (en especial el de pulmón).

Page 4: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Introducción El software WEKA descrito en una exposición de Sylvie Rattè

durante el iSummit 2010 es una herramienta efectiva en el manejo de minería de datos. Para el caso de la enfermedad mencionada se puede aproximar un diagnóstico haciendo uso del mecanismo de predicción de WEKA en base a clasificaciones dadas sobre conjuntos de entrenamiento, esto se puede plasmar en la construcción de software de diagnóstico (un agente inteligente que consuma librerías de WEKA por detrás) orientado a informar y poner sobre aviso los pacientes de instituciones de salud. El propósito de explotar la minería de datos para este caso radica en importancia de la detección temprana del cáncer, pues la sociedad americana de cáncer1 informa que si el cáncer es detectado tempranamente el porcentaje de supervivencia se incrementa hasta un 47% [02] (es la media dependiendo del tipo de patología).

1. American Cancer Society (ACS). Sitio oficial: www.cancer.org/

Page 5: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Adaptación del Enfoque a la ciudad de Loja En la ciudad de Loja, nuestro punto de referencia será

SOLCA2 Núcleo de Loja. Los pacientes tratados allí son en su inmensa mayoría

referidos con diagnóstico presuntivo o confirmado de diversos tipos de cáncer.

Por esta razón surge la necesidad de abordar el establecimiento de una minería de datos inteligente, levantada sobre los datos de las historias clínicas para que basados en factores y métodos probabilísticos, puedan ser cargados en un software que sea capaz de realizar un diagnóstico preventivo.

Esto se realiza con el fin de evitar que la enfermedad se desarrollo hasta estadios avanzados, mediante la puesta en alerta del paciente.

2. Sociedad de Lucha contra el Cáncer (Ecuador). Mayor información disponible en : www.solcaquito.org/

Page 6: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Adaptación del Enfoque a la ciudad de Loja El software que consuma la minería de datos, debería

proporcionar una primera alerta y determinar si un individuo, de acuerdo con el entorno en el que vive y trabaja, sus hábitos alimenticios y de tabaquismo (si los tiene), antecedentes familiares, historial médico y otros parámetros, es propenso a desarrollar cáncer de pulmón.

El fin del software sería la consecución de 2 metas que justifiquen notablemente su construcción: Que las personas que tienen un riesgo “X” de padecer

cáncer de pulmón, tomen conciencia sobre este problema.

Un riesgo suficiente de padecer cáncer podría empujar a la persona a realizar chequeos periódicos y de esta manera ayudaría a la detección del problema.

Page 7: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Situación General del Cáncer de Pulmón El diagnostico preventivo a través del uso de un

software no es una practica muy extendida en la ciudad de Loja.

La única acción preventiva que se lleva a cabo con regularidad es la tomografía axial computarizada.

En la actualidad no existe suficiente fiabilidad y por lo tanto esta práctica no debería extenderse, puesto que en un tanto por ciento de los casos se podrían producir falsos positivos que inducirían a hacer resecciones pulmonares de lesiones benignas.

Page 8: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Situación General de Modelos de Weka Para aspectos de medicina las redes bayesianas han

sido utilizadas en el campo del diagnóstico asistido por computadora en investigaciones como las especificadas en [01],[03],[04],[05],[06] y [07], se han demostrado que son adecuadas para su propósito, pero es necesario una especialización superior para perfeccionar su optimidad.

Las Redes Bayesianas presentan ventajas de velocidad para encontrar soluciones pero generan el riesgo de estancarse en la optimidad local, por lo que se ha optado por hacer combinaciones con algoritmos evolutivos (AE) para disminuir el coste y hacerlo más optimo.

Page 9: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Situación General de Modelos de Weka La desventaja de los AE es que necesitan mayor

tiempo para optimizar soluciones pero son excelentes para búsquedas globales basadas en población.

Page 10: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Aspectos Teóricos: Redes Bayesianas Una red bayesiana es una representación de una función de

probabilidad conjunta. Formalmente es un “grafo acíclico dirigido en el que cada nodo

representa una variable aleatoria y las relaciones de dependencias e independencias condicionales quedan establecidas en la propia estructura de la red”[09].

Una RB para un conjunto de variables aleatorias X = {X1 ,.., Xn} es un par B = (G,P(Θ)), especificado en [03] donde G es un gráfico acíclico dirigido, cuyos nodos se encuentran en correspondencia uno a uno con las variables en X , y P es un conjunto de funciones de probabilidad local definidas por un conjunto de parámetros Θ .

Una red Bayesiana puede usarse para calcular una probabilidad de interés usando métodos para el proceso de inferencia exacta y aproximada [10].

Page 11: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Aspectos Teóricos: Algoritmos Evolutivos Son métodos que trabajan con una población de individuos

que pertenecen al dominio de los números reales, mediante los procesos de mutación y de recombinación evolucionan para alcanzar el óptimo de la función objetivo.

Las variables objeto son los posibles valores que hacen que la función objetivo alcance el óptimo global y las variables estratégicas son los parámetros mediante los que se gobierna el proceso evolutivo o, en otras palabras, las variables estratégicas indican de qué manera las variables objeto son afectadas por la mutación.

El genotipo en las estrategias de AE es el conjunto formado por las variables objeto y las variables estratégicas. Y el fenotipo son las variables objeto, ya que conforme se da la variación de éstas, se percibe un mejor o peor desempeño del individuo.

Page 12: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Enfoques evolutivos de una RB El espacio de búsqueda en las RB es extendido de manera

exponencial si el número de variables incrementa. Enumerar todas la redes bayesianas no es factible, y debido al problema de estancamiento en el espacio de búsqueda local para una solución óptima, es necesario adoptar una AE que induzca a la RB a partir de datos.

Existen dos enfoques a considerar para la inducción mencionada, el primero [09] utiliza una matriz de conexión como un cromosoma que representa la RB, así, cuando el número de variables es n, el tamaño de la matriz es n x n, obteniendo así un espacio de búsqueda para n variables igual a 2nxn. El segundo [08] enfoque consiste en una búsqueda de orden topológico para la RB, el orden restringe la conexión entre las variables, proveyendo una conexión entre variables distintas; dado el orden encontrado, RBs son escogidas usando un algoritmo de búsqueda local simple con el fin de encontrar un orden topológico adecuado.

Page 13: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Desarrollo de una Solución WEKA debe procesar los modelos probabilísticos basados en algunos factores, para

mediante el uso de las técnicas de inteligencia artificial mencionadas (algoritmos de clasificación), sea capaz de diagnosticar si un paciente podría o no tener este tipo de afección.

Los factores a considerarse para la aplicación de los modelos probabilísticos [03] son: Sexo (Masculino, Femenino) Geografía (Campo, Ciudad) Factores Genéticos (propenso, poco propenso, no-propenso) Exposiciones Ocupacionales (con contaminación, sin contaminación) Contaminación atmosférica (baja, media, alta) Patologías Bronquiales (tiene, no-tiene) Problemas Virales (tiene, no-tiene) Problemas Virales en el pasado (tiene, no-tiene) Problemas de cáncer en el pasado (tuvo, no-tuvo) Antecedentes familiares (cercanos, medios, lejanos, ninguno) Edad (10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89, 90-99) Factor de Riesgo: Frecuecnia semanal (0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-

39, 40-44, 45-90, 91-180, 181-360)

Page 14: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Método de Naive Bayes para construir el clasificador Dada la base de entrenamiento cáncer.pulmón.arff

representada por k valores, el clasificador Naive Bayes se basa en encontrar la hipótesis más probable que describa a ese dataset. La descripción viene dada por los valores < a1, a2, .., an >, por tanto la hipótesis [03] más probable será aquella que cumpla:

es decir, la probabilidad de que conocidos los valores que describen al dataset, éste pertenezcan a la clase vj (donde vj es el valor de la función de clasificación f(x) denominada CLASE en el conjunto finito V). Por el teorema de Bayes:

Page 15: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Metodo de Naive Bayes para construir el clasificador Podemos estimar P(vj) contando las veces que aparece un

atributo de un caso vj en el conjunto de entrenamiento y dividiéndolo por el número total de atributos que forman este conjunto. Para estimar el término P(a1, ...an|vj), es decir, las veces en que para cada categoría aparecen los valores del caso x, debo recorrer todo el conjunto de entrenamiento. Este cálculo resulta impracticable para un número suficientemente grande de casos por lo que se hace necesario simplificar la expresión. Para ello se recurre a la hipótesis de independencia condicional con el objeto de poder factorizar la probabilidad. Esta hipótesis dice lo siguiente:

Los valores aj que describen un atributo de un caso cualquiera x son independientes entre sí conocido el valor de la categoría a la que pertenecen. Así la probabilidad de observar la conjunción de atributos aj dada una categoría a la que pertenecen es justamente el producto de las probabilidades de cada valor por separado:

Page 16: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Algoritmo TAN Podría servir puesto que se encarga de la búsqueda y recorrido de la red

encontrando la estructura TAN de máxima verosimilidad. Resuelve el problema de optimización para una RB normal, incrementando la tasa de clasificación [3]:

1: Calcular I(Xi;Xj/C ) con i < j donde i , j =1,2,…,n. Asignar este valor como peso al arco que conecta las variables Xi y Xj .

2: Ordenar I(Xi;Xj/C) de mayor a menor. 3: Considerar un árbol inicial. 4: Asignar los dos arcos de mayor peso al árbol anterior. 5: Examinar el siguiente arco de mayor peso, y añadirla al árbol (si no forma un

ciclo), en cuyo caso se descarta y se examina el siguiente arco con mayor peso.

6: Repetir 5 hasta seleccionar n −1 arcos. 7: Transformar el árbol no dirigido resultante en uno dirigido, con una variable

como raíz, para a continuación direccionar el resto de arcos. 8: Construir un modelo TAN añadiendo un nodo etiquetado como C y

posteriormente un arco desde C a cada variable predictora Xi.

Page 17: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Agregación Evolutiva de RBs J. Kim [11] propone un AE con compartimiento de aptitudes

para generar diversas RB dado un conjunto de datos masivo. R. Chen utiliza en cambio un enfoque colectivo para leer una RB desde datos heterogéneos distribuidos, esto se realiza mediante la unión de nodos de RBs locales y foráneas. Existen otros autores trabajando sobre el mismo dominio (RBs con AEs), pero debido a que sus enfoques son variados es necesario integrar sus estudios en un modelo simple. La forma más fácil de lograr esto es mediante el uso de operadores de unión e intersección. Es necesario considerar la agregación y el refinamiento para la óptima solución del problema. El primer aspecto se podría solucionar logrando una evolución usando el trabajo planteado por J. Kim [11] con el algoritmo de agregación:

Page 18: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Agregación Evolutiva de RBs1: /* HO : Red Original */

2: /* D: Nuevos Datos */

3: /* POP: Población de RBs */

4: /* Initialization(): Initialización de RBs */

5: /* Refine( HO , D, H p ): devolver la puntuación MDL */

6: /* array[]: 1-d arreglo */

8: Initialization(POP);

10: For i=1 to MAX_GEN{

11: For j=1 to |POP|{

12: fitness(j)=Refine( HO , D, H j );}

13: POP=Selection(POP);

14: For j=1 to |POP|/2 { // Pariente cruzado(); // seleccionar dos índices

array1=parent1; array2 = parent2;

POP(children) = crossover(array1,array2);}

15: For j=1 to |POP| // mutación

16: POP(children)

= Random(addition, deletion of edges);

17: Repairing();

18:}

Page 19: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Agregación Evolutiva de RBs De igual forma se debe considerar el refinamiento pata optimizar la solución evolutiva, para ello es

necesario aplicar el algoritmo de J. Kim [11] para refinamiento:

 

1:/* N : El número de RBs para la combinación

*/

2: /* POP: Población */

3: /* order[] : arreglo con tamaño N */

4: /* Permutation(permutation index): retorna el orden de N ítems. Hace uso del el índice de la permutación */

5: /* fitness(j) : aptitud de jth individual */

6: /* Initialization(population):cada individuo es inicializado con una valor desde 0 a N!-1 */

7: /* θ: Variable aleatoria */

9: Initialization(POP);

11: For i=1 to MAX_GEN {

12: For j=1 to |POP| {

13: order = Permutation(POP(j));

14: fitness(j) = Fusion (order); }

15: POP=Selection(POP, fitness); // selección

16: For j=1 to |POP|/2 // cruzar

17: {Parent(); // seleccionar dos índices

POP(children)=

θ×POP(parent1)+(1-θ)×POP(parent2);}

18: For j=1 to |POP| // mutación

19: POP(j)=Random(POP(j), 0, N!-1)

20:}

Page 20: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Resultados Esperados El conjunto de entrenamiento deberá ser sacado de la

base de datos de SOLCA núcleo de Loja, como población se podría tomar 50 casos, correspondientes al un año específico.

En promedio la tasa de clasificación deberá ser por encima del 95%. Teniendo un valor de 90% como mínimo usando el algoritmo Naive Bayes y un porcentaje mejor de aciertos con el algoritmo AODE.

Se deberá demostrar con el ejercicio que haciendo uso de un solo mecanismo de clasificación de WEKA (RBs), éstas son menos efectivas que los árboles de clasificación o las reglas de decisión para este tipo de casos, pero si se las combina con AEs su efectividad se incrementa potencialmente.

Page 21: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Resultados Esperados El algoritmo Naive Bayes normal deberá arrojar un

porcentaje de 80% de aciertos en cuanto a instancias clasificadas correctamente como mínimo, mientras que las mal clasificadas no deberá sobrepasar el 20%.

algoritmo con método de búsqueda TAN y agregación, también incrementará su porcentaje de aciertos hasta un 90% cuanto a instancias clasificadas correctamente, mientras que las mal clasificadas no deberá sobrepasar un 10%.

De la clasificación y con el dataset minado se deberá deducir que los factores de mayor incidencia para contraer cáncer son el tabaquismo, patologías bronquiales, edad, exposición ocupacional y factores genéticos

Page 22: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Conclusiones Hemos abordado la eficiencia de RBs para la solución

de problemas de diagnóstico, pero es mejor trabajar esta técnica de acuerdo a estrategias evolutivas y algoritmos de búsqueda eficientes (combinando varios mecanismos de WEKA), ello garantizará que el método sea óptimo para espacios de solución globales y que el coste computacional así como el tiempo de solución sean bajos con respecto a métodos tradicionales.

El refinamiento garantizará que la solución encontrada sea la adecuada pues actúa como un segundo tamiz de resultados, se obtendrá de esta manera un diagnóstico más preciso que llevará a los pacientes a tomar decisiones que podrían ser trascendentales.

Page 23: Minería de datos con WEKA para el diagnóstico preventivo de cáncer

Referencias[01] Thomas P Conrads, Ming Zhou, Emmanuel F Petricoin III, Lance Liotta y Timothy D Veenstra. Cancer diagnosis

using proteomic patterns. Octubre 2009

[02] American Cancer Society. Lung Cancer (non-small cell)

[03] Marek Grze. An Introduction to Bayesian Networks for Lung Cancer: Representation and Approximate Inference. Department of Computer Science University of York. Graphical Models Reading Group. Mayo 2009

[04] Ball Matt. Diagnosis via Bayesian Networks. ME233 Final Project. Mayo 2009

[05] John Stoitsisa, Ioannis Valavanisa, Stavroula G. Mougiakakoua, Spyretta Golematia, Alexandra Nikitab, Konstantina S. Nikitaa. Computer aided diagnosis based on medical image processing and artificial intelligence methods. 2006

[06] Blatt Rossella, Bonarini Andrea, Calabrò Elisa, Della Torre Matteo, Matteucci Matteo, Pastorino Ugo. Fuzzy k-NN Lung Cancer Identification by an Electronic Nose,. Proceedings of the 7th International Workshop on Fuzzy Logic and Applications, WILF 2007, Lecture Notes in Computer Science (LNAI), LNAI 4578, pages 261-268, Springer. Camogli (GE), Italy, July 2007.

[07] Zhi-Hua Zhou, Yuan Jiang, Yu-Bin Yang, Shi-Fu Chen. Lung Cancer Cell Identification Based on Artificial Intelligence Networks Ensembles. china, 2003 

[08] P. Larranaga, C.M.H. Kuijpers, R. H. Murga, Y. Yurramendi, “Learning Bayesian network structures by searching for the best ordering with genetic algorithm,” IEEE Transactions on Systems, Man and Cybernetics. 2006 

[09] P. Larranaga, M. Poza, Y. Yurramendi, R. H. Murga, C.M.H. Kuijpers, “Structure learning of Bayesian networks by genetic algorithms: A performance analysis of control parameters,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006 

[10] W. Lam and F. Bacchus, “Using new data to refine a Bayesian network,” Proceedings of the Uncertainty in Artificial Intelligence, 2004. 

[11] J. Kim y Sung-Bae Cho. Evolutionary Aggregation and Refinement of Bayesian Networks Dept. of Computer Science, Yonsei University. Korea, 2006.

 [12] A. Velasco Villanueva. Redes bayesianas. 2008