luis alejandro herrera correal - repositorio.uniandes.edu.co

44
Modelo de detección precoz de ataques de Epilepsia usando datos de Electro Encefalogramas EEG (DPAE) Tesis de maestría presentada al Departamento de Ingeniería de Sistemas y Computación por Luis Alejandro Herrera Correal Maestría en Ingeniería de Sistemas y Computación Directores: María del Pilar Villamil. PH.D. Andrés Moreno. PH.D. Universidad de los Andes Facultad de Ingeniería Departamento de Ingeniería de Sistemas y Computación Bogotá, Colombia. 2017

Upload: others

Post on 16-Apr-2022

11 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Modelo de detección precoz de ataques de Epilepsia usando datos de Electro Encefalogramas EEG (DPAE)

Tesis de maestría presentada al

Departamento de Ingeniería de Sistemas y Computación por

Luis Alejandro Herrera Correal

Maestría en Ingeniería de Sistemas y Computación

Directores:

María del Pilar Villamil. PH.D.

Andrés Moreno. PH.D.

Universidad de los Andes

Facultad de Ingeniería

Departamento de Ingeniería de Sistemas y Computación

Bogotá, Colombia.

2017

Page 2: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Contenido 1. Introducción ................................................................................................................................ 4

2. Marco teórico .............................................................................................................................. 5

Epilepsia[5] .................................................................................................................................. 5

Diagnóstico .................................................................................................................................. 6

Electroencefalograma (EEG) ....................................................................................................... 7

Retos en el análisis de información de ataques de epilepsia ...................................................... 8

3. Trabajos sobre la detección y predicción de ataques epilépticos............................................... 9

3.1. Seizure prediction: Methods[8] ........................................................................................... 9

3.2. Application of Machine Learning to Epileptic Seizure Onset Detection and Treatment[9]10

Y Real-Time Elipeptic Seizure Detection Using EEG[10] ............................................................ 10

3.4 Automated seizure detection using limited-channel EEG and non-linear dimension

reduction[11] ............................................................................................................................. 11

3.5 Identifying an increased risk of epileptic seizures using a multi-feature EEG–ECG

classification [12] ....................................................................................................................... 11

3.6 Análisis de datos clínicos: Metodología para predicciones sobre datos continuos y

discretos[1] ................................................................................................................................ 11

4. Detención precoz de ataques de Epilepsia(DPAE) .................................................................... 12

Entendimiento de los datos ...................................................................................................... 14

Información ............................................................................................................................... 14

Preparación de los datos ........................................................................................................... 18

Obtención de características de la información........................................................................ 19

5. Modelado .................................................................................................................................. 22

Generación de clases (K-medias) .............................................................................................. 22

Generación de secuencias de texto .......................................................................................... 26

Identificación de patrones de texto .......................................................................................... 26

Análisis de correlación de variables .......................................................................................... 28

Entrenamiento supervisado – Regresión logística .................................................................... 30

6. Evaluación ................................................................................................................................. 32

7. Resultados ................................................................................................................................. 34

8. Conclusiones.............................................................................................................................. 42

9. Bibliografía ................................................................................................................................ 43

Page 3: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Agradecimientos

Agradezco a mi familia y a mi novia por el apoyo que me han dado durante este proceso. También agradezco a los profesores que sirvieron de asesores de este proyecto de grado por su instrucción y sus recomendaciones.

Page 4: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Resumen

En este trabajo se desarrollaron modelos de detección de ataques de epilepsia, específicos al paciente, usando información de electro encefalogramas. La generación de estos modelos permite tomar correctivos frente a un ataque en el menor tiempo posible y así lograr una mejora en la calidad de vida de quienes sufren esta patología. Este trabajo está construido sobre un proceso de análisis y trasformación de señales continuas provenientes de electroencefalogramas que posteriormente son segmentadas por medio del algoritmo k-medias, lo que nos permitirá generar un nuevo set de datos de información discreta, esta información será utilizada para la detección de los ataques de epilepsia por medio de un algoritmo de regresión logística con el fin de clasificar estados de Ataque/No ataque de epilepsia. La metodología usada es la propuesta por el trabajo de Alejandro Salcedo[1], en el cual se disponen los pasos necesarios para llevar a cabo las trasformaciones y análisis de la información. Finalmente, este trabajo genera un modelo de análisis y trasformación de datos que nos presenta una precisión y una tasa de fiabilidad que abre las puertas a un trabajo enfocado en las distintas características que pueden ser extraídas de las señales continúas de un EEG.

1. Introducción

Actualmente, más de 50 millones de personas en el mundo sufren de epilepsia[2]. Esta enfermedad es uno de los problemas neurológicos más comunes en el mundo y se caracteriza principalmente por la presencia de convulsiones recurrentes, que van desde espasmos musculares leves de ausencia hasta largos periodos con graves contracciones musculares. Así mismo, se puede tener la presencia de distintos síntomas asociados con los trastornos de los sentidos, desde extrañas sensaciones o inclusive pérdida de la conciencia. Estos síntomas hacen que estos ataques sean potencialmente mortales. Esta enfermedad tiene una naturaleza compleja, ya que los ataques son recurrentes, se presentan de manera impredecible e infrecuente sujeto a criterios de difícil predictibilidad. Esto genera gran preocupación en las personas que la sufren, resultando en la disminución de la calidad de vida de las personas, limitándolas en su movilidad e independencia. Estas características hacen que se generen complicaciones entre las personas que la padecen y sus familias, en sus relaciones interpersonales, además de pérdida de productividad laboral, y presencia de discriminación por parte de quienes desconocen la naturaleza de la enfermedad. La medicina actual cuenta con tratamientos que dependiendo de las características de los ataques y su severidad pueden mejorar o ser eliminados totalmente. Estos tratamientos pueden ser farmacológicos, mediante el uso de anticonvulsivos, o de intervención quirúrgica. Estas intervenciones tienen como fin eliminar las células o áreas del cerebro que generan anormalidad neurológica. También, estas intervenciones pueden resultar en la introducción de dispositivos que funcionan como un estimulador nervioso, el cual mediante el uso de pulsos eléctricos leves periódicos logra disminuir la cantidad y severidad de los ataques. Sin embargo, no todas las personas logran eliminar el 100% de los ataques epilépticos.[3][4] El estudio de las señales del EEG para la predicción y detección de ataques de epilepsia continúa siendo uno de los temas más activos en las áreas de neuro-ingeniería. Estos trabajos se basan en la caracterización de las señales EEG, el procesamiento de sus valores para la caracterización de

Page 5: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

distintas medidas y el uso de algoritmos de clasificación binarios (Existe/No existe un ataque). Se han documentado la obtención de distintos resultados en la literatura dependiendo de las diferentes estrategias de extracción de información y características utilizadas sobre las señales EEG y sus configuraciones. El objetivo general del proyecto es el de generar un modelo de detención precoz de ataques de Epilepsia usando datos del EEG. Los objetivos específicos del proyecto son los siguientes:

- Desarrollar un modelo de clasificación de las ondas EEG - Caracterizar la información de ONDAS usando un alfabeto propio que permita realizar

análisis sobre flujos de cadenas de texto continuos. - Seleccionar los métodos de aprendizaje de máquina apropiados para el análisis de la

información. - Comparar el los resultados del modelo usando una caracterización de las señales para cada

paciente contra una caracterización generalizada. - Realizar pruebas de funcionamiento del modelo en diferentes pacientes que permita validar

la efectividad. Este documento se encuentra organizado de la siguiente manera: en la sección 2 encontramos un marco teórico que introduce a los conceptos básicos de la epilepsia y su diagnóstico, seguido de esto, en la sección 3 se realiza una revisión de trabajos similares seleccionados que resultan relevantes en el estudio de este trabajo sobre los ataques de epilepsia. La sección 4 describe la metodología desarrollada, en la sección 5 se detallan los pasos que fueron realizados para lograr el desarrollo del proyecto, además de los algoritmos de aprendizaje de maquina seleccionados para el desarrollo del proyecto, en la sección 6 se listan los modos de evaluación del modelo propuesto, en la sección 7 se listan los resultados obtenidos. Por último, en la sección 8 se describen las conclusiones y el trabajo futuro.

2. Marco teórico

Epilepsia[5] Es una enfermedad cerebral crónica caracterizada por convulsiones recurrentes (Crisis epilépticas). Estas crisis epilépticas son episodios breves de movimientos involuntarios que pueden afectar alguna parte del cuerpo o a su totalidad presentando síntomas como pérdida de la conciencia, cambios en la atención o pérdida del control de esfínteres. Aunque existen múltiples variedades de episodios estos tienen como característica común la propagación de una onda de actividad eléctrica neuronal descontrolada. Las características de los ataques de epilepsia son variadas y están relacionados con la ubicación de la zona del cerebro donde se presenta, así como de su propagación. Pueden presentarse síntomas como:

- Pérdida del conocimiento o ausencias - Movimientos involuntarios (Locales o generales) - Trastorno de los sentidos (Visión, audición, gusto) - Cambios de humor

Page 6: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

- Trastornos psíquicos Las personas que sufren de convulsiones son propensas a sufrir de distintos problemas físicos tales como hematomas consecuencia de los ambientes en los que se encuentran (Presencia de rocas, muebles, vehículos, etc.). Así mismo, esto genera en quienes sufren la enfermedad una alta pérdida de calidad de vida e incluso un mayor riesgo de muerte prematura. La epilepsia no es una enfermedad que se adquiera por medio de un contagio, generalmente es causada por alguna lesión que afecte el correcto funcionamiento del cerebro. Como casusas más comunes podemos encontrar:

- Daño cerebral por lesiones prenatales - Alteraciones genéticas con malformaciones cerebrales asociadas - Traumatismo craneoencefálico grave - Accidente cerebrovascular que limita la llegada del oxígeno al cerebro - Infecciones cerebrales - Tumores cerebrales - Vasos sanguíneos anormales en el cerebro - Demencia

Sin embargo, la epilepsia también puede ser idiopática, que significa que no tiene una causa identificable. Los ataques de epilepsia se pueden caracterizan por los siguientes estados:

- Interictal: Este estado comprende el periodo entre 2 crisis epilépticas. Este es el más común y corresponde a más de 99% de la vida de una persona que sufre de epilepsia.

- Ictal: Comprende el estado fisiológico de estado o evento de una crisis epiléptica. - Post-ictal: Comprende el estado inmediatamente posterior luego de sufrir una crisis

epiléptica. - Pre-ictal: Se refiere al estado justo antes de sufrir una crisis epiléptica.

No obstante, para ser considerado como un paciente con diagnóstico de epilepsia, debe presentar el paciente dos o más convulsiones sin provocación, debido a que no es extraño que por diferentes motivos las personas puedan presentar convulsiones alguna vez en su vida.

Diagnóstico El diagnóstico es realizado por un profesional de la salud en el área de la neurología, con la preparación adecuado para esta labor. Para esto se sigue una serie de pruebas y exámenes de análisis del cerebro y el sistema nervioso. Así mismo, los exámenes de la actividad cerebral son realizados por medio de un electroencefalograma (EEG) o un MRI (Imagen de resonancia electromagnética). El trabajo de diagnosticar la epilepsia es tedioso, costoso y consume un tiempo considerable de los profesionales que lo realizan, debido a que la información provista por el EEG debe ser analizada manualmente por medio de inspección visual.

Page 7: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

La información provista consiste en un registro temporal que contiene la mayor cantidad de actividad cerebral posible y que involucra varios días para aumentar las posibilidades de registrar información de los ataques. Sin embargo, la epilepsia es una enfermedad que presenta gran variabilidad entre pacientes. Existen más de 15 tipos de ataques de epilepsia dependiendo de la región del cerebro y su comportamiento, lo que causa en que la información del EEG de un paciente sea específica y sea difícil utilizarla para generalizar las crisis. En algunos casos la información de los ataques resulta muy similar a eventos normales del cerebro y pueden generar falsas alarmas o confusiones. Por lo tanto, este proceso manual puede resultar en un cuello de botella entre el diagnóstico y el inicio del tratamiento del paciente.

Electroencefalograma (EEG) Es un examen que permite medir la actividad cerebral, utilizando una serie de electrodos unidos al cuero cabelludo. Es un examen no invasivo, pero en casos donde la información superficial no es suficiente y se requiere información con mayor profundidad del cerebro se puede considerar un examen de encefalograma intracraneal que consiste en la colocación de electrodos directamente en la superficie del cerebro. El EEG realiza mediciones sobre la fluctuación del voltaje resultante de la comunicación celular que es llevada a cabo por las neuronas. Esta información corresponde a la actividad eléctrica cerebral espontánea durante un periodo de tiempo. Los electrodos se localizan utilizando el estándar internacional 10-20, donde se hace referencia a 10% o 20% del total de la distancia del frente o la parte de atrás del cráneo, son 21 electrodos los que se posicionan en el cuero cabelludo como se ilustra en la figura 1.[6]

Figura 1 Posición de electrodos sistema 10-20

Page 8: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Las señales registradas por los electrodos son clasificadas como ondas alpha (α), beta (β), delta (δ), y theta (Θ). En la figura 2 podemos ver un ejemplo de cada una de las ondas respectivas. - La onda delta tiene una frecuencia de 0.5 a 4 Hz y se detecta en bebés y adultos dormidos. - La onda Theta tiene una frecuencia de 4-8 Hz y se obtiene de niños y adultos dormidos. - La onda alpha tiene un espectro de frecuencia de 8-13 Hz y es registrada desde la región occipital en una persona despierta cuando sus ojos se encuentran cerrados. - La onda beta se encuentra en un espectro de frecuencia de 13-30 Hz y es detectada sobre los lóbulos parietal y frontal.

Figura 2 Ejemplo de ondas EEG

El EEG provee la información necesaria para realizar procesos de monitoreo durante largos periodos que permiten verificar y diagnosticar distintos tipos de anormalidades en el funcionamiento cerebral entre los que se encuentra la epilepsia.

Retos en el análisis de información de ataques de epilepsia La detección de ataques de epilepsia se realiza por medio de la verificación y seguimiento de los resultados de los EEG. Sin embargo, los estos no están libres de tener información corrupta por cuenta del ruido que se puede presentar por distintas situaciones. Parte del ruido que se presenta puede ser causado por las condiciones del ambiente donde se está realizando las mediciones, por esto es recomendable que los espacios de trabajo donde se llevan a cabo estas mediciones cuenten con características que disminuyan al mínimo la contaminación que interfiere con las mediciones (Líneas eléctricas, otros equipos electrónicos, enrutadores, etc.). Otra fuente de ruido que se presenta comúnmente consiste en los impulsos eléctricos que son generados por los distintos músculos de la región del cráneo, estos impulsos se pueden dar en acciones como masticar, hablar, movimiento de los ojos o distintas expresiones faciales. La información presentada en los EEG es específica al paciente. La caracterización de la presencia de un ataque de epilepsia en un paciente A, puede ser un cambio de estado en un paciente B, por lo que el uso de clasificadores que no son específicos a los pacientes exhibe poca precisión en la detección, además de que la información de los ataques de epilepsia varía dependiendo de la región del cerebro[7] en la cual se genere. Dependiendo de cómo se comportan los ataques de epilepsia estos pueden ser:

Page 9: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

- Focales: Tienen manifestación propia de una región del cerebro y la información registrada en el EEG refleja su ubicación, aunque estas manifestaciones pueden llegar a extenderse a otras regiones del cerebro. - Generalizados: Inician como una actividad eléctrica anormal que parece abarcar toda la corteza cerebral Además, otro problema que se presenta es que no existe una definición exacta del estado pre-ictal de los ataques de epilepsia. Aunque algunas aproximaciones encuentran características que pueden ayudar a entender este estado, la falta de validación en su funcionamiento con distintas fuentes de información no controlada dificulta el poder reproducir los hallazgos.

3. Trabajos sobre la detección y predicción de ataques epilépticos Investigaciones relacionadas con la detección y predicción de ataques epilépticos se han venido desarrollando desde la década de los 70’s. Estos trabajos han explorado todo el grupo de herramientas de análisis y procesamiento de señales aprovechando las nuevas técnicas del momento en las áreas de matemáticas y física teórica. En general estos proyectos se caracterizan como una serie de 3 pasos comunes: la eliminación de ruido, la transformación de señales y la aplicación de técnicas de aprendizaje de máquina. La eliminación de elementos que puedan provocar ruido usando filtrados y procesamiento para la preparación de la información antes de su uso, la trasformación de las señales en medidas ya sean matemáticas o físicas, y posteriormente el uso de una técnica de aprendizaje de máquina en ventanas de tiempo definidas para hacer análisis predictivos. A continuación, se presentan trabajos basados en información de EEG’s superficiales (Cuero cabelludo), describiendo las principales características del proyecto, la respectiva medición que se utilizó para el desarrollo de los modelos y algunos de los resultados obtenidos.

3.1. Seizure prediction: Methods[8] (2011) Este estudio consiste en la compilación de distintos trabajos sobre la predicción de ataques epilépticos y las distintas estrategias utilizadas para reconocer el momento en que un ataque está por venir. Se usan métodos basados en frecuencias, dinámicas no lineales y análisis estadísticos de las ondas del EEG, estas últimas siendo las más comunes. Estos métodos se caracterizan por usar análisis de series de tiempo y por trasformar estas series a alguna medida matemática o física sobre la cual pueda ser utilizado algún proceso de aprendizaje de máquina. Estas medidas son calculadas teniendo en cuenta la correcta división de los estados de ataques de epilepsia (Pre-ictal, ictal, inter-ictal) usando ventanas de tiempo deslizantes en múltiples periodos de 20 segundos. Estos análisis pueden ser divididos entre dos grandes categorías: Medidas de una sola variable o múltiples variables. Las siguientes son las medidas más utilizadas para describir información de los EEG. Univariables Estas medidas se caracterizan por el análisis de las series de tiempo en términos de la amplitud y la información de fase, con la intención de caracterizar el estado y la dinámica del sistema. Sin

Page 10: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

embargo, estas mediciones requieren que sean procesos estacionarios (La media o varianza no varíen a lo largo del tiempo), las medidas más comunes son:

- Trasformada de Fourier - Energía acumulada - Modelamiento de autocorrelación y auto regresividad - Trasformación discreta de “wavelets” - Momentos estadísticos - Dimensiones de correlación - Densidad de correlación - Entropía de Kolmogorov - Índice dinámico de similitud - Exponentes de Lyapunov

Multivariables Estas medidas se caracterizan por el análisis de más de una observación registrada a través del tiempo. Este análisis de series de tiempo busca encontrar la relación entre las diferentes observaciones del sistema. En el caso de la información de los EEG consiste en analizar la relación presente en el tiempo de los diferentes canales registrados. Las medidas más comunes son:

- Medidas simples de sincronización - Estructura de correlación - Correlación de fase - Medidas auto regresivas de sincronía - Indicador T del exponente Lyapunov de mayor duración a corto plazo - Sincronización de fase

Debido a la complejidad de la epilepsia y las limitaciones en el entendimiento del mecanismo que lleva a generar los ataques, en algunos casos, los éxitos logrados por estos proyectos han demostrado ser difíciles de replicar.

3.2. Application of Machine Learning to Epileptic Seizure Onset Detection and Treatment

[9] (2009)

Y Real-Time Elipeptic Seizure Detection Using EEG[10](2017) Estos dos trabajos presentan aproximaciones muy similares, en donde primero se realizan filtrados y limpieza de la información registrada por los EEG, y luego se procede a la caracterización de la señal en un valor durante una ventana de tiempo de 2 segundos, para luego así conformar un vector de información. Este vector además se complementa por características espaciales y temporales, para luego usar un clasificador binario con el objetivo de decidir si existe/no existe un ataque de epilepsia. En ambos casos las características espaciales fueron dadas por la ubicación de los electrodos en el cuero cabelludo de los pacientes. En [7] la caracterización de la señal EEG se realiza por medio de Banco de filtros híbrido “Filterbank“ de 8 bandas, se calcula la energía en cada una de las bandas, y se utiliza como técnica de aprendizaje de máquina para la clasificación binaria Maquina de soporte vectorial “Support vector machine”, teniendo unos resultados de detección de 96% de 163 ataques epilépticos de prueba con un promedio de tiempos de respuesta de 3 segundos. Este trabajo se dio en el marco de un modelo específico al paciente.

Page 11: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

En el segundo trabajo la característica a analizar de la señal EEG se obtiene usando un análisis de “Fractal dimensión” (FD), este análisis es usado para cuantificar la complejidad de un patrón similar a sí mismo, en conjunto con la energía de cada una de las bandas luego de usar una trasformación "Harmonic Wavelet Packet Transform" (HWPT) de 5 niveles. En este caso para la clasificación binaria se utilizó un algoritmo “Relevance Vector Machine”, teniendo unos resultados detección de ataques de 96% en las pruebas con un tiempo de respuesta promedio en las detecciones de 1,89 segundos.

3.4 Automated seizure detection using limited-channel EEG and non-linear dimension

reduction[11] (2016) Este trabajo describe un proceso de análisis de información de EEG que busca los canales de información que sean más relevantes en la predicción de los ataques de epilepsia para sobre ellos realizar un tratamiento de reducción de dimensiones en la información y hacer computacionalmente más efectiva la dinámica logrando una detección con alto grado de exactitud. En la labor de extracción de información del EEG se utilizaron ventanas de 10 segundos, y se calculó su densidad espectral para cada una de las ventanas usando la Trasformada de Fourier para cada una de las bandas de frecuencia δ, θ, α, β, γ. Posteriormente, se reduce el número de canales de información de 23 a 1-3 que sean relevantes usando una técnica de “random forest algorithm”. Luego de la reducción de canales se realiza una reducción de dimensiones usando una técnica “T-Distributed Stochastic Neighbor Embedding” (t-SNE), para representar la información de los 3 canales seleccionados en dos dimensiones, luego de esto se utiliza una técnica de “k-nearest neighbor classification model” (KNN) para una clasificación binaria existe/no existe un ataque de epilepsia.

3.5 Identifying an increased risk of epileptic seizures using a multi-feature EEG–ECG

classification [12] (2012) Este trabajo describe el proceso de análisis de información de señales EEG y ECG (Electrocardiograma) para un proceso de detección de ataques de epilepsia específicos del paciente. En el trabajo se utilizó una ventana de tiempo de 5 segundos en ambas señales para así mantener consistentes las medidas. De estas dos señales se extrajo un total de 34 características para la generación de un vector de información. Las características de los EEG y ECG extraídas fueron:

- EEG: Dominio del tiempo, dominio de frecuencias, dominio del tiempo y frecuencias - ECG: Dominio del tiempo, dominio de frecuencias

Con estas características se utilizó una técnica de aprendizaje de máquina “Suport Vector Machine” usando una clasificación linear multi-clases “one-versus-the-rest”, la cual genera 4 diferentes clases Interictal, preictal, ictal o postictal.

3.6 Análisis de datos clínicos: Metodología para predicciones sobre datos continuos y

discretos[1] (2016) Este trabajo presenta una aproximación al tratamiento de información continua, en este caso sobre la señal proveniente de un ECG (Electrocardiograma) de pacientes que se encontraban internados en cuidados intensivos. Algunos de los pacientes fueron dados de alta y los otros fallecieron en cuidados intensivos. El proceso realizado consiste en utilizar un método de aprendizaje de máquina

Page 12: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

no supervisado como K-medias para la generación de distintos clústeres, usando como características de las señales de ECG un vector compuesto por la distancia [QR, RS, ST].

Figura 3 Complejo QRST

En este caso el resultado fueron 10 clases llamadas [A, B, C, D, E, F, H, I, J] que permitía clasificar la totalidad de la información. Estas clases permitieron realizar la trasformación de una señal continua de información ECG a un flujo de datos de texto. Con estas cadenas de texto se procedió a la búsqueda y cuantificación de los patrones de un tamaño definido presentes. Luego, por medio de una regresión logística se realizó un análisis de correlación entre las variables de entrada (Presencia, no presencia de cada respectiva secuencia de texto) y la variable objetivo (Fallece, No fallece) y se procedió a identificar las cadenas de texto presentes en el flujo de datos que tenían mayor relación con la muerte de una paciente. - La epilepsia debido a su dinámica resulta muy variable entre pacientes, por esto sigue siendo un reto la búsqueda de mejorar resultados en los tiempos de respuesta y en la precisión de las detecciones. Los resultados son dependientes de las distintas aproximaciones que se usen para enfrentar el problema ya que no siempre se utilizan un mismo set de datos que permitan hacer comparaciones precisas. Sin embargo, actualmente se presentan cada vez resultados prometedores para modelos específicos al paciente. Existe la opción de usar otras aproximaciones al tratamiento del problema que nos permita obtener resultados. Esto motiva el trabajo desarrollado en este proyecto degrado, el cual es descrito en la siguiente sección.

4. Detención precoz de ataques de Epilepsia(DPAE) Para el desarrollo de este proyecto se utiliza el modelo CRISP-DM[13], promovido por IBM para el desarrollo de iniciativas de minería de datos, en conjunto con el flujo de trabajo de predicción de flujos de datos continuos propuesto en [1] . Esta metodología define los siguientes pasos: Entendimiento de los datos, preparación de datos, modelado, evaluación.

Page 13: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Figura 4 Flujo de trabajo

Cabe resaltar, que las aproximaciones de los proyectos se pueden caracterizar como estrategias de análisis de señales. Este proyecto propone hacer un análisis basado en un contexto de información continua, datos del EEG, y su trasformación de estas a señales discretas, para luego realizar un análisis de las características que se presentan en esta nueva presentación de información. Por último, hacer en un análisis en función de los grupos de secuencias que se presenta a través del tiempo. A continuación, se define el esquema general de arquitectura del trabajo desarrollado.

Figura 5 Arquitectura de la solución

La figura 5, describe los bloques de trabajo generales que se deben realizar durante todo el desarrollo y puesta en marcha del modelo trabajado en este proyecto. La información de esta arquitectura será descrita durante la sección de Obtención de características de los datos y Modelado. En la Figura 6 se detalla los scripts que fueron realizados para implementar el proceso descrito, se utilizó un total de 3 lenguajes de programación, aprovechando las fortalezas en el análisis de información en cada uno y sus librerías respecto a los tipos de datos y modelos trabajados durante este proyecto.

- Matlab: Librerías de lectura y procesamiento de archivos .edf

Page 14: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

- Java: Se desarrolló todo el análisis de segmentación de los datos, análisis de las secuencias, el procesamiento de los alfabetos, búsqueda y conteo de las secuencias.

- Python: Se usaron las librerías Panda y Numpy, para la generación del modelo de regresión logística

Figura 6 Scripts desarrollados para la implementación de la arquitectura descrita

Entendimiento de los datos A continuación, se detallan los procesos realizados para la obtención, pruebas y exploración de los datos correspondiente a los pacientes.

Información Para la realización de este proyecto se usó la base de datos CHB-MIT Scalp EEG Database[14] provista por el portal physionet.org. Esta base de datos consiste en una colección de registros de EEG de pacientes pediátricos en el “Children’s Hospital Boston” que sufren de epilepsia. Para la captura de esta información los pacientes fueron sujetos al retiro de medicamentos anticonvulsivos varios días antes con el fin de caracterizar los ataques de epilepsia y decidir si son aptos para un tratamiento quirúrgico. Los registros fisiológicos están agrupados en casos por cada paciente, son 23 pacientes (5 hombres, 18 mujeres, con edades comprendidas entre 1,5 a 22 años).

Page 15: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Figura 7 Distribución por edades y sexo de los pacientes

La información de cada paciente consiste entre 9 y 42 archivos .edf de grabaciones continuas, donde cada uno corresponde a una hora de duración (3600 segundos). Sin embargo, debido a las limitaciones del equipo usado en el proceso, entre dos archivos de grabaciones continuas existen perdidas de información para todos los pacientes, donde no se logró grabar con exactitud las señales, de máximo 10 segundos o menos en promedio. Para cada caso existe un archivo chbnn-summary.txt en donde se detallan las características de cada proceso de grabación como registro de la fecha y hora de cada captura, el número de ataques de epilepsia y los segundos exactos del inicio y fin de cada ataque presentado. A continuación, se detalla el número de muestras de ataques de epilepsia por paciente. La información presente en cada archivo .edf fue tomada con una frecuencia de 256 muestras por segundo con una resolución de 16-bits. Los archivos contienen registros de 23, 24 o en algunos casos 26 canales de información. Estos canales son nombrados usando el sistema internacional 10-20.

11 11

14

22

7

2

15

4

10

3

12

23

9

16

7

12

1819

6

13

9

6

0,0

5,0

10,0

15,0

20,0

25,0

F M F M F F F M F M F F F F M F F F F F F F F

p01 p02 p03 p04 p05 p06 p07 p08 p09 p10 p11 p12 p13 p14 p15 p16 p17 p18 p19 p20 p21 p22 p23

Edad x paciente

Page 16: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Figura 8 Número de ataques de epilepsia por paciente

No obstante, para el procesamiento de los datos se definen las siguientes opciones:

- El 50% de los datos por cada paciente será utilizado para el proceso de entrenamiento no

supervisado y segmentación.

- El otro 50% de los datos será utilizado para pruebas del modelo

Figura 9 Selección de datos para los diferentes procesos

- Para el desarrollo de los modelos supervisados se utilizará datos de pacientes que presenten más

de 5 ataques de epilepsia, de igual manera son descartados los pacientes que presentan cambios en

el número de sensores durante la toma de muestras del EEG; Esto con el objetivo de tener

información suficiente para el entrenamiento del modelo, validación y pruebas. Finalmente,

resultan seleccionados los pacientes (1,3,8,10,14,15,18,24).

De igual manera, la información para segmentación va a estar dividida entre dos estrategias. La

primera consiste en usar un modelo de segmentación por cada paciente, debido a que los ataques

de epilepsia tienen características únicas por paciente. En contraste, la segunda estrategia consiste

en hacer uno solo modelo de segmentación utilizando la información del 100% de los pacientes, con

el propósito de caracterizar el comportamiento de las señales con la mayor cantidad de información

posible, como se describe en la figura 10.

7

3

7

3

5

7

3

5

3

7

3

13

87

14

6

3

6

3

6

43 3

12

0

2

4

6

8

10

12

14

16

p01 p02 p03 p04 p05 p06 p07 p08 p09 p10 p11 p12 p13 p14 p15 p16 p17 p18 p19 p20 p21 p22 p23 p24

No de ataques x paciente

Total

Page 17: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Grafica 1 Esquema de segmentación

Es importante aclarar, que este proyecto desarrolla un modelo para usar de manera específica por

cada paciente, es decir, la descripción del proceso que se detalla a continuación debe realizarse

paciente por paciente. Así que lo descrito en este caso lo descrito en cada uno de los pasos

corresponde al análisis realizado sobre la información del paciente No 1. Por lo que, en la última

sección se usa un registro comparativo de los resultados obtenidos del conjunto de pacientes

analizados.

Page 18: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Preparación de los datos Para la lectura y carga de los datos se instaló una librería (edfRead versión 2.10 por Brett Shoelson) que permite la carga y utilización de archivos .edf en Matlab. Este trabajo de carga se sebe realizar por cada archivo que se tiene de los pacientes. Enseguida, la información en Matlab es procesada usando el módulo “signal analizer” para realizar la tarea de exploración de los datos.

Figura 10 2 segundos de ataque de epilepsia paciente 01 app “Signal analizer” Matlab

Para cada paciente se verificaron los diferentes canales de información y se realizó un análisis de

series de tiempo graficando la información en sus espectros de frecuencia durante episodios

epilépticos. Posterior a esto, para cada paciente fue seleccionado el canal de información en donde

la potencia presentara valores más altos.

Figura 11 Espectro de frecuencia de ataque epiléptico paciente 01

Page 19: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Obtención de características de la información En el desarrollo de este proyecto generamos un esquema de extracción de información de la señal del EEG que nos permite modelar y codificar la evolución de un episodio de epilepsia desde su estado pre-ictal hasta la finalización de su estado ictal. Con esta información se genera un vector de información que sirve de punto de partida para el desarrollo de los modelos a construir, y nos permite generar un mecanismo de detección de ataques de epilepsia. La señal del EEG se encuentra compuesta por diferentes espectros de frecuencias, al realizar la separación de estos componentes podemos hacer un análisis por cada uno de estos y así verificar a través del tiempo como cada frecuencia se comporta durante los estados de un ataque. Esta relación nos permite caracterizar los diferentes momentos donde un paciente presenta o no un ataque de epilepsia, dando como resultado un análisis de espectros de frecuencia y el comportamiento de su potencia en el tiempo en un estado pre-ictal e ictal. Una vez seleccionado el canal de información a utilizar del EEG luego de realizar el proceso de exploración de la información de cada paciente, se procede realizar un filtro de paso de banda sobre la señal original.

Band-pass filter: Los “band-pass filter” se usan para eliminar frecuencias específicas que son muy bajas o muy altas, lo que hace que se facilite el paso de frecuencias de un rango definido.

Señal original, donde X representa valores de energía de la serie de tiempo correspondiente al canal J (Seleccionado para el análisis)

EGG canal J = X1 X2 X3 X4 X5 … Xn

En donde los valores para la realización del filtro son definidos así:

Delta = [0.5 - 4], Theta = [4 - 8], Alpha = [8 - 13], Beta = [13 - 24]

Este proceso da como resultado 4 nuevas señales de información, que corresponden a las ondas características de los EEG, 1 por cada grupo de frecuencias:

EGG canal Jdelta = Delta1 Delta 2 Delta 3 Delta 4 Delta 5 … Delta n

EGG canal Jtheta = Theta1 Theta 2 Theta 3 Theta 4 Theta 5 … Theta n

EGG canal Jalpha = Alpha1 Alpha 2 Alpha 3 Alpha 4 Alpha 5 … Alpha n

EGG canal Jbeta = Beta1 Beta 2 Beta 3 Beta 4 Beta 5 … Beta n

En este caso la frecuencia máxima a utilizar es de 24hz, debido a que la información arriba de este margen se considera despreciable para el trabajo a realizar.

Page 20: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Figura 12 Señal original FT9FT10 y su espectro de frecuencia durante un ataque de epilepsia

Figura 13 Señal FT9FT10 dividida en sus 4 componente y sus respectivos espectros de frecuencia durante un ataque de epilepsia

La etapa siguiente consiste en calcular la potencia de cada una de las bandas de frecuencia, utilizando una ventana deslizante de tamaño S de 2 segundos, dos segundos es el tiempo mínimo necesario para que una onda Delta pueda realizar un ciclo completo. La potencia de la señal es calculada por medio de la ecuación:

𝑝 =1

𝑇∑ 𝑥2

𝑇

𝑡=1

Page 21: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

La información de las señales EEG resulta trasformada en información de las potencias correspondientes por cada grupo de bandas de frecuencias utilizada. EGG canal JDelta = P_Delta1 P_Delta 2 P_Delta 3 P_Delta 4 P_Delta 5 … P_Delta n

EGG canal JTheta = P_Theta1 P_Theta 2 P_Theta 3 P_Theta 4 P_Theta 5 … P_Theta n

EGG canal JAlpha = P_Alpha1 P_Alpha 2 P_Alpha 3 P_Alpha 4 P_Alpha 5 … P_Alpha n

EGG canal JBeta = P_Beta1 P_Beta 2 P_Beta 3 P_Beta 4 P_Beta 5 … P_Beta n

Como resultado final se obtiene un vector de información que presenta la potencia de las 4 bandas de frecuencias que se define como: Xjt = [P_Deltat P_Thetat P_Alphat P_Beta]

Figura 14 Señal FT9FT10 trasformada a sus potencias durante un ataque de epilepsia

Page 22: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

5. Modelado Para el desarrollo del proyecto se usaron técnicas de aprendizaje de máquina no supervisadas y supervisadas. En el caso no supervisado se utilizó en algoritmo de segmentación K-medias, este con el objetivo de realizar un proceso de clasificación y agrupamiento en distintas clases los vectores que representan la información de la potencia de las señales del EEG, en este caso como resultado se obtiene unos grupos de clase que nos permiten la generación de un alfabeto que será analizado posteriormente.

Generación de clases (K-medias) K-medias Es un algoritmo de clustering de particionamiento de datos, utiliza un proceso iterativo simple que asigna a un grupo de n observaciones de D dimensiones a exactamente una de las clases k definidos por sus centroides, en donde k es un parámetro definido previo a la iniciación del algoritmo. Cada elemento de las n observaciones es asignado a una clase K si este presenta la menor distancia a su centroide, en comparación con la distancia a los demás centroides. La implementación más común usa una técnica iterativa de refinamiento, que es detallada a continuación:

1. Seleccionar el número K de centroides de los clústers iniciales, estos pueden ser seleccionados al azar. 2. Calcular la distancia entre cada uno de los elementos de las observaciones a clasificar contra cada uno de los centroides de los K grupos. 3. Asignar cada una de las observaciones al clúster con la distancia al centroide más cercano. 4. Calcular el promedio de las observaciones en cada uno de los clústeres para obtener k nuevos centroides. 5. Repetir los pasos 2 a 4 hasta que la asignación de los clústeres no varíe, o el máximo número de iteraciones sea alcanzado.

Por su facilidad de uso y desarrollo, k-medias es uno de los algoritmos más usado en la minería de datos[15]. El uso más común es el de segmentación de información bajo un criterio de similaridades[16]. Así mismo, el algoritmo también es utilizado en las siguientes tareas:

- Agrupamiento de píxeles en imágenes para la cuantificación del color - Post-procesamiento para decidir los miembros de una clasificación espectral - Segmentación de imágenes - Características de aprendizaje no supervisado en redes neuronales de una sola

capa - Identificación de comportamientos similares en ejecución dinámica de programas

por muestreo estructurado de comportamientos

Page 23: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

- Selección de parámetros de inicialización para otros métodos de aprendizaje. - Selección de buenas ubicaciones para funciones base en una red de funciones

radiales

Para el proceso de segmentación del vector de información del EEG, se utilizó información de 16 horas de grabaciones por paciente, es decir una muestra de 57.000 datos. Es importante aclarar que esta muestra considera información diurna y nocturna, para lograr caracterizar distintos estados del paciente. Se seleccionó un parámetro de k = 10, luego de hacer múltiples iteraciones en el proceso iniciando desde k = 4. Luego, se observa que la clase 1 abarca un alto porcentaje de registros de información como se detalla en las figuras siguientes:

Page 24: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Figura 15 Resultado de las iteraciones con distintos valores de K

Este comportamiento se debe a que la información presenta una tendencia hacia el origen en cada una de sus dimensiones como se puede observar en la gráfica 12.

Figura 16 Histograma de cada uno de los elementos del vector de información

Como estrategia para ampliar el número de clases de los datos reunidos en la clase 1, se realizó un sub proceso de k-medias para los datos pertenecientes a la clase 1, usando un kB = 6. Finalmente, se obtuvo como resultado los siguientes datos de centroides.

Page 25: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Figura 17 Centroides resultantes por el algoritmo K-medias

Clasificación de datos Teniendo los centroides identificados, podemos proceder a realizar el proceso de clasificación del conjunto de datos inicial. Este proceso es realizado por medio de un script en JAVA que permite calcular la distancia entre cada elemento de información y verificar las distancias contra cada uno de los centroides y así seleccionar la clase adecuada.

Figura 18 Numero de clases presentes en la información usada para el cálculo de los centroides

Lo cual, nos permite generar un nuevo vector de información de la forma:

[Clase id_edf Presenta_ataque ] Clase: Corresponde a la clase seleccionada de los centroides. Id_edf: Información sobre el archivo edf correspondiente a la información

Clase P_Delta P_Theta P_Alpha P_Beta

A 373.85 134.06 34.262 88.147

B 87535 2842.3 332.96 372.15

C 33759 1873.2 147.71 154.22

D 3733.9 467.86 74.562 102.87

E 22583 1118.6 110.2 149.06

F 6518.9 639.29 81.44 110.41

G 15280 870.44 91.872 130.54

H 10223 719.37 83.076 119.98

I 1745.9 323.75 62.462 94.867

J 51163 3319.6 238.4 198.71

K 278.42 119.82 31.542 84.184

L 139.09 77.425 22.171 82.572

M 916.44 200.58 48.485 95.752

N 662.02 158.14 40.835 94.042

O 654.36 482.46 88.896 108.02

P 448.56 148.66 39.658 93.378

Page 26: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Presenta_ataque: Valor binario que nos define si en el momento esa vector hacia parte o no de un ataque de epilepsia.

Generación de secuencias de texto Cambio de un contexto de señales de potencia a un contexto de información categorial

Las cadenas de texto son generadas a partir de la concatenación secuencial de las trasformaciones de cada vector de potencias y su clase generada.

Identificación de patrones de texto Seguido al trabajo de generación de cadenas de texto, se realiza la búsqueda e identificación de patrones. En el área de la bioinformática es esencial el conteo de K-mers para realizar distintos tipos de análisis de secuenciamiento y análisis de información de ADN, por lo que es el mecanismo adecuando que nos permite identificar todas las sub-cadenas de tamaño Km que se presentan en las secuencias de texto que hemos generado.

K-mers:

Se refiere a todas las sub-cadenas de texto de tamaño k que están contenidos en una cadena de texto. La cantidad de k-mers posibles dada una cadena de texto de tamaño L es L-k+1, mientras que el número de k-mers dado N elementos del alfabeto utilizado es nk. Los k-mers son usados en el proceso de ensamble de secuencias en el área de la bioinformática [5]. Así mismo, este algoritmo es utilizado en el alineamiento de secuencias de ADN.

Se realiza el proceso de conteo de patrones usando km = 1 hasta km = 6 con un modelo de k-mers, iniciando desde km = 1 a km = 6, debido a que al aumentar el valor de km el número de combinaciones posibles aumenta de manera exponencial.

Estos k-mer son generados de una muestra de 15 minutos previos a cada ataque de epilepsia, en este periodo de tiempo a procesar realizamos una ventana deslizante de 3 minutos que nos permite hacer un análisis para caracterizar los ataques de epilepsia en un estado pre-ictal. A continuación, se define el código fuente utilizado para la identificación y conteo de las sub secuencias de texto en una cadena dada.

Page 27: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Figura 19 Código fuente en Java identificación de k-mer’s

km No de sub cadenas

1 16

2 81

3 284

4 679

5 1159

6 1581 Tabla 1 Resultados de identificación de sub cadenas

Índice de semejanza Un dato extra que se genera para el análisis de las secuencias de texto es un índice de semejanza entre cadenas de texto. Este índice se calcula haciendo uso del algoritmo descrito a continuación.

Smith-Waterman[17]: Dos cadenas de texto pueden no ser exactamente iguales o cercanas. Sin embargo, estas si pueden tener una serie de regiones en particular que sean altamente similares. El problema consiste en encontrar y extraer este par de regiones, en cada una de las cadenas de texto, que muestren estas similaridades. Este algoritmo resuelve el problema planteado, realizando un proceso de alineación de secuencias para determinar regiones similares. Se utiliza para comparar secuencias de ácidos nucleicos o secuencias de proteínas.

Figura 20 Ejemplo de alineación de dos cadenas de texto

El algoritmo se define de la siguiente manera:

Siendo A = a1a2…an y B = b1b2…bm las secuencias a ser alineadas con una longitud respectivamente de n y m

private void getKmers(String seq, int k)

{

int seqLength = seq.length();

if(seqLength > k)

{

for(int i = 0; i < seqLength - k + 1; i++)

{

process(seq.substring(i, k + i)));

}

} else

{

Process(System.out.println(seq));

}

}

Page 28: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

1. Determinar las matrices de subestación y el esquema de penalidad de las brechas. s(a,b) – Puntaje de similaridades de los elementos que constituyen las dos

secuencias Wk – La penalización de una brecha que tiene una longitud K

2. Construir una matriz de puntuación H e inicializar su primera fila y su primera columna. El tamaño de la matriz de puntuación es (n+1)*(m+1). Hk0 = H0l = 0 para 0 < k < n and 0 < l < m 3. Registrar la matriz de puntuación Hij = max Hi-1,j-1 + s(ai,bj), max k≥1 {Hi-k,j -Wk}, max l≥1 {Hi,j-l -Wl}, (1 ≤ I ≤ n ,1 ≤ j ≤ m) 0 Donde Hi-1,j-1 + s(ai,bj) es el puntaje de alineación de ai y bj, Hi-k,j -Wk es el puntaje si ai está en el final de la brecha de longitud k, Hi,j-l -Wl es el puntaje si bj está en el final de la brecha de longitud l, 0 significa que no hay similaridades entre ai y bj.

4. Hacer una regresión. Iniciando desde el puntaje más alto de la matriz H y terminando en la celda de la matriz que tiene un puntaje de 0, la regresión debe ser basada en el origen de cada puntaje recursivamente para generar la mejor alineación local.

Este índice resulta en un valor entre 0 y 1 que representa que tan semejante son consideradas las dos cadenas de texto analizadas. El texto de referencia a comparar es el grupo de secuencias de caracteres de un ataque epiléptico previamente identificado y seleccionado como referencia, se toma como referencia el primer ataque de epilepsia detectado por paciente.

Análisis de correlación de variables

Una vez identificadas cada una de las sub-cadenas presentes en el estado pre-ictal de la señal se procede a realizar el cálculo de la frecuencia de cada una de estas. Sin embargo, al tener un número tan elevado de sub-cadenas de texto se realiza un análisis de Correlación lineal (coeficiente de correlación producto-momento de Pearson) entre cada sub-cadena y la variable objetivo (presenta o no un ataque de epilepsia), se toman las primeras 600 cadenas de texto en donde el valor absoluto de la correlación se encuentra ordenado de mayor a menor, este número de cadenas en los múltiples experimentos mostró no generar una necesidad anormal de cómputo y permitió que los modelos presentaran convergencia.

A continuación, se detallan los valores de correlación obtenidos para cada uno de los valores de Km que presento un número mayor a 600 secuencias.

Page 29: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Tabla 2 Valores de correlacion para las secuencias para km = 4 a Km = 6

Los resultados obtenidos nos permiten seleccionar cuáles son las sub-cadenas a utilizar para el desarrollo de un modelo para detectar la presencia de un ataque de epilepsia.

Paso seguido, generamos una matriz para cada uno de los valores de Km, donde se lista cada una de las secuencia de texto, el número de veces que se presenta y si la variable objetivo denota la presencia o no presencia de un ataque de epilepsia.

Secuencia Correlación Secuencia Correlación Secuencia Correlación

okmk 0.56032 mmkkl 0.57446 mkkkll 0.64478

okko 0.54514 lkkli 0.56671 kkkmml 0.6305

iidh 0.53044 ookmk 0.55963 llkkli 0.56671

idhj 0.5229 kklii 0.55963 kkookm 0.56671

dhjj 0.51527 okmkm 0.55247 lkklii 0.55963

klmm 0.50779 okkoo 0.55208 kookmk 0.55963

hjjj 0.50752 lokko 0.54514 okkook 0.55927

mklm 0.50219 kmlok 0.53191 ookmkm 0.55247

jjjh 0.49966 iiidh 0.53044 kklii i 0.55247

jjhj 0.49168 iidhj 0.5229 lokkoo 0.55208

jhjj 0.48358 lmmkk 0.51948 okmkmk 0.54522

hjjg 0.47534 idhjj 0.51527 mlokko 0.54514

loio 0.47165 klmmk 0.51355 kmlokk 0.53841

dici 0.47165 mklmm 0.50779 giicii 0.53841

ddic 0.46701 dhjjj 0.50752 lii i id 0.53788

jjgg 0.46697 mmklm 0.50219 ggiici 0.53191

jggg 0.45846 hjjjh 0.49966 kkmlok 0.53191

ciid 0.45375 kmmll 0.49168 iii idh 0.53044

mmln 0.44096 jjjhj 0.49168 lmmkkk 0.5256

mlnk 0.43195 okmmk 0.49146 mkkmlo 0.5256

Km=4 Km=5 Km=6

Page 30: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Tabla 3 Ejemplo matriz de información del paciente con km = 2

Entrenamiento supervisado – Regresión logística Regresión logística[18] La regresión logística es una aproximación matemática en el cual se modela la relación que existe entre conjunto variables usando una observada. Esta relación se da entre un conjunto de variables consideradas de entrada y una variable objetivo. La regresión lineal y la regresión logística comparten características; Sin embargo, una de las características principales de la regresión lineal es que es continua indefinidamente en ambos sentidos. Así mismo, salvo líneas paralelas a los ejes X o Y este modelo no presenta un mínimo o un máximo. Y = β0 + β1X1 + β2X2 + . . . βnXn + ε, Donde Y es la variable objetivo y X las variables de entrada. Regresión lineal Estas características hacen que los modelos de regresión lineal sean los adecuados para estimar cantidades continuas en un alto rango de valores. Sin embargo, estas mismas propiedades pueden hacer que este modelo no sea el adecuado en el modelamiento de variables dependientes que tiene un comportamiento binario (1,0), (Si/No) etc., la definición de variables dependientes de tipo binaria es bastante común, de ahí que se desarrollara un modelo que pudiera solucionar esta tarea. Este nuevo modelo es llamado regresión logística. En la regresión logística la variable dependiente es una variable categórica binaria donde solo puede tomar valor de 1 o 0. Esto se logra por medio de una función que nunca sea menor que 0 y nunca sea mayor que 1 que es llamada la función logística. [19]

Figura 21 Función logística

Esta función busca encontrar un parámetro que mejor se ajuste a las siguientes características:

kp ko kn km eg kl ef kk ki ec kd dp dn dm di dh dg df pp po dd pn pm pl pk pi pf pd ip io in im cg i l Presenta ataque

7 2 4 1 0 19 0 44 0 0 0 0 0 0 0 0 0 0 7 3 0 1 0 1 9 0 0 0 0 0 0 0 0 0 0

7 2 4 0 0 19 0 44 0 0 0 0 0 0 0 0 0 0 7 3 0 1 0 1 9 0 0 0 0 0 0 0 0 0 0

7 2 4 0 0 19 0 44 0 0 0 0 0 0 0 0 0 0 7 3 0 1 0 1 9 0 0 0 0 0 0 0 0 0 0

7 2 4 0 0 19 0 44 0 0 0 0 0 0 0 0 0 0 7 3 0 1 0 1 9 0 0 0 0 0 0 0 0 0 0

7 2 4 0 0 19 0 44 0 0 0 0 0 0 0 0 0 0 7 3 0 1 0 1 9 0 0 0 0 0 0 0 0 0 1

7 2 4 0 0 19 0 44 0 0 0 0 0 0 0 0 0 0 7 3 0 1 0 1 9 0 0 0 0 0 0 0 0 0 1

7 2 4 0 0 19 0 44 0 0 0 0 0 0 0 0 0 0 7 3 0 1 0 1 9 0 0 0 0 0 0 0 0 0 1

7 2 4 0 0 19 0 44 0 0 0 0 0 0 0 0 0 0 7 3 0 1 0 1 9 0 0 0 0 0 0 0 0 0 1

7 2 4 0 0 19 0 44 0 0 0 0 0 0 0 0 0 0 7 3 0 1 0 1 9 0 0 0 0 0 0 0 0 0 0

7 2 4 0 0 19 0 44 0 0 0 0 0 0 0 0 0 0 7 3 0 1 0 1 9 0 0 0 0 0 0 0 0 0 0

7 3 4 0 0 18 0 44 0 0 0 0 0 0 0 0 0 0 7 3 0 1 0 1 9 0 0 0 0 0 0 0 0 0 0

7 3 4 0 0 18 0 44 0 0 0 0 0 0 0 0 0 0 7 3 0 1 0 1 9 0 0 0 0 0 0 0 0 0 0

7 3 4 0 0 18 0 44 0 0 0 0 0 0 0 0 0 0 7 3 0 1 0 1 9 0 0 0 0 0 0 0 0 0 0

Page 31: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Resultando en modelo de la forma:

Para cada uno de los pacientes se desarrolló un modelo de regresión teniendo en cuenta que es una matriz por cada km analizado previamente. En los casos donde la matriz tenía un número elevado de secuencias se usaron las que presentaban el valor mayor de correlación con la variable objetivo, en este caso se tuvieron en cuenta las primeras 100.

Este proceso iterativo se realizó hasta tener un modelo que arrojara los mejores resultados frente a la información de validación. Al mismo tiempo, se utilizaron validaciones cruzadas con el objetivo de encontrar los parámetros más adecuados para la regresión.

Page 32: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

6. Evaluación En el desarrollo del proyecto vamos a evaluar los siguientes aspectos del modelo:

- Número de detecciones positivas (NDP) logradas por el modelo en cada uno de los pacientes en un periodo de tiempo.

- Número de ataques que no fueron detectados (NAND) por el modelo en cada uno de los pacientes. - Número de detecciones falsas (NDF) declaradas por el modelo en un periodo de tiempo. - Tiempo de detección (TD): Tiempo que tomó cada ataque (Verdadero positivo) en ser detectado en

cada uno de los pacientes. - Finalmente, con la información de cada uno de los modelos podemos hacer un análisis de curvas

ROC ("Receiver Operating Characteristic")[20]. Esta métrica de desempeño es muy utilizada para verificar la calidad de los resultados en modelos de clasificación en investigación clínica[21]. Los posibles resultados se pueden representar en una matriz de confusión. Esta representa los 4 valores posibles del proceso de uso de un clasificador en una tabla que permite realizar un análisis rápido y de fácil entendimiento. Estos valores se representan de la siguiente manera:

Resultados predicción

Positivos Negativos

Resultados reales Positivos (p) Verdaderos positivos (vp) Falsos positivos (fp)

Negativos (n) Falsos negativos (fn) Verdaderos negativos (vn)

A partir de esta información se pueden construir múltiples métricas, que resultan de calcular los siguientes valores:

𝑻𝒂𝒔𝒂 𝒅𝒆 𝑽𝑷 =𝒗𝒑

𝒑

𝑻𝒂𝒔𝒂 𝒅𝒆 𝑭𝑷 =𝒇𝒑

𝒏

𝑹𝒆𝒄𝒂𝒍𝒍 =𝒗𝒏

𝒇𝒑 + 𝒗𝒏

Resultados parciales A continuación, se detallan las curvas ROC obtenidas para cada uno de los modelos y sus valores de Km.

Page 33: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Figura 22Información curvas ROC

Figura 23 Resultados de las métricas calculadas

Paciente Km VN FN FP VP P N total Tasa de VP Tasa FP Recall

p01 Km=1 56976 34 15919 520 16439 57010 73449 0,03 0,28 0,78

p01 Km=2 22256 1 50639 553 51192 22257 73449 0,01 2,28 0,31

p01 Km=3 52181 109 20714 445 21159 52290 73449 0,02 0,40 0,72

p01 Km=4 68630 227 4265 327 4592 68857 73449 0,07 0,06 0,94

p01 Km=5 21340 258 51555 296 51851 21598 73449 0,01 2,39 0,29

p01 Km=6 71673 554 1222 0 1222 72227 73449 0,00 0,02 0,98

Page 34: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

7. Resultados Resultados “AUC” de las curvas ROC usando centroides específicos al paciente

Figura 24 Información AUC de las curvas ROC para los centroides especificos por paciente

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p01 KM=1 2 2 0 182 8,0 84,9

p01 KM=2 2 2 0 223 0,0 207,9

p01 KM=3 2 2 0 312 5,5 62,9

p01 KM=4 2 2 0 101 52,0 40,6

p01 KM=5 2 2 0 278 0,0 177,8

p01 KM=6 2 0 2 14 NA 86,8

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p03 KM=1 3 1 1 205 61,0 86,3

p03 KM=2 3 1 1 193 204,0 77,8

p03 KM=3 3 1 1 222 18,0 87,4

p03 KM=4 3 2 0 287 21,5 127,9

p03 KM=5 3 2 0 114 0,0 134,2

p03 KM=6 3 0 2 0 NA 0,0

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p05 KM=1 2 2 0 81 49,0 278,3

p05 KM=2 2 2 0 123 107,5 52,9

p05 KM=3 2 2 0 94 102,0 62,0

p05 KM=4 2 2 0 78 67,5 205,8

p05 KM=5 2 2 0 259 0,0 91,9

p05 KM=6 2 1 1 183 204,0 61,1

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p08 KM=1 2 2 0 168 6,5 150,6

p08 KM=2 2 2 0 165 47,0 194,5

p08 KM=3 2 2 0 157 61,5 81,0

p08 KM=4 2 2 0 130 64,0 117,7

p08 KM=5 2 2 0 62 135,0 95,0

p08 KM=6 2 0 2 21 NA 85,3

Paciente km No ataques VP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

0,86

0,34

0,70

0,66

0,61

0,65

0,890,86

0,65

0,38

0,62

0,51

0,61

0,47

0,86

0,44

0,76

0,44

0,66

0,59

0,72

0,62

0,89

0,48

0,77

0,57

0,72

0,65

0,40

0,44

0,90

0,47

0,41

0,55

0,37

0,530,50

0,62

0,83

0,45

0,49 0,50

0,40

0,48

0,56

0,49

0,82

0,55

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

p01 p03 p05 p08 p10 p14 p15 p24

Valores AUC - Centroide especificos al paciente

km=1 km=2 km=3 km=4 km=5 km=6 Media

Page 35: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

p10 KM=1 3 6 0 214 8,3 269,4

p10 KM=2 3 5 1 240 0,0 190,7

p10 KM=3 3 5 1 150 16,6 144,7

p10 KM=4 3 5 1 416 78,4 115,0

p10 KM=5 3 0 6 6 NA 78,8

p10 KM=6 3 2 4 107 5,5 65,1

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p14 KM=1 3 3 0 173 26,3 134,2

p14 KM=2 3 0 3 91 NA 41,2

p14 KM=3 3 3 0 122 64,7 58,7

p14 KM=4 3 0 3 128 NA 55,7

p14 KM=5 3 3 0 199 35,7 56,3

p14 KM=6 3 1 2 56 7,0 41,4

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p15 KM=1 5 5 0 44 7,0 117,5

p15 KM=2 5 5 0 84 6,2 74,2

p15 KM=3 5 5 0 106 3,6 53,0

p15 KM=4 5 5 0 43 9,2 56,4

p15 KM=5 5 5 0 131 9,6 53,7

p15 KM=6 5 5 0 75 15,6 45,2

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p24 KM=1 6 6 0 33 11,8 182,7

p24 KM=2 6 2 4 86 42,0 55,7

p24 KM=3 6 0 6 30 NA 50,7

p24 KM=4 6 0 6 31 NA 65,2

p24 KM=5 6 1 5 71 107,0 55,5

p24 KM=6 6 3 3 115 55,3 54,3

* NA: No hubo ninguna detección positiva

Tabla 4 Resultados obtenidos en funcion de los bloques de información de presencia o no presencia de ataques de epilepsia usando centroides especificos por paciente

Page 36: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Resultados “AUC” de las curvas ROC usando centroides generados a partir de la información de todos los pacientes

Figura 25 Información AUC de las curvas ROC para los centroides generales

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p01 KM=1 2 2 0 212 7,5 99,1

p01 KM=2 2 2 0 116 0,0 535,0

p01 KM=3 2 2 0 58 49,5 34,6

p01 KM=4 2 2 0 75 74,0 51,3

p01 KM=5 2 2 0 108 33,0 45,5

p01 KM=6 2 2 0 177 0,0 307,3

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p03 KM=1 3 0 2 86 NA 64,6

p03 KM=2 3 2 0 184 118,0 45,5

p03 KM=3 3 2 0 184 120,5 66,8

p03 KM=4 3 2 0 207 163,5 71,6

p03 KM=5 3 2 0 41 0,0 1179,8

p03 KM=6 3 1 1 112 0,0 100,3

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p05 KM=1 2 2 0 75 20,5 355,3

p05 KM=2 2 2 0 111 104,5 161,8

p05 KM=3 2 1 1 80 74,0 130,6

p05 KM=4 2 2 0 45 95,0 345,5

p05 KM=5 2 2 0 205 32,5 131,3

p05 KM=6 2 2 0 171 0,0 236,6

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p08 KM=1 2 1 1 174 0,0 103,4

p08 KM=2 2 1 1 132 17,0 46,0

p08 KM=3 2 2 0 104 34,0 249,2

p08 KM=4 2 2 0 149 81,0 138,3

p08 KM=5 2 2 0 133 80,0 69,4

p08 KM=6 2 2 0 176 165,5 76,1

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p10 KM=1 3 5 1 202 18,8 67,2

p10 KM=2 3 6 0 5 0,0 1738,8

p10 KM=3 3 6 0 352 24,0 110,4

p10 KM=4 3 5 1 177 77,4 127,5

p10 KM=5 3 6 0 399 27,7 116,4

p10 KM=6 3 5 1 268 102,8 97,8

0,82

0,45

0,70

0,47

0,75

0,42

0,75

0,86

0,55

0,60

0,65

0,43

0,500,48

0,52

0,840,85

0,59 0,590,61

0,69

0,510,54

0,62

0,84

0,52

0,68

0,580,61

0,49

0,56

0,49

0,71

0,51

0,63

0,53

0,57

0,46

0,510,53

0,41 0,41

0,26

0,47

0,55

0,50 0,51

0,63

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

p01 p03 p05 p08 p10 p14 p15 p24

Valores AUC - Centroide general

km=1 km=2 km=3 km=4 km=5 km=6 Media

Page 37: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p14 KM=1 3 1 2 82 57,0 122,1

p14 KM=2 3 1 2 32 21,0 85,6

p14 KM=3 3 1 2 123 0,0 45,8

p14 KM=4 3 0 3 26 NA 56,8

p14 KM=5 3 1 2 123 195,0 39,4

p14 KM=6 3 1 2 88 117,0 34,1

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p15 KM=1 5 5 0 77 17,8 217,5

p15 KM=2 5 1 4 13 15,0 86,8

p15 KM=3 5 1 4 24 19,0 98,7

p15 KM=4 5 2 3 14 131,0 90,4

p15 KM=5 5 2 3 17 141,0 92,2

p15 KM=6 5 1 4 10 41,0 109,3

Paciente km No ataques NDP NAND NDF Tiempo promedio detección Tiempo promedio falsa alarma

p24 KM=1 6 6 0 20 13,7 238,3

p24 KM=2 6 5 1 11 28,8 20,2

p24 KM=3 6 3 3 62 36,7 59,1

p24 KM=4 6 2 4 42 81,5 67,3

p24 KM=5 6 6 0 64 0,0 447,4

p24 KM=6 6 3 3 78 45,0 55,4

* NA: No hubo ninguna detección positiva

Tabla 5 Resultados obtenidos en función de los bloques de información de presencia o no presencia de ataques de epilepsia usando centroides generales

8,0 7,5

61,0

0,0 6,520,5

8,30,0

26,3 18,87,0

57,0

11,8 17,8 11,8 13,7

0,020,040,060,080,0

Tiempo promedio en segundos de deteccion de ataques - centroide especifico vs general

KM=1

0,0 0,0

204,0

118,047,0

104,5

0,0 17,0 0,0 0,0 6,2 21,0 42,0 15,0 42,0 28,8

0,0

100,0

200,0

300,0

Tiempo promedio en segundos de deteccion de ataques - centroide especifico vs general

KM=2

Page 38: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Figura 26 Comparación de los tiempos promedios en segundos que duro la detección de cada ataque de epilepsia correctamente identificado para cada valor de Km de la información resultante con centroides específicos al paciente “ESP.” Y los centroides generales “Gen.”

0,0

50,0

100,0

150,0

Tiempo promedio en segundos de deteccion de ataques - centroide especifico vs general

KM=3

52,074,0

21,5

163,5

64,095,0 78,4 81,0

0,0

77,4

9,2 0,0 0,0

131,0

0,0

81,5

0,050,0

100,0150,0200,0

Tiempo promedio en segundos de deteccion de ataques - centroide especifico vs general

KM=4

0,033,0

0,0 0,0

135,0

32,50,0

80,035,7 27,7 9,6

195,0

107,0141,0

107,0

0,00,0

100,0

200,0

300,0

Tiempo promedio en segundos de deteccion de ataques - centroide especifico vs general

KM=5

0,0 0,0 0,0 0,0 0,0 0,0 5,5

165,5

7,0

102,8

15,6

117,0

55,3 41,0 55,3 45,0

0,050,0

100,0150,0200,0

Tiempo promedio en segundos de deteccion de ataques - centroide especifico vs general

KM=6

Page 39: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

84,9 99,1 86,3 64,6

278,3355,3

150,6103,4

269,4

67,2134,2 122,1 117,5

217,5 182,7238,3

0,0100,0200,0300,0400,0

Tiempo promedio de falsas detecciones en segundos - centroide especifico vs general

KM=1

207,9535,0

77,8 45,5 52,9 161,8 194,5 46,0 190,7

1738,8

41,2 85,6 74,2 86,8 55,7 20,20,0

500,01000,01500,02000,0

Tiempo promedio de falsas detecciones - centroide especifico vs general

KM=2

62,9 34,687,4 66,8 62,0

130,681,0

249,2

144,7110,4

58,7 45,8 53,098,7

50,7 59,1

0,0

100,0

200,0

300,0

Tiempo promedio de falsas detecciones - centroide especifico vs general

KM=3

40,6 51,3127,9

71,6

205,8

345,5

117,7 138,3 115,0 127,555,7 56,8 56,4 90,4 65,2 67,3

0,0100,0200,0300,0400,0

Tiempo promedio de falsas detecciones - centroide especifico vs general

KM=4

Page 40: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

Figura 27 - Comparación de los tiempos promedios en segundos que duraron las falsas detecciones de ataques de epilepsia por cada valor de Km de la información resultante con centroides específicos al paciente “ESP.” Y los centroides generales “Gen.”

En la figura 23 y 24 se muestra la información sobre el área bajo la curva de las regresiones logísticas

realizadas para cada paciente y sus respectivas sub-cadenas Km = 1 a km = 6. Podemos observar que

no se presenta un comportamiento común del modelo en cada paciente, cada uno presenta

diferentes resultados a medida que km aumenta - con excepción del paciente 15 que presenta unos

resultados positivos en cada km usando centroides específicos al paciente – dando resultados

mixtos. Esta variabilidad podría deberse a las diferencias de cada uno de los ataques de epilepsia de

los pacientes.

A nivel de área bajo la curva, la diferencia que presenta el modelo desarrollado con centroides

específicos al paciente y un grupo de centroides generados a partir de información de todos los

pacientes no es significativa. De igual manera, se sigue presentando variabilidad entre cada uno de

los sub-cadenas de tamaño Km. Sin embrago, si se puede observar una disminución del resultado

del paciente 15, esto puede ser debido a que la característica del ataque de este paciente no

comparte similitud con los ataques de los demás pacientes. Sin embargo, durante el proceso del

desarrollo de la regresión logística se utilizó el método de validación cruzada con el fin de buscar la

configuración del modelo que resultara en mejores resultados. Usando los valores de configuración

obtenidos por la validación los resultados fueron de menor calidad.

No obstante, los resultados obtenidos por medio de estas métricas no son información suficiente para evaluar los resultados del modelo. Estas métricas son calculadas en función de cada uno de los registros de la información utilizada para la realización de una predicción del modelo. Así que, para el desarrollo de este proyecto decidimos analizar la información de los ataques de epilepsia y comparar cada bloque de información usada para la predicción contra el bloque resultante de la

177,8 45,5 134,2

1179,8

91,9 131,3 95,0 69,4 78,8 116,4 56,3 39,4 53,7 92,2 55,5

447,4

0,0

500,0

1000,0

1500,0

Tiempo promedio de falsas detecciones en segundos - centroide especifico vs general

KM=5

86,8

307,3

0,0100,3 61,1

236,6

85,3 76,1 65,1 97,841,4 34,1 45,2

109,354,3 55,4

0,0100,0200,0300,0400,0

Tiempo promedio de falsas detecciones - centroide especifico vs general

KM=6

Page 41: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

predicción. El resultado de este proceso se encuentra en la tabla 4 y la tabla 5, cada una de estas tablas corresponde a cada una de las estrategias utilizadas - centroides específicos y centroides generales- en el desarrollo del proyecto. Podemos ver, que al usar centroides específicos da como resultado tiempos promedios menores en detección de los ataques que fueron correctamente identificados, así mismo, el tiempo promedio que duraron los falsos ataques detectados son menores. Sin embargo, cabe resaltar que usando centroides generales el número de falsos detecciones disminuye considerablemente, (8) haciendo uso de los centroides específicos contra (5) usando los centroides generales. En [9] obtienen como resultado de 2 a 5 segundos en promedio para la detección de un ataque de

epilepsia, mientras que en este modelo obtenemos tiempos significativamente más elevados,

contamos con ataques que fueron detectados segundos antes de que estos iniciaran, además se

obtuvieron resultados promedios de 5,5 segundos en algunos pacientes.

Page 42: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

8. Conclusiones En este trabajo se validó la metodología propuesta por [1] la cual fue usada a cabalidad y extendida en forma de iteraciones para poder realizar modelos específicos al paciente. Además, se debió realizar la combinación de análisis de señales, aprendizaje de maquina no supervisado (K-medias) y supervisado (Regresión logística), con el objetivo de identificar le presencia de ataques de epilepsia en un corto tiempo, además logramos realizar una comparación entre un modelo de segmentación y clasificación especifico al paciente contra uno generalizado. Como se vio en el estado del arte, la aproximación común a el problema de la detección consiste en caracterizar la información de los canales de las señales EEG en espacios donde se denote un cambio de estado. En el desarrollo de este trabajo se propone el análisis de la información desde una aproximación de la presencia de información secuencial, luego de una trasformación de información continua a información discreta, y ver la relación que existe entre estas secuencias y la presencia de ataques de epilepsia. El modelo, aunque presentar resultados positivos para distintas configuraciones de los pacientes, tiene un numero alto de falsas detecciones. Un modelo con detecciones falsas no necesariamente resulta en un modelo que no funcione, se puede tener una baja sensibilidad mientras los tiempos de detecciones sean bajos, ya que esto permitiría tomar acciones por parte los pacientes o de las personas que los cuidan de manera rápida, y si esta es una falsa detección resultaría en solo un momento de cuidado. Este trabajo abre la oportunidad al desarrollo de nuevas pruebas y análisis de la información. Se tiene todo un set de medidas y características sobre los datos de señales EEG como las descritas por [6] que permitan validar que tipo de medidas ofrecen mejores resultados. Asi mismo, el modelo puede ser puesto a prueba con informacion de señales EEG que contengan un numero mayor de muestras de ataques de epilepsia, si contamos cada ataque como un solo grupo de datos estos resultan pocos para el analisis, entrenamiento y sus correspondientes validaciones del modelo.

Por ultimo, el alfabeto y las secuencias de texto pueden ser potencialmente procesadas utilizando otros modelos para en el analisis de secuencias de texto, usados en procesos de comparaciones y analisis secuenciamientos de ADN[22].

Page 43: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

9. Bibliografía [1] A. S. Bernal, “Análisis de datos clínicos : Metodología para predicciones sobre datos

continuos y discretos,” pp. 1–45, 2016. [2] World Health Organization:, “Epilepsy,” 2017. . [3] G. L. Morris, D. Gloss, J. Buchhalter, K. J. Mack, K. Nickels, and C. Harden, “Evidence-based

guideline update: Vagus nerve stimulation for the treatment of epilepsy: Report of the guideline development subcommittee of the american academy of neurology,” Neurology, vol. 81, no. 16, pp. 1453–1459, 2013.

[4] G. J. Dohrmann and R. W. Byrne, “What’s new in neurosurgery: Advances in neurovascular and spine surgery, epilepsy surgery, surgery for movement disorders and intraoperative imaging,” Med. Princ. Pract., vol. 19, no. 5, pp. 328–329, 2010.

[5] World Health Organization, “EPILEPSY : A manual for Medical and Clinical Officers in Africa and Clinical Officers,” World Heal. Organ., p. 124p, 2002.

[6] Trans Cranial Technologies Ltd., “10 / 20 System Positioning Manual,” Technol. Trans Cranial, no. 1, p. 20, 2012.

[7] M. H. Myers, A. Padmanabha, G. Hossain, A. L. de Jongh Curry, and C. D. Blaha, “Seizure Prediction and Detection via Phase and Amplitude Lock Values,” Front. Hum. Neurosci., vol. 10, no. March, pp. 1–9, 2016.

[8] P. R. Carney, S. Myers, and J. D. Geyer, “Seizure prediction: Methods,” Epilepsy Behav., vol. 22, pp. S94–S101, 2011.

[9] A. H. Shoeb, “Application of machine learning to epileptic seizure onset detection and treatment,” pp. 157–162, 2009.

[10] asitha S. Vidyaratne and K. M. Iftekharuddin, “Real time epilectic seizure detection using eeg.pdf.” IEEE, 2017.

[11] J. Birjandtalab, M. Baran Pouyan, D. Cogan, M. Nourani, and J. Harvey, “Automated seizure detection using limited-channel EEG and non-linear dimension reduction,” Comput. Biol. Med., vol. 82, no. January, pp. 49–58, 2017.

[12] M. Valderrama et al., “Identifying an increased risk of epileptic seizures using a multi-feature EEG-ECG classification,” Biomed. Signal Process. Control, vol. 7, no. 3, pp. 237–244, 2012.

[13] C. Shearer et al., “The CRISP-DM model: The New Blueprint for Data Mining,” J. Data Warehous., vol. 5, no. 4, pp. 13–22, 2000.

[14] D. Cardiomyopathy, D. Corrado, G. Fontaine, F. I. Marcus, and W. J. Mckenna, “PhysioBank, PhysioToolkit, and PhysioNet Components of a New Research Resource for Complex Physiologic Signals,” Nat. Hist., 2000.

[15] X. Wu et al., Top 10 algorithms in data mining, vol. 14, no. 1. 2008. [16] J. Macqueen, “Some methods for classification and analysis of multivariate observations,”

Proc. Fifth Berkeley Symp. Math. Stat. Probab., vol. 1, no. 233, pp. 281–297, 1967. [17] D. Gusfield, Algorithms on Strings, Trees, and Sequences. CAMBRIDGE UNIVERSITY PRESS,

1997. [18] M. J. A. B. Gordon S. Linoff, “Data Mining Techniques: For Marketing, Sales, and Customer

Relationship Management.” John Wiley & Sons, 2011. [19] D. W. Hosmer and S. Lemeshow, “Applied Logistic Regression,” Wiley Series in Probability

and Sattistics, no. 1. p. 373, 2000. [20] K. H. Zou, A. J. O’Malley, and L. Mauri, “Receiver-operating characteristic analysis for

evaluating diagnostic tests and predictive models,” Circulation, vol. 115, no. 5, pp. 654–657, 2007.

Page 44: Luis Alejandro Herrera Correal - repositorio.uniandes.edu.co

[21] J. Cerda and L. Cifuentes, “Using ROC curves in clinical investigation: theoretical and practical issues,” Rev. Chil. infectologia, vol. 29, no. 2, pp. 138–41, 2012.

[22] B.-J. Yoon, “Hidden Markov Models and their Applications in Biological Sequence Analysis,” Curr. Genomics, vol. 10, no. 6, pp. 402–415, 2009.