clasificaciÓn de estados de sueÑo en humanos y …

CLASIFICACIÓN DE ESTADOS DE SUEÑO EN HUMANOS Y RATAS: UNA

APROXIMACIÓN CUANTITATIVA.

Torres Almanza Germán Augusto

Proyecto final presentado como requisito parcial para optar al título de:

Ingeniero Biomédico

Una Tesis Presentada Para Obtener El Título De Ingeniero Biomédico

Universidad de los Andes, Bogotá DC

Asesor:

Doctor Mario Andrés Valderrama Manrique Co-asesor:

Alejandro Osorio Forero

Universidad de los Andes Facultad de ingeniería, Departamento de ingeniería biomédica

Bogotá DC, Colombia 2015

ii

Abstract

En el presente trabajo se realizó una revisión bibliográfica sobre los distintos métodos existentes para la clasificación de estados de sueño y la información (Características) que utilizan para dicho fin. A partir de lo cual se probaron diferentes grupos de características, métodos de reducción de dimensión para optimizar el proceso de clasificación y algoritmos de clasificación supervisados como los Bosques Aleatorios o Máquinas de Soporte Vectorial y no supervisados como k-means, j-means y c-means.

El mejor resultado se obtuvo con los bosques aleatorios con un rendimiento promedio de 84.44%; sin embargo, con los clasificadores no supervisados se obtuvieron resultados entre 73.90% y 74.52%. Estos resultados son comparables a los obtenidos por un especialista en clasificación de estados de sueño. Resultados mejorables combinando clasificadores para obtener métodos más robustos.

Palabras clave: Clasificación estados de sueño, PCA, Q-α, Bosques Aleatorios, Maquinas de Soporte Vectorial, j-means, k-means, c-means.

iii

Tabla de contenido

1. Introducción y Problemática......................................................................................... 1

1.1 Introducción .................................................................................................................... 1 1.2 Planteamiento del Problema ........................................................................................... 2 1.3 Justificación ................................................................................................................... 2 1.4 Pregunta de Investigación .............................................................................................. 2

2. Objetivos de Investigación ........................................................................................... 3

2.1 Objetivo General .............................................................................................................. 3 2.2 Objetivos Específicos ...................................................................................................... 3

3. Marco Referencial.......................................................................................................... 5

3.1 Marco Conceptual ............................................................................................................ 5

3.1.1 Estados de sueño ................................................................................................... 5 3.1.1.1 Estados de sueño en humanos ...................................................................... 5 3.1.1.2 Clasificacion de estado de sueño en ratas ..................................................... 6

3.1.2 Extracción de Características ................................................................................. 7 3.1.2.1 Potencia Absoluta .......................................................................................... 7 3.1.2.2 Potencia Relativa ........................................................................................... 8 3.1.2.3 Radios entre Potencias .................................................................................. 8 3.1.2.4 Entropia Shannon ........................................................................................... 9 3.1.2.5 Entropia Aproximada ...................................................................................... 9 3.1.2.6 Entropia Muestral ......................................................................................... 10 3.1.2.7 Entropia Multiescala ..................................................................................... 10 3.1.2.8 Dimensiones Fractales ................................................................................. 11 3.1.2.9 Analisis de fluctuaciones sin tendencia (DFA) ............................................. 12 3.1.2.10 Coherencia ................................................................................................... 12 3.1.2.11 Media Aritmética Muestral ............................................................................ 13 3.1.2.12 Varianza Muestral ........................................................................................ 13 3.1.2.13 Asimetría ...................................................................................................... 14 3.1.2.14 Curtosis ........................................................................................................ 14

3.1.3 Reducción de Dimensiones .................................................................................. 15 3.1.3.1 Análisis de Componentes Principales (PCA) ............................................... 15 3.1.3.2 Método 𝑄𝛼 .................................................................................................... 18

3.1.4 Clasificadores ....................................................................................................... 19 3.1.4.1 K-Means ....................................................................................................... 20 3.1.4.2 J-Means ....................................................................................................... 21 3.1.4.3 C-Means ...................................................................................................... 23 3.1.4.4 Máquinas de Soporte Vectorial (SVM) ......................................................... 24 3.1.4.5 Bosques Aleatorios (RF) .............................................................................. 27

3.2 Antecedentes ................................................................................................................. 28

4. Metodología ................................................................................................................. 31

iv

4.1 Sujetos ........................................................................................................................... 31 4.1.1 Para Humanos ..................................................................................................... 31 4.1.2 Para Ratas ........................................................................................................... 31

4.2 Extracción de Características ......................................................................................... 32 4.2.1 Extracción de Características para Humanos ....................................................... 32 4.2.2 Extracción de Características para Ratas ............................................................. 40

4.3 Reducción de Dimensión ............................................................................................... 44 4.4 Clasificación ................................................................................................................... 45

5. Resultados ................................................................................................................... 53

5.1 Extracción de Características ......................................................................................... 53

5.1.1 Extracción de Características en Humanos .......................................................... 53 5.1.2 Extracción de Características en Ratas ................................................................ 54

5.2 Clasificación ................................................................................................................... 55 5.2.1 Clasificación de Estados de Sueño en Humanos ................................................. 55 5.2.2 Clasificación de Estados de Sueño en Ratas ....................................................... 63

6. Análisis de Resultados y Discusión........................................................................... 66

6.1 Analisis de Resultados ................................................................................................... 66 6.2 Discusión y Trabajo Futuro ............................................................................................ 68

7. Lista de Referencias .................................................................................................... 70

v Lista de Tablas

Tabla 4.1 Frecuencia de aparición de características sobre 15 artículos relacionados con clasificación de estados de sueño en humanos utilizando señales de EEG. ............................ 33 Tabla 4.2 Frecuencia de aparición de características sobre 7 artículos relacionados con clasificación de estados de sueño en ratas utilizando señales de EEG. ................................... 41

Tabla 5.1 Potencia Absoluta y Relativa vs Tipos de Normalización para tres clasificadores: Bosques Aleatorios, C-Means y K-Means. ............................................................................... 61 Tabla 5.2 Rendimiento de cada clasificador para 5 sujetos ..................................................... 62 Tabla 5.3 Resultado de Clasificación Democrática por clases. .............................................. 62 Tabla 5.4 Canal P1, F1 y P2 vs Tipos de Normalización para tres clasificadores en dos ratas: Bosques Aleatorios, C-Means y K-Means. ............................................................................... 64 Tabla 5.5 Rendimiento de cada clasificador para 4 ratas ........................................................ 65

vi Lista de Figuras

Figura 5.1 Gráfica de la característica "Máximo Coeficiente Polinomial" vs los estados de sueño en humanos. ................................................................................................................. 54 Figura 5.2 Gráfica de característica "Potencia Absoluta Delta" vs estados de sueño en humanos. ................................................................................................................................. 54 Figura 5.3 Gráfica de característica "Radio Potencia (Alpha/Gamma)” vs estados de sueño en ratas. ........................................................................................................................................ 55 Figura 5.4 Gráfica de característica "Radio Potencia (Beta/Gamma)” vs estados de sueño en ratas. ........................................................................................................................................ 55 Figura 5.5 Clasificación global del J-Means para el sujeto SC4001 con 158 características. . 56 Figura 5.6 Clasificación por estados de sueño del J-Means para el sujeto SC4001 con 158 características. ......................................................................................................................... 57 Figura 5.7 Clasificación global del K-Means para el sujeto SC4001 con 120 características...58 Figura 5.8 Clasificación por estados de sueño del k-Means para el sujeto SC4001 con 158 características. ......................................................................................................................... 58 Figura 5.9 Clasificación global del Bosques Aleatorios para el sujeto SC4001 con 120 características. ......................................................................................................................... 59 Figura 5.10 Clasificación por estados de sueño de Bosques Aleatorios para el sujeto SC4001 con 158 características. ........................................................................................................... 60 Figura 5.11 Gráfica que compara el mejor desempeño global de los cinco clasificadores utilizados en humanos .............................................................................................................. 62 Figura 5.12 Gráfica que compara el mejor desempeño global de los cinco clasificadores utilizados en ratas ..................................................................................................................... 63

1

Capítulo 1

Introducción y Problemática

1.1 Introducción

La clasificación de estados de sueño no es una tarea sencilla, requiere un gran número

de horas realizar este trabajo de manera manual. Es por ello que se han buscado formas

de realizar este trabajo de manera automática a través de algoritmos que buscan en

principio clasificar datos. Sin embargo para el uso correcto de dichos algoritmos hay

primero que extraer información de las señales que se desean utilizar, esta información

recibe el nombre de características.

Una vez obtenidas las características viene la selección de los diferentes algoritmos que

se desea utilizar. Para ello hay que tener en cuenta que los algoritmos han sido agrupados

en dos categorías, los primeros llamados algoritmos supervisados, como los vectores de

soporte vectorial o los bosques aleatorios y los no supervisados en los que se puede

incluir k-means o c-means.

Durante el proceso de prueba de los diferentes algoritmos también se han creado

herramientas que permitan una clasificación más rápida y eficiente, para poder descartar

información irrelevante. Estos son los métodos de reducción de características y ejemplo

de ellos son el PCA y Q-alpha.

El siguiente trabajo busca a partir de una serie de características realizar la clasificación

de estados de sueño a partir de algoritmos supervisados y no supervisados realizando

una comparación entre los mismo y teniendo en cuenta algoritmos de reducción de

2

características para comparar su desempeño con la ubicación de todas las

características.

1.2 Planteamiento del Problema

La clasificación de estados de sueño no es una terea sencilla, los expertos en esta área

deben pasar largas horas frente a una pantalla analizando las diferentes señales y

realizando la clasificación correspondiente. Este puede ser un trabajo arduo y repetitivo

que termina agotando al experto.

1.3 Justificación

Si se llega a encontrar un algoritmo que realice el proceso de manera automática y

eficiente, el experto en sueño se puede dedicar a actividades menos monótonas y más

productivas, los resultados de análisis de anomalías en el sueño se hacen más veloces y

eficientes al poder utilizar una computadora para clasificar a más de un paciente.

1.4 Pregunta de Investigación

¿Se puede clasificar los estados de sueño de manera automática obteniendo resultados

similares a los obtenidos por una persona experta en clasificación de estados de sueño?

3

Capítulo 2

Objetivos de Investigación

2.1 Objetivo General

Proponer un método óptimo de clasificación de etapas de sueño a partir de señales

electroencefalográficas de humanos y ratas.

2.2 Objetivos Específicos

1. Realizar una revisión bibliográfica de los diferentes métodos de clasificación

utilizados en aprendizaje de máquina y comparar las herramientas

computacionales utilizadas para la clasificación de etapas de sueño.

2. Realizar una revisión bibliográfica de los diferentes estados de sueño presentes

en humanos y ratas, sus principales características y diferencias.

3. Realizar funciones generales que utilicen los métodos de clasificación para luego

ser orientados hacia la clasificación de estados de sueño (implementación y

utilización de algoritmos relacionados con las características asociadas con

sueño).

4. Probar algoritmos para la clasificación supervisada y no supervisada de señales

electroencefalográficas en sueño de humanos y ratas.

4

5. Validar el desempeño de los diferentes algoritmos y herramientas

computacionales para la clasificación de estados de sueño en humanos y ratas.

6. Integrar los métodos de clasificación a una Interfaz para el registro y clasificación

de estados de sueño en humanos y ratas.

5

Capítulo 3

Marco Referencial

3.1 Marco Conceptual

En el presente trabajo se busca la clasificación de los estado de sueño por parte de varios

clasificadores, sin embargo para que este proceso de lleve a cabo se necesitan de una

serie de pasos. El primero es definir los estados de sueño tanto en humanos como en

ratas, la extracción de características, la utilización de algoritmos de reducción de

dimensión para optimizar el proceso y por último la clasificación. En este apartado se

explican los conceptos necesarios para realizar el debido proceso.

3.1.1 Estados de sueño

3.1.1.1 Estados de sueño en humanos

La clasificación de estados de sueño en humanos de divide de la siguiente manera:

despierto, NREM (Estado I, II y III) y REM de acuerdo a la academia americana de sueño

y medicina (AASM):

Despierto (W): tiene como características bajo voltaje (10-30 mV), frecuencias mixtas de

EEG, considerable actidividad en frecuencia alpha y alto movimiento muscular.

N-REM S1: Caracterizado por tener bajo voltaje y frecuencias mixtas cuya mayor amplitud

está en el rango de 2-7 Hz. En este estado la actividad alpha comienza a desaparecer.

Pueden ocurrir ondas agudas de vértice de amplitud 200 mV. Si después del estado

6

Despierto viene acompañado de movimiento lento de ojos (Salih Güneş, Kemal Polat,

Şebnem Yosunkaya, 2010). Estado de transición entre despierto y dormido.

N-REM S2: es caracterizado por una limitada proporción de ondas lentas, husos de sueño

(12-16 Hz), complejos K (abrupta onda negativa seguida por una onda lenta positiva) que

ocurren de manera aleatoria o por estimulación auditiva y un voltaje relativamente bajo y

frecuencias mixtas.

N-REM S3: ondas lentas de aproximadamente 2 Hz con amplitudes de 75mV, ondes delta

muy frecuentes. Husos de sueño y complejos K todavía presentes. En una clasificación

previa, esta etapa se dividía en dos partes S3 y S4, clasificación que se ha mantenido

para la realización de este estudio.

REM: presenta ondas de bajo voltaje como frecuencias mixtas tales como ondas de

diente de sierra y ondas Beta. (Academy of Sleep Medicine Task Force, 1999; Salih

Güneş, Kemal Polat, Şebnem Yosunkaya, 2010).

3.1.1.2 Clasificación de estados de sueño en ratas

La clasificación de estado de sueño en ratas de divide de la siguiente manera:

Despierto (W): Caracterizado por exhibir baja amplitud y alta frecuencia en EEG. El

espectro de frecuencias incluye alpha y gamma.

7

Sueño de ondas lentas (SWS): alta amplitud y baja frecuencia en EEG, empieza con

husos de sueño y es dominado por ondas de frecuencia delta.

REM: Baja amplitud y alta frecuencia en EEG sin embargo el animal es atónico y muestra

baja actividad muscular. Alta actividad theta y gamma (Zong-En Yu, Chung-Chih Kuo,

Chien-Hsing Chou, Chen-Tung Yen, Fu Chang, 2011)

3.1.2 Extracción de Características

Para poder realizar la clasificación de una señal en los diferentes estados de sueño es

necesario extraer información de la señal que dé cuenta de dichos estados, este proceso

es denominado extracción de características.

3.1.2.1 Potencia Absoluta

Existen diferentes formas del cálculo de la potencia absoluta pues es una medida

ampliamente utilizada para la clasificación de estado de sueño, una de las más utilizadas

es el análisis espectral de potencia. Sin embargo con el objetivo de realizar la extracción

de características cuyo tiempo sea muy bajo y que pueda ser utilizado para clasificación

de estados de sueño en tiempo real, se optó por utilizar un método más sencillo como es

el de potencia promedio, definido como:

𝑃𝑚 =∑ [𝑥(𝑛)]2𝑁

𝑛=1

𝑁

(1)

8

En donde 𝑥 = {𝑥1…, 𝑥𝑁} son los puntos de la señal y N es el número de datos

(Gomis Pedro, 2009). Este proceso se realiza en este trabajo para todas las

bandas frecueciales utilizadas.

3.1.2.2 Potencia Relativa

La potencia absoluta se puede ver afectada por factores que no están relacionados con

actividad cerebral como son la distancia entre electrodos o características del tejido entre

el electrodo y el cerebro. Por lo que es complicado comparar entre sujetos. Es por este

motivo que se han creado medidas como la potencia relativa que permitan suprimir estas

variaciones asociadas a cada sujeto.

La potencia relativa es definida como la potencia absoluta de una banda frecuencial

determinada (𝑃𝐵𝐹) dividida entre la potencia absoluta en espectro de frecuencia total (𝑃𝑇)

utilizado (Andrew F. Leuchter, Sebastian H.J. Uijtdehaage, Ian A. Cook, Ruth O'Hara,

Mark Mandelkern 1999)

𝑃𝑅 =𝑃𝐵𝐹

𝑃𝑇

(2)

3.1.2.3 Radios entre Potencias

Los radios entre potencias han sido ampliamente utilizados en la práctica clínica por tener

un significado fisiológico como por presentar gran relevancia a la hora de clasificar

estados de sueño. Tal es el caso del radio beta/delta el cual además de servir para

discriminar entre estados de sueño revela el ya conocido hecho que durante sueño ligero

hacia sueño profundo las ondas delta aumentas mientras las ondas más rápidas

9

disminuyen su actividad, especialmente beta y gamma (Anna Krakovská, Kristína

Mezeiová, 2011).

Sin embargo aunque beta/delta es bueno para discriminar se ha utilizado todas las

posibles combinaciones de bandas frecuenciales con el objetivo de observar que tan

buenas son estas características para el proceso de clasificación de estados de sueño

(Marina Ronzhina, Oto Janoušek, Jana Kolářová, Marie Nováková, Petr Honzík, Ivo

Provazník, 2012).

Los radios entre potencias se definen de la siguiente manera:

𝑅𝑃 =𝑃𝐵𝑓𝑖

𝑃𝐵𝑓𝑖+1

(3)

En donde 𝑃𝐵𝑓𝑖 es la potencia absoluta de la banda frecuencial i.

3.1.2.4 Entropía Shannon

Es una medida de la cantidad de información asociada a determinado suceso. Se calcula

de la siguiente manera:

𝐻(𝑥) = − ∑ 𝑝(𝑥𝑖)

𝑖

log (𝑝(𝑥𝑖)) (4)

Donde 𝑝(𝑥𝑖) es la probabilidad 𝑝(𝑥 = 𝑥𝑖) (C. Gómez Peña. 2009).

3.1.2.5 Entropía Aproximada

Relacionada con la predictibilidad o regularidad de la serie de datos, incluso si son

ruidosos o de pequeña longitud. Busca patrones repetitivos de longitud m comenzando

en la muestra i en la cual la distancia inducida por la norma máxima difiere hasta un

umbral de error r. Dados los parámetros r y m la entropía aproximada se define como:

10

𝐴𝑝𝐸𝑛(𝑚, 𝑟, 𝑁) = Φ𝑚(𝑟) − Φ𝑚+1(𝑟)

(5)

Donde Φ𝑚(𝑟) = 𝜀 {ln (𝑐𝑖

𝑚(𝑟)

𝑁−𝑚+1)}, siendo 𝑐𝑖

𝑚 el número de vectores 𝑥𝑖 𝜖 𝑅𝑛 tal que 𝑑(𝑥𝑖, 𝑥𝑗) <

𝑟 (Rodríguez-Sotelo JL, Osorio-Forero A, Jiménez-Rodríguez A. 2014).

3.1.2.6 Entropía Muestral

Es una mejora respecto a la entropía aproximada, ideado para resolver el sesgo de la

entropía aproximada al comparar cada vector consigo mismo. La entropía muestral

cuantifica la regularidad, con valores mayores asociados a mayor irregularidad. Esta

entropía muestral presenta una serie de ventajas sobre la entropía aproximada. La

primera es que su cálculo es más sencillo, cuando el número de muestras es reducido la

entropía muestral coincide más con el valor teórico, por último la consistencia de los datos

es mayor (C. Gómez Peña. 2009).

Para el cálculo de la entropía muestral hay que fijar dos parámetros, m y r, el primero

determina el tamaño de los valores comparados y el segundo es una ventana de

tolerancia r.

𝑆𝑎𝑚𝑝𝐸𝑛(𝑚, 𝑟, 𝑁) = −ln (𝐴𝑚(𝑟)

𝐵𝑚(𝑟))

(6)

En donde 𝐵𝑚(𝑟) es la media del número de vectores 𝑥𝑖 𝜖 𝑅𝑚 tal que 𝑑(𝑥𝑖, 𝑥𝑗) < 𝑟 con i≠

𝑗 divido por N-m+1 y 𝐴𝑚(𝑟) es la media del número de vectores 𝑥𝑖 𝜖 𝑅𝑚+1 tal que

𝑑(𝑥𝑖 , 𝑥𝑗) < 𝑟 con i≠ 𝑗 divido por N-m+1 (Rodríguez-Sotelo JL, Osorio-Forero A, Jiménez-

Rodríguez A. 2014).

3.1.2.7 Entropia Multiescala

11

La entropía multiescala es un estimador de complejidad de una serie de tiempo, en la

cual la entropía muestral es medida a varias escalas de tiempo. Dada una secuencia

temporal 𝑋 = (𝑥1, . . . , 𝑥𝑛), para calcular la entropía multiescala hay que obtener versiones

de grano grueso de la serie temporal,𝑌(𝜏), cada una de las cuales se corresponde con un

factor de escala 𝜏 (C. Gómez Peña. 2009).

𝑌(𝜏) =1

𝜏∑ 𝑥𝑖

𝑗𝜏

𝑖=(𝑗−1)𝜏+1

(7)

Posteriormente se calcula la entropía muestral para cada versión de grano grueso

obtenida a partir de la serie original (Rodríguez-Sotelo JL, Osorio-Forero A, Jiménez-

Rodríguez A. 2014).

3.1.2.8 Dimensiones Fractales

La dimensión fractal es una característica que da cuenta de la complejidad e invarianza

escalar de los datos. Estadísticamente cuantifica que tanto se parece un fractal con los

datos de entrada a diferentes escalas.

Para el cálculo de dimensiones fractales se utiliza el método de contar cajas cuyo objetivo

es representar los datos de entrada (señal) en cajas e identificar con cuantas cajas se

pueden representar los datos (Raghavendra, B.S.; Dutt, N.D. 2010).

FD es calculado como la pendiente de la línea recta ajustada a la curva formada por la

secuencia (𝑙𝑛(𝐿), (𝑆(𝐿)/𝐿)) donde L es el tamaño de una caja y S (L) el número de cajas.

Si el intervalo muestral de la señal de entrada (x= {𝑥1…𝑥𝑛}) tiene un intervalo de tiempo

∆𝑡 y tamaño de caja 𝐿 = 𝑛∆𝑡, el número de cajas S (L) se obtiene de la siguiente manera:

12

𝑆(𝑛∆𝑡) = ∑ |max(∆𝑥𝑖) − min (∆𝑥𝑖)|

𝑚𝑜𝑑(𝑁/𝑛)

𝑖=1

(8)

Donde ∆𝑥𝑖 = 𝑥𝑛(𝑖−1)+1, 𝑥𝑛(𝑖−1)+2…, 𝑥𝑛(𝑖−1)+𝑛+1. (Rodríguez-Sotelo JL, Osorio-Forero A,

Jiménez-Rodríguez A. 2014)

3.1.2.9 Análisis de fluctuaciones sin tendencia (DFA)

Es un método de análisis de señales que permite detectar las propiedades de correlación.

El primer paso es calcular la serie de tiempo integral como 𝑦 = {𝑦𝑘 = ∑ 𝑥𝑖𝑘𝑖=1 }. Luego 𝑦 se

divide en N/L cajas de longitud L. En cada caja una línea es ajustada y ordenada,

denotada por 𝑦𝑘𝐿 , se toma como la tendencia de la serie temporal en una caja. A La serie

de tiempo integral se le quita la tendencia substrayendo 𝑦𝑘𝐿. La raíz cuadrada de

fluctuación es calculada como:

𝑓(𝐿) = √1

𝑁∑(𝑦𝑖 − 𝑦𝑖

𝐿)2

𝑁

𝑖=𝑘

2

(9)

Este proceso se repite para varias longitudes de L. Finalmente el exponente escalado

que representa DFA es obtenida de la pendiente de un ajuste linear entre

𝑙𝑜𝑔10(𝐿) 𝑦 log10 (𝑓(𝐿)) (Rodríguez-Sotelo JL, Osorio-Forero A, Jiménez-Rodríguez A.

2014).

3.1.2.10 Coherencia

Se define como la conexión, relación o unión de unas cosas con otras. La coherencia ha

sido utilizada en numerosos estudios para medir el grado de relación de la actividad de

EEG y se puede definir como la relación normalizada de la densidad espectral de potencia

cruzada de dos canales distintos de EEG registrados de forma simultánea. El principal

13

interés de la coherencia de EEG es su utilización como medida de sincronización entre

dos canales para permitir realizar un estudio de las conexiones funcionales del cerebro.

La coherencia entre dos señales dadas, x(n) y y(n) es definida como:

𝐶𝑥𝑦(𝑤) =𝑆𝑥𝑦

√𝑆𝑥𝑥 ∗ 𝑆𝑦𝑦2

(10)

Donde Sxx y Syy se corresponden con la densidad espectral de potencia de las señales

x[n] e y[n], mientras que Sxy es la densidad espectral de potencia cruzada de las señales

x[n] e y[n]. El valor de 𝐶𝑥𝑦(𝑤) esta entre 0 y 1, significando que valores cercanos a 1 que

las dos señales presentan alto grado de sincronización (Bachiller Matarranz A. 2012).

3.1.2.11 Media Aritmética Muestral

La media aritmética muestral representa el centro físico del conjunto de datos y se define

como la suma de los valores observados, dividido por el total de observaciones (Mendoza

Rivera, H. 2002). Si son observaciones numéricas, entonces la media aritmética de estas

observaciones, se define para casos no agrupados como:

�̅� =∑ 𝑥𝑖𝑛

𝑖−1

𝑛

(11)

3.1.2.12 Varianza Muestral

Se puede definir como el "casi promedio" de los cuadrados de las desviaciones de los

datos con respecto a la media muestral (Mendoza Rivera, H. 2002). Su fórmula

matemática para el caso de datos referentes a una muestra es:

𝑆𝑥2 =

∑ (𝑥𝑖 − �̅�)𝑛𝑖=1

𝑛 − 1

(12)

3.1.2.13 Asimetría

Evalúa la proximidad de los datos a su media correspondiente. Su ecuación es:

14

𝑆 =𝐸(𝑥𝑖 − �̅�)3

𝜎3

(13)

Donde E(t) es el valor esperado, 𝑥𝑖 los datos, �̅� es la media de los datos y 𝜎 la desviación

estándar de los datos.

Si CAF<0: la distribución tiene una asimetría negativa y se alarga a valores menores que

la media.

Si CAF=0: la distribución es simétrica (Distribución Normal).

Si CAF>0: la distribución tiene una asimetría positiva y se alarga a valores mayores que

la media Matlab. (2015).

3.1.2.14 Curtosis

Las medidas que determinan que cantidad de datos que hay cercanos a la media. Una

medida que se usa con frecuencia y está dada por:

𝑘 =𝐸(𝑥𝑖 − �̅�)4

𝜎4

(14)

Donde E (t) es el valor esperado, 𝑥𝑖 los datos, �̅� es la media de los datos y 𝜎 la desviación

estándar de los datos. Matlab. (2015).

Cuando el valor de k=3 se dice que los datos se distribuyen forma normal, o de campana

o mesocúrtica.

Si k>3 entonces la distribución es más empinada que la curva normal y se dice que

es leptocúrtica.

15

Si k<3 entonces la distribución es más aplanada que la curva normal y se

llama platicúrtica. (Mendoza Rivera, H. 2002).

3.1.3 Reducción de Dimensiones

Para facilitar el análisis de datos por parte de los algoritmos de clasificación y ayudar a

mejorar su desempeño, se han creado una serie de herramientas que ayudan a

despreciar aquella información que se haya obtenido y que posea muy poca relevancia.

3.1.3.1 Análisis de Componentes Principales (PCA)

Es una técnica estadística comúnmente usada para encontrar patrones, ya sea en

imágenes como en datos de altas dimensiones y expresar los datos de menara que sean

evidentes tanto sus similitudes como diferencias.

Una de las ventajas que presenta el PCA es que una vez se han encontrado dichos

patrones, estos son representados de manera compacta, reduciendo el número de

dimensiones de los datos originales sin perder mucha información sobre los datos. (I

Smith, L. 2002).

Los pasos son:

1. Se saca la media de cada característica y se le resta a los datos pertenecientes a

dicha característica:

16

MDOA = 𝑀𝐷𝑂 − 𝑀𝑀𝐶 (15)

En donde MDOA es la matriz de datos originales ajustados, MDO es la matriz de datos

originales y MMC es la matriz con la media de las características.

2. Calcular la matriz de covarianzas de la matriz de datos originales.

3. Calcular los valores propios y los vectores propios de la matriz de covarianza. Los

valores propios nos dan información de acerca de patrones encontrados en los

datos.

4. Escoger los componentes que van a dar lugar a la matriz de características

transformada. Para ello se organizan los valores propios de acuerdo a que tan

significativos son, esto se hace ordenando los valores propios de mayor a menor

valor y se escogen los vectores propios correspondientes a los mayores valores

de los valores propios. Siendo el vector propio correspondiente al mayor valor

propio el componente principal del grupo de datos.

5. Se descartan aquellos vectores propios que presenten los menores valores

propios. El número de vectores propios desechados son la información que se

pierde en proceso de transformación de los datos.

6. Para determinar un número de aceptable de vectores propios se saca la varianza

acumulativa representada por los valores propios.

17

𝑉. 𝐴 = ∑ (𝑉𝑃𝐴𝑀𝑛

∑ 𝑉𝑃)

(16)

En donde VA es la varianza acumulativa, VPAMn son los valores propios

agrupados de mayor a menor y VP son los valores propios.

Cuando 𝑉𝐴 ≥ 𝑢𝑚𝑏𝑟𝑎𝑙 (𝐸𝑠𝑡𝑎𝑏𝑙𝑒𝑐𝑖𝑑𝑜 𝑝𝑜𝑟 𝑒𝑙 𝑢𝑠𝑢𝑎𝑟𝑖𝑜), se dejan de tener en cuenta

los valores propios.

7. Sacar los vectores propios correspondientes a los valores propios hasta el umbral.

8. Como último paso para la formación de la nueva matriz de características se

multiplican los vectores propios por la matriz de características originales de la

siguiente manera:

𝑁𝑀 = (𝑀𝑉𝑒𝑃) ∗ (𝑀𝐷𝑂𝐴 (17)

NM es la nueva matriz, MVeP es la matriz de vectores propios y MDOA es la

matriz de datos originales ajustados.

En donde cada fila de la matriz de vectores propios contiene un vector propio y,

en el caso de la matriz de datos originales ajustados, cada característica. (I Smith,

L. 2002).

3.1.3.2 Método 𝑸𝜶

En la época actual en donde la bioinformática, el reconocimiento visual y clasificación de

textos utilizan información cada vez más compleja, con variedad de datos, el utilizar solo

la información que sea relevante para el análisis, es un problema que adquiere cada vez

más importancia. Es por ello que se han creado algoritmos que se encargan de realizar

18

esta tarea. Uno de ellos es el 𝑄𝛼, un algoritmo iterativo bastante eficiente que ha sido

probado en distintas tareas con buenos resultados (Lior Wolf and Amnon Shashua. 2005).

El método del 𝑄𝛼es el siguiente:

Dado un grupo M de q muestras sombre el espacio dimensional 𝑅𝑛 representando n

características 𝑥1…𝑥𝑛 sobre q muestras. Siendo 𝑚1𝑇….𝑚𝑛

𝑇 Vectores de características

normalizados con la norma L2 pertenecientes a M. S es un subconjunto de características

relevantes del conjunto de n características, 𝛼𝑖 ∈ {0,1}, siendo 𝛼𝑖 = 1 si 𝑥𝑖 ∈ S. 𝐴𝑠 la matriz

de afinidad y Q es la matriz de los k vectores propios asociados a los datos más altos de

los valores propios de 𝐴𝑠. (Lior Wolf and Amnon Shashua. 2005). Se define 𝑄𝛼 como:

𝐴𝑠 = ∑ 𝛼𝑖𝑚𝑖𝑚𝑗𝑇

𝑛

𝑖=1

(18)

𝑡𝑟𝑎𝑧𝑎(𝑄𝑇𝐴𝑆𝑇𝐴𝑠𝑄𝑇) = ∑ 𝛼𝑖𝛼𝑗(𝑚𝑖

𝑇𝑚𝑗)𝑚𝑖𝑇𝑄𝑄𝑇𝑚𝑗 = 𝛼𝑇𝐺𝛼

𝑖,𝑗

(19)

𝐺 = (𝑚𝑖𝑇𝑚𝑗)𝑚𝑖

𝑇𝑄𝑄𝑇𝑚𝑗 (20)

𝑄𝛼 = 𝑀𝑎𝑥𝛼(𝛼𝑇𝐺𝛼) Sujeto a 𝛼𝑇𝛼 = 1 (21)

3.1.4 Clasificadores:

Los algoritmos de clasificación se pueden dividir entre los supervisados y los no

supervisados.

Los algoritmos supervisados son algoritmos de clasificación en los cuales se conoce a

priori el número de clases. Estas clases deben caracterizarse en función del conjunto de

variables mediante la medición de las mismas en individuos cuya pertenencia a una de

19

las clases no presente dudas (Souza, C. 2010).Las áreas de entrenamiento deben ser

tan homogéneas como sea posible.

Los algoritmos no supervisados son aquellos que no requieren información previamente

especificada sobre las clases que se desean armar para poder realizar una clasificación.

Para ello se vale de herramienta que le permitan reconocer patrones como distancias,

diferencias o medidas estadísticas. Generalmente estos algoritmos solo requieren que

se especifique cuantos grupos se desea armar y en algunos casos los puntos de partida

para realizar la partición (Rodriıguez Sotelo, pp. 95-105,2010).

Razones de interés para utilizar algoritmos no supervisados:

Útiles cuando recoger y marcar un gran número de patrones de una muestra es

extremadamente costoso y no factible.

Cuando las características o variables no cambian significativamente con el paso

del tiempo, los algoritmos no supervisados convergen de manera más rápida

generando la clasificación deseada.

Pueden encontrar y categorizar elementos jerárgicos.

La diferencia entre algoritmos de clasificación está dada por la medida para cuantificar la

agrupación y la función de actualización de partición. (Rodriıguez Sotelo, pp. 95-

105,2010)

20

3.1.4.1 K-Means:

El K-Means es un algoritmo de clasificación no supervisada. Se encarga de clasificar de

acuerdo a un número determinado de grupos.

Su idea es dado un número determinado de grupos, inicializar un numero de centrioides

igual al número de grupos especificados, dado que el resultado puede cambiar según el

lugar donde sean inicializados, es recomendable que estos puntos estén lo más alejados

uno de otro. Es importante la selección de buenos puntos de partida pues el K-Means es

sensible a este parámetro por lo que si los puntos no están bien ubicados no se va a

encontrar el óptimo global.

El siguiente paso a seguir es asignar cada punto de las observaciones a un centroide

determinado de acuerdo a la distancia mínima entre la observación y el centroide más

cercano.

Una vez realizado este proceso se procede a calcular un nuevo centroide a partir del

promedio de los puntos que pertenezcan a dicho centriode. Una vez realizado este

proceso se procede nuevamente a asignar a cada punto un centrioide.

Este proceso se repite hasta alcanzar el óptimo centroide que se alcanza al minimizar

una función de objetivo. En este caso la función de error cuadrático.

𝐽 = ∑ ∑ ‖𝑥𝑖(𝑗)

− 𝑐𝑗‖2𝑛

𝑖=1

𝑘

𝑗=1

(22)

21

En donde ‖𝑥𝑖(𝑗)

− 𝑐𝑗‖2es la distancia entre el punto 𝑥𝑖

(𝑗), 𝐽=función de desempeño y el

centroide 𝑐𝑗 (Haiyang Li, Hongzhou He, Yongge Wen. 2015).

El centroide 𝑐𝑗 se calcula de la siguiente manera:

𝑐𝑗 =∑ (𝑥𝑖)𝑁

𝑖=1

𝑁

(23)

3.1.4.2 J-Means

Consiste en actualizar los centros a través de evaluación local de la función objetivo solo

teniendo en cuenta una región alrededor del centro en vez de todo el espacio disponible.

Funciona de la siguiente manera:

Después de inicializar los centros de manera aleatoria, cada punto 𝑝𝑖 que se encuentre

fuera de una esfera de radio 𝜀 con centro 𝑞𝑖 es considerado como posible candidato para

ser nuevo centroide. Así 𝑝𝑖 rempleza al centrode actual 𝑞𝑖. Despues de actualizar, el valor

de la función objetivo es calculado usando solo el nuevo centroide. Luego el valor de la

función objetivo original (valor previo 𝑓1) es comparado con el nuevo valor de la función

objetivo (𝑓2). Si 𝑓1>𝑓2, el proceso para, en caso contrario el algoritmo empieza de nuevo

usando la misma partición inicial y la misma actualización. (Rodriıguez Sotelo, pp. 95-

105,2010).

El parámetro 𝜀 es escogido de tal manera que no hay intersección entre esferas, es por

eso que es necesaria la condición que 𝜀(𝜀 <1

2min‖𝑞𝑗 − 𝑞𝑖‖ 𝑖 ≠ 𝑗).

22

Pasos del algoritmo

1. Inicialización: escoger los centroides (Q) iniciales y se arman los grupos

correspondientes.

2. Buscar puntos no ocupados, son aquellos puntos que no coinciden con el

centroides del cluster y que están fuera de la esfera de radio 𝜀(𝜀 <

1

2min‖𝑞𝑗 − 𝑞𝑖‖ 𝑖 ≠ 𝑗) con centro 𝑞𝑗.

3. Encontrar el mejor grupo correspondiente a la función objetivo 𝑓2 en el vecindario

de salto de la solución actual.

Si 𝑓1>𝑓2

4. El proceso para y la solución son los grupos formados y su centroide asociado.

5. Caso contrario encontrar el mejor grupo formado de acuerdo a la vecindad

establecida y volver a paso 2.

Una variación del J-Means es utilizando medidas estadísticas en vez de esferas.

(Rodriıguez Sotelo, pp. 95-105,2010).

El salto pegado por el J-Means corresponde a varias reasignaciones (o movimientos de

K-Means) (Pierre Hansen, Nenad Mladenović. 2001).

3.1.4.3 C-Means

23

C-Means es un algoritmo de clasificación no supervisada más robusto que el K-Means ya

que en este, un mismo punto tiene un grado de pertenencia a todos los grupos

especificados en el algoritmo.

Dado un número determinado de grupos, estos se inicializan creando un número

determinado de centroides, los cuales se debe procurar estén suficientemente separados

uno de otro.

El objetivo de este algoritmo es la minimización de la función objetivo

𝐽 = ∑ ∑ 𝑢𝑖𝑗𝑚‖𝑥𝑖 − 𝑐𝑗‖

2𝐶

𝑗=1

𝑁

𝑖=1

(24)

𝑢𝑖𝑗 =1

∑ (‖𝑥𝑖 − 𝑐𝑗‖‖𝑥𝑖 − 𝑐𝑘‖

)

2𝑚−1

𝐶𝑘=1

(25)

𝑐𝑗 =∑ (𝑢𝑖𝑗

𝑚 ∗ 𝑥𝑖)𝑁𝑖=1

∑ 𝑢𝑖𝑗𝑚𝑁

𝑖=1

(26)

Donde m es el exponente matricial de la partición, un número real mayor a 1 si no se

desea sobrelapamiento, N es el número de datos, C el número de grupos 𝑢𝑖𝑗 es el grado

de pertenencia de 𝑥𝑖 al cluster 𝑐𝑗.

La iteración para cuando ‖𝑢𝑖𝑗𝑘+1 − 𝑢𝑖𝑗

𝑘 ‖ < 𝑆 siendo S, el criterio de parada, un número

entre 0 y 1. (Adrian Stetco, Xiao-Jun Zeng, John Keane, 2015)

3.1.4.4 Máquinas de Soporte Vectorial (SVM)

24

Es un método de clasificación supervisada formalmente definido por un hiperplano

separador. En pocas palabras, dado una matriz de entrenamiento con su correspondiente

vector de resultados, el SVM devuelve un hyperplano óptimo que categoriza las variables

de prueba.

El presente algoritmo posee ciertas ventajas y desventajas, por un lado la ventajas a

destacar son: efectivo para espacios de alta dimensión, efectivo aun cuando el número

de dimensiones es más grande que el número de muestras, es eficiente con el espacio

de memoria disponible y es versátil pues puede recibir distintos kernels para mejorar el

resultado; por otro lado sus desventajas son: si el número de características es mucho

más grande que el número de muestras va a dar un resultad deficiente y el SVM

directamente no da estimados de probabilidad, estos toca calcularlos usando validación

cruzada. (Pedregosa, F. and Varoquaux, G. and Gramfort, A. 2011)

Los SVM construyen un hiperplano o un conjunto de hiperplanos en un espacio

dimensional alto que puede llegar a ser infinito para clasificar. Su formulacion matemática

es:

Minimización de la función de error

1

2𝑤𝑇𝑤 + 𝐶 ∑ 𝜍𝑖

𝑁𝑖=1 sujeto a 𝑦𝑖(𝑤𝑇𝜙(𝑥𝑖) + 𝑏) ≥ 1 − 𝜍𝑖 , 𝜍𝑖 ≥

0 𝑝𝑎𝑟𝑎 𝑖 = 1 … . 𝑁

(27)

Donde C es una constante de importancia para maximizar la margen y minimizar la

holgura, w es el vector de coeficientes, b es una constante y 𝜍𝑖 es una variable

25

estacionaria que le permite a un punto pertenecer a la margen (0 ≤ 𝜍𝑖 ≤ 1) o ser mal

clasificado (𝜍𝑖 > 1), esta variable también es llamada error de margen. 𝑦𝑖 Representa las

clases asociadas y 𝑥𝑖 las variables independientes. (StatSoft, Inc. 2013).

El kernel 𝜙(𝑥𝑖) : es una función de similitud que transforma los datos para realizar la

clasificación (Souza, C. 2010). Los hay de varios tipos:

Linear: 𝐾(𝑢, 𝑣) = 𝑢𝑇𝑣 + 𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 (28)

Gaussiano: 𝐾(𝑢, 𝑣) = 𝑒−𝛾‖𝑢−𝑣‖2 (29)

Polinomial: 𝐾(𝑢, 𝑣) = (𝛾𝑢𝑇𝑣 + 𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒)𝑑 (30)

El parámetro 𝛾 controla la intensidad de la margen. Utilizado para adaptarse a los datos

de entrenamiento. A mayor sea este, menos support vectors va a tomar para la

construcción del modelo por tanto se genera una solución más dispersa y menos exacta

(Souza, C. 2010).

Incrementar el valor de C aumenta la efectividad aun a costa de los vectores de soporte

que debe tomar aunque esto hace que sea difícil de generalizar para puntos fuera del

rango de los datos de entrenamiento, por el contrario un C suave disminuye la efectividad

del modelo (Souza, C.2010).

Validación Cruzada: es un método estándar para ajustar los hiperparámetros de un

modelo predictivo.

26

Para ello se parte la muestra S en K subgrupos de manera aleatoria y con la misma

cantidad de puntos cada grupo 𝑆 = 𝑆𝑖 … . . 𝑆𝑘. Luego se define 𝑆/𝑖 como la unión de todos

los puntos de S que no pertenecen a 𝑆𝑖. Para cada subgrupo se crea un modelo individual

aplicando el algoritmo de SVM a la base de entrenamiento 𝑆/𝑖. Esta función es evaluada

por medio de una función de desempeño utilizando la base de prueba 𝑆𝑖. El promedio de

los K resultados de la evaluación del modelo es llamado prueba de desempeño de

validación cruzada. (Christian Igel, Verena Heidrich-Meisner, and Tobias Glasmachers,

2008).

Para escoger el mejor C y 𝛾 primero se hace la partición en subgrupos, luego se corre la

prueba de desempeño de validación cruzada obteniendo así distintos valores para C y 𝛾

para posteriormente escoger el que de mejores resultados. (Christian Igel, Verena

Heidrich-Meisner, and Tobias Glasmachers, 2008)

3.1.4.5 Bosques Aleatorios

Bosques Aleatorios es un método de clasificación supervisada derivado de los árboles de

decisión.

Dado una base de entrenamiento con su correspondiente vector de respuestas, se crean

un número aleatorio de árboles de decisión y en cada árbol de acuerdo a las

características que presenten los puntos de la base de entrenamiento, estos serán

agrupados en las diferentes clases presentes en el vector de respuestas. Cada árbol será

pues un subgrupo de entrenamiento. (Liaw, A., & Wiener, M. 2002).El procedimiento es

el siguiente:

27

Para cada árbol de decisión se extraen N puntos al azar de la base de entrenamiento,

con reemplazo para crear un subconjunto de datos. Este subconjunto debe ser

aproximadamente el 66% del conjunto total (bootstrap) (Liaw, A., & Wiener, M. 2002).

En cada nodo se selecciona un número m aleatorio de características de la base de datos

de entrenamiento. La característica de m que mejor división tenga se utiliza para hacer la

división binaria en ese nodo.

En el siguiente nodo se eligen otras m variables y se repite el proceso anterior.

El valor de m debe ser por mucho inferior a M y debe permanecer constante durante todo

el proceso.

Una vez entrenado el clasificador, al utilizar la base de datos de prueba, esta va a pasar

por todos los arboles creados en el modelo, generando cada árbol su propio resultado.

El resultado final es o bien el promedio o la media ponderada de los distintos arboles

creados en sus nodos terminales o en el caso de una variable categórica, la mayoría de

votantes (Liaw, A., & Wiener, M. 2002).

El presente algoritmo posee ciertas ventajas y desventajas, por un lado las ventajas a

destacar son: funciona eficiente en grandes bases de datos, puede manejar grandes

miles de variables de entrada sin borrador de variables, mantiene precisión aun cuando

faltan datos en las observaciones, los bosques generados pueden ser guardados para

28

uso futuro, se puede localizar valores atípicos en las observaciones; por otro las

desventajas son: cuanto mayor sea la correlación entre los nodos de un árbol mayor será

la taza de error entre variables, para sobreajuste en ciertos sets de datos produce ruido,

es de difícil interpretación manual, para variables categóricas con diferentes números de

niveles, los arboles aleatorios favorecen a aquellos valores que sobresalgan en número

por encima del resto, dado su aleatoriedad cada modelo de entrenamiento será distinto

por lo tanto su resultado también es variable aun para la misma serie de datos. (Breiman,

L., & Cutler, A. 2007).

3.2 Antecedentes

Existen diversos algoritmos de clasificación automática que han sido especialmente útiles

para el proceso de clasificación de estados de sueño. Entre los más utilizados en

humanos están las redes neuronales, bosques aleatorios, k-means, c-means, j-means y

máquinas de soporte vectorial.

Cada uno de estos algoritmos han sido probados bajo diferentes condiciones, tal es el

caso de c-means en donde a través de señales de EEG y con una modificación en su

algoritmo para hacerlo más robusto, se han obtenido rendimientos de 82.15% (Salih

Güneş, Kemal Polat, Şebnem Yosunkaya. 2010); el j-means con dos canales de EEG,

rendimientos del 80% (Rodríguez-Sotelo JL, Osorio-Forero A, Jiménez-Rodríguez A.

2014); k-means, con rendimientos del 81% en señales de EEG (Shi J, Liu X, Li Y, Zhang

Q, Yin S. 2015); las máquinas de soporte vectorial en donde se utilizaron señales de EEG

y un kernel de tipo “Morlet”, se obtuvieron resultados del 92,93 % (Varun Bajaj, Ram Bilas

Pachori. 2013) y con un kernel gaussiano en señales polisomnograficas, rendimiento de

65.55 % (Fehrmann, Elizabeth. 2013).

29

Redes neuronales con un solo canal de EEG con las cuales, se obtienen resultados del

90 % (K. Venkatesh, S. Poonguzhali, K. Mohanavelu, K. Adalarasu, 2014) y 93%

(Ebrahimi, F., Mikaeili Mohammad, Estrada E., Nazeran H., 2008); al utilizar señales

polisomnograficas 65.52% (Fehrmann, Elizabeth. 2013), 74.7% (M. Emin Tagluk,

Necmettin Sezgin Mehmet Akin. 2010).

Bosques aleatorios con un solo canal de EEG, rendimientos del 83% (Luay Fraiwan,

Khaldon Lweesy, Natheer Khasawneh, Heinrich Wenz, Hartmut Dickhaus. 2012).

Utilizando una mezcla de dos clasificadores como son las máquinas de soporte vectorial

y bosques aleatorios con señales polisomnograficas, rendimientos del 85% (Teresa

Sousa, Aniana Cruz, Sirvan Khalighi, Gabriel Pires,Urbano Nunes.2015); 92% con una

modificación que incluye árboles de decisión y máquinas de soporte vectorial (Tarek

Lajnef, Sahbi Chaibi, Perrine Ruby, et all. 2015).

La puntuación de estados de sueño en ratas utilizando métodos de clasificación

automática, es una práctica que empieza a coger fuerza en los últimos años, tratando de

reemplazar la clasificación manual, en donde los principales algoritmos de clasificación

son las máquinas de soporte vectorial y clasificación de Bayes.

Al igual que ocurre en humanos, estos algoritmos se han probado bajo diferentes criterios,

un ejemplo de ello es utilizando señales de EEG y EMG (Electromiografía) en donde bajo

el clasificador de máquinas de soporte vectorial se han obtenido rendimientos del 96%

(Shelly Crisler, Michael J. Morrissey, A. Michael Anch, David W, 2008); al utilizar el

30

algoritmo k vecinos más cercanos (KNN) 95.43% (Zong-En Yu, Chung-Chih Kuo, Chien-

Hsing Chou, Chen-Tung Yen, Fu Chang, 2011) y con clasificacion Bayes 93% (Kirsi-Marja

Rytkönen, Jukka Zitting, Tarja Porkka-Heiskanen, 2011).

31

Capítulo 4

Metodología

4.1 Sujetos

4.1.1 Para Humanos:

Se extrajeron 40 archivos pertenecientes a 40 sujetos provenientes de la base de datos

de Physionet “The Sleep-EDF Database “. Dentro del archivo de cada sujeto se

encontraba la frecuencia a la que habían sido muestreados, los diferentes canales

utilizados, información de las unidades de cada canal, información de los canales entre

otros. (Goldberger AL, Amaral LAN, Glass L. 2000).

En particular para este estudio solo se utilizaron los canales provenientes de señales de

Electroencefalografía (EEG), siendo estos el canal EEG FpzCz y el canal EEG PzOz.

El vector que contenía la clasificación de estados sueño contenía las siguientes clases 0

(W), 1 (S1), 2 (S2), 3 (S3), 4 (S4), 5(REM) y en algunos casos 6 (Artefactos) que no se

tuvo en cuenta por no estar en todos los sujetos y porque su cantidad era escasa en

aquellos donde se encontraba.

4.1.2 Para Ratas:

Se utilizaron 15 archivos de una hora entre 4 ratas pertenecientes al laboratorio

de neurociencias y comportamiento, estos datos fueron facilitados personal del

laboratorio, quienes se encargaron de realizar su correspondiente hipnograma de

manera manual.

32

Estos datos contienen la frecuencia de muestreo, los canales utilizados, el nombre de los

canales entre otros datos de interés. El vector que contenía la clasificación de estados

contenía las siguientes clases 1 sueño lento (SWS), 2 REM, 3 W, 4, 5 y 6.

4.2 Extracción de Características

Para la extracción de características se creó una función auxiliar, llamada “DivEnEpocas”

que recibe como parámetros la señal, la frecuencia de muestreo y las épocas que se

desea armar. El objetivo de esta función es dividir la señal en las épocas especificadas

de acuerdo a la frecuencia de muestreo, de hecho precisamente este es el valor que

devuelve la señal agrupada por épocas en una matriz. También devuelve una matriz de

tiempo correspondiente a la matriz de la señal por periodos y un vector final producto de

los datos restantes que no alcanzaron a completar una época junto con su vector de

tiempo correspondiente. Durante todo el proceso no se utilizaron los valores de tiempo ni

el vector final de datos.

4.2.1 Extracción de Características para humanos

Para la extracción de características en humanos se revisaron 15 artículos de los cuales

se extrajo las características más frecuentemente utilizadas durante el proceso de

clasificación de estados de sueño a través de señales de EEG (Tabla 4-1), siendo las

más utilizadas aquellas relacionadas con potencias, bien sea que fueran sacadas por el

método wavelet o con el análisis espectral de potencia.

Para la extracción de características se utilizaron las siguientes bandas frecuenciales:

33

Delta: (entre 1 y 4 Hz), Theta: (entre 4 y 8 Hz), Alpha: (entre 8 y 13 Hz), Beta (entre 13 y

30 Hz), Gamma (entre 30 y 49 Hz), Gamma baja (entre 35 y 45 Hz), Gamma alta (entre

46 y 49 Hz), Rango Fisiológico (entre 1 y 49 Hz).

Tabla 4.1: Frecuencia de aparición de características sobre 15 articulos relacionados con clasificación

de estados de sueño en humanos utilizando señales de EEG.

EEG Características

Frecuencia

Dominio tiempo Magnitud 3 Media 3 Desviación estándar 3

Valores cuadráticos Magnitud 4 Varianza 4 Asimetría 4 Curtosis 4 Magnitud cuadrática de radios 4

Dominio Frecuencial Densidad espectral de potencia promedio 4 Densidad espectral de potencia total 4 Frecuencia espectral promedio 4 Desviación estándar espectral 4

Wavelet Media cuadrática del valor de la energies 5 Energía total 5 Radios entre diferentes valores de energía 5 Promedio de valores absolutos 4 Desviación estándar 4

34

Amplitud máxima 4 Amplitud mínima 4

Entropia Muestral 5 Para ello se utilizó un filtro pasa bandas sobre señales correspondientes a

electroencefalograma entre las frecuencias de interés. Este filtro es realizado por la

función “f_GetIIRFilter.m” (Mario Valderrama Universidad de los Andes) que recibe como

parámetros la señal, la frecuencia de muestreo y las bandas frecuenciales y devuelve los

coeficientes del filtro (se utilizan los coeficientes SOSMatrix y ScaleValues), coeficientes

que luego se introducen en la función “filtfilt” (Matlab 2015) junto con la señal original para

producir la señal filtrada deseada.

Seguidamente a partir de los resultados de la Tabla 4.1 se implementaron las siguientes

características para humanos:

Potencias:

o Potencias Absolutas

o Potencias Relativas

o Potencia Máxima

o Frecuencia de la Potencia Máxima

o Radios Entre Potencias

Entropías:

o Entropía Shannon

o Entropía Aproximada

o Entropía Multiescala

o Entropía Muestral

35

Dimensiones Fractales:

o FDCubes

o FDA

Coherencia

Asimetría

Las entropías y dimensiones fractales se sacaron solo para el rango fisiológico mientras

las demás se sacaron para las diferentes bandas frecuenciales.

Todas estas características se sacaban en un conjunto de funciones:

La primera llamada “f_Caracteristicas3” que tiene por parámetros la señal, la frecuencia

de muestreo, el número de épocas (tamaño de ventana), una serie de parámetros

llamados flag_Nombre_Características con los cuales de ser 1 se calculaba la

característica deseada y el nombre de cómo se iban a guardar dichas características.

Esta función dentro de su algoritmo solo calcula las características que se pueden sacar

por canal, es decir se calcula todas las características mencionadas anteriormente menos

la asimetría y la coherencia. El algoritmo llama a la función “Nombres_Caracteristicas”

que se encarga de armar los nombres de las características utilizadas solo cuando sus

parámetros flag_Nombre_Características sean iguales a 1. Estos nombres son

guardados en esta función igual que todas las características. Adicional, estas

características junto con los nombres fuero colocado en los parámetro de salida.

36

Esta función se utilizó de la siguiente manera: la señal perteneciente a EEG, su frecuencia

de muestreo correspondiente, el tamaño de ventana se 30 segundos,

flag_Nombre_Características se dejó en 1 para cada característica y se puso un nombre

de acuerdo al canal.

La otra función utilizada es “Caracteristicas_Completas” que recibe como parámetros la

señales (fueran o no de EEG), las respuestas, los nombres de los canales, el tamaño de

ventana (30 segundos), la frecuencia de muestreo, flag_Nombre_Características que de

ser 1 incluye la característica deseada y 0 en caso contrario y por último en nombre con

el que se desea guardar los datos sacados por esta función.

El objetivo es llamar la función “f_Caracteristicas3”, para que calcule las características

por canal de EEG y luego las características de todos los canales de EEG sean agrupados

en una matriz junto a las características entre canales, es decir asimetría y coherencia

que se calculan en esta función. Para identificar cuales canales pertenecían a EEG se

creó un vector con los nombres de los canales de un sistema 10-20. Si el nombre del

canal contiene dicho nombre, era tomado y se sacaban las características y nombres

correspondientes.

La otra tarea de esta función es agrupar los nombres de las características y sumar los

nombres de asimetría y coherencia. También coloca el vector de respuestas para que

empiece en 1 y no en 0 como se estaba observando en los datos obtenidos. Esta función

guarda todas las características utilizadas, junto con sus nombres y el vector respuestas

y están en los parámetros de salida de la función.

37

En total se tenían 158 características para hacer la clasificación de los diferentes estados

de sueño. Sin embargo los resultados no fueron coherentes de acuerdo a lo esperado,

por lo tanto se propuso otro grupo de características. Este segundo grupo omitía las

características de entropía, así como coherencia, asimetría y dimensiones fractales.

El motivo de la omisión de características es el ruido que provoca el tener muchas de

estas, así se tengan algoritmos de reducción de las mismas. Adicionalmente, se crearon

graficas de los valores promedios que tomaban las diferentes características vs los

estados de sueño correspondientes, esto para tratar de encontrar un grupo de

características óptimo para realizar el proceso de clasificación.

Una vez suprimidos estos resultados quedaron 120 características con las que se planteó

una nueva clasificación, aun así se planteó un tercer grupo de características utilizando

algunas caracterizas que no se habían utilizado en los grupos anteriores.

Las características utilizadas en este tercer grupo fueron:

Potencia Relativa

Medidas Estadísticas:

o Media

o Varianza

o Curtosis

o Asimetría

38

Las medidas estadísticas se calculaban para la banda frecuencial “Rango Fisiológico”.

Sin embargo basado en las gráficas de promedio de valores contra estados de sueño se

sabía que las potencias Absolutas ayudaban a diferenciar mejor entre estados de sueño,

por lo que se planteó la realización de un análisis que involucraba diferentes tipos de

potencias.

Para el cálculo de estas nuevas características se realizaron tres funciones.

La primera llamada “f_Pot_Abs_Rel_y_Estadisticas”, esta función recibe como

parámetros la frecuencia de muestreo, las épocas en las que se va a dividir la señal (30

segundos), la señal, las bandas frecuenciales y el vector flag que calcula las

características a utilizar cuando su valor sea 1. Esta función calcula las características

deseadas para un solo canal. El orden del vector flag es: Potencias absolutas, potencias

relativas, media, varianza, curtosis, asimetría (no entre canales). Adicionalmente llama a

la función “Nombres_Caracteristicas2” que de acuerdo al vector flag, devuelve los

nombres de las características a utilizar cuando su valor sea 1.

La siguiente función es “f_Pot_Abs_Rel_y_Estadisticas2” que recibe como parámetros

todas las señales de un sujeto, las respuestas de clasificación, los nombres asociados a

la señal de cada canal, la frecuencia de muestreo, las épocas en las cuales se va a dividir

la señal, un vector llamado v_contador que lleva dentro el número de los canales

pertenecientes a señales de EEG, el nombre que se le desea dar a la matriz de

39

características, si se desea guardar(1) o no (valor diferente de 1) las características y el

vector flag, que es el mismo utilizado en la función mencionada anteriormente.

El objetivo de esta función es llamar la función “f_Pot_Abs_Rel_y_Estadisticas”, para que

calcule las características por canal de EEG y luego las características de todos los

canales de EEG sean agrupados en una matriz junto a sus nombres asociados. El vector

de respuestas de clasificación que se modifica para que este no empiece en 0 sino en 1

para posteriormente realizar la clasificación.

La última función es llamada “para_v_contador” y recibe como parámetros los nombres

de los canales de las señales de un sujeto y devuelve el vector v_contador. Su función

es identificar aquellos canales que pertenecen a señales de EEG de acuerdo al sistema

de 10-20 de EEG.

La funcion “para_v_contador” queda fuera de la funcion “f_Pot_Abs_Rel_y_Estadisticas”

con el objetivo de que si esta función no extrajera correctamente los canales de EEG se

modificaran manualmente sus valores para utilizar los canales de EEG deseados.

Para este tercer grupo de características se plantearon tres tipos de normalizaciones, lo

cual llevo al planteamiento de la siguiente pregunta ¿Qué tipo de normalización se

debería utilizar?

Se plantearon tres diferentes formas de normalización con el objetivo de utilizar aquella

con la cual se obtuvieran los mejores resultados.

40

Las normalizaciones planteadas son:

La normalización de círculo unitario que coloca los valores de las características

entre 0 y 1.

La normalización z-score que aproxima los datos delas características a una

función normal

La normalización L2 que hace que la energía de las características igual a 1

(Mathis, B. 2014)

Hasta este momento, las características se normalizaban utilizando la normalización de

circuló unitario.

El análisis mencionado anteriormente, trataba de responder a las preguntas ¿Qué grupo

de características deben acompañar a las medidas estadísticas, las potencias absolutas,

las potencias relativas o utilizar ambas? ¿Qué tipo de normalización es mejor para

maximizar la calidad de los resultados?

Para ello se combinaron 10 sujetos de 9 maneras diferentes. Variación entre potencia

absoluta, potencia relativa, potencias absolutas + relativas y variando la normalización.

Para cada “Sujeto Combinado” se extrajo un 30% de los datos por estado de sueño, se

analizaban cuantos datos pertenecían a cada etapa de sueño y de estos se extraían el

30% de manera aleatoria para realizar la prueba.

4.2.2 Extracción de Características para Ratas:

41

Para la extracción de características en ratas se analizaron 7 artículos sobre clasificación

de estados de sueño a partir de señales de EEG (Tabla 4.2). En esta revisión las

características relacionadas con potencia fueron las más utilizadas.

Tabla 4.2: Frecuencia de aparición de características sobre 7 artículos relacionados con clasificación

de estados de sueño en ratas utilizando señales de EEG.

Características Frecuencia

Potencia Absoluta 7

Potencia Relativa 7

Radios entre Potencias 4

Potencia máxima 4

Para extracción de características en ratas se utilizaron las siguientes bandas

frecuenciales:

Delta (entre 0.5 y 4), Theta (entre 4 y 10), Alpha (entre 9 y 12), Beta (entre 13 y 25),

Sigma (entre 10 y 18), Gamma (entre 25 y 35) Rango Fisiológico (entre 0.5 y 35).

Para ello se utiliza un filtro basa bandas sobre la señal entre las frecuencias de interés.

Este filtro es realizado por la función “f_GetIIRFilter.m” (Mario Valderrama Universidad de

los Andes) que recibe como parámetros la señal, la frecuencia de muestreo y las bandas

frecuenciales y devuelve los coeficientes del filtro (se utilizan los coeficientes SOSMatrix

42

y ScaleValues), coeficientes que luego se introducen en la función “filtfilt” (Matlab 2015)

junto con la señal original para producir la señal filtrada deseada.

A las características más utilizadas para la clasificación de estados de sueño en ratas se

le adicionaron medidas estadísticas, aprovechando que se habían sacado para humanos

y con el pretexto de no repetir estudios anteriores.

En esta ocasión se utilizaron las siguientes características:

Potencias:

o Potencia Absoluta

o Potencia Relativa

o Radios entre Potencias

Medidas Estadísticas:

o Media

o Varianza

o Curtosis

o Asimetría

Las medidas estadísticas se calculaban para la banda frecuencial “Rango Fisiológico”.

Las características se extrajeron por canal de EEG y existiendo entre dos a tres canales

por rata.

Inicialmente no se pretendía incluir los radios entre potencias, por lo que antes de pasar

a los algoritmos de clasificación se realizó una gráfica con el promedio de valores de las

43

características contra estados de sueño. En él se pudo constatar que para diferenciar

entre estados de sueño en ratas, los radios entre potencias son relevantes.

Para el cálculo de las características mencionadas anteriormente se creó una función

llamada “f_Caracteristicas_R_1” que recibe como parámetros la frecuencia de muestreo,

las épocas que se desean armar (5 segundos), la señal, las bandas frecuenciales y un

vector flag que calcula las características a utilizar cuando su valor sea 1.

El orden del vector flag es: Potencias absolutas, potencias relativas, media, varianza,

curtosis, asimetría (no entre canales), radios entre potencias.

Esta función además llama a la función “Nombres_Caracteristicas_R1” que da los

nombres a las características utilizadas de acuerdo al valor del vector flag. Estas

características son los parámetros de salida de la función.

Los archivos para ratas podían contener información que no era relevante para

clasificación de estados de sueño por lo que una vez sacadas las características se

despreciaron aquellas que no pertenecían a los estados que se deseaba utilizar.

Para ratas los estados que se deseaban clasificar eran sueño de ondas lentas (SWS),

REM y Despierto (W).

44

Para ratas se propusieron las siguientes preguntas con el fin de maximizar los valores

obtenidos durante el proceso de clasificación. ¿Si quisiera utilizar solo un canal para

hacer la clasificación, donde lo pondría? ¿Qué normalización se debe utilizar?

Para ello se realizó un análisis similar al aplicado en humanos. Se utilizaron tres archivos

de una misma rata para clasificación, en él, se puso a variar tanto el número de canales

como la forma de normalización. Se utilizaron dos ratas diferentes.

4.3 Reducción de Dimensión

Tanto el PCA como al Q-Alpha poseen un umbral de significancia que afecta en ambos

la cantidad de características, o en el caso del PCA vectores propios, a utilizar. Por este

motivo se creó un vector de significancias que va desde 0.7 hasta 0.95 con pasos de 0.05,

para ver el efecto que tenía dicho umbral sobre la precisión de los algoritmos de

clasificación a la hora de cumplir con su función.

Las diferentes matrices obtenidas con cada umbral establecido, tanto para PCA como

para Q-Alpha fueron guardadas, a través de una función (f_VariablesOptimizadas) y en

donde su última matriz guardada es la matriz con las características completas, de esta

manera se puede saber que tan útil son los algoritmos de reducción de características

con respecto a las características completas. No se guardaron dos matrices idénticas,

pues si no había cambio en selección de características de un paso a otro, no se guardaba

dicho resultado.

45

Esta función también guarda, en el caso del Q-Alpha, cuáles son esas características

que resultan relevantes para clasificación de acuerdo a ese algoritmo. Guarda también

cuantas matrices hay de uno y de otro como el umbral al que pertenece cada grupo de

características.

Esta función fue modificada para la clasificación de sujetos combinados en donde no se

tenía en cuenta el PCA.

4.4 Clasificación

El proceso de clasificación se realizó de tres maneras diferentes. Utilizando sujetos

individuales, utilizando un sujeto combinado y a través de un método que se le ha puesto

el nombre de “Clasificación Democrática”.

Para la clasificación se creó una función auxiliar llamada “f_Rendimiento” que como su

nombre lo indica se encarga de evaluar el rendimiento del algoritmo de clasificación tanto

global como por clases utilizando la función “confusionmat” de Matlab. Recibe como

parámetros los datos reales y los datos producto de la clasificación.

Se utilizaron varias funciones auxiliares para las gráficas de resultados.

La primera llamada “barwitherr” (Martina F. Callaghan) que recibe como parámetros la

matriz o vector de errores y como segundo parámetro la matriz o vector junto al cual se

desea graficar los errores.

Para este estudio la gráfica mostraba el promedio de los valores de rendimiento contra la

desviación estándar del mismo.

46

Otra de las funciones utilizadas es la función ‘rotateticklabel” (Andy Bliss 2005) que recibía

como parámetros gca de la gráfica y el ángulo en grados, de rotación. El objetivo de esta

función era rotar un ángulo especificado los nombres asociados al eje x (Horizontal) de

las gráficas.

También se utilizaron la función de Matlab “boxplot” que recibe como parámetros la matriz

o el vector al que se le desea aplicar esta función.

La grafica de esta función muestra una linera roja que pertenece a la mediana, los bordes

de la caja son el percentil 25th y el 75th. Las líneas verticales encima de las cajas son los

valores más altos permitidos sin ser considerados valores atípicos. Los puntos rojos son

los valores atípicos.

Por último se utilizó la función “bar” de Matlab que recibe como parámetros la matriz o el

vector del cual se desea hacer una gráfica de barras. Esta función se utiliza en máquinas

de soporte vectorial para mostrar resultados.

Para cada sujeto analizado además de las gráficas dadas por cada clasificador se sacó

una gráfica en el cual se comparaba el mejor desempeño de cada clasificador.

Para clasificación de los diferentes estados de sueño se utilizaron los siguientes

clasificadores:

47

K-Means (Laurent Sorber. 2013), C-Means (Mahdi Amiri 2003), J-Means (Universidad

Autónoma de Manizales 2014), Random Forest (Abhishek Jaiantilal 2009) y Support

Vector Machine (Chih-Chung Chang and Chih-Jen Lin 2000-2014).

Había la posibilidad de utilizar métodos más robustos, pero eso implicaba mayores

tiempos de procesamiento por lo que dificultaba su utilidad en trabajos futuros que

buscaran realizar el proceso de clasificación en tiempo real.

Inicialmente se pretendía utilizar Redes Neuronales sin embargo fue descartado por el

limitado control que proporcionaba utilizando las funciones de Matlab, ya que al entrenar

el modelo, dicho modelo solo era válido para ser probado con bases de datos que tengan

el mismo número de datos que la base de entrenamiento. Adicionalmente, las redes

neuronales poseen el inconveniente de poseer muchos parámetros como son el numero

neuronas, la forma de entrenar, cuantas capas, arquitectura y demás valores que

dificultaban su generalización.

Dado que en los algoritmos no supervisados así como los bosques aleatorios el resultado

de la clasificación cambia con cada iteración para tener un resultado más preciso de

desempeño se creó una función con el mismo nombre del clasificador que lo corre 100

veces.

Esta función tiene por entradas la matriz de características, sus correspondientes

respuestas, el número de iteraciones deseadas (100), el número de grupos que se

desean armar (6 inicialmente pero al final se dejaron 12), y los nombres de la gráfica 1 y

la gráfica 2.

48

El motivo de ampliar el número de grupos para clasificadores no supervisados es para

mejorar el resultado. Se le dan más grados de libertad a los algoritmos. Al final estos

grupos que no pertenecen a ninguna clase son redirigidos a un estado de sueño

particular. El proceso sucede de la siguiente manera:

Una vez formados los grupos en estos algoritmos de clasificación, se analizan los

centroides que salen del uso de los mismos a la vez que se crean unos con los valores

originales de las características. Se comparan los centroides generados por el algoritmo

de clasificación con los centroides originales a partir de la distancia euclidiana.

Como cada centroide de clasificación está asignado a una clase de acuerdo al número

de grupos y cada centroide original está asignado a un estado de sueño, con el mínimo

de la distancia euclidiana entre los centroides originales y los centroides de los algoritmos

de clasificación se puede establecer a que estado de sueño pertenecen los grupos

formados por los algoritmos de clasificación.

Para sacar los centroides originales se saca el promedio de las características asociadas

a cada estado de sueño.

Para que los algoritmos no supervisados diferencien entre clasificación para humanos y

para ratas se utilizan los vectores de respuesta. Si se encuentran 3 clases o menos en el

vector de respuestas se asume como ratas, de haber más de tres clases se cuenta como

humanos.

El número de grupos en el caso de los bosques aleatorios es diferente, pues si el valor

es 0, este clasifica para humanos y si es diferente de 0 clasifica para ratas.

49

La primera grafica muestra un promedio de desempeño global.

La segunda grafica muestra un promedio de desempeño por clases.

El nombre de la primera grafica también guarda un archivo .mat con la siguiente

información: el mejor resultado global promedio obtenido, el mejor resultado por clases,

la desviación estándar, tanto la general como por clases y el vector con los 100 valores

de resultado general obtenidos de la mejor matriz de características.

C-Means: Al ser un algoritmo “difuso” la clase asignada en cada caso será el valor máximo

obtenido del vector de grado de pertenencia.

J-Means: El algoritmo de J-Means recibe como parámetros, las características, el número

de grupos, un umbra de distancia entre observaciones, (se dejó en 0.95 durante todo el

proceso de clasificación), un número inicial que si se dejó en 1 para el algoritmo empezara

con k-means y un número final que dejo en 1 para el algoritmo terminara con k-means.

Para los algoritmos supervisados se creó una función que cogía la matriz de

características con su correspondiente vector de resultados y la separaba en una matriz

para entrenar el algoritmo y otra para probarlo. Coge el 30% de los datos por estado de

sueño, es decir se analizaban cuantos datos pertenecían a cada etapa de sueño y de

estos se extraían el 30% de manera aleatoria y lo utiliza para entrenar y el 70% restante

lo utiliza para probar.

50

Bosques Aleatorios: El algoritmo de bosques aleatorios fue descartado en las primeras

etapas de clasificación, cuando se manejaban 158 características, pues al manejar tantas

variables provocaba un fallo en el software de programación Matlab que imposibilitaba su

uso. El algoritmo de bosques aleatorios fue retomado para las etapas finales, cuando se

manejaba un total de 40 características.

De este algoritmo hay que tener en cuenta dos consideraciones, la primera es que la

selección de árboles es aleatoria y oscila entre 1 y 200. La segunda consideración es que

cada vez que el algoritmo entrena lo hace de manera diferente por lo que su resultado

cambia de vez en vez. Para obtener una medida algo más precisa de su desempeño, el

algoritmo se corre 100 veces.

Los resultados mostrados en graficas posteriores muestran promedio de desempeño.

Máquinas de Soporte Vectorial: para este clasificador se creó una función que recibe

como parámetros la matriz de características, sus correspondientes respuestas, una

variable llamada s_grupos que de ser 0 clasifica para humanos, caso contrario clasifica

para ratas y el nombre de la gráfica.

En el algoritmo de SVM antes de realizar la clasificación hay que estimar cual es el

gamma y el C óptimo para una buena clasificación. Esto se logra a través de una función

de validación cruzada que se realiza con cada grupo de características establecido.

En general es el más lento de entrenar, aunque una vez entrenado es bastante rápido a

la hora de clasificar nuevas bases de datos.

Esta función clasifica de acuerdo a dos kernels diferentes, uno polinomial y otro gaussiano

para ver con cual se obtienen mejores resultados.

51

Este algoritmo genera además dos gráficas, la primera son los resultados globales de

acuerdo a cada grupo de características, tanto para un kernel polinomial como para uno

gaussiano mientras la segunda muestra resultados por estados de sueño también para

ambos kernels.

Esta función guarda los resultados del mejor conjunto de características tanto global como

por clases, a diferencia de los otros algoritmos, los resultados del SVM no cambian con

cada iteración por lo que no hay necesidad de correr el algoritmo 100 veces.

Para Sujeto Combinado los algoritmos no supervisados guardan además de los valores

anteriores mencionados, la matriz de centroides del clasificador asociados a la mejor

clasificación, el vector de clases a las cuales están asociados y el vector de características

asociado a la mejor clasificación. El objetivo de guardar estos valores es para clasificar

un sujeto que no pertenezca a los sujetos utilizados para formar la el Sujeto Combinado

para posteriormente evaluar su desempeño con todos los clasificadores al mismo tiempo

(Clasificación Democrática).

Los algoritmos supervisados guardan el modelo de entrenamiento y el vector de

características asociadas a la mejor clasificación. Como en el caso de los algoritmos no

supervisados, el objetivo utilizar estos valores guardados es la Clasificación Democrática.

Para algoritmos no supervisados el proceso para aplicar la Clasificación Democrática es

el siguiente:

52

De un sujeto, que no fue utilizado para formar el sujeto combinado (Sujeto de prueba), se

le sacan las características asociadas. Estas características se normalizan y se eliminan

aquellas que no estén en el vector de características asociadas a la mejor clasificación.

Se saca la distancia euclidiana entre las características asociadas a un evento del Sujeto

de Prueba y cada uno de los centroides del sujeto combinado. Se escoge el valor del

vector de clases asociado al centroide cuya distancia euclidiana fue menor, ese valor es

el resultado de clasificación.

Realizar el mismo proceso para cada uno de los eventos que presente el Sujeto de

prueba.

Por último evaluar el desempeño del resultado de la clasificación.

Para los algoritmos supervisados el proceso es más sencillo:

Del Sujeto de prueba se sacan las características, y se normalizan. Se eliminan aquellas

que no estén en el vector de características asociadas a la mejor clasificación. Se prueba

la matriz de características del Sujeto de prueba con el modelo de los clasificadores

supervisados y se evalúa su desempeño.

Utilizando todos los clasificadores al mismo tiempo, el resultad final viene dado por la

moda entre los clasificadores, dejando en primer lugar los bosques aleatorios, por si se

llega a dar la eventualidad que todos los clasificadores dan un resultado diferente, prime

este por encima de los demás.

Capítulo 5

Resultados

53

5.1 Extracción de Características

5.1.1 Extracción de Características en Humanos

En la extracción de características para clasificación de estados de sueño en humanos,

se realizó una serie de gráficas de las características vs los estados de sueño, para ver

la facilidad de las mismas en el proceso de discriminación entre las diferentes clases de

sueño. Con estos resultados se pudo constatar que hay algunas características que no

son buenas para discriminar entre estados de sueño y que al contrario, pueden producir

ruido que favorece a una mala clasificación. A continuación se muestran dos graficas en

donde se ilustra la diferencia entre una característica que no es útil para el proceso de

clasificación (Figura 5.1) y una que si lo es (Figura 5.2).

Figura 5.1: Gráfica de la característica "Máximo Coeficiente Polinomial" vs los estados de sueño en

humanos.

54

Figura 5.2: Gráfica de característica "Potencia Absoluta Delta" vs estados de sueño en humanos.

5.1.2 Extracción de Características en Ratas

En la extracción de características para clasificación de estados de sueño en ratas, se

realizó una serie de gráficas de las características vs los estados de sueño, similares a

las realizadas en humanos, para ver la facilidad de las mismas en el proceso de

discriminación entre las diferentes clases de sueño. En este caso su función no era el ver

cuales características producían ruido, sino cuales de ellas eran las mejores para el

proceso de clasificación, seleccionando a lo sumo dos de ellas que pudiesen ser

utilizadas para clasificación en tiempo real (Figura 5.3 y Figura 5.4).

55

Figura 5.3: Gráfica de característica "Radio Potencia (Alpha/Gamma)” vs estados de sueño en ratas.

Figura 5.4: Gráfica de característica "Radio Potencia (Beta/Gamma)” vs estados de sueño en ratas.

5.2 Clasificación

5.2.1 Clasificación de Estados de Sueño en Humanos

La clasificación de estados de sueño en humanos se realizó con tres grupos de

características diferentes. El primer grupo con 158 características, el cual fue descartado

por el bajo rendimiento en los estados de sueño S3 y S4 tal como se muestra en la Figura

5.6.

56

En las Figura 5.5 y Figura 5.6 se muestran los resultados del mejor clasificador para el

primer grupo de características.

Figura 5.5: Clasificación global del J-Means para el sujeto SC4001 con 158 caracteristicas. Permite

observar el desempeño de los diferentes algoritmos de reducción de caracteristícas con diferentes

parametros vs las características completas. Los resultados mostrados son el desempeño promedio con una

linea que representa la desviacion estandar.

El segundo grupo contenía 120 características. Con este segundo grupo las gráficas de

clasificación global (Figura 5.7) fueron modificadas con el fin de extraer más información

del proceso de clasificación. A continuación se muestran los resultados globales (Figura

5.7) y por clases (Figura 5.8) obtenidos del segundo grupo de características con el mejor

algoritmo de clasificación.

Figura 5.6: Clasificación por estados de sueño del J-Means para el sujeto SC4001 con 158

características. Permite observar el desempeño de los diferentes algoritmos de reducción de características

57

con diferentes parametros vs las características completas. Los resultados mostrados son el desempeño

promedio con una linea que representa la desviacion estandar.

Figura 5.7: Clasificación global del K-Means para el sujeto SC4001 con 120 características. Permite

observar el desempeño de los diferentes algoritmos de reducción de caracteristícas con diferentes



58

Figura 5.8: Clasificación por estados de sueño del k-Means para el sujeto SC4001 con 158




Por último el tercer grupo de características. Este grupo contenía 40 características de

las cuales solo compartía con los grupos anteriores potencia absoluta y potencia relativa.

A continuación se muestran los resultados globales (Figura 5.9) y por clases Figura (5.10)

obtenidos con este tercer y último grupo de características con el algoritmo de mejores

resultados en el proceso de clasificación.

Figura 5.9: Clasificación global del Bosques Aleatorios para el sujeto SC4001 con 120 caracteristicas.

Permite observar el desempeño de los diferentes algoritmos de reducción de caracteristícas con diferentes

59



Figura 5.10: Clasificación por estados de sueño de Bosques Aleatorios para el sujeto SC4001 con 158




60

Anteriormente se habían planteados las siguientes preguntas: ¿Qué grupo de

características deben acompañar a las medidas estadísticas, las potencias absolutas, las

potencias relativas o utilizar ambas? ¿Qué tipo de normalización es mejor para maximizar

la calidad de los resultados? A partir de estas, se realizó un análisis en el cual varían

tanto potencias como tipos de normalización, ilustrado en la Tabla 5.1

Tabla 5.1: Potencia Absoluta y Relativa vs Tipos de Normalización para tres clasificadores: Bosques

Aleatorios, C-Means y K-Means. Se encuentra sombreado el mejor rendimiento obtenido en cada clasificador.

Con los dos primeros grupos de características solo se realizaron gráficas individuales

para cada clasificador como las mostradas anteriormente (Figuras 5.5 a Figura 5.10) en

sujetos independientes de la base de datos utilizada. Sin embargo para el último grupo

de características se realizaron además de graficas individuales, graficas de resumen que

comparaban el desempeño global de todos los clasificadores al mismo tiempo teniendo

en cuenta los resultados obtenidos de la Tabla 5.1. Este análisis se realizó tanto para

sujetos por separado como para la combinación de varios sujetos en un mismo archivo

(Sujeto Combinado). La Figura 5.11 muestra una de las gráficas de resumen para un

sujeto combinado.

CLASIFICAD

OR NORMA

RESULTADO

S

CLASIFICAD

OR NORMA

RESULTADO

S

CLASIFICAD

OR NORMA

RESULTADO

S

L2 0.8217 L2 0.8117 L2 0.7957

Z-Score 0.8007 Z-Score 0.7892 Z-Score 0.7949

Radio 1 0.8147 Radio 1 0.8114 Radio 1 0.7948

L2 0.6787 L2 0.6756 L2 0.6647



L2 0.6784 L2 0.6772 L2 0.6485



Potencia Absoluta

BOSQUES

ALEATORIOS

K-MEANS

C-MEANS

Potencia Relativa

BOSQUES

ALEATORIOS

K-MEANS

C-MEANS

Potencia Absoluta y Potencia

Relativa

BOSQUES

ALEATORIOS

K-MEANS

C-MEANS

61

Figura 5.11: Gráfica que compara el mejor desempeño global de los cinco clasificadores utilizados en

humanos. En la parte inferior se puede ver con qué tipo de algoritmo de reducción de características se

obtuvo el mejor resultado y su umbral asociado.

Tabla 5.2: Rendimiento de cada clasificador para 5 sujetos

ID Sujeto RF SVM K-Means J-Means C-Means

4001 0,8414 0,8212 0,7141 0,7012 0,7247

4002 0,8152 0,818 0,6812 0,6843 0,703

4011 0,8689 0,8776 0,7847 0,7763 0,7705

4012 0,8516 0,8405 0,7442 0,7324 0,7317

4021 0,8449 0,8602 0,8021 0,8005 0,7938

Media 0,8444 0,8435 0,74526 0,73894 0,74474

Para la Clasificación Democrática, estos fueron los resultados obtenidos:

Resultado Global: 0.6227

Tabla 5.3: Resultado de Clasificación Democrática por clases.

W S1 S2 S3 S4 REM

0.5014 0.2381 0.9311 0.2373 0.1779 0.9286

62

5.2.2 Clasificación de Estados de Sueño en Ratas

Anteriormente se habían planteado las siguientes preguntas con el fin de maximizar los

valores obtenidos durante el proceso de clasificación. ¿Si quisiera utilizar solo un canal

para hacer la clasificación, donde lo pondría? ¿Qué normalización se debe utilizar? A

partir de estas, se realizó un análisis en el cual varían tanto canales como tipos de

normalización, ilustrado en la Tabla 5.4

Para ratas se realizaron, al igual que en humanos, graficas que comparan el desempeño

de los cinco clasificadores al mismo tiempo. Sin embargo este análisis solo se realizó

para ratas combinadas. La Figura 5.12 muestra la gráfica de resumen para una rata

combinada (Fin 8).

Figura 5.12: Gráfica que compara el mejor desempeño global de los cinco clasificadores utilizados en

ratas. En la parte inferior se puede ver con qué tipo de algoritmo de reducción de características se obtuvo el

mejor resultado y su umbral asociado.

63

Tabla 5.4: Canal P1, F1 y P2 vs Tipos de Normalización para tres clasificadores en dos ratas:

Bosques Aleatorios, C-Means y K-Means. Se encuentra sombreado el mejor rendimiento obtenido en cada

clasificador.

Para ratas se realizaron, al igual que en humanos, graficas que comparan el desempeño

de los cinco clasificadores al mismo tiempo. Sin embargo este análisis solo se realizó

para ratas combinadas. La Figura 5.12 muestra la gráfica de resumen para una rata

combinada (Fin 8).

CLASIFICAD

OR CANAL NORMA RESULTADOS

CLASIFICAD

OR CANAL NORMA RESULTADOS

L2 0.6894 L2 0.6114

Z-Score 0.7061 Z-Score 0.6051

Radio 1 0.7086 Radio 1 0.6095

L2 0.7170 L2 0.6137


Radio 1 0.7233 Radio 1 0.6132

L2 0.6916 L2 0.5983


Radio 1 0.6913 Radio 1 0.6009

L2 0.6811 L2 0.5391


Radio 1 0.6723 Radio 1 0.5787

L2 0.6755 L2 0.5641


Radio 1 0.6678 Radio 1 0.5809

L2 0.6583 L2 0.53


Radio 1 0.6790 Radio 1 0.5367

L2 0.6763 L2 0.5437


Radio 1 0.6905 Radio 1 0.5655

L2 0.6611 L2 0.5512


Radio 1 0.6899 Radio 1 0.5788

L2 0.6743 L2 0.5176


Radio 1 0.6933 Radio 1 0.5407

P2

P1

F1

C-MEANS

P2

P1

F1

C-MEANS

P2

P1

F1

FIN 8

BOSQUES

ALEATORIOS

P2

P1

F1

K-MEANS

FIN 9

BOSQUES

ALEATORIOS

P2

P1

F1

K-MEANS

P2

P1

F1

64

Tabla 5.5: Rendimiento de cada clasificador para 4 ratas

ID Sujeto RF SVM K-Means J-Means C-Means

Fin 9 0,7177 0,6908 0,6601 0,673 0,667

Fin 8 0,6369 0,6116 0,4231 0,5278 0,5587

Fin 2 0,6719 0,6501 0,5891 0,5961 0,6172

Fin 4 0,7265 0,6992 0,6643 0,6087 0,6885

Media 0,68825 0,662925 0,58415 0,6014 0,63285

65

Capítulo 6

Análisis de Resultados y Discusión

6.1 Análisis de Resultados

Con el primer grupo de características en humanos no se obtuvieron los resultados

esperados, pues los estados de sueño S3 y S4 estaban por debajo del resto, sin embargo,

en el sujeto empleado para esta clasificación, eran los estados que más datos tenían, por

lo que se esperaba una mejor clasificación. La explicación de los resultados se obtuvieron

al realizar un análisis de las características vs estados de sueño, en donde se pudo

comprobar que hay características con valores homogéneos entre tipos de sueño, tal es

el caso de las entropías o dimensiones fractales, que no ayudan a clasificar y en cambio

sí pueden producir ruido dificultando la correcta clasificación.

Haciendo una comparativa entre los tres grupos de características se obtienen los

mejores resultados a través del tercer grupo de características. Esto es potenciado por la

inclusión del algoritmo de bosques aleatorios, que a pesar del carácter aleatorio que

posee dentro de su algoritmo logra los mejores resultados.

En el análisis establecido en humanos donde se pone a variar entre potencias y formas

de normalización el mejor resultado se obtuvo utilizando tanto potencia absoluta como

relativa, y a través de la normalización L2 con la cual los resultados son maximizados.

66

En la clasificación de estados de sueño en humanos realizada con el tercer grupo de

características, los mejores resultados se obtuvieron utilizando las características

completas en comparación con los métodos de reducción de dimensión. Siendo las

características completas más frecuente en algoritmos supervisados, en donde los

bosques aleatorios presentaron mejores resultados para clasificar que las máquinas de

soporte vectorial. Su rendimiento promedio de 5 sujetos fue: 84.44% y de 82.8% para el

sujeto combinado. Esto viene siendo positivo pues resultados mayores al 81% lo que los

hace comparables a clasificación realizada por un experto en clasificación de estados de

sueño (Danker-Hopfe, H., Anderer, P., Zeitlhofer, 2009).

Sin embargo estos resultados terminan estando por debajo de los encontrados en la

literatura, en donde se encontraron valores del 92,93 % (Varun Bajaj, Ram Bilas Pachori.

2013) para una máquina de soporte vectorial, en este caso los resultados no son

comparables pues las bases de datos utilizadas no fueron las mismas ni tampoco los

mismos kernels. Otro de los resultados en la literatura fue una mezcla de dos de los

algoritmos utilizados en este estudio, las máquinas de soporte vectorial y bosques

aleatorios con rendimientos del 85% (Teresa Sousa, Aniana Cruz, Sirvan Khalighi, Gabriel

Pires,Urbano Nunes.2015).

Los algoritmos de clasificación no supervisada dieron similares en sus rendimientos,

siendo ligeramente superior el k-means con un rendimiento promedio de 5 sujetos 74.5%

y 67.7% para sujeto combinado. Estos algoritmos de clasificación no supervisada se han

utilizados previamente con resultados del 82.15% (Salih Güneş, Kemal Polat, Şebnem

Yosunkaya. 2010) con un c-means más robusto que el empleado en este estudio.

67

La clasificación democrática los resultados no tuvieron el desempeño esperado; en

promedio utilizando los cinco clasificadores fue 62.27%.

En el análisis establecido en ratas donde se pone a variar tanto canales como formas de

normalización el mejor canal fue el P1 bajo la normalización z-score. Con estos

parámetros se realizó el proceso de clasificación cuyo mejor desempeño fue 66.8% con

bosques aleatorios. Los resultados obtenidos fueron inferiores a los encontrados en la

literatura en donde con máquinas de soporte vectorial se han obtenido rendimientos del

96% (Shelly Crisler, Michael J. Morrissey, A. Michael Anch, David W, 2008). Entre las

posibles causas pueden ser las formas de obtener las potencias, la utilidad de las

medidas descriptivas para la clasificación de estados de sueño los bases de datos

utilizadas.

6.2 Discusión y Trabajo Futuro

Los resultados obtenidos con bosques aleatorios se pueden mejorar al disponer de más

bases de datos para el entrenamiento de este algoritmo, que resultó bastante bueno aun

con sus propiedades de aleatoriedad en su arquitectura.

Los resultados obtenidos a partir de los clasificadores no supervisados fueron bastante

positivos teniendo en cuenta la simplicidad de los mismos. Para trabajos posteriores se

puede emplear métodos más robustos de los mismos algoritmos para obtener mejores

68

resultados. A si mismo probar con más grupos de características y con distintas bases de

datos.

Una de las desventajas que poseen los algoritmos de clasificación supervisada frente a

los no supervisados es que están sujetos al error humano. Para tratar de evitar este error,

se puede comparar los resultados de una base de datos con distintos expertos en

clasificación de estados de sueño y utilizar como base de datos de entrenamiento

aquellos datos que sean comunes entre ellos.

Probar con bases de datos que hayan sido clasificados por más de un experto va a dar

más claridad sobre el desempeño de los diferentes algoritmos de clasificación.

Para mejorar la Clasificación Democrática, no tener en cuenta los centroides de los

métodos no supervisados, en vez de eso realizar la clasificación común y corriente.

De acuerdo al cronograma había que integrar a una interfaz los métodos de clasificación,

esta tarea no se realizó al no estar claras las propiedades que debe tener la interfaz, aun

así se dejaron las funciones utilizadas lo más general posible para que en trabajos

posteriores realizar esta tarea se pueda hacer lo mejor posible.

Capítulo 7

Lista de referencias

69

Andrew, F., Uijtdehaage, S., Cook, I., O'Hara, R. & Mandelkern M. (1999). Relationship between brain electrical activity and cortical perfusion in normal subjects, Psychiatry Research: Neuroimaging, Volume 90, Issue 2, Pages 125-140, ISSN 0925-4927. Bachiller, A. (2012). Análisis de la señal de electroencefalograma mediante distancias espectrales para la ayuda en el diagnóstico de la enfermedad de Alzheimer, Tesis de Maestria dirigida por Poza Crespo J, Hornero Sánchez R , Departamento de Teoría de la Señal y Comunicaciones e Ingeniería Telemática, Universidad de Valladolid.

Bajaj, V. & Bilas Pachori, R. (2013). Automatic classification of sleep stages based on the time-frequency image of EEG signals, Computer Methods and Programs in Biomedicine, Volume 112, Issue 3, Pages 320-328, ISSN 0169-2607.

Breiman, L., & Cutler, A. (2007). Random Forests. Retrieved November 17, 2015, from: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#papers

Crisler S., Morrissey, M., Anch, M. & Barnett, D.(2008). Sleep-stage scoring in the rat using a support vector machine, Journal of Neuroscience Methods, Volume 168, Issue 2, Pages 524-534, ISSN 0165-0270.

Danker-Hopfe, H., Anderer, P., Zeitlhofer, J., Boeck, M., Dorn, H., Gruber, G., Heller, E., Loletz, E., Moser, D., Parapatics, S., Saletu, B., Schmidt, A. and DorfFner, G. (2009). Interrater reliability for sleep scoring according to the Rechtschaffen & Kales and the new AASM standard. Journal of Sleep Research, 18: 74–84.

Ebrahimi, F., Mikaeili, M., Estrada, E. & Nazeran, H. (2008), Automatic sleep stage classification based on EEG signals by using neural networks and wavelet packet coefficients, in Engineering in Medicine and Biology Society, 2008. EMBS 2008. 30th Annual International Conference of the IEEE , vol., no., pp.1151-1154.

Fehrmann, E. (2013). Automated sleep classification using the new sleep stage standards. Thesis. Rochester Institute of Technology.

Emin M. & Sezgin, N. (2010). Estimation of Sleep Stages by an Artificial Neural Network Employing EEG, EMG and EOG, Journal of Medical Systems, Volume 34 Issue 4 pp. 717-725.

Fraiwan, L., Lweesy, K., Khasawneh, N., Wenz, H. & Dickhaus, H. (2012). Automated sleep stage identification system based on time–frequency analysis of a single EEG channel and random forest classifier, Computer Methods and Programs in Biomedicine, Volume 108, Issue 1, Pages 10-19, ISSN 0169-2607.

Goldberger, A., LAN, A., Glass, L., Hausdorff, J., Ivanov, P., Mark, R., Mietus, J., Moody, G., Peng, C. & Stanley, H. (2000). PhysioBank, PhysioToolkit, and PhysioNet: Components of a New Research Resource for Complex Physiologic Signals. Circulation 101(23):e215-e220.

https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#papers

70

Gómez Peña, C. (2009). Análisis no lineal de registros magnetoencefalográficos para la ayuda en el diagnóstico de la enfermedad de Alzheimer, Tesis Doctoral dirigida por Hornero Sánchez R. Departamento de Teoría de la Señal y Comunicaciones e Ingeniería Telemática, Universidad de Valladolid.

Gomis, P. (2010). Estimación Espectral de Señales Biomédicas. Métodos clásicos (FFT) y Paramétricos: Aplicaciones Prácticas con Matlab. Tutorial, ISSN: 978-84-695-3841-8. Güneş, S., Polat, K. & Yosunkaya, S. (2010). Efficient sleep stage recognition system based on EEG signal using k-means clustering based feature weighting, Expert Systems with Applications, Volume 37, Issue 12, Pages 7922-7928, ISSN 0957-4174. Haiyang, L., Hongzhou, H. & Yongge, W. (2015). Dynamic particle swarm optimization and K-means clustering algorithm for image segmentation, Optik - International Journal for Light and Electron Optics, Volume 126, Issue 24, Pages 4817-4822, ISSN 0030-4026. Hansen, P. & Mladenović, N. (2001). J-Means: a new local search heuristic for minimum sum of squares clustering, Pattern Recognition, Volume 34, Issue 2, Pages 405-413, ISSN 0031-3203.

Igel, C., Heidrich-Meisner, V. & Glasmachers, T. (2008). Shark. Journal of Machine Learning Research 9, pages. 993-996. Krakovská, A. & Mezeiová, K. (2011). Automatic sleep scoring: A search for an optimal combination of measures, Artificial Intelligence in Medicine, Volume 53, Issue 1, Pages 25-33, ISSN 0933-3657. Lajnef, T., Chaibi, S., Ruby, P., Aguera, P., Eichenlaub, J. & Samet, M., Kachouri, A. & Jerbi, K. (2015). Learning machines and sleeping brains: Automatic sleep stage classification using decision-tree multi-class support vector machines, Journal of Neuroscience Methods, Volume 250, 30, Pages 94-105, ISSN 0165-0270.

Liaw, A., & Wiener, M. (2002). Classification and Regression by randomForest. WEB EDUCATION IN CHEMISTRY, 2/3, 18-22. Retrieved November 17, 2015, from http://www.webchem.science.ru.nl/PRiNS/rF.pdf.

Kirsi, M., Zitting, J., Porkka-Heiskanen, T. (2011). Automated sleep scoring in rats and mice using the naive Bayes classifier, Journal of Neuroscience Methods, Volume 202, Issue 1, 30, Pages 60-64, ISSN 0165-0270.

Mathis, B. (2014). From Logistic Regression to Backprop (and Beyond). Retrieved November 24, 2015, from: http://snippyhollow.github.io/blog/2014/08/09/so-you-wanna-try-deep-learning/

Matlab. (2015). Documentation. skewness Retrieved November 16, 2015, from: http://www.mathworks.com/help/stats/skewness.html

http://www.webchem.science.ru.nl/PRiNS/rF.pdf

http://snippyhollow.github.io/blog/2014/08/09/so-you-wanna-try-deep-learning/

http://snippyhollow.github.io/blog/2014/08/09/so-you-wanna-try-deep-learning/

http://www.mathworks.com/help/stats/skewness.html

71

Matlab. (2015). Documentation. kurtosis. Retrieved November 16, 2015, from: http://www.mathworks.com/help/stats/kurtosis.html

Mendoza Rivera, H. (2002). Medidas de forma. Retrieved November 17, 2015, from: http://www.virtual.unal.edu.co/cursos/ciencias/2001065/html/un1/cont_136_36.html

Mendoza Rivera, H. (2002). Medidas de Tendencia. Retrieved November 16, 2015, from: http://www.virtual.unal.edu.co/cursos/ciencias/2001065/html/un1/cont_123_23.html

Mendoza Rivera, H. (2002). Medidas de Variabilidad. Retrieved November 17, 2015, from: http://www.virtual.unal.edu.co/cursos/ciencias/2001065/html/un1/cont_130_30.html

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M. & Duchesnay, E. (2011). Scikit-learn: Machine Learning in Python. Support Vector Machines. Journal of Machine Learning Research, 12, 2825-2830. Retrieved November 17, 2015, from http://scikit-learn.org/stable/modules/svm.html Raghavendra, B.S. (2010), Computing fractal dimension of signals using multiresolution

box-counting method, Volume 6, Pages 50–65.

Rodríguez Sotelo, J. (2010). Biosignal analysis for cardiac arrhythmia detection using non-supervised techniques. Trabajo De Grado Para Optar Al Título De Doctor En Ingeniería Línea De Investigación En Automática, 95-105. Rodríguez-Sotelo, J., Osorio-Forero, A., Jiménez-Rodríguez, A., Cuesta-Frau, D., Cirugeda-Roldán, E. & Peluffo D. (2014). Automatic Sleep Stages Classification Using EEG Entropy Features and Unsupervised Pattern Analysis Techniques. Entropy. 16(12):6573-6589. Marina, R., Janoušek, O., Kolářová, J., Nováková, M., Honzík, P. & Provazník, I. (2012). Sleep scoring using artificial neural networks, Sleep Medicine Reviews, Volume 16, Issue 3, Pages 251-263, ISSN 1087-0792 Shi, J., Liu, X., Li, Y., Zhang, Q. & Yin, S. (2015). Multi-channel EEG-based sleep stage classification with joint collaborative representation and multiple kernel learning. J Neurosci Methods.

Smith I, L. (2002). A tutorial on Principal Components Analysis. Student Tutorials. Retrieved November 14, 2015, from: http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf

Souza, C. (2010). Kernel Support Vector Machines for Classification and Regression in C#. Retrieved November 27, 2015, from http://crsouza.com/2010/04/kernel-support-vector-machines-for-classification-and-regression-in-c/

Sousa, T., Cruz, A., Khalighi, S., Pires, G. & Nunes, U. (2015). A two-step automatic sleep stage classification method with dubious range detection, Computers in Biology and Medicine.

http://www.mathworks.com/help/stats/kurtosis.html

http://www.virtual.unal.edu.co/cursos/ciencias/2001065/html/un1/cont_136_36.html



http://scikit-learn.org/stable/modules/svm.html

http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf

http://crsouza.com/2010/04/kernel-support-vector-machines-for-classification-and-regression-in-c/

http://crsouza.com/2010/04/kernel-support-vector-machines-for-classification-and-regression-in-c/

72

StatSoft, Inc. (2013). Electronic Statistics Textbook. Tulsa, OK: StatSoft. WEB: http://www.statsoft.com/textbook/. Stetco, A., Zeng, X. & Keane, J. (2015). Fuzzy C-means++: Fuzzy C-means with effective seeding initialization, Expert Systems with Applications, Volume 42, Issue 21, 30, Pages 7541-7548, ISSN 0957-4174. Venkatesh, K., Poonguzhali, S., Mohanavelu, K. & Adalarasu, K. (2014). Sleep Stages Classification Using Neural Network with Single Channel EEG, Volume 2, Issue 8, ISSN 2347-2812.

Wolf, L. & Shashua, A. (2005). Feature Selection for Unsupervised and Supervised Inference: The Emergence of Sparsity in a Weight-Based Approach. J. Mach. Learn. Res, 1855-1887. Zong-En, Y., Chung-Chih, K., Chien-Hsing, C., Chen-Tung. Y., Chang, F. (2011). A machine learning approach to classify vigilance states in rats, Expert Systems with Applications, Volume 38, Issue 8, Pages 10153-10160, ISSN 0957-4174.

http://www.statsoft.com/textbook/

clasificaciÓn de estados de sueÑo en humanos y …

Documents