cuantificación de muestras de micro-plancton utilizando técnicas de aprendizaje automático
Post on 12-Nov-2015
8 Views
Preview:
DESCRIPTION
TRANSCRIPT
-
UNED (Departamento de Inteligencia Artificial)
Cuantificacin de muestras de micro-planctonusando tcnicas de Aprendizaje Automtico
TRABAJO FIN DE MSTERMster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Pablo Gonzlez Gonzlez
TutorDr. Luis Manuel Sarro Baro (UNED)
CodirectoresDr. Juan Jos del Coz Velasco (Universidad de Oviedo)
Dr. Jorge Dez Pelez (Universidad de Oviedo)
Madrid, Junio de 2014
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
AgradecimientosMe gustara mostrar mi ms sincero agradecimiento a mis codirectores de este trabajo fin de
mster, Juan Jos y Jorge, de la Universidad de Oviedo, por el apoyo y la confianza que han
puesto en mi todos estos aos, y por darme la oportunidad de trabajar y aprender con ellos.
Agradecer tambin al Centro de Inteligencia Artificial de Gijn, por haberme permitido utilizar su
infraestructura para la realizacin de los experimentos de este trabajo.
Quiero dar las gracias a mi tutor de trabajo fin de mster, Luis Manuel Sarro, de la UNED, por su
buen hacer en la labor de coordinacin de este mster de inteligencia artificial y en especial, por
tutorizar este trabajo.
Este proyecto no hubiera sido posible sin el valioso conjunto de datos ya etiquetado y clasificado.
Quiero agradecer por esta tarea, y adems por su amabilidad y atencin, a Eva lvarez del Instituto
Oceanogrfico de Gijn.
Por ltimo y no menos importante, me gustara dar las gracias a toda la gente que en algn
momento se ha interesado y me ha preguntado por este trabajo de investigacin, especialmente a
mi novia Laura, mi familia y amigos cercanos.
Pablo Gonzlez Gonzlez Pgina 2 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
ResumenEn algunas aplicaciones de aprendizaje automtico, predecir la clase de los ejemplos de un
conjunto de datos no es lo realmente importante, sino que el objetivo real es predecir el porcentaje
de ejemplos de cada clase. El nombre de este tipo de problemas es cuantificacin y est siendo un
campo del aprendizaje automtico que est empezando a recibir relevancia recientemente.
En este trabajo fin de mster, trabajamos con un conjunto de 17.027 imgenes de plancton, con
ejemplos pertenecientes a 10 clases diferentes y distribuidas en 39 muestras, tomadas en
diferentes puntos del mar, en diferentes temporadas y a diferentes profundidades.
El objetivo que se persigue en este trabajo fin de mster es desarrollar un sistema automtico que
sea capaz de predecir, con la mnima tasa de error posible, la distribucin de ejemplos por clase de
una nueva muestra de plancton. Para ello, se emplearn tcnicas propuestas por autores
relevantes en el campo de la cuantificacin, adaptndolas a este problema concreto y, adems, se
explorarn otras nuevas alternativas con el objetivo de mejorar los resultados obtenidos.
Pablo Gonzlez Gonzlez Pgina 3 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
AbstractIn certain machine learning applications, the prediction of the class of each example in a set of data
is not necessarily the most important task, and the real aim is to predict the underlying data
distribution, regardless of each individual classification. These kinds of tasks are referred to as
quantification problems and they have been subject of study recently.
In this thesis, the dataset used is comprised of 17.027 plankton images belonging to 10 different
classes and distributed in 39 different samples, taken at sea in different places, during different
seasons and at different depths.
The aim of the present project is to build an automatic system capable of predicting, with the lowest
possible error rate, the data distribution of a new plankton sample. In order to fulfil this task,
techniques proposed by relevant authors in the quantification area will be tested, adapting them to
this particular problem. Furthermore, new approaches will be explored so as to improve the results
obtained.
Pablo Gonzlez Gonzlez Pgina 4 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
ndice de contenido1 Introduccin...................................................................................................................................7
2 Estado de la cuestin.....................................................................................................................9
2.1 Clasificacin de plancton........................................................................................................9
2.2 Cuantificacin.........................................................................................................................9
3 Conjunto de datos........................................................................................................................11
4 Clculo de caractersticas............................................................................................................14
4.1 Caractersticas calculadas por la FlowCam..........................................................................14
4.2 Clculo de contornos............................................................................................................14
4.3 Descriptores de Fourier........................................................................................................15
4.4 Matrices de co-ocurrencia....................................................................................................17
4.5 Momentos de Hu..................................................................................................................18
4.6 Momentos de Zernike...........................................................................................................19
4.7 Transformada de Wavelet.....................................................................................................20
5 Cuantificacin..............................................................................................................................22
5.1 Notacin...............................................................................................................................22
5.2 La cuantificacin como un problema de dataset-shift............................................................22
5.2.1 Covariate-shift...............................................................................................................23
5.2.2 Prior-shift......................................................................................................................23
5.2.3 Concept-shift................................................................................................................25
5.3 Mtodos de cuantificacin binaria........................................................................................25
Pablo Gonzlez Gonzlez Pgina 5 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
5.3.1 Clasificar y contar (CC).................................................................................................25
5.3.2 Adjusted Count (AC).....................................................................................................26
5.4 Cuantificacin multiclase......................................................................................................28
5.4.1 Funciones de prdida...................................................................................................29
5.4.2 Clasificar y contar (CC).................................................................................................30
5.4.3 Adjusted Count (AC).....................................................................................................30
5.4.4 Ajuste propuesto para problemas multiclase.................................................................32
6 Experimentacin y resultados......................................................................................................34
6.1 Mtodo de experimentacin.................................................................................................34
6.1.1 Clasificador LibSVM multiclase.....................................................................................35
6.1.2 Cuantificador clasificar y contar (CC)............................................................................36
6.1.3 Adjusted-Count (AC).....................................................................................................41
6.1.4 Ajuste para problemas multiclase.................................................................................43
7 Conclusiones...............................................................................................................................45
7.1 Trabajo futuro.......................................................................................................................47
8 Anexo I........................................................................................................................................ 49
9 Bibliografa...................................................................................................................................51
Pablo Gonzlez Gonzlez Pgina 6 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
1 IntroduccinCuando se realizan estudios biolgicos sobre el plancton marino, resulta muy importante analizar la
distribucin de las diferentes especies de plancton presentes en el medio. Hoy en da existen
dispositivos capaces de obtener de manera automtica, a partir de muestras de agua, fotografas o
vdeo del plancton presente. Algunos ejemplos son el Video Plankton Recorder [1], el sistema
SIPPER [2], o la FlowCam [3]. Con la existencia de dispositivos de recogida automtica, resulta
imposible que todos los datos obtenidos sean analizados solamente por personal humano, ya que
cada una de las muestras tendra que ser estudiada y clasificada por un taxnomo especialmente
entrenado para ello.
Debido a lo anterior, surge una necesidad de obtener un sistema automtico que, con suficiente
precisin, sea capaz de clasificar las muestras de plancton y separarlas en cada una de las
diferentes clases taxonmicas. Varios trabajos [4] [5] [6] [7] han sido realizados en este campo. De
manera muy simplificada, todos ellos utilizan un mismo procedimiento: a partir de cada una de las
imgenes provenientes de un sistema automtico de captura, se calcula un vector de
caractersticas representativo y, posteriormente, se utiliza un clasificador para entrenar un modelo
que servir para predecir la clase de nuevas fotografas.
Uno de los principales problemas a los que se enfrenta la estrategia aplicada por los anteriores
trabajos es que obtienen buenos resultados actuando sobre conjuntos cerrados de plancton, donde
la distribucin de los ejemplos en las diferentes clases de plancton se mantiene. Esto sucede
porque la asuncin general hecha por los mtodos de clasificacin es que la distribucin de los
ejemplos usados para la fase de entrenamiento es representativa [8]. En este tipo de problemas la
realidad generalmente no es as [9], y segn las estaciones o las zonas donde se hagan los
estudios, los cambios en la distribucin de las especies de plancton pueden llegar a ser dramticos.
En este Trabajo Fin de Mster (en adelante TFM) se intentar resolver este problema utilizando un
enfoque diferente: fijaremos como nuestra prioridad ser capaces de cuantificar la cantidad de
plancton de cada clase (en lugar de intentar optimizar el error de clasificacin por cada ejemplo). La
Pablo Gonzlez Gonzlez Pgina 7 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
cuantificacin se aplica en problemas en los que es irrelevante conocer la clase de cada individuo,
sino que interesan los datos a nivel agregado, como es el caso del problema del reconocimiento de
plancton que nos ocupa. Un ejemplo de otro mbito podra ser una compaa de seguros, cuyo
deseo sera conocer el nmero de accidentes que van a tener sus clientes. En realidad para los
nmeros de la compaa, no les interesa saber qu clientes van a tener un accidente y cules no,
sino el nmero total de accidentes que van a sufrir sus asegurados.
Por tanto, trabajaremos con la asuncin previa de que la distribucin de las especies de plancton
puede cambiar y ser diferente en el conjunto de entrenamiento y en el conjunto de prueba.
El problema de la cuantificacin fue definido por Forman [10] [11], trabajando con estas
consideraciones previas en un problema binario, perteneciente a un mbito muy diferente al del
plancton. El reto de este TFM, ser aplicar este enfoque a este conjunto de datos, con el reto
adicional de extenderlo a un problema multiclase.
Para la realizacin del trabajo se cuenta con un conjunto de datos adecuado, obtenido gracias al
uso del sistema automtico FlowCam. El conjunto est formado por 17.027 fotografas, tomadas en
39 muestreos diferentes. Uno de los aspectos importantes de este conjunto de datos es que la
distribucin de las especies es diferente en cada uno de los muestreos, reflejando las
caractersticas reales del problema.
La estructura de este trabajo es la siguiente: en el Captulo 2 analizaremos el estado de la cuestin,
revisando de manera detallada los trabajos ya realizados en este campo. A continuacin, en el
Captulo 3, daremos una descripcin detallada del conjunto de datos utilizado. En el Captulo 4
abordaremos el problema del clculo del vector de caractersticas para cada una de las imgenes,
utilizando tcnicas de visin artificial. Posteriormente, en el Captulo 5, haremos un estudio de las
estrategias utilizadas para la resolucin del problema de cuantificacin. En el Captulo 6, se
aplicarn las tcnicas de cuantificacin al problema en cuestin y se compararn los resultados con
los obtenidos por los enfoques tradicionales utilizando un algoritmo de clasificacin. Por ltimo, en
el Captulo 7 analizaremos los resultados obtenidos e intentaremos extraer conclusiones tiles
sobre el trabajo realizado.
Pablo Gonzlez Gonzlez Pgina 8 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
2 Estado de la cuestin
2.1 Clasificacin de planctonCon la aparicin de dispositivos de captura de imgenes de plancton automticos han sido muchos
los trabajos realizados por los investigadores en esta materia. Uno de los primeros artculos [5] de
clasificacin automtica de varias especies de plancton utiliza Sipper II [2] como fuente para
obtener las imgenes de plancton. En este trabajo se calculan solamente atributos de forma, ya
que las imgenes son en escala de grises y con una calidad muy baja. Se aborda el problema
utilizando como clasificador Support Vector Machines (SVM) [12] y se consiguen unos resultados
satisfactorios.
Uno de los trabajos principales es una tesis doctoral realizada por Hu [13]. En esta tesis se
adquieren las muestras de plancton a travs de una Video Plankton Recorder [1], y se aplican
varias tcnicas de visin artificial para describir cada uno de los ejemplos. Una de las principales
aportaciones de esta tesis es el uso de atributos de textura, adems de los atributos de forma ya
aplicados anteriormente. Esta tesis es un buen punto de partida para abordar el problema de la
clasificacin automtica de plancton.
Adems de los trabajos anteriores, que utilizan sistemas diferentes al usado en este TFM, existen
otros que utilizan la Flowcam como fuente de datos. En [7] se analizan diversos atributos de forma
y de textura aplicados sobre imgenes provenientes de la Flowcam y se evalan los resultados
obtenidos con cada uno de ellos con diferentes clasificadores (entre ellos SVM). En otro de los
artculos que utiliza la FlowCam como fuente de datos [14], se utiliza un clasificador para predecir
la cantidad de biomasa para cada una de las clases de plancton, dando prioridad los ejemplos con
mayor cantidad de biomasa (clasificacin sensible al coste).
2.2 CuantificacinEn el apartado anterior hemos descrito el estado de la cuestin para sistemas de clasificacin de
plancton. El problema que tratamos de resolver en este TFM es diferente. Tratamos de predecir la
Pablo Gonzlez Gonzlez Pgina 9 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
prevalencia de cada una de las especies en el conjunto de prueba, es decir, el porcentaje de
ejemplos que pertenecen a cada una de las clases definidas.
El problema de la cuantificacin, que analizaremos ms en detalle en el Captulo 5, ha sido
abordado para sistemas binarios recientemente por Forman [10] [11] [15]. En estos artculos se
describen diferentes ajustes a los algoritmos tradicionales de clasificacin para optimizar los
resultados en cuantificacin y no en clasificacin. En sus artculos, Forman trabaja con problemas
binarios en los que la distribucin de los datos es bastante variable, y en muchos casos la
diferencia en las prevalencias de la clase positiva y negativa es enorme. Aunque, como ya se ha
dicho, los conjuntos de datos con los que trabajan Forman son binarios, en [11] Forman expone
brevemente un mtodo para resolver la cuantificacin en problemas multiclase. Este ser el mtodo
del que partiremos para probar en nuestro conjunto de datos en la seccin 5.4.
Existen otros trabajos interesantes en los que se ha utilizado la cuantificacin. Un ejemplo se
encuentra en el campo de la minera de opiniones [16]. Otro ejemplo lo tenemos en una aplicacin
para el control de calidad de muestras de semen [17]. En [15], se utiliza la cuantificacin para
monitorizar las llamadas al departamento de soporte de una empresa, con el objetivo de detectar,
por ejemplo, aumentos en las incidencias de un determinado producto.
Tambin es importante destacar una reciente tesis doctoral en la que se analizan y comparan
diferentes tcnicas de cuantificacin [18]. En esta tesis se utiliza el algoritmo K-Nearest Neighbor
para tareas de cuantificacin y tambin se explora la posibilidad de implementar un clasificador
(basado en SVM) que directamente trata de optimizar los resultados en cuantificacin, sin
necesidad de realizar un ajuste posterior.
Hasta donde nosotros sabemos, no existe hasta la fecha ningn trabajo que trate sobre la
cuantificacin de muestras de plancton sobre un conjunto de datos separado en muestras y que
aborde el problema de la cuantificacin multiclase.
Pablo Gonzlez Gonzlez Pgina 10 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
3 Conjunto de datosEl conjunto de datos con el que vamos a utilizar en este TFM ha sido creado por el instituto
oceanogrfico de Gijn utilizando una FlowCam. El conjunto de datos est formado por 17.027
imgenes distribuidas en 39 muestras diferentes, tomadas en diferentes puntos del Mar Cantbrico,
a diferentes profundidades y, en diferentes pocas temporales [19], lo que garantiza que las
distribuciones de las diferentes muestras sean distintas.
La FlowCam es un dispositivo que utiliza la citometra de flujo para el anlisis de las partculas
existentes en un lquido. El modo de funcionamiento consiste en hacer circular el fluido por un tubo
fino sobre el que se aplica una luz lser. Las partculas existentes en este fluido son detectadas y
fotografiadas a travs de un microscopio. La FlowCam es capaz de realizar este proceso de
manera muy eficiente y, adems de obtener las fotografas de cada una de estas partculas, calcula
veinte medidas de cada una de ellas. stas se describen en el apartado 4.1 de este documento.
Las imgenes obtenidas por la FlowCam estn almacenadas en JPG, con una codificacin de color
RGB y una resolucin de 72x72ppp. El tamao de la imagen vara dependiendo del tamao de la
partcula que aparece en ella.
Cada una de las imgenes capturadas por la FlowCam ha sido clasificada por un experto humano
en una de las siguientes diez clases: Nanoplankton, Flagelata, Silicoflagellates, Dinoflagellates,
Ciliates, Diatoms, Crustaceans, Detritus, Artefacts y Unclassified. Esta ltima categora ha sido
creada para fotografas en las que el taxnomo no fue capaz de clasificar su contenido, o la
partcula detectada no corresponda con ninguna de las otras categoras.
Como hemos dicho antes, las fotografas estn repartidas en 39 muestras diferentes, obtenidas en
diferentes puntos y en diferentes pocas. Esta circunstancia nos hace enfrentarnos al problema de
los cambios de distribucin en las diferentes muestras, como se puede observar en la Ilustracin 1.
Pablo Gonzlez Gonzlez Pgina 11 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
Pablo Gonzlez Gonzlez Pgina 12 de 53
Ilustracin 1: Distribucin de ejemplos por muestras
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
En la Ilustracin 2, mostramos unos ejemplos de los diferentes tipos de imgenes obtenidas con la
FlowCam.
Pablo Gonzlez Gonzlez Pgina 13 de 53
Ilustracin 2: Diferentes ejemplos de plancton de las diferentes clases. a) Crustaceans b) Ciliates c)
Dinoflagellates d) Diatoms e) Flagelata f) Silicoflagellates g) Nanoplankton h) Detritus i) Unclassified j)
Artefacts
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
4 Clculo de caractersticasA partir de las imgenes presentes en el conjunto de datos, es necesario realizar un clculo de
caractersticas que sirvan como entrada para los algoritmos de clasificacin y cuantificacin que
aplicaremos posteriormente. La idea es crear el conjunto de caractersticas ms robusto posible, y
que describan adecuadamente las imgenes tratadas.
Como ya hemos explicado en apartados anteriores, las imgenes provienen de una FlowCam.
Este dispositivo es capaz fotografiar el plancton existente en una muestra de agua y darnos ya
directamente las fotografas segmentadas. Adems de hacer este trabajo, la FlowCam tambin
realiza un anlisis automtico de las fotografas calculadas, computando automticamente varios
valores. Utilizaremos estos valores como caractersticas y adems calcularemos otras utilizando
tcnicas de visin artificial.
Las caractersticas que nos interesa calcular son aquellas que obtengan informacin de la forma
del plancton presente en la imagen y de su textura. Daremos prioridad a aquellas que sean
invariantes con respecto a la posicin del objeto, ya que la FlowCam no nos garantiza para nada
que el plancton siempre salga en la misma posicin. Las tcnicas aqu elegidas vienen motivadas
por los buenos resultados que han obtenido en otros estudios similares [5] [7] [13] [14], ya
comentados en la Captulo 2.1.
4.1 Caractersticas calculadas por la FlowCamLa FlowCam y el software con el que trabaja es capaz de calcular varios atributos de las partculas
detectadas de mantera automtica. Entre estos atributos se encuentran medidas sobre la partcula
como su permetro, longitud, anchura, transparencia, intensidad, etc. La descripcin detallada de
los atributos se encuentra en el manual de la FlowCam y se ha incorporado en el Anexo I de este
documento traducido al espaol.
4.2 Clculo de contornosComo paso previo para calcular ciertos tipos de caractersticas (por ejemplo, los descriptores de
Pablo Gonzlez Gonzlez Pgina 14 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
Fourier), se necesita extraer el contorno del organismo que aparece en la fotografa. Para calcular
el contorno, primero es necesario transformar las imgenes en color a imgenes en escalada de
grises y de ah a imgenes binarias. Despus de realizar varios ajustes para obtener los umbrales
correctos, aplicamos la funcin bwboundaries de Matlab obteniendo el resultado mostrado en la
Ilustracin 3.
4.3 Descriptores de FourierUna vez que tenemos los contornos de las imgenes, se calculan los descriptores de Fourier para
describir el contorno de la imagen. Para ello utilizaremos un algoritmo especfico que realice el
clculo en contornos cerrados [20]. La ventaja de este algoritmo es que no requiere el clculo de
integrales, con lo que el proceso es bastante rpido. Adems, los descriptores resultantes son
invariantes con respecto a la rotacin, dilatacin y traslacin del contorno de la imagen, aspecto
muy importante ya que los organismos que aparecen en las imgenes que estamos analizando
presentan habitualmente este tipo de transformaciones.
A la hora de calcular los descriptores de Fourier es importante decidir el nmero de armnicos a
utilizar para describir el contorno. Cuantos ms armnicos utilicemos, ms informacin acerca del
contorno tendremos, pero tambin tendremos que evitar el sobre-ajuste de los descriptores al
contorno de cada uno de los organismos.
Antes de proceder al clculo de los descriptores del contorno, hay que resolver el problema de las
imgenes que tienen ms de un contorno cerrado. La solucin por la que he optado ha sido elegir
el contorno ms grande de entre todos los existentes en la imagen. Se supone que este contorno
corresponder al del organismo presente en la imagen.
Pablo Gonzlez Gonzlez Pgina 15 de 53
Ilustracin 3: Clculo del contorno de una imagen
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
En las Ilustraciones 4, 5, 6 y 7 se puede observar cmo afecta el nmero de armnicos a la
aproximacin obtenida. En rojo se muestra el contorno calculado en el paso anterior y en verde la
aproximacin de Fourier calculada con un nmero de armnicos determinados.
Despus de estudiar las imgenes anteriores, podemos considerar que con quince armnicos es
suficiente para describir las imgenes de este TFM. Hay que tener en cuenta que para cada
armnico se obtienen un total de cuatro coeficientes an ,b n ,c n ,d n . Podemos combinarlos para
obtener un nico valor que define la amplitud de cada armnico y que puede ser usado en nuestro
vector de caractersticas, dando lugar de esta manera a quince valores:
F n=an +bn +c n +d n
Pablo Gonzlez Gonzlez Pgina 16 de 53
Ilustracin 4: Aproximacin con 5
armnicosIlustracin 5: Aproximacin con 10
armnicos
Ilustracin 6: Aproximacin con 15
armnicos
Ilustracin 7: Aproximacin con 20
armnicos
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
4.4 Matrices de co-ocurrenciaLas matrices de co-ocurrencia se definen sobre imgenes en escala de grises (GLCM). Su
dimensin depende del tamao de la escala de grises que tenga la imagen original. Si por ejemplo,
tenemos ocho grises posibles, la GLCM tendr una dimensin de 8x8. Para calcular cada uno de
los valores de esta matriz se aplica la siguiente frmula:
Es decir, se va analizando cada uno de los pxeles de la imagen I y de sus vecinos (se pueden
definir diferentes tipos de incrementos). Cada celda de la GLCM con coordenadas (i,j) almacenar
cuntos pxeles de la imagen original tenan valor de gris i y, adems, el vecino a este pxel tena
valor de gris j.
Para construir el vector de caractersticas que represente a cada imagen vamos a utilizar un
conjunto de caractersticas muy conocido y usado en diversos dominios creado por Haralick [21].
Las caractersticas de Haralick se crean a partir de la GLCM y se componen de 13 medidas
(energa, entropa, correlacin, etc) que representan la textura de la imagen.
Diversos trabajos realizados sobre la clasificacin de plancton [7] [13] utilizan esta tcnica con
resultados satisfactorios. Adems, en [22] se presenta un estudio directamente relacionado con la
clasificacin de plancton utilizando matrices de co-ocurrencia y SVM como algoritmo de
clasificacin con muy buenos resultados.
En este trabajo, se tienen en cuenta diecisis niveles de grises a la hora de representar las
imgenes. Se utiliza como funcin de vecindad cuatro distancias diferentes (1, 4, 8 y 16 pxeles)
con cuatro ngulos diferentes (0, 45, 90 y 135). Para las cuatro matrices correspondientes a
cada una de las distancias calcularemos la matriz media. De esta manera obtendremos cuatro
matrices (una para cada ngulo). A continuacin obtendremos las caractersticas de Haralick,
teniendo en este caso un vector de caractersticas por cada imagen de 52 atributos.
Pablo Gonzlez Gonzlez Pgina 17 de 53
GLCM x y ( i , j )=p=1
n
q=1
m
1,si I (p ,q )=iI (p+x ,q+y )= j
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
4.5 Momentos de HuLos momentos son propiedades numricas que se pueden obtener de una determinada imagen, o
funciones calculadas a partir de estas propiedades que tienen alguna cualidad interesante a la hora
de describir la imagen. En 1962, Hu defini siete momentos [23], invariantes con respecto a la
traslacin, escalado y la rotacin. Para calcularnos partimos de los momentos de una imagen:
M ij=x
yx i y j I (x ,y )
donde I(x,y) es la intensidad de la imagen en el pixel x,y. De esta manera, se puede definir el
centroide de la imagen para luego calcular los momentos centrales, en los que se basan los
momentos de Hu.
x=M 10M 00
y y=M 01M 00
Una vez calculado el centroide, calculamos los momentos centrales de la imagen,
pq=x
y(x x )p(yy )q I (x ,y )
Para convertir los momentos anteriores a momentos invariantes con respecto a la escala, aplicamos
la siguiente ecuacin:
ij=ij
00(1+ i+ j
2)
Finalmente, ya es posible calcular los siete momentos de Hu, a partir de los momentos centrales
anteriores:
I 1=20+02
I 2=(2002)2+4 11
I 3=(3012 )+(32103)
I 4=(3012)+(2103)
I 5=(30312)(30+12)[(30+12)3(21+03) ]+(32103)( 21+03)[3(30+12)(21+03) ]
Pablo Gonzlez Gonzlez Pgina 18 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
I 6=(2002)[(30+12) (21+03) ]+411(30+12)( 21+03)
I 7=(321303)( 30+12)[( 30+12)3(21+03) ](30312)(21+03)[3(30+12) (21+03) ]
Una vez calculados los siete momentos de Hu, los incorporamos a nuestro vector de
caractersticas.
4.6 Momentos de ZernikeLos momentos de Zernike [24] estn basados en los polinomios con el mismo nombre y han sido
aplicados con xito en problemas de reconocimiento de patrones anteriormente [25].
Una propiedad que hace muy interesante a los momentos de Zernike es que son invariantes a la
rotacin de los objetos. Por contra, estos momentos no son invariantes con respecto al escalado o
a la traslacin de la forma analizada. De esta forma, ser necesario realizar un procesamiento
previo de las imgenes en el que igualaremos todos los tamaos de las imgenes y situaremos el
objeto a analizar en el centro de la imagen. Seguiremos el proceso descrito en un trabajo que trata
sobre la deteccin de tumores [26] [27]. En primer lugar haremos un proceso previo de la imagen
para dejar el microorganismo en el centro de la imagen binaria. Adems, se aplica un escalado
para dejar todas las imgenes a un tamao de 50x50 pxeles.
La forma discreta de los momentos Zernike para una imagen de tamao NxN es la siguiente:
Z n ,m=n+1N
c=0
N1
r =0
N1
f (x ,y )V n ,m* (x ,y )=n+1N c=0
N1
r =0
N1
f (x ,y )Rn , m (pxy )e jm cr
donde p xy es la magnitud del vector desde el origen al punto (x,y), con 0pxy1 ; y y N es un
factor de normalizacin. n, es un entero no negativo representando el orden del polinomio radial. m,
es un entero que satisface las restricciones nm=par y mn representando la repeticin del
ngulo acimutal. Rn ,m es el polinomio radial y V n ,m* es el conjugado complejo del polinomio de
Zernike. Una descripcin ms detallada del clculo de los momentos de Zernike para una imagen
se puede encontrar en [24].
A partir de esta ecuacin, tenemos que elegir qu momentos de Zernike calculamos. En este
Pablo Gonzlez Gonzlez Pgina 19 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
trabajo elegiremos los mismos momentos de bajo orden que los usados en el artculo [26], dado
que experimentalmente funcionan bien.
Momentos Zernike={Z n ,m} { 3n10mnnm=2kkdando lugar a los siguientes 32 momentos de Zernike:
Orden (n) Iteraccin (m)
3 1, 3
4 0, 2, 4
5 1, 3, 5
6 0, 2, 4, 6
7 1, 3, 5, 7, 9
8 0, 2, 4, 6, 8
9 1, 3, 5, 7, 9
10 0, 2, 4, 6, 8, 10
A partir de las amplitudes de estos momentos se obtienen 32 caractersticas que son incorporadas
al vector de caractersticas.
4.7 Transformada de WaveletLa transformada de Wavelet es otro mecanismo que ha probado ser bastante efectivo en el anlisis
de la textura de una imagen [28]. A diferencia de las matrices de co-ocurrencia, el anlisis se
realiza a varias escalas al mismo tiempo. As pues, se pueden obtener los rasgos ms generales de
la textura y a la vez analizarla en ms detalle. Dentro de la familia de mtodos que son capaces de
realizar un anlisis multiresolucin estn tambin los filtros de Gabor. La ventaja de usar Wavelets
con respecto a los filtros de Gabor es que estos ltimos no son ortogonales, lo que provoca que
exista cierto nivel de correlacin entre texturas distintas.
Pablo Gonzlez Gonzlez Pgina 20 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
Para la representacin de texturas y el clculo de un vector de caractersticas se utiliza la
transformada discreta de Wavelet. Los parmetros que vamos a tener que considerar a la hora de
aplicar la transformada de Wavelet van a ser el nivel de descomposicin y la funcin madre
utilizada para calcular la transformada. Del nivel de descomposicin depende directamente el nivel
de detalle al que analizaremos la textura. Por ejemplo, en la Ilustracin 8 podemos ver la
descomposicin en cuatro niveles.
Por otro lado, hay que elegir la funcin madre utilizada para calcular la transformada de Wavelet.
Existen varias familias de funciones entre las que destacan las Daubechies, Coiflets, Symlets, etc.
En este trabajo se va a utilizar como funcin madre la Daubechies de orden cuatro ya que ha
demostrado tener un buen rendimiento en otras aplicaciones de anlisis de textura [29].
Ilustracin 8: Descomposin en 4 niveles
Pablo Gonzlez Gonzlez Pgina 21 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
5 CuantificacinEn aprendizaje automtico, cuantificar es estimar de manera precisa la distribucin de la clases en
un conjunto de ejemplos, usando un conjunto de entrenamiento que puede tener una distribucin
sustancialmente diferente [11]. En su caso ms simple, teniendo en cuenta un problema binario, la
cuantificacin consistir en predecir un nmero p, tambin denominado prevalencia de la clase
positiva, que representa el porcentaje de ejemplos de la clase positiva dentro del conjunto de
prueba. Obviamente, obtenido p, el porcentaje de ejemplos negativos ser 1-p.
Es importante destacar que, a diferencia del problema original de clasificacin, ya no es
estrictamente necesario saber a qu clase pertenece cada uno de los ejemplos de manera
individual, sino que intentaremos estimar el nmero p, sin que importen los errores cometidos en la
clasificacin individual de cada uno de los ejemplos.
5.1 NotacinSupongamos que tenemos un conjunto de entrenamiento {D=(x i , y i ): i=1..S} , con S ejemplos
previamente etiquetados, donde x i es un objeto del espacio de entrada e y iY ={1..k} la clase de
cada ejemplo, siendo k el nmero de clases de nuestro problema (en el caso de un problema
binario, se suele tomar y iY ={1,+1} ).
Este conjunto de entrenamiento D puede ser representado como el porcentaje de los ejemplos que
pertenecen a cada una de las clases. En el caso de un clasificador binario, sera suficiente con la
prevalencia de los ejemplos de la clase positiva, p. El objetivo del cuantificador es obtener la
prevalencia de cada una de las clases en conjuntos de prueba, desconocidos a la hora de realizar
el entrenamiento.
5.2 La cuantificacin como un problema de dataset-shiftDecimos que un problema tiene dataset-shift cuando la distribucin conjunta P (x , y ) de las
entradas x y de las salidas y , difiere entre el conjunto de entrenamiento y de prueba [30]. En este
Pablo Gonzlez Gonzlez Pgina 22 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
contexto, se pueden identificar dos tipos de problemas. El primer tipo son los problemas X Y .
Este tipo de problemas son los problemas predicativos tradicionales y en ellos se cumple que
P (x , y )=P (yx )P (x ) . Por otra parte, existen los problemas Y X [31], en los que el valor de la
clase determina casualmente el valor de x . En este tipo de problemas se cumple
P (x , y )=P ( xy )P (y ) .
Un ejemplo de este segundo tipo de problemas, es concretamente el que estamos tratando en este
trabajo. Dependiendo de la zona, de la temporada y de la profundidad a la que se obtengan las
muestras de plancton, va a condicionar la distribucin de las clases P (y ) , sin embargo, este
hecho no tiene porque condicionar la probabilidad de que un ejemplo, o mejor dicho, los valores
obtenidos a partir de la imagen de un ejemplo x , correspondan a una determinada clase.
Existen tres tipo de dataset-shift, el prior-shift, el covariate-shift y el concept-shift. En los siguientes
subapartados vamos a describir estos tres conceptos, centrndose sobre todo en el prior-shift, ya
que es el ms interesante para este trabajo.
5.2.1 Covariate-shift
El trmino covariate-shift se refiere al cambio en la distribucin de las variables de entrada x [32].
Es este tipo de dataset-shift se produce en problemas del tipo X Y y se cumple que
Pent (yx )=Ppru (yx )Pent ( x )P pru (x ) , donde Pent hace referencia a probabilidades en el
conjunto de entrenamiento mientras que P pru , se refiere a probabilidades en el conjunto de prueba.
5.2.2 Prior-shift
Prior-shift hace referencia a los cambios de distribucin de la variable y . Este tipo de dataset-shift
slo se produce en problemas de tipo Y X y se cumple que
Pent (xy )=Ppru (xy )Pent (y )P pru (y ) [30]. Es decir, tenemos cambios en la distribucin de la
variable Y, pero las probabilidad de que un ejemplo con un vector de caractersticas determinado
pertenezca a una determinada clase se mantiene.
Estas son las condiciones previas establecidas por los trabajos de Forman [10] [11] [15] y
realmente por cualquier trabajo de cuantificacin. Realmente, si no hubiese un cambio en P (y ) no
Pablo Gonzlez Gonzlez Pgina 23 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
estaramos hablando de un problema de cuantificacin. He aqu donde radica la diferencia principal
con los problemas tradicionales de clasificacin, en los que se supone que P (xy ) y P (y ) son
constantes en el conjunto de entrenamiento y de prueba [8].
Una de las consecuencias de que las probabilidades intraclase P (xy ) se mantengan constantes,
es que garantiza que tanto la tasa de verdaderos positivos tpr=TPP
, como la tasa de falsos
negativos fpr=FPN
, se mantengan constantes. En la ilustracin 9 se puede observar como estos
dos valores se mantienen constantes en la primera y segunda figura. Es decir, la proporcin de
ejemplos que caen en el lado incorrecto es la misma en ambas. En la figura de la derecha no
podemos decir lo mismo ya que se puede ver rpidamente como la tasa de fallos de la clase roja
es mucho ms alta que en los otros dos casos.
En el apartado 5.3.2 utilizaremos estas dos condiciones para intentar ajustar los resultados
devueltos por un clasificador con el fin de optimizar los resultados para que se comporten mejor
Pablo Gonzlez Gonzlez Pgina 24 de 53
Ilustracin 9: Visualizacin del prior-shift para un problema binario. En la imagen de la izquierda vemos
un conjunto de datos con una distribucin especfica. En la imagen central, se puede observar un
cambio en la distribucin P (y ) mantenindose las probabilidades intraclase. En la figura de la
izquierda, vemos un cambio en la distribucin pero que no mantiene las probabilidades intraclase.
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
para la tarea de cuantificacin.
5.2.3 Concept-shift
El concept-shift representa el tipo ms complicado de dataset-shift desde el punto de vista del
aprendizaje automtico [30]. En este caso, la relacin entre las entradas y las clases cambia:
Pent (yx )Ppru (yx )Pent ( x )=P pru(x ) en problemas X Y .
Pent (xy )Ppru (xy )Pent (y )=P pru (y ) en problemas Y X .
5.3 Mtodos de cuantificacin binaria5.3.1 Clasificar y contar (CC)
El mtodo ms bsico y evidente de cuantificacin consiste en entrenar un clasificador tradicional
con el conjunto de entrenamiento, utilizarlo para clasificar el conjunto de prueba, y contar las
predicciones positivas. El clasificador utilizado en este TFM es SVM [12], ya que es uno de los
mtodos de clasificacin que obtiene mejores resultados actualmente. Este mtodo ha sido
utilizado como resultado base para comparar con el resto de mtodos descritos en el estudio
realizado por Forman [11].
No es difcil intuir que un clasificador perfecto, es tambin un cuantificador perfecto. Lgicamente,
en problemas del mundo real nunca llegamos a conseguir un clasificador perfecto y, por tanto, el
objetivo de este estudio es comprobar si mtodos diseados especficamente para resolver el
problema de la cuantificacin pueden mejorar los resultados.
Una de las razones principales por las que CC podra no funcionar bien es debido a los cambios de
distribucin existentes habitualmente en problemas reales entre el conjunto de entrenamiento y de
test (podemos observar estos cambios de distribucin de una muestra a otra en nuestro conjunto de
datos, descrito en el Captulo 3). Los clasificadores tradicionales (como por ejemplo SVM), asumen
que las distribuciones de entrenamiento y de prueba son iguales [8]. As pues, si el nmero de
positivos en el conjunto de prueba aumenta y el clasificador tiende a clasificar ejemplos positivos
como negativos (tasa de falsos negativos alta), el nmero de ejemplos negativos predichos tender
Pablo Gonzlez Gonzlez Pgina 25 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
a aumentar. De la misma manera, si el clasificador tiende a clasificar ejemplos negativos como
positivos (tasa de falsos positivos alta), si el nmero de negativos aumenta en un conjunto de
prueba, el nmero de ejemplos predichos como positivos tender a aumentar.
5.3.2 Adjusted Count (AC)
A partir del razonamiento anterior, Forman deduce el siguiente teorema y su posterior
demostracin:
Teorema de Forman:
Para un clasificador imperfecto, el mtodo CC subestimar la verdadera proporcin de positivos p
en un conjunto de prueba para p>p*, y sobrestimar para p
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
Demostracin
Partiendo de la base de que tpr es la tasa de verdaderos positivos tpr=TPP
, es decir, la
proporcin de ejemplos clasificados como positivos que realmente eran positivos; y fpr es la tasa de
falsos positivos fpr=FPN
, es decir, la proporcin de ejemplos clasificados como positivos que en
realidad eran negativos. Estos valores, se pueden considerar independientes de la distribucin.
La probabilidad de que un clasificador binario prediga como positivo un ejemplo aleatorio del
conjunto de prueba es la siguiente:
P (+)=P (+pos)P (pos)+P (+neg)P (neg)=tprP (pos)+fpr(1P (pos))
donde P(pos), es la prevalencia real de positivos en el conjunto de entrenamiento y que a partir de
ahora denominaremos p. Podemos escribir como funcin de p, la prevalencia predicha por el
clasificador sobre el conjunto de entrenamiento: p'(p).
p ' (p )=tprp+ fpr(1p)
Si el clasificador estima correctamente la prevalencia para un valor particular de p*, entonces
p ' (p *)=p* . Para una prevalencia diferente p+ , donde 0 , no se predice la prevalencia
correctamente:
p ' (p *+)=tpr(p*+)+ fpr(1(p*+))=p ' (p *)+(tpr fpr )=p*+(tprfpr )
Adems, el teorema de Forman asume que el clasificador es imperfecto y que por tanto se cumple
que tprfpr
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
p ' (p )=tprp+ fpr(1p)=(tpr fpr )p+ fpr
Despejando p, se obtiene:
p=p ' (p )fprtprfpr (1)
Forman [10] sugiere un mtodo denominado Adjusted Count (AC) como mejora al mtodo CC. El
proceso consiste en entrenar un clasificador y estimar los valores tpr y fpr a travs de validacin
cruzada en el conjunto de entrenamiento. El siguiente paso es contar las predicciones positivas del
clasificador sobre el conjunto de prueba, y estimar el verdadero porcentaje de positivos a travs de
la ecuacin (1).
5.4 Cuantificacin multiclaseTodo el desarrollo terico expuesto hasta el momento supone que cada uno de los ejemplos
pertenece a una de dos clases posibles. Este tipo de problemas se denominan problemas binarios.
En el caso de que el nmero de clases sea mayor que dos, hablamos de problemas muticlase.
Existen principalmente dos tipos de problemas multiclase, por un lado tenemos los problemas en
los que cada ejemplo solamente pertenece a una nica clase y adems, todos los ejemplos tienen
asignada una clase. Por otro lado, existen problemas en los que cada ejemplo puede pertenecer a
ms de una clase al mismo tiempo, o incluso, no pertenecer a ninguna de las clases. En este
documento, vamos a trabajar nicamente con el primer tipo de problemas.
A la hora de enfrentarse a un problema multiclase utilizando un clasificador tradicionalmente binario
como es SVM, nos encontramos con dos alternativas principalmente [33]. La primera, denominada
uno-contra-todos (one-vs-all), consiste en entrenar un clasificador para cada una de las clases.
Estos clasificadores sern binarios y tomarn como positivos los ejemplos de la clase en cuestin y
como negativos, el resto de los ejemplos. A la hora de clasificar un ejemplo nuevo, probaremos
todos los clasificadores y elegiremos la clase que coincida con aquel que clasifique el ejemplo con
mayor margen.
Pablo Gonzlez Gonzlez Pgina 28 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
La segunda alternativa, es conocida como uno-contra-uno (one-vs-one). En este caso, se
construyen clasificadores para cada par de clases ( k (k1)/2 clasificadores). Cuando hay que
clasificar un ejemplo nuevo, se prueba en todos los clasificadores y se elige la clase que ms veces
haya sido vencedora. En la implementacin elegida para este trabajo se utiliza el segundo enfoque,
ya que obtiene resultados muy similares y generalmente unos tiempos de entrenamiento ms
cortos [34].
5.4.1 Funciones de prdida
En este apartado vamos a tratar las funciones de prdida utilizadas en este trabajo. En primer
lugar, tenemos la funcin de prdida tradicional para clasificadores multiclase.
Supongamos un clasificador h (x ) y un ejemplo (x , y ) . Decimos que el clasificador falla el
ejemplo x si h (x )y . Definimos entonces la funcin de error para un clasificador multiclase
como:
M (h (x ), y )=1S i =1
S
h (x )y (2)
donde es 1 cuando el predicado es verdadero y 0 en caso contrario.
Resulta evidente que la funcin de prdida anterior no es interesante en los problemas de
cuantificacin, ya que no estamos interesados en saber la clase de cada uno de los ejemplos.
La funcin de prdida propuesta por Forman [10] [11] [15] para utilizar en problemas de
cuantificacin binarios es el error absoluto (AE, Absolute Error) y, su principal ventaja es que es
fcilmente calculable e interpretable:
AE=p ' p=P ' PS
=FPFNS
Para la cuantificacin multiclase, la funcin de error es anloga pero calculando la diferencia entre
la prevalencia real y predicha para cada una de las clases y haciendo la media de estos errores:
Pablo Gonzlez Gonzlez Pgina 29 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
AE M=i =1
k
p ' ip i
k(3)
5.4.2 Clasificar y contar (CC)
La primer alternativa evidente para hacer un cuantificador multiclase es anloga a la expuesta
anteriormente para problemas binarios. Entrenamos un clasificador multiclase y lo aplicamos sobre
un conjunto de prueba. A partir de los resultados, contamos los ejemplos clasificados en cada una
de las clases.
Al cuantificar nos interesa saber la proporcin de ejemplos que caen en una determinada clase, y
no nos importa la clasificacin individual de cada uno de los ejemplos. Puede ocurrir que un
clasificador con un error multiclase M alto, consiga un error absoluto AE M bajo debido a que los
fallos de clasificacin se compensen. Para poner un ejemplo de esta situacin, imaginemos un
clasificador multiclase al que se le presentan dos ejemplos para clasificar, uno de una hipottica
clase A y otro de clase B. A la hora de clasificar el primer ejemplo, el clasificador se confunde y
predice la clase B. Supongamos tambin, que cuando clasifica el segundo ejemplo, predice que se
trata de un ejemplo de la clase A. En este caso, es fcil ver que tendremos un error multiclase
m=1 , es decir, fallamos el 100% de los casos de prueba. Sin embargo, aplicando la funcin de
prdida para cuantificacin, se puede observar que el error absoluto AE M=0 . Es decir, tenemos el
peor clasificador posible, ya que falla todos los ejemplos de prueba. Sin embargo, al mismo tiempo,
hemos obtenido un cuantificador perfecto ya que es capaz de predecir perfectamente la distribucin
de las clases en el conjunto de prueba.
5.4.3 Adjusted Count (AC)
Esta adaptacin del mtodo descrito anteriormente sobre problemas binarios consiste en los
siguientes pasos. Primero, inducir un clasificador para el conjunto de entrenamiento completo y
estimar tpr y fpr para cada clase por validacin cruzada. Despus, con el conjunto de prueba,
contar el nmero de casos predichos para cada una de las clases y finalmente ajustar los
Pablo Gonzlez Gonzlez Pgina 30 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
porcentajes utilizando la ecuacin (1).
Para estimar tpr y fpr realizamos primero una validacin cruzada general, sobre todo el conjunto de
datos etiquetado. Forman [11] recomienda utilizar una validacin cruzada de 50 particiones (98%
de datos para entrenamiento, 2% de datos para el test), para asegurar que todos los
entrenamientos tengan suficientes ejemplos de todas las clases. En nuestro caso, tenemos
suficientes ejemplos de todas las clases y estimamos conveniente (por trminos de eficiencia), que
una validacin de 10 particiones es suficiente para estimar los valores de tpr y fpr.
Una vez obtenidos los resultados de la validacin cruzada general, hay que calcular el tpr y el fpr
de cada una de las clases en cada una de las particiones. Estas medidas son usadas
tradicionalmente en problemas binarios, pero pueden ser extendidas a problemas multiclase [35].
Si C es el conjunto de todas las clases de nuestro problema, para calcular el tpr y fpr de una clase
c i , consideramos que slo los ejemplos de esta clase son los positivos y el resto los negativos:
P i=c i y N i=ji
c jC
A partir de los resultados de la validacin cruzada general se procede a computar las matrices de
confusin para cada una de las particiones. Se calcula para cada clase y particin el tpr y el fpr
segn las ecuaciones anteriores. Para obtener unos valores finales de tpr y fpr por clase se hace la
media de los valores obtenidos por cada una de las particiones de la validacin cruzada general.
Utilizando estos valores, ya se pueden ajustar los resultados obtenidos en los experimentos
utilizando la ecuacin (1).
Una vez realizado el ajuste, obtenemos un vector p ' con las prevalencias estimadas para cada
una de las clases. Debido a que esta suma puede producir un valor diferente a uno, es necesario
realizar un segundo ajuste:
p '= p 'norm (p ' )
Pablo Gonzlez Gonzlez Pgina 31 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
5.4.4 Ajuste propuesto para problemas multiclase
El ajuste descrito en el apartado anterior, es un ajuste pensado para problemas binarios extendido
para un problema multiclase. En este TFM se han probado con el objetivo de ver si lo que Forman
propone para problemas multiclase en [11] funciona en un problema real.
Como ya hemos explicado en el apartado 5.4.2, en problemas multiclase se pueden producir
compensaciones de errores que hacen que el error en cuantificacin baje drsticamente y que de
esta manera, complique el ajuste propuesto por Forman. En este trabajo proponemos una nueva
forma de realizar el ajuste, analizando el nmero de ejemplos que el clasificador predice para cada
clase, comparado con el nmero de ejemplos reales que existen de esa misma clase. La idea es
ajustar la prevalencia de cada clase de manera que compense la tendencia a pasarse o a quedarse
corto en el nmero de ejemplos predichos de cada tipo.
Para aplicar este ajuste, primero tenemos que obtener un parmetro de ajuste especfico para cada
clase c. Para ello aplicamos la siguiente ecuacin:
c=i=1
S
h (x i )=c
i =1
S
y i=c (4)
donde es 1 cuando el predicado es verdadero y 0 en caso contrario. Con este parmetro de
ajuste c podemos ajustar la prevalencia estimada para dicha clase:
p c=p c ' (pc)
c(5)
El procedimiento para realizar este ajuste sera anlogo al realizado anteriormente y descrito en
apartado 5.4.3. Los pasos son los siguientes:
1. Realizar una validacin cruzada con la totalidad de los datos etiquetados. En este caso, al
igual que antes, realizamos una validacin cruzada de diez particiones.
2. A partir de los resultados de la validacin cruzada anterior, calcular los parmetros de
Pablo Gonzlez Gonzlez Pgina 32 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
ajuste para cada una de las particiones y de las clases segn la ecuacin (4). Como slo
necesitamos un parmetro de ajuste por clase, realizamos la media por particiones de
los parmetros obtenidos para cada clase.
3. Clasificamos los ejemplos de la muestra, obteniendo la prevalencia predicha de cada clase
que actualizamos utilizando los parmetros de ajuste por clase obtenidos en el paso
anterior segn la ecuacin (5).
4. Por ltimo, normalizamos las prevalencias de las clases para que sumen uno (ver el
apartado 5.4.3).
Pablo Gonzlez Gonzlez Pgina 33 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
6 Experimentacin y resultados
6.1 Mtodo de experimentacinEl objetivo de esta investigacin es comparar, en un problema real, el rendimiento de los algoritmos
tradicionales de clasificacin, con las modificaciones optimizadas para la cuantificacin.
Como ya se ha comentado en apartados anteriores, los algoritmos de clasificacin asumen que la
distribucin del conjunto de entrenamiento es la misma que en el conjunto de prueba. Esta
condicin en el conjunto de datos estudiado en este TFM no se cumple. El sistema ser entrenado
con un conjunto mayor o menor de ejemplos etiquetados por un experto y cuando se obtengan
nuevas muestras de plancton, lo ms probable es que la distribucin de individuos en las mismas
vare en gran medida ya que sta depende de dnde y cundo se recoja.
Para aproximarse lo ms posible a la realidad, se harn los experimentos aprovechando la
separacin en muestras que tenemos. Como se ha comentado en el Captulo 3, partimos de que
los ejemplos estn distribuidos en treinta y nueve conjuntos (muestras) diferentes. Cada una de
estas tiene una distribucin de ejemplos por clase diferente. Realizaremos una validacin cruzada
leave-one-out por muestras. Es decir, juntaremos los ejemplos de todas las muestras menos una, y
probaremos el modelo entrenado con la muestra restante. Repetiremos este proceso en las treinta y
nueve combinaciones posibles. Los errores obtenidos se calcularn como los errores medios de
cada uno de estos experimentos. Resulta evidente observar que los resultados as obtenidos sern
peores que si realizsemos una validacin cruzada balanceada de manera tradicional, usando
todos los ejemplos de todas las muestras al mismo tiempo. De todas formas, considero que los
resultados obtenidos se ajustarn ms a la realidad y sern ms fiables de esta manera.
Para cada una de las iteraciones del leave-one-out anterior, se ejecutar un grid-search con el fin
de encontrar los mejores valores de los hiperparmetros del clasificador para esos datos. Puede
darse la situacin de que para cada una de las particiones de la validacin cruzada se encuentren
valores diferentes de los hiperparmetros del clasificador. Los hiperparmetros que hay que ajustar
Pablo Gonzlez Gonzlez Pgina 34 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
en SVM son la constante de regularizacin C y la constante g (cuando se use un kernel gaussiano).
Los valores utilizados para la bsqueda son los siguientes. Para un kernel lineal buscamos el mejor
valor de C entre [0.001 0.01 0.05 0.1 0.5 1 5 10 50 100]. Para un kernel gaussiano se buscan
valores de C entre [10E-6, 10E-5, 10E-4, 10E-3, 10E-2, 1, 10, 100, 1000, 10000] y valores de g
entre [10E-8, 10E-7, 10E-6, 10E-5, 10E-4, 10E-3, 10E-2, 1, 10, 100]. Para realizar est bsqueda
de hiperparmetros se utiliza una validacin cruzada sobre el conjunto de entrenamiento de dos
particiones y tres repeticiones.
6.1.1 Clasificador LibSVM multiclase
En este apartado se documentan los experimentos previos antes de abordar la cuantificacin. La
idea es tener unos datos para comparar y ver si somos capaces de mejorarlos con las tcnicas de
cuantificacin descritas anteriormente. Realizaremos para ello una clasificacin tradicional,
utilizando uno de los mejores algoritmos que existen actualmente para ello: SVM. La
implementacin utilizada en este trabajo es multiclase y se denomina LibSVM [36]. La primera
prueba la realizaremos juntando todos los ejemplos de todas las muestras en un mismo conjunto de
entrenamiento. Este es el caso tenido en cuenta en la mayor parte de los artculos cientficos que
se escriben sobre esta temtica. Los resultados, teniendo en cuenta el error multiclase (M ) , son
los siguientes (slo se muestra el error medio para todas las clases):
Kernel Lineal Kernel Gaussiano
Error medio multiclase 0.28616 0.25377
Los siguientes resultados se han obtenido a partir de una validacin cruzada con los ejemplos
agrupados por muestras, segn lo descrito en el apartado 6.1.
Kernel Lineal Kernel Gaussiano
Error medio multiclase 0.3489858 0.3248957
Como podemos observar obtenemos, en el mejor de los casos, cerca de un 68% de acierto. Es
Pablo Gonzlez Gonzlez Pgina 35 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
importante ver la diferencia entre los experimentos anteriores. En realidad se trata de los mismos
datos pero distribuidos en la validacin cruzada de diferente forma. En el primer caso, el propio
mecanismo de validacin cruzada calcula las particiones de forma aleatoria pero balanceada,
mientras que en el segundo caso, la separacin en particiones ya viene impuesta por las treinta y
nueve muestras diferentes de las que consta nuestro problema.
6.1.2 Cuantificador clasificar y contar (CC)
A partir de los mejores resultados anteriores (obtenidos con el kernel gaussiano), y haciendo un
anlisis particin por particin de la validacin cruzada, se pueden calcular las prevalencias para
cada una de las clases, en cada una de las particiones. Por un lado tenemos la prevalencia real y
por otro la prevalencia estimada por el clasificador. Estos datos se extraen directamente con el
mtodo CC, contando los ejemplos de cada clase en cada particin y calculando los porcentajes.
Los resultados obtenidos por muestras se pueden ver en la Tabla 1.
Pablo Gonzlez Gonzlez Pgina 36 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
AE M AE M AE M
Muestra 1 0,0397 Muestra 2 0,0464 Muestra 3 0,0456
Muestra 4 0,0254 Muestra 5 0,0289 Muestra 6 0,0720
Muestra 7 0,0253 Muestra 8 0,0411 Muestra 9 0,0353
Muestra 10 0,0192 Muestra 11 0,0245 Muestra 12 0,0188
Muestra 13 0,0983 Muestra 14 0,0514 Muestra 15 0,0342
Muestra 16 0,0224 Muestra 17 0,0348 Muestra 18 0,0144
Muestra 19 0,0383 Muestra 20 0,0260 Muestra 21 0,0463
Muestra 22 0,0326 Muestra 23 0,0232 Muestra 24 0,0590
Muestra 25 0,0989 Muestra 26 0,0275 Muestra 27 0,0371
Muestra 28 0,0406 Muestra 29 0,0227 Muestra 30 0,0285
Muestra 31 0,0302 Muestra 32 0,0300 Muestra 33 0,0506
Muestra 34 0,0133 Muestra 35 0,0152 Muestra 36 0,0336
Muestra 37 0,0107 Muestra 38 0,0235 Muestra 39 0,0158
Tabla 1: Error absoluto por muestras para el mtodo CC
Para dar una visin grfica de los resultados, en la Ilustracin 11 se muestran los resultados
detallados de doce muestras. En el resto de muestras se puede observar una tendencia similar.
Pablo Gonzlez Gonzlez Pgina 37 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
Pablo Gonzlez Gonzlez Pgina 38 de 53
Ilustracin 11: Resultados del mtodo CC para 12 de las 39 muestras
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
Como se puede observar, existe una compensacin en los fallos que tiene el clasificador, dando
lugar a unos resultados en cuantificacin sorprendentemente buenos. Para entender este efecto es
necesario analizar las matrices de confusin para cada una de las muestras. En la Tabla 2,
podemos ver la matriz de confusin cuando se utiliza la muestra cuatro como conjunto de prueba y
los ejemplos del resto de muestras como conjunto de entrenamiento.
En la matriz de confusin aparece por filas las clases reales y por columnas las clases predichas.
Los aciertos los podemos ver en violeta y coinciden con la diagonal de la matriz. Estos seran los
valores tenidos en cuenta para calcular el error multiclase M . En este caso, tenemos exactamente
79 aciertos, entre 118 ejemplos a clasificar, obtenemos M=0.3305 , es decir, aproximadamente
uno de cada tres ejemplos clasificados se clasifica incorrectamente.
A partir de un error en la clasificacin multiclase tan alto, sera de esperar unos errores absolutos
AE M en cuantificacin con el mtodo CC tambin muy altos. Sin embargo, se produce un efecto de
compensacin entre los errores. Se puede observar claramente en el caso de los Detritus y las
Diatomeas. Analizando la matriz de confusin se puede ver como se clasifican 7 de las 57
diatomeas existentes en el conjunto de prueba como detritus. Por otro lado, 12 de los 33 detritus
existentes, se clasifican como diatomeas. Claramente estos errores se compensan dando lugar a
un error AE M mucho ms bajo.
Pablo Gonzlez Gonzlez Pgina 39 de 53
-
CLASE PREDICHA
Artefacts Ciliates Crusta. Detritus Diatoms Dino. Flage. Nano. Silicofla. Unclass. T. Real P. Real
CLAS
E RE
AL
Artefacts 7 0 0 0 0 0 0 0 0 0 7 0,059
Ciliates 0 0 0 0 0 0 0 0 0 0 0 0
Crustaceans 0 0 1 1 0 0 0 0 0 1 3 0,025
Detritus 0 1 0 18 12 0 0 0 0 2 33 0,280
Diatoms 0 0 1 7 45 0 0 0 0 4 57 0,483
Dinoflagellates 0 0 0 0 0 0 0 0 0 0 0 0
Flagelados 0 0 0 0 0 0 0 0 0 0 0 0
Nanoplankton 0 0 0 0 7 0 0 0 0 0 7 0,059
Silicoflagellates 0 0 0 0 0 0 0 0 0 0 0 0
Unclassified 0 0 0 0 3 0 0 0 0 8 11 0,093
T. Predicha 7 1 2 26 67 0 0 0 0 15 118
P. Predicha 0,059 0,008 0,017 0,220 0,568 0 0 0 0 0,127
Tabla 2: Matriz de confusin utilizando la muestra cuatro como conjunto de prueba y el resto de muestras como conjunto de entrenamiento.
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
6.1.3 Adjusted-Count (AC)
En este experimento probaremos el ajuste descrito en el apartado 5.3.2. Una vez obtenidos los tpr
y fpr para cada una de las clases, a travs de una validacin general realizada con todos los datos
etiquetados, realizamos un ajuste segn la ecuacin (1), de los resultados obtenidos en la
validacin cruzada por muestras. Resaltamos en verde los resultados en los que el mtodo AC se
comporta mejor que el mtodo CC y en rojo el caso contrario.
AE M AE M AE M
Muestra 1 0,0226 Muestra 2 0,0499 Muestra 3 0,0466
Muestra 4 0,0517 Muestra 5 0,1147 Muestra 6 0,0891
Muestra 7 0,0324 Muestra 8 0,0462 Muestra 9 0,0158
Muestra 10 0,0323 Muestra 11 0,0393 Muestra 12 0,0341
Muestra 13 0,1071 Muestra 14 0,0511 Muestra 15 0,0494
Muestra 16 0,0196 Muestra 17 0,0463 Muestra 18 0,0307
Muestra 19 0,0323 Muestra 20 0,0247 Muestra 21 0,0381
Muestra 22 0,0535 Muestra 23 0,0328 Muestra 24 0,0651
Muestra 25 0,0982 Muestra 26 0,0252 Muestra 27 0,0221
Muestra 28 0,0390 Muestra 29 0,0226 Muestra 30 0,0249
Muestra 31 0,0335 Muestra 32 0,0304 Muestra 33 0,0712
Muestra 34 0,0149 Muestra 35 0,0174 Muestra 36 0,0191
Muestra 37 0,0244 Muestra 38 0,0332 Muestra 39 0,0230
Tabla 3: Error absoluto por muestras para el mtodo AC
El error medio absoluto para todas las muestras es 0.0416. Este error es superior al obtenido por el
mtodo CC directamente, que es 0.0354. Podemos concluir por tanto que este tipo de ajuste no
mejora los resultados en este problema concreto con respecto al mtodo CC.
Pablo Gonzlez Gonzlez Pgina 41 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
En la Ilustracin 12 se muestran los resultados grficamente para 12 de las 39 muestras de nuestro
problema.
Pablo Gonzlez Gonzlez Pgina 42 de 53Ilustracin 12: Resultados para el mtodo AC para 12 de las 39 muestras
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
6.1.4 Ajuste para problemas multiclase
En este experimento se tendr en cuenta lo descrito en el apartado 5.4.4. Los resultados se
muestran en la tabla siguiente. De nuevo, resaltamos en verde los valores que mejoran al mtodo
CC y al mtodo AC y en rojo, las muestras en las que este ajuste funciona peor.
AE M AE M AE M
Muestra 1 0,0135 Muestra 2 0,0310 Muestra 3 0,0358
Muestra 4 0,0295 Muestra 5 0,0828 Muestra 6 0,0665
Muestra 7 0,0141 Muestra 8 0,0266 Muestra 9 0,0165
Muestra 10 0,0107 Muestra 11 0,0346 Muestra 12 0,0257
Muestra 13 0,0950 Muestra 14 0,0355 Muestra 15 0,0266
Muestra 16 0,0146 Muestra 17 0,0254 Muestra 18 0,0166
Muestra 19 0,0273 Muestra 20 0,0152 Muestra 21 0,0438
Muestra 22 0,0534 Muestra 23 0,0180 Muestra 24 0,0543
Muestra 25 0,0937 Muestra 26 0,0260 Muestra 27 0,0246
Muestra 28 0,0283 Muestra 29 0,0223 Muestra 30 0,0261
Muestra 31 0,0215 Muestra 32 0,0348 Muestra 33 0,0535
Muestra 34 0,0130 Muestra 35 0,0149 Muestra 36 0,0165
Muestra 37 0,0187 Muestra 38 0,0069 Muestra 39 0,0278
En este caso, el error absoluto medio para todas las muestras obtenido por el mtodo es 0.0318,
rebajando el error absoluto en cuantificacin en un punto porcentual con respecto al mtodo AC y
en medio punto con respecto al mtodo CC.
En la imagen 13 se pueden observar las grficas correspondientes a 12 muestras de las 39
existentes utilizando el ajuste multiclase. Aunque la diferencia con los dos otros mtodos es
Pablo Gonzlez Gonzlez Pgina 43 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
pequea, si es posible ver como la prevalencia real y la prevalencia estimada, en muchos puntos
coincide perfectamente.
Pablo Gonzlez Gonzlez Pgina 44 de 53
Ilustracin 13: Grficas del ajuste multiclase realizado para 12 de las 39 muestras
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
7 ConclusionesEn este TFM hemos tratado de resolver un problema de cuantificacin de muestras de plancton.
Para ello hemos tenido que trabajar con fotografas provenientes directamente de un dispositivo de
captura automtica (FlowCam).
En la primera parte del trabajo se ha tratado la problemtica de obtener un vector de caractersticas
robusto para describir cada una de las imgenes de nuestro conjunto de datos. Para obtener este
vector de caractersticas se analizaron las tcnicas utilizadas en problemas similares descritas en
varios artculos de investigacin. Se ha intentado crear un vector de caractersticas robusto a partir
tcnicas de visin artificial muy diversas. El enfoque empleado ha sido intentar utilizar tanto
descriptores de textura como de forma, de manera que el vector de caractersticas resultante
contuviese informacin muy diversa de la imagen. La ventaja de utilizar diferentes tcnicas es que
si un tipo de plancton no puede ser diferenciado por una tcnica concreta, podr ser diferenciado
por otra. En diferentes experimentos realizados he comprobado que la utilizacin de tcnicas
variadas no empeora nunca los resultados debido a que el clasificador (SVM) es capaz de dar
menos peso a los atributos que aportan menos para diferenciar los ejemplos. En este caso se han
utilizado slo tcnicas que haban funcionado en otros problemas y se ha obtenido un vector de
caractersticas con un tamao razonable (148 caractersticas).
Posteriormente se han analizado diferentes tcnicas con el objetivo de resolver el problema de la
cuantificacin para poder estimar los porcentajes de ejemplos de cada una de las clases en una
muestra de plancton. El primer obstculo al que nos hemos enfrentado al realizar el trabajo ha sido
la escasez de trabajos de investigacin en los que se aborde el problema de la cuantificacin
multiclase. La cuantificacin es un problema bastante reciente y el nmero de artculos cientficos
dedicados especficamente a este campo es muy limitado. El trabajo realizado por Forman, incluye
una parte en la que analiza brevemente la cuantificacin multiclase [11] pero sin profundizar ni
realizar una buena experimentacin para poder analizar sus resultados.
Una vez estudiados los trabajos previos, se ha desarrollado una parte terica en la que se estudia
Pablo Gonzlez Gonzlez Pgina 45 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
la cuantificacin multiclase y se ha descubierto un problema con el que los cuantificadores binarios
no tienen que lidiar: la compensacin de errores. En los artculos de Forman se proponen una serie
de ajustes que, utilizando la tasa de falsos positivos y la tasa de falsos negativos, ajustan el
resultado obtenido por el clasificador con el objetivo de compensar los errores cometidos por el
clasificador y mejorar as los resultados en cuantificacin. En problemas multiclase esto no resulta
tan sencillo ya que puede que se estn fallando ejemplos (error alto en clasificacin multiclase),
pero que debido a la compensacin de errores, el error cuantificando sea muy pequeo. En esta
situacin, el ajuste realizado propuesto por Forman parece que es en realidad contraproducente y
empeora los resultados sobre el mtodo bsico de clasificar y contar.
Otra posible razn para explicar porqu el ajuste de Forman no funciona es la existencia de varios
tipos de dataset-shift en el conjunto de datos que manejamos. Es importante recordar que el ajuste
de Forman tiene como condicin inicial que solamente exista prior-shift en el conjunto de datos, es
decir, cambios en la distribucin de las clases de los ejemplos. Realmente, en un conjunto de datos
real como ste, es muy difcil garantizar esta condicin. Uno de los factores principales puede ser la
eleccin de las clases del problema. Las clases han sido elegidas segn grupos taxonmicos
generales que resultan interesantes para posteriormente realizar anlisis que tengan algn tipo de
inters desde un punto de vista biolgico. El problema al que nos lleva esto, es que pueden existir
clases dentro de las cuales hay elementos agrupados pertenecientes a subclases diferentes. Por
ejemplo, dentro de la categora general diatomeas, tenemos agrupados todo tipo de ejemplos que
pueden pertenecer a cualquiera de las subgrupos taxonmicos que existen por debajo de las
diatomeas. Los ejemplos de cada uno de estos subgrupos tienen unas caractersticas morfolgicas
diferentes (que se traducen en un vector de caractersticas diferente), pero todos estn englobados
bajo nuestra clase diatomea. Situaciones como la descrita aqu, ocurren con bastante probabilidad
en este conjunto de datos, suponiendo una razn ms para que el ajuste de Forman no sea el ms
adecuado para este sistema de cuantificacin automtico.
Una vez comprobado experimentalmente que el ajuste propuesto por Forman no funciona de
manera adecuada en este problema, se ha pensado en un nuevo ajuste con el objetivo de mejorar
los resultados obtenidos. La idea principal de este ajuste es tener en cuenta nicamente la
Pablo Gonzlez Gonzlez Pgina 46 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
tendencia del clasificador a predecir ejemplos de una determinada clase. Si el clasificador tiende a
clasificar ms ejemplos de una clase de los que en realidad hay, ajustamos el resultado a la baja,
suponiendo que esta tendencia se observar tambin ante una nueva muestra que sea clasificada
por nuestro sistema. Lo mismo suceder en el caso contrario, si el clasificador tiende a subestimar
el nmero de ejemplos de una clase determinada, ajustaremos al alza proporcionalmente la
prevalencia de esa clase en el conjunto de prueba.
En los experimentos realizados, se ha podido comprobar como este ajuste funciona mejor que el
ajuste propuesto por Forman y tambin funciona mejor que el mtodo bsico de clasificar y contar.
Es importante recordar que las pruebas se han hecho realizando una validacin cruzada
manualmente por muestras. Se intenta de esta manera simular al mximo el uso de este sistema
en un caso real en el que tendremos que clasificar una nueva muestra obtenida por la FlowCam.
Adems, como se ha visto a lo largo del trabajo, la distribucin de ejemplos de cada muestra es
totalmente variable por lo que es necesario incluir esta premisa directamente en los experimentos si
queremos que estos representen de alguna manera a la aplicacin real de un trabajo de este tipo.
7.1 Trabajo futuroEste trabajo no ha hecho ms que plantear las bases de la cuantificacin multiclase. Una posible
ampliacin del mismo sera la realizacin de ajustes ms complejos que representasen mejor la
compensacin de errores producida y de esta forma, mejorasen los resultados obtenidos. Tambin
se podran probar diferentes mtodos de cuantificacin que se estn desarrollando actualmente,
amplindolos para cubrir la cuantificacin multiclase. El problema de este enfoque es que la mayor
parte de los algoritmos de clasificacin multiclase trabajan por debajo con un clasificador binario.
De esta manera, es difcil tener en cuenta la compensacin de errores producida entre las clases.
Sera necesario investigar algoritmos que tratasen de manera directa la clasificacin multiclase y
tratar de modificarlos para optimizar las medidas de cuantificacin en lugar de las de clasificacin.
Otra posible campo de estudio es la cuantificacin por costes. Es decir, en lugar de cuantificar el
nmero de ejemplos que pertenecen a cada clase, tratar de cuantificar una medida determinada de
cada uno de estos ejemplos. Se podra considerar en este caso que cada ejemplo tiene una
Pablo Gonzlez Gonzlez Pgina 47 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
biomasa determinada asociada. El objetivo del cuantificador sera entonces estimar la cantidad de
biomasa existente en cada grupo taxonmico (clase). En este planteamiento, cuantificar
correctamente los ejemplos con mayor biomasa es prioritario ya que afectarn en mayor medida a
las medidas de biomasa de clase en cuestin.
Pablo Gonzlez Gonzlez Pgina 48 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
8 Anexo I FIT_Diameter.ABD. Nmero de pxeles despus de convertir la imagen a binaria. (real >
0) .
FIT_Diameter.ESD. Dimetro calculado como la media de las medidas de Feret tomadas
cada 5 (36 medidas). (real > 0) .
FIT_Length. El valor mximo de las 36 medidas de Feret. (real > 0) .
FIT_Width. El valor mnimo de las 36 medidas de Feret. (real > 0) .
FIT_Aspect.Ratio. Aspecto de la partcula calculado como FIT_Length/FIT_Width. (real [0,
1]).
FIT_Transparency. Calculado como 1 (ABD Diameter / ESD Diameter). (real [0, 1]). 0 es el
valor para un crulo relleno; valores cerca de uno son para partculas alargadas, formas
irregulares, o formas que tienen muchos huecos interiores.
FIT_Intensity. El valor medio de los pxeles en escalada de grieses que forman la partcula.
(real [0, 255]). 255 sera el valor ms intenso.
FIT_Sigma.Intensity. Desviacin estndar de los valores de los pxeles en escala de grises.
(real 0) .
FIT_Sum.Intensity. Suma de todos los valores de los pxeles en escala de grises. (real > 0) .
FIT_Compactness. Es un atributo de forma derivado del permetro y del area. La frmula
aplicada es: perimeter4xPIxArea
. Cuanto ms complicada y enrevesada sea la forma, mayor ser
el valor (real 1).
FIT_Elongation. Medida de la elongacin de la partcula basada en el permetro y el rea,
suponiendo que rea = longitud x anchura y Permetro = 2(longitud + anchura). (real 1; 1
es el valor para un crculo o un cuadrado; valores mayores corresponden a partculas
estiradas) .
Pablo Gonzlez Gonzlez Pgina 49 de 53
-
Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones
Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico
FIT_Perimeter. Longitud total de los bordes de la partcula, incluyendo la longitud de los
bordes de los huecos. (real > 0) .
FIT_Convex.Perimeter. Una aproximacin del permetro a travs de la envolvente convexa
de la partcula. Derivada de las medidas de Feret. (real > 0) .
FIT_Roughness. Medida de la irregularidad del permetro de una partcula. (real 1).
FIT_Avg.Red. Valor medio de los pxeles rojos de la imagen. (real [0, 255]; 255 sera rojo
intenso) .
FIT_Avg.Green. Valor medio de los pxeles verdes de la imagen (real [0, 255]; 255 es verde
intenso) .
FIT_Avg.Blue. Valor medio de los pxeles azules de la imagen. (real [0, 255]; 255 es azul
intenso) .
FIT_Ratio.Red.Green. FIT_Avg.Red / FIT_Avg.Green. (real 0) .
FIT_Ratio.Blue.Green. FIT_Avg.Blue / FIT_Avg.Green. (real 0) .
FIT_Ratio
top related