cuantificación de muestras de micro-plancton utilizando técnicas de aprendizaje automático

UNED (Departamento de Inteligencia Artificial)

Cuantificacin de muestras de micro-planctonusando tcnicas de Aprendizaje Automtico

TRABAJO FIN DE MSTERMster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

Pablo Gonzlez Gonzlez

TutorDr. Luis Manuel Sarro Baro (UNED)

CodirectoresDr. Juan Jos del Coz Velasco (Universidad de Oviedo)

Dr. Jorge Dez Pelez (Universidad de Oviedo)

Madrid, Junio de 2014

Mster Universitario en I.A. Avanzada: Fundamentos, Mtodos Y Aplicaciones

Trabajo Fin de Mster: Cuantificacin de muestras de micro-plancton usando tcnicas de Aprendizaje Automtico

AgradecimientosMe gustara mostrar mi ms sincero agradecimiento a mis codirectores de este trabajo fin de

mster, Juan Jos y Jorge, de la Universidad de Oviedo, por el apoyo y la confianza que han

puesto en mi todos estos aos, y por darme la oportunidad de trabajar y aprender con ellos.

Agradecer tambin al Centro de Inteligencia Artificial de Gijn, por haberme permitido utilizar su

infraestructura para la realizacin de los experimentos de este trabajo.

Quiero dar las gracias a mi tutor de trabajo fin de mster, Luis Manuel Sarro, de la UNED, por su

buen hacer en la labor de coordinacin de este mster de inteligencia artificial y en especial, por

tutorizar este trabajo.

Este proyecto no hubiera sido posible sin el valioso conjunto de datos ya etiquetado y clasificado.

Quiero agradecer por esta tarea, y adems por su amabilidad y atencin, a Eva lvarez del Instituto

Oceanogrfico de Gijn.

Por ltimo y no menos importante, me gustara dar las gracias a toda la gente que en algn

momento se ha interesado y me ha preguntado por este trabajo de investigacin, especialmente a

mi novia Laura, mi familia y amigos cercanos.

Pablo Gonzlez Gonzlez Pgina 2 de 53



ResumenEn algunas aplicaciones de aprendizaje automtico, predecir la clase de los ejemplos de un

conjunto de datos no es lo realmente importante, sino que el objetivo real es predecir el porcentaje

de ejemplos de cada clase. El nombre de este tipo de problemas es cuantificacin y est siendo un

campo del aprendizaje automtico que est empezando a recibir relevancia recientemente.

En este trabajo fin de mster, trabajamos con un conjunto de 17.027 imgenes de plancton, con

ejemplos pertenecientes a 10 clases diferentes y distribuidas en 39 muestras, tomadas en

diferentes puntos del mar, en diferentes temporadas y a diferentes profundidades.

El objetivo que se persigue en este trabajo fin de mster es desarrollar un sistema automtico que

sea capaz de predecir, con la mnima tasa de error posible, la distribucin de ejemplos por clase de

una nueva muestra de plancton. Para ello, se emplearn tcnicas propuestas por autores

relevantes en el campo de la cuantificacin, adaptndolas a este problema concreto y, adems, se

explorarn otras nuevas alternativas con el objetivo de mejorar los resultados obtenidos.




AbstractIn certain machine learning applications, the prediction of the class of each example in a set of data

is not necessarily the most important task, and the real aim is to predict the underlying data

distribution, regardless of each individual classification. These kinds of tasks are referred to as

quantification problems and they have been subject of study recently.

In this thesis, the dataset used is comprised of 17.027 plankton images belonging to 10 different

classes and distributed in 39 different samples, taken at sea in different places, during different

seasons and at different depths.

The aim of the present project is to build an automatic system capable of predicting, with the lowest

possible error rate, the data distribution of a new plankton sample. In order to fulfil this task,

techniques proposed by relevant authors in the quantification area will be tested, adapting them to

this particular problem. Furthermore, new approaches will be explored so as to improve the results

obtained.




ndice de contenido1 Introduccin...................................................................................................................................7

2 Estado de la cuestin.....................................................................................................................9

2.1 Clasificacin de plancton........................................................................................................9

2.2 Cuantificacin.........................................................................................................................9

3 Conjunto de datos........................................................................................................................11

4 Clculo de caractersticas............................................................................................................14

4.1 Caractersticas calculadas por la FlowCam..........................................................................14

4.2 Clculo de contornos............................................................................................................14

4.3 Descriptores de Fourier........................................................................................................15

4.4 Matrices de co-ocurrencia....................................................................................................17

4.5 Momentos de Hu..................................................................................................................18

4.6 Momentos de Zernike...........................................................................................................19

4.7 Transformada de Wavelet.....................................................................................................20

5 Cuantificacin..............................................................................................................................22

5.1 Notacin...............................................................................................................................22

5.2 La cuantificacin como un problema de dataset-shift............................................................22

5.2.1 Covariate-shift...............................................................................................................23

5.2.2 Prior-shift......................................................................................................................23

5.2.3 Concept-shift................................................................................................................25

5.3 Mtodos de cuantificacin binaria........................................................................................25




5.3.1 Clasificar y contar (CC).................................................................................................25

5.3.2 Adjusted Count (AC).....................................................................................................26

5.4 Cuantificacin multiclase......................................................................................................28

5.4.1 Funciones de prdida...................................................................................................29

5.4.2 Clasificar y contar (CC).................................................................................................30

5.4.3 Adjusted Count (AC).....................................................................................................30

5.4.4 Ajuste propuesto para problemas multiclase.................................................................32

6 Experimentacin y resultados......................................................................................................34

6.1 Mtodo de experimentacin.................................................................................................34

6.1.1 Clasificador LibSVM multiclase.....................................................................................35

6.1.2 Cuantificador clasificar y contar (CC)............................................................................36

6.1.3 Adjusted-Count (AC).....................................................................................................41

6.1.4 Ajuste para problemas multiclase.................................................................................43

7 Conclusiones...............................................................................................................................45

7.1 Trabajo futuro.......................................................................................................................47

8 Anexo I........................................................................................................................................ 49

9 Bibliografa...................................................................................................................................51




1 IntroduccinCuando se realizan estudios biolgicos sobre el plancton marino, resulta muy importante analizar la

distribucin de las diferentes especies de plancton presentes en el medio. Hoy en da existen

dispositivos capaces de obtener de manera automtica, a partir de muestras de agua, fotografas o

vdeo del plancton presente. Algunos ejemplos son el Video Plankton Recorder [1], el sistema

SIPPER [2], o la FlowCam [3]. Con la existencia de dispositivos de recogida automtica, resulta

imposible que todos los datos obtenidos sean analizados solamente por personal humano, ya que

cada una de las muestras tendra que ser estudiada y clasificada por un taxnomo especialmente

entrenado para ello.

Debido a lo anterior, surge una necesidad de obtener un sistema automtico que, con suficiente

precisin, sea capaz de clasificar las muestras de plancton y separarlas en cada una de las

diferentes clases taxonmicas. Varios trabajos [4] [5] [6] [7] han sido realizados en este campo. De

manera muy simplificada, todos ellos utilizan un mismo procedimiento: a partir de cada una de las

imgenes provenientes de un sistema automtico de captura, se calcula un vector de

caractersticas representativo y, posteriormente, se utiliza un clasificador para entrenar un modelo

que servir para predecir la clase de nuevas fotografas.

Uno de los principales problemas a los que se enfrenta la estrategia aplicada por los anteriores

trabajos es que obtienen buenos resultados actuando sobre conjuntos cerrados de plancton, donde

la distribucin de los ejemplos en las diferentes clases de plancton se mantiene. Esto sucede

porque la asuncin general hecha por los mtodos de clasificacin es que la distribucin de los

ejemplos usados para la fase de entrenamiento es representativa [8]. En este tipo de problemas la

realidad generalmente no es as [9], y segn las estaciones o las zonas donde se hagan los

estudios, los cambios en la distribucin de las especies de plancton pueden llegar a ser dramticos.

En este Trabajo Fin de Mster (en adelante TFM) se intentar resolver este problema utilizando un

enfoque diferente: fijaremos como nuestra prioridad ser capaces de cuantificar la cantidad de

plancton de cada clase (en lugar de intentar optimizar el error de clasificacin por cada ejemplo). La




cuantificacin se aplica en problemas en los que es irrelevante conocer la clase de cada individuo,

sino que interesan los datos a nivel agregado, como es el caso del problema del reconocimiento de

plancton que nos ocupa. Un ejemplo de otro mbito podra ser una compaa de seguros, cuyo

deseo sera conocer el nmero de accidentes que van a tener sus clientes. En realidad para los

nmeros de la compaa, no les interesa saber qu clientes van a tener un accidente y cules no,

sino el nmero total de accidentes que van a sufrir sus asegurados.

Por tanto, trabajaremos con la asuncin previa de que la distribucin de las especies de plancton

puede cambiar y ser diferente en el conjunto de entrenamiento y en el conjunto de prueba.

El problema de la cuantificacin fue definido por Forman [10] [11], trabajando con estas

consideraciones previas en un problema binario, perteneciente a un mbito muy diferente al del

plancton. El reto de este TFM, ser aplicar este enfoque a este conjunto de datos, con el reto

adicional de extenderlo a un problema multiclase.

Para la realizacin del trabajo se cuenta con un conjunto de datos adecuado, obtenido gracias al

uso del sistema automtico FlowCam. El conjunto est formado por 17.027 fotografas, tomadas en

39 muestreos diferentes. Uno de los aspectos importantes de este conjunto de datos es que la

distribucin de las especies es diferente en cada uno de los muestreos, reflejando las

caractersticas reales del problema.

La estructura de este trabajo es la siguiente: en el Captulo 2 analizaremos el estado de la cuestin,

revisando de manera detallada los trabajos ya realizados en este campo. A continuacin, en el

Captulo 3, daremos una descripcin detallada del conjunto de datos utilizado. En el Captulo 4

abordaremos el problema del clculo del vector de caractersticas para cada una de las imgenes,

utilizando tcnicas de visin artificial. Posteriormente, en el Captulo 5, haremos un estudio de las

estrategias utilizadas para la resolucin del problema de cuantificacin. En el Captulo 6, se

aplicarn las tcnicas de cuantificacin al problema en cuestin y se compararn los resultados con

los obtenidos por los enfoques tradicionales utilizando un algoritmo de clasificacin. Por ltimo, en

el Captulo 7 analizaremos los resultados obtenidos e intentaremos extraer conclusiones tiles

sobre el trabajo realizado.




2 Estado de la cuestin

2.1 Clasificacin de planctonCon la aparicin de dispositivos de captura de imgenes de plancton automticos han sido muchos

los trabajos realizados por los investigadores en esta materia. Uno de los primeros artculos [5] de

clasificacin automtica de varias especies de plancton utiliza Sipper II [2] como fuente para

obtener las imgenes de plancton. En este trabajo se calculan solamente atributos de forma, ya

que las imgenes son en escala de grises y con una calidad muy baja. Se aborda el problema

utilizando como clasificador Support Vector Machines (SVM) [12] y se consiguen unos resultados

satisfactorios.

Uno de los trabajos principales es una tesis doctoral realizada por Hu [13]. En esta tesis se

adquieren las muestras de plancton a travs de una Video Plankton Recorder [1], y se aplican

varias tcnicas de visin artificial para describir cada uno de los ejemplos. Una de las principales

aportaciones de esta tesis es el uso de atributos de textura, adems de los atributos de forma ya

aplicados anteriormente. Esta tesis es un buen punto de partida para abordar el problema de la

clasificacin automtica de plancton.

Adems de los trabajos anteriores, que utilizan sistemas diferentes al usado en este TFM, existen

otros que utilizan la Flowcam como fuente de datos. En [7] se analizan diversos atributos de forma

y de textura aplicados sobre imgenes provenientes de la Flowcam y se evalan los resultados

obtenidos con cada uno de ellos con diferentes clasificadores (entre ellos SVM). En otro de los

artculos que utiliza la FlowCam como fuente de datos [14], se utiliza un clasificador para predecir

la cantidad de biomasa para cada una de las clases de plancton, dando prioridad los ejemplos con

mayor cantidad de biomasa (clasificacin sensible al coste).

2.2 CuantificacinEn el apartado anterior hemos descrito el estado de la cuestin para sistemas de clasificacin de

plancton. El problema que tratamos de resolver en este TFM es diferente. Tratamos de predecir la




prevalencia de cada una de las especies en el conjunto de prueba, es decir, el porcentaje de

ejemplos que pertenecen a cada una de las clases definidas.

El problema de la cuantificacin, que analizaremos ms en detalle en el Captulo 5, ha sido

abordado para sistemas binarios recientemente por Forman [10] [11] [15]. En estos artculos se

describen diferentes ajustes a los algoritmos tradicionales de clasificacin para optimizar los

resultados en cuantificacin y no en clasificacin. En sus artculos, Forman trabaja con problemas

binarios en los que la distribucin de los datos es bastante variable, y en muchos casos la

diferencia en las prevalencias de la clase positiva y negativa es enorme. Aunque, como ya se ha

dicho, los conjuntos de datos con los que trabajan Forman son binarios, en [11] Forman expone

brevemente un mtodo para resolver la cuantificacin en problemas multiclase. Este ser el mtodo

del que partiremos para probar en nuestro conjunto de datos en la seccin 5.4.

Existen otros trabajos interesantes en los que se ha utilizado la cuantificacin. Un ejemplo se

encuentra en el campo de la minera de opiniones [16]. Otro ejemplo lo tenemos en una aplicacin

para el control de calidad de muestras de semen [17]. En [15], se utiliza la cuantificacin para

monitorizar las llamadas al departamento de soporte de una empresa, con el objetivo de detectar,

por ejemplo, aumentos en las incidencias de un determinado producto.

Tambin es importante destacar una reciente tesis doctoral en la que se analizan y comparan

diferentes tcnicas de cuantificacin [18]. En esta tesis se utiliza el algoritmo K-Nearest Neighbor

para tareas de cuantificacin y tambin se explora la posibilidad de implementar un clasificador

(basado en SVM) que directamente trata de optimizar los resultados en cuantificacin, sin

necesidad de realizar un ajuste posterior.

Hasta donde nosotros sabemos, no existe hasta la fecha ningn trabajo que trate sobre la

cuantificacin de muestras de plancton sobre un conjunto de datos separado en muestras y que

aborde el problema de la cuantificacin multiclase.




3 Conjunto de datosEl conjunto de datos con el que vamos a utilizar en este TFM ha sido creado por el instituto

oceanogrfico de Gijn utilizando una FlowCam. El conjunto de datos est formado por 17.027

imgenes distribuidas en 39 muestras diferentes, tomadas en diferentes puntos del Mar Cantbrico,

a diferentes profundidades y, en diferentes pocas temporales [19], lo que garantiza que las

distribuciones de las diferentes muestras sean distintas.

La FlowCam es un dispositivo que utiliza la citometra de flujo para el anlisis de las partculas

existentes en un lquido. El modo de funcionamiento consiste en hacer circular el fluido por un tubo

fino sobre el que se aplica una luz lser. Las partculas existentes en este fluido son detectadas y

fotografiadas a travs de un microscopio. La FlowCam es capaz de realizar este proceso de

manera muy eficiente y, adems de obtener las fotografas de cada una de estas partculas, calcula

veinte medidas de cada una de ellas. stas se describen en el apartado 4.1 de este documento.

Las imgenes obtenidas por la FlowCam estn almacenadas en JPG, con una codificacin de color

RGB y una resolucin de 72x72ppp. El tamao de la imagen vara dependiendo del tamao de la

partcula que aparece en ella.

Cada una de las imgenes capturadas por la FlowCam ha sido clasificada por un experto humano

en una de las siguientes diez clases: Nanoplankton, Flagelata, Silicoflagellates, Dinoflagellates,

Ciliates, Diatoms, Crustaceans, Detritus, Artefacts y Unclassified. Esta ltima categora ha sido

creada para fotografas en las que el taxnomo no fue capaz de clasificar su contenido, o la

partcula detectada no corresponda con ninguna de las otras categoras.

Como hemos dicho antes, las fotografas estn repartidas en 39 muestras diferentes, obtenidas en

diferentes puntos y en diferentes pocas. Esta circunstancia nos hace enfrentarnos al problema de

los cambios de distribucin en las diferentes muestras, como se puede observar en la Ilustracin 1.





Ilustracin 1: Distribucin de ejemplos por muestras



En la Ilustracin 2, mostramos unos ejemplos de los diferentes tipos de imgenes obtenidas con la

FlowCam.


Ilustracin 2: Diferentes ejemplos de plancton de las diferentes clases. a) Crustaceans b) Ciliates c)

Dinoflagellates d) Diatoms e) Flagelata f) Silicoflagellates g) Nanoplankton h) Detritus i) Unclassified j)

Artefacts



4 Clculo de caractersticasA partir de las imgenes presentes en el conjunto de datos, es necesario realizar un clculo de

caractersticas que sirvan como entrada para los algoritmos de clasificacin y cuantificacin que

aplicaremos posteriormente. La idea es crear el conjunto de caractersticas ms robusto posible, y

que describan adecuadamente las imgenes tratadas.

Como ya hemos explicado en apartados anteriores, las imgenes provienen de una FlowCam.

Este dispositivo es capaz fotografiar el plancton existente en una muestra de agua y darnos ya

directamente las fotografas segmentadas. Adems de hacer este trabajo, la FlowCam tambin

realiza un anlisis automtico de las fotografas calculadas, computando automticamente varios

valores. Utilizaremos estos valores como caractersticas y adems calcularemos otras utilizando

tcnicas de visin artificial.

Las caractersticas que nos interesa calcular son aquellas que obtengan informacin de la forma

del plancton presente en la imagen y de su textura. Daremos prioridad a aquellas que sean

invariantes con respecto a la posicin del objeto, ya que la FlowCam no nos garantiza para nada

que el plancton siempre salga en la misma posicin. Las tcnicas aqu elegidas vienen motivadas

por los buenos resultados que han obtenido en otros estudios similares [5] [7] [13] [14], ya

comentados en la Captulo 2.1.

4.1 Caractersticas calculadas por la FlowCamLa FlowCam y el software con el que trabaja es capaz de calcular varios atributos de las partculas

detectadas de mantera automtica. Entre estos atributos se encuentran medidas sobre la partcula

como su permetro, longitud, anchura, transparencia, intensidad, etc. La descripcin detallada de

los atributos se encuentra en el manual de la FlowCam y se ha incorporado en el Anexo I de este

documento traducido al espaol.

4.2 Clculo de contornosComo paso previo para calcular ciertos tipos de caractersticas (por ejemplo, los descriptores de




Fourier), se necesita extraer el contorno del organismo que aparece en la fotografa. Para calcular

el contorno, primero es necesario transformar las imgenes en color a imgenes en escalada de

grises y de ah a imgenes binarias. Despus de realizar varios ajustes para obtener los umbrales

correctos, aplicamos la funcin bwboundaries de Matlab obteniendo el resultado mostrado en la

Ilustracin 3.

4.3 Descriptores de FourierUna vez que tenemos los contornos de las imgenes, se calculan los descriptores de Fourier para

describir el contorno de la imagen. Para ello utilizaremos un algoritmo especfico que realice el

clculo en contornos cerrados [20]. La ventaja de este algoritmo es que no requiere el clculo de

integrales, con lo que el proceso es bastante rpido. Adems, los descriptores resultantes son

invariantes con respecto a la rotacin, dilatacin y traslacin del contorno de la imagen, aspecto

muy importante ya que los organismos que aparecen en las imgenes que estamos analizando

presentan habitualmente este tipo de transformaciones.

A la hora de calcular los descriptores de Fourier es importante decidir el nmero de armnicos a

utilizar para describir el contorno. Cuantos ms armnicos utilicemos, ms informacin acerca del

contorno tendremos, pero tambin tendremos que evitar el sobre-ajuste de los descriptores al

contorno de cada uno de los organismos.

Antes de proceder al clculo de los descriptores del contorno, hay que resolver el problema de las

imgenes que tienen ms de un contorno cerrado. La solucin por la que he optado ha sido elegir

el contorno ms grande de entre todos los existentes en la imagen. Se supone que este contorno

corresponder al del organismo presente en la imagen.


Ilustracin 3: Clculo del contorno de una imagen



En las Ilustraciones 4, 5, 6 y 7 se puede observar cmo afecta el nmero de armnicos a la

aproximacin obtenida. En rojo se muestra el contorno calculado en el paso anterior y en verde la

aproximacin de Fourier calculada con un nmero de armnicos determinados.

Despus de estudiar las imgenes anteriores, podemos considerar que con quince armnicos es

suficiente para describir las imgenes de este TFM. Hay que tener en cuenta que para cada

armnico se obtienen un total de cuatro coeficientes an ,b n ,c n ,d n . Podemos combinarlos para

obtener un nico valor que define la amplitud de cada armnico y que puede ser usado en nuestro

vector de caractersticas, dando lugar de esta manera a quince valores:

F n=an +bn +c n +d n


Ilustracin 4: Aproximacin con 5

armnicosIlustracin 5: Aproximacin con 10

armnicos


armnicos


armnicos



4.4 Matrices de co-ocurrenciaLas matrices de co-ocurrencia se definen sobre imgenes en escala de grises (GLCM). Su

dimensin depende del tamao de la escala de grises que tenga la imagen original. Si por ejemplo,

tenemos ocho grises posibles, la GLCM tendr una dimensin de 8x8. Para calcular cada uno de

los valores de esta matriz se aplica la siguiente frmula:

Es decir, se va analizando cada uno de los pxeles de la imagen I y de sus vecinos (se pueden

definir diferentes tipos de incrementos). Cada celda de la GLCM con coordenadas (i,j) almacenar

cuntos pxeles de la imagen original tenan valor de gris i y, adems, el vecino a este pxel tena

valor de gris j.

Para construir el vector de caractersticas que represente a cada imagen vamos a utilizar un

conjunto de caractersticas muy conocido y usado en diversos dominios creado por Haralick [21].

Las caractersticas de Haralick se crean a partir de la GLCM y se componen de 13 medidas

(energa, entropa, correlacin, etc) que representan la textura de la imagen.

Diversos trabajos realizados sobre la clasificacin de plancton [7] [13] utilizan esta tcnica con

resultados satisfactorios. Adems, en [22] se presenta un estudio directamente relacionado con la

clasificacin de plancton utilizando matrices de co-ocurrencia y SVM como algoritmo de

clasificacin con muy buenos resultados.

En este trabajo, se tienen en cuenta diecisis niveles de grises a la hora de representar las

imgenes. Se utiliza como funcin de vecindad cuatro distancias diferentes (1, 4, 8 y 16 pxeles)

con cuatro ngulos diferentes (0, 45, 90 y 135). Para las cuatro matrices correspondientes a

cada una de las distancias calcularemos la matriz media. De esta manera obtendremos cuatro

matrices (una para cada ngulo). A continuacin obtendremos las caractersticas de Haralick,

teniendo en este caso un vector de caractersticas por cada imagen de 52 atributos.


GLCM x y ( i , j )=p=1

n

q=1

m

1,si I (p ,q )=iI (p+x ,q+y )= j



4.5 Momentos de HuLos momentos son propiedades numricas que se pueden obtener de una determinada imagen, o

funciones calculadas a partir de estas propiedades que tienen alguna cualidad interesante a la hora

de describir la imagen. En 1962, Hu defini siete momentos [23], invariantes con respecto a la

traslacin, escalado y la rotacin. Para calcularnos partimos de los momentos de una imagen:

M ij=x

yx i y j I (x ,y )

donde I(x,y) es la intensidad de la imagen en el pixel x,y. De esta manera, se puede definir el

centroide de la imagen para luego calcular los momentos centrales, en los que se basan los

momentos de Hu.

x=M 10M 00

y y=M 01M 00

Una vez calculado el centroide, calculamos los momentos centrales de la imagen,

pq=x

y(x x )p(yy )q I (x ,y )

Para convertir los momentos anteriores a momentos invariantes con respecto a la escala, aplicamos

la siguiente ecuacin:

ij=ij

00(1+ i+ j

2)

Finalmente, ya es posible calcular los siete momentos de Hu, a partir de los momentos centrales

anteriores:

I 1=20+02

I 2=(2002)2+4 11

I 3=(3012 )+(32103)

I 4=(3012)+(2103)

I 5=(30312)(30+12)[(30+12)3(21+03) ]+(32103)( 21+03)[3(30+12)(21+03) ]




I 6=(2002)[(30+12) (21+03) ]+411(30+12)( 21+03)

I 7=(321303)( 30+12)[( 30+12)3(21+03) ](30312)(21+03)[3(30+12) (21+03) ]

Una vez calculados los siete momentos de Hu, los incorporamos a nuestro vector de

caractersticas.

4.6 Momentos de ZernikeLos momentos de Zernike [24] estn basados en los polinomios con el mismo nombre y han sido

aplicados con xito en problemas de reconocimiento de patrones anteriormente [25].

Una propiedad que hace muy interesante a los momentos de Zernike es que son invariantes a la

rotacin de los objetos. Por contra, estos momentos no son invariantes con respecto al escalado o

a la traslacin de la forma analizada. De esta forma, ser necesario realizar un procesamiento

previo de las imgenes en el que igualaremos todos los tamaos de las imgenes y situaremos el

objeto a analizar en el centro de la imagen. Seguiremos el proceso descrito en un trabajo que trata

sobre la deteccin de tumores [26] [27]. En primer lugar haremos un proceso previo de la imagen

para dejar el microorganismo en el centro de la imagen binaria. Adems, se aplica un escalado

para dejar todas las imgenes a un tamao de 50x50 pxeles.

La forma discreta de los momentos Zernike para una imagen de tamao NxN es la siguiente:

Z n ,m=n+1N

c=0

N1

r =0

N1

f (x ,y )V n ,m* (x ,y )=n+1N c=0

N1

r =0

N1

f (x ,y )Rn , m (pxy )e jm cr

donde p xy es la magnitud del vector desde el origen al punto (x,y), con 0pxy1 ; y y N es un

factor de normalizacin. n, es un entero no negativo representando el orden del polinomio radial. m,

es un entero que satisface las restricciones nm=par y mn representando la repeticin del

ngulo acimutal. Rn ,m es el polinomio radial y V n ,m* es el conjugado complejo del polinomio de

Zernike. Una descripcin ms detallada del clculo de los momentos de Zernike para una imagen

se puede encontrar en [24].

A partir de esta ecuacin, tenemos que elegir qu momentos de Zernike calculamos. En este




trabajo elegiremos los mismos momentos de bajo orden que los usados en el artculo [26], dado

que experimentalmente funcionan bien.

Momentos Zernike={Z n ,m} { 3n10mnnm=2kkdando lugar a los siguientes 32 momentos de Zernike:

Orden (n) Iteraccin (m)

3 1, 3

4 0, 2, 4

5 1, 3, 5

6 0, 2, 4, 6

7 1, 3, 5, 7, 9

8 0, 2, 4, 6, 8

9 1, 3, 5, 7, 9

10 0, 2, 4, 6, 8, 10

A partir de las amplitudes de estos momentos se obtienen 32 caractersticas que son incorporadas

al vector de caractersticas.

4.7 Transformada de WaveletLa transformada de Wavelet es otro mecanismo que ha probado ser bastante efectivo en el anlisis

de la textura de una imagen [28]. A diferencia de las matrices de co-ocurrencia, el anlisis se

realiza a varias escalas al mismo tiempo. As pues, se pueden obtener los rasgos ms generales de

la textura y a la vez analizarla en ms detalle. Dentro de la familia de mtodos que son capaces de

realizar un anlisis multiresolucin estn tambin los filtros de Gabor. La ventaja de usar Wavelets

con respecto a los filtros de Gabor es que estos ltimos no son ortogonales, lo que provoca que

exista cierto nivel de correlacin entre texturas distintas.




Para la representacin de texturas y el clculo de un vector de caractersticas se utiliza la

transformada discreta de Wavelet. Los parmetros que vamos a tener que considerar a la hora de

aplicar la transformada de Wavelet van a ser el nivel de descomposicin y la funcin madre

utilizada para calcular la transformada. Del nivel de descomposicin depende directamente el nivel

de detalle al que analizaremos la textura. Por ejemplo, en la Ilustracin 8 podemos ver la

descomposicin en cuatro niveles.

Por otro lado, hay que elegir la funcin madre utilizada para calcular la transformada de Wavelet.

Existen varias familias de funciones entre las que destacan las Daubechies, Coiflets, Symlets, etc.

En este trabajo se va a utilizar como funcin madre la Daubechies de orden cuatro ya que ha

demostrado tener un buen rendimiento en otras aplicaciones de anlisis de textura [29].

Ilustracin 8: Descomposin en 4 niveles




5 CuantificacinEn aprendizaje automtico, cuantificar es estimar de manera precisa la distribucin de la clases en

un conjunto de ejemplos, usando un conjunto de entrenamiento que puede tener una distribucin

sustancialmente diferente [11]. En su caso ms simple, teniendo en cuenta un problema binario, la

cuantificacin consistir en predecir un nmero p, tambin denominado prevalencia de la clase

positiva, que representa el porcentaje de ejemplos de la clase positiva dentro del conjunto de

prueba. Obviamente, obtenido p, el porcentaje de ejemplos negativos ser 1-p.

Es importante destacar que, a diferencia del problema original de clasificacin, ya no es

estrictamente necesario saber a qu clase pertenece cada uno de los ejemplos de manera

individual, sino que intentaremos estimar el nmero p, sin que importen los errores cometidos en la

clasificacin individual de cada uno de los ejemplos.

5.1 NotacinSupongamos que tenemos un conjunto de entrenamiento {D=(x i , y i ): i=1..S} , con S ejemplos

previamente etiquetados, donde x i es un objeto del espacio de entrada e y iY ={1..k} la clase de

cada ejemplo, siendo k el nmero de clases de nuestro problema (en el caso de un problema

binario, se suele tomar y iY ={1,+1} ).

Este conjunto de entrenamiento D puede ser representado como el porcentaje de los ejemplos que

pertenecen a cada una de las clases. En el caso de un clasificador binario, sera suficiente con la

prevalencia de los ejemplos de la clase positiva, p. El objetivo del cuantificador es obtener la

prevalencia de cada una de las clases en conjuntos de prueba, desconocidos a la hora de realizar

el entrenamiento.

5.2 La cuantificacin como un problema de dataset-shiftDecimos que un problema tiene dataset-shift cuando la distribucin conjunta P (x , y ) de las

entradas x y de las salidas y , difiere entre el conjunto de entrenamiento y de prueba [30]. En este




contexto, se pueden identificar dos tipos de problemas. El primer tipo son los problemas X Y .

Este tipo de problemas son los problemas predicativos tradicionales y en ellos se cumple que

P (x , y )=P (yx )P (x ) . Por otra parte, existen los problemas Y X [31], en los que el valor de la

clase determina casualmente el valor de x . En este tipo de problemas se cumple

P (x , y )=P ( xy )P (y ) .

Un ejemplo de este segundo tipo de problemas, es concretamente el que estamos tratando en este

trabajo. Dependiendo de la zona, de la temporada y de la profundidad a la que se obtengan las

muestras de plancton, va a condicionar la distribucin de las clases P (y ) , sin embargo, este

hecho no tiene porque condicionar la probabilidad de que un ejemplo, o mejor dicho, los valores

obtenidos a partir de la imagen de un ejemplo x , correspondan a una determinada clase.

Existen tres tipo de dataset-shift, el prior-shift, el covariate-shift y el concept-shift. En los siguientes

subapartados vamos a describir estos tres conceptos, centrndose sobre todo en el prior-shift, ya

que es el ms interesante para este trabajo.

5.2.1 Covariate-shift

El trmino covariate-shift se refiere al cambio en la distribucin de las variables de entrada x [32].

Es este tipo de dataset-shift se produce en problemas del tipo X Y y se cumple que

Pent (yx )=Ppru (yx )Pent ( x )P pru (x ) , donde Pent hace referencia a probabilidades en el

conjunto de entrenamiento mientras que P pru , se refiere a probabilidades en el conjunto de prueba.

5.2.2 Prior-shift

Prior-shift hace referencia a los cambios de distribucin de la variable y . Este tipo de dataset-shift

slo se produce en problemas de tipo Y X y se cumple que

Pent (xy )=Ppru (xy )Pent (y )P pru (y ) [30]. Es decir, tenemos cambios en la distribucin de la

variable Y, pero las probabilidad de que un ejemplo con un vector de caractersticas determinado

pertenezca a una determinada clase se mantiene.

Estas son las condiciones previas establecidas por los trabajos de Forman [10] [11] [15] y

realmente por cualquier trabajo de cuantificacin. Realmente, si no hubiese un cambio en P (y ) no




estaramos hablando de un problema de cuantificacin. He aqu donde radica la diferencia principal

con los problemas tradicionales de clasificacin, en los que se supone que P (xy ) y P (y ) son

constantes en el conjunto de entrenamiento y de prueba [8].

Una de las consecuencias de que las probabilidades intraclase P (xy ) se mantengan constantes,

es que garantiza que tanto la tasa de verdaderos positivos tpr=TPP

, como la tasa de falsos

negativos fpr=FPN

, se mantengan constantes. En la ilustracin 9 se puede observar como estos

dos valores se mantienen constantes en la primera y segunda figura. Es decir, la proporcin de

ejemplos que caen en el lado incorrecto es la misma en ambas. En la figura de la derecha no

podemos decir lo mismo ya que se puede ver rpidamente como la tasa de fallos de la clase roja

es mucho ms alta que en los otros dos casos.

En el apartado 5.3.2 utilizaremos estas dos condiciones para intentar ajustar los resultados

devueltos por un clasificador con el fin de optimizar los resultados para que se comporten mejor


Ilustracin 9: Visualizacin del prior-shift para un problema binario. En la imagen de la izquierda vemos

un conjunto de datos con una distribucin especfica. En la imagen central, se puede observar un

cambio en la distribucin P (y ) mantenindose las probabilidades intraclase. En la figura de la

izquierda, vemos un cambio en la distribucin pero que no mantiene las probabilidades intraclase.



para la tarea de cuantificacin.

5.2.3 Concept-shift

El concept-shift representa el tipo ms complicado de dataset-shift desde el punto de vista del

aprendizaje automtico [30]. En este caso, la relacin entre las entradas y las clases cambia:

Pent (yx )Ppru (yx )Pent ( x )=P pru(x ) en problemas X Y .

Pent (xy )Ppru (xy )Pent (y )=P pru (y ) en problemas Y X .

5.3 Mtodos de cuantificacin binaria5.3.1 Clasificar y contar (CC)

El mtodo ms bsico y evidente de cuantificacin consiste en entrenar un clasificador tradicional

con el conjunto de entrenamiento, utilizarlo para clasificar el conjunto de prueba, y contar las

predicciones positivas. El clasificador utilizado en este TFM es SVM [12], ya que es uno de los

mtodos de clasificacin que obtiene mejores resultados actualmente. Este mtodo ha sido

utilizado como resultado base para comparar con el resto de mtodos descritos en el estudio

realizado por Forman [11].

No es difcil intuir que un clasificador perfecto, es tambin un cuantificador perfecto. Lgicamente,

en problemas del mundo real nunca llegamos a conseguir un clasificador perfecto y, por tanto, el

objetivo de este estudio es comprobar si mtodos diseados especficamente para resolver el

problema de la cuantificacin pueden mejorar los resultados.

Una de las razones principales por las que CC podra no funcionar bien es debido a los cambios de

distribucin existentes habitualmente en problemas reales entre el conjunto de entrenamiento y de

test (podemos observar estos cambios de distribucin de una muestra a otra en nuestro conjunto de

datos, descrito en el Captulo 3). Los clasificadores tradicionales (como por ejemplo SVM), asumen

que las distribuciones de entrenamiento y de prueba son iguales [8]. As pues, si el nmero de

positivos en el conjunto de prueba aumenta y el clasificador tiende a clasificar ejemplos positivos

como negativos (tasa de falsos negativos alta), el nmero de ejemplos negativos predichos tender




a aumentar. De la misma manera, si el clasificador tiende a clasificar ejemplos negativos como

positivos (tasa de falsos positivos alta), si el nmero de negativos aumenta en un conjunto de

prueba, el nmero de ejemplos predichos como positivos tender a aumentar.

5.3.2 Adjusted Count (AC)

A partir del razonamiento anterior, Forman deduce el siguiente teorema y su posterior

demostracin:

Teorema de Forman:

Para un clasificador imperfecto, el mtodo CC subestimar la verdadera proporcin de positivos p

en un conjunto de prueba para p>p*, y sobrestimar para p



Demostracin

Partiendo de la base de que tpr es la tasa de verdaderos positivos tpr=TPP

, es decir, la

proporcin de ejemplos clasificados como positivos que realmente eran positivos; y fpr es la tasa de

falsos positivos fpr=FPN

, es decir, la proporcin de ejemplos clasificados como positivos que en

realidad eran negativos. Estos valores, se pueden considerar independientes de la distribucin.

La probabilidad de que un clasificador binario prediga como positivo un ejemplo aleatorio del

conjunto de prueba es la siguiente:

P (+)=P (+pos)P (pos)+P (+neg)P (neg)=tprP (pos)+fpr(1P (pos))

donde P(pos), es la prevalencia real de positivos en el conjunto de entrenamiento y que a partir de

ahora denominaremos p. Podemos escribir como funcin de p, la prevalencia predicha por el

clasificador sobre el conjunto de entrenamiento: p'(p).

p ' (p )=tprp+ fpr(1p)

Si el clasificador estima correctamente la prevalencia para un valor particular de p*, entonces

p ' (p *)=p* . Para una prevalencia diferente p+ , donde 0 , no se predice la prevalencia

correctamente:

p ' (p *+)=tpr(p*+)+ fpr(1(p*+))=p ' (p *)+(tpr fpr )=p*+(tprfpr )

Adems, el teorema de Forman asume que el clasificador es imperfecto y que por tanto se cumple

que tprfpr



p ' (p )=tprp+ fpr(1p)=(tpr fpr )p+ fpr

Despejando p, se obtiene:

p=p ' (p )fprtprfpr (1)

Forman [10] sugiere un mtodo denominado Adjusted Count (AC) como mejora al mtodo CC. El

proceso consiste en entrenar un clasificador y estimar los valores tpr y fpr a travs de validacin

cruzada en el conjunto de entrenamiento. El siguiente paso es contar las predicciones positivas del

clasificador sobre el conjunto de prueba, y estimar el verdadero porcentaje de positivos a travs de

la ecuacin (1).

5.4 Cuantificacin multiclaseTodo el desarrollo terico expuesto hasta el momento supone que cada uno de los ejemplos

pertenece a una de dos clases posibles. Este tipo de problemas se denominan problemas binarios.

En el caso de que el nmero de clases sea mayor que dos, hablamos de problemas muticlase.

Existen principalmente dos tipos de problemas multiclase, por un lado tenemos los problemas en

los que cada ejemplo solamente pertenece a una nica clase y adems, todos los ejemplos tienen

asignada una clase. Por otro lado, existen problemas en los que cada ejemplo puede pertenecer a

ms de una clase al mismo tiempo, o incluso, no pertenecer a ninguna de las clases. En este

documento, vamos a trabajar nicamente con el primer tipo de problemas.

A la hora de enfrentarse a un problema multiclase utilizando un clasificador tradicionalmente binario

como es SVM, nos encontramos con dos alternativas principalmente [33]. La primera, denominada

uno-contra-todos (one-vs-all), consiste en entrenar un clasificador para cada una de las clases.

Estos clasificadores sern binarios y tomarn como positivos los ejemplos de la clase en cuestin y

como negativos, el resto de los ejemplos. A la hora de clasificar un ejemplo nuevo, probaremos

todos los clasificadores y elegiremos la clase que coincida con aquel que clasifique el ejemplo con

mayor margen.




La segunda alternativa, es conocida como uno-contra-uno (one-vs-one). En este caso, se

construyen clasificadores para cada par de clases ( k (k1)/2 clasificadores). Cuando hay que

clasificar un ejemplo nuevo, se prueba en todos los clasificadores y se elige la clase que ms veces

haya sido vencedora. En la implementacin elegida para este trabajo se utiliza el segundo enfoque,

ya que obtiene resultados muy similares y generalmente unos tiempos de entrenamiento ms

cortos [34].

5.4.1 Funciones de prdida

En este apartado vamos a tratar las funciones de prdida utilizadas en este trabajo. En primer

lugar, tenemos la funcin de prdida tradicional para clasificadores multiclase.

Supongamos un clasificador h (x ) y un ejemplo (x , y ) . Decimos que el clasificador falla el

ejemplo x si h (x )y . Definimos entonces la funcin de error para un clasificador multiclase

como:

M (h (x ), y )=1S i =1

S

h (x )y (2)

donde es 1 cuando el predicado es verdadero y 0 en caso contrario.

Resulta evidente que la funcin de prdida anterior no es interesante en los problemas de

cuantificacin, ya que no estamos interesados en saber la clase de cada uno de los ejemplos.

La funcin de prdida propuesta por Forman [10] [11] [15] para utilizar en problemas de

cuantificacin binarios es el error absoluto (AE, Absolute Error) y, su principal ventaja es que es

fcilmente calculable e interpretable:

AE=p ' p=P ' PS

=FPFNS

Para la cuantificacin multiclase, la funcin de error es anloga pero calculando la diferencia entre

la prevalencia real y predicha para cada una de las clases y haciendo la media de estos errores:




AE M=i =1

k

p ' ip i

k(3)

5.4.2 Clasificar y contar (CC)

La primer alternativa evidente para hacer un cuantificador multiclase es anloga a la expuesta

anteriormente para problemas binarios. Entrenamos un clasificador multiclase y lo aplicamos sobre

un conjunto de prueba. A partir de los resultados, contamos los ejemplos clasificados en cada una

de las clases.

Al cuantificar nos interesa saber la proporcin de ejemplos que caen en una determinada clase, y

no nos importa la clasificacin individual de cada uno de los ejemplos. Puede ocurrir que un

clasificador con un error multiclase M alto, consiga un error absoluto AE M bajo debido a que los

fallos de clasificacin se compensen. Para poner un ejemplo de esta situacin, imaginemos un

clasificador multiclase al que se le presentan dos ejemplos para clasificar, uno de una hipottica

clase A y otro de clase B. A la hora de clasificar el primer ejemplo, el clasificador se confunde y

predice la clase B. Supongamos tambin, que cuando clasifica el segundo ejemplo, predice que se

trata de un ejemplo de la clase A. En este caso, es fcil ver que tendremos un error multiclase

m=1 , es decir, fallamos el 100% de los casos de prueba. Sin embargo, aplicando la funcin de

prdida para cuantificacin, se puede observar que el error absoluto AE M=0 . Es decir, tenemos el

peor clasificador posible, ya que falla todos los ejemplos de prueba. Sin embargo, al mismo tiempo,

hemos obtenido un cuantificador perfecto ya que es capaz de predecir perfectamente la distribucin

de las clases en el conjunto de prueba.

5.4.3 Adjusted Count (AC)

Esta adaptacin del mtodo descrito anteriormente sobre problemas binarios consiste en los

siguientes pasos. Primero, inducir un clasificador para el conjunto de entrenamiento completo y

estimar tpr y fpr para cada clase por validacin cruzada. Despus, con el conjunto de prueba,

contar el nmero de casos predichos para cada una de las clases y finalmente ajustar los




porcentajes utilizando la ecuacin (1).

Para estimar tpr y fpr realizamos primero una validacin cruzada general, sobre todo el conjunto de

datos etiquetado. Forman [11] recomienda utilizar una validacin cruzada de 50 particiones (98%

de datos para entrenamiento, 2% de datos para el test), para asegurar que todos los

entrenamientos tengan suficientes ejemplos de todas las clases. En nuestro caso, tenemos

suficientes ejemplos de todas las clases y estimamos conveniente (por trminos de eficiencia), que

una validacin de 10 particiones es suficiente para estimar los valores de tpr y fpr.

Una vez obtenidos los resultados de la validacin cruzada general, hay que calcular el tpr y el fpr

de cada una de las clases en cada una de las particiones. Estas medidas son usadas

tradicionalmente en problemas binarios, pero pueden ser extendidas a problemas multiclase [35].

Si C es el conjunto de todas las clases de nuestro problema, para calcular el tpr y fpr de una clase

c i , consideramos que slo los ejemplos de esta clase son los positivos y el resto los negativos:

P i=c i y N i=ji

c jC

A partir de los resultados de la validacin cruzada general se procede a computar las matrices de

confusin para cada una de las particiones. Se calcula para cada clase y particin el tpr y el fpr

segn las ecuaciones anteriores. Para obtener unos valores finales de tpr y fpr por clase se hace la

media de los valores obtenidos por cada una de las particiones de la validacin cruzada general.

Utilizando estos valores, ya se pueden ajustar los resultados obtenidos en los experimentos

utilizando la ecuacin (1).

Una vez realizado el ajuste, obtenemos un vector p ' con las prevalencias estimadas para cada

una de las clases. Debido a que esta suma puede producir un valor diferente a uno, es necesario

realizar un segundo ajuste:

p '= p 'norm (p ' )




5.4.4 Ajuste propuesto para problemas multiclase

El ajuste descrito en el apartado anterior, es un ajuste pensado para problemas binarios extendido

para un problema multiclase. En este TFM se han probado con el objetivo de ver si lo que Forman

propone para problemas multiclase en [11] funciona en un problema real.

Como ya hemos explicado en el apartado 5.4.2, en problemas multiclase se pueden producir

compensaciones de errores que hacen que el error en cuantificacin baje drsticamente y que de

esta manera, complique el ajuste propuesto por Forman. En este trabajo proponemos una nueva

forma de realizar el ajuste, analizando el nmero de ejemplos que el clasificador predice para cada

clase, comparado con el nmero de ejemplos reales que existen de esa misma clase. La idea es

ajustar la prevalencia de cada clase de manera que compense la tendencia a pasarse o a quedarse

corto en el nmero de ejemplos predichos de cada tipo.

Para aplicar este ajuste, primero tenemos que obtener un parmetro de ajuste especfico para cada

clase c. Para ello aplicamos la siguiente ecuacin:

c=i=1

S

h (x i )=c

i =1

S

y i=c (4)

donde es 1 cuando el predicado es verdadero y 0 en caso contrario. Con este parmetro de

ajuste c podemos ajustar la prevalencia estimada para dicha clase:

p c=p c ' (pc)

c(5)

El procedimiento para realizar este ajuste sera anlogo al realizado anteriormente y descrito en

apartado 5.4.3. Los pasos son los siguientes:

1. Realizar una validacin cruzada con la totalidad de los datos etiquetados. En este caso, al

igual que antes, realizamos una validacin cruzada de diez particiones.

2. A partir de los resultados de la validacin cruzada anterior, calcular los parmetros de




ajuste para cada una de las particiones y de las clases segn la ecuacin (4). Como slo

necesitamos un parmetro de ajuste por clase, realizamos la media por particiones de

los parmetros obtenidos para cada clase.

3. Clasificamos los ejemplos de la muestra, obteniendo la prevalencia predicha de cada clase

que actualizamos utilizando los parmetros de ajuste por clase obtenidos en el paso

anterior segn la ecuacin (5).

4. Por ltimo, normalizamos las prevalencias de las clases para que sumen uno (ver el

apartado 5.4.3).




6 Experimentacin y resultados

6.1 Mtodo de experimentacinEl objetivo de esta investigacin es comparar, en un problema real, el rendimiento de los algoritmos

tradicionales de clasificacin, con las modificaciones optimizadas para la cuantificacin.

Como ya se ha comentado en apartados anteriores, los algoritmos de clasificacin asumen que la

distribucin del conjunto de entrenamiento es la misma que en el conjunto de prueba. Esta

condicin en el conjunto de datos estudiado en este TFM no se cumple. El sistema ser entrenado

con un conjunto mayor o menor de ejemplos etiquetados por un experto y cuando se obtengan

nuevas muestras de plancton, lo ms probable es que la distribucin de individuos en las mismas

vare en gran medida ya que sta depende de dnde y cundo se recoja.

Para aproximarse lo ms posible a la realidad, se harn los experimentos aprovechando la

separacin en muestras que tenemos. Como se ha comentado en el Captulo 3, partimos de que

los ejemplos estn distribuidos en treinta y nueve conjuntos (muestras) diferentes. Cada una de

estas tiene una distribucin de ejemplos por clase diferente. Realizaremos una validacin cruzada

leave-one-out por muestras. Es decir, juntaremos los ejemplos de todas las muestras menos una, y

probaremos el modelo entrenado con la muestra restante. Repetiremos este proceso en las treinta y

nueve combinaciones posibles. Los errores obtenidos se calcularn como los errores medios de

cada uno de estos experimentos. Resulta evidente observar que los resultados as obtenidos sern

peores que si realizsemos una validacin cruzada balanceada de manera tradicional, usando

todos los ejemplos de todas las muestras al mismo tiempo. De todas formas, considero que los

resultados obtenidos se ajustarn ms a la realidad y sern ms fiables de esta manera.

Para cada una de las iteraciones del leave-one-out anterior, se ejecutar un grid-search con el fin

de encontrar los mejores valores de los hiperparmetros del clasificador para esos datos. Puede

darse la situacin de que para cada una de las particiones de la validacin cruzada se encuentren

valores diferentes de los hiperparmetros del clasificador. Los hiperparmetros que hay que ajustar




en SVM son la constante de regularizacin C y la constante g (cuando se use un kernel gaussiano).

Los valores utilizados para la bsqueda son los siguientes. Para un kernel lineal buscamos el mejor

valor de C entre [0.001 0.01 0.05 0.1 0.5 1 5 10 50 100]. Para un kernel gaussiano se buscan

valores de C entre [10E-6, 10E-5, 10E-4, 10E-3, 10E-2, 1, 10, 100, 1000, 10000] y valores de g

entre [10E-8, 10E-7, 10E-6, 10E-5, 10E-4, 10E-3, 10E-2, 1, 10, 100]. Para realizar est bsqueda

de hiperparmetros se utiliza una validacin cruzada sobre el conjunto de entrenamiento de dos

particiones y tres repeticiones.

6.1.1 Clasificador LibSVM multiclase

En este apartado se documentan los experimentos previos antes de abordar la cuantificacin. La

idea es tener unos datos para comparar y ver si somos capaces de mejorarlos con las tcnicas de

cuantificacin descritas anteriormente. Realizaremos para ello una clasificacin tradicional,

utilizando uno de los mejores algoritmos que existen actualmente para ello: SVM. La

implementacin utilizada en este trabajo es multiclase y se denomina LibSVM [36]. La primera

prueba la realizaremos juntando todos los ejemplos de todas las muestras en un mismo conjunto de

entrenamiento. Este es el caso tenido en cuenta en la mayor parte de los artculos cientficos que

se escriben sobre esta temtica. Los resultados, teniendo en cuenta el error multiclase (M ) , son

los siguientes (slo se muestra el error medio para todas las clases):

Kernel Lineal Kernel Gaussiano

Error medio multiclase 0.28616 0.25377

Los siguientes resultados se han obtenido a partir de una validacin cruzada con los ejemplos

agrupados por muestras, segn lo descrito en el apartado 6.1.

Kernel Lineal Kernel Gaussiano

Error medio multiclase 0.3489858 0.3248957

Como podemos observar obtenemos, en el mejor de los casos, cerca de un 68% de acierto. Es




importante ver la diferencia entre los experimentos anteriores. En realidad se trata de los mismos

datos pero distribuidos en la validacin cruzada de diferente forma. En el primer caso, el propio

mecanismo de validacin cruzada calcula las particiones de forma aleatoria pero balanceada,

mientras que en el segundo caso, la separacin en particiones ya viene impuesta por las treinta y

nueve muestras diferentes de las que consta nuestro problema.

6.1.2 Cuantificador clasificar y contar (CC)

A partir de los mejores resultados anteriores (obtenidos con el kernel gaussiano), y haciendo un

anlisis particin por particin de la validacin cruzada, se pueden calcular las prevalencias para

cada una de las clases, en cada una de las particiones. Por un lado tenemos la prevalencia real y

por otro la prevalencia estimada por el clasificador. Estos datos se extraen directamente con el

mtodo CC, contando los ejemplos de cada clase en cada particin y calculando los porcentajes.

Los resultados obtenidos por muestras se pueden ver en la Tabla 1.




AE M AE M AE M

Muestra 1 0,0397 Muestra 2 0,0464 Muestra 3 0,0456













Tabla 1: Error absoluto por muestras para el mtodo CC

Para dar una visin grfica de los resultados, en la Ilustracin 11 se muestran los resultados

detallados de doce muestras. En el resto de muestras se puede observar una tendencia similar.





Ilustracin 11: Resultados del mtodo CC para 12 de las 39 muestras



Como se puede observar, existe una compensacin en los fallos que tiene el clasificador, dando

lugar a unos resultados en cuantificacin sorprendentemente buenos. Para entender este efecto es

necesario analizar las matrices de confusin para cada una de las muestras. En la Tabla 2,

podemos ver la matriz de confusin cuando se utiliza la muestra cuatro como conjunto de prueba y

los ejemplos del resto de muestras como conjunto de entrenamiento.

En la matriz de confusin aparece por filas las clases reales y por columnas las clases predichas.

Los aciertos los podemos ver en violeta y coinciden con la diagonal de la matriz. Estos seran los

valores tenidos en cuenta para calcular el error multiclase M . En este caso, tenemos exactamente

79 aciertos, entre 118 ejemplos a clasificar, obtenemos M=0.3305 , es decir, aproximadamente

uno de cada tres ejemplos clasificados se clasifica incorrectamente.

A partir de un error en la clasificacin multiclase tan alto, sera de esperar unos errores absolutos

AE M en cuantificacin con el mtodo CC tambin muy altos. Sin embargo, se produce un efecto de

compensacin entre los errores. Se puede observar claramente en el caso de los Detritus y las

Diatomeas. Analizando la matriz de confusin se puede ver como se clasifican 7 de las 57

diatomeas existentes en el conjunto de prueba como detritus. Por otro lado, 12 de los 33 detritus

existentes, se clasifican como diatomeas. Claramente estos errores se compensan dando lugar a

un error AE M mucho ms bajo.


CLASE PREDICHA

Artefacts Ciliates Crusta. Detritus Diatoms Dino. Flage. Nano. Silicofla. Unclass. T. Real P. Real

CLAS

E RE

AL

Artefacts 7 0 0 0 0 0 0 0 0 0 7 0,059

Ciliates 0 0 0 0 0 0 0 0 0 0 0 0

Crustaceans 0 0 1 1 0 0 0 0 0 1 3 0,025

Detritus 0 1 0 18 12 0 0 0 0 2 33 0,280

Diatoms 0 0 1 7 45 0 0 0 0 4 57 0,483

Dinoflagellates 0 0 0 0 0 0 0 0 0 0 0 0

Flagelados 0 0 0 0 0 0 0 0 0 0 0 0

Nanoplankton 0 0 0 0 7 0 0 0 0 0 7 0,059

Silicoflagellates 0 0 0 0 0 0 0 0 0 0 0 0

Unclassified 0 0 0 0 3 0 0 0 0 8 11 0,093

T. Predicha 7 1 2 26 67 0 0 0 0 15 118

P. Predicha 0,059 0,008 0,017 0,220 0,568 0 0 0 0 0,127

Tabla 2: Matriz de confusin utilizando la muestra cuatro como conjunto de prueba y el resto de muestras como conjunto de entrenamiento.



6.1.3 Adjusted-Count (AC)

En este experimento probaremos el ajuste descrito en el apartado 5.3.2. Una vez obtenidos los tpr

y fpr para cada una de las clases, a travs de una validacin general realizada con todos los datos

etiquetados, realizamos un ajuste segn la ecuacin (1), de los resultados obtenidos en la

validacin cruzada por muestras. Resaltamos en verde los resultados en los que el mtodo AC se

comporta mejor que el mtodo CC y en rojo el caso contrario.

AE M AE M AE M














Tabla 3: Error absoluto por muestras para el mtodo AC

El error medio absoluto para todas las muestras es 0.0416. Este error es superior al obtenido por el

mtodo CC directamente, que es 0.0354. Podemos concluir por tanto que este tipo de ajuste no

mejora los resultados en este problema concreto con respecto al mtodo CC.




En la Ilustracin 12 se muestran los resultados grficamente para 12 de las 39 muestras de nuestro

problema.

Pablo Gonzlez Gonzlez Pgina 42 de 53Ilustracin 12: Resultados para el mtodo AC para 12 de las 39 muestras



6.1.4 Ajuste para problemas multiclase

En este experimento se tendr en cuenta lo descrito en el apartado 5.4.4. Los resultados se

muestran en la tabla siguiente. De nuevo, resaltamos en verde los valores que mejoran al mtodo

CC y al mtodo AC y en rojo, las muestras en las que este ajuste funciona peor.

AE M AE M AE M














En este caso, el error absoluto medio para todas las muestras obtenido por el mtodo es 0.0318,

rebajando el error absoluto en cuantificacin en un punto porcentual con respecto al mtodo AC y

en medio punto con respecto al mtodo CC.

En la imagen 13 se pueden observar las grficas correspondientes a 12 muestras de las 39

existentes utilizando el ajuste multiclase. Aunque la diferencia con los dos otros mtodos es




pequea, si es posible ver como la prevalencia real y la prevalencia estimada, en muchos puntos

coincide perfectamente.


Ilustracin 13: Grficas del ajuste multiclase realizado para 12 de las 39 muestras



7 ConclusionesEn este TFM hemos tratado de resolver un problema de cuantificacin de muestras de plancton.

Para ello hemos tenido que trabajar con fotografas provenientes directamente de un dispositivo de

captura automtica (FlowCam).

En la primera parte del trabajo se ha tratado la problemtica de obtener un vector de caractersticas

robusto para describir cada una de las imgenes de nuestro conjunto de datos. Para obtener este

vector de caractersticas se analizaron las tcnicas utilizadas en problemas similares descritas en

varios artculos de investigacin. Se ha intentado crear un vector de caractersticas robusto a partir

tcnicas de visin artificial muy diversas. El enfoque empleado ha sido intentar utilizar tanto

descriptores de textura como de forma, de manera que el vector de caractersticas resultante

contuviese informacin muy diversa de la imagen. La ventaja de utilizar diferentes tcnicas es que

si un tipo de plancton no puede ser diferenciado por una tcnica concreta, podr ser diferenciado

por otra. En diferentes experimentos realizados he comprobado que la utilizacin de tcnicas

variadas no empeora nunca los resultados debido a que el clasificador (SVM) es capaz de dar

menos peso a los atributos que aportan menos para diferenciar los ejemplos. En este caso se han

utilizado slo tcnicas que haban funcionado en otros problemas y se ha obtenido un vector de

caractersticas con un tamao razonable (148 caractersticas).

Posteriormente se han analizado diferentes tcnicas con el objetivo de resolver el problema de la

cuantificacin para poder estimar los porcentajes de ejemplos de cada una de las clases en una

muestra de plancton. El primer obstculo al que nos hemos enfrentado al realizar el trabajo ha sido

la escasez de trabajos de investigacin en los que se aborde el problema de la cuantificacin

multiclase. La cuantificacin es un problema bastante reciente y el nmero de artculos cientficos

dedicados especficamente a este campo es muy limitado. El trabajo realizado por Forman, incluye

una parte en la que analiza brevemente la cuantificacin multiclase [11] pero sin profundizar ni

realizar una buena experimentacin para poder analizar sus resultados.

Una vez estudiados los trabajos previos, se ha desarrollado una parte terica en la que se estudia




la cuantificacin multiclase y se ha descubierto un problema con el que los cuantificadores binarios

no tienen que lidiar: la compensacin de errores. En los artculos de Forman se proponen una serie

de ajustes que, utilizando la tasa de falsos positivos y la tasa de falsos negativos, ajustan el

resultado obtenido por el clasificador con el objetivo de compensar los errores cometidos por el

clasificador y mejorar as los resultados en cuantificacin. En problemas multiclase esto no resulta

tan sencillo ya que puede que se estn fallando ejemplos (error alto en clasificacin multiclase),

pero que debido a la compensacin de errores, el error cuantificando sea muy pequeo. En esta

situacin, el ajuste realizado propuesto por Forman parece que es en realidad contraproducente y

empeora los resultados sobre el mtodo bsico de clasificar y contar.

Otra posible razn para explicar porqu el ajuste de Forman no funciona es la existencia de varios

tipos de dataset-shift en el conjunto de datos que manejamos. Es importante recordar que el ajuste

de Forman tiene como condicin inicial que solamente exista prior-shift en el conjunto de datos, es

decir, cambios en la distribucin de las clases de los ejemplos. Realmente, en un conjunto de datos

real como ste, es muy difcil garantizar esta condicin. Uno de los factores principales puede ser la

eleccin de las clases del problema. Las clases han sido elegidas segn grupos taxonmicos

generales que resultan interesantes para posteriormente realizar anlisis que tengan algn tipo de

inters desde un punto de vista biolgico. El problema al que nos lleva esto, es que pueden existir

clases dentro de las cuales hay elementos agrupados pertenecientes a subclases diferentes. Por

ejemplo, dentro de la categora general diatomeas, tenemos agrupados todo tipo de ejemplos que

pueden pertenecer a cualquiera de las subgrupos taxonmicos que existen por debajo de las

diatomeas. Los ejemplos de cada uno de estos subgrupos tienen unas caractersticas morfolgicas

diferentes (que se traducen en un vector de caractersticas diferente), pero todos estn englobados

bajo nuestra clase diatomea. Situaciones como la descrita aqu, ocurren con bastante probabilidad

en este conjunto de datos, suponiendo una razn ms para que el ajuste de Forman no sea el ms

adecuado para este sistema de cuantificacin automtico.

Una vez comprobado experimentalmente que el ajuste propuesto por Forman no funciona de

manera adecuada en este problema, se ha pensado en un nuevo ajuste con el objetivo de mejorar

los resultados obtenidos. La idea principal de este ajuste es tener en cuenta nicamente la




tendencia del clasificador a predecir ejemplos de una determinada clase. Si el clasificador tiende a

clasificar ms ejemplos de una clase de los que en realidad hay, ajustamos el resultado a la baja,

suponiendo que esta tendencia se observar tambin ante una nueva muestra que sea clasificada

por nuestro sistema. Lo mismo suceder en el caso contrario, si el clasificador tiende a subestimar

el nmero de ejemplos de una clase determinada, ajustaremos al alza proporcionalmente la

prevalencia de esa clase en el conjunto de prueba.

En los experimentos realizados, se ha podido comprobar como este ajuste funciona mejor que el

ajuste propuesto por Forman y tambin funciona mejor que el mtodo bsico de clasificar y contar.

Es importante recordar que las pruebas se han hecho realizando una validacin cruzada

manualmente por muestras. Se intenta de esta manera simular al mximo el uso de este sistema

en un caso real en el que tendremos que clasificar una nueva muestra obtenida por la FlowCam.

Adems, como se ha visto a lo largo del trabajo, la distribucin de ejemplos de cada muestra es

totalmente variable por lo que es necesario incluir esta premisa directamente en los experimentos si

queremos que estos representen de alguna manera a la aplicacin real de un trabajo de este tipo.

7.1 Trabajo futuroEste trabajo no ha hecho ms que plantear las bases de la cuantificacin multiclase. Una posible

ampliacin del mismo sera la realizacin de ajustes ms complejos que representasen mejor la

compensacin de errores producida y de esta forma, mejorasen los resultados obtenidos. Tambin

se podran probar diferentes mtodos de cuantificacin que se estn desarrollando actualmente,

amplindolos para cubrir la cuantificacin multiclase. El problema de este enfoque es que la mayor

parte de los algoritmos de clasificacin multiclase trabajan por debajo con un clasificador binario.

De esta manera, es difcil tener en cuenta la compensacin de errores producida entre las clases.

Sera necesario investigar algoritmos que tratasen de manera directa la clasificacin multiclase y

tratar de modificarlos para optimizar las medidas de cuantificacin en lugar de las de clasificacin.

Otra posible campo de estudio es la cuantificacin por costes. Es decir, en lugar de cuantificar el

nmero de ejemplos que pertenecen a cada clase, tratar de cuantificar una medida determinada de

cada uno de estos ejemplos. Se podra considerar en este caso que cada ejemplo tiene una




biomasa determinada asociada. El objetivo del cuantificador sera entonces estimar la cantidad de

biomasa existente en cada grupo taxonmico (clase). En este planteamiento, cuantificar

correctamente los ejemplos con mayor biomasa es prioritario ya que afectarn en mayor medida a

las medidas de biomasa de clase en cuestin.




8 Anexo I FIT_Diameter.ABD. Nmero de pxeles despus de convertir la imagen a binaria. (real >

0) .

FIT_Diameter.ESD. Dimetro calculado como la media de las medidas de Feret tomadas

cada 5 (36 medidas). (real > 0) .

FIT_Length. El valor mximo de las 36 medidas de Feret. (real > 0) .

FIT_Width. El valor mnimo de las 36 medidas de Feret. (real > 0) .

FIT_Aspect.Ratio. Aspecto de la partcula calculado como FIT_Length/FIT_Width. (real [0,

1]).

FIT_Transparency. Calculado como 1 (ABD Diameter / ESD Diameter). (real [0, 1]). 0 es el

valor para un crulo relleno; valores cerca de uno son para partculas alargadas, formas

irregulares, o formas que tienen muchos huecos interiores.

FIT_Intensity. El valor medio de los pxeles en escalada de grieses que forman la partcula.

(real [0, 255]). 255 sera el valor ms intenso.

FIT_Sigma.Intensity. Desviacin estndar de los valores de los pxeles en escala de grises.

(real 0) .

FIT_Sum.Intensity. Suma de todos los valores de los pxeles en escala de grises. (real > 0) .

FIT_Compactness. Es un atributo de forma derivado del permetro y del area. La frmula

aplicada es: perimeter4xPIxArea

. Cuanto ms complicada y enrevesada sea la forma, mayor ser

el valor (real 1).

FIT_Elongation. Medida de la elongacin de la partcula basada en el permetro y el rea,

suponiendo que rea = longitud x anchura y Permetro = 2(longitud + anchura). (real 1; 1

es el valor para un crculo o un cuadrado; valores mayores corresponden a partculas

estiradas) .




FIT_Perimeter. Longitud total de los bordes de la partcula, incluyendo la longitud de los

bordes de los huecos. (real > 0) .

FIT_Convex.Perimeter. Una aproximacin del permetro a travs de la envolvente convexa

de la partcula. Derivada de las medidas de Feret. (real > 0) .

FIT_Roughness. Medida de la irregularidad del permetro de una partcula. (real 1).

FIT_Avg.Red. Valor medio de los pxeles rojos de la imagen. (real [0, 255]; 255 sera rojo

intenso) .

FIT_Avg.Green. Valor medio de los pxeles verdes de la imagen (real [0, 255]; 255 es verde

intenso) .

FIT_Avg.Blue. Valor medio de los pxeles azules de la imagen. (real [0, 255]; 255 es azul

intenso) .

FIT_Ratio.Red.Green. FIT_Avg.Red / FIT_Avg.Green. (real 0) .

FIT_Ratio.Blue.Green. FIT_Avg.Blue / FIT_Avg.Green. (real 0) .

FIT_Ratio

cuantificación de muestras de micro-plancton utilizando técnicas de aprendizaje automático

Documents

informe final plancton - ecologia acuatica (mayra ayala...

toma de muestras de plancton

plancton y peripiton

plancton y vegetaciÓn de una sabana inundable en …

informe sobre presencia de larvas de ......de 50. la...

herramientas para cuantificación

el mar a fondo guía de actividad el plancton

papel que juega el plancton 'ben$r@ de un estudio de

plancton, necton y bentos

cuantificaciÓn de la fuerza:

cuantificación de daños personales

muestreo, cuantificaciÓn y codificiaciÓn

4.2.1 plancton

muestreo y cuantificación

ruido de cuantificación

plancton - unam

lógico-matemáticas y cuantificación

biologia el oceano y sus recursos 05 plancton

· proceso de muestreo - proceso de cuantificación -...

el plancton como bioindicador de la … · usaron guías de...