congresos.adeituv.es · web viewtanto el gimms como el pal tienen una resolución espacial de...

15
SELECCIÓN DE VARIABLES PARA LA CLASIFICACIÓN GLOBAL DE ÁREA QUEMADA CON RANDOM FOREST Y DATOS AVHRR-LTDR G. Otón, R. Ramo, J. Lizundia-Loiola, E. Chuvieco Departamento de Geología, Geografía y Medio Ambiente, Universidad de Alcalá; [email protected]; [email protected]; [email protected]; [email protected] RESUMEN Las imágenes de baja resolución han aportado una extensión temporal y un periodo de revisita altos, siendo empleadas en el estudio de fenómenos globales. La misión de satélites NOAA que incluyen el sensor AVHRR han operado desde 1981. A partir de esta serie de datos se ha desarrollado el producto LTDR (Long Term Data Record), diario, global y a una resolución de 5 km. Los productos globales de área quemada solamente poseen datos de los últimos 16 años. La generación de cartografía de área quemada con imágenes LTDR supondría duplicar la disponibilidad de este tipo de datos, normalmente empleados en la estimación de emisiones de gases de efecto invernadero o la modelización del clima. Para generar esta cartografía se propone la aplicación de un modelo de clasificación basado en Random Forest. Es importante reducir al máximo la entrada de ruido al modelo. Se generaron compuestos quincenales, tomando como referencia el día de quemado del producto MCD64 colección 6, se calculó una serie de índices espectrales y variables auxiliares. Se realizó una selección de variables basada en Random Forest, descartando aquellas que no contribuyeran en la explicación del modelo. Se comparó con otro modelo realizado con las bandas originales para conocer la actuación del algoritmo de selección de variables. Los resultados se compararon con los del producto MCD64A1 C6. El modelo de datos original obtiene un Dice coefficient para el mes de enero de 2008 de0.58 y el modelo de VSURF de 0.56 Palabras clave: Teledetección; Área quemada; AVHRR-LTDR; Multitemporal; RandomForest; Selección de variables. ABSTRACT Low-resolution images have provided high time extensions and re- visiting periods, traditionally being used in the study of global phenomena. The NOAA satellites carrying the AVHRR sensor have carried out their mission since 1981. Based on this series of data, the LTDR (Long Term Data Record) product has been developed, forming a collection of daily global images at an approximate resolution of 5km. 1

Upload: others

Post on 15-Mar-2020

14 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: congresos.adeituv.es · Web viewTanto el GIMMS como el PAL tienen una resolución espacial de 0,1˚≈8km, el primero ofrece datos de NDVI mediante compuestos quincenales y el segundo

SELECCIÓN DE VARIABLES PARA LA CLASIFICACIÓN GLOBAL DE ÁREA QUEMADA CON RANDOM FOREST Y DATOS AVHRR-LTDR

G. Otón, R. Ramo, J. Lizundia-Loiola, E. Chuvieco

Departamento de Geología, Geografía y Medio Ambiente, Universidad de Alcalá; [email protected]; [email protected]; [email protected]; [email protected]

RESUMEN

Las imágenes de baja resolución han aportado una extensión temporal y un periodo de revisita altos, siendo empleadas en el estudio de fenómenos globales. La misión de satélites NOAA que incluyen el sensor AVHRR han operado desde 1981. A partir de esta serie de datos se ha desarrollado el producto LTDR (Long Term Data Record), diario, global y a una resolución de 5 km. Los productos globales de área quemada solamente poseen datos de los últimos 16 años. La generación de cartografía de área quemada con imágenes LTDR supondría duplicar la disponibilidad de este tipo de datos, normalmente empleados en la estimación de emisiones de gases de efecto invernadero o la modelización del clima.

Para generar esta cartografía se propone la aplicación de un modelo de clasificación basado en Random Forest. Es importante reducir al máximo la entrada de ruido al modelo. Se generaron compuestos quincenales, tomando como referencia el día de quemado del producto MCD64 colección 6, se calculó una serie de índices espectrales y variables auxiliares. Se realizó una selección de variables basada en Random Forest, descartando aquellas que no contribuyeran en la explicación del modelo. Se comparó con otro modelo realizado con las bandas originales para conocer la actuación del algoritmo de selección de variables. Los resultados se compararon con los del producto MCD64A1 C6. El modelo de datos original obtiene un Dice coefficient para el mes de enero de 2008 de0.58 y el modelo de VSURF de 0.56

Palabras clave: Teledetección; Área quemada; AVHRR-LTDR; Multitemporal; RandomForest; Selección de variables.

ABSTRACT

Low-resolution images have provided high time extensions and re-visiting periods, traditionally being used in the study of global phenomena. The NOAA satellites carrying the AVHRR sensor have carried out their mission since 1981. Based on this series of data, the LTDR (Long Term Data Record) product has been developed, forming a collection of daily global images at an approximate resolution of 5km. Currently, global burn area products possess only data from the last 16 years. The generation of cartography of the burn area with LTDR images would mean duplication of the availability of this type of data, normally used in the calculation of greenhouse gas emissions or in climate modelling.

To generate this cartography the application is proposed of a model of classification based on Random Forest. Maximum reduction of noise into the model is of major importance. Therefore, 15-day composites were generated taking as reference the date of burning of the MCD64A1 C6 product, calculating a series of spectral indices and auxiliary variables. Finally, a selection of variables was carried out, based on Random Forest, discarding those not contributing to an explanation of the model. This was compared with another model, which was based on the original bands, to evaluate the performance of the algorithm of selection of variables. The results were compared with those of the MCD64 product. The original data model obtains a Dice coefficient for the month of January 2008 of 0.58 and the VSURF model of 0.56.

Keywords: Remote sensing; Burn area; AVHRR-LTDR; Multitemporal; RandomForest; Selection of variables.

1

Page 2: congresos.adeituv.es · Web viewTanto el GIMMS como el PAL tienen una resolución espacial de 0,1˚≈8km, el primero ofrece datos de NDVI mediante compuestos quincenales y el segundo

1. INTRODUCCIÓN

La aparición y uso de datos de baja resolución se remonta a la década de los setenta. La disponibilidad de datos abarca una larga serie temporal. Además, respecto a otros tipos de imágenes, las de baja resolución abarcan escalas regionales y globales (Loveland et al., 2000) con una frecuencia de adquisición alta (Sukhinin et al., 2004). Esta disposición de datos, ha permitido multitud de estudios de diferentes campos para comprender fenómenos globales (Chuvieco et al., 2008; Loveland et al., 2000; Riaño et al., 2007). En concreto, los datos del sensor AVHRR a bordo de los satélites NOAA ofrecen un archivo histórico que abarca desde 1979 hasta la actualidad.

La amplia cantidad de datos AVHRR ha permitido la generación de diferentes productos globales para aprovechar dicha información. Aunque han tenido que ser degradados, como es el caso del GIMMS (Global Inventory Modeling and Mapping Studies, 1981-2006, Tucker et al., 2005), el PAL (Pathfinder AVHRR Land, 1981-2000, James y Kalluri, 1994) o el LTDR (Long Term Data Record, 1981-actualmente, Pedelty et al., 2007), han sido objeto de gran cantidad de estudios (Alcaraz-Segura et al., 2010; Moreno Ruiz et al., 2012; Riaño et al., 2007). Tanto el GIMMS como el PAL tienen una resolución espacial de 0,1˚≈8km, el primero ofrece datos de NDVI mediante compuestos quincenales y el segundo se ofrece diariamente o en compuestos cada diez días con las bandas disponibles. Sin embargo, el LTDR es un producto diario y se encuentra a una resolución espacial de 0.05˚ ≈5km.

Por otro lado, la variable fuego ha sido ampliamente estudiada durante estos años. Esto es debido, a que es uno de los fenómenos que mayor impacto causa a nivel global (Bond et al., 2005). Por ello, es una variable importante a la hora de profundizar en el conocimiento de la dinámica del clima (Hantson et al., 2016). Los productos de área quemada más ampliamente utilizados presentan información consistente a partir de 2001 (Mouillot et al., 2014). El MCD64A1 Colección 6 es el producto que presenta la mayor fiabilidad ante los demás productos de área quemada (Padilla et al., 2015). Este producto es generado a partir de imágenes MODIS y tiene una disponibilidad que abarca desde el 2001 hasta la actualidad. Su aplicación se ve limitada al no disponer de información fiable con anterioridad. Por ello, se hace importante obtener una cartografía fiable y consistente temporalmente de área quemada. Para lo que es necesario contar con información adecuada que esté disponible en una larga serie temporal como es el producto LTDR.

Los objetivos de estudio son la elaboración de cartografía de área quemada a escala global en la extensión temporal que el producto LTDR pueda proporcionar. Los objetivos específicos son encontrar una selección de variables apropiada, comparando dos conjuntos de datos diferentes. Estos conjuntos de datos se evaluaran mediante la clasificación de área quemada y la comparación con el MCD64A1 C6.

2. METODOLOGÍA

2.1. Pre-procesado de los datos

2.1.1. Producto LTDREl archivo histórico de datos AVHRR ha permitido la realización del producto Long Term Data Record (LTDR, versión 5) desarrollado por Pedelty et al. (2007). Es un producto diario con cobertura global a 5km de resolución. La serie temporal es la más extensa que se puede encontrar en un producto global de este tipo, abarcando 37 años. Dicho producto fue sometido a un pre-procesamiento (correcciones atmosféricas y geométricas) para mejorar la estabilidad de la reflectividad entre los diferentes años y satélites. Las imágenes están compuestas por diez bandas que van desde el espectro visible hasta el térmico (Red, NIR, MIR y 2 térmicos), ángulos (azimuth y zenith) y datos de calidad. Debido a un cambio de

2

Page 3: congresos.adeituv.es · Web viewTanto el GIMMS como el PAL tienen una resolución espacial de 0,1˚≈8km, el primero ofrece datos de NDVI mediante compuestos quincenales y el segundo

configuración entre el sensor AVHRR/2 y el sensor AVHRR/3 en el NOAA16, el canal 3 quedó descartado para su uso al presentar una inconsistencia temporal de tres años. Por lo tanto, esta banda no fue utilizada aunque el uso del MIR ha sido de gran ayuda en otros estudios, al ser sensible a la señal de quemado y ser robusto contra efectos de dispersión y plumas de humo (Trigg y Flasse, 2001).

2.1.2. Información auxiliarSe han introducido distintas variables adicionales para completar la base de datos de entrenamiento con información basada en un contexto espacial. Por un lado, la intención es la de reducir el ruido, como es el caso del Land Cover CCI. Se ha elegido el del año 2000 por estar en medio de la serie temporal y no haber diferencias significativas entre los cambios de coberturas del suelo en los distintos años. Esta variable descarta aquellos pixeles que tuvieran porcentajes de quemado bajos o estuvieran etiquetados como no combustibles en el producto de Land Cover CCI (Fig. 1).

Por otro lado, han tenido entrada variables auxiliares como el fotoperiodo, calculado mediante la latitud, el día y asumiendo que el amanecer/ anochecer se produce cuando el horizonte está a la par de la parte superior de sol (Forsythe et al., 1995). El fotoperiodo indica las horas de sol que está recibiendo la vegetación durante los diferentes meses, lo que ofrece un contexto espacio-temporal. La elevación obtenida de Global multi-resolution terrain elevation data 2010 (GMTED2010, Danielson y Gesch, 2011) y la pendiente calculada (Burrough et al., 2015) se han remuestreado a 5km mediante la moda. Estas dos variables son introducidas porque dependiendo de la altitud hay cambios en la vegetación o no se producen incendios. Además de una serie de variables para ayudar a regionalizar la detección de área quemada, como son las filas y las columnas, que reducen el efecto de la autocorrelación espacial, y las regiones continentales (Giglio et al., 2010). Estas regiones tienen en cuenta el comportamiento del fuego según sea su localización. Por estas razones, los datos auxiliares van a ayudar a la detección de área quemada.

2.2. Procesado de los datos

2.2.1. Compuestos temporalesLas imágenes diarias presentan ruido debido a nubes, sombras, problemas de adquisición o distorsión. Estos problemas crean dificultad a la hora de procesar la imagen. Es por ello que se hace necesario realizar compuestos quincenales. De esta manera, se descartan aquellos pixeles inválidos y se minimiza la entrada de ruido. Estos compuestos han sido realizados mediante la técnica de máxima temperatura del canal 4 (Fig. 1), favoreciendo la desaparición de nubes y sombras, a la vez que aumenta la discriminación de los píxeles quemados (Chuvieco et al., 2005). Se han realizado para periodos quincenales (siempre dos compuestos dentro de un único mes) buscando obtener la máxima información posible en la totalidad de la extensión de la imagen, intentando descartar el mayor ruido posible (Tucker et al., 2005).

Por otro lado, estos compuestos se han empleado para entrenar el modelo. Para generarlos se ha hecho uso del producto MCD64A1 Colección 6, el cual fue remuestreado a 5 km extrayendo la información de proporción de área quemada y la fecha de detección del fuego. Se clasificó como no quemado y quemado, considerando como pixel quemado cualquier proporción mayor al 1%. Mediante la fecha de quemado, se extrajeron las reflectividades de las bandas originales de LTDR para los pixeles quemados antes y después del incendio, empleando ventanas temporales de quince días. Se consideraron dos periodos después del incendio, uno que empieza el mismo día del suceso y otro que comienza a los 15 días. Además se calcularon las diferencias entre las fechas pre-incendio y las dos post-incendio. Así, se detectan los cambios producidos entre las distintas fases de ocurrencia del evento.

3

Page 4: congresos.adeituv.es · Web viewTanto el GIMMS como el PAL tienen una resolución espacial de 0,1˚≈8km, el primero ofrece datos de NDVI mediante compuestos quincenales y el segundo

Figura 1. Comparativa entre el producto LTDR diario (izq) y los compuestos quincenales (dcha).

2.2.2. Índices espectralesEl cálculo de índices espectrales ha sido ampliamente utilizado en los estudios de área quemada (Barbosa et al., 1999; Oliva y Verdú, 2008). La utilización del espectro visible, en este caso el rojo, y el infrarrojo cercano (NIR) ha sido muy común en distintos estudios (Alonso-Canas y Chuvieco, 2015; Ramo y Chuvieco, 2017), al maximizar la separabilidad entre las zonas quemadas y no quemadas. De manera que se han tenido en cuenta índices como el NDVI (Rouse et al., 1974), GEMI (Pinty y Verstraete, 1992), {Rouse, 1974 #2634}BAI (Martín, 1998); SAVI (Huete, 1988), MSAVI (McGwire et al., 2000) o EVI2 (Jiang et al., 2008). Siendo GEMI, BAI y MSAVI los más empleados en estudios de área quemada al mostrar mayor sensibilidad a su presencia y SAVI, NDVI y EVI2 por su sensibilidad a los cambios en la reflectividad de las cubiertas vegetales. Por otro lado, uniendo las dos bandas del térmico es posible hacer uso de la temperatura de superficie (Barbosa et al., 1999) que muestra mayor contraste entre superficies afectadas por el fuego y superficies no alteradas por este suceso.

2.3. Conjunto de datos

Se han considerado dos conjuntos de datos para realizar la comparación. El primero (datos1) son las bandas originales de LTDR, proporcionando la separación espectral necesaria entre quemado y no quemado, y los datos auxiliares que introducen la componente espacial. Este primer conjunto de datos supone un total de 26 variables. En el segundo conjunto de datos (datos2), con 61 variables, se han introducido las bandas originales, los datos auxiliares y los Índices espectrales para maximizar la discriminabilidad del área quemada.

2.4. Random Forest

El algoritmo clasificador de Random Forest (RF, Breiman, 2001) consiste en una combinación de árboles de decisión independientes entre ellos, donde cada árbol escoge un subconjunto de variables del total. El voto mayoritario del conjunto de árboles es el que asigna cada pixel a una categoría. Este algoritmo ofrece el out-of-bag (OOB) error, obtenido al dejar para validar el 36% de los datos introducidos en RF (Liaw y Wiener, 2002), estimando la clase como la moda de los árboles donde no fue utilizado para clasificar. Además, RF asigna importancia a las

4

Page 5: congresos.adeituv.es · Web viewTanto el GIMMS como el PAL tienen una resolución espacial de 0,1˚≈8km, el primero ofrece datos de NDVI mediante compuestos quincenales y el segundo

variables donde indica la influencia de estas variables en la predicción. Su cálculo se realiza mediante el intercambio de una variable de entrada por otra en la creación del modelo mientras las demás son constantes, obteniendo cuales de ellas presentan un menor OOB (Breiman, 2001).

La utilización de RF en estudios de teledetección ha ido incrementando (Rodriguez-Galiano et al., 2012), por su capacidad de integrar distintos sensores. Al igual que está capacitado para temáticas relacionadas con el fuego (Archibald et al., 2009) o la clasificación de área quemada (Ramo y Chuvieco, 2017).

El algoritmo se entrena para el año 2008 y se aplica tanto para el año con el que se ha calibrado como para el año 2003, independiente al modelo. Estos años han sido seleccionados por ser años de los que se tienen datos, tanto de entrenamiento como de productos de área quemada con los que se puedan comparar, y no destacan por una alta/baja ocurrencia de fuego que pudieran alterar los resultados.

2.5. Selección de variables

La cantidad de variables que se introduzcan en el clasificador RF afectan a su exactitud por la entrada de ruido (Dillon et al., 2011). Por ello, se quiere comprobar mediante la detección de área quemada, si realizando una selección de variables del set de datos con mayores dimensiones, se mejora el conjunto de datos originales. De manera que se reduzca la dimensionalidad de los datos, se minimice el ruido y se rebaje el coste computacional, seleccionando las variables más explicativas que ofrezcan la misma capacidad de separabilidad de quemado.

2.5.1. VSURF

El algoritmo elegido es VSURF (Variable Selection Using Random Forests, (Genuer et al., 2010, 2015) desarrollado bajo RF. Esta especialmente diseñado para obtener un ranking de importancia de bases de datos de alta dimensión. Se introdujo el set de 62 variables de estudio más la información de área quemada (quemado y no quemado) como variable objetivo. Los parámetros del modelo escogidos fueron 2000 árboles de decisión y un número de repeticiones de calibración, parámetro por el cual se asigna el número de veces que se quiere repetir cada iteración, independiente en cada fase del proceso. Dichos parámetros fueron escogidos tras realizar distintas pruebas utilizando el que mayor consistencia ofreciese en los resultados.

Por otra parte, al partir de una base de datos de 48.907.458 (98,75% de los casos son de no quemado) casos por variable, se tuvo que crear muestras aleatorias de los datos para no sobrepasar los recursos del sistema. Se hicieron seis set de datos diferentes, con una muestra aleatoria de la misma cantidad de casos quemados y no quemados, para mayor balanceo y consistencia. Se escogió como casos quemados aquellos pixeles con más del 80% del área quemada, para disponer de la máxima separabilidad. En el caso de que alguna variable de los distintos modelos no coincidiese entre ellas, fue agregada para no perder información.

La selección de variables comienza calculando la importancia de todas ellas. Se aplicó un número de repeticiones de calibración de 50. Esta fase se encarga de ordenar las variables según su importancia y descartar aquellas que no son relevantes en el conjunto de la base datos.

El segundo paso, con 25 repeticiones de calibración, está basado en la interpretación de los datos. Se construye distintos modelos, comenzando desde las variables más importantes del paso anterior hasta introducir todas las variables. Al final del proceso, elige el modelo con el

5

Page 6: congresos.adeituv.es · Web viewTanto el GIMMS como el PAL tienen una resolución espacial de 0,1˚≈8km, el primero ofrece datos de NDVI mediante compuestos quincenales y el segundo

menor número de variables y mejores resultados con un menor error OOB. De esta manera, se eliminan las variables que no estén relacionadas con la discriminación de pixeles quemados.

Por último, el método de selección de variables se encarga de la predicción. En este paso, las variables se van introduciendo gradualmente en el modelo, aquellas que logren obtener un error OOB de control mejor que el valor medio obtenido de las variables rechazadas, son elegidas. De modo que se prescinden de las de las variables redundantes y permanece una pequeña selección de variables con buena predicción de área quemada.

En definitiva, la selección de variables ha ofrecido un ranking con las variables más explicativas para el modelo de área quemada.

2.5.2. Correlación

Las variables originales correspondientes con “datos1” y las seleccionadas, “datos2”, se sometieron a un análisis de correlación entre ellas. Se descartaron aquellas con una alta correlación o coeficiente de determinación, ya que no introducen información relevante en el modelo. Para descartar las variables entre las que tienen mayor correlación, se optó por sacar fuera del modelo aquellas que fuesen menos correlacionadas con el entrenamiento de área quemada. De esta manera se beneficia a las variables que puedan ser más explicativas.

2.6. Clasificación

Los datos de entrada para entrenar el modelo serán: “datos1”, que presenta las bandas originales y la información auxiliar; y “datos2”, con las variables obtenidas de la selección de variables. Los parámetros del algoritmo quedaron definidos en 600 árboles de decisión, ya que es un valor a partir del cual no debería producirse sobreajuste pero que es consistente para un correcto modelo (Dillon et al., 2011; Ramo y Chuvieco, 2017; Rodriguez-Galiano et al., 2012). Por otro lado, al tener una muestra de datos desbalanceada (1,25% de área quemada) se opta por introducir un porcentaje distinto de cada clase en cada árbol, para que balancee el modelo. Introduciendo en cada caso más de un 10% de quemado. La salida del modelo es una clasificación binaria que ofrece la información de quemado y no quemado.

2.7. Comparación con MCD64

Una vez obtenidas las clasificaciones de cada modelo por cada mes para cada año de estudio, se compararán con el producto de área quemada MCD64A1 C6. Se utiliza este producto como referencia para obtener una aproximación de la precisión de los modelos. Se calcularon las matrices de confusión mensuales para cada modelo. Por último, se obtuvieron los errores de omisión y comisión, además, del estadístico Dice coefficent, el cual obtiene la precisión de la clase quemada (Padilla et al., 2015), a diferencia de otros estadísticos como la exactitud global.

Dice Coefficient = 2 · Acuerdo quemado

2· Acuerdo quemado+residual comision+residual omision(1)

3. RESULTADOS Y DISCUSIÓN

3.3.1. Selección de variables

El proceso de selección de variables ha sido un proceso costoso desde el punto de vista computacional. Ha requerido realizar cada una de las partes del modelo por separado lo que es una clara desventaja a la hora de implementarlo. Al aplicar VSURF, el set de datos de 61 variables ha quedado reducido a 11.

6

Page 7: congresos.adeituv.es · Web viewTanto el GIMMS como el PAL tienen una resolución espacial de 0,1˚≈8km, el primero ofrece datos de NDVI mediante compuestos quincenales y el segundo

En la primera fase de los seis modelos, todas las variables han sido ordenadas según su importancia y ninguna ha sido descartada por no ser relevante frente a la variable de estudio. Aun así, se aprecian grandes diferencias entre la relevancia que tienen entre sí las variables. Las variables situadas en los primeros puestos son las relacionadas con la temperatura después del incendio y las bioregiones, en cambio como peor resultado encontramos las variables reflectivas del Red. La temperatura es muy sensible al área quemada y las regiones se debe a que hay zonas como África que son propensas a una mayor ocurrencia de incendios. Al contrario, el canal Red no ofrece mucho contraste con la vegetación.

A continuación, se obtuvo el menor número de variables posibles, seleccionado aquellas con una buena separación de área quemada, al obtener los menores OOB error. Las variables seleccionadas fueron 16 en la mayoría de los modelos, siendo las que aportaban menor error las mismas de mayor importancia tenian en el paso anterior. Se descartaron 45, como indica la línea roja en la Figura 2 izq. Se aprecia como hay un descenso muy pronunciado en las primeras 10 variables, disminuyendo en las 6 siguientes y manteniéndose estable a partir de ahí, lo que coincide con la marca y explica el descarte de las otras variables. Las variables que han superado el corte son sensibles a la interpretación de área quemada.

Al aplicar el paso de la predicción, se redujeron 5 variables en la mayoría de los modelos, quedando en 11 las variables seleccionadas por el algoritmo VSURF (Fig. 2 dcha). Se aprecia como la unión de estas variables seleccionadas disminuye el error OOB. Las variables seleccionadas son aquellas que aportaban información importante y descienden el error OOB.

Por lo tanto, las variables seleccionadas fueron en el periodo antes del incendio: Tª canal 4; periodo post-incendio: Ts, Tª canal 4, MSAVI; en el periodo de 15 días después del incendio: Ts, Tª canal 4, BAI; variables auxiliares: bioregiones, fotoperiodo, filas y columnas. La importancia de estas variables reside en la separabilidad de área quemada y en la capacidad espacial. Las temperaturas ofrecen una clara discriminación, al igual que las bandas reflectivas que se encuentran dentro de los índices espectrales. Las variables auxiliares señalan la importancia del lugar del mundo donde se analiza cada caso ya que hay regiones más propensas.

Figura 2. Error OOB en la interpretación (izq) y en la predicción (dcha).

Por último, a esta selección de variables se aplica el estudio de correlación. Se descartan las bandas de Ts y columnas por alta correlación. De tal forma, se han seleccionado 8 variables para entrenar el modelo RF de área quemada.

Respecto a los datos originales (datos1), también se les aplicó el estudio de correlación. En un momento inicial se contaba con 26 variables que se redujeron hasta 18. Las principales bandas que guardaban alta correlación era aquellas relacionadas entre Tª, entre las diferencias del

7

Page 8: congresos.adeituv.es · Web viewTanto el GIMMS como el PAL tienen una resolución espacial de 0,1˚≈8km, el primero ofrece datos de NDVI mediante compuestos quincenales y el segundo

NIR y el Red, y entre regiones y columnas, ya que se encuentran en regiones del espectro o espaciales próximas entre sí. De manera que los datos originales se resumen en periodo antes del incendio: Tª canal 5, Red, NIR; periodo post-incendio: Tª canal 5, Red, NIR, diferencia del Red y del canal 5; en el periodo de 15 días después del incendio: Tª canal 5, Red, NIR, diferencia del Red y del canal 5; variables auxiliares: elevación, pendiente, regiones continentales, fotoperiodo, filas y columnas.

Los datos seleccionados son comunes en la mayoría de estudios, lo que guarda una lógica inherente a cada variable. En estudios de área quemada se ha utilizado la elevación del terreno (Ramo y Chuvieco, 2017), severidad (Dillon et al., 2011), bioregiones (Ramo y Chuvieco, 2017) o datos como el NIR y el Red (Alonso-Canas y Chuvieco, 2015)

3.3.2. Clasificación y comparación con MCD64

Una vez realizada la selección de variables de los datos, se han entrenador los dos modelos. Se escoge el mes de enero para hacer la comparativa entre las dos muestras de variables (Tabla 1). El año 2008 presenta valores más balanceados que el año 2003. Esto se debe a que es el año de entrenamiento y se compara con los mismos datos. Los resultados muestran datos muy parecidos entre los dos modelos, aunque es ligeramente superior los datos de Dice coefficent en el modelo con la base de “datos1”. Los resultados son los esperados, en medida que se disminuye la dimensionalidad de la base de datos, el tiempo computacional se reduce y el modelo es explicativo.

Tabla 1. Errores omisión, comisión y Dice coefficient para el mes de enero.

2003 2008 ModelosComisión 0.7577 0.3930

OriginalOmisión 0.2507 0.4466Dice 0.3662 0.5789

Comisión 0.7782 0.4499VSURFOmisión 0.2983 0.4194

Dice 0.3370 0.5649

El modelo original, “datos1”, tiene menor error de comisión y mayor de omisión para el año 2008. Sin embargo en 2003, tanto la comisión y la omisión son inferiores. El error se produce en las regiones donde hay mayor cantidad área quemada. Dice coefficient siempre es más elevado para el modelo original aunque son cercanos entre ellos.

4. CONCLUSIÓN

Los resultados ofrecen un modelo de selección de variables que disminuye la dimensionalidad de la base de datos, el tiempo de procesado y es explicativo, pero tiene un alto coste computacional y temporal. Las variables de temperatura y los índices BAI y MSAVI tienen buena separabilidad de área quemada junto a las regiones continentales.

Los dos modelos son capaces de explicar la detección de área quemada. Los resultados son muy parecidos entre sí, ofreciendo valores más bajos de comisión y omisión y más altos de Dice coefficient en la base de datos original (“datos1”). Sería recomendable continuar con el estudio de la selección de variables para ajustar al máximo los modelos y así seguir optimizando la clasificación.

5. AGRADECIMIENTOS

8

Page 9: congresos.adeituv.es · Web viewTanto el GIMMS como el PAL tienen una resolución espacial de 0,1˚≈8km, el primero ofrece datos de NDVI mediante compuestos quincenales y el segundo

Agradecimientos al proyecto ESA Fire_cci donde se lleva a cabo la tesis doctoral y esta investigación, al proyecto LTDR de la NASA por el suministro del producto y al grupo de investigación GITA del Departamento de Geografía de la Universidad de Alcalá.

6. BIBLIOGRAFÍA

Alcaraz-Segura, D., Chuvieco, E., Epstein, H. E., Kasischke, E. S., y Trishchenko, A. (2010): Debating the greening vs. browning of the North American boreal forest: differences between satellite datasets. Global Change Biology, 16(2), 760-770.

Alonso-Canas, I., y Chuvieco, E. (2015): Global burned area mapping from ENVISAT-MERIS and MODIS active fire data. Remote Sensing of Environment, 163, 140-152.

Archibald, S., Roy, D. P., B., V. W., y J., S. R. (2009): What limits fire? An examination of drivers of burnt area in Southern Africa. Global Change Biology, 15(3), 613-630.

Barbosa, P. M., Grégoire, J. M., y Pereira, J. M. C. (1999): An algorithm for extracting burned areas from time series of AVHRR GAC data applied at a continental scale. Remote Sensing of Environment, 69, 253-263.

Bond, W. J., Woodward, F. I., y Midgley, G. F. (2005): The global distribution of ecosystems in a world without fire. New Phytologist, 165(2), 525-537.

Breiman, L. (2001): Random forests. Machine learning, 45(1), 5-32.Burrough, P. A., McDonnell, R. A., y Lloyd, C. D. (2015): Principles of

geographical information systems: Oxford University Press.Chuvieco, E., Englefield, P., Trishchenko, A. P., y Luo, Y. (2008): Generation

of long time series of burn area maps of the boreal forest from NOAA–AVHRR composite data. Remote Sensing of Environment, vol. 112(5), 2381-2396.

Chuvieco, E., Ventura, G., Martín, M. P., y Gomez, I. (2005): Assessment of multitemporal compositing techniques of MODIS and AVHRR images for burned land mapping. Remote Sensing of Environment, 94, 450 – 462.

Danielson, J. J., y Gesch, D. B. (2011): Global multi-resolution terrain elevation data 2010 (GMTED2010): US Geological Survey.

Dillon, G. K., Holden, Z. A., Morgan, P., Crimmins, M. A., Heyerdahl, E. K., y Luce, C. H. (2011): Both topography and climate affected forest and woodland burn severity in two regions of the western US, 1984 to 2006. Ecosphere, 2(12), 1-33.

Forsythe, W. C., Rykiel Jr, E. J., Stahl, R. S., Wu, H.-i., y Schoolfield, R. M. (1995): A model comparison for daylength as a function of latitude and day of year. Ecological Modelling, 80(1), 87-95.

Genuer, R., Poggi, J.-M., y Tuleau-Malot, C. (2010): Variable selection using random forests. Pattern Recognition Letters, 31(14), 2225-2236.

Genuer, R., Poggi, J.-M., y Tuleau-Malot, C. (2015): VSURF: an R package for variable selection using random forests. The R Journal, 7(2), 19-33.

Giglio, L., Randerson, J. T., van der Werf, G. R., Kasibhatla, P. S., Collatz, G. J., Morton, D. C., y DeFries, R. S. (2010): Assessing variability and long-term trends in burned area by merging multiple satellite fire products. Biogeosciences Discuss., 7, 1171-1186, doi:1110.5194/bg-1177-1171-2010,.

Hantson, S., Arneth, A., Harrison, S. P., Kelley, D. I., Prentice, I. C., Rabin, S. S., Archibald, S., Mouillot, F., Arnold, S. R., y Artaxo, P. (2016): The

9

Page 10: congresos.adeituv.es · Web viewTanto el GIMMS como el PAL tienen una resolución espacial de 0,1˚≈8km, el primero ofrece datos de NDVI mediante compuestos quincenales y el segundo

status and challenge of global fire modelling. Biogeosciences, 13(11), 3359-3375.

Huete, A. R. (1988): A soil-adjusted vegetation index (SAVI). Remote Sensing of Environment, 25, 295-309.

James, M., y Kalluri, S. N. (1994): The Pathfinder AVHRR land data set: an improved coarse resolution data set for terrestrial monitoring. International Journal of Remote Sensing, 15(17), 3347-3363.

Jiang, Z., Huete, A. R., Didan, K., y Miura, T. (2008): Development of a two-band enhanced vegetation index without a blue band. Remote sensing of Environment, 112(10), 3833-3845.

Liaw, A., y Wiener, M. (2002): Classification and regression by randomForest. R news, 2(3), 18-22.

Loveland, T. R., Reed, B. C., Brown, J. F., Ohlen, D. O., Zhu, J., Yang, L., y Merchant, J. W. (2000): Development of a global land cover characteristics database and IGBP DISCover from 1-km AVHRR data. International Journal of Remote Sensing, 21, 1303–1330.

Martín, M. P. (1998): Cartografía e inventario de incendios forestales en la Península Ibérica a partir de imágenes NOAA-AVHRR. Tesis Doctoral, Universidad de Alcalá, Alcalá de Henares.

McGwire, K. C., Minor, T., y Fenstermaker, L. (2000): Hyperspectral mixture modeling for quantifying sparse vegetation cover in arid environments. Remote Sensing of Environment, 72(3), 360-374.

Moreno Ruiz, J. A., Riano, D., Arbelo, M., French, N. H., Ustin, S. L., y Whiting, M. L. (2012): Burned area mapping time series in Canada (1984–1999) from NOAA-AVHRR LTDR: A comparison with other remote sensing products and fire perimeters. Remote Sensing of Environment, 117, 407-414.

Mouillot, F., Schultz, M. G., Yue, C., Cadule, P., Tansey, K., Ciais, P., y Chuvieco, E. (2014): Ten years of global burned area products from spaceborne remote sensing—A review: Analysis of user needs and recommendations for future developments. International Journal of Applied Earth Observation and Geoinformation, 26, 64-79.

Oliva, F., y Verdú, P. (2008): Revisión de la utilización de distintos índices espectrales y técnicas para la cartografía de área quemada en imágenes MODIS.

Padilla, M., Stehman, S. V., Hantson, S., Oliva, P., Alonso-Canas, I., Bradley, A., Tansey, K., Mota, B., Pereira, J. M., y Chuvieco, E. (2015): Comparing the Accuracies of Remote Sensing Global Burned Area Products using Stratified Random Sampling and Estimation. Remote Sensing of Environment 160, 114-121.

Pedelty, J., Devadiga, S., Masuoka, E., Brown, M., Pinzon, J., Tucker, C., Vermote, E., Prince, S., Nagol, J., y Justice, C. (2007). Generating a long-term land data record from the AVHRR and MODIS instruments. Paper presented at the Geoscience and Remote Sensing Symposium, 2007. IGARSS 2007. IEEE International.

Pinty, B., y Verstraete, M. M. (1992): GEMI: a non-linear index to monitor global vegetation from satellites. Vegetatio, 101, 15-20.

Ramo, R., y Chuvieco, E. (2017): Developing a Random Forest Algorithm for MODIS Global Burned Area Classification. Remote Sensing, 9(11), 1193.

Riaño, D., Ruiz, J. A. M., Isidoro, D., Ustin, S. L., y Riaño, D. (2007): Global spatial patterns and temporal trends of burned area between 1981 and 2000 using NOAA-NASA Pathfinder. Global Change Biology, 13, 40-50, doi: 10.1111/j.1365-2486.2006.01268.

10

Page 11: congresos.adeituv.es · Web viewTanto el GIMMS como el PAL tienen una resolución espacial de 0,1˚≈8km, el primero ofrece datos de NDVI mediante compuestos quincenales y el segundo

Rodriguez-Galiano, V. F., Ghimire, B., Rogan, J., Chica-Olmo, M., y Rigol-Sanchez, J. P. (2012): An assessment of the effectiveness of a random forest classifier for land-cover classification. ISPRS Journal of Photogrammetry and Remote Sensing, 67, 93-104.

Rouse, J. W., Haas, R. W., Schell, J. A., Deering, D. H., y Harlan, J. C. (1974): Monitoring the vernal advancement and retrogradation (Greenwave effect) of natural vegetation. Greenbelt, MD. USA: NASA/GSFC.

Sukhinin, A. I., French, N. H. F., Kasischke, E. S., Hewson, J. H., Soja, A. J., Csiszar, I. A., Hyer, E. J., Loboda, T., Conrad, S. G., Romasko, V. I., Pavlichenko, E. A., Miskiv, S. I., y Slinkina, O. A. (2004): AVHRR-based mapping of fires in Russia: New products for fire management and carbon cycle studies. Remote Sensing of Environment, 93(4), 546-564.

Trigg, S., y Flasse, S. (2001): An evaluation of different bi-spectral spaces for discriminating burned shrub-savannah. International Journal of Remote Sensing, 22(13), 2641–2647.

Tucker, C. J., Pinzon, J. E., Brown, M. E., Slayback, D. A., Pak, E. W., Mahoney, R., Vermote, E. F., y El Saleous, N. (2005): An extended AVHRR 8‐km NDVI dataset compatible with MODIS and SPOT vegetation NDVI data. International Journal of Remote Sensing, 26(20), 4485-4498.

11