C5. Modelización espacial
con MiraMon y MaxEnt
Asignatura de Ecología Espacial
Modelización espacial:
y= (x1, x2,,…, xn)
Desarrollo de modelos diversos (GLM, GLZ, Bayesianos)
a partir de variables espacialmente explícitas
1. Modelización lineal espacial
Construcción de modelos lineales espacialmente
explícitos, a partir de las relaciones entre variables
Modelos lineales espacialmente explícitos:
énfasis en la predicción
Y=Xb+e
Selección de las variables
que dan el mejor
modelo (r2, AIC…)
Uso de sus parámetros (b) para
la construcción de un modelo
Construcción de un modelo
de residuos por interpolación
de éstos
Modelo final (Y): suma de los dos
Regresión múltiple e interpolación de
residuos con MiraMon
Construcción de modelos lineales del tipo:
Y= a0+a1.X1+a2.X2+…..+anXn
Los coeficientes a0, a1... an se ajustan por mínimos cuadrados.
El programa permite añadir una interpolación espacial de los residuos
resultantes de la regresión múltiple, de forma que en muchos casos se
mejora el poder predictivo del modelo
Parte de un conjunto de muestras de la variable dependiente en
localizaciones concretas (puntuales) y el conjunto de las posibles
variables independientes
Por iteraciones sucesivas, el programa selecciona el mejor modelo
posible en función de la R2 ajustada o la Cp de Mallows
Construcción de un modelo predictivo de la pluviosidad
de Catalunya
Ejercicio 1
Materiales
(Carpeta Ej1): Estaciones_CAT.pnt. Selección de estaciones
meteorológicas de Catalunya, con datos diversos de temperatura y
pluviosidad
(Carpeta Ej1/Factores) Variables independientes del modelo, en formato
ráster
1. Poner a punto las capas ráster (ámbito y resolución comunes)
(Herramientas/Organización espacial/Adaptación de un ráster a otro ámbito
y lado de celda)
Referencia: D_Costa_120m.img
2. Realizar el modelo con interpolación de residuos
(Herramientas/Modelización/Regresión multivariante)
Método: Ajuste
Ajuste e interpolación de
residuos
•Inverso de la distancia
•Splines
Datos (variable
dependiente): Capa de puntos
Campo
Distribució entre
puntos de ajuste y
test
Factores
(variables
independientes)
Capas ráster
continuas o
categóricas, de igual
extensión y resolución
Salidas
Ráster del modelo
Informe estadístico
Residuos de los
puntos de ajuste y test
Ráster con la
interpolación de los
residuos
RMS del test
Sobre los puntos de test evalúa el ajuste del modelo
(regresión + ajuste de residuos)
Estadístico: Root Mean Square (RMS). Raíz cuadrada
de la diferencia cuadrática media
yi: valores observados
yi: valores esperados^
Residuos
Diferencias entre los valores observados y los obtenidosde la regresión. Se utilizan en el proceso de interpolación
y= yi-yi^
Análisis de resultados
Parámetros de la regresión seleccionada y de la
realizada con todas las capas
(fichero *.ini)
Fichero de los ajustes de la regresión y del test
(fichero *.pnt)
Ráster del modelo (+ interpolación de residuos)
(fichero *.img)
Ráster de la interpolación de residuos
(fichero *.img)
2. Modelos probabilísticos
con datos de presencias
MaxEnt: modelización de datos
de presencias de especies
Método basado en el principio de la máxima entropía:
La mejor aproximación a la función de distribución de la
probabilidad de presencia de una especie es aquella
que, teniendo en cuenta las restricciones conocidas,
muestra una máxima entropía (es decir, maximiza la
diversidad de situaciones)
Definición inicial basada en principios de machine
learning (Philips et al. 2006) y posteriormente
reformulada en términos de estadística Bayesiana (Elith
et al. 2011)
MaxEnt se basa en la comparación de dos funciones
de densidades de probabilidad:
Aplicación de métodos bayesianos
La modelización de la probabilidad de presencia de la
especie condicionada por el ambiente se lleva a cabo
mediante un modelo bayesiano :
P(y=1│z)= f1(z).P(y=1)/f(z)
Donde:
y=1 presencia; y=0 ausencia de una determinada especie
P(y=1) frecuencia de ocurrencias (desconocida)
f(z) función de densidad de probabilidad multivariante de un conjunto
de variables ambientales f(z1, z2, …zn) en el paisaje
f1(z) subregión de f(z) donde la especie está presente
P(y=1) es desconocida, por lo que MaxEnt estima el
logaritmo de la relación entre f1(z) y f(z) (MaxEnt raw
ratio)
(z)=log (f1(z)/f(z))
Se trata de una función logit cuya linealización da la
expresión
e (z )=f1(z)/f(z)
MaxEnt calcula entonces la función de f1(z) que recoge
el conjunto de puntos de presencia y a su vez minimiza la
distancia respecto de f(z) (modelo de distribución nulo)
Es decir, minimiza e (z ) mediante un modelo log-linear
similar a un GLM
Outputs gráficos del modelo
Raw
Modelo exponencial
básico de MaxEnt
Cumulative
Modelo exponencial
acumulado
Logistic
Modelo probabilístico
(log del modelo básico)
Bondad del ajuste: curva ROC
ROC (acrónimo de Receiver Operating Characteristic)
Representa la razón de verdaderos positivos (TP) frente a la razón de
falsos positivos (FP) para un sistema clasificador binario según se varía
el umbral de discriminación (valor a partir del cual decidimos que un
caso es un positivo)
Proporción de falsos positivos
Pro
po
rció
n d
e p
osit
ivo
s v
erd
ad
ero
s
Umbral de discriminación
Ausencia Presencia
Proporción de falsos positivos
Pro
po
rció
n d
e p
osit
ivo
s v
erd
ad
ero
s
Ejemplo (tutorial de MaxEnt)
Test del modelo:
¿se comporta mejor que el azar?
Sobre los puntos de test, cálculo del porcentaje de omisión (Falsos negativos o
puntos de presencia que caen sobre zonas predichas como no adecuadas)
Se testa la diferencia de la probabilidad de omisión respecto del azar mediante un
test binomial, que se repite para los diversos umbrales de decisión (thresholds)
Umbral de decisión acumulado
Po
rce
nta
jed
e o
mis
ión
Contribución de las diversas
variables predictoras al modeloEstimación heurística de la ganancia del modelo (AUC) con la adición de cada
variable, durante el proceso de construcción del modelo o mediante un test de
de Jacknife
Curvas de respuesta
a los diversos factores
Realización de un modelo predictivo del riesgo de
invasión en Navarra y Catalunya con MaxEnt
Ejercicio 2
Materiales
(Carpeta Ej2): Localidades de Vespa velutina en Navarra
(fichero*.csv)
(Carpeta Ej2/ Rasters_ASC) Factores (variables independientes)
en formato ráster (ASCII)
Opciones:
•Create response curves
•Make pictures of predictions
•Do jacknife to measure variable importance
•Output format: logistic
•Output file: asc
•Seleccionar output directory