modelos de ocupación - unicen
TRANSCRIPT
Universidad Nacional del Centro
de la Provincia de Buenos Aires
Facultad de Ciencias Exactas
Trabajo Final de la Licenciatura en Ciencias Matemáticas
Modelos de Ocupación:
Una forma de analizar las variables que afectan la
ocupación y detección de especies endémicas
Juan Mateo Friedman
Mg. Rosana E. Cepeda Dr. Igor Berkunsky
Directora Co-Director
1ode Marzo de 2017
Agradecimientos
Quisiera agradecer a mi familia, amigos y a todas las personas que estuvieron
conmigo a lo largo de este camino. Gracias por ayudarme a no bajar los brazos y por
creer en mí.
Este trabajo fue realizado gracias al apoyo de mis compañeros del Instituto de
ECOSISTEMAS. Gracias por devolverme el interés y la pasión por las matemáticas, y
por darme objetivos para poder terminar esta carrera.
Agradezco especialmente a mis directores de tesis, Rosana e Igor, cuya dedicación,
esfuerzo y apoyo incondicional fueron fundamentales en el desarrollo de este trabajo.
3
Índice general
1. Introducción 9
2. Modelos Lineales Generalizados 11
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Modelo Lineal General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3. Modelos Lineales Generalizados (MLG) . . . . . . . . . . . . . . . . . . . 15
2.4. Estimación del Vector de Parámetros β . . . . . . . . . . . . . . . . . . . . 20
2.4.1. Ejemplo del Algoritmo de Estimación . . . . . . . . . . . . . . . . 24
2.4.2. Propiedades y Distribución Muestral de β . . . . . . . . . . . . . . 28
2.4.3. Métodos Bayesianos de Estimación . . . . . . . . . . . . . . . . . . 32
2.5. Función Deviance y el Estadístico de Pearson χ2 Generalizado . . . . . . . 33
2.6. Estimación del Parámetro φ . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.7. Análisis de la Deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.8. Tests de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.8.1. Test de Razón de Verosimilitudes . . . . . . . . . . . . . . . . . . . 43
2.8.2. Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.8.3. Test Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.9. Intervalos de Con�anza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.10. Técnicas para la Veri�cación del Ajuste de un Modelo a un Conjunto de
Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.11. Análisis de Residuos y Diagnósticos . . . . . . . . . . . . . . . . . . . . . . 47
2.11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.11.2. Tipos de Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.11.3. Tipos de Grá�cos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.12. Veri�cación de la Función de Enlace . . . . . . . . . . . . . . . . . . . . . 51
2.13. Veri�cación de la Función de Varianza . . . . . . . . . . . . . . . . . . . . 52
2.14. Veri�cación de las Escalas de las Covariables . . . . . . . . . . . . . . . . . 53
2.15. Selección de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5
Índice general
3. Modelos de Ocupación 61
3.1. Situación de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.2. Estimación de la Ocupación con Probabilidad de Detección Conocida . . . 63
3.3. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.3.1. Construcción de un Modelo . . . . . . . . . . . . . . . . . . . . . . 65
3.3.2. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.3.3. Observaciones Faltantes . . . . . . . . . . . . . . . . . . . . . . . . 73
3.3.4. Modelado de Covariables . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.5. Ajuste del Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.3.6. Ejemplo de Modelos de Ocupación . . . . . . . . . . . . . . . . . . 80
3.4. Estimación de la Ocupación para una Población Finita o Área Pequeña . . 81
3.4.1. Predicción del Estado de Ocupación No Observado . . . . . . . . . 83
3.4.2. Formulación Bayesiana del Modelo . . . . . . . . . . . . . . . . . . 85
3.5. Modelos con Probabilidad de Detección Heterogénea . . . . . . . . . . . . 88
4. Modelos de Ocupación con Componente Espacial 91
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.2. Análisis Espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.2.1. Matrices de Pesos Espaciales . . . . . . . . . . . . . . . . . . . . . 92
4.2.2. Medidas de Autocorrelación Espacial . . . . . . . . . . . . . . . . . 98
4.3. Autocovariable Espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.3.1. Modelos Espaciales con Detección Perfecta . . . . . . . . . . . . . . 102
4.3.2. Modelos Espaciales con Detección Imperfecta . . . . . . . . . . . . 104
4.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.5. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5. Caso de Estudio: El Sapito de las Sierras 111
5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.2. Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.3. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.4. Estimación de la Probabilidad de Detección Utilizando Datos de Previsión
Meteorológica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
5.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6. Caso de Estudio: Loros de Bolivia 121
6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6.2. Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
6
Índice general
6.3. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
A. Anexo: Implementación en R 129
A.1. Modelos de Ocupación Básicos en R . . . . . . . . . . . . . . . . . . . . . 129
A.2. Estimaciones de los Parámetros . . . . . . . . . . . . . . . . . . . . . . . . 133
A.3. Selección de Modelos y Modelo Promedio . . . . . . . . . . . . . . . . . . 135
A.4. Bondad de Ajuste y Bootstrap Paramétrico. . . . . . . . . . . . . . . . . . 136
A.5. Métodos Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
A.6. Estimación de la Probabilidad de Detección Utilizando Datos de Previsión
Meteorológica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
A.7. Modelos Espaciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7
1. Introducción
En los últimos años se ha ido a�anzando la relación entre la matemática y otras
disciplinas, siendo la biología una de las que más explota esta relación. La biomatemática
o biología matemática se basa en la aplicación de modelos matemáticos a áreas como la
epidemiología, la medicina, la biología celular y la ecología (Murray, 2011). Esta última
estudia la relación entre los organismos y su entorno, y será el área en la que se centrará
este trabajo.
Una de las herramientas más modernas de la biomatemática son los modelos de
ocupación, los cuales centran su atención en el estudio de la proporción de sitios ocupados
por una especie de interés. El concepto de "ocupación" surge en principio como un
sustituto de la abundancia, pero se ha ido consolidando rápidamente como una variable
de estado poblacional, permitiendo así desarrollar métodos de inferencia sobre procesos
en las poblaciones (MacKenzie, 2006).
Los modelos de ocupación permitieron considerar la posibilidad de que una especie
estuviera presente en un sitio y no fuera detectada durante un muestreo (MacKenzie y
Royle, 2005). Modelar de manera simultánea la probabilidad de ocupación y de detección
es la principal fortaleza de estos modelos.
En este trabajo se estudiarán en profundidad los modelos de ocupación con el ob-
jetivo de presentar modelos matemáticos que permitan comprender mejor el comporta-
miento de especies amenazadas y desarrollar herramientas que ayuden a su conservación.
En el Capítulo 2 se desarrollará la teoría de Modelos Lineales Generalizados (MLG),
que es la base estadístico-matemática sobre la que se formulan los modelos de ocupación.
Se comenzará planteando el modelo lineal general y se detallará el proceso de estima-
ción de los parámetros, principalmente siguiendo el método de estimación de máxima
verosimilitud y ofreciendo como alternativa métodos Bayesianos. Luego se analizarán las
propiedades de los estimadores de los diferentes parámetros y se presentarán una serie de
9
1. Introducción
métricas que permitirán interpretar y diagnosticar los resultados obtenidos. Por último,
se estudiará el proceso de selección de modelos y las métricas de inferencia multi-modelo.
En el Capítulo 3 se presentarán los modelos de ocupación comenzando por modelos
con probabilidad de detección conocida para luego estudiar aquellos modelos que con-
sideran esta probabilidad desconocida. Análogamente al capítulo anterior, se estudiarán
paralelamente los enfoques Bayesiano y de máxima verosimilitud, haciendo hincapié so-
bre este último. Adicionalmente, se complejizarán los modelos mediante la introducción
del concepto de observaciones faltantes y el modelado de covariables. Se analizará luego
la bondad del ajuste de los modelos presentados y la estimación de la ocupación para
poblaciones �nitas. Por último y sin entrar en detalles, se introducirán los modelos de
ocupación heterogénea.
En el Capítulo 4, se introducirán los modelos de ocupación con una componente
espacial, que constituye una alternativa original para el modelado del comportamien-
to espacial de las especies. Inicialmente se estudiarán diferentes maneras de medir la
autocorrelación espacial entre sitios. Estos conceptos serán utilizados para construir un
término espacial a partir del cual se plantearán modelos espaciales con detección perfecta
e imperfecta.
En los Capítulos 5 y 6 se desarrollarán respectivamente dos casos de estudio ori-
ginales en los cuales se aplican los modelos de ocupación. El primer conjunto de datos
corresponde al Sapito de las Sierras (Melanophryniscus a�. montevidensis) una especie
amenazada y endémica del pastizal serrano del Sistema de Tandilia en Argentina (Fried-
man et al., 2016). El segundo conjunto de datos corresponde al Guacamayo de Barba
Azul (Ara glaucogularis), una especie amenazada y endémica de los Llanos de Moxos
(Bolivia). Estos datos forman parte de un estudio más general sobre la ocupación de 23
especies de loros que habitan el norte de Bolivia (Berkunsky et al., 2015).
En el Apéndice se incluye el código del software R utilizado para implementar los
modelos desarrollados en este trabajo.
10
2. Modelos Lineales Generalizados
2.1. Introducción
Muchas veces, en diferentes áreas de aplicación, se desea analizar la relación fun-
cional que existe entre un grupo de variables. Una herramienta que puede ser de utilidad
para este �n son los llamados Modelos Lineales, principalmente los modelos de regresión
y de análisis de varianza. Estos modelos tienen como hipótesis que una de las variables
es respuesta de las otras, esta respuesta es continua y generalmente normalmente dis-
tribuida con media cero y varianza constantes para los distintos valores de las variables
independientes.
Cuando la variable de respuesta es discreta o categórica se encuentra que los mo-
delos lineales no son aplicables. Ante esta limitación, en 1972, Nelder y Wedderburn
propusieron una teoría uni�cadora de modelos estadísticos, a la que llamaron Modelos
Lineales Generalizados (MLG), como una extensión de los modelos lineales clásicos. Esta
familia de modelos considera como distribución de la variable respuesta a todas aquellas
funciones de distribución que pertenecen a la familia exponencial, dentro de la cual se
encuentran las distribuciones Binomial, Poisson, Hipergeométrica, además de la Normal.
Ellos mostraron entonces que muchos de los problemas estadísticos que se pre-
sentan en las áreas de agricultura, demografía, ecología, economía, geografía, geología,
historia, medicina, ciencias políticas, psicología, sociología, cría de animales, etc., pueden
ser formulados de manera uni�cada como modelos de regresión.
Este capítulo comienza presentando los principales aspectos del modelo lineal ge-
neral.
11
2. Modelos Lineales Generalizados
2.2. Modelo Lineal General
El modelo lineal general surge ante la necesidad de expresar cuantitativamente las
relaciones entre una variable de respuesta (o dependiente) y otras variables explicativas
(o independientes), también llamadas covariables.
Sea Y una variable aleatoria con distribución perteneciente a la familia de distri-
buciones H, y explicada por el conjunto de variables X1, X2, . . . , Xp, �jadas antes de
conocer Y . Entonces, la esperanza condicional de Y viene dada por:
E(Y | X1, X2, . . . , Xp) = β0 + β1X1 + · · ·+ βpXp = µ.
Si se extrae una muestra aleatoria de tamaño n de una población para la cual
existe una relación lineal entre la variable de respuesta y las variables independientes,
cada observación de la muestra puede expresarse como:
yi = β0 + β1xi1 + · · ·+ βpxip + εi con i = 1, 2, . . . , n.
El término εi corresponde a una perturbación aleatoria no observable llamada error
aleatorio, que tiene esperanza cero y varianza σ2 constante. Si se asume además que
i 6= j entonces εi y εj no están correlacionados entre sí.
La ecuación anterior se puede expresar en forma matricial como Y = Xβ + ε. El
vector de respuesta Y está compuesto por una componente sistemática y otra aleatoria.
La primera corresponde al predictor lineal η = Xβ, y la segunda está formada por el
vector aleatorio Y de elementos independientes entre sí, con distribución f ∈ H, vector
de esperanzas μ y matriz de covarianzas σ2I. Calculando la esperanza de Y se obtiene
que E(Y ) = Xβ = µ.
El modelo lineal general tiene como característica que, mientras la variable de
respuesta Y es cuantitativa, sus covariables pueden ser cuantitativas o categóricas cuali-
tativas, siendo además independientes entre sí.
Covariables
Si todas las covariables son continuas, el modelo se denomina modelo de regresión
lineal múltiple. Los parámetros β1, β2, . . . , βp son llamados coe�cientes de regresión, cada
12
2.2. Modelo Lineal General
uno representando el cambio esperado en la respuesta por cada unidad de cambio en la
covariable, cuando las demás variables regresoras son constantes. Si todas las variables
regresoras incluyen al cero en su recorrido, el coe�ciente β0, conocido como intercepto,
puede interpretarse como la media de la distribución de la variable de respuesta.
Puede suceder que 2 o más variables tengan un efecto sobre la variable de respuesta
cuando interactúan, por lo que sería de interés incluir estas componentes en el modelo
para lograr un mejor ajuste, siempre y cuando la interacción sea interpretable.
Cuando el predictor lineal η está formado sólo por variables cualitativas, están son
llamadas factores y los valores que toman se denominan niveles del factor. No siempre
sucede que estos niveles tienen un orden natural asociado, siendo usual incluir covariables
como tipo de hábitat, color de pelaje de la especie, entre otras, conocidas como covariables
de tipo nominal. Las covariables también pueden poseer un orden que no necesariamente
implique magnitud, como un orden de preferencias. A estas covariables se las llama
ordinales.
Si las observaciones se clasi�can en 2 o más factores, se habla de un análisis multi-
factorial. Las combinaciones entre los niveles considerados se conocen como tratamientos.
Por ejemplo, si se tiene un modelo con 2 factores, se incluyen términos de la forma αi+βj ,
y en el caso que existan interacciones entre ellos, pueden aparecer términos de la forma
(αβ)ij . Entonces, un modelo de dos factores se representa como:
yijm = δ + αi + βj + (αβ)ij + εijm
donde yijm es la respuesta del m-ésimo sujeto correspondiente al i-ésimo nivel del primer
factor y al j-ésimo del segundo,δ es la media general y εijm es la componente aleatoria
antes descripta.
Para 3 o más factores, el modelo presentado puede generalizarse de manera natural.
Variables Dummy
Considérese la situación que se tiene una variable de respuesta con p niveles y n
repeticiones por cada nivel. El modelo será
yij = δ + βi + εij
13
2. Modelos Lineales Generalizados
donde yij es la j-ésima observación correspondiente al i-ésimo nivel del tratamiento. La
representación matricial del modelo será Y = Xβ+ ε.
La matriz X se de�ne de acuerdo a los objetivos del estudio, siendo determinante
en la manera en que se interpretarán los parámetros.
De acuerdo a lo anterior, el modelo sería:
Y11
Y12
...
Y1n
Y21
...
Yij
...
Ypn
=
1 1 0 · · · 0 · · · 0
1 1 0 · · · 0 · · · 0...
......
......
......
1 1 0 · · · 0 · · · 0
1 0 1 · · · 0 · · · 0...
......
......
......
1 0 0 · · · 1 · · · 0...
......
......
......
1 0 0 · · · 0 · · · 1
δ
β1...
βi...
βp
+
ε11
ε12...
ε1n
ε21...
εij...
εpn
.
Para asegurarse que XtX sea inversible, las columnas de la matriz (es decir las
observaciones) deben ser linealmente independientes. Para lograr este objetivo, si el factor
tiene p niveles, se de�nirá una variable con p − 1 niveles. Esta variable se conoce como
arti�cial, contraste o dummy.
Esta reparametrización se conoce como reparametrización del punto central. Si una
variable tiene p niveles se debe seleccionar uno de ellos como categoría de referencia. Si
se toma la última categoría como referencia, la i-ésima columna de X contendría un 1 en
la i-ésima �la, -1 en la última �la y 0 en las demás. Si αi es el parámetro correspondiente
al i-ésimo nivel del factor, las p− 1 columnas producirán estimadores independientes de
los parámetros α1, α2, . . . , αp−1.
Por ejemplo, si nuestra variable tiene 2 categorías, la reparametrización vendrá
dada por:
Xi =
1 si la observación pertenece al i-ésimo nivel del factor
−1 caso contrario.
14
2.3. Modelos Lineales Generalizados (MLG)
Y si nuestra variable tiene más de 2 niveles:
Xi =
1 si la observación pertenece al i-ésimo nivel del factor
0 caso contrario
−1 nivel de referencia
.
Esta parametrización compara el efecto de cada una de las categorías de las varia-
bles independientes con el efecto de la categoría de referencia.
2.3. Modelos Lineales Generalizados (MLG)
Como ya se comentó, Nelder y Wedderburn (1972) mostraron que las situaciones
que pueden ser formuladas de manera uni�cada como modelos de regresión. Estos mode-
los involucran una variable de respuesta univariada, variables explicativas y una muestra
aleatoria de n observaciones. La variable de respuesta tiene una distribución pertene-
ciente a la familia exponencial en la forma canónica. Para datos continuos se usan las
distribuciones Normal, Gamma y Normal Inversa. La distribución Binomial es utilizada
para proporciones, mientras que para conteos se recurre a la distribución de Poisson y
Binomial Negativa.
Para una muestra de n observaciones (yi, xi), con xi = (x1,i, x2,i, . . . , xp,i)t el
vector columna de variables explicativas, el Modelo Lineal Generalizado está formado
por las tres componentes siguientes:
1. Componente aleatoria. Representada por un conjunto de variables aleatorias
independientes Y1, Y2, . . . , Yn provenientes de una misma distribución que es parte
de la familia exponencial en forma canónica, con medias µ1, µ2, . . . , µn, es decir
E (Yi) = µi; y un parámetro constante de escala conocido, φ > 0, que depende
de un único parámetro θi, llamado canónico o natural. La función densidad de
probabilidad (f.d.p.) de cada Y i está dada por:
f (yi; θi, φ) = exp
{1
ai (φ)[yiθi − b (θi)] + c (yi; φ)
}(2.1)
con b (·) y c (·), funciones conocidas. En general, ai (φ) = φwi
con wi pesos a priori.
15
2. Modelos Lineales Generalizados
Además por propiedades de la familia exponencial en forma canónica:
E (Yi) = µi = b′ (θi)
V ar (Yi) = ai (φ) b′′ (θi) = ai (φ)V (µi) = ai (φ)Vi (2.2)
con Vi = dµidθi
llamada función de varianza que, como depende únicamente de la
media, permite expresar el parámetro natural como θi =´V −1i dµi = q (µi), con
q (µi)una función conocida.
2. Componente sistemática. Las variables explicativas entran en el modelo en for-
ma de una suma lineal de sus efectos:
ηi =
p∑j=1
xijβj = xitβ
o
η = Xβ
con X = (x1, x2, . . . , xn)tla matriz del modelo, β = (β1, β2, . . . , βp)t el vector de
parámetros y η = (η1, η2, . . . , ηn)t el predictor lineal.
3. Función de enlace. Tiene como �nalidad vincular la componente aleatoria con la
sistemática. Relaciona la media con el predictor lineal, es decir ηi = g (µi) donde
g (·) es una función monótona derivable.
Por lo tanto, para una especi�cación del modelo, los parámetros θi de la familia exponen-
cial no son de interés directo (porque hay uno para cada observación), pero sí un conjunto
más chico de parámetros β1, β2, . . . , βp tal que una combinación de ellos es igual a una
función del valor esperado de Yi.
Ejemplo 1. Sea Y una v.a. con distribución Normal de media µ desconocida y varianza
conocida σ2 > 0, entonces su f.d.p. es:
f(y; µ, σ2
)=
1√2πσ2
exp
{−(y − µ)2
2σ2
},
con µ ∈ R.
16
2.3. Modelos Lineales Generalizados (MLG)
Desarrollando esta expresión se obtiene:
f(y; µ, σ2
)= exp
{−(y − µ)2
2σ2− 1
2ln(2πσ2
)}
= exp
{1
σ2
[−y2 + 2yµ− µ2
2
]− 1
2ln(2πσ2
)}= exp
{1
σ2
[yµ− µ2
2
]− y2
2σ2− 1
2ln(2πσ2
)}.
Tomando
θ = µ a (φ) = σ2
b (θ) =µ
2=θ2
2c (y; φ) = −1
2
[y2
σ2+ ln
(2πσ2
)]
se muestra que la distribución N(µ, σ2
)con µ desconocido y σ2 > 0 conocido,
pertenece a la familia exponencial en la forma canónica.
Ejemplo 2. Sea Y una v.a. con distribución Binomial y f.d.p. dada por:
f (y; π) =
(m
y
)πy (1− π)m−y ,
con m ∈ N, el número de ensayos, p ∈ [0, 1], la probabilidad de éxito.
Se tiene entonces que:
f (y;π) = exp
{ln
(m
y
)+ y ln (π) + (m− y) ln (1− π)
}= exp
{y ln
(π
1− π
)+m ln (1− π) + ln
(m
y
)}.
De lo que se desprende:
a (φ) = 1 θ = ln
(π
1− π
)→ π =
eθ
1 + eθ
b (θ) = −m ln (1− π) = m ln(
1 + eθ)
c (y; φ) = ln
(m
y
).
17
2. Modelos Lineales Generalizados
Por lo tanto, la distribución Binomial pertenece a la familia exponencial en la forma
canónica.
Ejemplo 3. Sea ahora Y una v.a. con distribución Poisson, por lo tanto su f.d.p. está
dada por:
f (y; µ) =µye−µ
y!,
con µ > 0.
Luego
f (y; µ) = exp {y ln (µ)− µ− ln (y!)} .
Ahora tomando
a (φ) = 1 θ = ln (µ)
b (θ) = eθ c (y; φ) = − ln (y!) ,
se demuestra que la distribución Poisson pertenece a la familia exponencial en su forma
canónica.
Funciones de Enlace Canónicas
Si se elige una función de enlace tal que g (µi) = θi, entonces el predictor lineal
modela el parámetro canónico y la función se llama de enlace canónico. Esto se traduce
en una escala adecuada para el modelado con interpretación práctica para los parámetros
de regresión, tiene ventajas teóricas y simpli�ca el algoritmo de estimación.
Las funciones de enlace canónicas para algunas distribuciones de la familia expo-
nencial se presentan en la Tabla 2.1:
Notar que aunque las funciones de enlace canónicos proporcionan propiedades esta-
dísticas deseables, sobre todo para muestras chicas, no existe una razón a priori para que
los efectos sistemáticos del modelo sean aditivos en el intervalo dado por dichas funciones
(McCullagh y Nelder, 1989).
Para los modelos lineales clásicos la función de enlace se llama "identidad", debido
a que el predictor lineal es igual a la media. Dicha función es adecuada en el sentido de
que tanto η como µ pueden tomar valores en los reales.
18
2.3. Modelos Lineales Generalizados (MLG)
Tabla 2.1.: Funciones de enlace canónicasDistribución FunciónNormal Identidad: η = µPoisson Logarítmica: η = ln (µ)
Binomial Logística: η = ln(
π1−π
)= ln
(µ
m−µ
)Gamma Recíproca: η = 1
µ
Normal inversa Recíproca2: η = 1µ2
No obstante, cuando se trabaja, por ejemplo, con la distribución de Poisson (para
la cual µ > 0), la función identidad no debe utilizarse, porque η podría tomar valores
negativos dependiendo de los valores obtenidos para β. Esta distribución se utiliza cuando
se tienen datos de conteo dispuestos en tablas de contingencia que, bajo el supuesto
de independencia, conducen naturalmente a efectos multiplicativos (si la variable Xi
aumenta n unidades, la probabilidad para la variable de Poisson se multiplica por enβi).
Estos efectos pueden linealizarse a través de la función de enlace logarítmica, es decir,
η = ln (µ), de donde se obtiene µ = eη.
Para la distribución Binomial se tiene la restricción de que, la probabilidad de
éxito π, debe ser 0 < π < 1 y, por lo tanto, la función de enlace debe transformar el
intervalo [0, 1] en la recta real. Este es el caso de las funciones de enlace más comúnmente
encontradas, que además de la canónica son las funciones:
Probit: η = Φ−1 (π) = Φ−1( µm
)con Φ la función de distribución Normal Estándar
Complemeto log-log: η = ln [− ln (1− π)] = ln[− ln
(1− µ
m
)].
También se puede considerar la familia de funciones de enlace dada por
η = ln
[(1− π)−λ − 1
λ
],
donde λ es una constante desconocida. Esta familia tiene como casos particulares el
modelo logístico para λ = 1 y el complemento log-log para λ→ 0.
Otra familia importante, usada principalmente para datos con media positiva, es
19
2. Modelos Lineales Generalizados
la familia potencia dada por
η =
µλ−1λ si λ 6= 0
ln (µ) si λ = 0o también η =
µλ si λ 6= 0
ln (µ) si λ = 0
con λ una constante desconocida.
2.4. Estimación del Vector de Parámetros β
Existen dos métodos clásicos para estimar los parámetros desconocidos de un mo-
delo lineal general, uno es el de máxima verosimilitud y otro es el método de mínimos
cuadrados generalizados que, a su vez, tiene al método de mínimos cuadrados ponderados
como caso particular.
El ajuste de un modelo lineal generalizado se determina por el vector β de estima-
ciones de los parámetros. Para estimar los β's se usará el método de máxima verosimilitud
dado que en los casos que se van a trabajar en capítulos posteriores, la distribución de
la variable de respuesta se asume con distribución conocida.
Dado un vector de observaciones independientes y1, y2, . . . , yn, la función de ve-
rosimilitud cuanti�ca la posibilidad (o verosimilitud) de que estas hayan sido generadas
por el vector de parámetros β. Entonces, la función de verosimilitud L está dada por la
función de densidad conjunta de las variables aleatorias independientes Y1, Y2, . . . , Yn:
L (β | y) =n∏i=1
f (yi | θi) .
Para variables aleatorias provenientes de la familia exponencial, el logaritmo de la fun-
ción de verosimilitud para el conjunto de observaciones y1, y2, . . . , yn, es la suma de las
contribuciones individuales, es decir:
LL (θ | y) =n∑i=1
LL (θi | yi) =n∑i=1
log [L (θi | yi)] =n∑i=1
{1
ai (φ)[yiθi − b (θi)] + c (yi;φ)
}
El objetivo es encontrar el estimador de máxima verosimilitud (EMV), para lo cual
uno de los métodos más convenientes es el análisis de los máximos locales de la función.
20
2.4. Estimación del Vector de Parámetros β
Esto correspondería a resolver el sistema de ecuacionesUθ = dLLdθ = 0 o equivalentemente
en términos de los β's, Uβ = dLLdβ = 0. La familia exponencial posee ciertas propiedades
de regularidad que aseguran la existencia de una única solución al sistema y, por lo
tanto, de un máximo global para la verosimilitud (Fahrmeir y Kaufmannm, 1985). Se
tiene entonces que la función Uj , llamada función score, está dada por:
Uj =∂LL (θi | yi, φ)
∂βj=∂LLi∂βj
Siguiendo la regla de la cadena se tiene que:
Uj =n∑i=1
dLLidθi
dθidµi
dµidηi
∂ηi∂βj
=n∑i=1
1
ai (φ)
[yi − b′ (θi)
] 1
Vi
dµidηi
xij
Luego:
Uj =n∑i=1
(yi − µi)ai (φ)V (µi)
dµidηi
xij (2.3)
En general las ecuaciones Uj = 0, no son lineales y tienen que ser resueltas numé-
ricamente por Newton-Raphson. Para obtener una solución al sistema Uβ = dLLdβ = 0, se
utiliza una versión multivariada del método de Newton-Raphson:
β(M+1) = β(M) +
(I−10
)(M)U(M)
con β(M)y β(M+1), los vectores de los parámetros estimados en los pasos M y (M + 1),
respectivamente. U(M) es el vector de derivadas parciales de primer orden con elementos∂LL∂βj
, y(I−10
)(M)es la matriz de derivadas parciales de 2o orden con elementos −∂
2LL∂βj∂βk
,
ambos evaluados en el paso M.
Cuando las derivadas de 2o orden se obtienen fácilmente, este método es bastante
útil. Pero en el caso de los MLG esto no siempre ocurre, por lo que puede usarse el
método de score de Fisher, que es, en general, más simple y coincide con Newton-Raphson
cuando se trabaja con funciones de enlace canónicas. Este método consiste en sustituir la
matriz de derivadas parciales de 2o orden por la matriz de valores esperados de derivadas
parciales; esto es cambiar la matriz de información observada, I0, por la de información
esperada de Fisher, I. Luego:
β(M+1) = β(M) +
(I−1
)(M)U(M) (2.4)
21
2. Modelos Lineales Generalizados
con I dada por los elementos Ijk = E[−∂2L∂βj∂βk
]= E
[∂L∂βj
∂L∂βk
]= E (UjUk), que es la
matriz de covarianzas de los Uj 's.
De 2.3 se tiene:
Ijk =
n∑i=1
E (Yi − µi)2
[ai (φ)V (µi)]2
(dµidηi
)2
xijxik =
n∑i=1
E[(Yi − µi)2
][ai (φ)V (µi)]
2
(dµidηi
)2
xijxik
=
n∑i=1
V ar (Yi)
[ai (φ)V (µi)]2
(dµidηi
)2
xijxik =
n∑i=1
a (φ)V (µi)
[ai (φ)V (µi)]2
(dµidηi
)2
xijxik
=
n∑i=1
1
a (φ)V (µi)
(dµidηi
)2
xijxik
y haciendo ai (φ) = φwi, con φ > 0 constante, wi los pesos a priori y de�niendo Wi =
wiV (µi)
(dµidηi
)2, resulta:
I =1
φXtWX
donde cada elemento Ijk es Ijk =n∑i=1
1φxijWixik, siendo X la matriz del modelo y
W = diag (W1, W2, . . . , Wn) . (2.5)
Además, reordenando los términos de Uj :
Uj =n∑i=1
wi (yi − µi)φV (µi)
dµidηi
xij =n∑i=1
(yi − µi)φ
Wi
[dµidηi
]−1xij =
n∑i=1
1
φxijWi
dηidµi
(yi − µi)
por lo tanto el vector de scores es:U = 1φX
tW∆ (y − µ), con ∆ = diag{dη1dµ1
, dη2dµ2, ..., dηndµn
}=
diag {g′ (µ1) , g′ (µ2) , ..., g′ (µn)}.
Reemplazando I y U en 2.4:
I(M)β(M+1) =I(M)
β(M) + U(M)
1
φXtW(M)Xβ(M+1) =
1
φXtW(M)Xβ(M) +
1
φXtW(M)∆(M) (y − μ)(M)
XtW(M)Xβ(M+1) =XtW(M)[Xβ(M) + ∆(M) (y − μ)(M)
]y haciendo z(M) = Xβ(M)+∆(M) (y − μ)(M) = η(M)+∆(M) (y − μ)(M), llamada variable
22
2.4. Estimación del Vector de Parámetros β
dependiente ajustada, se tiene:
XtW(M)Xβ(M+1) = XtW(M)z(M)
Finalmente se obtiene:
β(M+1) =
[XtW(M)X
]−1XtW(M)z(M)
que es independiente de φ.
Para iniciar el proceso iterativo se suele especi�car una estimación inicial β(0), que
se actualiza sucesivamente hasta lograr la convergencia y que, por lo tanto, β = β(M+1).
Notar que cada observación se puede considerar como una estimación de su valor medio,
i.e. µi = yi, y por lo tanto ηi = g (µi) = g (yi). Usando η como variable independiente y
X, la matriz del modelo, se puede obtener la estimación inicial β(0).
El algoritmo de estimación puede ser resumido en los siguiente pasos:
1. Obtener las estimaciones
η(M)i =
p∑j=1
xijβ(M)j
µ(M)i = g−1
(η(M)i
)
2. Obtener la variable dependiente ajustada
z(M)i = η
(M)i +
(yi − µ(M)
i
)g′(µ(M)i
)y los pesos
W(M)i =
wi
V(µ(M)i
) [g′(µ(M)i
)]23. Calcular
β(M+1) =
[XtW(M)X
]−1XtW(M)z(M)
y repetir este proceso hasta lograr la convergencia.
23
2. Modelos Lineales Generalizados
Un criterio para veri�car la convergencia, entre otros, resulta de plantear:
p∑j=1
(β(M)j − β(M+1)
j
β(M)j
)2
< ξ
con ξ su�cientemente pequeño. En general, el algoritmo anterior es robusto, convergiendo
luego de unas pocas iteraciones (Demétrio, 2001).
Observación: La función g (·) puede no estar de�nida para algunos valores de yi.
A continuación se muestra un ejemplo de cómo proceder en este caso.
Por ejemplo, si la función de enlace estuviera dada por:
ηi = g (µ) = lnµ
y fueran observados valores yi = 0, el proceso no podría iniciarse. Un método para
solucionar este problema, es sustituir y por y + c, tal que E [g (Y + c)] esté lo más cerca
posible de g (µ). De forma general, usando la aproximación de Taylor hasta 2o orden para
g (y + c) en relación a g (µ), se tiene:
g (y + c) ≈ g (µ) + (y + c− µ) g′ (µ) + (y + c− µ)2g′′ (µ)
2
con valor esperado dado por:
E [g (y + c)] ≈ g (µ) + E (Y − µ) g′ (µ) + cg′ (µ) + V ar (Y )g′′ (µ)
2,
luego tomar:
c ≈ −1
2V ar (Y )
g′′ (µ)
g′ (µ).
2.4.1. Ejemplo del Algoritmo de Estimación
Una de las aplicaciones más comunes de los modelos antes descritos son los ensayos
del tipo dosis-respuesta. En la situación general, una droga determinada se administra
a k diferentes grupos de m1, m2, . . . , mk individuos, en dosis d1, d2, . . . , dk respecti-
vamente, obteniendo así una respuesta. Luego de un periodo especí�co, de cada grupo
y1, y2, . . . , yk individuos mudan de estado, es decir, ocurre un evento como, por ejem-
plo, la muerte o la cura de una enfermedad. Los datos resultantes de este tipo de ensayos
24
2.4. Estimación del Vector de Parámetros β
Tabla 2.2.: Número de insectos muertos (yi) sobre un total demi que recibieron una dosisdi de insecticida
Dosis (di) Total (mi) Muertos (yi) Proporción (pi)10,2 50 44 0,887,7 49 42 0,865,1 46 24 0,523,8 48 16 0,332,6 50 6 0,120,0 49 0 0,00
pueden ser considerados como provenientes de una distribución Binomial con probabili-
dad πi, que corresponde a la probabilidad de ocurrencia (éxito) de un evento, entonces
Yi ∼ Bin (mi, πi).
El objetivo de este tipo de experimentos es, en general, modelar la probabilidad
de éxito πi, en función de variables explicativas para luego determinar las dosis efectivas
DLp, que son aquellas que causan el cambio de estado en el p% de individuos (por
ejemplo, DL50, DL90).
En la Tabla 2.2 se encuentran los datos correspondientes a un ensayo de toxicidad
del la sustancia rotenona, que se utiliza como insecticida, en el cual dosis (di) del producto
fueron aplicadas a mi insectos (Macrosiphoniella sanborni, conocido como pulgón del
crisantemo) y luego de un determinado tiempo se contó la cantidad de insectos muertos
(yi).
Si se gra�can las proporciones de insectos muertos (pi = yi/mi) contra las dosis
(di), se puede ver cómo los puntos describen una curva de aspecto sigmoidal (Ver Figura
2.1), lo cual ayuda en la elección de un modelo para πi.
Si Yi ∼ Bin (mi, πi), del Ejemplo 2 se tiene que su f.d.p. en la forma exponencial
canónica es
f (yi;πi) = exp
{yi ln
(πi
1− πi
)+mi ln (1− πi) + ln
(mi
yi
)},
y que
ai (φ) = 1 θi = ln
(πi
1− πi
)→ πi =
eθi
1 + eθ
b (θi) = −mi ln (1− πi) = mi ln(
1 + eθi)
c (yi; φ) = ln
(mi
yi
).
25
2. Modelos Lineales Generalizados
De la primera ecuación se obtiene que φ = 1 y que wi = 1.
De las Ecuaciones 2.2 resulta
E (Yi) = µi = b′ (θi) = miπi
V ar (Yi) = ai (φ) b′′ (θi) = miπi (1− πi) =1
miµi (mi − µi)
Vi = V (µi) = b′′ (θi) =1
miµi (mi − µi) .
Adoptando la función de enlace canónica, que en este caso sería la función logística,
y el predictor lineal dado por una regresión simple, es decir
ηi = g
(µimi
)= ln
(µi
mi − µi
)= β1 + β2di
se tiene
µi = mig−1 (ηi) = mi
eηi
1 + eηi
dηidµi
=(mi − µi) + µi
(mi − µi)2mi − µiµi
=mi
µi (mi − µi)=
1
Vi.
La matriz del modelo X y el vector de parámetros β quedan como
X =
1 d1
1 d2
. . . . . .
1 dn
β = (β1, β2)t .
Siguiendo el algoritmo de estimación, la variable ajustada dependiente zi y los pesos Wi
serán
zi = ηi + (yi − µi)mi
µi (mi − µi)
Wi =wi
Vi (g′ (µi))2 = Vi,
26
2.4. Estimación del Vector de Parámetros β
luego
XtW =
[1 1 . . . 1
d1 d2 . . . dn
]W1 0 . . . 0
0 W2 . . . 0
. . . . . . . . . . . .
0 0 . . . Wn
=
[W1 W2 . . . Wn
W1d1 W2d2 . . . Wndn
]
XtWX =
n∑i=1
Wi
n∑i=1
Widi
n∑i=1
Widin∑i=1
Wid2i
,cuya inversa se puede calcular como
[XtWX
]−1=adj(XtWX
)det (XtWX)
=1
n∑i=1
Wi
n∑i=1
Wid2i −[n∑i=1
Widi
]2
n∑i=1
Wid2i −
n∑i=1
Widi
−n∑i=1
Widin∑i=1
Wi
.Además
XtWz =
n∑i=1
Wizi
n∑i=1
Widizi
.
Por lo tanto
β(M+1) =
[β(M+1)1
β(M+1)2
]
=1
det(XtW(M)X
)
n∑i=1
W(M)i d2i
n∑i=1
W(M)i z
(M)i −
n∑i=1
W(M)i di
n∑i=1
W(M)i diz
(M)i
n∑i=1
W(M)i
n∑i=1
W(M)i diz
(M)i −
n∑i=1
W(M)i di
n∑i=1
W(M)i z
(M)i
.
De esta manera, haciendo uso de esta fórmula recursiva y asistiéndose de un soft-
ware especí�co para facilitar los cálculos (en este caso la función glm de R), se llega a
las estimaciones de máxima verosimilitud de los parámetros β1 = −3, 23 y β2 = 0, 61, lo
que se traduce en el modelo de regresión logística estimado
p (d) =e−3,23+0,61d
1 + e−3,23+0,61d,
27
2. Modelos Lineales Generalizados
Figura 2.1.: Grá�co de las proporciones (pi) versus las dosis (di) junto a la curva deregresión logística estimada
Dado un valor para d, la dosis del insecticida, se obtiene la probabilidad estimada de
que un insecto muera cuando se le aplica dicha concentración. En la Figura 2.1 se puede
apreciar cómo la curva de regresión logística estimada se ajusta a los datos provenientes
del ensayo.
2.4.2. Propiedades y Distribución Muestral de β
Para modelos lineales que tienen variable respuesta con distribución normal, las
distribuciones de los estimadores de los parámetros y los estadísticos usados para la
veri�cación del ajuste del modelo pueden determinarse exactamente. Sin embargo, en ge-
neral, la obtención de distribuciones exactas es muy complicada y suelen usarse resultados
asintóticos. Estos resultados dependen de varias condiciones de regularidad (Fahrmeir y
Kaufmannm, 1985) y de los tamaños de las muestras. Si las observaciones son indepen-
dientes y provienen de distribuciones muestrales pertenecientes a la familia exponencial,
como es el caso de los MLG, estas condiciones se satisfacen.
La idea básica es que si θ es un estimador consistente para un parámetro θ y
V ar(θ)es su varianza, entonces, para muestras grandes, se tiene:
28
2.4. Estimación del Vector de Parámetros β
1. θ es asintóticamente insesgado.
2. El estadístico
Zn =θ− θ√V ar
(θ) n→∞−−−→ Z, con Z ∼ N (0, 1)
o equivalentemente
Z2n =
(θ− θ
)2V ar
(θ) n→∞−−−→ Z2, con Z2 ∼ χ2
1
Ahora, si θ es un estimador consistente para un vector θ de p parámetros, se tiene
asintóticamente: (θ− θ
)tV−1
(θ− θ
)∼ χ2
p
con V la matriz de covarianzas no singular. Si V es singular se debe usar una inversa
generalizada o bien realizar una reparametrización, con el �n de obtener una nueva matriz
de covarianzas no singular.
Algunas propiedades del estimador β son entonces:
I) Es asintóticamente insesgado, i.e., para muestras grandes, E(β
)= β.
Prueba: Supóngase que el logaritmo de la función de verosimilitud tiene un único
máximo en β, que es cercano al verdadero valor de β . La aproximación de Taylor
hasta los términos de primer orden para el vector score U(β
), en relación a β, y
sustituyendo la matriz de derivadas parciales por −I, está dada por:
U(β
)= U (β)− I
(β− β
)y como β es solución del sistema U
(β
)= 0, se obtiene que β − β = I−1U (β).
Entonces, como I es no singular:
E(β− β
)= I−1E [U (β)] = 0⇒ E
(β
)= β
porque E [U (β)] = 0. Por lo tanto, β es un estimador insesgado de β (por lo menos
asintóticamente).
29
2. Modelos Lineales Generalizados
II) Denotando U (β) = U, resulta que la matriz de varianzas de β, para muestras
grandes, está dada por:
Cov(β
)= E
[(β− β
)(β− β
)t]= I−1E
(UUt
) (I−1
)t= I−1II−1 = I−1
porque I = E[UUt
]y(I−1
)t= I−1, por ser una matriz simétrica.
III) Para muestras grandes, se tiene:(β− β
)tI(β− β
)∼ χ2
p
o, de forma equivalente:
β ∼ Np
(β, I−1
)que es la base para la construcción de tests e intervalos de con�anza para los
MLG. En el caso de tener variables de respuesta con distribución normal, las dos
ecuaciones anteriores son exactas.
Para muestras chicas, β es bastante sesgado. Además, para n no muy grande, la
estructura de las covarianzas de las estimaciones de los parámetros lineales di�ere de
I−1. La matriz I es consistentemente estimada por
I =1
φXtWX,
con φ constante y conocido, y W como en la Ecuación 2.5. Para las distribuciones Bi-
nomial y Poisson, se tiene que φ = 1. Si φ es constante para todas las observaciones
y desconocido, afectará la estructura asintótica de I−1 (con elementos vjk) pero no el
valor de β. En la práctica, si φ es desconocido, (para las distribuciones Normal y Normal
Inversa se tiene que φ = σ2, y φ = v−1 para la Gamma) debe ser sustituido por alguna
estimación consistente.
Los errores estándar de los estimadores β1, β2, . . . , βp son iguales a las raíces cua-
dradas de los elementos de la diagonal de I−1, es decir EE(βp
)=√vii. Entonces los
intervalos de con�anza asintóticos con un intervalo de con�anza del 95 % de probabilidad
para los parámetros βj 's, se obtienen como:
βj = Z1−α2±√vjj = 1,96±√vjj .
30
2.4. Estimación del Vector de Parámetros β
A partir de I−1, se puede calcular la correlación entre los βj 's de la siguiente
manera:
ρjk = ˆCorr(βj ; βk
)=
ˆCov(βj ; βk
)√
ˆV ar(βj
)ˆV ar(βk
) =vjk√vjjvkk
que permite veri�car, por lo menos aproximandamente, la interdependencia de los pará-
metros.
Ejemplo 4. Sea Y1, Y2, . . . , Yn una muestra aleatoria de una distribución N(µi, σ
2),
siendo que µi = xtiβ y σ2 > 0, conocido. Considerando como función de enlace la identi-
dad, i.e. ηi = µi, se tiene que
g′ (µi) =dηidµi
= 1
Además, V (µi) = 1, wi = 1 y, por consiguiente, Wi = 1. Luego, se tiene
I =1
φXtWX =
1
σ2XtX
y la variable independiente ajustada
zi = ηi + g′ (µi) (yi − µi) = µi + yi − µi = yi
Por lo tanto, el algoritmo de estimación es
1
σ2XtXβ =
1
σ2Xty
y como XtX tiene inversa, resulta
β =(XtX
)−1Xty
que es la solución usual de cuadrados mínimos para los Modelos Lineares Clásicos. En-
tonces
E(β
)=(XtX
)−1XtE (Y) =
(XtX
)−1XtXβ = β
31
2. Modelos Lineales Generalizados
y
Cov(β
)= E
[(β− β
)(β− β
)t]=(XtX
)−1XtE
[(Y −Xβ) (Y −Xβ)t
]X(XtX
)−1= σ2
(XtX
)−1= I−1,
porque E[(Y −Xβ) (Y −Xβ)t
]= Iσ2 y I = 1
σ2XtX.
Finalmente, (β− β
)tI(β− β
)∼ χ2
p
que es una ecuación exacta.
2.4.3. Métodos Bayesianos de Estimación
Los métodos clásicos (no Bayesianos) suponen que los parámetros están �jos y tie-
nen como objetivo encontrar procedimientos con propiedades deseables para estimarlos.
Usualmente, se imaginan realizaciones replicadas de los datos, lo cual supone que es su-
�ciente realizar inferencias sobre los parámetros basadas en lo que pudo haber pasado
(pero no pasó) y no en lo que sí sucedió (los datos observados).
El método Bayesiano, como los métodos clásicos de estimación, ve los datos como
una realización de una variable aleatoria, pero, a diferencia de estos, también ve a los
parámetros de un modelo como variables aleatorias, asignándoles una distribución a
priori que los caracteriza probabilísticamente. El Teorema de Bayes es utilizado para,
dados los datos, dar como resultado la distribución de probabilidad de los parámetros,
cantidad conocida como distribución a posteriori. El método realiza inferencias sobre los
parámetros basándose en esta distribución, condicional a los datos observados.
La distribución a priori de los parámetros se denota como f (θ), mientras que la
distribución de las variables aleatorias (de los datos) dados los parámetros es f (y | θ),
que es esencialmente la función de verosimilitud L (θ | y). Usando el Teorema de Bayes,
la distribución a posteriori de los parámetros resulta:
f (θ | y) =f (θ) f (y | θ)
f (y)∝ f (y | θ) f (θ) ,
32
2.5. Función Deviance y el Estadístico de Pearson χ2 Generalizado
siendo esta la base de la inferencia Bayesiana. Por ejemplo, la media a posteriori de los
β's es utilizada como una estimación puntual para la cual se pueden construir intervalos
de con�anza Bayesianos, también conocidos como intervalos de credibilidad, usando los
cuantiles de la distribución a posteriori.
Cuando se utilizan distribuciones a priori constantes o uniformes, es decir que todos
los parámetros tienen la misma probabilidad de ocurrir, la distribución a posteriori y la
verosimilitud se vuelven proporcionales f (θ | y) ∝ f (y | θ) = L (θ | y). Esto signi�ca
que, a pesar de las diferencias entre las �losofías subyacentes de los dos enfoques, en esta
situación los dos métodos tienden a ser similares para datos de su�ciente calidad.
Para los métodos de estimación Bayesiana, el hecho de considerar los parámetros
como provenientes de una distribución, y no como cantidades �jas, resulta de utilidad
cuando se consideran modelos con "efectos aleatorios". Es decir que, dado un parámetro,
en vez de suponer que su valor es igual para todas las muestras, se pueden considerar
que los valores de este parámetro para las diferentes muestras provienen de una misma
distribución subyacente pero con diferentes realizaciones.
La inferencia Bayesiana moderna utiliza a menudo métodos de integración numérica
para obtener las distribuciones a posteriori si el número de parámetros es chico. Para
ello se suele recurrir a métodos de simulación basados en Monte Carlo vía cadenas de
Markov (MCMC), los cuales pueden proveer fácilmente estimaciones para modelos con
los cuales sería demasiado complicado trabajar desde una perspectiva frecuentista, como
la de máxima verosimilitud.
2.5. Función Deviance y el Estadístico de Pearson χ2
Generalizado
Dada una distribución de la variable de respuesta y una función de enlace acorde,
el objetivo es determinar cuántos términos son necesarios en la estructura lineal para
una descripción razonable de los datos. Un gran número de variables explicativas (o
covariables) puede resultar en un modelo que explique bien los datos pero complejo de
interpretar. Por otro lado, un número pequeño puede llevar a una interpretación fácil
pero que se ajusta pobremente a los datos. Entonces, en la realidad lo que se busca es
un modelo intermedio.
33
2. Modelos Lineales Generalizados
Dadas n observaciones, se pueden ajustar modelos que contengan hasta n paráme-
tros. El modelo más simple es el modelo nulo o constante que tiene un único parámetro,
representado por un valor común a todos los datos. La matriz de este modelo se reduce
a un vector columna compuesto de 1's. El modelo nulo atribuye toda la variación entre
los y's al componente aleatorio.
En el otro extremo, se encuentra el modelo saturado o completo, que tiene n pa-
rámetros, uno por observación. Este modelo atribuye toda la variación al componente
sistemático y, por lo tanto, se ajusta perfectamente, reproduciendo los mismos datos.
Existen otros dos modelos limitantes pero menos extremos. Uno es el modelo mi-
nimal que incluye el menor número de parámetros necesarios para el ajuste.
Por otro lado, elmodelo maximal contiene el mayor número de términos que pueden
ser considerados. Los términos de estos modelos extremos son, en general, obtenidos por
interpretaciones a priori de la estructura de los datos.
En general, se suele trabajar con modelos encajados. Entonces, el conjunto de ma-
trices de los modelos puede ser construido por la adición sucesiva de términos al modelo
minimal hasta llegar al maximal. Cualquier modelo con p parámetros linealmente inde-
pendientes que esté entre los modelos minimal y maximal, es llamado modelo corriente
o subyacente. El problema es determinar la utilidad de adicionar un parámetro más al
modelo corriente y veri�car la falta de ajuste inducida por la omisión de este.
Para discriminar entre modelos se deben introducir medidas de discrepancia que
midan el ajuste de los mismos. Un ejemplo, es la deviance, propuesta por Nelder y
Wedderburn (1972) y dada por:
Sp = 2(LLn − LLp
),
con LLn y LLp los máximos del logaritmo de la función de verosimilitud para los modelos
saturado y corriente, respectivamente. Como se ve, el modelo saturado es utilizado como
base de la medida de ajuste de un modelo corriente.
Tomando ai (φ) = φwi, se tiene:
LLn =1
φ
n∑i=1
{wi
[yiθi − b
(θi
)]+ c (yi; φ)
}
34
2.5. Función Deviance y el Estadístico de Pearson χ2 Generalizado
y
LLp =1
φ
n∑i=1
{wi
[yiθi − b
(θi
)]+ c (yi; φ)
}con θi = θ (yi) y θi = θ (µi), las estimaciones de los parámetros canónicos para los
modelos saturado y corriente, respectivamente. Se tiene entonces
Sp =1
φ
n∑i=1
2wi
{yi
[θi − θi
]− b
(θi
)+ b
(θi
)}=
1
φDp
donde Sp es llamada deviance escalada, y Dp deviance. Se puede escribir también como
Sp =1
φ
n∑i=1
d2i
donde d2i es llamado componente de deviance y mide la diferencia de los logaritmos de
las funciones de verosimilitud observada y ajustada, para la observación correspondiente.
La suma de ellos mide la discrepancia total entre las dos funciones de verosimilitud. Es,
por lo tanto, una medida de distancia entre los valores ajustados (µ's) y los observados
(y's), es decir entre el modelo corriente y el saturado.
Se puede veri�car que la deviance equivale a una constante menos dos veces el
máximo de la función de verosimilitud para el model corriente, i.e. Sp = 2LLn− 2LLp =
c− 2LLp, con c una constante.
Ejemplo 5. Siguiendo el Ejemplo 4 de la sección anterior, se tiene
φ = σ2; wi = 1; θi = µi; b (θi) =θ2i2
=µ2i2.
Luego
Sp =1
σ2
n∑i=1
2
{yi [yi − µi]−
y2i2
+µ2i2
}=
1
σ2
n∑i=1
{2y2i − 2yiµi − y2i + µ2i
}=
1
σ2
n∑i=1
(yi − µi)2 =SQRes
σ2
donde SQRes es la suma de cuadrados residual con (n− p) grados de libertad.
Ejemplo 6. Suponer ahora que las Yi's son variables aleatorias que representan conteos
de sucesos en muestras independientes de tamañosmi. Suponiendo que Yi ∼ Bin (mi, πi),
35
2. Modelos Lineales Generalizados
Tabla 2.3.: Funciones deviances escaladas para algunas distribucionesDistribución Deviance Escalada
Normal Sp = 1σ2
n∑i=1
wi (yi − µi)2
Poisson Sp = 2n∑i=1
wi
[yi ln
(yiµi
)− (yi − µi)
]Binomial Sp = 2
n∑i=1
wi
[yi ln
(yiµi
)+ (mi − yi) ln
(mi−yimi−µi
)]Binomial Negativa Sp = 2
n∑i=1
wi
[yi ln
(yiµi
)+ (yi + k) ln
(yi+kµi+k
)]Gamma Sp = 2ν
n∑i=1
wi
[− ln
(yiµi
)+ yi−µi
µi
]Normal inversa Sp = 1
σ2
n∑i=1
wi(yi−µi)2yiµi
entonces
φ = 1; wi = 1; θi = ln
(πi
1− πi
)= ln
(µi
mi − µi
)y
b (θi) = mi ln(
1 + eθi)
= −mi ln (1− πi) = −mi ln
(mi − µimi
).
Luego,
Sp =n∑i=1
2
{yi
[ln
(yi
mi − yi
)− ln
(µi
mi − µi
)]+mi ln
(mi − yimi
)−mi ln
(mi − µimi
)}o
Sp = 2
n∑i=1
[yi ln
(yiµi
)+ (mi − yi) ln
(mi − yimi − µi
)].
Esta expresión es válida para 0 < yi < mi. Si yi = 0 el i-ésimo término de Sp debe
sustituirse por 2mi ln(
mimi−µi
), mientras que si yi = mi, debe sustituirse por 2mi ln
(miµi
).
En la Tabla 2.3 se encuentran las deviances (escaladas) para algunas distribuciones
de la familia exponencial. La deviance es siempre no negativa, y a medida que entran
covariables en el componente sistemático, decrece hasta volverse cero para el modelo
saturado. Cuanto mejor sea el ajuste del modelo menor será el valor de Sp. En la práctica,
se suelen buscar modelos simples con deviance moderada, situados entre los modelos más
complicados y aquellos que se ajustan pobremente a los datos.
36
2.5. Función Deviance y el Estadístico de Pearson χ2 Generalizado
Para testear la adecuación de un MLG, el valor para la deviance (con (n− p)grados de libertad, siendo p el rango de la matriz del modelo) debe ser comparado con
el percentil de alguna distribución de probabilidad de referencia. Para la distribución
Normal, asumiendo que el modelo usado es verdadero con σ2 conocido, se tiene
Sp =Dp
σ2∼ χ2
n−p
que es exacta.
Supóngase que el modelo usado es verdadero para la distribución Binomial, cuando
n es �jo y mi → ∞ ∀i (no vale cuando miπi (1− πi) es acotado) y para la distribución
Poisson, cuando µi →∞ ∀i entonces se tiene (para φ = 1)
Sp = Dp ∼ χ2n−p
En los casos que Sp dependa de φ (conocido), se muestra que
Sp ∼ χ2n−p, cuando φ→ 0,
es decir, cuando la dispersión es chica. En general, no se conoce el valor del coe�ciente
φ, y debe ser sustituido por una estimación consistente.
En la práctica se testean los MLGs sin demasiado rigor, comparando el valor Spcon los percentiles de la distribución χ2
n−p. De esta manera, en los casos que sea posible
obtener la aproximación de una χ2n−p, se tiene que si
Sp ≤ χ2n−p;α
puede considerarse que existen evidencias, a un nivel aproximado de 100α% de proba-
bilidad, que el modelo propuesto se ajuste bien a los datos. O, más aún, sabiendo que,
si Z ∼ χ2n−p, entonces E (Z) = (n− p), un valor de Sp cercano a (n− p) puede ser
evidencia de bondad de ajuste.
Otra medida de discrepancia en el ajuste de un modelo a un conjunto de datos es
el estadístico χ2 de Pearson generalizado, dado por:
χ2 =n∑i=1
wi(yi − µi)2
V (µi),
37
2. Modelos Lineales Generalizados
siendo V (µi) la función de varianza estimada bajo el modelo.
Para respuestas con distribución Normal se tiene χ2 = SQRes y
χ2
σ2∼ χ2
n−p,
que es exacta.
Para datos provenientes de distribuciones Binomial y Poisson, con φ = 1, χ2 es el
estadístico original de Pearson, que puede ser escrito como
χ2 =
n∑i=1
(Oi − Ei)2
Ei,
con Oi la frecuencia observada y Ei la esperada.
Para distribuciones no normales se pueden obtener sólo resultados asintóticos, es
decir, la distribución χ2n−p puede ser usada solamente como una aproximación que, en
muchos casos, puede ser pobre. Además, χ2 tiene como desventaja, el hecho de tratar
los yi's simétricamente. En muchos casos es preferida en relación a la deviance, por su
facilidad de interpretación.
Ejemplo 7. Siguiendo el ejemplo Binomial de la Sección 2.4.1 y la fórmula del Ejemplo 6,
se tiene que S2 = 10,26 = D2 (porque φ = 1) y χ2 = 9, 70 con 4 grados de libertad. Si se
inspecciona la tabla de distribuciones de χ24, se tiene que χ
24;0,05 = 9, 49 y χ2
4;0,01 = 13, 29,
lo que indica la existencia de evidencias, a un nivel de signi�cancia entre 5% y 1% de
probabilidad, de que el modelo logístico lineal se ajuste adecuadamente al conjunto de
datos. Es necesario, además del test de la hipótesis H0 : β2 = 0, un análisis de residuos
y de diagnósticos.
2.6. Estimación del Parámetro φ
Para las distribuciones Binomial y Poisson se tiene que φ = 1. Pero en otros
casos, como el de las distribuciones Normal y Normal Inversa (donde φ = σ2) y el de
la distribución Gamma (donde φ = v−1), este parámetro es desconocido, admitiéndose
igual para todas las distribuciones, es decir, constante. Es necesaria su estimación para
la obtención de los errores estándar de los β's (como se vio en la Sección 2.4.2), los
intervalos de con�anza y para los tests de hipótesis de los β's, entre otros usos.
38
2.7. Análisis de la Deviance
Uno de los métodos utilizados para la estimación de φ es el método de máxima
verosimilitud. Este método es siempre posible en teoría pero cuando no existe una solución
explícita puede tornarse insoluble computacionalmente.
Si φ es el mismo para todas las distribuciones, la estimación de máxima verosi-
militud de β es independiente de φ, pero este parámetro se encuentra involucrado en
la matriz de convarianzas de los β's. Dado y, se puede ver al logaritmo de la función
de verosimilitud LL (β, φ | y) como función de β y de φ, y así obtener la estimación de
máxima verosimilitud para φ haciendo
∂LL (β, φ)
∂φ= 0.
Por ejemplo, sea Y1, Y2, . . . , Yn una muestra aleatoria de una distribuciónN(µi, σ
2).
Entonces el logaritmo de la función de verosimilitud es
LL = −1
2
n∑i=1
(yi − µi)2
φ− n
2ln (2πφ)
cuya derivada con respecto a φ es
∂LL
∂φ=
1
2
n∑i=1
(yi − µi)2
φ2− n
2φ.
Igualando a 0 se obtiene
φ =1
n
n∑i=1
(yi − µi)2 =1
nDp.
Análogamente, para la distribución normal inversa se llega al mismo resultado.
Para el modelo normal, se veri�ca que la estimación de máxima verosimilitud para
φ es exacta. Para el caso de la distribución Gamma la estimación resulta no consistente,
y es necesario recurrir a otros métodos.
2.7. Análisis de la Deviance
El análisis de deviance tiene como objetivo obtener, a partir de una sucesión de
modelos (cada uno incluyendo más términos que los anteriores), los efectos de factores,
39
2. Modelos Lineales Generalizados
covariables y sus interacciones.
Sea Mp1 , Mp2 , . . . , Mpr una sucesión de modelos encajados de dimensiones res-
pectivas p1 < p2 < . . . < pr, matrices de los modelos Xp1 , Xp2 , . . . , Xpr y deviances
Dp1 > Dp2 > . . . > Dpr . Todos los modelos tienen la misma distribución y función de
enlace. Las deviances son utilizadas como medidas de discrepancia de los modelos y se
construye con ellas una tabla de diferencia de deviances. Estas desigualdades entre las
deviances, en general, no se veri�can para el estadístico χ2 de Pearson generalizado y,
por esta razón, la comparación de los modelos encajados se realiza, principalmente, a
través de la deviance.
Sean los modelos Mp y Mq con p < q parámetros. La estadística Dp − Dq con
(q − p) grados de libertad, es interpretada como una medida de la variación de los datos,
explicada por los términos que están en Mq y no en Mp, incluidos los efectos de los
términos en Mp, e ignorando los efectos de los términos que no están en Mq. Se tiene,
asintóticamente, para φ conocido, que
Sp − Sq =1
φ(Dp −Dq) ∼ χ2
q−p,
que es, simplemente, el test de razón de verosimilitudes (del que se hablará en la próxima
sección). Si φ es desconocido, se debe obtener una estimación φ consistente, preferen-
temente basada en el modelo maximal (con m parámetros), y realizar inferencias que
pueden ser basadas en el estadístico F , dado por
F =(Dp −Dq) / (q − p)
φ∼ Fq−p,n−m.
Para la distribución Normal, se tiene
(SQResp − SQResq) / (q − p)SQResm/ (n−m)
∼ Fq−p,n−m
que es exacta.
Ejemplo 8. Siguiendo el ejemplo Binomial de la Sección 2.4.1, se pueden proponer los
siguientes modelos encajados para analizar los datos:
1. Modelo nulo: ηi = β1.
2. Modelo de regresión lineal: ηi = β1 + β2di.
40
2.8. Tests de Hipótesis
En la siguiente tabla se presentan para cada modelo las deviances y sus respectivos grados
de libertad:
Modelo g.l. Deviances χ2
ηi = β1 5 163,74 135,70
ηi = β1 + β2di 4 10,26 9,70
χ24;0,05 = 9, 49; χ2
4;0,01 = 13, 29
Como se vio anteriormente, existen evidencias de que el modelo logístico lineal se
ajusta adecuadamente a los datos, a un nivel de signi�cancia entre 5% y 1%, pero se
rechaza el modelo nulo. Dadas las deviances de los modelos (D1 yD2, respectivamente) su
diferencia D1−D2 con 1 grado de libertad se interpreta como una medida de la variación
de los datos en términos de la regresión lineal, incluyendo el efecto del intercepto. En la
siguiente tabla se ve cómo se rechaza la hipótesis H0 : β2 = 0, que con�rma la adecuación
del modelo logístico lineal. Sin embargo, es necesario también un análisis de residuos y
de diagnósticos.
Causa de Variación g.l. Deviances P-valor
Regresión lineal 1 153,48 < 0, 0001
Residuo 4 10,26
Total 5 163,74
χ21;0,05 = 3, 84; χ2
1;0,01 = 6, 64
2.8. Tests de Hipótesis
Los métodos de inferencia para los MLGs se basan, principalmente, en la teoría
de máxima de verosimilitud. De acuerdo a ella, existen tres estadísticos para testear
hipótesis relativas a los parámetros β's, que son deducidos de distribuciones asintóticas
de funciones adecuadas de las estimaciones de los β′s. Estos son:
1. Razón de verosimilitudes
2. Wald
3. Score,
41
2. Modelos Lineales Generalizados
que son asintóticamente equivalentes y, bajo H0, para φ conocido, convergen a una va-
riable con distribución χ2p.
Cuando se tiene un vector de parámetros, muchas veces es de interés testear hi-
pótesis sólo sobre un subconjunto de ellos. Sea entonces una partición del vector de
parámetros dada por:
β =[βt1, β
t2
]tsiendo β1 el vector de interés de dimensión q, y β2 el vector nuisance de dimensión p− q.
Análogamente, se tiene la partición de la matriz del modelo X = [X1, X2], del
vector escore U = φ−1XtW4 (y − μ) =[Ut
1,Ut2
]tcon U1 = φ−1Xt
1W4 (y − μ), y de
la matriz de información de Fisher para β
I =1
φXtWX =
[I11 I12I21 I22
],
con I12 = It21.
Usando resultados conocidos de álgebra de matrices que involucran la partición de
matrices (Searle, 1982), se tiene, para muestras grandes, la varianza asintótica de β1:
V ar(β1
)=(I11 − I12I−122 I21
)−1= φ
[Xt
1W12 (I−H2)W
12X1
]−1,
con H2 = W12X2
(Xt
2W12X2
)−1Xt
2W12 .
Sean las hipótesis H0 : β1 = β1,0
Ha : β1 6= β1,0,
siendo β1,0 un valor especí�co para β1. Sea β =[βt
1, βt
2
]tel estimador de máxima ve-
rosimilitud para β sin restricción y β0 =[βt1,0, β
t
2,0
]t, con β2,0 el estimador de máxima
verosimilitud para β2, bajo H0. A continuación se de�nen los tests anteriormente men-
cionados para testear la hipótesis H0.
42
2.8. Tests de Hipótesis
2.8.1. Test de Razón de Verosimilitudes
Este test comprende la comparación de los valores del logaritmo de la función de ve-
rosimilitud maximizada sin restricción LL(β1, β2 | y
)y bajo la hipótesisH0
(LL(β1,0, β2,0 | y
)),
o, en términos de deviance, la comparación entre D (y | μ) y D(y | μ0
), donde μ0 =
g−1(η0
)y η0 = Xβ0.
Generalmente, este test, es utilizado en el caso de hipótesis relativas a varios coe-
�cientes β's. Si las diferencias son grandes, entonces, se rechaza H0. El estadístico para
este test está dado por:
Λ = −2 ln (λ) = 2[LL(β1, β2 | y
)− LL
(β1,0, β2,0 | y
)]=
1
φ
[D(y | μ0
)−D (y; μ)
].
Para muestras grandes, se rechaza H0, a un nivel de 100α% de probabilidad, si
Λ > χ2q,1−α.
2.8.2. Test de Wald
El test de Wald se basa en la distribución normal asintótica de β y es una generali-
zación del estadístico t de Student. Se usa generalmente en el caso de hipótesis relativas
a un solo coe�ciente βj .
Tiene como ventaja, en relación al test de razón de verosimilitudes, el hecho de no
requerir el calcular β2,0. Como fue visto en la Sección 2.4.2, asintóticamente se tiene:
β ∼ Np
(β, I−1
).
Por lo tanto, el estadístico para este test es
W =(β1 − β1,0
)t [ˆV ar(β1
)]−1 (β1 − β1,0
),
con ˆV ar(β1
)siendo V ar
(β1
)evaluada en β =
[βt
1, βt
2
]t.
Para muestras grandes, se rechaza H0, a un nivel del 100α% de probabilidad, si
W > χ2q,1−α.
43
2. Modelos Lineales Generalizados
2.8.3. Test Score
El test Score se obtiene a partir de la función score, siendo muy utilizado en Bio-
estadística. El estadístico para este test está dado por:
U = Ut1
(β0
)ˆV ar0
(β1
)U1
(β0
),
con ˆV ar0
(β1
)siendo V ar
(β1
)evaluada en β0 =
[βt
1,0, βt
2,0
]t.
Para muestras grandes, se rechaza H0, a un nivel del 100α% de probabilidad, si
U > χ2q,1−α.
Ejemplo 9. Supóngase que es de interés el test de hipótesis para el vector β como un
todo, es decir, se quiere testear las hipótesisH0 : β = β0
Ha : β 6= β0.
El vector β2 desaparece, entonces β1 = β (q = p), y se tienen las siguientes expresiones
para cada test:
1. Test de razón de verosimilitudes: Λ = −2 ln (λ) = 2[LL(β | y
)− LL
(β0 | y
)]=
1φ
[D(y | μ0
)−D (y | μ)
].
2. Test de Wald:W =(β− β0
)tI(β− β0
), con I la matriz de información de Fisher
evaluada en β.
3. Test Score: U = Ut(β0
)I−10 U
(β0
), con I0 la matriz de información de Fisher
evaluada en β0.
La utilización de la matriz de información puede tener un efecto signi�cativo en el po-
der de los tests para muestras �nitas. Su uso resulta inapropiado ya que no representa
correctamente a la función de verosimilitud, en contraposición con el test de razón de
verosimilitudes que sí lo hace (Buse, 1982).
Ejemplo 10. Sea Y1, Y2, . . . , Yn una muestra aleatoria de una distribución N(µ, σ2
)con µ desconocido y σ2 conocido. Visto como un MLG, se tiene:
1. Un único parámetro de interés, µ.
44
2.8. Tests de Hipótesis
2. Ninguna variable explicativa.
3. La función de enlace es la identidad: η = µ.
El logaritmo de la función de verosimilitud es
LL = LL (µ | y1, . . . , yn) = − 1
2σ2
n∑i=1
(yi − µ)2 − n
2ln(2πσ2
),
a partir de lo que se obtiene:
U =dLL
dµ=
1
σ2
n∑i=1
(yi − µ) =n
σ2(y − µ) ,
E (U) =n
σ2[E(Y)− µ
]= 0
y
I = V ar (U) =n2
(σ2)2V ar
(Y)
=n2
(σ2)2σ2
n=
n
σ2.
Por lo tanto,
U = U tI−1U =n2(Y − µ
)2(σ2)2
σ2
n=
(Y − µ
)2σ2
n
∼ χ21.
Este resultado puede usarse para obtener intervalos de con�anza para µ.
Ejemplo 11. Sea Y ∼ Bin (m,π), entonces el logaritmo de la función de verosimilitud
será
LL (π | y) = ln
(m
y
)+ y ln (π) + (m− y) ln (1− π) ,
que tiene función score
U =dLL
dπ=y
π− m− y
1− π=
y −mππ (1− π)
.
45
2. Modelos Lineales Generalizados
Pero, como E (Y ) = µ = mπ y V ar (Y ) = mπ (1− π) = 1mµ (m− µ), será
E (U) =E (Y )−mππ (1− π)
= 0
I = V ar (U) =V ar (Y )
π2 (1− π)2=
m
π (1− π).
Luego,
U = U tI−1U =(Y −mπ)2
π2 (1− π)2π (1− π)
m=
(Y −mπ)2
mπ (1− π)=
[Y − E (Y )]2
V ar (Y )
que, según el Teorema del Límite Central, sigue una distribución χ21, o lo que es equiva-
lente a decir queY − E (Y )√V ar (Y )
=
√m (Y − µ)√µ (m− µ)
converge en distribución a N (0, 1).
Este resultado puede ser utilizado para realizar inferencias con respecto a µ.
2.9. Intervalos de Con�anza
Se pueden construir intervalos de con�anza asintóticos para β1 usando cualquiera
de los estadísticos de los tests anteriores.
A partir del estadístico del test de razón de verosimilitudes, una región de con�anza
para β1, con un coe�ciente de con�anza de 100 (1− α) %, incluye todos los valores de
β1 tales que
2[LL(β1, β2 | y
)− LL
(β1, β2,1 | y
)]< χ2
q,1−α,
con β2,1 la estimación de máxima verosimilitud de β2 para cada valor de β1 que es
testeado si pertenece, o no, al intervalo.
Usando el estadístico de Wald, una región de con�anza para β1, con un coe�ciente
de con�anza de 100 (1− α) %, incluye todos los valores de β1 tales que(β1 − β1
)t [ˆV ar(β1
)]−1 (β1 − β1
)< χ2
q,1−α.
46
2.10. Técnicas para la Veri�cación del Ajuste de un Modelo a un Conjunto de Datos
2.10. Técnicas para la Veri�cación del Ajuste de un
Modelo a un Conjunto de Datos
En la práctica, puede suceder que, después de haber elegido cuidadosamente las
variables de un MLG y haber ajustado el modelo a un conjunto de datos los resultados
no sean satisfactorios. Esto podría ocurrir a causa de algún desvío sistemático entre los
valores observados y los ajustados, o porque uno o más datos son discrepantes en relación
a los demás.
Los desvíos sistemáticos suelen ser provocados por una elección inadecuada de la
función de varianza, la función de enlace, de la matriz del modelo, o por la de�nición
errónea de la escala de la variable dependiente o de las covariables.
Las discrepancias aisladas pueden ocurrir porque los puntos están en los extremos
de la amplitud de validez de la covariable, porque son realmente erróneos debido a una
lectura o transcripción mal realizada, o, por otro lado, porque algún factor no controlado
in�uenció su obtención.
Comúnmente, lo que suele ocurrir, es una combinación de diferentes tipos de fallas,
por lo que la veri�cación de la adecuación de un modelo a un conjunto de datos resulta
un proceso complejo.
Las técnicas usadas para este �n se dividen en informales y formales. Las técnicas
informales se basan en la examinación visual de grá�cos para la detección de patrones o
de puntos discrepantes. Por otro lado, las técnicas formales involucran anidar el modelo
subyacente en una clase mayor, a través de la inclusión de un parámetro (o vector de
parámetros) extra γ. Las técnicas más usadas se basan en los tests de razón de verosimili-
tudes y score. Los parámetros extras pueden aparecer en varias situaciones como cuando
se incluye una covariable adicional o para realizar el test de adecuación de la función de
enlace.
2.11. Análisis de Residuos y Diagnósticos
2.11.1. Introducción
Si las hipótesis del modelo son violadas, el análisis resultante puede llevar a resul-
tados poco con�ables. Este tipo de violaciones al modelo son llamadas fallas sistemáticas
47
2. Modelos Lineales Generalizados
(no-linealidad, no-normalidad, heterocedasticidad, no-independencia, etc.). Por otro la-
do, puede suceder que, a pesar de haber escogido correctamente un modelo, el resultado
sea insatisfactorio debido a la presencia de puntos atípicos, consideradas como fallas
aisladas, que pueden in�uenciar (o no) el ajuste del modelo. Este tipo de fallas pueden
surgir de varias maneras como:
Errores groseros en la variable de respuesta o en las variables explicativas, debido
a medidas erróneas en el registro de una observación o en su transcripción.
Observación proveniente de condiciones distintas a las demás.
Modelo mal especi�cado (falta una o más covariables, modelo inadecuado, etc.).
Uso de una escala incorrecta. Algunos datos puede ser mejor descriptos luego de
una transformación, por ejemplo, del tipo logarítmica o raíz cuadrada.
La parte sistemática del modelo y la escala son correctos pero la de la distribución
de la variable de respuesta tiene una cola más larga que la distribución normal.
Dado un conjunto de observaciones a las que se ha ajustado un modelo determinado,
para veri�car sus hipótesis deben considerarse:
Los valores estimados (o ajustados) µi.
Los residuos ri = yi − µi.
Una estimación consistente del parámetro φ.
La matriz de proyección H = W12X(XtWX
)−1XtW
12 .
Los elementos de la diagonal de H son conocidos como leverage. Puede demostrarse que:
V−12 (µ− µ) ∼= HV−
12 (Y − µ) ,
conV = diag {V (µi)}. Esto muestra queHmide la in�uencia en unidades estudentizadas
de Y sobre µ.
2.11.2. Tipos de Residuos
Los residuos tienen un papel fundamental en la veri�cación del ajuste de un modelo.
Los tipos de residuos más utilizados para los MLG son:
48
2.11. Análisis de Residuos y Diagnósticos
a) Residuos ordinarios: ri = yi − µi.
b) Residuos de Pearson generalizados:
rPi =yi − µi√φwiV (µi)
,
con φ una estimación consistente del parámetro φ y wi un peso a priori (igual a 1
en la mayoría de los casos).
c) Residuos de Pearson generalizados internamente estudentizados:
rP′
i =yi − µi√
φwiV (µi) (1− hi)
,
con los hi elementos de la diagonal de la matriz H.
d) Componentes de deviance:
rDi = signo (yi − µi)√
2wiφ
[yi
(θi − θi
)+ b
(θi
)− b
(θi
)].
e) Componentes de deviance estudentizados internamente:
rD′
i =rDi√
φ (1− hi).
f) Componentes de deviance estudentizados externamente (jackknifed residual o de-
letion residuals):
rD∗
i = signo (yi − µi)√
(1− hi)(1rD
′i
)2+ hi
(1rP
′i
)2,
donde el índice 1 signi�ca 1ª iteración.
2.11.3. Tipos de Grá�cos
a) Residuos vs. alguna función de los valores ajustados: Se recomienda gra�car algún
tipo de residuo estudentizado contra ηi, o sino, contra los valores ajustados trans-
formados de tal forma que tengan varianza constante para la distribución en uso.
49
2. Modelos Lineales Generalizados
Tabla 2.4.: Distribuciones y sus funcionesDistribución FunciónNormal µiPoisson 2
õi
Binomial 2 arcsin (µi/mi)Gamma 2 ln (µi)
Normal Inversa −2µ−1/2i
En la Tabla 2.4 se muestra la función usada para cada distribución. El modelo nulo
de este grá�co es una distribución de los residuos en torno al cero con amplitud
constante. Algunos desvíos sistemáticos pueden presentar algún tipo de curvatura
o, sino, cambios sistemáticos de amplitud con el valor ajustado. No tiene signi�cado
para datos binarios (Bernoulli).
b) Residuos vs. variables explicativas no incluidas: Puede mostrar si existe relación
entre los residuos del modelo ajustado y una variable aún no incluida en el modelo.
Una alternativa mejor a este grá�co es el grá�co de variable agregada (added varia-
ble plot). El modelo nulo para este grá�co muestra una distribución de los residuos
en torno al cero con amplitud constante.
c) Residuos vs. variables explicativas ya incluidas: Puede mostrar si hay una relación
sistemática entre los residuos y una variable ya incluida en el modelo. Una alter-
nativa mejor a esto es el grá�co de residuos parciales (partial residual plot). El
modelo nulo para este grá�co es una distribución aleatoria de media 0 y amplitud
constante.
d) Grá�co de variable agregada o de regresión parcial (added variable plot): Inicialmen-
te, se ajusta el modelo con predictor lineal η = Xβ. Después, se hace el grá�co de
W−1/2s versus (I−H)W−1/2u, siendo s el vector con elementos si = yi−µiai(φ)V (µi)
dµidηi
.
Aquí, W−1/2s representa el vector de elementos yi−µi√ai(φ)V (µi)
(residuo de Pearson
generalizado de regresión ponderada de Y en relación a X con matriz de pesos W)
y (I−H)W−1/2u representa los residuos de regresión ponderada de u en relación
a X con matriz de pesos W.
e) Grá�co de residuos parciales o grá�co de residuos más componente (partial residual
plot): Inicialmente, se ajusta el modelo con predictor lineal β = Xβ+γu, obteniendo
W−1s y γ. A continuación, se hace el grá�co de W−1s + γu contra u.
50
2.12. Veri�cación de la Función de Enlace
f) Grá�cos de índices: Sirven para localizar observaciones con residuo, leverage (h),
distancia de Cook modi�cada, etc., grandes.
g) Grá�co normal y semi-normal de probabilidades (normal plot y half-normal plot):
El grá�co normal de probabilidades se puede utilizar para identi�car la distribución
de origen de los datos y aquellos valores que se destacan del conjunto (Weisberg,
2005). Sea una muestra aleatoria de tamaño n y los valores ordenados de un cierto
estadístico de diagnóstico (residuos, distancia de Cook, h, etc.), d(1), d(2), . . . , d(n),
llamados estadísticos de orden. La idea general es que si los valores de una muestra
provienen de una distribución normal estándar, los estadísticos de orden y sus co-
rrespondientes valores para esta muestra, llamados estadísticos de orden esperados,
deberían estar linealmente relacionados. El grá�co entre los dos conjuntos de valores
debería ser, aproximadamente, una recta. El grá�co semi-normal de probabilidades
utiliza los estadísticos de orden absolutos∣∣d(i)∣∣. Se sugiere utilizar el grá�co normal
de probabilidades para los residuos y el semi-normal para medidas positivas como
el leverage y la distancia de Cook modi�cada (McCullagh y Nelder, 1989).
h) Valores observados o residuos versus tiempo: Aunque el tiempo no sea una varia-
ble incluida en el modelo, grá�cos de respuesta (Y ) o de residuos versus tiempo
deben ser realizados siempre que sea posible. Este tipo de grá�cos puede llevar a la
detección de patrones no sospechados, debidos al tiempo o, sino, a alguna variable
altamente correlacionada con él.
2.12. Veri�cación de la Función de Enlace
Un método informal para esta veri�cación es el grá�co de la variable dependiente
ajustada z contra el predictor lineal estimado η. Su modelo nulo es una recta. Se puede
utilizar también el grá�co de variable agregada, tomando u = η2, donde el modelo nulo
indicará que la función de enlace es adecuada.
Para funciones de enlace de la familia potencia, una curvatura hacia arriba en la
grá�ca indica que debe usarse una función de enlace con exponente mayor; en cambio,
una curvatura hacia abajo indica un exponente menor. Este tipo de grá�cos no sirve para
datos binarios.
Existen dos métodos formales para la veri�cación de adecuación de la función de
enlace usada:
51
2. Modelos Lineales Generalizados
1. El método más simple consiste en agregar η2como covariable extra y examinar el
cambio ocurrido en la deviance o lo que equivale al test de razón de verosimilitudes.
Si ocurre una disminución drástica, se tiene evidencia de que la función de enlace
es insatisfactoria. Se puede utilizar, también, el test score.
2. El otro método consiste en indexar la familia de enlaces por un parámetro λ y hacer
un test de hipótesis H0 : λ = λ0. Para esto pueden ser usados los tests de razón de
verosimilitudes y score.
La veri�cación de adecuación de la función de enlace es, inevitablemente, afectada por
una elección inadecuada de escalas para las variables explicativas del predictor lineal. En
particular, si el test formal construido para la adición de η2 al predictor lineal presenta
un desvío con respecto al modelo, esto puede indicar una pobre elección de la función de
enlace o que las escalas para las variables explicativas no son las correctas, o ambas. La
existencia de puntos atípicos también puede afectar la elección de la función de enlace.
2.13. Veri�cación de la Función de Varianza
Un método informal para testear la adecuación de la función de varianza (que es
de�nida al elegir una distribución determinada) es el grá�co de residuos absolutos contra
los valores ajustados transformados en una escala con varianza constante (como el que
se describió en el item (a) de la Sección 2.11.3). El modelo nulo para este grá�co es una
distribución aleatoria de media 0 y amplitud constante. Una elección inadecuada de la
función de varianza mostrará una tendencia en la media. En general una no adecuación
de la función de varianza será tratada como sobredispersión.
Análogamente a lo realizado en la sección anterior, un método formal consiste
en indexar la función de varianza por un parámetro λ y hacer un test de la hipótesis
H0 : λ = λ0. Para esto pueden ser usados los tests de razón de verosimilitudes o score.
De esta manera, por ejemplo, se puede usar V (µ) = µλ, y observar como el ajuste varía
en función de la variación de λ. En general, se usa el método de per�l de verosimilitud
para estimar λ.
Para la comparación de ajustes con diferentes funciones de varianza no puede ser
usada la deviance, en cambio, es necesario usar la teoría de cuasi-verosimilitud extendida.
52
2.14. Veri�cación de las Escalas de las Covariables
La veri�cación de adecuación de la función de varianza puede ser afectada por una
elección inadecuada de escalas para las variables explicativas del predictor lineal, por una
mala elección de la función de enlace y por puntos atípicos.
2.14. Veri�cación de las Escalas de las Covariables
El grá�co de residuos parciales es una herramienta importante para saber si un
término βx del predictor lineal puede ser mejor expresado como βh (x; λ) para alguna
función monótona h (· ; λ). Para los MLGs, el residuo parcial es de�nido por:
u = z − η + γx,
con z la variable dependiente ajustada, η el predictor lineal ajustado y γ la estimación
del parámetro para la variable explicativa x.
El grá�co de u contra x proporciona un método informal. Si la escala de x es
satisfactoria, el grá�co debe ser aproximadamente lineal. En caso contrario, su forma
puede sugerir un modelo alternativo. Sin embargo, pueden ocurrir distorsiones si las
escalas de las otras variables explicativas no fueran adecuadas, siendo necesario analizar
los grá�cos de residuos parciales para varios x's.
Un método formal consiste en colocar x en una familia z (·; λ) y luego calcular la
deviance para un conjunto de valores de λ y determinar λ como aquel valor que toma
deviance mínima (método de per�l de verosimilitud). El ajuste para λ será entonces
comparado con el ajuste para el valor inicial λ0, que suele ser 1. Este procedimiento
puede ser usado simultáneamente para varios x's y es particularmente útil cuando se
tienen las mismas dimensiones físicas, tal que es necesaria una transformación común.
La familia más común de transformaciones es la familia de Box-Cox (1964) dada por
h (x; λ) =
xλ−1λ para λ 6= 0
ln (x) para λ = 0.
Un método informal para el estudio de una única covariable es incluir como variable
adicional a u (λ0) = dz(λ)dλ
∣∣∣λ=λ0
para el test de adecuación de la escala para la variable
explicativa de interés. Se puede recurrir entonces a un grá�co de residuos parciales como
fue visto en el ítem 5 de la Sección 2.11.3.
53
2. Modelos Lineales Generalizados
Esa misma variable construida u puede utilizarse como una variable adicional en
el modelo para el test de la hipótesis H0 : λ = λ0 (que equivale al test de H0 : γ = 0)
que, si no es rechazada, indicará que la escala escogida es adecuada para la covariable
explicativa de interés.
Ejemplo 12. Transformación para la variable dependiente. Sea la familia de
transformaciones de Box-Cox normalizada
z (λ) = Xβ+ ε =
yλ−1λyλ−1 para λ 6= 0
y ln (y) para λ = 0
siendo y la media geométrica de las observaciones. La expansión de z (λ) en una serie de
Taylor en relación a λ0, conocido, está dada por:
z (λ) ∼= z (λ0) + (λ− λ0)u (λ0) ,
con u (λ0) de�nida como antes. Entonces,
z (λ0) = z (λ)− (λ− λ0)u (λ0) + ε = Xβ+ γu + ε.
Pero z (λ) = yλ−1λyλ−1 y, por lo tanto,
u (λ) =dz (λ)
dλ=yλ ln (y)−
(yλ − 1
) (λ−1 + ln (y)
)λyλ−1
.
El interés en general está en testear algunos valores de λ como, por ejemplo, λ0 = 1
(sin transformación) y λ0 = 0 (la transformación logarítmica). Como sólo se necesitan los
residuos de u (λ), si β contiene una constante, entonces se pueden ignorar todas las con-
tantes. Entonces, las variables construidas para testear λ0 = 1 y λ0 = 0, respectivamente,
serán
u (1) = y
[ln
(y
y
)− 1
]u (0) = y ln (y)
[ln (y)
2− ln (y)
].
Como −γ = λ−λ0, se tiene que una estimación para λ puede ser obtenida a partir
de λ = λ0− γ. Se usa en general un valor de λ cercano a λ que posea una interpretación
práctica.
54
2.15. Selección de Modelos
Ejemplo 13. Transformación para las variables explicativas. Si en lugar de trans-
formar y hubiera necesidad de transformar xj′ , se propone la siguiente familia:
z (λ) =∑j 6=j′βjxj + βj′x
λj′ = E (Y) .
Análogamente al ejemplo anterior, expandiendo z (λ) en una serie de Taylor con
respecto a λ0, conocido, resulta:
z (λ) ∼=∑j 6=j′βjxj + βj′x
λ0j′ + βj′ (λ− λ0)x
λ0j′ lnxj′ =
∑j 6=j′βjxj + βj′x
λ0j′ + γu (λ0) ,
porque dz(λ)dλ∼= βj′xλj′ lnxj′ , Entonces testear la hipótesis λ = λ0 es equivalente a testear
γ = 0 para la regresión con la variable construida u (λ0) = βj′xλ0j′ lnxj′ , con x
λ0j′ ya en el
modelo.
Para λ0 = 1 se tiene:
E (Y ) =∑j 6=j′βjxj + βj′x
λj′ + βj′ (λ− 1) lnxj′ = Xβ+ γu,
con u (λ) = xj′ lnxj′ .
Ejemplo 14. Transformación simultánea para las variables respuesta y expli-
cativas. Para la transformación simultánea de las variables respuesta y explicativas a
una misma potencia (excepto la constante 1λ = 1), la variable construida u (λ0) para
λ0 = 1 es:
u (1) =
p∑j=2
βjxj lnxj − y[ln
(y
y
)− 1
].
2.15. Selección de Modelos
Muchas veces se tiene como objetivo realizar inferencias para un modelo particu-
lar con una estructura de parámetros especí�ca, la cual representa una hipótesis sobre
el sistema biológico en estudio. Sin embargo, en otros casos se pueden considerar múl-
tiples hipótesis, de las cuales se desprende un conjunto de modelos candidatos del que
se debe elegir el "mejor" con respecto a los datos observados. Una cuestión importante
55
2. Modelos Lineales Generalizados
es determinar cómo se realiza esta elección, para recién luego poder presentar buenas
estimaciones de los parámetros con respecto al modelo seleccionado.
Burnham y Anderson (2003) sugieren al Criterio de Información de Akaike (AIC)
como el mejor enfoque para la selección de modelos y la inferencia multi-modelo.
La mayoría de los métodos de selección están basados en cierta medida en el prin-
cipio de parsimonia, que se puede interpreta como que "Entre hipótesis que compiten,
se debe seleccionar aquella con la menor cantidad de supuestos". Estadísticamente, este
principio se puede ver como el balance entre el sesgo y la precisión. En general, cuando la
dimensión de un modelo (el número de parámetros) aumenta, el sesgo de las estimaciones
de los parámetros decrece, mientras que su varianza crece. Los modelos parsimoniosos
son aquellos que logran un balance perfecto entre el sesgo y la varianza.
Criterio de Información de Akaike
El método de AIC está basado en la verosimilitud pero con una penalización agre-
gada para incentivar la parsimonia, es decir buscar el modelo con la menor cantidad de
parámetros necesaria. El objetivo es comparar un conjunto de modelos, no necesariamen-
te anidados, y elegir aquel que minimice:
AIC = −2LL (θ | y) + 2δ
donde δ es el número de parámetros estimados en el modelo. La magnitud absoluta de
AIC no es relevante, sino que el enfoque de la selección de modelos está en las diferencias
de AIC entre los diferentes modelos. Usualmente, todos los modelos son comparados con
el modelo de menor AIC, construyendo una tabla de diferencias de AIC. Entonces, para
un modelo particular k, esta diferencia será:
∆AICk = AICk −AICmin.
Burnham y Anderson (2003) proponen como regla general que todos los mode-
los dentro de las 2 unidades de AIC, con respecto al "mejor" modelo, tienen un nivel
sustancial de soporte empírico.
Los valores ∆AICk forman la base de los pesos wi de AIC normalizados (no
56
2.15. Selección de Modelos
confundir con los pesos de la función de verosimilitud):
wk =exp
(−1
2∆AICk)
R∑r=1
exp(−1
2∆AICr)
para un conjunto de R modelos. Cada peso wk se interpreta como "el peso de la evidencia
en favor de que el modelo k sea el mejor modelo". La suma de todos los pesos de AIC
da como resultado 1, lo que lleva a interpretar (heurísticamente) a cada peso wk como la
probabilidad de que el modelo k sea el "mejor" modelo entre los candidatos (Burnham
y Anderson, 2004).
Cuando varios modelos entre los candidatos poseen una característica en común
(por ejemplo, diferentes formulaciones para una misma hipótesis, o contienen el mis-
mo factor o covariable), una manera de determinar el nivel global de soporte de esta
característica es sumando los pesos de estos modelos.
Cuando hay demasiados parámetros en relación al tamaño de la muestra, el valor
AIC puede no ser adecuado, por lo que se recomienda corregir el criterio de la siguiente
manera:
AICC = AIC +2δ (δ + 1)
n− δ − 1,
donde n es el tamaño de muestra efectivo y δ el número de parámetros. Salvo que el
tamaño de la nuestra sea lo su�ciente grande en relación al número de parámetros (n/δ ≥40), se recomienda el uso de AICC (Burnham y Anderson, 2003). Sin embargo, la noción
del tamaño de muestra no siempre es clara, como es el caso de los modelos de ocupación
que serán estudiados en el siguiente capítulo. De hecho, el "tamaño de muestra efectivo"
puede variar para diferentes parámetros del modelo, por ejemplo ser diferente para las
probabilidades de ocupación y detección. Debido a este dilema, cuando no es obvio qué
se debe considerar como "tamaño de muestra efectivo", se suele utilizar simplemente
el criterio de AIC (MacKenzie, 2006). El efecto de esta elección es que modelos más
complejos (es decir, con más parámetros) podrían ubicarse más alto en el ranking de lo
que deberían.
Sobredispersión y Cuasi-AIC
En modelos con sobredispersión, la media o la estructura de la esperanza del modelo
es adecuada, pero la estructura de la varianza es inadecuada. Una abordaje es pensar
57
2. Modelos Lineales Generalizados
a la estructura de varianza verdadera siguiendo la forma α (θ)V ar (θ); sin embargo, es
complicado ajustar esta forma. Se puede simpli�car el planteo anterior tomando α (θ) = c
con c una constante, dando una estructura de varianza verdadera cV ar (θ).
Un método común para la estimación de sobredispersión es utilizar el estadístico
de Pearson χ2 del modelo global (el más general, aquel con más parámetros) dividido
por sus grados de libertad:
c =χ2
g.l..
Si no existe sobredispersión o falta de ajuste, entonces c debe ser igual a 1, y c
debería ser aproximadamente 1 (porque el valor esperado del estadístico es igual a sus
grados de libertad).
La sobredispersión es muy común en el modelado de datos ecológicos, por lo que
es necesario tenerla en cuenta en el criterio de selección de modelos. Los criterios AIC y
AICC se pueden modi�car para la sobredispersión (c) como
QAIC =−2LL (θ | y)
c+ 2δ
QAICC = QAIC +2δ (δ + 1)
n− δ − 1.
Una vez que QAIC o QAICC se calculan, las estimaciones empíricas de las va-
rianzas y covarianzas pueden obtenerse multiplicando por c las varianzas y covarianzas
teóricas del modelo. Notar que, aunque c es estimado en base al modelo global, se usa-
rá para estimar las varianzas y covarianzas de los parámetros de todos los modelos del
conjunto.
Estimaciones Promedio
En muchas situaciones ecológicas, no resulta tan evidente cuál es el "mejor" mo-
delo entre los candidatos, pudiéndose considerar varios modelos como razonables. En vez
de elegir un sólo modelo del cual hacer inferencias, se pueden usar estimaciones prove-
nientes de múltiples modelos, calculado las que se denominan estimaciones promedio. En
este caso, los pesos de AIC de los modelos candidatos son utilizados para obtener un
promedio pesado de las estimaciones de los parámetros. Para un conjunto de R modelos,
58
2.15. Selección de Modelos
el estimador promedio es:
θP =R∑r=1
wrθr.
Considerando la incertidumbre de los modelos, la estimación de la varianza del
estimador promedio es:
V ar(θP
)=
[R∑r=1
wr
√V ar
(θr |Modr
)+(θr − θP
)2]2,
donde V ar(θr |Modr
)es la varianza de la estimación obtenida del modelo r condi-
cional a este. La segunda componente de la varianza corresponde a la incertidumbre de
los modelos, representada como la diferencia entre la estimación de cada modelo y la
estimación promedio.
59
3. Modelos de Ocupación
La presencia o ausencia de una especie dentro de una colección de unidades de
muestreo es un concepto básico utilizado ampliamente en estudios ecológicos. Hacia �nes
del siglo pasado la mayoría de los estudios relacionados con programas de monitoreo
de especies se basaban en la estimación de la abundancia, las tasas de nacimiento, las
probabilidades de supervivencia y otros parámetros demográ�cos, principalmente obte-
nidos de datos de captura-recaptura. Debido a la imposibilidad de estimar cambios en la
abundancia absoluta sobre grandes áreas a través del tiempo, surge la idea de medir la
presencia o ausencia de las especies sobre un cierto número de unidades de muestreo, lo
que comenzó a conocerse como �proporción de área ocupada�.
Casi siempre, el interés de una investigación de la ocupación se enfoca ya sea en la
proporción de sitios que están ocupados dentro de un número de sitios potenciales o en
la probabilidad subyacente de que un sitio dentro de un grupo esté ocupado. Es este el
parámetro de principal interés de los modelos de ocupación.
Existe una distinción importante entre �proporción de área ocupada� y �proba-
bilidad de ocupación�. La probabilidad se puede considerar como la esperanza a priori
de que un sitio en particular esté ocupado determinada por algún proceso subyacente,
mientras que la proporción se relaciona a la realización de dicho proceso. Como la proba-
bilidad es generalmente desconocida, la proporción observada puede ser utilizada como
una estimación de la misma. En muchas situaciones estos conceptos se usan indistinta-
mente, estimando la probabilidad de ocupación e interpretándola directamente como la
proporción de sitios ocupados. Sin embargo, en otras situaciones esta distinción puede
ser importante siendo necesario interpretar el modelado de manera diferente para hacer
inferencias directas sobre la proporción de área ocupada.
El protocolo básico de muestreo usado para la estimación de la ocupación involucra
simplemente visitar los sitios y pasar un tiempo determinado en cada uno, buscando
individuos de la especie de interés o evidencia de su presencia. Este tipo de muestreos se
61
3. Modelos de Ocupación
conoce como presencia-ausencia. En este capítulo se desarrollarán una serie de modelos
que pueden ser usados para estimar y modelar patrones y dinámicas de ocupación. Los
modelos de ocupación serán estudiados en el marco de los modelos lineales generalizados
y los métodos de estimación desarrollados en el capítulo anterior.
3.1. Situación de Muestreo
La �nalidad es estimar la proporción de un área, o de hábitat adecuado dentro
de un área, que está habitada por una especie objetivo. Su utiliza el término área en
el sentido general de una población estadística, es decir, una colección de unidades de
muestreo, a las que se suele referir como sitios, sobre las cuales se quiere hacer inferencia.
Estas unidades pueden ser arbitrariamente de�nidas (por ejemplo, una grilla de celdas
de un tamaño especí�co) o naturales (por ejemplo, remanentes de bosque, lagunas o
islas). De una población de S unidades de muestreo, s unidades son seleccionadas sobre
las cuales se quiere establecer la presencia (ocupadas) o ausencia (desocupadas) de la
especie objetivo. Generalmente se considera que S es muy grande en comparación con s,
y que se quieren hacer inferencias sobre la población de las unidades de S. La manera
en que se seleccionan los sitios es fundamental para la congruencia y veracidad de los
resultados. Debe asumirse que fueron seleccionados tal que representan a la población
entera (por ejemplo, mediante la obtención de una muestra aleatoria que surja de un
diseño de muestreo apropiado).
Mientras que la presencia de una especie puede ser con�rmada por su detección, es
casi imposible con�rmarla si está ausente. La no detección de una especie puede resultar
de que la misma esté realmente ausente en el sitio o de que esté presente pero no haya
sido detectada durante los muestreos (MacKenzie y Royle, 2005). Salvo que la especie sea
tan visible que siempre es detectada (un caso muy raro), o que se realicen muestreos muy
intensivos, lo que suele suceder es que la especie está presente pero no es detectada. Esta
cuestión, conocida como detección imperfecta, ha sido notada por muchos biólogos de
campo, quienes desde hace tiempo vienen usando muestreos repetitivos para minimizar
la posibilidad de registrar "falsos ausentes" en un lugar.
Se considerará en este trabajo una situación básica de muestreo en la cual s sitios
son muestreadosK veces cada uno para una especie objetivo. En cada muestreo se utilizan
métodos apropiados para detectar la especie, como visuales, auditivos o con�rmaciones
indirectas de por lo menos un espécimen de la especie (estaciones de aromas, túneles
62
3.2. Estimación de la Ocupación con Probabilidad de Detección Conocida
de rastreo u otras señales como deposiciones frescas). Se asume que la especie nunca es
falsamente detectada cuando está ausente de un sitio, que es una suposición razonable
en la mayoría de los casos.
Los K muestreos son llevados a cabo en una ventana de tiempo adecuada, a lo
que se re�ere como temporada, durante la cual los sitios están cerrados a cambios en el
estado de ocupación; es decir, están siempre ocupados o siempre desocupados durante el
periodo de muestreo. El tiempo real que abarca una temporada varía en cada caso; por
ejemplo, para el estudio de colonias de aves, una temporada puede durar 2 o 3 meses,
mientras que para pequeños mamíferos la hipótesis de clausura sólo sería razonable para
una semana (MacKenzie, 2006). El concepto de "temporada" permite tomar una captura
de la población en un punto de tiempo, de la cual se pueden inferir patrones sobre el
nivel de ocupación.
La secuencia de detecciones y no detecciones (denotadas como 1 y 0, respectiva-
mente) de los K muestreos para el sitio i se registra como una historia de detección
(notada hi). Por ejemplo, si se realizan 3 muestreos en el sitio i, en los cuales la especie
se detectó en el primero y último, la historia para este sitio se expresará como hi = 101.
Análogamente, la historia de detección para un sitio en el que la especie no fue detectada
en ningún muestreo, se verá como hi = 000.
En base al planteo anterior, se considera que en cada situación de muestreo ocurren
dos procesos: la ocupación y la detección. La ocupación se relaciona con la presencia (o
ausencia) de la especie en el sitio durante el periodo de muestreo ("temporada"), y será
la cantidad de principal interés en la mayoría de los casos. Por otro lado, la detección
es un aspecto de los protocolos de muestreo, que será considerado generalmente como
un parámetro nuisance. Como se mencionó anteriormente, cuando se estudia especies
inconspicuas, no considerar la detección imperfecta puede llevar a conclusiones erróneas.
3.2. Estimación de la Ocupación con Probabilidad de
Detección Conocida
Aunque la situación en la cual la detección es perfecta, es poco común y carece
de interés para los investigadores, considerar el mejor caso posible puede proporcionar
información y servir como referencia para determinar qué tan bien funciona un estimador
63
3. Modelos de Ocupación
en una situación dada. La precisión de cualquier estimador que incorpora detectabilidad
no puede superar la del estimador para el cual el estado de ocupación se conoce sin error.
Supóngase que todos los sitios tienen una misma probabilidad ψ de ser ocupados
por la especie. En adelante, se usará la letra ψ para la probabilidad de ocupación. Luego,
el número de sitios ocupados (x) de una muestra aleatoria de s sitios, seguirá una distri-
bución Binomial, con E (x) = sψ y V ar (x) = sψ (1− ψ). Un estimador natural para ψ,
cuando la especie es perfectamente detectada, es:
ψB =x
s
que es insesgado y tiene varianza asociada:
V ar(ψB
)=ψ (1− ψ)
s,
que puede ser aproximada sustituyendo ψ por su valor estimado.
Ahora supóngase que la especie es detectada imperfectamente y que la probabilidad
de detectarla en un muestreo simple en un sitio ocupado es igual a p, conocido (es decir,
no tiene error de muestreo asociado). Entonces, la probabilidad de detectar la especie en
al menos uno de los K muestreos será p∗ = 1− (1− p)K . Esto es 1 menos la probabilidad
de no detectar la especie en todos los muestreos. Luego, la probabilidad de que la especie
esté presente y sea detectada será ψp∗.
El número de sitios en el cual la especie es detectada (sD) de una muestra aleatoria
de s sitios seguirá también una distribución Binomial con E (sD) = sψp∗ y V ar (sD) =
sψp∗ (1− ψp∗). Como anteriormente, un estimador para la proporción de sitios ocupados,
cuando p es conocido, sería:
ψp =sDsp∗
con varianza:
V ar(ψp
)=ψ (1− ψp∗)
sp∗
=ψ (1− ψ) (1− ψp∗)
s (1− ψ) p∗
=ψ (1− ψ)
s+ψ (1− p∗)
sp∗.
Se puede apreciar de la última ecuación, que la varianza consiste de dos com-
64
3.3. Modelado
ponentes. La primera componente corresponde a la variación Binomial asociada con el
verdadero valor subyacente de ψ. La segunda componente se debe a la detección imper-
fecta y es producto de tener que estimar el número de sitios que estaban ocupados en la
muestra. Esta separación se suele dar para mayoría de los estimadores de ocupación.
Otro punto importante es que, cuando una especie se detecta imperfectamente, la
varianza de un estimador de ocupación no puede ser menor que el término de variación
Binomial. Esto se debe a que la segunda componente debe ser mayor que 0 (aunque
tenderá a 0 a medida que p∗ se acerca a 1).
De todas maneras, el caso descrito no es de interés práctico debido a que raramente
se conocerá a priori la probabilidad de detección. En la mayoría de los casos, se deberán
estimar conjuntamente la probabilidad de ocupación y detección (ambas desconocidas)
de los datos recogidos.
3.3. Modelado
Modelando las probabilidades de las observaciones resultantes del proceso de mues-
treo es posible estimar simultáneamente los parámetros de ocupación y detección. Este
marco proporciona los medios para investigar la potencial relación entre las probabili-
dades de ocupación y detección y factores asociados a ellos (como tipo de hábitat o las
condiciones climáticas del muestreo). Además de la posibilidad de explorar y compa-
rar hipótesis, este enfoque otorga �exibilidad gracias a permitir el esfuerzo de muestreo
desigual en diferentes sitios, posibilitando así diseños más realistas.
3.3.1. Construcción de un Modelo
Como se ha visto anteriormente, la base del modelo conceptual es que hay dos
procesos estocásticos ocurriendo que afectan el hecho de que una especie sea detectada
en un sitio (ver Figura 3.1). Por un lado, se tiene la probabilidad ψ de que el sitio esté
ocupado y por otro lado que, para cada muestreo j, existe una probabilidad pj de que la
especie sea detectada en el sitio. Así, la probabilidad de observar la historia de detección
hi = 1010, será:
P (hi = 1010) = ψp1 (1− p2) p3 (1− p4) .
65
3. Modelos de Ocupación
Probabilidad Asociada
Muestreo 1
Realidad Biológica
Muestreo 2
Especie
Presente (�)
Detectada (p1)
Detectada (p2)
11 �p1p2
No Detectada
(1-p2)
10 �p1(1-p2)
No Detectada
(1-p1)
Detectada (p2)
01 �p1(1-p2)
No Detectada
(1-p2)
00 �(1-p1)(1-p2)
Ausente (1-�)
00 (1-�)
Figura 3.1.: Diagrama de ocupación y detección para dos muetreos (K = 2).
Calcular la probabilidad de que una especie no sea detectada en ningún muestreo
es un poco más complicado, debido a que hay dos posibilidades por las que esto puede
suceder.
Así, por ejemplo, para la historia de detección hi = 0000, su probabilidad asociada
será:
P (hi = 0000) = ψ
4∏j=1
(1− pj) + (1− ψ) .
El primer término corresponde al caso en que el sitio está ocupado pero la especie no fue
detectada en ningún muestreo, mientras que el segundo término corresponde al caso en
que el sitio no está ocupado en primer instancia.
Dadas las s historias de detección observadas según su correspondiente probabilidad
de ocurrencia y asumiendo que las historias son independientes, la verosimilitud de los
datos observados es:
L (ψ,p | h1,h2, . . . ,hs) =s∏i=1
P (hi) ,
que se reduce a:
L (ψ,p | h1,h2, . . . ,hs) =
ψsD K∏j=1
psjj (1− pj)sD−sj
ψ K∏j=1
(1− pj) + (1− ψ)
s−sD ,
donde sD es el número de sitos en los cuales la especie fue detectada al menos una vez,
66
3.3. Modelado
y sj es el número de sitios donde la especie fue detectada durante el j-ésimo muestreo.
Bajo la hipótesis de que la probabilidad de detección es constante entre muestreos,
el enfoque anterior es equivalente a modelar el número de detecciones en cada sitio (yi)
como una variable aleatoria Binomial con una clase in�ada por ceros, es decir:
P (Y = yi) =
ψ(Kyi
)pyi (1− p)K−yi si yi > 0
ψ (1− p)K + (1− ψ) si yi = 0.
Sin embargo, considerando probabilidades especí�cas para cada muestreo se obtiene
un mayor grado de �exibilidad.
En resumen, las principales hipótesis de este modelo son:
1. El estado de ocupación de los sitios no cambia durante el periodo de muestreo.
2. La probabilidad de ocupación es igual entre los sitios.
3. Dada la presencia de la especie, la probabilidad de detección en un muestreo es
igual entre sitios.
4. La detección de las especies en cada muestreo en un sitio es independiente de las
detecciones durante otros muestreos en el mismo sitio.
5. Las historias de detección observadas en cada sitio son independientes.
3.3.2. Estimación
Como se vio en el Capítulo 2, la ecuación de verosimilitud de�nida anteriormente,
puede usarse para estimar los parámetros del modelo utilizando tanto la teoría frecuen-
tista como la Bayesiana, tomando la función de verosimilitud como la probabilidad de
observar los datos dados los parámetros. La inferencia Bayesiana utiliza métodos compu-
tacionales, como MCMC, que pueden di�cultar la discusión general de los resultados y
las comparaciones con otros métodos. En contraste, los estimadores de máxima verosi-
militud de los parámetros del modelo pueden escribirse de manera relativamente simple,
tal que la discusión de los resultados sea más sencilla.
A continuación, se desarrollan dos situaciones con respecto a la obtención de las
estimaciones de máxima verosimilitud de los parámetros, que consideran a la probabilidad
detección constante y especí�ca por muestreo, respectivamente.
67
3. Modelos de Ocupación
Modelo de Probabilidad con Detección Constante
Suponiendo constante la probabilidad de detección, la verosimilitud del modelo se
expresa como:
L (ψ, p | h1,h2, . . . ,hs) =
ψsDp K∑j=1
sj(1− p)
KsD−K∑j=1
sj
[ψ (1− p)K + (1− ψ)]s−sD
.
Tomando las primeras derivadas con respecto a cada parámetro e igualando a cero,
se obtienen las siguientes ecuaciones:
ψEMV =sD
sp∗EMV
; pEMV =pEMV
p∗EMV
=1
KsD
K∑j=1
sj ,
donde ψEMV y pEMV son las estimaciones de máxima verosimilitud, p∗EMV = 1 −(1− pEMV )K es la estimación de la probabilidad de detectar la especie por lo menos
una vez (dada la presencia), y pEMV es la estimación de la probabilidad de detectar la
especie durante un muestreo sabiendo que fue detectada al menos una vez en el sitio.
Notar que la primera ecuación es similar a la de los estimadores de la sección
anterior; que, aunque no derivan de la perspectiva de verosimilitud, deberían aproximar
el EMV siempre y cuando las probabilidades de detección fueran estimadas de manera
apropiada.
La segunda ecuación, muestra que una estimación condicional de la probabilidad
de detección (pEMV ; de la cual se puede obtener numéricamente pEMV ) está dada por el
cociente entre el número total de detecciones y el total de muestreos realizados en sitios
donde la especie fue detectada al menos una vez.
La teoría de verosimilitud sugiere que la fórmula de la varianza asintótica para
ψEMV se puede obtener invirtiendo la matriz de información de Fisher, lo que permite
usar métodos numéricos para estimar la varianza y los errores estándar de las estimaciones
de los parámetros.
La fórmula de la varianza para ψEMV se puede expresar de dos formas. La primera
tiene la apariencia familiar de dos componentes, con una componente debida a la pro-
porción Binomial y otra relacionada a la incertidumbre en el número de sitios realmente
68
3.3. Modelado
ocupados. En la otra forma, la segunda componente se puede expresar también en dos
componentes, siendo una la incertidumbre en el número de sitios ocupados, asumiendo
p conocido, y la otra siendo la contribución de tener que estimar p de los datos simul-
táneamente. De esta forma, se tienen tres componentes, donde las dos primeras dan la
fórmula de la varianza para cuando p es conocido:
V ar(ψEMV
)=ψ (1− ψ)
s+
ψ (1− p∗) (1− p)s [p∗ (1− p)−Kp (1− p∗)]
(3.1)
=ψ (1− ψ)
s+ψ (1− p∗)
sp∗+
ψ (1− p∗)Kp (1− p∗)sp∗ [p∗ (1− p)−Kp (1− p∗)]
.
Claramente, dado una conjunto de datos, la varianza del estimador de ocupación
puede ser aproximada sustituyendo por los valores estimados de ψ y p (y p∗).
Modelo de Probabilidad con Detección Especí�ca por Muestreo
Ahora, cuando se tienen probabilidades de detección especí�cas por muestreo pj 's,
usando la misma técnica que antes, se obtienen las ecuaciones de estimación:
ψEMV =sD
sp∗EMV
pj, EMV =pj, EMV
1−K∏i=1
(1− pi, EMV )
=sjsD,
donde ahora p∗EMV = 1−K∏j=1
(1− pj, EMV ).
De nuevo, pj, EMV no puede ser expresado simplemente en forma exacta, entonces
debe usarse un método numérico. Sin embargo, notar la forma intuitiva de pj, EMV . Aquí,
sD puede interpretarse como el número de muestreos realizados en la visita j en sitios
donde la especie fue detectada al menos una vez durante los K muestreos. Entonces,
pj, EMV , es la fracción de muestreos realizados al tiempo j en los sitios donde la especie
fue eventualmente detectada.
No se incluye una ecuación para V ar(ψEMV
)para este caso, pero métodos simi-
lares a los del caso anterior pueden ser usados para obtenerla (inversión de la matriz de
información).
69
3. Modelos de Ocupación
Probabilidad de Ocupación Dado que la Especie No fue Detectada en un Sitio
En muchas situaciones, será de interés calcular la probabilidad de que la especie
esté presente en un sitio dado que nunca fue detectada. Del Teorema de Bayes se tiene:
ψcondl =P (especie presente | especie no detectada)
=P (especie presente y no detectada)
P (especie no detectada)
=
ψK∏j=1
(1− pj)
(1− ψ) + ψK∏j=1
(1− pj).
Esto puede ser calculado de los parámetros estimados. Por lo tanto, el hecho de que
una especie no fue detectada en un sitio puede ser incorporado en el procedimiento de
inferencia sobre el estado de ocupación de un sitio especí�co.
Una aproximación de la varianza asintótica para ψcondl puede ser obtenida por
el método delta. Este método saca provecho de una expansión en series de Taylor para
linealizar las funciones y es utilizado como una alternativa para obtener aproximaciones
para las varianzas y covarianzas de grandes muestras. Según el método delta, dada una
función h (θ) de los parámetros del modelo, la varianza de su estimación de máxima
verosimilitud será:
V ar(h (θ)
)= V ar
(h(θ))
=[h′(θ)]
[V][h′(θ)]t
, (3.2)
donde V es la matriz de covarianzas para el vector de EMVs θ, y h′(θ)es el vector de
derivadas parciales de h (θ) evaluadas en θ.
Aplicando el método delta a la funciónψcondl de los parámetros, se comienza por
derivar su expresión con respecto a ψ y los p's. La derivada de ψcondl con respecto a ψ
es:∂ψcondl∂ψ
=1− p∗
(1− ψp∗)2
donde p∗ = 1−K∏j=1
(1− pj) es la probabilidad de detectar la especie al menos una vez
70
3.3. Modelado
en los K muestreos. Cuando la probabilidad de detección es constante, se tiene:
∂ψcondl∂p
= −ψ (1− ψ)K (1− p)K−1
(1− ψp∗)2;
mientras que cuando la probabilidad de detección es especí�ca por muestreo se tiene:
∂ψcondl∂pj
= −ψ (1− ψ)
∏k 6=j
(1− pk)
(1− ψp∗)2.
Finalmente, utilizando la matriz de covarianzas para ψ y los p's, se llega a una aproxi-
mación de V ar (ψcondl) mediante la Fórmula 3.2.
Ejemplo 15. A �nes de la década del '90 investigadores, trabajando en cooperación con
el Servicio de Parques Nacionales de los Estados Unidos, llevaron a cabo una serie de
estudios sobre un conjunto de especies de salamandras de los Apalaches del Sur, con el
objetivo era desarrollar métodos de monitoreo e�cientes a largo plazo . La ocupación fue
una de las variables de estado exploradas, pudiéndose encontrar en Bailey et al. (2004)
un análisis de ocupación detallado de estos datos. A continuación se ilustran los modelos
simples de una temporada antes descritos, utilizando los datos de detección de un año
de una de las especies, Eurycea wilderae.
Las salamandras fueron muestreadas en 39 sitios (s = 39) separados aproxima-
damente por 250 m para asegurar la independencia entre ellos. Los muestreos fueron
realizados cada dos semanas desde Abril hasta mediados de Junio (K = 5), período en
el cual se cree que las salamandras se encuentran más activas y cercanas a la super�cie.
Considérense dos modelos simples:
1. ψ (·) p (·): La ocupación y la detección son constante entre sitios y muestreos.
2. ψ (·) p (t): La ocupación es constante pero la probabilidad de detección puede variar
entre muestreos.
En la Tabla 3.1 se encuentran los modelos ordenados por AIC junto a las estimaciones
de los parámetros y otros valores de interés.
De los 39 sitios, se detectó la especie en 18, de lo que se obtiene una estimación naïve
para la ocupación (sD/s) de 0,46. Este valor en comparación con las estimaciones para la
ocupación de los modelos indica que la ocupación es subestimada por aproximadamente
71
3. Modelos de Ocupación
Tabla 3.1.: Resumen de los modelos ajustados a los datos de una especie de salamandra
Modelo ∆AIC wi Parámetros −2LL ψ EE(ψ)
p1 p2 p3 p4 p5
ψ (·) p (·) 0,00 0,73 2 161,76 0,60 0,12 0,26 0,26 0,26 0,26 0,26ψ (·) p (t) 1,96 0,27 6 155,71 0,58 0,12 0,18 0,13 0,40 0,35 0,27
Modelo Promedio 0,59 0,12 0,24 0,22 0,30 0,28 0,26
20% cuando la probabilidad de detección es ignorada. Los pesos de AIC indican que el
modelo con detección constante es el de mayor soporte, pero, de todas maneras, el modelo
ψ (·) p (t) tiene su�ciente soporte como para sugerir cierta variación en la probabilidad
de detección entre muestreos. Las estimaciones promedio sugieren que la probabilidad de
detectar la especie durante un muestreo a un sitio ocupado está entre 0,2 y 0,3, por lo
que la probabilidad de no detectar la especie en ningún muestro es de 0,13 (es decir, la
probabilidad de un falso ausente).
Supóngase que se quiere estimar la probabilidad de que un sitio esté ocupado dado
que la especie no fue detectada en ningún muestreo (ψcondl). Tomando el "mejor" modelo,
una estimación para ψcondl será:
ψcondl =ψ (1− p)K(
1− ψ)
+ ψ (1− p)K=
0, 6 (1− 0, 26)5
(1− 0, 6) + 0, 6 (1− 0, 26)5= 0, 25.
El error estándar para ψcondl se puede aproximar por el método delta explicado
anteriormente, donde la matriz de covarianzas para ψ y p es
V =
[0, 0150 −0, 0038
−0, 0038 0, 0033
]
y
h′(θ)
=[
∂ψcondl∂ψ
∂ψcondl∂p
]=[
0, 7807 −1, 2660].
A partir de la Ecuación 3.2 se obtiene
V ar(ψcondl
)=[
0, 7807 −1, 2660] [ 0, 0150 −0, 0038
−0, 0038 0, 0033
][0, 7807
−1, 2660
]= 0, 0219.
Por lo tanto, el error estándar de ψcondl será EE(ψcondl
)= 0, 15.
72
3.3. Modelado
3.3.3. Observaciones Faltantes
La hipótesis de que la probabilidad de detectar una especie durante un muestreo
especí�co es igual para todos los sitios, viene de pensar que dicha probabilidad variará
junto a condiciones ambientales (por ejemplo, precipitaciones, temperatura, etc.) y que
estas condiciones afectarán todos los sitios de manera similar. Luego, es importante te-
ner en cuenta que, desde un punto de vista biológico, los modelos con probabilidad de
detección especí�ca por muestreo, sólo tienen sentido cuando los sitios son muestreados
simultáneamente (o dentro de un periodo de tiempo corto).
Sin embargo, en muchas situaciones, esto no sucede. Por cuestiones logísticas, es
poco usual que todos (o una gran parte) de los sitios puedan ser muestreados al mismo
tiempo. Los datos suelen ser recogidos por pequeños grupos de personas que deben tras-
ladarse de un sitio a otro, haciendo imposible el muestreo simultáneo de todos los sitios.
Aquí es donde entra en juego el concepto de observaciones faltantes (o missings).
Considerando la forma general de la verosimilitud antes vista, las observaciones
pueden ser incluidas fácilmente. Supóngase que el sitio i no fue muestreado en la visita
j, entonces la probabilidad de detectar la especie en esa visita debe ser cero, i.e. pij =
0. Imponiendo esta restricción cuando un sitio no es muestreado, la j-ésima visita es
efectivamente ignorada para ese sitio, por lo que ni pj , ni (1− pj)aparecen en la expresiónde la probabilidad. Esto re�eja el hecho de que no se recolectó información con respecto
a la detección (o no) de la especie en ese sitio durante esa visita.
Ejemplo 16. Considerar la siguiente tabla de historias de detección:
Sitio Día 1 Día 2 Día 3 Día 4 Día 5
1 1 0 1 - 0
2 - 0 - 1 1
Como se ve, el sitio 1 no fue visitado el día 4, mientras que el sitio 2 no fue visitado
los días 1 y 3; siendo estas visitas consideradas observaciones faltantes.
La probabilidad de observar las respectivas historias puede ser expresada como:
P (h1 = 101_0) =ψp1 (1− p2) p3 (1− p5)
P (h2 = _0_11) =ψ (1− p2) p4p5,
73
3. Modelos de Ocupación
donde el guión bajo ("_") en la historia denota una observación faltante.
Aunque se ha introducido el concepto de observaciones faltantes desde la pers-
pectiva del diseño, donde las limitaciones logísticas di�cultan el muestreo simultáneo de
sitios, este tipo de observaciones pueden aparecer en una amplia variedad de circunstan-
cias (por ejemplo, cambios de clima o roturas de equipamientos). Tanto las observaciones
faltantes relacionadas con el diseño como las aleatorias, pueden ser tratadas como se vio
anteriormente, pero las segundas, también pueden ser modeladas mediante la adición de
parámetros.
La capacidad de incluir observaciones faltantes es de vital importancia para el
diseño de estudios de ocupación basados en este método de análisis. De esta manera,
no se requieren esfuerzos de muestreo igualitarios entre sitios. De hecho, dado que el
propósito de los muestreos repetidos es recolectar información adecuada que permita
estimar las probabilidades de detección, visitar los sitios un número igual de veces puede
no ser muy e�ciente en cuestión del uso de recursos.
3.3.4. Modelado de Covariables
Hasta ahora, todos los modelos descritos han asumido que tanto la probabilidad de
ocupación como la de detección son iguales entre sitios. Esto puede no ser una suposición
razonable para la mayoría de los casos y las probabilidades variarán entre sitios; es
decir, las mismas serán heterogéneas. De hecho, en muchas situaciones, la manera en
que estas probabilidades varían en función de las características de los sitios, será el
principal enfoque de estudio. Como se vio en el capítulo anterior, usando una función de
enlace adecuada, se puede modelar la probabilidad de ocupación en función de covariables
medibles.
Usando la función de enlace logit, se puede expresar la probabilidad de que el sitio
i esté ocupado como:
logit (ψi) = β0 + β1xi1 + β2xi2 + . . .+ βUxiU ,
que es una función de U covariables asociadas al sitio i (xi1, xi2,..., xiU ) y de U + 1
coe�cientes a ser estimados: una ordenada o término constante (β0) y U coe�cientes de
regresión para cada covariable. Mientras que la probabilidad de ocupación puede variar
entre sitios, los parámetros a ser estimados (los β's) se suponen constantes entre sitios.
74
3.3. Modelado
Además, si ψi se modela sólo en función de β0 (sin covariables), entonces será ψi = ψ
para todos los sitios.
Como se supone que los sitios tienen estado de ocupación constante dentro de una
temporada, los tipos de covariables que se pueden considerar adecuadas para modelar ψison aquellos que se mantienen constantes durante este periodo. Esto incluye casi cualquier
covariable que pueda caracterizar un sitio o su localización; por ejemplo, tipo de hábitat,
tamaño de sitio, aislamiento del sitio, elevación, distancia a un punto de coordenadas, y
condiciones climáticas generales.
Análogamente, también se pueden modelar aquellas covariables que varían de un
muestreo a otro, como por ejemplo, condiciones ambientales locales, hora del día, o ex-
periencia de la persona encargada del muestreo. Usando la ecuación logística, la proba-
bilidad de detectar la especie en el sitio i durante el muestreo j puede ser expresada
como:
logit (pij) = β0 + β1xi1 + . . .+ βUxiU + βU+1xij1 + . . .+ βU+V xijV ,
donde xi1,..., xiU denotan las U covariables constantes durante la temporada asociadas
al sitio i (que pueden diferir de aquellas usadas para modelar la ocupación), y xij1,...,
xijV son las V covariables de detección asociadas con el muestro j del sitio i.
Tener la habilidad de modelar tanto la ocupación como la detección en función de
covariables, permite investigar un amplio rango de modelos disponiendo de datos apro-
piados. Esto, sumado a la posibilidad de considerar observaciones faltantes, es la razón
por la que este abordaje, junto al uso de procedimientos de selección (como AIC), pro-
porcionan una herramienta superior para hacer inferencias sobre parámetros relacionados
con la ocupación.
Algunas recomendaciones con respecto al tratamiento de las covariables:
1. Las covariables categóricas. Deben ser tratadas como variables dummy. Si se
tienen m categorías, deben incluirse m− 1 variables binarias (1 equivale "Sí" y 0 a
"No"), siendo la restante categoría introducida cuando todas las demás sean nulas.
Por ejemplo, si la covariable es "Tipo de Hábitat" para el cual se tienen 3 tipos,
se toma como referencia uno de ellos. Tomando como referencia al Tipo 3, se crean
2 covariables para el Tipo 1 y el Tipo 2, respectivamente. Un sitio perteneciente
al Tipo 1 de hábitat será aquel que tenga un 1 en la covariable Tipo 1 y un 0 en
75
3. Modelos de Ocupación
la Tipo 2; se dará el caso inverso para los sitios del Tipo 2. Notar que un sitio
no puede pertenecer a dos categorías diferentes, por lo tanto ninguno tendrá un 1
en ambas covariables. Un sitio del Tipo 3 será aquel cuyas ambas covariables sean
nulas, es decir, no es ni del Tipo 1 ni del Tipo 2.
2. Estandarizar las covariables continuas para un mejor funcionamiento compu-
tacional y un manejo de los datos más intuitivo. Cuando la media de covariables
individuales es muy grande o muy chica, o su rango abarca varios órdenes de mag-
nitud, el algoritmo de optimización puede fallar al encontrar las estimaciones de
los parámetros.
3. Aplicar logaritmo a las covariables discretas (de conteo). Sumar 1 previamente
para evitar los ceros.
3.3.5. Ajuste del Modelo
Para evaluar el modelo propuesto, es necesario analizar la bondad de ajuste. Una
falta de ajuste substancial en un modelo puede llevar a inferencias erróneas, ya sea en
términos de sesgo o de precisión.
Un enfoque popular a la hora de analizar datos ecológicos es ajustar un conjunto
de modelos candidatos a los datos y usar técnicas de selección de modelos como AIC o
similares, para elegir el "mejor" modelo (o "mejores"). De todas maneras, esta elección no
garantiza la selección de un "buen" modelo. Hay que tener en cuenta que estas técnicas
asumen que, por lo menos un modelo entre los candidatos, se ajusta adecuadamente a
los datos; luego, no son sustitutas del análisis de ajuste del modelo. Un recurso que se
suele usar en selección de modelos para AIC y otras médidas, es testear el ajuste del
modelo más general y, si este es considerado adecuado, se procede en la manera usual.
Si por el contrario, el ajuste del modelo más global no es adecuado, entonces se estima
un parámetro de sobredispersión de cuasi-verosimilitud, que es usado para modi�car el
AIC, como se vio en la Sección 2.15.
Aunque se busca evaluar los modelos siempre que sea posible, la realidad es que, en
muchos estudios ecológicos, los tamaños de las muestras son muy pequeños para detectar
un pobre ajuste; es decir, los tests de ajuste pueden tener bajo poder. Esto puede conducir
a una falsa con�anza, en la que se decida que un modelo es adecuado sólo por tener datos
insu�cientes, y no porque su estructura es apropiada. En estos casos se recomienda, a la
76
3.3. Modelado
hora de usar tests de hipótesis, estar dispuestos a rechazar una hipótesis nula de ajuste
adecuado, basados en que la evidencia es más débil; es decir, considerar rechazarla aunque
el P -valor sea mayor de 0,05.
En términos de los modelos de ocupación de una temporada, MacKenzie y Bailey
(2004) desarrollaron un método para evaluar el ajuste de los mismos, que pone a prueba
si el número observado de sitios en los que sucede una historia de detección en particular,
tiene chances razonables de ocurrir si se asume como "correcto" el modelo objetivo (el
que se está evaluando).
Sea Oh el número de sitios que se observan con la historia h, y sea Eh el número
esperado de sitios con la historia h de acuerdo al modelo objetivo. Por ejemplo, suponer
que el modelo objetivo asume la ocupación y la detección constante entre sitios y visitas;
es decir, el modelo ψ (· ) p (· ), y que las estimaciones de los parámetros son ψ = 0,82 y
p = 0,43. El número esperado de sitios para la historia 101 será:
E101 =s× P (h = 101)
=sψp (1− p) p
=s× 0,82× 0,432 × (1− 0,43)
=0,09s
En general, Eh equivale a la suma de las probabilidades estimadas de observar h en todos
los sitios, ya que las probabilidades de ocupación y detección pueden ser especí�cas por
sitio dependiendo del modelo que se está ajustando. Por ejemplo:
E101 =s∑i=1
P (hi = 101)
=s∑i=1
ψipi1 (1− pi2) pi3
Sin embargo, esto supone que no hay observaciones faltantes y que el esfuerzo
de muestreo es igualitario, ya que un requerimiento implícito es que las probabilidades
estimadas de observar cada historia posible sume 1 (i.e.,∑h
P (h = h) = 1) tal que∑h
Oh =∑h
Eh. Para tener en cuenta las observaciones faltantes, se puede tomar aquellos sitios
con una única combinación de valores faltantes como cohortes separados (por ejemplo,
las historias 1-01 y 0-11 pertenecen a la misma cohorte). Entonces, para cada cohorte c,
77
3. Modelos de Ocupación
el número esperado de sitios con cada historia de detección será:
Ehc =
sc∑i=1
P (hi = hc) .
donde sc es el número de sitios en la cohorte.
Una vez que se calcularon los Eh's, el estadístico χ2de Pearson permite testear la
bondad de ajuste:
χ2 =∑c
∑h
(OhC − Ehc)2
Ehc.
Como muchos de los Ehc suelen ser relativamente pequeños (< 2), incluso para
valores moderados de K (por ejemplo, K ≥ 5), los argumentos usuales de la distribución
usados para justi�car que χ2 tendrá una distribución Chi-Cuadrado con df grados de
libertad es raro que se cumplan. Por ello se suele utilizar un bootstrap paramétrico para
determinar si el valor observado de χ2 es inusualmente grande.
Este procedimiento involucra asumir que el modelo objetivo es correcto y después
generar conjuntos de datos alternativos sujetos a las restricciones de que los sc's están
�jos. Como se supone que el modelo objetivo es correcto para los datos generados, si los
datos observados parecen típicos en comparación, entonces será razonable concluir que
el modelo es adecuado para ellos también. Entonces el bootstrap paramétrico puede ser
una técnica ideal para evaluar la estructura del modelo. Para el caso de los modelos de
ocupación de una temporada, este procedimiento se implementa como sigue:
1. Ajustar el modelo objetivo a los datos observados y estimar los parámetros ψ y pij(que pueden ser funciones de covariables).
2. Calcular el estadístico de prueba para los datos observados, χ2Obs, usando el ajuste
del modelo del paso anterior.
3. Para cada sitio generar un número aleatorio uniforme (r) entre 0 y 1. Si r ≤ ψi
entonces el sitio está ocupado y se generan otros K números aleatorios uniformes
(rj) entre 0 y 1. Si rj ≤ pij entonces la especie fue "detectada" y la observación
bootstrap correspondiente es un "1" ("0" en caso contrario). Si r > ψi entonces el
sitio no está ocupado y las observaciones bootstrap serán todas "0" para ese sitio.
4. Ajustar un modelo con la misma estructura que el del primer paso a los datos
bootstrap.
78
3.3. Modelado
5. Calcular el estadístico de prueba para los nuevos datos, χ2B, usando el ajuste del
paso anterior.
6. Repetir pasos 3 a 5 un número de veces su�cientemente grande para aproximar la
distribución del estadístico de prueba, dado que el modelo ajustado es correcto.
7. Comparar χ2Obs con la distribución bootstrap de χ
2B para determinar la probabilidad
de observar un valor más grande (el P -valor).
Si el modelo objetivo resulta con un ajuste pobre, pero igual se deben hacer inferencias,
se puede utilizar un parámetro de sobredispersión (c) para "in�ar" los errores están-
dar (McCullagh y Nelder, 1989) y ajustar los procedimientos de selección de modelos
(Burnham y Anderson, 2003). c puede ser estimado como:
c =χ2Obs
χ2B
,
donde χ2B es el promedio de los estadísticos de prueba obtenidos del procedimiento de
bootstrap. Si el modelo objetivo describe adecuadamente los datos, entonces c debe ser
aproximadamente igual a 1. Valores más grandes que 1 sugieren que hay más variación
en los datos observados que lo que el modelo esperaría; mientras que valores menores que
1 sugieren menos variación.
Cuando se consideran múltiples modelos para los datos y se usa algún procedimien-
to de selección, se recomienda primero evaluar la falta de ajuste del modelo más general
o "global" (el más complejo, con mayor número de parámetros). La lógica es que, si este
modelo se ajusta a los datos, entonces cualquier modelo reducido que explique un nivel
similar de variación en los datos (un modelo más parsimonioso) también proporcionará
una descripción adecuada de los mismos. Si el modelo global ajusta pobremente enton-
ces, en base al valor c calculado del modelo global, se deben ajustar los errores estándar
(por un factor de√c) y utilizar QAIC para los procedimientos de selección de modelos
(Burnham y Anderson, 2003).
En algunos casos el número de parámetros del modelo global es demasiado grande,
entonces la poca precisión de los estimadores puede di�cultar la habilidad del test de
detectar la falta de ajuste. En estos casos se debería testear también el ajuste de un
modelo más parsimonioso.
Mediante simulaciones, MacKenzie y Bailey (2004) encontraron que, si un modelo
79
3. Modelos de Ocupación
se ajusta pobremente a los datos, puede deberse a una estructura inadecuada del mo-
delo (por ejemplo, exclusión de alguna covariable) o por una violación a las hipótesis
del mismo, como independencia en la unidades de muestreo. En este último caso, los
estimadores de los parámetros siguen siendo insesgados aunque los errores estándar son
chicos (McCullagh y Nelder, 1989). Por otro lado, la falta de ajuste estructural causa
que los estimadores estén sesgados.
3.3.6. Ejemplo de Modelos de Ocupación
Durante los inviernos de 1980-81 y 1981-82, se muestrearon 256 sitios en Wyoming,
Estados Unidos, para determinar si estaban siendo usados por el berrendo o antílope
americano (Antilocapra americana). Con la intención de identi�car aquellos factores que
afectan el uso de los sitio por la especie, se registraron cuatro características de los sitios:
densidad de artemisia (DA), pendiente (Pnd), distancia a fuente de agua (DFA) y aspecto
(A), que es una variable categórica que depende de la ubicación de cada sitio (ver Sección
3.3.4 sobre el tratamiento de variables categóricas). La artemisia (Artemisia tridentata)
es uno de los alimentos de predilección del antílope americano.
MacKenzie (2006) tomó como hipótesis que los sitios estaban siendo usados o no por
la especie durante los dos inviernos, por lo que consideró los muestreos de cada invierno
como muestreos repetidos dentro de una misma temporada. Con el �n de ilustrar la
importancia de tener en cuenta la detección imperfecta, MacKenzie (2006) analizó los
datos con respecto a dos enfoques. El primer enfoque usa regresión logística simple y
considera que la no detección del antílope equivale a que este no está usando el sitio.
El segundo enfoque corresponde a los modelos de ocupación desarrollados anteriormente,
los cuales utiliza para realizar inferencias sobre la selección de hábitat teniendo en cuenta
la probabilidad de detección de la especie. Ambos enfoques consideran el efecto de las
cuatro covariables en la selección de hábitat.
Los resultados del enfoque de regresión logística simple se pueden ver en la Tabla
3.2a. Tener en cuenta que en este caso, para que la regresión logística sea válida se supone
implícitamente que, o bien se condujeron su�cientes muestreos tal que la probabilidad
de un falso ausente es despreciable, o que la probabilidad de detección es constante entre
sitios. En este último caso, los resultados deben ser interpretados como relativos en lugar
de medidas absolutas de la ocupación o uso. Las sumas de los pesos de los modelos que
incluyen a cada covariable son: 90% para la distancia a fuente de agua; 55% para la
80
3.4. Estimación de la Ocupación para una Población Finita o Área Pequeña
pendiente; 38% para la densidad de artemisia; y 19% para el aspecto. Por lo tanto,
se podría llegar a la conclusión que la distancia a una fuente de agua es el factor más
importante para determinar el uso de un sitio por la especie.
Se obtienen diferentes resultados al modelar la probabilidad de ocupación en el
marco de los modelos de ocupación, considerando ahora la detección imperfecta de la
especie (ver Tabla 3.2b). Análogamente al enfoque anterior, se modeló la probabilidad
de ocupación en base a las covariables, mientras que para la probabilidad de detección
se consideró el modelo constante (p (·)). La suma de los pesos de los modelos para cada
covariable con respecto a la ocupación (uso) son: 69% para la pendiente; 33% para la
densidad de artemisia; 22% para el aspecto; y 17% para la distancia a fuente de agua.
La distancia a una fuente de agua pasó de ser la covariable con más sustento a una de
sustento débil.
La diferencia entre los resultados de los dos enfoques demuestra la importancia
de considerar la detección imperfecta a la hora de modelar la ocupación de especies. Es
probable que la probabilidad de detección se esté viendo afectada por una serie factores
no considerados en los modelos.
3.4. Estimación de la Ocupación para una Población Finita
o Área Pequeña
En algunas casos resulta importante distinguir entre probabilidad de ocupación y
proporción de sitios ocupados. Aunque la base de los modelos desarrollados puede usarse
para hacer inferencia sobre la proporción de sitios ocupados en un población relativamente
pequeña, surgen inquietudes al respecto de las aproximaciones asintóticas usadas por la
teoría de verosimilitud para calcular varianzas y errores estándar, que pueden conducir
a la exploración de otros métodos de inferencia.
Asimismo, se sabe que x (el número de sitios ocupados en la muestra) puede sólo
tomar valores enteros entre sD y s. Consecuentemente, la proporción de sitios ocupados en
una muestra toma valores en un conjunto �nito; por ejemplo, si s = 20, la proporción de
sitios ocupados puede tomar los valores 0, 0, 05, 0, 1, 0, 15, . . .. Luego, una vez estimado
el número de sitios ocupados en la población, se puede obtener la proporción de sitios
ocupados simplemente dividiendo este valor por el tamaño de la población de interés (s
81
3. Modelos de Ocupación
Tabla 3.2.: Resumen de la selección de modelos para el ejemplo del antílope americano
Modelo ∆AIC w −2LL Parámetros (δ)
ψ (Pnd+DFA) 0,00 23% 345,26 3ψ (DFA) 0,22 21% 348,48 2
ψ (DA+ Pnd+DFA) 0,82 16% 344,08 4ψ (DA+DFA) 1,18 13% 346,44 3
ψ (Pnd+DFA+A) 2,79 6% 342,05 6ψ (DFA+A) 3,08 5% 344,34 5ψ (Pnd) 3,81 3% 351,07 2
ψ (DA+ Pnd+DFA+A) 4,05 3% 341,31 7ψ (DA+DFA+A) 4,45 3% 343,71 6ψ (DA+ Pnd) 4,67 2% 349,93 3
ψ (·) 5,63 1% 354,89 1ψ (Pnd+A) 6,11 1% 347,37 5ψ (DA) 6,65 1% 353,91 2
ψ (DA+ Pnd+A) 7,45 1% 346,71 6ψ (A) 7,67 1% 350,93 4
ψ (DA+A) 9,13 0% 350,39 5
(a) Modelos de regresión logística simple con detección perfecta (p = 1)
Modelo ∆AIC w −2LL Parámetros (δ)
ψ (Pnd) 0,00 28% 631,72 3ψ (DA+ Pnd) 1,24 15% 630,97 4
ψ (·) 1,63 13% 635,36 2ψ (Pnd+A) 2,34 9% 628,06 6ψ (DA) 2,83 7% 634,55 3
ψ (Pnd+DFA) 3,02 6% 632,74 4ψ (DA+ Pnd+DFA) 3,37 5% 631,09 5
ψ (A) 3,67 5% 631,39 5ψ (DA+ Pnd+A) 4,01 4% 627,73 7
ψ (DFA) 4,02 4% 635,74 3ψ (DA+A) 5,31 2% 631,03 6
ψ (Pnd+DFA+A) 5,57 2% 629,29 7ψ (DFA+A) 8,42 0% 634,14 6
ψ (DA+ Pnd+DFA+A) 10,38 0% 632,10 8ψ (DA+DFA+A) 10,88 0% 634,60 7ψ (DA+DFA) 12,81 0% 642,53 4
(b) Modelos de ocupación con probabilidad de detección constante (p (·))
82
3.4. Estimación de la Ocupación para una Población Finita o Área Pequeña
o S). Para evitar confusión, se denota el número de sitios ocupados en la muestra como
x, y el número de sitios ocupados en la población más grande, pero �nita, como xpop.
3.4.1. Predicción del Estado de Ocupación No Observado
La esencia de estimar el número de sitios ocupados en una población es predecir
el estado de ocupación de sitios especí�cos. Su valor exacto para un sitio puede ser
desconocido tanto por detección imperfecta como porque el sitio no estaba incluido entre
los sitios muestreados. El estado de ocupación de cada sitio puede ser referido como una
variable de estado latente (es decir, no observada). Se ha venido usando este concepto
implícitamente para enfocarse en la estimación de los parámetros del modelo (de la
población) que gobiernan las variables de estado de ocupación latentes (por ejemplo,
presencia o ausencia de las especies). Sin embargo, muchos problemas de inferencia (como
estimar el número de sitios ocupados) requieren un enfoque directo en las variables de
estado latente.
Sea zi el estado de ocupación binario para el sitio i (presencia/ausencia de las
especies). Si este fuera observado para cada sitio, entonces el número de sitios ocupados
que fueron muestreados es la cantidad:
x =
s∑i=1
zi.
Sin embargo, debido a la detección imperfecta, el estado de ocupación es descono-
cido para algunos sitios. El estimador lógico de x es:
x = sD+s∑
i=sD+1
zi,
esto es, el número de sitios ocupados en los cuales la especie fue detectada más el estado
de ocupación estimado para cada sitio donde no hubo detecciones. El valor esperado del
segundo término es (s− sD)ψcondl, donde ψcondl es la probabilidad de que el sitio esté
ocupado, condicional a que la especie no fue detectada. Recordar que este valor está
relacionado con p y ψ por el Teorema de Bayes:
ψcondl =ψ (1− p)K
(1− ψ) + ψ (1− p)K
83
3. Modelos de Ocupación
y, un estimador de ψcondl puede obtenerse sustituyendo ψ y p por sus estimadores en la
expresión. Luego, un estimador de x es:
x = sD + (s− sD) ψcondl.
Para un número mayor de sitios (incluidos los no muestreados), indexados por
j = s+ 1, s+ 2, . . . , S, donde S es la lista de sitios de muestreo potenciales, es necesario
agregar otro término al estimador de x. Entonces:
xpop = sD+
s∑i=sD+1
zi+
S∑j=s+1
zj .
Para esos sitios no muestreados, el valor esperado de zj es la probabilidad de ocu-
pación incondicional ψj . Cuando no se poseen covariables para explicar la variación en
la ocupación, el tercer término puede ser estimado simplemente como (S − s) ψ. Sin em-
bargo, no se espera que esta forma del estimador sea útil ante la presencia de covariables
de ocupación. En esos casos, el estado de ocupación de todas las unidades de muestreo
potenciales debe ser considerado en el contexto de las covariables disponibles, y la forma
general del estimador toma esto en consideración explícita.
Aunque se espera que estos estimadores sean insesgados, existe menos certeza de
obtener estimaciones precisas de la varianza para estas cantidades. Se sugiere que el esti-
mador para el número de sitios ocupados en la muestra, cuando la detección es constante,
tenga una varianza asintótica de:
V ar (x) =sψ (1− p∗)
p∗ −Kp (1− p)K−1.
Esto se basa en la segunda componente de V ar(ψEMV
), en su forma de dos componentes
de la Ecuación 3.1. Esta componente se asocia con la incertidumbre en el número de sitios
ocupados debida a la detección imperfecta de las especies. Análogamente, si se busca
estimar el número de sitios ocupados en una población �nita, cuando algunos sitios no
fueron muestreados y la probabilidad de detección es constante, se sugiere que la varianza
asintótica sea:
V ar (xpop) =sψ (1− p∗)
p∗ −Kp (1− p)K−1+ (S − s)2 V ar
(ψEMV
).
84
3.4. Estimación de la Ocupación para una Población Finita o Área Pequeña
Estas ecuaciones de varianza se basan puramente en los heurísticos de la situa-
ción y no se considerarán como estimaciones de varianza precisas por dos razones: 1)
dependen de las propiedades asintóticas de las estimaciones de máxima verosimilitud; y
2) no tienen en cuenta el aspecto discreto del estimador al que se re�rió anteriormente.
Usar un enfoque Bayesiano para la estimación podría solucionar este problema con una
implementación relativamente fácil, dadas las ventajas de los algoritmos MCMC.
3.4.2. Formulación Bayesiana del Modelo
Una manera más genérica de resolver cuestiones relacionadas a la inferencia sobre
el estado de ocupación es formular el modelo explícitamente en términos de las varia-
bles de estado de ocupación latentes (las zi's) y luego adoptar un análisis Bayesiano del
modelo jerárquico resultante. El bene�cio importante de este enfoque (en el contexto de
los modelos de ocupación) es que la estimación e inferencia de valores especí�cos de ziy funciones de zi's, como puede ser el número de sitios ocupados (x), pueden obtenerse
directamente. Además, se logra cierto grado de generalidad al abordar problemas de infe-
rencia bajo extensiones a los modelos, como cuando se tiene disponibilidad de covariables.
Más generalizaciones son relativamente sencillas, incluyendo situaciones multi-temporada
y modelos para múltiples especies.
La inferencia Bayesiana no es asintótica, esto es, medidas de la incertidumbre de los
parámetros, incluyendo funciones de ellos (es decir, parámetros derivados) y predicciones
de variables latentes, son válidas para cualquier tamaño de muestra.
Sea zi el estado de ocupación del sitio i (siendo 1 cuando está ocupado y 0 cuando
no). En la primer etapa del modelo jerárquico se especi�ca un modelo para el número
observado de detecciones en cada sitio, condicional al estado de ocupación del mismo.
Para zi = 1, se tiene una distribución Binomial cuando la probabilidad de detección es
constante, y para zi = 0, se tiene una masa puntual en 0 (es decir, si el sitio no está
ocupado sólo puede haber 0 detecciones). Por lo tanto, la primer componente del modelo
es el producto de Binomiales de los modelos de máxima verosimilitud, excepto que aquí,
al expresarse condicional a las variables de estado latentes zi, es el producto sólo de
aquellos sitios para los cuales zi = 1:
f (y1, y2, . . . , yx | z1, z2, . . . , zx) =∏zi=1
Bin (yi; p) ,
85
3. Modelos de Ocupación
donde yi es en número observado de detecciones.
En la segunda etapa, se especi�ca el modelo para las variables de estado latente
zi con i = 1, 2, . . . , s. Suponer entonces que las zi son variables aleatorias Bernoulli
independientes con probabilidad ψ, por lo que se tiene:
g (z1, z2, . . . , zs) =s∏i=1
ψzi (1− ψ)1−zi .
Por lo tanto, la distribución conjunta para las frecuencias de detección observadas
y las variables de estado de ocupación latentes es el producto
f (y1, y2, . . . , yx | z1, z2, . . . , zx) g (z1, z2, . . . , zs) .
Finalmente, deben especi�carse las distribuciones de probabilidad para los dos
parámetros en el modelo, p y ψ, es decir las distribuciones a priori (ver Sección 2.4.3). Una
elección natural (y la más común) para estas distribuciones es la distribución uniforme
U (0, 1) (es decir, todos los valores de p y ψ entre 0 y 1 son igualmente probables).
Estas hipótesis producen un modelo Bayesiano completamente especi�cado en el
sentido de que el cálculo de la distribución a posteriori de cualquier componente des-
conocida del modelo (por ejemplo, los parámetros o las variables de estado latentes)
puede obtenerse. Para obtener estas distribuciones se procede con la ayuda de métodos
de simulaciones, como MCMC, a través de softwares como WinBugs, R o SAS.
Una vez que se aproximaron las distribuciones a posteriori para cada cantidad,
cualquier resumen a posteriori se puede obtener de manera sencilla. Por ejemplo, sean
ψ(1), ψ(2), . . . , ψ(M) las M muestras a posteriori para las distribuciones de la probabili-
dad de ocupación, ψ. Puede representarse la distribución a posteriori con un histograma
o con un grá�co de densidad basado en estos valores, o simplemente calcular una esti-
mación puntual basada en la estimación Monte Carlo de la media a posteriori :
ψ =1
M
M∑m=1
ψ(m).
El mayor bene�cio del análisis Bayesiano en este contexto es que se pueden obtener
muestras a posteriori de las variables latentes zi con i = 1, 2, . . . , s (i.e., si la especie está
86
3.4. Estimación de la Ocupación para una Población Finita o Área Pequeña
presente o no en el sitio), que pueden utilizarse para estimar funciones de esas variables
(por ejemplo, el número de sitios ocupados en la muestra). En general, la distribución
a posteriori de una función de los parámetros del modelo puede ser estimada aplicando
esta función a las muestras a posteriori que se obtienen del MCMC. Por ejemplo, puede
realizarse un sorteo a posteriori (es decir, un valor de la distribución a posteriori) del
número de sitios ocupados entre los s sitios de la muestra calculando:
x(m) = sD+
s∑i=sD+1
z(m)i
usando la salida del MCMC para z(m)i con i = sD + 1, sD + 2, . . . , s. Esto puede ser
repetido para todas las muestras a posteriori de z(m)i para obtener la distribución a
posteriori de x. En la práctica, en vez de calcular estos valores después de completar
el proceso MCMC, puede especi�carse que x(m) debe ser calculado y guardado en cada
iteración del procedimiento. La distribución a posteriori de x será discreta (es decir, sólo
tendrá valores enteros entre sD y s); entonces, las estimaciones de la varianza basada
en esta distribución deben ser precisas para la situación de muestreo. No se necesitan
consideraciones asintóticas para a�rmar la validez de estas inferencias. Ademas, para
hacer inferencias sobre el número de sitios ocupados en la población, puede predecirse el
valor de las variables de estado latentes z(m)i con i = s+ 1, s+ 2, . . . , S como variables
aleatorias Bernoulli con probabilidad ψ. El procedimiento completo puede ser fácilmente
generalizado para tener en cuenta observaciones faltantes y permitir el uso de covariables.
Ejemplo 17. Con los mismos datos de la especie de salamandra del Ejemplo 15, pero
ahora con un enfoque Bayesiano, se desea estimar el número de sitios (sobre un total de
39) que estaban ocupados por la especie.
Como se dijo anteriormente, este enfoque utiliza métodos MCMC para generar ite-
rativamente muestras de los parámetros a partir de sus distribuciones a posteriori. Como
suele suceder en cualquier situación de muestreo, un número de muestras mayor provee
resultados más precisos sobre los parámetros. En este caso se obtuvieron computacional-
mente 101.000 muestras para aproximar la distribución a posteriori, donde las primeras
1.000 muestras son utilizadas como período de adaptación.
En la Figura 3.2 se encuentran los grá�cos de densidad o histogramas para las
distribuciones a posteriori estimadas de x, ψ y p. Observar que la distribución a posteriori
del número de sitios ocupados (x) es discreta y toma valores entre el número de sitios
con detecciones (18) y el total de sitios (39). En la Tabla 3.3 se muestran los valores de
87
3. Modelos de Ocupación
Figura 3.2.: Distribuciones a posteriori del número de sitios ocupados (x) y los paráme-tros del modelo (ψ y p) para el caso de la especie de salamandra
resumen de las distribuciones a posteriori estimadas. Notar que los valores de las medias
y errores estándar a posteriori de ψ y p son similares a las estimaciones obtenidas del
modelo constante ψ (·) p (·) en el enfoque de máxima verosimilitud (Tabla 3.1). Por lo
tanto, la inferencia realizada sobre la probabilidad de ocupación subyacente es similar en
ambos casos a pesar de tener un muestra relativamente chica.
En la Tabla 3.3 también se incluyen, para cada parámetro, los intervalos de credi-
bilidad al 95% ("intervalos de con�anza Bayesianos") de sus distribuciones a posteriori.
Notar que el intervalo de credibilidad correspondiente al número de sitios ocupados (x)
es asimétrico, lo cual es de esperarse en situaciones con muestras chicas.
3.5. Modelos con Probabilidad de Detección Heterogénea
A diferencia de los modelos anteriores donde se asumía la probabilidad de detec-
ción (p) constante (o variando sólo en respuesta a covariables medibles), existen modelos
88
3.5. Modelos con Probabilidad de Detección Heterogénea
Tabla 3.3.: Resumen de las distribuciones a posteriori del número de sitios ocupados (x)y los parámetros del modelo (ψ y p) ajustado a los datos de la especie desalamandra
Parámetro Media Desvío Intervalo de Credibilidad
ψ 0,61 0,12 (0, 40; 0, 89)
p 0,26 0,06 (0, 16; 0, 37)
x 24,16 4,06 (19; 34)
de ocupación que permiten heterogeneidad de la detección entre sitios. Es natural esta
consideración debido a que son muchos y variados los factores que in�uyen en la detec-
tabilidad, y puede no ser posible identi�carlos, mucho menos controlarlos, a todos. Por
ejemplo, la variación en la probabilidad de detección puede ser inducida por covariables
que afectan la detección pero no fueron incluidas en el modelo. Un factor crucial es que
los datos en los que se basan los modelos de ocupación son típicamente observaciones de
detección de las especies, y la variación en la abundancia de las especies en cada sitio
afecta seguramente la probabilidad de detectarlas (es decir, detectar al menos un indivi-
duo). La detección de al menos un miembro de la especie tenderá a ser mayor en aquellos
sitios donde la abundancia es alta, y baja en aquellos con poca abundancia. Por lo tanto,
sólo se puede descartar la heterogeneidad inducida por la abundancia en el caso que esta
sea vista como relativamente constante entre sitios "ocupados", lo cual raramente suele
suceder en la mayoría de los problemas de muestreo de animales. Esté fenómeno de hete-
rogeneidad inducida por la abundancia suele cobrar importancia para poblaciones chicas
(menos de 10 individuos) e irá disminuyendo en importancia para mayores tamaños de
población, caso en que la probabilidad de detección será tomada como aproximadamente
constante.
Existen muchos trabajos sobre modelos de captura-recaptura donde se introduce
heterogeneidad en la detección suponiendo que p varía por individuo (pi), y que cada uno
de estos es un valor aleatorio proveniente de una distribución, conocida como distribución
mezcla. Se suelen considerar distribuciones discretas, lo que se traduce en que p puede
tomar valores dentro de un conjunto �nito, conocido como mezcla �nita; y distribuciones
contínuas como la distribución Beta y la Logit-Normal. Estos modelos se pueden extender
al caso de los modelos de ocupación.
Alternativamente, Royle y Nichols (2003) sugieren explotar la relación entre la pro-
babilidad de detección y la abundancia, como formulación de modelos con heterogeneidad
en la detección. Lo que hicieron fue colocar la distribución mezcla en la abundancia. Su
89
3. Modelos de Ocupación
modelo permite la estimación de la abundancia a partir de datos de detección.
Análogamente a los modelos de ocupación anteriores, puede considerarse que p
varía temporalmente o en relación a covariables medibles, en adición a la heterogeneidad
entre sitios.
En este trabajo no se aplicarán estos modelos debido a la di�cultad de la recolección
de datos de abundancia para las especies de interés.
90
4. Modelos de Ocupación con
Componente Espacial
4.1. Introducción
Sitios vecinos tienden a tener condiciones similares y si las covariables disponibles
no re�ejan totalmente estas condiciones, entonces los residuos de un modelo ajustado
presentarán autocorrelación espacial. Incluso, más allá de los efectos del ambiente, la
probabilidad de ocurrencia de una especie en un sitio puede no ser independiente de la
ocurrencia de esta en un sitio vecino. Esto puede generar autocorrelación espacial que no
puede ser modelada satisfactoriamente por covariables ambientales.
Generalmente, la autocorrelación espacial se origina ya sea por tener un ambiente
autocorrelacionado donde locaciones cercanas son más similares que aquellas lejanas entre
sí, o por procesos como la atracción coespecí�ca y la habilidad de dispersión limitada
de la especie objetivo. Reconocer y analizar la autocorrelación espacial puede proveer
conocimientos sobre los procesos ecológicos que podrían ser pasados por alto de otra
manera. De esta manera, incorporar la autocorrelación espacial podría requerir el uso de
menos covariables y obtener una mejor visión de qué covariables afectan la distribución
de la especie. Además, el efecto de la estructura espacial es una importante componente
en el modelado de la relación ocupación-abundancia.
En este capítulo se estudiará la importancia de tener en cuenta la autocorrelación
espacial y la detección imperfecta a la hora de modelar la distribución de especies móviles,
raras y amenazadas. Se propone una formulación de modelos espaciales cuyo enfoque
discretiza el espacio en regiones o sitios, y modela la autocorrelación continuando con el
marco de máxima verosimilitud de los capítulos anteriores.
91
4. Modelos de Ocupación con Componente Espacial
4.2. Análisis Espacial
Un análisis espacial centra su atención en el estudio de objetos espaciales, de los
cuales utiliza dos tipos de información. Por un lado están los atributos de los objetos
espaciales, que incluyen tanto medidas cuantitativas como tamaño, temperatura y preci-
pitaciones, como también variables cualitativas como tipo de suelo, presencia de amenazas
o disponibilidad de un cierto recurso. Por otro lado, cada objeto espacial tiene una ubica-
ción, que puede ser descrita por su posición en un mapa, por referencias geográ�cas o por
sistemas de coordenadas. La mayoría de los análisis estadísticos hacen hincapié sobre uno
sólo de estos aspectos, siendo la autocorrelación espacial una de las pocas técnicas que
trata simultáneamente con información de ubicación y de atributos (Goodchild, 1986).
La importancia práctica de la autocorrelación espacial radica en sus diversas apli-
caciones. Aplicada como un índice descriptivo provee información sobre un fenómeno
espacialmente distribuido que no se encuentra disponible a través de otros análisis esta-
dísticos. Otra aplicación es que, cuando se buscan causantes de una distribución espacial
en particular, puede suceder que una variable explique un patrón pero sólo parcialmente,
por lo que examinar los patrones espaciales de los residuos puede ayudar a encontrar
otras variables que respondan por la variación restante. Por último, puede pensarse co-
mo una medida del proceso por el cual un sitio in�uencia a otro, siendo usualmente el
análisis de autocorrelación espacial una parte necesaria para una correcta previsión.
En sintonía con los modelos de ocupación, se utilizarán indistintamente los términos
"sitio", "objeto espacial" y "unidad de muestreo" para hacer referencia a los diferentes
objetos sobre los que se desean realizar inferencias.
4.2.1. Matrices de Pesos Espaciales
Los objetos espaciales pueden clasi�carse en puntos, líneas, áreas o retículos. Este
último grupo consiste de una grilla regular de puntos o celdas, usualmente rectangula-
res. En la mayoría de los casos el tipo de objeto espacial presente en los datos no se
corresponde a una característica de la realidad, por ejemplo, al usar objetos puntuales
en representación de áreas. Además de los diferentes tipos de objetos espaciales, existen
diversas maneras en que se puede medir la similitud espacial entre los mismos. Debido a
la amplia variedad de situaciones espaciales posibles, se introduce el concepto de matrices
de pesos espaciales.
92
4.2. Análisis Espacial
Sea un conjunto de n sitios, una matriz de pesos espaciales es una matriz W de
n× n con elementos wij que satisfacen:
a) wij ≥ 0 para todo i, j = 1, . . . , n.
b)n∑j=1
wij = 1 para todo i = 1, . . . , n.
Básicamente, wij cuanti�ca la in�uencia espacial relativa del sitio j sobre el si-
tio i. Los términos "contigüidad", "conectividad", "adyacencia" o "asociación" pueden
expresarse bajo diferentes con�guraciones de estas matrices. Además, la posibilidad de
utilizar pesos no simétricos ofrece mayor �exibilidad y realismo (Bavaud, 1998). No debe
prohibirse el uso de pesos diagonales no nulo, ya que el término wii puede pensarse como
una medida de auto-in�uencia del sitio i sobre sí mismo.
Una matriz de pesos espaciales puede no satisfacer la condición (b) de la de�ni-
ción anterior, es decir, no estar estandarizada por �las. Sin embargo, dicha condición
corresponde a una convención en los modelos de autocorrelación espacial, cuyo objetivo
es disminuir la heterogeneidad inducida por los diferente grados de conectividad de los
objetos (Tiefelsdorf, 2006). Esta condición debe obviarse para sitios aislados, es decir
sitios que no son in�uenciados por ningún otro. A estos se les corresponden �las nulas
en la matriz de pesos espaciales cuyos elementos suman cero y no veri�can la condición
(b) de la de�nición.
A continuación se presentan diferentes maneras de de�nir los pesos espaciales. Para
facilitar la lectura, se muestra cómo de�nir los pesos previo a la estandarización por �las
de las matrices.
Pesos Espaciales Por Contigüidad
Uno de los esquemas espaciales más simple es aquel en el que se tiene una grilla de
n celdas cuadradas y se de�ne el peso espacial entre dos celdas como:
wij =
1 si iy j son contígüas
0 caso contrario.
Existen diferentes criterios para determinar si dos celdas son contiguas. Los dos
criterios más simples se relacionan con los movimientos de las piezas torre y reina de un
93
4. Modelos de Ocupación con Componente Espacial
tablero de ajedrez. La torre puede realizar sólo movimientos en línea recta (por columnas
y �las), de lo que se desprende un esquema donde cada celda tiene 4 vecinas:
♣♣ yi ♣♣
.
Considerando ahora la reina, que puede moverse en cualquier dirección (por �las, colum-
nas y diagonales), se obtiene un esquema con 8 vecinas:
♣ ♣ ♣♣ yi ♣♣ ♣ ♣
.
La matriz de pesos espaciales resultante puede ser estandarizada por �las divi-
diendo cada �la por la cantidad de vecinos total del sitio correspondiente. Por ejemplo,
considerando un esquema de 9 celdas, las matrices de pesos para los esquemas anteriores
quedan como:
Wtorre =
0 12 0 1
2 0 0 0 0 013 0 1
3 0 13 0 0 0 0
0 12 0 0 0 1
2 0 0 013 0 0 0 1
3 0 13 0 0
0 14 0 1
4 0 14 0 1
4 0
0 0 13 0 1
3 0 0 0 13
0 0 0 12 0 0 0 1
2 0
0 0 0 0 13 0 1
3 0 13
0 0 0 0 0 12 0 1
2 0
94
4.2. Análisis Espacial
para el esquema torre y
Wreina =
0 13 0 1
313 0 0 0 0
15 0 1
515
15
15 0 0 0
0 13 0 0 1
313 0 0 0
15
15 0 0 1
5 0 15
15 0
16
16
16
16 0 1
616
16
16
0 15
15 0 1
5 0 0 15
15
0 0 0 13
13 0 0 1
3 0
0 0 0 15
15
15
15 0 1
5
0 0 0 0 13
13 0 1
3 0
para el esquema reina.
De manera análoga se puede de�nir los pesos espaciales por contigüidad para ob-
jetos del tipo área. Sea fr (i) la frontera del objeto i, entonces los pesos de contigüidad
reina se de�nen como
wij =
1 si fr (i) ∩ fr (j) 6= ∅
0 si fr (i) ∩ fr (j) = ∅.
Esto permite que sitios que comparten frontera en un sólo punto sean considerados
como in�uyentes entre sí, como las celdas diagonales del esquema reina para celdas (de
ahí el nombre de los pesos). Para establecer una condición más fuerte, sea lij la longitud
de la frontera compartida entre las áreas i y j (fr (i) ∩ fr (j)), entonces los pesos de
contigüidad torre se de�nen como:
wij =
1 si lij > 0
0 si lij = 0.
Pesos Espaciales Basados en la Distancia
En el esquema reina para grillas se le asignó el mismo peso a todos los vecinos, sin
embargo resulta más intuitivo asignar mayor peso a los vecinos horizontales y verticales
y menos a los diagonales. Esto se puede realizar de�niendo los pesos espaciales en base
a la distancia entre los centros de las celdas.
La distancia puede utilizarse para de�nir los pesos espaciales de otros tipos objetos
espaciales como puntos y áreas. Mientras que la distancia entre puntos suele calcularse de
95
4. Modelos de Ocupación con Componente Espacial
manera sencilla, la de�nición de una distancia entre áreas puede resultar más compleja.
Una opción es representar las áreas a través puntos de control, como sus centroides, y
medir la distancia entre estos puntos.
El centroide o media espacial de una región corresponde al punto que minimiza el
promedio de la distancia al cuadrado con los demás puntos de la región. Si el área de una
región R es
Area (R) =
ˆ
R
dx,
entonces el centroide o de R está dado por
o =1
Area (R)
ˆ
R
xdx,
que es simplemente el "promedio" de los puntos de la región.
Una vez calculadas las distancias dij entre los centroides de las diferentes áreas,
los pesos se pueden calcular aplicándoles una función decreciente apropiada como una
potencia negativa ,wij = d−bij , o una función exponencial negativa, wij = exp (−bdij). Enambos casos, b puede interpretarse como un parámetro �jo que afecta la velocidad en la
que el peso decrece con respecto a la distancia. Cuanto más chico sea el valor de b, más
lenta será la caída de la función.
Cada función de�nirá una relación diferente entre los pesos y las distancias, res-
petando en la mayoría de los casos la idea de que "menor distancia"="mayor peso".
Sin embargo, puede considerarse un modelo que asigne el mismo peso a todos los sitios
dentro de un umbral de distancias D, más allá de que algunos estén más cerca que otros.
Formalmente, los pesos se de�nen como:
wij =
1 si dij ≤ D
0 si dij > D.
La distancia entre centroides es una buena medida de "cercanía" cuando los sitios
son representados como áreas del mismo tamaño y forma, pero cuando varían en tamaño
y/o forma, su utilización puede no re�ejar correctamente el grado de asociación entre
ellos y resultar en una perdida de información. En la Figura 4.1 se observan dos pares
de áreas cuyas distancias entre centroides son iguales. Sin embargo, en el ejemplo (b) las
96
4.2. Análisis Espacial
(a) Esquema espacial con dos regiones de igual ta-maño
(b) Esquema espacial con dos regiones de diferentetamaño
Figura 4.1.: Ejemplos de distancia entre regiones de diferentes tamaños
dos áreas parecen estar más "cerca" que en el ejemplo (a). Esto se debe a la variación
en el tamaño de una de las regiones, información que no es representada por la distancia
entre centroides.
Intuitivamente, se puede de�nir la distancia entre dos áreas como la mínima dis-
tancia entre todos los pares de puntos formados por un punto de cada área:
dij = mın {d (p, q) con p ∈ i y q ∈ j} .
Para sitios cuyas fronteras se intersecan resulta dij = 0. Esto imposibilita la uti-
lización de las potencias negativas d−bij en la de�nición de los pesos. Una alternativa es
utilizar una función exponencial negativa o una traslación de las potencias negativas,
como por ejemplo:(dij + 1)−b.
Pesos Espaciales por Frontera Compartida
Como para los pesos espaciales por contigüidad, las fronteras de los sitios pueden
jugar un papel importante en determinar el grado de in�uencia espacial entre ellos. En
estos modelos se asigna el mismo peso a todos los sitios sin importar la longitud de
97
4. Modelos de Ocupación con Componente Espacial
la frontera compartida. Alternativamente, los pesos por frontera compartida se de�nen
como:
wij = lij ,
donde lij es la longitud de la frontera compartida entre i y j (fr (i) ∩ fr (j)). La
di�cultad de este enfoque es que la identi�cación de contigüidades y el cálculo de los lij 's,
requiere la manipulación de datos sobre fronteras, lo cual resulta mucho más complejo
que la utilización de datos de simples puntos de coordenadas (Smith, 2016).
Pesos Combinados
En muchas situaciones puede considerarse que tanto la distancia como la frontera
compartida entre sitios determinan el grado de in�uencia espacial entre ellos. Combinando
las de�niciones anteriores se pueden de�nir los pesos espaciales como
wij = lijs (dij ; b) ,
con s (dij ; b) una función de la distancia dij entre los sitios i y j (como las de�nidas
anteriormente) y b una constante positiva.
4.2.2. Medidas de Autocorrelación Espacial
Dados dos objetos espaciales i y j, sea cij un valor que represente la similitud entre
los atributos de los objetos y wij el peso espacial que representa la similitud entre sus
ubicaciones. En general, las medidas de autocorrelación espacial comparan el conjunto
de similitudes de atributos cij con el de similitudes entre ubicaciones wij , combinándolos
en un sólo índice de la forma: ∑ij
cijwij .
Existe una amplia variedad de maneras en que se pueden de�nir los cij 's, depen-
diendo del tipo de atributo involucrado. Sea xi el valor del atributo de interés para el
objeto i. Para datos categóricos las similitudes se suelen de�nir como:
cij =
1 si xi = xj
0 si xi 6= xj.
98
4.2. Análisis Espacial
Mientras que para datos intervalares (donde la diferencia entre valores está de�ni-
da) se suele recurrir a la diferencia cuadrada (xi − xj)2 o al producto (xi − x) (xj − x),
donde x corresponde al promedio de los valores del atributo.
El índice C de Geary (Geary, 1954) calcula los cij utilizando la diferencia cuadrada
y se de�ne como:
C =
∑ijwijcij
2S2n−1∑ijwij
,
donde S2n−1 corresponde a la varianza de los atributos xi's.
Geary diseñó este índice de tal manera que valga 1 cuando los atributos están
distribuidos independientemente de su ubicación, siendo menor que 1 cuando atributos
similares coinciden con ubicaciones similares y mayor que 1 en el caso contrario.
Alternativamente, el índice I de Moran (Moran, 1948) es positivo cuando sitios
cercanos tienden a ser similares, negativo cuando tienden a ser disimiles y aproximada-
mente cero cuando los atributos están distribuidos aleatoria e independientemente en el
espacio. Este índice se calcula como:
I =
∑ijwijcij
s2∑ijwij
,
donde s2 corresponde a la varianza muestral:
s2 =1
n
∑i
(xi − x)2 .
En este caso, la similitud entre atributos cij se calcula como el producto (xi − x) (xj − x),
que mide la covarianza entre el valor de una variable en un lugar y su valor en otro.
I varía entre -1 y 1, y su valor esperado bajo la hipótesis nula de ausencia de
autocorrelación espacial es (Gri�th, 1987):
E (I) = − 1
n− 1.
Para matrices de pesos espaciales estandarizadas por �las el índice de Moran re-
99
4. Modelos de Ocupación con Componente Espacial
Figura 4.2.: Esquema espacial de cuatro regiones
sulta:
I =
∑ijwijcij∑
i(xi − x)2
.
A continuación se ilustra el cálculo de los índices de autocorrelación espacial con
un simple ejemplo.
Ejemplo 18. Considerar el esquema espacial de la Figura 4.2 y un atributo asociado
cuyos valores para cada región son:
x1 = 3; x2 = 2; x3 = 2; x4 = 1.
Las medidas de resumen de los valores del atributo son:
z=2
σ2 =2
3
s2 =1
2.
Utilizando las diferencias cuadradas de los atributos se construye la matriz de las
100
4.2. Análisis Espacial
similitudes de atributos cij para el índice C de Geary:
cC =
0 1 1 4
1 0 0 1
1 0 0 1
4 1 1 0
.
Mientras que aplicando el producto (xi − x) (xj − x) se obtiene la matriz de los cij 's para
el índice I de Moran:
cI =
1 0 0 −1
0 0 0 0
0 0 0 0
−1 0 0 1
.
Utilizando pesos espaciales por contigüidad, la matriz de pesos resulta:
W =
0 1 1 1
1 0 0 1
1 0 0 1
1 1 1 0
,
que estandarizada por �las es:
W =
0 1
313
13
12 0 0 1
212 0 0 1
213
13
13 0
.
Finalmente aplicando las fórmulas de ambos índices se obtiene que C = 1, 2 e
I = −0, 4 para la matriz de pesos sin estandarizar, y C = 1, 125 e I = −1/3 para la
matriz de pesos estandarizadas. Notar que en todos los casos los índices evidencian una
autocorrelación espacial negativa, y que su efecto es más leve cuando se utiliza la matriz
de pesos espaciales estandarizada por �las en los cálculos. En este caso se observa que al
utilizar los pesos sin estandarizar se podría estar in�ando los efectos de autocorrelación
espacial.
101
4. Modelos de Ocupación con Componente Espacial
4.3. Autocovariable Espacial
Utilizando las matrices de pesos espaciales se puede construir un término de auto-
correlación espacial en base a los estados de ocupación de sitios contiguos. A continuación
se propone una manera de adicionar este término a los modelos formulados en capítulos
anteriores. Se comenzará desde el modelo más simple que no tiene en cuenta la detección
imperfecta, y se irán construyendo, a partir de este, modelos más complejos.
4.3.1. Modelos Espaciales con Detección Perfecta
Supóngase, inicialmente, que la detección es perfecta, siendo innecesaria la repeti-
ción de los muestreos. De esta manera, el vector de respuestas Y contiene los estados de
ocupación de los sitios, es decir:
yi =
1 si la especie está presente en el sitio i
0 caso contrario.
Sea pi la probabilidad de que la especie esté presente en el sitio i. Adicionando una
autocovariable o término de autocorrelación espacial en el modelado de las probabilidades
pi's se obtiene el modelo autologístico:
logit (pi) = β0 + βxi + cWiY
donde los dos primeros términos corresponden al modelo logístico de los capítulos ante-
riores, c es el parámetro de autoregresión y Wi es la �la de la matriz de pesos espaciales
correspondiente al sitio i.
Puede suceder, sobre todo cuando se trabaja con grillas de sitios, que no se posean
las observaciones correspondientes a algunos sitios dentro del área de muestreo. En estas
situaciones el término de autocorrelación espacial no puede ser evaluado, ya que para
algunos sitios el patrón de ocupación de sus vecinos es desconocido. Una solución es
incorporar un muestreo de Gibbs al modelo autologístico anterior.
El muestro de Gibbs permite estimar la distribución de la presencia/ausencia en
sitios no muestreados. Es un mecanismo para generar una observación (presencia o au-
sencia) en el sitio i dado el patrón de ocupación en sitios vecinos. A continuación se
detalla el algoritmo a utilizar:
102
4.3. Autocovariable Espacial
1. Ajustar el modelo de regresión logística, es decir el modelo sin la componente
espacial a los sitios muestreados. Calcular la probabilidad ajustada pi para todos
los sitios.
2. Crear un vector inicial Y de presencia/ausencia, generando un valor 1 o 0 con
probabilidad pi para los sitios no muestreados.
3. Calcular la autocovariable espacial para cada sitio usando la matriz de pesos espa-
ciales correspondiente y el vector Y del paso anterior.
4. Ajustar el modelo autologístico a los datos usando la autocovariable calculada del
vector Y actual.
5. Para cada sitio no muestreado:
a) Calcular la autocovariable en el sitio i.
b) Calcular pi, la predicción de la probabilidad condicional de presencia en el
sitio i, y generar una nueva yi.
6. Repetir pasos 3 a 5 hasta lograr convergencia.
El vector �nal de presencia/ausencia es la predicción de la distribución de la especie,
permitiendo la autocorrelación espacial. El muestreo de Gibbs crea una realización es-
tocástica del vector de presencia/ausencia en cada iteración y la utiliza para generar
estocásticamente observaciones para calcular la covariable. Como resultado, el mode-
lo autologístico ajustado después de cada iteración depende del resultado aleatorio de
este vector estocástico. Esto introduce variabilidad considerable y reduce la tasa de con-
vergencia del muestreo de Gibbs (Augustin et al., 1996). Una variación que se puede
implementar en cada paso es calcular la autocovariable utilizando la probabilidad de
ocupación, en lugar de los datos de las respuestas generadas
logit (pi) = β0 + βxi + cWip,
donde p es el vector de las probabilidades de ocupación ajustadas pi.
Este método es más e�ciente computacionalmente ya que no necesita la generación
de las respuestas para los sitios no muestreados en cada iteración.
103
4. Modelos de Ocupación con Componente Espacial
4.3.2. Modelos Espaciales con Detección Imperfecta
Muchos estudios se han realizado con el objetivo de mejorar los métodos estadís-
ticos capaces de incorporar ya sea la autocorrelación espacial o la detección imperfecta,
pero pocos han introducido ambos simultáneamente (Webb et al., 2014). En los capí-
tulos anteriores se habló extensivamente de la importancia de incorporar la detección
imperfecta en los modelos ocupación, por lo que a continuación se intentará adaptar la
autocorrelación espacial a los modelos ya estudiados.
Debido a que en los modelos de ocupación con detección imperfecta existen dos
procesos ocurriendo simultáneamente (la ocupación y la detección), se puede introducir
la autocorrelación espacial en cualquiera de ellos. Resulta más intuitivo considerar la
autocorrelación como un factor que afecta la probabilidad de ocupación de un sitio, la
cual estaría sujeta al estado de ocupación de sitios vecinos. Adaptando la autocovariable
espacial a la ocupación, se obtiene el modelo:
logit (ψi) = β0 + βxi + cWiZ,
donde ahora el término espacial está compuesto por el vector Z de las estimaciones para
las variables de estado latente zi, que indican si un sitio se encuentra realmente ocupado.
Para los sitios con al menos una detección se tiene que zi = 1, pero para los sitios sin
detecciones su valor es desconocido ya que puede suceder que la especie esté presente
pero no detectada (zi = 1) o que la especie no esté presente (zi = 0). Para estos sitios,
como se vio en la Sección 3.4.1, el valor esperado de zi será ψcondl, la probabilidad de
ocupación condicional a que la especie no fue detectada. Una estimación de ψcondl para
cada sitio está dada por:
ψi−condl =ψi (1− pi)K(
1− ψi)
+ ψi (1− pi)K
con K el número de visitas, y ψi y pi las estimaciones para el sitio i de la ocupación y la
detección, respectivamente.
Análogamente al modelo anterior, se puede adaptar el algoritmo del muestro de
Gibbs para obtener estimaciones de la ocupación en sitios sin detecciones y poder eva-
luar la autocovariable espacial. Inicializando el proceso utilizando las estimaciones de las
ψi−condl obtenidas del modelo logístico (sin la autocovariable) para generar valores de
104
4.3. Autocovariable Espacial
las zi's en sitios sin detecciones, luego se aplicará reiteradamente el modelo autologístico
actualizando estas estimaciones en cada iteración.
1. Ajustar el modelo de regresión logística (sin la componente espacial) a los sitios.
Calcular la probabilidad ajustada ψi−condl para los sitios sin detecciones.
2. Crear un vector inicial Z de presencia/ausencia, generando un valor 1 o 0 con
probabilidad ψi−condl para los sitios sin detecciones.
3. Calcular la autocovariable espacial para cada sitio usando la matriz de pesos espa-
ciales correspondiente y el vector Z del paso anterior.
4. Ajustar el modelo autologístico a los datos usando la autocovariable calculada del
vector Z.
5. Para cada sitio sin detecciones:
a) Calcular la autocovariable en el sitio i.
b) Calcular ψi−condl, la predicción de la probabilidad condicional de presencia en
el sitio i, y generar una nueva zi.
6. Repetir pasos 3 a 5 hasta lograr convergencia.
Como en algunas casos pueden existir tanto sitios sin detecciones como sitios no muestrea-
dos (pero in�uyentes), pueden fusionarse sin demasiadas complicaciones ambos muestreos
de Gibbs en un algoritmo que sortee estas situaciones simultáneamente.
Es de esperar que, al no haber muestreado algunos sitios, tampoco se posean los
datos de las covariables necesarios para calcular las estimaciones de la ocupación en
estos. En sintonía con la hipótesis de que sitios con ubicaciones similares tienden a poseer
características similares, se puede reemplazar la estimación de la ocupación en sitios no
muestreados por el promedio pesado de las estimaciones de la ocupación en los demás
sitios:
ψi =∑j
wijψj .
Análogamente al modelo con detección perfecta se puede implementar una varia-
ción al algoritmo propuesto calculando en cada paso la autocovariable espacial en base
105
4. Modelos de Ocupación con Componente Espacial
a las probabilidades de ocupación de los demás sitios, en lugar de las estimaciones de la
variable de estado latente Z:
logit (ψi) = β0 + βxi + cWiψ,
donde ψ es el vector de las probabilidades de ocupación ajustadas ψi.
Como se vio en el capítulo anterior, es posible utilizar las covariables de ocupación
como covariables de detección. Por lo tanto, se puede introducir variabilidad espacial en
la detección incluyendo la autocovariable espacial.
4.4. Ejemplo
Mediante simulaciones se creó una muestra de 40 sitios cuyos estados de ocupación
estaban espacialmente correlacionados. Cada sitio fue muestreado un total de 4 veces sin
observaciones faltantes. Los sitios tienen forma circular de�nida como un radio alrededor
de un punto de referencia y se encuentran distribuidos en un área de 10,000 km2. En la
Figura 4.3 se puede observar la distribución geográ�ca de los sitios y en cuáles sitios la
especie fue detectada al menos una vez.
Debido a que el tamaño de los sitios es variable, se construyen los pesos espaciales
en base a la distancia mínima, y no a la distancia entre centroides. Por lo tanto, se debe
seleccionar adecuadamente una función que esté de�nida en el cero. En este caso, dadas
las distancias entre sitios, se aplica la función exponencial negativa exp(− x
10
). Una vez
construida la matriz de pesos, se pueden calcular los índices de autocorrelación espacial.
Clasi�cando a los sitios en base a si tuvieron detecciones o no, se obtiene que el valor
para los índices C de Geary e I de Moran es de 0, 42 y 0, 57, respectivamente, lo que
evidencia una autocorrelación espacial positiva en ambos casos.
Por simplicidad, se tienen en cuenta sólo dos covariables, la autocovariable espacial
(AE) y el tamaño de los sitios (Área) medido en km2. Para mejor funcionamiento de los
algoritmos, se estandarizaron ambas covariables previo al ajuste de los modelos. Como se
ve en la Tabla 4.1, los modelos espaciales se ajustan considerablemente mejor a los datos
que los modelos sin la componente espacial. El tamaño de los sitios no parece ser un factor
determinante en los estados de ocupación, lo cual es de esperarse considerando que no
106
4.4. Ejemplo
Figura 4.3.: Distribución geográ�ca de los sitios diferenciados entre los que tuvieron almenos una detección y los que no tuvieron ninguna.
Tabla 4.1.: Selección de modelos y estimaciones de los parámetros
Modelo AICEstimaciones
ψ Área AE p
ψ (AE) p (·) 167, 67 309, 23± 366, 31 - 385, 12± 456, 34 −0, 41± 0, 19ψ(AE + Área
)p (·) 169, 53 21, 24± 56, 37 6, 19± 31, 06 21, 24± 65, 37 −0, 41± 0, 19
ψ(Área
)p (·) 195, 02 6, 19± 5, 85 5, 33± 5, 22 - −0, 63± 0, 20
ψ (·) p (·) 198, 90 2, 28± 1, 37 - - −0, 70± 0, 25
intervino en la simulación de los mismos. Por otro lado, las estimaciones del parámetro
espacial en los modelos que lo incluían evidenciaron un fuerte apoyo a la hipótesis de que
la relaciones espaciales entre los sitios afectan positivamente la probabilidad de ocupación.
La adición de la covariable Área en el modelo espacial no tuvo ningún efecto sobre
el funcionamiento del algoritmo propuesto, convergiendo en ambos casos a modelos que
utilizaban la misma estimación de la variable de estado latente Z para calcular la auto-
covariable espacial (Figura 4.4). El algoritmo fue exitoso a la hora de identi�car que uno
de los sitios estaba ocupado a pesar de no haber tenido detecciones, correspondiéndose
el mapa de la Figura 4.4 con el mapa original de ocupación a partir del cual se construyó
la matriz de historias de detección mediante simulaciones.
107
4. Modelos de Ocupación con Componente Espacial
Figura 4.4.: Mapa de ocupación estimado utilizado por los modelos espaciales ψ (AE) p (·)y ψ
(AE + Área
)p (·) para calcular la autocovariable espacial.
4.5. Discusión
La elección de un modelo espacial en particular se debe basar en las hipótesis
sobre el sistema biológico. En particular, un modelo espacial debe estar fuertemente
relacionado con la manera en que fueron elegidas y diseñadas las unidades de muestro.
Por ejemplo, al estudiar una especie de ave voladora, sería más adecuado un modelo con
pesos espaciales basados en distancias que uno con pesos basados en fronteras. De la
misma manera, que para un caso de este tipo resulta más adecuado considerar una serie
de sitios lo su�cientemente alejados entre sí. Sin embargo, como sucede con las covariables
no espaciales, debe evaluarse la incorporación de diferentes términos espaciales, y recurrir
a la selección de modelos para determinar el modelo que se ajusta mejor a los datos.
En contraste con el enfoque anterior, que se basa en discretizar el área de muestreo
en celdas o áreas, se puede ver el espacio como inherentemente continuo y modelar la
autocorrelación espacial introduciendo funciones suaves de las coordenadas espaciales.
Este enfoque depende de modelos estadísticos más �exibles que permitan identi�car y
caracterizar efectos de regresión no lineal. Estos modelos son conocidos como Modelos
Aditivos Generalizados (Hastie y Tibshirani, 1986) y se caracterizan por reemplazar los
108
4.5. Discusión
términos del predictor lineal de los Modelos Lineales Generalizados por funciones suaves
desconocidas. Debido a que requieren el desarrollo de la teoría de Modelos Aditivos
Generalizados, no se analizará la incorporación de una covariable espacial suavizada en
este trabajo.
109
5. Caso de Estudio: El Sapito de las
Sierras
5.1. Introducción
El Sapito de las Sierras (Melanophryniscus a�. montevidensis) (Figura 5.1) es una
especie amenazada y endémica restringida a dos pequeños y fragmentados relictos de
pastizal serrano del Sistema de Tandilia en Argentina (Figura 5.2). Debido a su pequeño
tamaño (de 2,5 a 3 cm) y su coloración oscura resulta muy difícil su detección visual, pa-
sando inadvertidos durante la mayor parte del año. La detección del sapito se incrementa
notablemente durante su temporada reproductiva, gracias a que los machos emiten un
canto nupcial, incrementando así la detección auditiva de la especie. Sin embargo, la ac-
tividad de canto de los machos está restringida a breves periodos de 2 a 3 días, asociados
a intensas precipitaciones (Cortelezzi et al., 2015).
En la actualidad, la fragmentación, la falta de conexión entre sitios reproductivos
y la modi�cación de los pastizales naturales está causando la disminución de la especie,
por ello resulta fundamental identi�car aquellas variables que afectan su detección para
de�nir programas de monitoreo e�cientes.
En este capítulo se trabajará sobre datos del Sapito de las Sierras pertenecientes al
Instituto Multidiciplinario sobre Ecosistemas y Desarrollo Sustentable (ECOSISTEMAS)
de la Universidad Nacional del Centro de la Provincia de Buenos Aires (UNICEN).
5.2. Métodos
La región de estudio se encuentra ubicada en el área protegida "La Poligonal",
un mosaico de pastizales serranos en las afueras de la ciudad de Tandil. Sobre este área
111
5. Caso de Estudio: El Sapito de las Sierras
Figura 5.1.: El Sapito de las Sierras (Melanophryniscus a�. montevidensis) en los pasti-zales serranos de la Pampa, Argentina.
112
5.2. Métodos
Figura 5.2.: Fragmentos de pastizal serrana en el área protegida La Poligonal, provinciade Buenos Aires Argentina. La grilla regular incluye 358 celdas de 12,8 hascada una. El mapa interior muestra la ubicación de la región Pampeana.
113
5. Caso de Estudio: El Sapito de las Sierras
se de�nió una grilla y se muestrearon 38 celdas, completando 4 visitas por celda en la
mayoría de los casos. Las visitas se realizaron entre las 10 y las 17 hs, entre Agosto de
2012 y Marzo de 2014. En cada visita se detectaron los sapitos mediante una combinación
de muestreos auditivos y visuales.
Basados en las características y comportamientos de la especie se incluyeron seis
covariables bajo las siguientes hipótesis:
1. Los días calurosos, es decir aquellos con altas temperaturas diarias máximas, limitan
el forrajeo y la actividad reproductiva, afectando negativamente la detección.
2. Las noches cálidas, es decir aquellas con altas temperaturas diarias mínimas, esti-
mulan el forrajeo y la actividad reproductiva, favoreciendo la detección.
3. Las altas precipitaciones y los altos niveles de almacenaje de agua en el suelo crean
las condiciones ambientales propicias para la reproducción.
4. La actividad reproductiva decrece al ir avanzando la temporada.
Las covariables de detección serán:
Temperaturas mínimas y máximas del día de visita (TMin y TMax).
Precipitaciones acumuladas de 1 día y 3 días antes de la visita (P1D y P3D).
Datos del almacenaje de agua en suelo (Alm) obtenidos del sitio de la O�cina de
Riesgo Agropecuario (http://www.ora.gov.ar/).
Día de la temporada (DT) contando a partir del 1º de Agosto de 2012.
Previo a la implementación de los métodos, se describieron las variables antes menciona-
das y se realizaron pruebas t de Student sobre las covariables obtenidas según dos grupos
con y sin detección. Se calcularon además medidas de asociación entre estas variables
(Ver Tabla 5.1) . Sólo se observó una correlación lineal superior a 0.7 entre el almace-
naje de agua en suelo (Alm) y la precipitación acumulada los 3 días previos al muestreo
(P3D). La temperatura máxima (TMax), el almacenaje de agua en suelo (Alm) y las pre-
cipitaciones acumuladas en las 24 Hs previas al muestreo (P1D) mostraron diferencias
signi�cativas entre los sitios con y sin detección.
114
5.2. Métodos
Tabla 5.1.: Análisis de las covariables a utilizar en los modelos de ocupación ajustados alos datos del Sapito de las Sierras
VariableNo detección
x± EEDetecciónx± EE P -valor
TMax 25, 91± 2, 52 23, 64± 4, 13 2, 76× 10−4
TMin 9, 55± 3, 93 9, 58± 4, 53 0, 97P1D 0, 24± 1, 25 5, 26± 14, 2 4, 34× 10−3
P3D 15, 27± 19, 38 21, 64± 23 0, 10Alm 68, 14± 10, 32 73, 43± 10, 85 0, 01DT 97, 02± 36, 5 92, 31± 41, 94 0, 51
(a) Pruebas t de Student para dos muestras, con y sin detección, conrespecto cada covariable
TMax TMin P1D P3D Alm DTTMax - 0, 68 0, 30 0, 51 0, 41 0, 52TMin - - 0, 27 0, 57 0, 43 0, 56P1D - - - 0, 39 0, 44 0, 19P3D - - - - 0, 78 0, 56Alm - - - - - 0, 47
(b) Pruebas de asociación entre covariables utilizando el coe�-ciente de correlación de Pearson
115
5. Caso de Estudio: El Sapito de las Sierras
5.3. Modelado
En este caso, la ocupación (ψ) se de�ne como la proporción de sitios ocupados.
En consecuencia, la probabilidad de detectar la especie en un muestreo es de�nida como
el producto entre la probabilidad de que la misma use esa celda durante la temporada
y la probabilidad de detectarla durante el muestreo, dado que se encuentra físicamente
presente en la celda (p).
Por problemas de acceso y restricciones de tiempo, no se pudieron completar las
cuatro visitas en 13 de las 38 celdas, por lo que se ajustaron modelos que aceptan obser-
vaciones faltantes.
Previo al ajuste de los modelos se estandarizaron las covariables continuas (TMax,
TMin, P1D, P3D, Alm) para un mejor funcionamiento computacional y se transformó a
la escala logarítmica a la covariable de conteo DT.
En base a las hipótesis anteriores se desarrolló un conjunto de modelos con 2 a 5
parámetros (incluyendo los interceptos para la ocupación y la detección). De este conjun-
to, se identi�có al modelo ψ (·) p (TMax + P1D + Alm) como el mejor, correspondiente
al de menor valor de AIC. En la Tabla 5.2 se pueden ver las estimaciones de los pará-
metros (β's) y los errores estándar correspondientes a las covariables de los modelos que
se encontraron a dos unidades de AIC (∆AIC < 2) del mejor modelo.
La temperatura máxima (TMax) estuvo presente en los 3 modelos seleccionados,
en todos ellos su coe�ciente fue negativo, lo que indica que es de esperar menor detec-
ción a temperaturas máximas más altas. En cambio, la covariable de las precipitaciones
acumuladas de 1 día (P1D), que también estuvo en todos los mejores modelos, mostró
una asociación positiva. Otras covariables signi�cativas fueron el almacenaje de agua en
suelo (Alm), la temperatura mínima (TMin) y las precipitaciones acumuladas de 3 días
(P3D), con coe�cientes positivos en todos los casos, indicando que a mayores valores de
estas covariables se espera una mayor probabilidad de detección.
En los grá�cos de la Figura 5.3, se encuentra gra�cada la detección sobre los 3
mejores modelos en base a las covariables TMax y P1D, dejando las demás covariables en
cero (su media en la escala normal). Se puede apreciar el efecto negativo de la temperatura
máxima sobre la detección. En el caso de las precipitaciones del día anterior, no sólo se
puede ver su efecto positivo sino también lo rápido que llega a un punto de saturación.
116
5.3. Modelado
(a) Estimación de la probabilidad de detección en función de la temperaturamáxima
(b) Estimación de la probabilidad de detección en función de las precipitacionesdel día anterior
Figura 5.3.: Estimación de la Detección en relación a las variables presentes en los mejoresmodelos 117
5. Caso de Estudio: El Sapito de las Sierras
Tabla 5.2.: Selección de modelos y estimaciones de los parámetros para el caso del Sapitode las Sierras
Modelo AICEstimaciones
p TMax TMin P1D P3D Almψ (·) p (TMax + P1D + P3D) 133, 5184 0, 81± 0, 48 −1, 48± 0, 32 - 2, 58± 1, 70 1, 00± 0, 29 -ψ (·) p (TMax + P1D + Alm) 134, 8695 0, 59± 0, 36 −1, 41± 0, 32 - 1, 38± 1, 20 - 0, 91± 0, 27ψ (·) p (TMax + TMin + P1D) 135, 4261 0, 87± 0, 49 −1, 67± 0, 36 1, 08± 0, 34 3, 00± 1, 80 - -
5.4. Estimación de la Probabilidad de Detección Utilizando
Datos de Previsión Meteorológica
Como se vio en la sección anterior, es necesario proporcionar a los modelos los va-
lores de las covariables involucradas para poder obtener una estimación de la detección.
Ahora, estos valores podrían provenir de datos meteorológicos de previsión, de esta mane-
ra se obtendría una estimación para los días futuros. Con estos datos se puede programar
con anticipación los muestreos conociendo qué días la estimación de la probabilidad de
detección es más alta.
Datos previsionales como las precipitaciones y las temperaturas se pueden obtener
fácilmente de una serie de servicios meteorológicos online. En cambio, es más complejo
obtener datos futuros para el almacenaje de agua en suelo, porque depende de diversos
factores como el tipo de suelo, la variación temporal de la lluvia, de la temperatura y
de otros atributos del clima (Durval et al., 1999). Para sortear este obstáculo se puede
recurrir a proporcionar a los modelos valores de almacenaje por debajo y por arriba de
la media para evaluar diferentes escenarios.
Una vez obtenidos los datos de temperaturas y precipitaciones para los días próxi-
mos a la fecha desde la página web de algún servicio meteorológico, en este caso Wind-
Guru.com, se le proporcionan al software los valores de las covariables del modelo elegido
y valores para el almacenaje de agua en suelo (en caso que esta sea una de dichas covaria-
bles), obteniendo estimaciones de la detección para los próximos días. Supóngase, a modo
de ejemplo, que se quieren conocer las estimación de la detección bajo el segundo mejor
modelo ψ (·) p (TMax + P1D + Alm). Como el almacenaje es una de las covariables, se
suministran a la función los valores -1, 0 y 1. Como se ve en la Figura 5.4, los días 27,
28 y 29 de Noviembre serían los mejores para realizar muestreos del sapito, es decir los
días donde hay mayor probabilidad de encontrarlo.
118
5.4. Estimación de la Probabilidad de Detección Utilizando Datos de Previsión Meteorológica
Figura 5.4.: Previsión de la estimación de la probabilidad detección
119
5. Caso de Estudio: El Sapito de las Sierras
5.5. Conclusiones
El análisis anterior proporciona evidencia de una predecible asociación entre la pro-
babilidad de detección y una combinación de condiciones de clima y suelo en el Sapito de
las Sierras (Friedman et al., 2016). El almacenaje de agua en suelo y las precipitaciones
acumuladas del día anterior se mostraron asociadas a altas probabilidades de detección.
Estos dos factores son necesarios para el establecimiento y persistencia de charcos tem-
porarios.
La detección del Sapito de las Sierras estuvo restringida por las temperaturas dia-
rias, lo cual no es sorpresa siendo que la actividad de la mayoría de los ectotermos es
in�uenciada de manera similar (Rohr y Malone, 2001). Altos niveles de temperaturas
mínimas, característica asociada a noches templadas, exhibieron un efecto positivo en la
probabilidad de detección. Alternativamente, el aumento de las temperaturas máximas
durante días cálidos, mostró un efecto negativo en la detección. Las altas temperaturas
pueden causar que los sapitos se retraigan entre la vegetación, reduciendo la actividad de
llamado. Además, las altas temperaturas del verano aumentan la evaporación, reduciendo
la humedad del suelo y la persistencia de los charcos.
Contrario a lo supuesto, no se encontraron efectos lineales del momento de la
temporada sobre la probabilidad de detección. La actividad reproductiva del sapito parece
concentrarse en primavera y hacia el �nal del verano.
La sólida relación entre el clima y la probabilidad de detección permite estimar
cuántas oportunidades de muestreo hay durante una temporada. Teniendo a disponibi-
lidad una base de datos climáticos, los modelos desarrollados se pueden utilizar para
evaluar tendencias en el número de oportunidades de reproducción entre diferentes tem-
poradas. Desde una perspectiva de monitoreo, la predicción de la detección basada en
datos climáticos futuros permitirá seleccionar las mejores fechas de muestreo. El desa-
rrollo de una herramienta basada en datos climáticos disponibles gratuitamente provee
una solución práctica para el efectivo muestreo de especies elusivas con problemas de
conservación.
120
6. Caso de Estudio: Loros de Bolivia
6.1. Introducción
La manera en que las diferentes especies se ven afectadas por la fragmentación
de sus hábitats puede estar determinada por diferencias en aquellos comportamientos
relacionados al uso del espacio y los patrones de movimiento de los individuos. Carac-
terísticas como la lealtad o la especialización de hábitat, la habilidad de dispersión y la
capacidad de colonización afectan la vulnerabilidad de las especies a la fragmentación de
su hábitat.
En el caso de la mayoría de las especies de loros, su alta movilidad les permite
usar, o alcanzar al menos, pequeños remanentes dentro de paisajes fragmentados. Esta
habilidad les permite usar hábitats heterogéneos, incluso durante un mismo día, para
diferentes propósitos. Además, el uso puede cambiar entre temporadas en respuesta a la
disponibilidad de alimentos. Sin embargo, la �delidad a los sitios de anidado y descanso es
alta, sobretodo en la temporada reproductiva. Como resultado de este comportamiento
es que se debe considerar la variabilidad de la detectabilidad en estudios de hábitat
(Berkunsky et al., 2015).
Las sabanas de Beni, al norte de Bolivia, son el hábitat de 23 especies de loros,
incluyendo al Guacamayo de Barba Azul (Ara glaucogularis) que se encuentra en peligro
crítico de extinción. Los hábitats de bosque de esta zona se encuentran naturalmente
fragmentados y limitados a islas de bosque y galerías de bosques ribereños. Sin embargo,
la calidad de estos fragmentos se ha ido reduciendo notablemente, por esta razón es que,
identi�car las variables asociadas al uso de los fragmentos es esencial para determinar
cómo la calidad del hábitat se ve afectada por las actividades del hombre.
En este capítulo se cuanti�carán las diferencias en el uso de las islas de bosque
(hábitats boscosos naturalmente fragmentados) por especies de loros a través del mode-
121
6. Caso de Estudio: Loros de Bolivia
lado de la ocupación. Se examinará el uso del hábitat de una serie de islas de bosque que
varían en tamaño, disponibilidad de recursos y en presencia de amenazas.
6.2. Métodos
El paisaje de la región de estudio está dominado por áreas bajas y planas cubiertas
por sabana completamente abierta, sin árboles y que se inunda según la temporada.
Las características de la sabana no son adecuadas para el desarrollo de la agricultura
tradicional, por lo que la ganadería es la actividad económica principal (Mayle et al.,
2007).
En 2011 se muestrearon 60 islas de bosque para estudiar la ocurrencia de las especies
de loros. El muestro se realizó durante un período de 9 semanas al �n de la temporada
seca, que coincide con la temporada reproductiva.
Las palmeras grandes se consideran un recurso clave para los guacamayos y loros
debido a que son usados para la alimentación y el anidado. Por esta razón, se registró e
incluyó en los modelos la presencia de las especies de palmeras Motacú (Attalea phalerata)
y Totaí (Acrocomia aculeata) como covariables. También se tuvo en cuenta la presencia
de tala selectiva y de fuegos como covariables de amenaza al hábitat.
Además del tamaño de las islas de bosque, se consideró el número de cavidades de
cada isla como covariable de disponibilidad de recursos de anidado.
Bajo la hipótesis de que cuanto más tarde en el día sea realizado el muestro la
probabilidad de detección será más baja, se incluyó como covariable de detección al
tiempo de inicio de cada muestro registrado en horas desde el amanecer.
En la Tabla 6.1 se pueden apreciar en resumen las covariables incluidas junto a las
hipótesis correspondientes.
Previo a la implementación de los métodos, se compararon los valores medios de
cada covariable en los grupos con y sin detecciones, realizando pruebas t de Student
para las covariables numéricas y pruebas Chi-Cuadrado para las covariables dicotómicas.
Además, se analizaron los datos de covariables en busca de correlaciones signi�cativas.
Tómese como ejemplo al Guacamayo de Barba Azul (Ara glaucogularis). En la Tabla 6.2
se puede apreciar que el número de cavidades mostró una diferencia signi�cativa entre los
122
6.3. Modelado
Tabla 6.1.: Resumen de las covariables a tener en cuenta en los modelos ajustados a losdatos del Guacamayo de Barba Azul
Categoría Variable Descripción Tipo Hipótesis
Recursos
Área Tamaño de la isla (ha) Continua ⇑ Disponibilidad de hábitatCavidades Número de cavidades detectadas Conteo ⇑ Hábitat de nidi�caciónMotacú Presencia de Atthalea phalerata Binaria ⇑ Forrajeo y nidi�caciónTotaí Presencia de Acrocomia aculeata Binaria ⇑ Forrajeo y nidi�cación
AmenazasTala Evidencia de tala selectiva Binaria ⇓ Calidad de hábitatFuego Evidencia de fuego Binaria ⇓ Calidad de hábitat
Muestreo Inicio Hora de comienzo del muestreo relativa ala salida del sol
Continua ⇓ Actividad de los loros
Tabla 6.2.: Análisis de Covariables para el caso del Guacamayo de Barba Azul. Tomandopara cada covariable dos muestras, una correspondiente a los sitios con almenos una detección y otra en sitio sin detecciones, se compararon las mediasentre los dos grupos.
VariableNo detección
x + EEDetecciónx + EE
P -valor
Área 5, 26± 10, 42 17, 43± 26, 83 0, 15Cavidades 2, 67± 4, 37 8, 33± 5, 03 2, 65× 10−3
Motacú 0, 90± 0, 31 1, 00± 0, 00 0, 24Totaí 0, 40± 0, 49 0, 75± 0, 46 0, 03Tala 0, 67± 0, 48 0, 75± 0, 46 0, 53Fuego 0, 35± 0, 48 0, 33± 0, 49 0, 89Inicio −0, 05± 0, 96 0, 09± 1, 13 0, 59
dos grupos, y en menor medida esto sucedió para la covariable Totaí. No se encontraron
diferencias signi�cativas entre los muestreos con y sin detecciones con respecto al inicio
de muestro.
No se observó asociación entre la presencia de las palmeras y las amenazas (Fuego
y Tala), excepto para Totaí que estuvo presente a pesar de la tala.
6.3. Modelado
En este caso, la hipótesis de clausura no se cumple debido a que el estado de
ocupación de los sitios es variable. Si las especies de loros se mueven aleatoriamente
entre las unidades de muestreo, el estimador de ocupación debe ser interpretado como
la proporción de islas de bosque "usadas" por las especies objetivo (MacKenzie y Royle,
2005). Consecuentemente, la probabilidad de detección en una isla de bosque se de�ne
123
6. Caso de Estudio: Loros de Bolivia
como el producto entre la probabilidad de uso durante la temporada y la probabilidad
de detección dado que la especie se encuentra físicamente en el lugar.
Por problemas de acceso y restricciones de tiempo no se pudo completar el máximo
establecido de tres visitas para 46 de los 60 sitios, por lo que se adecuó un modelo de
una temporada con observaciones faltantes.
Previamente a la implementación de los modelos, se estandarizaron las covariables
continuas (área e inicio de muestreo) y transformar a la escala logarítmica la covariable
de conteo correspondiente al número de cavidades (sumando previamente 1 para evitar
los ceros).
Se consideraron sólo modelos con 2 a 6 parámetros (incluyendo los interceptos de la
detección y la ocupación) manteniendo un ratio aproximado de datos/parámetros mayor
a 10,
Máximo número de parámetros =Cantidad de sitios
10.
Análogamente al caso anterior, se desecharon aquellos modelos cuyo valor de AIC
era menor que el del modelo constante (ψ(·) p (·)) y luego aquellos con más de 2 unidades
de AIC de diferencia (∆AIC > 2) con el modelo de mejor ajuste. Aquellos modelos que
no hayan convergido deben ser descartados ya que pueden conducir a inferencias erróneas.
También se debe analizar el número de condición de cada modelo, el cual muestra el
grado de inestabilidad del mismo y de sus estimaciones. Ante la presencia de modelos
con números de condición demasiado grandes, se debe determinar si sus estimaciones,
además de explicar correctamente los datos, no resultan irrisorias.
Para las covariables presentes en el conjunto de 8 modelos restantes se calcularon
las estimaciones de los parámetros (β's) y sus errores estándar (Tabla 6.3). El número de
cavidades estuvo presente en los mejores modelos seguido por la presencia de la palmera
Totaí (presente en 6 de los 8 modelos), ambas exhibiendo un marcado efecto positivo en
la probabilidad de uso. Otras covariables presentes en menor medida fueron la evidencia
de fuego (en 3 modelos), la evidencia de tala (en 1 modelo) y el tamaño de sitio (en 1
modelo). De acuerdo a las hipótesis, las amenazas (fuego y tala) mostraron un efecto
negativo en el uso, mientras que el tamaño de sitio mostró un efecto positivo. Sólo
dos modelos de la lista incluyeron al inicio de muestreo como covariable de detección,
exhibiendo un efecto negativo sobre esta. Es probable que la presencia de estos modelos
entre los mejores se deba más al aporte de las covariables de ocupación y no tanto a la
inclusión de la covariable de detección.
124
6.3. Modelado
Tabla
6.3.:Estim
acionesde
losparámetrosde
losmejores
modelos
para
elcaso
delGuacamayode
Barba
Azul
Modelo
AIC
Estim
acionesp
Estim
acionesψ
p(Intercepto)
Inicio
ψ(Intercepto)
Área
Cavidades
Totaí
Tala
Fuego
ψ(C
avidades
+Totaí
)p
(·)73,
681,
01±
0,51
-−
4,84±
1,4
1-
1,79±
0,6
11,
59±
0,96
--
ψ(C
avidades
+Totaí
+Fuego
)p
(·)73,8
11,
06±
0,49
-−
4,91±
1,4
9-
2,13±
0,7
01,
49±
0,99
-−
1,4
1±
1,08
ψ(C
avidades
+Fuego
)p
(·)74,2
50,
95±
0,51
-−
3,91±
1,1
8-
2,18±
0,7
3-
-−
1,5
3±
1,06
ψ(C
avidades
)p
(·)74,5
70,
82±
0,55
-−
3,92±
1,2
0-
1,91±
0,7
1-
--
ψ( Áre
a+Cavidades
+Totaí) p(·
)74,4
10,
98±
0,52
-−
4,67±
1,4
20,2
9±
0,7
11,
66±
0,6
31,
66±
1,03
--
ψ(C
avidades
+Totaí
)p
(Inicio)
75,4
21,
07±
0,53
−0,
20±
0,3
9−
4,83±
1,4
1-
1,79±
0,6
01,
58±
0,96
--
ψ(C
avidades
+Totaí
+Fuego
)p
(Inicio)
75,5
81,
12±
0,5
1−
0,19±
0,3
9−
4,9
1±
1,5
0-
2,13±
0,7
01,
49±
0,98
-−
1,39±
1,0
8ψ
(Cavidades
+Totaí
+Tala)p
(·)75,6
51,
01±
0,5
0-
−4,7
4±
1,5
1-
1,79±
0,6
01,
68±
1,08
−0,2
1±
1,1
2-
125
6. Caso de Estudio: Loros de Bolivia
Tabla 6.4.: Resumen de las estimaciones de los parámetros del modelo promedio para elcaso del Guacamayo de Barba Azul
Parámetro Estimación EE Intervalo de Con�anzaψ (Intercepto) −4, 58 1, 45 (−6, 95; −2, 20)
Área 0, 29 0, 71 (−0, 87; 1, 46)Cavidades 1, 95 0, 69 (0, 80; 3, 09)Totaí 1, 57 0, 99 (−0, 07; 3, 20)Tala −0, 21 1, 12 (−2, 06; 1, 64)Fuego −1,45 1, 07 (−3, 22; 0, 32)
p (Intercepto) 0, 99 0, 52 (0, 14; 1, 85)Inicio −0, 20 0, 39 (−0, 84; 0, 45)
Para determinar el nivel general de soporte de cada variable se calculó la estimación
del modelo promedio que se obtiene promediando las estimaciones de los modelos en
los que está incluida la covariable con los pesos de AIC de cada uno (Tabla 6.4). Se
considera que el efecto de una covariable es signi�cativo si todos los valores del intervalo
de con�anza se encuentran del mismo lado de cero (son todos positivos o todos negativos).
Si el intervalo de con�anza al 90% contiene al cero (más precisamente al valor especi�cado
en la hipótesis nula), entonces el efecto de la covariable no será signi�cativo. La única
covariable que cumple este requisito es el número de cavidades, lo que indica un efecto
positivo consistente sobre la probabilidad de uso (Lane, 2011).
Para entender mejor el efecto del número de cavidades sobre la probabilidad de
uso, se tomó el modelo promedio de los primeros cuatro modelos que incluyen a las
tres covariables más signi�cativas (número de cavidades, presencia de Totaí y evidencia
de fuegos), y se gra�caron los diferentes escenarios con respecto a los valores de las
covariables binarias Totaí y Fuego. En la Figura 6.1 se puede apreciar cómo el mejor
escenario es aquel donde está presente la palmera Totaí y no hay evidencias de incendios.
También se puede observar cómo la curva asociada a este caso llega a un punto de
saturación alrededor de las 15 cavidades. Por otro lado, el peor escenario es el opuesto al
anterior, con evidencia de fuegos y ausencia de Totaí. Este escenario describe una curva
de crecimiento mucho más suave que las demás.
6.4. Conclusiones
Las islas de bosque, hábitats de un gran número de especies de loros de la sabana de
Beni, mostraron variación en tamaño, disponibilidad de recursos y presencia de amenazas.
126
6.4. Conclusiones
Figura 6.1.: Estimación promedio de la probabilidad de uso en función del número decavidades para diferentes escenarios.
127
6. Caso de Estudio: Loros de Bolivia
Esta heterogeneidad en la calidad del hábitat explicaron el uso de las islas por las especies
de loros.
El número de cavidades en árboles presentes en cada isla fue identi�cado como un
factor clave asociado al uso de los sitios por las especies. Islas con más de 5 cavidades
mostraron una probabilidad de uso mayor a 0,5 y de 0,9 en islas con más de 15 (Berkunsky
et al., 2015).
La palmera Motacú (Attalea phalerata) estuvo presente en casi todas las islas de
bosque. Esta falta de variación puede haber sido la causa de que la covariable asociada
haya estado ausente entre los mejores modelos. Por otro lado, la palmera Totaí (Acrocomia
aculeata) explicó parte del uso de las islas de bosque. Esta palmera es un recurso común
de anidado y alimento para muchos loros neotropicales (Berkunsky et al., 2014).
El Guacamayo de Barba Azul (Ara glaucogularis), que se encuentra en peligro de
extinción, fue la única especie estudiada que con�rmó la hipótesis de asociación negativa
con el uso tanto para la evidencia de incendios como para la evidencia de tala.
El objetivo de este estudio fue proveer información, a nivel de sitio y paisaje,
sobre las relaciones del hábitat de los loros que puede ser utilizada para el manejo de
poblaciones de los mismos en paisajes fragmentados. El estudio reveló que la calidad de
los hábitats, caracterizada por sus recursos y presencia de amenazas, es heterogénea y
no siempre está asociada al tamaño de las islas. Por lo tanto, resulta más apropiada la
inclusión de covariables particulares asociadas a los recursos y amenazas, en lugar de sólo
una covariable asociada al tamaño de isla.
Entender la manera en la que los loros utilizan su hábitat natural fragmentado,
ayuda a determinar cuáles de estos fragmentos deben ser preservados prioritariamente y
que acciones de conservación son necesarias. Un programa de monitoreo riguroso sigue
siendo una herramienta esencial para la conservación y manejo de poblaciones de loros.
128
A. Anexo: Implementación en R
Aunque existen varias herramientas para trabajar con modelos de ocupación, como
los softwares MARK y PRESENCE (desarrollado por MacKenzie et al. (2002)), las
rutinas implementadas dentro del software R han resultado ser las más útiles por su
con�abilidad, soporte y constantes actualizaciones.
R es un entorno de software libre que provee una amplia variedad de técnicas
estadísticas y grá�cas, y que es altamente personalizable. Por ejemplo, para aplicar lo
desarrollado en este trabajo se utilizó especialmente el paquete unmarked, entre otros.
Este paquete apunta a ser una entorno completo para el análisis estadístico de datos
obtenidos de muestreos de animales no marcados.
unmarked proporciona estructuras de datos, sintaxis ajustable y un post-procesamiento
que forman una marco cohesivo para el análisis de datos ecológicos recolectados usan-
do un diseño de metapoblación. Este paquete permite estimar la ocupación de un sitio,
abundancia y densidad de animales (u otros organismos/objetos) que no pueden ser
detectados con exactitud.
A.1. Modelos de Ocupación Básicos en R
A continuación se presenta el código R utilizado tomando a modo de ejemplo los
datos del Guacamayo de Barba Azul del Capitulo 6.
Creación del marco de datos
129
A. Anexo: Implementación en R
# Carga de datos en un data.frame
loro <- read.xlsx("Loros_Raw.xlsx", 1)
# Matriz de historias
y <- loro[1:3]
# Covariables de ocupación
siteCovs <- loro[4:9]
names(siteCovs) <- c("Area", "Cavidades", "Motacu",
"Totai", "Tala", "Fuego")
# Covariables de detección
obsCovs <- list(Inicio = loro[10:12])
# Introducción de una variable dummy
s <- nrow(loro)
(Tiempo <- as.factor(rep(c(1, 2, 3), s)))
## [1] 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2
## [33] 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1
## [65] 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3
## [97] 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2
## [129] 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1
## [161] 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3
## Levels: 1 2 3
obsCovs <- data.frame(Tiempo)
# Creación de objeto unmarkedFrameOccu
datos <- unmarkedFrameOccu(y = y, siteCovs = siteCovs, obsCovs = obsCovs)
# Resumen de los datos
summary(datos)
## unmarkedFrame Object
##
## 60 sites
## Maximum number of observations per site: 3
130
A.1. Modelos de Ocupación Básicos en R
## Mean number of observations per site: 1.73
## Sites with at least one detection: 12
##
## Tabulation of y observations:
## 0 1 <NA>
## 82 22 76
##
## Site-level covariates:
## Area Cavidades Motacu Totai
## Min. : 0.1000 Min. : 0.00 Min. :0.0000 Min. :0.0000
## 1st Qu.: 0.7775 1st Qu.: 0.00 1st Qu.:1.0000 1st Qu.:0.0000
## Median : 1.9883 Median : 2.00 Median :1.0000 Median :0.0000
## Mean : 7.6953 Mean : 3.80 Mean :0.9167 Mean :0.4667
## 3rd Qu.: 7.3626 3rd Qu.: 5.25 3rd Qu.:1.0000 3rd Qu.:1.0000
## Max. :89.4597 Max. :24.00 Max. :1.0000 Max. :1.0000
## Tala Fuego
## Min. :0.0000 Min. :0.00
## 1st Qu.:0.0000 1st Qu.:0.00
## Median :1.0000 Median :0.00
## Mean :0.6833 Mean :0.35
## 3rd Qu.:1.0000 3rd Qu.:1.00
## Max. :1.0000 Max. :1.00
##
## Observation-level covariates:
## Inicio
## Min. :-0.9163
## 1st Qu.:-0.6820
## Median :-0.4221
## Mean : 0.0000
## 3rd Qu.: 0.2256
## Max. : 3.0463
## NA's :75
# Estandarización de la covariable contínua
siteCovs(datos)["Area"] <- scale(siteCovs(datos)["Area"])
# Transformación de la covariable de conteo a la escala logarítmica
131
A. Anexo: Implementación en R
siteCovs(datos)["Cavidades"] <- log(siteCovs(datos)["Cavidades"] + 1)
Correr los modelos
#Formula general
modelo<-occu(~[Fórmula de detección] ~[Fórmula de ocupación],datos)
# Modelo constante:
(mod0 <- occu(~1 ~ 1, datos))
##
## Call:
## occu(formula = ~1 ~ 1, data = datos)
##
## Occupancy:
## Estimate SE z P(>|z|)
## -1.1 0.368 -2.98 0.00293
##
## Detection:
## Estimate SE z P(>|z|)
## 0.841 0.504 1.67 0.0949
##
## AIC: 88.74932
# Modelo con covariables:
(mod1 <- occu(~Inicio ~ Cavidades + Totai, datos))
##
## Call:
## occu(formula = ~Inicio ~ Cavidades + Totai, data = datos)
##
## Occupancy:
132
A.2. Estimaciones de los Parámetros
## Estimate SE z P(>|z|)
## (Intercept) -4.83 1.408 -3.43 0.000599
## Cavidades 1.79 0.602 2.97 0.003000
## Totai 1.58 0.958 1.64 0.100147
##
## Detection:
## Estimate SE z P(>|z|)
## (Intercept) 1.069 0.525 2.034 0.042
## Inicio -0.203 0.393 -0.518 0.604
##
## AIC: 75.41891
A.2. Estimaciones de los Parámetros
# Estimación de los parámetros de ocupación
coef(mod1, type = "state")
## psi(Int) psi(Cavidades) psi(Totai)
## -4.831766 1.785331 1.575021
# Estimación de los parámetros de detección
coef(mod1, type = "det")
## p(Int) p(Inicio)
## 1.0685452 -0.2034555
# Combinación lineal de las estimaciones
linearComb(mod1, type = "state", coefficients = c(1, 1, 1))
## Linear combination(s) of Occupancy estimate(s)
##
## Estimate SE (Intercept) Cavidades Totai
## -1.47 0.654 1 1 1
133
A. Anexo: Implementación en R
# Transformación a escala original sin covariables
backTransform(mod0, "state")
## Backtransformed linear combination(s) of Occupancy estimate(s)
##
## Estimate SE LinComb (Intercept)
## 0.25 0.0692 -1.1 1
##
## Transformation: logistic
# Transformación a escala original sin covariables
backTransform(mod0, "state")
## Backtransformed linear combination(s) of Occupancy estimate(s)
##
## Estimate SE LinComb (Intercept)
## 0.25 0.0692 -1.1 1
##
## Transformation: logistic
#Transformación a escala original con covariables
nuevosDatos<-data.frame(Totai=1,
Cavidades=seq(0,4,length.out=10))
predict(mod1,type='state',newdata=nuevosDatos,appendData=TRUE)
## Predicted SE lower upper Totai Cavidades
## 1 0.03708527 0.03968297 0.00434329 0.2537484 1 0.0000000
## 2 0.07847392 0.06413923 0.01475045 0.3263131 1 0.4444444
## 3 0.15845292 0.09251716 0.04610481 0.4231313 1 0.8888889
## 4 0.29394424 0.11723435 0.12095313 0.5574518 1 1.3333333
## 5 0.47930588 0.13664083 0.23941190 0.7291390 1 1.7777778
## 6 0.67054620 0.14374812 0.36246377 0.8793193 1 2.2222222
## 7 0.81819065 0.12356758 0.46904804 0.9582032 1 2.6666667
134
A.3. Selección de Modelos y Modelo Promedio
## 8 0.90867950 0.08701646 0.56029010 0.9872940 1 3.1111111
## 9 0.95652402 0.05345346 0.63917937 0.9963537 1 3.5555556
## 10 0.97985755 0.03024127 0.70712394 0.9989808 1 4.0000000
A.3. Selección de Modelos y Modelo Promedio
# Lista d modelos ordenados por AIC
modlist <- fitList(`psi(.)p(.)` = mod0, `psi(.)p()` = mod1)
modSel(modlist)
## nPars AIC delta AICwt cumltvWt
## psi(.)p() 5 75.42 0.00 0.9987 1.00
## psi(.)p(.) 2 88.75 13.33 0.0013 1.00
#Más información sobre los modelos
slot(modSel(modlist),'Full')
#Estimaciones de los parámetros del modelo promedio
modlst <- list('psi(.)p(.)' = mod0,
'psi(Cavidades+Totai)p(Inicio)' = mod1)
modavg(modlst, parm="Cavidades", modnames=names(modlst),
parm.type="psi", conf.level=.90, second.ord=F)
##
## Multimodel inference on " psi(Cavidades) " based on AIC
##
## AIC table used to obtain model-averaged estimate:
##
## K AIC Delta_AIC AICWt Estimate SE
## psi(Cavidades+Totai)p(Inicio) 5 75.42 0 1 1.79 0.6
##
## Model-averaged estimate: 1.79
135
A. Anexo: Implementación en R
## Unconditional SE: 0.6
## 90 % Unconditional confidence interval: 0.8 , 2.77
# Estimación de la ocupación del modelo promedio
modavgpred(modlst, modnames = names(modlst), nuevosDatos, second.ord = F,
type = "response", uncond.se = "revised", parm.type = "psi")
##
## Model-averaged predictions based on entire model set:
##
## mod.avg.pred uncond.se
## 1 0.04 0.04
## 2 0.08 0.06
## 3 0.16 0.09
## 4 0.29 0.12
## 5 0.48 0.14
## 6 0.67 0.14
## 7 0.82 0.13
## 8 0.91 0.09
## 9 0.96 0.06
## 10 0.98 0.04
A.4. Bondad de Ajuste y Bootstrap Paramétrico.
# Bondad de ajuste
mb.gof.test(mod1, nsim = 20, plot.hist = F)
##
## MacKenzie and Bailey goodness-of-fit for single-season occupancy model
##
## Pearson chi-square table:
##
136
A.5. Métodos Bayesianos
## Cohort Observed Expected Chi-square
## 000 0 9 10.19 0.14
## 011 0 2 0.60 3.25
## 111 0 3 1.60 1.23
## 00NA 1 10 9.75 0.01
## 01NA 1 3 1.35 2.00
## 10NA 1 1 1.23 0.04
## 11NA 1 2 3.66 0.75
## 0NANA 2 29 27.95 0.04
## 1NANA 2 1 2.05 0.54
##
## Chi-square statistic = 9.6068
## Number of bootstrap samples = 20
## P-value = 0.25
##
## Quantiles of bootstrapped statistics:
## 0% 25% 50% 75% 100%
## 2.0 5.0 7.9 9.6 26.9
##
## Estimate of c-hat = 1.12
En la Figura A.1 se puede ver un histograma del estadístico de prueba de ajuste
para 1.000 iteraciones del bootstrap paramétrico (Burnham y Anderson, 2003).
A.5. Métodos Bayesianos
# Estimación de la proporción de sitios ocupados
s = nrow(loro)
re <- ranef(mod1)
EBUP <- bup(re, stat = "mode")
CI <- confint(re, level = 0.9)
rbind(PAO = c(Estimate = sum(EBUP), colSums(CI))/s)
## Estimate 5% 95%
## PAO 0.2 0.2 0.4166667
137
A. Anexo: Implementación en R
Figura A.1.: Histograma del estadístico de prueba de ajuste para 1000 muestras.
A.6. Estimación de la Probabilidad de Detección
Utilizando Datos de Previsión Meteorológica
estimDet=function(formula,AlmVal=c(NA)){
#1. IMPORTAR DATOS METEOROLÓGICOS
URL="http://www.windguru.cz/es/index.php?sc=53104"
doc = htmlTreeParse(URL, useInternalNodes = TRUE)
#Encontrar donde están alojados los datos
tabla<-xpathSApply(doc, "//*/script[@type='text/javascript']", xmlValue)
wndgru<-grep('wg_fcst_tab_data_1',tabla,value=T)
#Extraer datos de temperaturas
TMPw<-strsplit(wndgru,'\"TMP\":[',fixed=TRUE)[[1]][2]
TMPw<-strsplit(TMPw,']',fixed=TRUE)[[1]][1]
TMP<-strsplit(TMPw,',',fixed=TRUE)[[1]]
TMP<-as.numeric(TMP)
#Extraer datos de precipitaciones
PCPw<-strsplit(wndgru,'\"APCP\":[',fixed=TRUE)[[1]][2]
PCPw<-strsplit(PCPw,']',fixed=TRUE)[[1]][1]
138
A.6. Estimación de la Probabilidad de Detección Utilizando Datos de Previsión Meteorológica
PCP<-strsplit(PCPw,',',fixed=TRUE)[[1]]
PCP<-suppressWarnings(as.numeric(PCP))
#Extraer nombre de días
Diasw<-strsplit(wndgru,'\"hr_weekday\":[',fixed=TRUE)[[1]][2]
Diasw<-strsplit(Diasw,']',fixed=TRUE)[[1]][1]
Dias<-strsplit(Diasw,',',fixed=TRUE)[[1]]
Dias<-as.numeric(Dias)
DiaIni<-strsplit(wndgru,'initdate\":\"',fixed=TRUE)[[1]][2]
DiaIni<-strsplit(DiaIni,' 12:00:00',fixed=TRUE)[[1]][1]
DiaIni<-as.Date(DiaIni)
#Separar los datos por fecha TmpLst<-list(TMP[1])
PcpLst<-list(PCP[1])
dia=1
for (i in 2:length(Dias)){
if (Dias[i]==Dias[i-1]){
TmpLst[[dia]]<-c(TmpLst[[dia]],TMP[i])
PcpLst[[dia]]<-c(PcpLst[[dia]],PCP[i])
} else {
dia<-dia+1 TmpLst<-c(TmpLst,TMP[i])
PcpLst<-c(PcpLst,PCP[i])}}
#Calcular las temperaturas máximas y mínimas y la precipitación acumulada
PcpLst[length(TmpLst)]<-NULL
TmpLst[1]<-NULL
MaxTmp<-unlist(lapply(TmpLst,max))
MinTmp<-unlist(lapply(TmpLst,min))
AcumPcp<-unlist(lapply(PcpLst,sum,na.rm=T))
#Crear vector de fechas
Fechas<-DiaIni+1:length(TmpLst)
#2. CORRER EL MODELO
#Importar datos y crear unmarkedFrame
sapo<-read.xlsx("Datos.xls",1)
y<-sapo[,2:5]
obsCovs<-list(TMax=sapo[,c(6:9)],TMin=sapo[,c(10:13)],
P1D=sapo[,c(14:17)],Alm=sapo[,c(18:21)])
sapo2<-unmarkedFrameOccu(y=y,obsCovs=obsCovs)
139
A. Anexo: Implementación en R
#Crear matriz de medidas de resumen
resumen<-data.frame(data=matrix(nrow=2,ncol=4),row.names = c("Mean","SD"))
names(resumen)<-names(obsCovs)
with (sapo2@obsCovs, {
resumen[1,]�-c(mean(TMax,na.rm=T),mean(TMin,na.rm=T),
mean(P1D,na.rm=T),mean(Alm,na.rm=T))
resumen[2,]�-c(sd(TMax,na.rm=T),sd(TMin,na.rm=T),
sd(P1D,na.rm=T),sd(Alm,na.rm=T))})
#Estandarizar covariables
obsCovs(sapo2)<-scale(obsCovs(sapo2))
#Correr modelo
modelo<-occu(formula(formula), sapo2)
#3. ESTIMAR DETECCIÓN USANDO DATOS METEOROLÓGICOS
#Crear data.frame con los datos descargados
nuevosDatos = data.frame(
TMax=rep((MaxTmp -resumen['Mean','TMax'])/resumen['SD','TMax'],
length(AlmVal)),
TMin=rep((MinTmp -resumen['Mean','TMin'])/resumen['SD','TMin'],
length(AlmVal)),
P1D=rep((AcumPcp -resumen['Mean','P1D'])/resumen['SD','P1D'],
length(AlmVal)),
Alm=rep(AlmVal, each=length(MaxTmp)))
pred<-predict(modelo, type = 'det', newdata = nuevosDatos, appendData=TRUE)
pred<-cbind(pred,Fechas=rep(Fechas,length(AlmVal)))
#4. GRAFICAR PREDICCIONES
if (length(AlmVal)==1){
ggplot(pred,aes(x=Fechas,y=Predicted))+
scale_x_date(breaks=Fechas, labels=date_format("%d de %B")) +
theme(axis.text.x = element_text(angle=30,hjust=1,vjust=1)) +
geom_line(size=1,colour="#009999")+geom_point(size=3)+
labs(x = "Días", y = "Detección Estimada")
}else{
ggplot(pred,aes(x=Fechas,y=Predicted,colour=as.character(Alm)))+
scale_x_date(breaks=Fechas, labels=date_format("%d de %B")) +
theme(axis.text.x = element_text(angle=30,hjust=1,vjust=1),
legend.background=element_rect(fill="white", colour="black"),
140
A.7. Modelos Espaciales
legend.title=element_text(face="bold")) + geom_line(size=1)+
scale_color_manual(values=c("#009999","#FF3333","#59B356"))+
geom_point(size=3) +
labs(color="Almacenaje",x = "Días", y = "Detección Estimada")}
}
Ejemplos de uso:
#Con Almacenaje como covariable:
estimDet(~TMax+Alm+P1D ~1, c(-1,0,1))
#Sin Almacenaje como covariable:
estimDet(~TMax+P1D ~1)
A.7. Modelos Espaciales
# Construcción de una lista de vecinos arreglados en una grilla de nxm
cell2nb(n, m, type = "rook") #para el esquema torre
cell2nb(n, m, type = "queen") #para el esquema reina
# Construcción de matriz de k vecinos para cada punto
vecinos <- knearneigh(coordenadas, k = k)
knn2nb(vecinos)
# Construcción matriz de vecinos en un umbral de distancia [d1,d2]
dnearneigh(coordenadas, d1, d2)
# Aplicación de una función f a una lista de distancias D
pesos <- lapply(D, function(x) f(x))
# Construicción de objeto estandarizado por filas
W <- nb2listw(knn2nb(vecinos), glist = pesos, style = "W")
listw2mat(W)
Cálculo de los índices de Geary y Moran para el ejemplo de la Sección 4.4:
141
A. Anexo: Implementación en R
# Índice I de Moran
moran.test(z0, listw = W)
##
## Moran I test under randomisation
##
## data: z0
## weights: W
##
## Moran I statistic standard deviate = 8.634, p-value < 2.2e-16
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic Expectation Variance
## 0.567675981 -0.025641026 0.004722226
# Índice C de Geary
geary.test(z0, listw = W)
##
## Geary C test under randomisation
##
## data: z0
## weights: W
##
## Geary C statistic standard deviate = 8.436, p-value < 2.2e-16
## alternative hypothesis: Expectation greater than statistic
## sample estimates:
## Geary C statistic Expectation Variance
## 0.41500047 1.00000000 0.00480877
Modelos espaciales autologísticos con el muestreo de Gibbs:
#1. Ajustar modelo logístico
datos <- unmarkedFrameOccu(y = Y, siteCovs = siteCovs)
142
A.7. Modelos Espaciales
mod0<-occu(~1 ~1, datos)
AICS<-slot(mod0,"AIC") #Vector de AICs de los modelos
#2. Extraer extimaciones del modelo logístico
psi=backTransform(mod0,type='state')@estimate
p=backTransform(mod0,type='det')@estimate
psic=(psi*(1-p)^k)/(1-psi+psi*(1-p)^k) #psi condicional
Z<-Z0<-as.numeric(rowSums(Y) > 0)
nodet<-as.numeric(row.names(Y[rowSums(Y)==0,]))
#3. Correr 1er modelo autologístico
repeat {
#Valores iniciales de Z para sitios sin detecciones
Z[nodet]<-rbinom(length(nodet),1,psic)
Zaux<-Z
siteCovs<-data.frame(autocov=scale(W%*%Z))
datos2<-unmarkedFrameOccu(y=Y,siteCovs=siteCovs)
modaux<-occu(~1 ~autocov, datos2)
#Chequear convergencia
if (slot(modaux,"opt")$convergence==0) {break} }
mod<-modaux AICS<-c(AICS,slot(mod,"AIC"))
#4. Muestreo de Gibbs
Gibbs<-function(it) {
for (j in 1:it) {
repeat {
#Generar Zs para sitios sin detecciones
nd.aleat<-sample(nodet, length(nodet)) #otro orden de los sitios
for (i in 1:length(nd.aleat)){
p<-backTransform(mod,type='det')@estimate
Waux=((W%*%Z)[nd.aleat[i]]-mean(W%*%Zaux))/sd(W%*%Zaux)
psi<-predict(mod, type = 'state',
newdata = data.frame(autocov=Waux))$Predicted
psic=(psi*(1-p)^k)/(1-psi+psi*(1-p)^k)
Z[nd.aleat[i]]=rbinom(1,1,psic)}
143
A. Anexo: Implementación en R
#Correr modelo autologístico con nuevo Z
siteCovs<-data.frame(autocov=scale(W%*%Z))
datos2<-unmarkedFrameOccu(y=Y,siteCovs=siteCovs)
modaux<-occu(~1 ~autocov, datos2)
#Chequear convergencia
if (slot(modaux,"opt")$convergence==0) {break} }
mod�-modaux
Zaux�-Z
AICS�-c(AICS,slot(mod,"AIC")) #Almacenar AIC }
#Devolver el vector Z y el modelo finales
Z�-Z
return(mod)}
144
Bibliografía
Augustin, N., Mugglestone, M., y Buckland, S. (1996). An autologistic model for the
spatial distribution of wildlife. Journal of Applied Ecology, pp. 339�347.
Bailey, L. L., Simons, T. R., y Pollock, K. H. (2004). Estimating site occupancy and
species detection probability parameters for terrestrial salamanders. Ecological Appli-
cations, 14(3):692�702.
Bavaud, F. (1998). Models for spatial weights: a systematic look. Geographical analysis,
30(2):153�171.
Berkunsky, I., Daniele, G., Kacoliris, F. P., Díaz-Luque, J. A., Frias, C. P. S., Aramburu,
R. M., y Gilardi, J. D. (2014). Reproductive parameters in the critically endangered
blue-throated macaw: limits to the recovery of a parrot under intensive management.
PloS one, 9(6):e99941.
Berkunsky, I., Simoy, M. V., Cepeda, R. E., Marinelli, C., Kacoliris, F. P., Daniele,
G., Cortelezzi, A., Díaz-Luque, J. A., Friedman, J. M., y Aramburú, R. M. (2015).
Assessing the use of forest islands by parrot species in a neotropical savanna. Avian
Conservation and Ecology, 10(1).
Bivand, R. S., Pebesma, E., y Gomez-Rubio, V. (2013). Applied spatial data analysis
with R, Second edition. Springer, NY.
Box, G. E. y Cox, D. R. (1964). An analysis of transformations. Journal of the Royal
Statistical Society. Series B (Methodological), pp. 211�252.
Burnham, K. P. y Anderson, D. (2003). Model selection and multi-model inference. A
Pratical informatio-theoric approch. Sringer.
Burnham, K. P. y Anderson, D. R. (2004). Multimodel inference understanding AIC and
BIC in model selection. Sociological methods & research, 33(2):261�304.
145
Bibliografía
Buse, A. (1982). The likelihood ratio, Wald, and Lagrange multiplier tests: An expository
note. The American Statistician, 36(3a):153�157.
Chang, W. (2013). R Graphics Cookbook. O'Reilly Media, Inc.
Cortelezzi, A., Berkunsky, I., Simoy, M. V., Cepeda, R., Marinelli, C., y Kacoliris, F. P.
(2015). Are breeding sites a limiting factor for the tandilean redbelly toad (bufonidae)
in pampean highland grasslands? Neotropical Biology and Conservation, 10(3):182�
186.
Demétrio, C. G. B. (2001). Modelos lineares generalizados em experimentação agronô-
mica. USP/ESALQ.
Dobson, A. J. y Barnett, A. (2008). An introduction to generalized linear models. CRC
press.
Durval, Dourado-Neto and Luiz, Fancelli Antonio and Antonio, Frizzone José and Klaus,
Reichardt and others (1999). Balance hídrico ciclico y secuencial: estimación de alma-
cenamiento de agua en el suelo. Scientia Agricola.
Fahrmeir, L. y Kaufmannm, H. (1985). Consistency and asymptotic normality of the
maximum likelihood estimator in generalized linear models. The Annals of Statistics,
13(1):342�368.
Friedman, M., Cepeda, R. E., Cortelezzi, A., Simoy, M. V., Marinelli, C., Kacoliris,
F. P., Dopazo, J., y Berkunsky, I. (2016). Searching for an elusive anuran: A detection
model based on weather forecasting for the tandilean red-belly toad. Herpetological
Conservation and Biology.
Geary, R. C. (1954). The contiguity ratio and statistical mapping. The incorporated
statistician, 5(3):115�146.
Goodchild, M. (1986). Spatial autocorrelation. concepts and techniques in modern geo-
graphy 47. Norwich, UK: Geo Books.
Gri�th, D. (1987). Spatial autocorrelation: a primer. Resource publications in geography.
Association of American Geographers.
Hastie, T. y Tibshirani, R. (1986). Generalized additive models. Statistical science, pp.
297�310.
146
Bibliografía
Lane, D. (2011). Online Statistics Education, pp. 1018�1020. Springer Berlin Heidelberg,
Berlin, Heidelberg.
Link, W. A. (2003). Nonidenti�ability of population size from capture-recapture data
with heterogeneous detection probabilities. Biometrics, 59(4):1123�1130.
MacKenzie, D. I. (2006). Occupancy estimation and modeling: inferring patterns and
dynamics of species occurrence. Academic Press.
MacKenzie, D. I. y Bailey, L. L. (2004). Assessing the �t of site-occupancy models.
Journal of Agricultural, Biological, and Environmental Statistics, 9(3):300�318.
MacKenzie, D. I., Nichols, J. D., Lachman, G. B., Droege, S., Andrew Royle, J., y Lang-
timm, C. A. (2002). Estimating site occupancy rates when detection probabilities are
less than one. Ecology, 83(8):2248�2255.
MacKenzie, D. I. y Royle, J. A. (2005). Designing occupancy studies: general advice and
allocating survey e�ort. Journal of Applied Ecology, 42(6):1105�1114.
Mayle, F. E., Langstroth, R. P., Fisher, R. A., y Meir, P. (2007). Long-term forest�
savannah dynamics in the bolivian amazon: implications for conservation. Philosophical
Transactions of the Royal Society of London B: Biological Sciences, 362(1478):291�307.
McCullagh, P. y Nelder, J. A. (1989). Generalized linear models, volumen 37. CRC press.
Moran, P. A. (1948). The interpretation of statistical maps. Journal of the Royal Statis-
tical Society. Series B (Methodological), 10(2):243�251.
Murray, J. (2011). Mathematical Biology: I. An Introduction. Interdisciplinary Applied
Mathematics. Springer New York.
Nelder, J. A. y Wedderburn, R. W. M. (1972). Generalized linear models. Journal of the
Royal Statistical Society. Series A (General), 135(3):370�384.
Rohr, D. H. y Malone, B. S. (2001). Activity times and body temperature in australian
copperheads (serpentes: Elapidae). Australian Journal of Zoology, 49(3):223�233.
Royle, J. A. y Nichols, J. D. (2003). Estimating abundance from repeated presence-
absence data or point counts. Ecology, 84(3):777�790.
147
Bibliografía
Searle, S. (1982). Matrix algebra useful for statistics. Wiley series in probability and
mathematical statistics: Applied probability and statistics. Wiley.
Smith, T. (2016). Notebook on spatial data analysis. [En línea] http://www.seas.
upenn.edu/~ese502/.
Tiefelsdorf, M. (2006). Modelling spatial processes: the identi�cation and analysis of spa-
tial relationships in regression residuals by means of Moran's I, volumen 87. Springer.
Webb, M. H., Wotherspoon, S., Stojanovic, D., Heinsohn, R., Cunningham, R., Bell, P.,
y Terauds, A. (2014). Location matters: Using spatially explicit occupancy models
to predict the distribution of the highly mobile, endangered swift parrot. Biological
Conservation, 176:99�108.
Weisberg, S. (2005). Applied linear regression, volumen 528. John Wiley & Sons.
148