modelos de ocupación - unicen

Universidad Nacional del Centro

de la Provincia de Buenos Aires

Facultad de Ciencias Exactas

Trabajo Final de la Licenciatura en Ciencias Matemáticas

Modelos de Ocupación:

Una forma de analizar las variables que afectan la

ocupación y detección de especies endémicas

Juan Mateo Friedman

Mg. Rosana E. Cepeda Dr. Igor Berkunsky

Directora Co-Director

1ode Marzo de 2017

Agradecimientos

Quisiera agradecer a mi familia, amigos y a todas las personas que estuvieron

conmigo a lo largo de este camino. Gracias por ayudarme a no bajar los brazos y por

creer en mí.

Este trabajo fue realizado gracias al apoyo de mis compañeros del Instituto de

ECOSISTEMAS. Gracias por devolverme el interés y la pasión por las matemáticas, y

por darme objetivos para poder terminar esta carrera.

Agradezco especialmente a mis directores de tesis, Rosana e Igor, cuya dedicación,

esfuerzo y apoyo incondicional fueron fundamentales en el desarrollo de este trabajo.

3

Índice general

1. Introducción 9

2. Modelos Lineales Generalizados 11

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2. Modelo Lineal General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3. Modelos Lineales Generalizados (MLG) . . . . . . . . . . . . . . . . . . . 15

2.4. Estimación del Vector de Parámetros β . . . . . . . . . . . . . . . . . . . . 20

2.4.1. Ejemplo del Algoritmo de Estimación . . . . . . . . . . . . . . . . 24

2.4.2. Propiedades y Distribución Muestral de β . . . . . . . . . . . . . . 28

2.4.3. Métodos Bayesianos de Estimación . . . . . . . . . . . . . . . . . . 32

2.5. Función Deviance y el Estadístico de Pearson χ2 Generalizado . . . . . . . 33

2.6. Estimación del Parámetro φ . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.7. Análisis de la Deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.8. Tests de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.8.1. Test de Razón de Verosimilitudes . . . . . . . . . . . . . . . . . . . 43

2.8.2. Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.8.3. Test Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.9. Intervalos de Con�anza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

2.10. Técnicas para la Veri�cación del Ajuste de un Modelo a un Conjunto de

Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.11. Análisis de Residuos y Diagnósticos . . . . . . . . . . . . . . . . . . . . . . 47

2.11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.11.2. Tipos de Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.11.3. Tipos de Grá�cos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.12. Veri�cación de la Función de Enlace . . . . . . . . . . . . . . . . . . . . . 51

2.13. Veri�cación de la Función de Varianza . . . . . . . . . . . . . . . . . . . . 52

2.14. Veri�cación de las Escalas de las Covariables . . . . . . . . . . . . . . . . . 53

2.15. Selección de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5

Índice general

3. Modelos de Ocupación 61

3.1. Situación de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.2. Estimación de la Ocupación con Probabilidad de Detección Conocida . . . 63

3.3. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.3.1. Construcción de un Modelo . . . . . . . . . . . . . . . . . . . . . . 65

3.3.2. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.3.3. Observaciones Faltantes . . . . . . . . . . . . . . . . . . . . . . . . 73

3.3.4. Modelado de Covariables . . . . . . . . . . . . . . . . . . . . . . . . 74

3.3.5. Ajuste del Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

3.3.6. Ejemplo de Modelos de Ocupación . . . . . . . . . . . . . . . . . . 80

3.4. Estimación de la Ocupación para una Población Finita o Área Pequeña . . 81

3.4.1. Predicción del Estado de Ocupación No Observado . . . . . . . . . 83

3.4.2. Formulación Bayesiana del Modelo . . . . . . . . . . . . . . . . . . 85

3.5. Modelos con Probabilidad de Detección Heterogénea . . . . . . . . . . . . 88

4. Modelos de Ocupación con Componente Espacial 91

4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.2. Análisis Espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

4.2.1. Matrices de Pesos Espaciales . . . . . . . . . . . . . . . . . . . . . 92

4.2.2. Medidas de Autocorrelación Espacial . . . . . . . . . . . . . . . . . 98

4.3. Autocovariable Espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

4.3.1. Modelos Espaciales con Detección Perfecta . . . . . . . . . . . . . . 102

4.3.2. Modelos Espaciales con Detección Imperfecta . . . . . . . . . . . . 104

4.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

4.5. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

5. Caso de Estudio: El Sapito de las Sierras 111

5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

5.2. Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

5.3. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

5.4. Estimación de la Probabilidad de Detección Utilizando Datos de Previsión

Meteorológica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

5.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

6. Caso de Estudio: Loros de Bolivia 121

6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

6.2. Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

6

Índice general

6.3. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

6.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

A. Anexo: Implementación en R 129

A.1. Modelos de Ocupación Básicos en R . . . . . . . . . . . . . . . . . . . . . 129

A.2. Estimaciones de los Parámetros . . . . . . . . . . . . . . . . . . . . . . . . 133

A.3. Selección de Modelos y Modelo Promedio . . . . . . . . . . . . . . . . . . 135

A.4. Bondad de Ajuste y Bootstrap Paramétrico. . . . . . . . . . . . . . . . . . 136

A.5. Métodos Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

A.6. Estimación de la Probabilidad de Detección Utilizando Datos de Previsión

Meteorológica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

A.7. Modelos Espaciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

7

1. Introducción

En los últimos años se ha ido a�anzando la relación entre la matemática y otras

disciplinas, siendo la biología una de las que más explota esta relación. La biomatemática

o biología matemática se basa en la aplicación de modelos matemáticos a áreas como la

epidemiología, la medicina, la biología celular y la ecología (Murray, 2011). Esta última

estudia la relación entre los organismos y su entorno, y será el área en la que se centrará

este trabajo.

Una de las herramientas más modernas de la biomatemática son los modelos de

ocupación, los cuales centran su atención en el estudio de la proporción de sitios ocupados

por una especie de interés. El concepto de "ocupación" surge en principio como un

sustituto de la abundancia, pero se ha ido consolidando rápidamente como una variable

de estado poblacional, permitiendo así desarrollar métodos de inferencia sobre procesos

en las poblaciones (MacKenzie, 2006).

Los modelos de ocupación permitieron considerar la posibilidad de que una especie

estuviera presente en un sitio y no fuera detectada durante un muestreo (MacKenzie y

Royle, 2005). Modelar de manera simultánea la probabilidad de ocupación y de detección

es la principal fortaleza de estos modelos.

En este trabajo se estudiarán en profundidad los modelos de ocupación con el ob-

jetivo de presentar modelos matemáticos que permitan comprender mejor el comporta-

miento de especies amenazadas y desarrollar herramientas que ayuden a su conservación.

En el Capítulo 2 se desarrollará la teoría de Modelos Lineales Generalizados (MLG),

que es la base estadístico-matemática sobre la que se formulan los modelos de ocupación.

Se comenzará planteando el modelo lineal general y se detallará el proceso de estima-

ción de los parámetros, principalmente siguiendo el método de estimación de máxima

verosimilitud y ofreciendo como alternativa métodos Bayesianos. Luego se analizarán las

propiedades de los estimadores de los diferentes parámetros y se presentarán una serie de

9

1. Introducción

métricas que permitirán interpretar y diagnosticar los resultados obtenidos. Por último,

se estudiará el proceso de selección de modelos y las métricas de inferencia multi-modelo.

En el Capítulo 3 se presentarán los modelos de ocupación comenzando por modelos

con probabilidad de detección conocida para luego estudiar aquellos modelos que con-

sideran esta probabilidad desconocida. Análogamente al capítulo anterior, se estudiarán

paralelamente los enfoques Bayesiano y de máxima verosimilitud, haciendo hincapié so-

bre este último. Adicionalmente, se complejizarán los modelos mediante la introducción

del concepto de observaciones faltantes y el modelado de covariables. Se analizará luego

la bondad del ajuste de los modelos presentados y la estimación de la ocupación para

poblaciones �nitas. Por último y sin entrar en detalles, se introducirán los modelos de

ocupación heterogénea.

En el Capítulo 4, se introducirán los modelos de ocupación con una componente

espacial, que constituye una alternativa original para el modelado del comportamien-

to espacial de las especies. Inicialmente se estudiarán diferentes maneras de medir la

autocorrelación espacial entre sitios. Estos conceptos serán utilizados para construir un

término espacial a partir del cual se plantearán modelos espaciales con detección perfecta

e imperfecta.

En los Capítulos 5 y 6 se desarrollarán respectivamente dos casos de estudio ori-

ginales en los cuales se aplican los modelos de ocupación. El primer conjunto de datos

corresponde al Sapito de las Sierras (Melanophryniscus a�. montevidensis) una especie

amenazada y endémica del pastizal serrano del Sistema de Tandilia en Argentina (Fried-

man et al., 2016). El segundo conjunto de datos corresponde al Guacamayo de Barba

Azul (Ara glaucogularis), una especie amenazada y endémica de los Llanos de Moxos

(Bolivia). Estos datos forman parte de un estudio más general sobre la ocupación de 23

especies de loros que habitan el norte de Bolivia (Berkunsky et al., 2015).

En el Apéndice se incluye el código del software R utilizado para implementar los

modelos desarrollados en este trabajo.

10

2. Modelos Lineales Generalizados

2.1. Introducción

Muchas veces, en diferentes áreas de aplicación, se desea analizar la relación fun-

cional que existe entre un grupo de variables. Una herramienta que puede ser de utilidad

para este �n son los llamados Modelos Lineales, principalmente los modelos de regresión

y de análisis de varianza. Estos modelos tienen como hipótesis que una de las variables

es respuesta de las otras, esta respuesta es continua y generalmente normalmente dis-

tribuida con media cero y varianza constantes para los distintos valores de las variables

independientes.

Cuando la variable de respuesta es discreta o categórica se encuentra que los mo-

delos lineales no son aplicables. Ante esta limitación, en 1972, Nelder y Wedderburn

propusieron una teoría uni�cadora de modelos estadísticos, a la que llamaron Modelos

Lineales Generalizados (MLG), como una extensión de los modelos lineales clásicos. Esta

familia de modelos considera como distribución de la variable respuesta a todas aquellas

funciones de distribución que pertenecen a la familia exponencial, dentro de la cual se

encuentran las distribuciones Binomial, Poisson, Hipergeométrica, además de la Normal.

Ellos mostraron entonces que muchos de los problemas estadísticos que se pre-

sentan en las áreas de agricultura, demografía, ecología, economía, geografía, geología,

historia, medicina, ciencias políticas, psicología, sociología, cría de animales, etc., pueden

ser formulados de manera uni�cada como modelos de regresión.

Este capítulo comienza presentando los principales aspectos del modelo lineal ge-

neral.

11


2.2. Modelo Lineal General

El modelo lineal general surge ante la necesidad de expresar cuantitativamente las

relaciones entre una variable de respuesta (o dependiente) y otras variables explicativas

(o independientes), también llamadas covariables.

Sea Y una variable aleatoria con distribución perteneciente a la familia de distri-

buciones H, y explicada por el conjunto de variables X1, X2, . . . , Xp, �jadas antes de

conocer Y . Entonces, la esperanza condicional de Y viene dada por:

E(Y | X1, X2, . . . , Xp) = β0 + β1X1 + · · ·+ βpXp = µ.

Si se extrae una muestra aleatoria de tamaño n de una población para la cual

existe una relación lineal entre la variable de respuesta y las variables independientes,

cada observación de la muestra puede expresarse como:

yi = β0 + β1xi1 + · · ·+ βpxip + εi con i = 1, 2, . . . , n.

El término εi corresponde a una perturbación aleatoria no observable llamada error

aleatorio, que tiene esperanza cero y varianza σ2 constante. Si se asume además que

i 6= j entonces εi y εj no están correlacionados entre sí.

La ecuación anterior se puede expresar en forma matricial como Y = Xβ + ε. El

vector de respuesta Y está compuesto por una componente sistemática y otra aleatoria.

La primera corresponde al predictor lineal η = Xβ, y la segunda está formada por el

vector aleatorio Y de elementos independientes entre sí, con distribución f ∈ H, vector

de esperanzas μ y matriz de covarianzas σ2I. Calculando la esperanza de Y se obtiene

que E(Y ) = Xβ = µ.

El modelo lineal general tiene como característica que, mientras la variable de

respuesta Y es cuantitativa, sus covariables pueden ser cuantitativas o categóricas cuali-

tativas, siendo además independientes entre sí.

Covariables

Si todas las covariables son continuas, el modelo se denomina modelo de regresión

lineal múltiple. Los parámetros β1, β2, . . . , βp son llamados coe�cientes de regresión, cada

12

2.2. Modelo Lineal General

uno representando el cambio esperado en la respuesta por cada unidad de cambio en la

covariable, cuando las demás variables regresoras son constantes. Si todas las variables

regresoras incluyen al cero en su recorrido, el coe�ciente β0, conocido como intercepto,

puede interpretarse como la media de la distribución de la variable de respuesta.

Puede suceder que 2 o más variables tengan un efecto sobre la variable de respuesta

cuando interactúan, por lo que sería de interés incluir estas componentes en el modelo

para lograr un mejor ajuste, siempre y cuando la interacción sea interpretable.

Cuando el predictor lineal η está formado sólo por variables cualitativas, están son

llamadas factores y los valores que toman se denominan niveles del factor. No siempre

sucede que estos niveles tienen un orden natural asociado, siendo usual incluir covariables

como tipo de hábitat, color de pelaje de la especie, entre otras, conocidas como covariables

de tipo nominal. Las covariables también pueden poseer un orden que no necesariamente

implique magnitud, como un orden de preferencias. A estas covariables se las llama

ordinales.

Si las observaciones se clasi�can en 2 o más factores, se habla de un análisis multi-

factorial. Las combinaciones entre los niveles considerados se conocen como tratamientos.

Por ejemplo, si se tiene un modelo con 2 factores, se incluyen términos de la forma αi+βj ,

y en el caso que existan interacciones entre ellos, pueden aparecer términos de la forma

(αβ)ij . Entonces, un modelo de dos factores se representa como:

yijm = δ + αi + βj + (αβ)ij + εijm

donde yijm es la respuesta del m-ésimo sujeto correspondiente al i-ésimo nivel del primer

factor y al j-ésimo del segundo,δ es la media general y εijm es la componente aleatoria

antes descripta.

Para 3 o más factores, el modelo presentado puede generalizarse de manera natural.

Variables Dummy

Considérese la situación que se tiene una variable de respuesta con p niveles y n

repeticiones por cada nivel. El modelo será

yij = δ + βi + εij

13


donde yij es la j-ésima observación correspondiente al i-ésimo nivel del tratamiento. La

representación matricial del modelo será Y = Xβ+ ε.

La matriz X se de�ne de acuerdo a los objetivos del estudio, siendo determinante

en la manera en que se interpretarán los parámetros.

De acuerdo a lo anterior, el modelo sería:

Y11

Y12

...

Y1n

Y21

...

Yij

...

Ypn

=

1 1 0 · · · 0 · · · 0

1 1 0 · · · 0 · · · 0...

......

......

......

1 1 0 · · · 0 · · · 0

1 0 1 · · · 0 · · · 0...

......

......

......

1 0 0 · · · 1 · · · 0...

......

......

......

1 0 0 · · · 0 · · · 1

δ

β1...

βi...

βp

+

ε11

ε12...

ε1n

ε21...

εij...

εpn

.

Para asegurarse que XtX sea inversible, las columnas de la matriz (es decir las

observaciones) deben ser linealmente independientes. Para lograr este objetivo, si el factor

tiene p niveles, se de�nirá una variable con p − 1 niveles. Esta variable se conoce como

arti�cial, contraste o dummy.

Esta reparametrización se conoce como reparametrización del punto central. Si una

variable tiene p niveles se debe seleccionar uno de ellos como categoría de referencia. Si

se toma la última categoría como referencia, la i-ésima columna de X contendría un 1 en

la i-ésima �la, -1 en la última �la y 0 en las demás. Si αi es el parámetro correspondiente

al i-ésimo nivel del factor, las p− 1 columnas producirán estimadores independientes de

los parámetros α1, α2, . . . , αp−1.

Por ejemplo, si nuestra variable tiene 2 categorías, la reparametrización vendrá

dada por:

Xi =

1 si la observación pertenece al i-ésimo nivel del factor

−1 caso contrario.

14

2.3. Modelos Lineales Generalizados (MLG)

Y si nuestra variable tiene más de 2 niveles:

Xi =

1 si la observación pertenece al i-ésimo nivel del factor

0 caso contrario

−1 nivel de referencia

.

Esta parametrización compara el efecto de cada una de las categorías de las varia-

bles independientes con el efecto de la categoría de referencia.


Como ya se comentó, Nelder y Wedderburn (1972) mostraron que las situaciones

que pueden ser formuladas de manera uni�cada como modelos de regresión. Estos mode-

los involucran una variable de respuesta univariada, variables explicativas y una muestra

aleatoria de n observaciones. La variable de respuesta tiene una distribución pertene-

ciente a la familia exponencial en la forma canónica. Para datos continuos se usan las

distribuciones Normal, Gamma y Normal Inversa. La distribución Binomial es utilizada

para proporciones, mientras que para conteos se recurre a la distribución de Poisson y

Binomial Negativa.

Para una muestra de n observaciones (yi, xi), con xi = (x1,i, x2,i, . . . , xp,i)t el

vector columna de variables explicativas, el Modelo Lineal Generalizado está formado

por las tres componentes siguientes:

1. Componente aleatoria. Representada por un conjunto de variables aleatorias

independientes Y1, Y2, . . . , Yn provenientes de una misma distribución que es parte

de la familia exponencial en forma canónica, con medias µ1, µ2, . . . , µn, es decir

E (Yi) = µi; y un parámetro constante de escala conocido, φ > 0, que depende

de un único parámetro θi, llamado canónico o natural. La función densidad de

probabilidad (f.d.p.) de cada Y i está dada por:

f (yi; θi, φ) = exp

{1

ai (φ)[yiθi − b (θi)] + c (yi; φ)

}(2.1)

con b (·) y c (·), funciones conocidas. En general, ai (φ) = φwi

con wi pesos a priori.

15


Además por propiedades de la familia exponencial en forma canónica:

E (Yi) = µi = b′ (θi)

V ar (Yi) = ai (φ) b′′ (θi) = ai (φ)V (µi) = ai (φ)Vi (2.2)

con Vi = dµidθi

llamada función de varianza que, como depende únicamente de la

media, permite expresar el parámetro natural como θi =´V −1i dµi = q (µi), con

q (µi)una función conocida.

2. Componente sistemática. Las variables explicativas entran en el modelo en for-

ma de una suma lineal de sus efectos:

ηi =

p∑j=1

xijβj = xitβ

o

η = Xβ

con X = (x1, x2, . . . , xn)tla matriz del modelo, β = (β1, β2, . . . , βp)t el vector de

parámetros y η = (η1, η2, . . . , ηn)t el predictor lineal.

3. Función de enlace. Tiene como �nalidad vincular la componente aleatoria con la

sistemática. Relaciona la media con el predictor lineal, es decir ηi = g (µi) donde

g (·) es una función monótona derivable.

Por lo tanto, para una especi�cación del modelo, los parámetros θi de la familia exponen-

cial no son de interés directo (porque hay uno para cada observación), pero sí un conjunto

más chico de parámetros β1, β2, . . . , βp tal que una combinación de ellos es igual a una

función del valor esperado de Yi.

Ejemplo 1. Sea Y una v.a. con distribución Normal de media µ desconocida y varianza

conocida σ2 > 0, entonces su f.d.p. es:

f(y; µ, σ2

)=

1√2πσ2

exp

{−(y − µ)2

2σ2

},

con µ ∈ R.

16


Desarrollando esta expresión se obtiene:

f(y; µ, σ2

)= exp

{−(y − µ)2

2σ2− 1

2ln(2πσ2

)}

= exp

{1

σ2

[−y2 + 2yµ− µ2

2

]− 1

2ln(2πσ2

)}= exp

{1

σ2

[yµ− µ2

2

]− y2

2σ2− 1

2ln(2πσ2

)}.

Tomando

θ = µ a (φ) = σ2

b (θ) =µ

2=θ2

2c (y; φ) = −1

2

[y2

σ2+ ln

(2πσ2

)]

se muestra que la distribución N(µ, σ2

)con µ desconocido y σ2 > 0 conocido,

pertenece a la familia exponencial en la forma canónica.

Ejemplo 2. Sea Y una v.a. con distribución Binomial y f.d.p. dada por:

f (y; π) =

(m

y

)πy (1− π)m−y ,

con m ∈ N, el número de ensayos, p ∈ [0, 1], la probabilidad de éxito.

Se tiene entonces que:

f (y;π) = exp

{ln

(m

y

)+ y ln (π) + (m− y) ln (1− π)

}= exp

{y ln

(π

1− π

)+m ln (1− π) + ln

(m

y

)}.

De lo que se desprende:

a (φ) = 1 θ = ln

(π

1− π

)→ π =

eθ

1 + eθ

b (θ) = −m ln (1− π) = m ln(

1 + eθ)

c (y; φ) = ln

(m

y

).

17


Por lo tanto, la distribución Binomial pertenece a la familia exponencial en la forma

canónica.

Ejemplo 3. Sea ahora Y una v.a. con distribución Poisson, por lo tanto su f.d.p. está

dada por:

f (y; µ) =µye−µ

y!,

con µ > 0.

Luego

f (y; µ) = exp {y ln (µ)− µ− ln (y!)} .

Ahora tomando

a (φ) = 1 θ = ln (µ)

b (θ) = eθ c (y; φ) = − ln (y!) ,

se demuestra que la distribución Poisson pertenece a la familia exponencial en su forma

canónica.

Funciones de Enlace Canónicas

Si se elige una función de enlace tal que g (µi) = θi, entonces el predictor lineal

modela el parámetro canónico y la función se llama de enlace canónico. Esto se traduce

en una escala adecuada para el modelado con interpretación práctica para los parámetros

de regresión, tiene ventajas teóricas y simpli�ca el algoritmo de estimación.

Las funciones de enlace canónicas para algunas distribuciones de la familia expo-

nencial se presentan en la Tabla 2.1:

Notar que aunque las funciones de enlace canónicos proporcionan propiedades esta-

dísticas deseables, sobre todo para muestras chicas, no existe una razón a priori para que

los efectos sistemáticos del modelo sean aditivos en el intervalo dado por dichas funciones

(McCullagh y Nelder, 1989).

Para los modelos lineales clásicos la función de enlace se llama "identidad", debido

a que el predictor lineal es igual a la media. Dicha función es adecuada en el sentido de

que tanto η como µ pueden tomar valores en los reales.

18


Tabla 2.1.: Funciones de enlace canónicasDistribución FunciónNormal Identidad: η = µPoisson Logarítmica: η = ln (µ)

Binomial Logística: η = ln(

π1−π

)= ln

(µ

m−µ

)Gamma Recíproca: η = 1

µ

Normal inversa Recíproca2: η = 1µ2

No obstante, cuando se trabaja, por ejemplo, con la distribución de Poisson (para

la cual µ > 0), la función identidad no debe utilizarse, porque η podría tomar valores

negativos dependiendo de los valores obtenidos para β. Esta distribución se utiliza cuando

se tienen datos de conteo dispuestos en tablas de contingencia que, bajo el supuesto

de independencia, conducen naturalmente a efectos multiplicativos (si la variable Xi

aumenta n unidades, la probabilidad para la variable de Poisson se multiplica por enβi).

Estos efectos pueden linealizarse a través de la función de enlace logarítmica, es decir,

η = ln (µ), de donde se obtiene µ = eη.

Para la distribución Binomial se tiene la restricción de que, la probabilidad de

éxito π, debe ser 0 < π < 1 y, por lo tanto, la función de enlace debe transformar el

intervalo [0, 1] en la recta real. Este es el caso de las funciones de enlace más comúnmente

encontradas, que además de la canónica son las funciones:

Probit: η = Φ−1 (π) = Φ−1( µm

)con Φ la función de distribución Normal Estándar

Complemeto log-log: η = ln [− ln (1− π)] = ln[− ln

(1− µ

m

)].

También se puede considerar la familia de funciones de enlace dada por

η = ln

[(1− π)−λ − 1

λ

],

donde λ es una constante desconocida. Esta familia tiene como casos particulares el

modelo logístico para λ = 1 y el complemento log-log para λ→ 0.

Otra familia importante, usada principalmente para datos con media positiva, es

19


la familia potencia dada por

η =

µλ−1λ si λ 6= 0

ln (µ) si λ = 0o también η =

µλ si λ 6= 0

ln (µ) si λ = 0

con λ una constante desconocida.

2.4. Estimación del Vector de Parámetros β

Existen dos métodos clásicos para estimar los parámetros desconocidos de un mo-

delo lineal general, uno es el de máxima verosimilitud y otro es el método de mínimos

cuadrados generalizados que, a su vez, tiene al método de mínimos cuadrados ponderados

como caso particular.

El ajuste de un modelo lineal generalizado se determina por el vector β de estima-

ciones de los parámetros. Para estimar los β's se usará el método de máxima verosimilitud

dado que en los casos que se van a trabajar en capítulos posteriores, la distribución de

la variable de respuesta se asume con distribución conocida.

Dado un vector de observaciones independientes y1, y2, . . . , yn, la función de ve-

rosimilitud cuanti�ca la posibilidad (o verosimilitud) de que estas hayan sido generadas

por el vector de parámetros β. Entonces, la función de verosimilitud L está dada por la

función de densidad conjunta de las variables aleatorias independientes Y1, Y2, . . . , Yn:

L (β | y) =n∏i=1

f (yi | θi) .

Para variables aleatorias provenientes de la familia exponencial, el logaritmo de la fun-

ción de verosimilitud para el conjunto de observaciones y1, y2, . . . , yn, es la suma de las

contribuciones individuales, es decir:

LL (θ | y) =n∑i=1

LL (θi | yi) =n∑i=1

log [L (θi | yi)] =n∑i=1

{1

ai (φ)[yiθi − b (θi)] + c (yi;φ)

}

El objetivo es encontrar el estimador de máxima verosimilitud (EMV), para lo cual

uno de los métodos más convenientes es el análisis de los máximos locales de la función.

20


Esto correspondería a resolver el sistema de ecuacionesUθ = dLLdθ = 0 o equivalentemente

en términos de los β's, Uβ = dLLdβ = 0. La familia exponencial posee ciertas propiedades

de regularidad que aseguran la existencia de una única solución al sistema y, por lo

tanto, de un máximo global para la verosimilitud (Fahrmeir y Kaufmannm, 1985). Se

tiene entonces que la función Uj , llamada función score, está dada por:

Uj =∂LL (θi | yi, φ)

∂βj=∂LLi∂βj

Siguiendo la regla de la cadena se tiene que:

Uj =n∑i=1

dLLidθi

dθidµi

dµidηi

∂ηi∂βj

=n∑i=1

1

ai (φ)

[yi − b′ (θi)

] 1

Vi

dµidηi

xij

Luego:

Uj =n∑i=1

(yi − µi)ai (φ)V (µi)

dµidηi

xij (2.3)

En general las ecuaciones Uj = 0, no son lineales y tienen que ser resueltas numé-

ricamente por Newton-Raphson. Para obtener una solución al sistema Uβ = dLLdβ = 0, se

utiliza una versión multivariada del método de Newton-Raphson:

β(M+1) = β(M) +

(I−10

)(M)U(M)

con β(M)y β(M+1), los vectores de los parámetros estimados en los pasos M y (M + 1),

respectivamente. U(M) es el vector de derivadas parciales de primer orden con elementos∂LL∂βj

, y(I−10

)(M)es la matriz de derivadas parciales de 2o orden con elementos −∂

2LL∂βj∂βk

,

ambos evaluados en el paso M.

Cuando las derivadas de 2o orden se obtienen fácilmente, este método es bastante

útil. Pero en el caso de los MLG esto no siempre ocurre, por lo que puede usarse el

método de score de Fisher, que es, en general, más simple y coincide con Newton-Raphson

cuando se trabaja con funciones de enlace canónicas. Este método consiste en sustituir la

matriz de derivadas parciales de 2o orden por la matriz de valores esperados de derivadas

parciales; esto es cambiar la matriz de información observada, I0, por la de información

esperada de Fisher, I. Luego:

β(M+1) = β(M) +

(I−1

)(M)U(M) (2.4)

21


con I dada por los elementos Ijk = E[−∂2L∂βj∂βk

]= E

[∂L∂βj

∂L∂βk

]= E (UjUk), que es la

matriz de covarianzas de los Uj 's.

De 2.3 se tiene:

Ijk =

n∑i=1

E (Yi − µi)2

[ai (φ)V (µi)]2

(dµidηi

)2

xijxik =

n∑i=1

E[(Yi − µi)2

][ai (φ)V (µi)]

2

(dµidηi

)2

xijxik

=

n∑i=1

V ar (Yi)

[ai (φ)V (µi)]2

(dµidηi

)2

xijxik =

n∑i=1

a (φ)V (µi)

[ai (φ)V (µi)]2

(dµidηi

)2

xijxik

=

n∑i=1

1

a (φ)V (µi)

(dµidηi

)2

xijxik

y haciendo ai (φ) = φwi, con φ > 0 constante, wi los pesos a priori y de�niendo Wi =

wiV (µi)

(dµidηi

)2, resulta:

I =1

φXtWX

donde cada elemento Ijk es Ijk =n∑i=1

1φxijWixik, siendo X la matriz del modelo y

W = diag (W1, W2, . . . , Wn) . (2.5)

Además, reordenando los términos de Uj :

Uj =n∑i=1

wi (yi − µi)φV (µi)

dµidηi

xij =n∑i=1

(yi − µi)φ

Wi

[dµidηi

]−1xij =

n∑i=1

1

φxijWi

dηidµi

(yi − µi)

por lo tanto el vector de scores es:U = 1φX

tW∆ (y − µ), con ∆ = diag{dη1dµ1

, dη2dµ2, ..., dηndµn

}=

diag {g′ (µ1) , g′ (µ2) , ..., g′ (µn)}.

Reemplazando I y U en 2.4:

I(M)β(M+1) =I(M)

β(M) + U(M)

1

φXtW(M)Xβ(M+1) =

1

φXtW(M)Xβ(M) +

1

φXtW(M)∆(M) (y − μ)(M)

XtW(M)Xβ(M+1) =XtW(M)[Xβ(M) + ∆(M) (y − μ)(M)

]y haciendo z(M) = Xβ(M)+∆(M) (y − μ)(M) = η(M)+∆(M) (y − μ)(M), llamada variable

22


dependiente ajustada, se tiene:

XtW(M)Xβ(M+1) = XtW(M)z(M)

Finalmente se obtiene:

β(M+1) =

[XtW(M)X

]−1XtW(M)z(M)

que es independiente de φ.

Para iniciar el proceso iterativo se suele especi�car una estimación inicial β(0), que

se actualiza sucesivamente hasta lograr la convergencia y que, por lo tanto, β = β(M+1).

Notar que cada observación se puede considerar como una estimación de su valor medio,

i.e. µi = yi, y por lo tanto ηi = g (µi) = g (yi). Usando η como variable independiente y

X, la matriz del modelo, se puede obtener la estimación inicial β(0).

El algoritmo de estimación puede ser resumido en los siguiente pasos:

1. Obtener las estimaciones

η(M)i =

p∑j=1

xijβ(M)j

µ(M)i = g−1

(η(M)i

)

2. Obtener la variable dependiente ajustada

z(M)i = η

(M)i +

(yi − µ(M)

i

)g′(µ(M)i

)y los pesos

W(M)i =

wi

V(µ(M)i

) [g′(µ(M)i

)]23. Calcular

β(M+1) =

[XtW(M)X

]−1XtW(M)z(M)

y repetir este proceso hasta lograr la convergencia.

23


Un criterio para veri�car la convergencia, entre otros, resulta de plantear:

p∑j=1

(β(M)j − β(M+1)

j

β(M)j

)2

< ξ

con ξ su�cientemente pequeño. En general, el algoritmo anterior es robusto, convergiendo

luego de unas pocas iteraciones (Demétrio, 2001).

Observación: La función g (·) puede no estar de�nida para algunos valores de yi.

A continuación se muestra un ejemplo de cómo proceder en este caso.

Por ejemplo, si la función de enlace estuviera dada por:

ηi = g (µ) = lnµ

y fueran observados valores yi = 0, el proceso no podría iniciarse. Un método para

solucionar este problema, es sustituir y por y + c, tal que E [g (Y + c)] esté lo más cerca

posible de g (µ). De forma general, usando la aproximación de Taylor hasta 2o orden para

g (y + c) en relación a g (µ), se tiene:

g (y + c) ≈ g (µ) + (y + c− µ) g′ (µ) + (y + c− µ)2g′′ (µ)

2

con valor esperado dado por:

E [g (y + c)] ≈ g (µ) + E (Y − µ) g′ (µ) + cg′ (µ) + V ar (Y )g′′ (µ)

2,

luego tomar:

c ≈ −1

2V ar (Y )

g′′ (µ)

g′ (µ).

2.4.1. Ejemplo del Algoritmo de Estimación

Una de las aplicaciones más comunes de los modelos antes descritos son los ensayos

del tipo dosis-respuesta. En la situación general, una droga determinada se administra

a k diferentes grupos de m1, m2, . . . , mk individuos, en dosis d1, d2, . . . , dk respecti-

vamente, obteniendo así una respuesta. Luego de un periodo especí�co, de cada grupo

y1, y2, . . . , yk individuos mudan de estado, es decir, ocurre un evento como, por ejem-

plo, la muerte o la cura de una enfermedad. Los datos resultantes de este tipo de ensayos

24


Tabla 2.2.: Número de insectos muertos (yi) sobre un total demi que recibieron una dosisdi de insecticida

Dosis (di) Total (mi) Muertos (yi) Proporción (pi)10,2 50 44 0,887,7 49 42 0,865,1 46 24 0,523,8 48 16 0,332,6 50 6 0,120,0 49 0 0,00

pueden ser considerados como provenientes de una distribución Binomial con probabili-

dad πi, que corresponde a la probabilidad de ocurrencia (éxito) de un evento, entonces

Yi ∼ Bin (mi, πi).

El objetivo de este tipo de experimentos es, en general, modelar la probabilidad

de éxito πi, en función de variables explicativas para luego determinar las dosis efectivas

DLp, que son aquellas que causan el cambio de estado en el p% de individuos (por

ejemplo, DL50, DL90).

En la Tabla 2.2 se encuentran los datos correspondientes a un ensayo de toxicidad

del la sustancia rotenona, que se utiliza como insecticida, en el cual dosis (di) del producto

fueron aplicadas a mi insectos (Macrosiphoniella sanborni, conocido como pulgón del

crisantemo) y luego de un determinado tiempo se contó la cantidad de insectos muertos

(yi).

Si se gra�can las proporciones de insectos muertos (pi = yi/mi) contra las dosis

(di), se puede ver cómo los puntos describen una curva de aspecto sigmoidal (Ver Figura

2.1), lo cual ayuda en la elección de un modelo para πi.

Si Yi ∼ Bin (mi, πi), del Ejemplo 2 se tiene que su f.d.p. en la forma exponencial

canónica es

f (yi;πi) = exp

{yi ln

(πi

1− πi

)+mi ln (1− πi) + ln

(mi

yi

)},

y que

ai (φ) = 1 θi = ln

(πi

1− πi

)→ πi =

eθi

1 + eθ

b (θi) = −mi ln (1− πi) = mi ln(

1 + eθi)

c (yi; φ) = ln

(mi

yi

).

25


De la primera ecuación se obtiene que φ = 1 y que wi = 1.

De las Ecuaciones 2.2 resulta

E (Yi) = µi = b′ (θi) = miπi

V ar (Yi) = ai (φ) b′′ (θi) = miπi (1− πi) =1

miµi (mi − µi)

Vi = V (µi) = b′′ (θi) =1

miµi (mi − µi) .

Adoptando la función de enlace canónica, que en este caso sería la función logística,

y el predictor lineal dado por una regresión simple, es decir

ηi = g

(µimi

)= ln

(µi

mi − µi

)= β1 + β2di

se tiene

µi = mig−1 (ηi) = mi

eηi

1 + eηi

dηidµi

=(mi − µi) + µi

(mi − µi)2mi − µiµi

=mi

µi (mi − µi)=

1

Vi.

La matriz del modelo X y el vector de parámetros β quedan como

X =

1 d1

1 d2

. . . . . .

1 dn

β = (β1, β2)t .

Siguiendo el algoritmo de estimación, la variable ajustada dependiente zi y los pesos Wi

serán

zi = ηi + (yi − µi)mi

µi (mi − µi)

Wi =wi

Vi (g′ (µi))2 = Vi,

26


luego

XtW =

[1 1 . . . 1

d1 d2 . . . dn

]W1 0 . . . 0

0 W2 . . . 0

. . . . . . . . . . . .

0 0 . . . Wn

=

[W1 W2 . . . Wn

W1d1 W2d2 . . . Wndn

]

XtWX =

n∑i=1

Wi

n∑i=1

Widi

n∑i=1

Widin∑i=1

Wid2i

,cuya inversa se puede calcular como

[XtWX

]−1=adj(XtWX

)det (XtWX)

=1

n∑i=1

Wi

n∑i=1

Wid2i −[n∑i=1

Widi

]2

n∑i=1

Wid2i −

n∑i=1

Widi

−n∑i=1

Widin∑i=1

Wi

.Además

XtWz =

n∑i=1

Wizi

n∑i=1

Widizi

.

Por lo tanto

β(M+1) =

[β(M+1)1

β(M+1)2

]

=1

det(XtW(M)X

)

n∑i=1

W(M)i d2i

n∑i=1

W(M)i z

(M)i −

n∑i=1

W(M)i di

n∑i=1

W(M)i diz

(M)i

n∑i=1

W(M)i

n∑i=1

W(M)i diz

(M)i −

n∑i=1

W(M)i di

n∑i=1

W(M)i z

(M)i

.

De esta manera, haciendo uso de esta fórmula recursiva y asistiéndose de un soft-

ware especí�co para facilitar los cálculos (en este caso la función glm de R), se llega a

las estimaciones de máxima verosimilitud de los parámetros β1 = −3, 23 y β2 = 0, 61, lo

que se traduce en el modelo de regresión logística estimado

p (d) =e−3,23+0,61d

1 + e−3,23+0,61d,

27


Figura 2.1.: Grá�co de las proporciones (pi) versus las dosis (di) junto a la curva deregresión logística estimada

Dado un valor para d, la dosis del insecticida, se obtiene la probabilidad estimada de

que un insecto muera cuando se le aplica dicha concentración. En la Figura 2.1 se puede

apreciar cómo la curva de regresión logística estimada se ajusta a los datos provenientes

del ensayo.

2.4.2. Propiedades y Distribución Muestral de β

Para modelos lineales que tienen variable respuesta con distribución normal, las

distribuciones de los estimadores de los parámetros y los estadísticos usados para la

veri�cación del ajuste del modelo pueden determinarse exactamente. Sin embargo, en ge-

neral, la obtención de distribuciones exactas es muy complicada y suelen usarse resultados

asintóticos. Estos resultados dependen de varias condiciones de regularidad (Fahrmeir y

Kaufmannm, 1985) y de los tamaños de las muestras. Si las observaciones son indepen-

dientes y provienen de distribuciones muestrales pertenecientes a la familia exponencial,

como es el caso de los MLG, estas condiciones se satisfacen.

La idea básica es que si θ es un estimador consistente para un parámetro θ y

V ar(θ)es su varianza, entonces, para muestras grandes, se tiene:

28


1. θ es asintóticamente insesgado.

2. El estadístico

Zn =θ− θ√V ar

(θ) n→∞−−−→ Z, con Z ∼ N (0, 1)

o equivalentemente

Z2n =

(θ− θ

)2V ar

(θ) n→∞−−−→ Z2, con Z2 ∼ χ2

1

Ahora, si θ es un estimador consistente para un vector θ de p parámetros, se tiene

asintóticamente: (θ− θ

)tV−1

(θ− θ

)∼ χ2

p

con V la matriz de covarianzas no singular. Si V es singular se debe usar una inversa

generalizada o bien realizar una reparametrización, con el �n de obtener una nueva matriz

de covarianzas no singular.

Algunas propiedades del estimador β son entonces:

I) Es asintóticamente insesgado, i.e., para muestras grandes, E(β

)= β.

Prueba: Supóngase que el logaritmo de la función de verosimilitud tiene un único

máximo en β, que es cercano al verdadero valor de β . La aproximación de Taylor

hasta los términos de primer orden para el vector score U(β

), en relación a β, y

sustituyendo la matriz de derivadas parciales por −I, está dada por:

U(β

)= U (β)− I

(β− β

)y como β es solución del sistema U

(β

)= 0, se obtiene que β − β = I−1U (β).

Entonces, como I es no singular:

E(β− β

)= I−1E [U (β)] = 0⇒ E

(β

)= β

porque E [U (β)] = 0. Por lo tanto, β es un estimador insesgado de β (por lo menos

asintóticamente).

29


II) Denotando U (β) = U, resulta que la matriz de varianzas de β, para muestras

grandes, está dada por:

Cov(β

)= E

[(β− β

)(β− β

)t]= I−1E

(UUt

) (I−1

)t= I−1II−1 = I−1

porque I = E[UUt

]y(I−1

)t= I−1, por ser una matriz simétrica.

III) Para muestras grandes, se tiene:(β− β

)tI(β− β

)∼ χ2

p

o, de forma equivalente:

β ∼ Np

(β, I−1

)que es la base para la construcción de tests e intervalos de con�anza para los

MLG. En el caso de tener variables de respuesta con distribución normal, las dos

ecuaciones anteriores son exactas.

Para muestras chicas, β es bastante sesgado. Además, para n no muy grande, la

estructura de las covarianzas de las estimaciones de los parámetros lineales di�ere de

I−1. La matriz I es consistentemente estimada por

I =1

φXtWX,

con φ constante y conocido, y W como en la Ecuación 2.5. Para las distribuciones Bi-

nomial y Poisson, se tiene que φ = 1. Si φ es constante para todas las observaciones

y desconocido, afectará la estructura asintótica de I−1 (con elementos vjk) pero no el

valor de β. En la práctica, si φ es desconocido, (para las distribuciones Normal y Normal

Inversa se tiene que φ = σ2, y φ = v−1 para la Gamma) debe ser sustituido por alguna

estimación consistente.

Los errores estándar de los estimadores β1, β2, . . . , βp son iguales a las raíces cua-

dradas de los elementos de la diagonal de I−1, es decir EE(βp

)=√vii. Entonces los

intervalos de con�anza asintóticos con un intervalo de con�anza del 95 % de probabilidad

para los parámetros βj 's, se obtienen como:

βj = Z1−α2±√vjj = 1,96±√vjj .

30


A partir de I−1, se puede calcular la correlación entre los βj 's de la siguiente

manera:

ρjk = ˆCorr(βj ; βk

)=

ˆCov(βj ; βk

)√

ˆV ar(βj

)ˆV ar(βk

) =vjk√vjjvkk

que permite veri�car, por lo menos aproximandamente, la interdependencia de los pará-

metros.

Ejemplo 4. Sea Y1, Y2, . . . , Yn una muestra aleatoria de una distribución N(µi, σ

2),

siendo que µi = xtiβ y σ2 > 0, conocido. Considerando como función de enlace la identi-

dad, i.e. ηi = µi, se tiene que

g′ (µi) =dηidµi

= 1

Además, V (µi) = 1, wi = 1 y, por consiguiente, Wi = 1. Luego, se tiene

I =1

φXtWX =

1

σ2XtX

y la variable independiente ajustada

zi = ηi + g′ (µi) (yi − µi) = µi + yi − µi = yi

Por lo tanto, el algoritmo de estimación es

1

σ2XtXβ =

1

σ2Xty

y como XtX tiene inversa, resulta

β =(XtX

)−1Xty

que es la solución usual de cuadrados mínimos para los Modelos Lineares Clásicos. En-

tonces

E(β

)=(XtX

)−1XtE (Y) =

(XtX

)−1XtXβ = β

31


y

Cov(β

)= E

[(β− β

)(β− β

)t]=(XtX

)−1XtE

[(Y −Xβ) (Y −Xβ)t

]X(XtX

)−1= σ2

(XtX

)−1= I−1,

porque E[(Y −Xβ) (Y −Xβ)t

]= Iσ2 y I = 1

σ2XtX.

Finalmente, (β− β

)tI(β− β

)∼ χ2

p

que es una ecuación exacta.

2.4.3. Métodos Bayesianos de Estimación

Los métodos clásicos (no Bayesianos) suponen que los parámetros están �jos y tie-

nen como objetivo encontrar procedimientos con propiedades deseables para estimarlos.

Usualmente, se imaginan realizaciones replicadas de los datos, lo cual supone que es su-

�ciente realizar inferencias sobre los parámetros basadas en lo que pudo haber pasado

(pero no pasó) y no en lo que sí sucedió (los datos observados).

El método Bayesiano, como los métodos clásicos de estimación, ve los datos como

una realización de una variable aleatoria, pero, a diferencia de estos, también ve a los

parámetros de un modelo como variables aleatorias, asignándoles una distribución a

priori que los caracteriza probabilísticamente. El Teorema de Bayes es utilizado para,

dados los datos, dar como resultado la distribución de probabilidad de los parámetros,

cantidad conocida como distribución a posteriori. El método realiza inferencias sobre los

parámetros basándose en esta distribución, condicional a los datos observados.

La distribución a priori de los parámetros se denota como f (θ), mientras que la

distribución de las variables aleatorias (de los datos) dados los parámetros es f (y | θ),

que es esencialmente la función de verosimilitud L (θ | y). Usando el Teorema de Bayes,

la distribución a posteriori de los parámetros resulta:

f (θ | y) =f (θ) f (y | θ)

f (y)∝ f (y | θ) f (θ) ,

32

2.5. Función Deviance y el Estadístico de Pearson χ2 Generalizado

siendo esta la base de la inferencia Bayesiana. Por ejemplo, la media a posteriori de los

β's es utilizada como una estimación puntual para la cual se pueden construir intervalos

de con�anza Bayesianos, también conocidos como intervalos de credibilidad, usando los

cuantiles de la distribución a posteriori.

Cuando se utilizan distribuciones a priori constantes o uniformes, es decir que todos

los parámetros tienen la misma probabilidad de ocurrir, la distribución a posteriori y la

verosimilitud se vuelven proporcionales f (θ | y) ∝ f (y | θ) = L (θ | y). Esto signi�ca

que, a pesar de las diferencias entre las �losofías subyacentes de los dos enfoques, en esta

situación los dos métodos tienden a ser similares para datos de su�ciente calidad.

Para los métodos de estimación Bayesiana, el hecho de considerar los parámetros

como provenientes de una distribución, y no como cantidades �jas, resulta de utilidad

cuando se consideran modelos con "efectos aleatorios". Es decir que, dado un parámetro,

en vez de suponer que su valor es igual para todas las muestras, se pueden considerar

que los valores de este parámetro para las diferentes muestras provienen de una misma

distribución subyacente pero con diferentes realizaciones.

La inferencia Bayesiana moderna utiliza a menudo métodos de integración numérica

para obtener las distribuciones a posteriori si el número de parámetros es chico. Para

ello se suele recurrir a métodos de simulación basados en Monte Carlo vía cadenas de

Markov (MCMC), los cuales pueden proveer fácilmente estimaciones para modelos con

los cuales sería demasiado complicado trabajar desde una perspectiva frecuentista, como

la de máxima verosimilitud.

2.5. Función Deviance y el Estadístico de Pearson χ2

Generalizado

Dada una distribución de la variable de respuesta y una función de enlace acorde,

el objetivo es determinar cuántos términos son necesarios en la estructura lineal para

una descripción razonable de los datos. Un gran número de variables explicativas (o

covariables) puede resultar en un modelo que explique bien los datos pero complejo de

interpretar. Por otro lado, un número pequeño puede llevar a una interpretación fácil

pero que se ajusta pobremente a los datos. Entonces, en la realidad lo que se busca es

un modelo intermedio.

33


Dadas n observaciones, se pueden ajustar modelos que contengan hasta n paráme-

tros. El modelo más simple es el modelo nulo o constante que tiene un único parámetro,

representado por un valor común a todos los datos. La matriz de este modelo se reduce

a un vector columna compuesto de 1's. El modelo nulo atribuye toda la variación entre

los y's al componente aleatorio.

En el otro extremo, se encuentra el modelo saturado o completo, que tiene n pa-

rámetros, uno por observación. Este modelo atribuye toda la variación al componente

sistemático y, por lo tanto, se ajusta perfectamente, reproduciendo los mismos datos.

Existen otros dos modelos limitantes pero menos extremos. Uno es el modelo mi-

nimal que incluye el menor número de parámetros necesarios para el ajuste.

Por otro lado, elmodelo maximal contiene el mayor número de términos que pueden

ser considerados. Los términos de estos modelos extremos son, en general, obtenidos por

interpretaciones a priori de la estructura de los datos.

En general, se suele trabajar con modelos encajados. Entonces, el conjunto de ma-

trices de los modelos puede ser construido por la adición sucesiva de términos al modelo

minimal hasta llegar al maximal. Cualquier modelo con p parámetros linealmente inde-

pendientes que esté entre los modelos minimal y maximal, es llamado modelo corriente

o subyacente. El problema es determinar la utilidad de adicionar un parámetro más al

modelo corriente y veri�car la falta de ajuste inducida por la omisión de este.

Para discriminar entre modelos se deben introducir medidas de discrepancia que

midan el ajuste de los mismos. Un ejemplo, es la deviance, propuesta por Nelder y

Wedderburn (1972) y dada por:

Sp = 2(LLn − LLp

),

con LLn y LLp los máximos del logaritmo de la función de verosimilitud para los modelos

saturado y corriente, respectivamente. Como se ve, el modelo saturado es utilizado como

base de la medida de ajuste de un modelo corriente.

Tomando ai (φ) = φwi, se tiene:

LLn =1

φ

n∑i=1

{wi

[yiθi − b

(θi

)]+ c (yi; φ)

}

34


y

LLp =1

φ

n∑i=1

{wi

[yiθi − b

(θi

)]+ c (yi; φ)

}con θi = θ (yi) y θi = θ (µi), las estimaciones de los parámetros canónicos para los

modelos saturado y corriente, respectivamente. Se tiene entonces

Sp =1

φ

n∑i=1

2wi

{yi

[θi − θi

]− b

(θi

)+ b

(θi

)}=

1

φDp

donde Sp es llamada deviance escalada, y Dp deviance. Se puede escribir también como

Sp =1

φ

n∑i=1

d2i

donde d2i es llamado componente de deviance y mide la diferencia de los logaritmos de

las funciones de verosimilitud observada y ajustada, para la observación correspondiente.

La suma de ellos mide la discrepancia total entre las dos funciones de verosimilitud. Es,

por lo tanto, una medida de distancia entre los valores ajustados (µ's) y los observados

(y's), es decir entre el modelo corriente y el saturado.

Se puede veri�car que la deviance equivale a una constante menos dos veces el

máximo de la función de verosimilitud para el model corriente, i.e. Sp = 2LLn− 2LLp =

c− 2LLp, con c una constante.

Ejemplo 5. Siguiendo el Ejemplo 4 de la sección anterior, se tiene

φ = σ2; wi = 1; θi = µi; b (θi) =θ2i2

=µ2i2.

Luego

Sp =1

σ2

n∑i=1

2

{yi [yi − µi]−

y2i2

+µ2i2

}=

1

σ2

n∑i=1

{2y2i − 2yiµi − y2i + µ2i

}=

1

σ2

n∑i=1

(yi − µi)2 =SQRes

σ2

donde SQRes es la suma de cuadrados residual con (n− p) grados de libertad.

Ejemplo 6. Suponer ahora que las Yi's son variables aleatorias que representan conteos

de sucesos en muestras independientes de tamañosmi. Suponiendo que Yi ∼ Bin (mi, πi),

35


Tabla 2.3.: Funciones deviances escaladas para algunas distribucionesDistribución Deviance Escalada

Normal Sp = 1σ2

n∑i=1

wi (yi − µi)2

Poisson Sp = 2n∑i=1

wi

[yi ln

(yiµi

)− (yi − µi)

]Binomial Sp = 2

n∑i=1

wi

[yi ln

(yiµi

)+ (mi − yi) ln

(mi−yimi−µi

)]Binomial Negativa Sp = 2

n∑i=1

wi

[yi ln

(yiµi

)+ (yi + k) ln

(yi+kµi+k

)]Gamma Sp = 2ν

n∑i=1

wi

[− ln

(yiµi

)+ yi−µi

µi

]Normal inversa Sp = 1

σ2

n∑i=1

wi(yi−µi)2yiµi

entonces

φ = 1; wi = 1; θi = ln

(πi

1− πi

)= ln

(µi

mi − µi

)y

b (θi) = mi ln(

1 + eθi)

= −mi ln (1− πi) = −mi ln

(mi − µimi

).

Luego,

Sp =n∑i=1

2

{yi

[ln

(yi

mi − yi

)− ln

(µi

mi − µi

)]+mi ln

(mi − yimi

)−mi ln

(mi − µimi

)}o

Sp = 2

n∑i=1

[yi ln

(yiµi

)+ (mi − yi) ln

(mi − yimi − µi

)].

Esta expresión es válida para 0 < yi < mi. Si yi = 0 el i-ésimo término de Sp debe

sustituirse por 2mi ln(

mimi−µi

), mientras que si yi = mi, debe sustituirse por 2mi ln

(miµi

).

En la Tabla 2.3 se encuentran las deviances (escaladas) para algunas distribuciones

de la familia exponencial. La deviance es siempre no negativa, y a medida que entran

covariables en el componente sistemático, decrece hasta volverse cero para el modelo

saturado. Cuanto mejor sea el ajuste del modelo menor será el valor de Sp. En la práctica,

se suelen buscar modelos simples con deviance moderada, situados entre los modelos más

complicados y aquellos que se ajustan pobremente a los datos.

36


Para testear la adecuación de un MLG, el valor para la deviance (con (n− p)grados de libertad, siendo p el rango de la matriz del modelo) debe ser comparado con

el percentil de alguna distribución de probabilidad de referencia. Para la distribución

Normal, asumiendo que el modelo usado es verdadero con σ2 conocido, se tiene

Sp =Dp

σ2∼ χ2

n−p

que es exacta.

Supóngase que el modelo usado es verdadero para la distribución Binomial, cuando

n es �jo y mi → ∞ ∀i (no vale cuando miπi (1− πi) es acotado) y para la distribución

Poisson, cuando µi →∞ ∀i entonces se tiene (para φ = 1)

Sp = Dp ∼ χ2n−p

En los casos que Sp dependa de φ (conocido), se muestra que

Sp ∼ χ2n−p, cuando φ→ 0,

es decir, cuando la dispersión es chica. En general, no se conoce el valor del coe�ciente

φ, y debe ser sustituido por una estimación consistente.

En la práctica se testean los MLGs sin demasiado rigor, comparando el valor Spcon los percentiles de la distribución χ2

n−p. De esta manera, en los casos que sea posible

obtener la aproximación de una χ2n−p, se tiene que si

Sp ≤ χ2n−p;α

puede considerarse que existen evidencias, a un nivel aproximado de 100α% de proba-

bilidad, que el modelo propuesto se ajuste bien a los datos. O, más aún, sabiendo que,

si Z ∼ χ2n−p, entonces E (Z) = (n− p), un valor de Sp cercano a (n− p) puede ser

evidencia de bondad de ajuste.

Otra medida de discrepancia en el ajuste de un modelo a un conjunto de datos es

el estadístico χ2 de Pearson generalizado, dado por:

χ2 =n∑i=1

wi(yi − µi)2

V (µi),

37


siendo V (µi) la función de varianza estimada bajo el modelo.

Para respuestas con distribución Normal se tiene χ2 = SQRes y

χ2

σ2∼ χ2

n−p,

que es exacta.

Para datos provenientes de distribuciones Binomial y Poisson, con φ = 1, χ2 es el

estadístico original de Pearson, que puede ser escrito como

χ2 =

n∑i=1

(Oi − Ei)2

Ei,

con Oi la frecuencia observada y Ei la esperada.

Para distribuciones no normales se pueden obtener sólo resultados asintóticos, es

decir, la distribución χ2n−p puede ser usada solamente como una aproximación que, en

muchos casos, puede ser pobre. Además, χ2 tiene como desventaja, el hecho de tratar

los yi's simétricamente. En muchos casos es preferida en relación a la deviance, por su

facilidad de interpretación.

Ejemplo 7. Siguiendo el ejemplo Binomial de la Sección 2.4.1 y la fórmula del Ejemplo 6,

se tiene que S2 = 10,26 = D2 (porque φ = 1) y χ2 = 9, 70 con 4 grados de libertad. Si se

inspecciona la tabla de distribuciones de χ24, se tiene que χ

24;0,05 = 9, 49 y χ2

4;0,01 = 13, 29,

lo que indica la existencia de evidencias, a un nivel de signi�cancia entre 5% y 1% de

probabilidad, de que el modelo logístico lineal se ajuste adecuadamente al conjunto de

datos. Es necesario, además del test de la hipótesis H0 : β2 = 0, un análisis de residuos

y de diagnósticos.

2.6. Estimación del Parámetro φ

Para las distribuciones Binomial y Poisson se tiene que φ = 1. Pero en otros

casos, como el de las distribuciones Normal y Normal Inversa (donde φ = σ2) y el de

la distribución Gamma (donde φ = v−1), este parámetro es desconocido, admitiéndose

igual para todas las distribuciones, es decir, constante. Es necesaria su estimación para

la obtención de los errores estándar de los β's (como se vio en la Sección 2.4.2), los

intervalos de con�anza y para los tests de hipótesis de los β's, entre otros usos.

38

2.7. Análisis de la Deviance

Uno de los métodos utilizados para la estimación de φ es el método de máxima

verosimilitud. Este método es siempre posible en teoría pero cuando no existe una solución

explícita puede tornarse insoluble computacionalmente.

Si φ es el mismo para todas las distribuciones, la estimación de máxima verosi-

militud de β es independiente de φ, pero este parámetro se encuentra involucrado en

la matriz de convarianzas de los β's. Dado y, se puede ver al logaritmo de la función

de verosimilitud LL (β, φ | y) como función de β y de φ, y así obtener la estimación de

máxima verosimilitud para φ haciendo

∂LL (β, φ)

∂φ= 0.

Por ejemplo, sea Y1, Y2, . . . , Yn una muestra aleatoria de una distribuciónN(µi, σ

2).

Entonces el logaritmo de la función de verosimilitud es

LL = −1

2

n∑i=1

(yi − µi)2

φ− n

2ln (2πφ)

cuya derivada con respecto a φ es

∂LL

∂φ=

1

2

n∑i=1

(yi − µi)2

φ2− n

2φ.

Igualando a 0 se obtiene

φ =1

n

n∑i=1

(yi − µi)2 =1

nDp.

Análogamente, para la distribución normal inversa se llega al mismo resultado.

Para el modelo normal, se veri�ca que la estimación de máxima verosimilitud para

φ es exacta. Para el caso de la distribución Gamma la estimación resulta no consistente,

y es necesario recurrir a otros métodos.

2.7. Análisis de la Deviance

El análisis de deviance tiene como objetivo obtener, a partir de una sucesión de

modelos (cada uno incluyendo más términos que los anteriores), los efectos de factores,

39


covariables y sus interacciones.

Sea Mp1 , Mp2 , . . . , Mpr una sucesión de modelos encajados de dimensiones res-

pectivas p1 < p2 < . . . < pr, matrices de los modelos Xp1 , Xp2 , . . . , Xpr y deviances

Dp1 > Dp2 > . . . > Dpr . Todos los modelos tienen la misma distribución y función de

enlace. Las deviances son utilizadas como medidas de discrepancia de los modelos y se

construye con ellas una tabla de diferencia de deviances. Estas desigualdades entre las

deviances, en general, no se veri�can para el estadístico χ2 de Pearson generalizado y,

por esta razón, la comparación de los modelos encajados se realiza, principalmente, a

través de la deviance.

Sean los modelos Mp y Mq con p < q parámetros. La estadística Dp − Dq con

(q − p) grados de libertad, es interpretada como una medida de la variación de los datos,

explicada por los términos que están en Mq y no en Mp, incluidos los efectos de los

términos en Mp, e ignorando los efectos de los términos que no están en Mq. Se tiene,

asintóticamente, para φ conocido, que

Sp − Sq =1

φ(Dp −Dq) ∼ χ2

q−p,

que es, simplemente, el test de razón de verosimilitudes (del que se hablará en la próxima

sección). Si φ es desconocido, se debe obtener una estimación φ consistente, preferen-

temente basada en el modelo maximal (con m parámetros), y realizar inferencias que

pueden ser basadas en el estadístico F , dado por

F =(Dp −Dq) / (q − p)

φ∼ Fq−p,n−m.

Para la distribución Normal, se tiene

(SQResp − SQResq) / (q − p)SQResm/ (n−m)

∼ Fq−p,n−m

que es exacta.

Ejemplo 8. Siguiendo el ejemplo Binomial de la Sección 2.4.1, se pueden proponer los

siguientes modelos encajados para analizar los datos:

1. Modelo nulo: ηi = β1.

2. Modelo de regresión lineal: ηi = β1 + β2di.

40

2.8. Tests de Hipótesis

En la siguiente tabla se presentan para cada modelo las deviances y sus respectivos grados

de libertad:

Modelo g.l. Deviances χ2

ηi = β1 5 163,74 135,70

ηi = β1 + β2di 4 10,26 9,70

χ24;0,05 = 9, 49; χ2

4;0,01 = 13, 29

Como se vio anteriormente, existen evidencias de que el modelo logístico lineal se

ajusta adecuadamente a los datos, a un nivel de signi�cancia entre 5% y 1%, pero se

rechaza el modelo nulo. Dadas las deviances de los modelos (D1 yD2, respectivamente) su

diferencia D1−D2 con 1 grado de libertad se interpreta como una medida de la variación

de los datos en términos de la regresión lineal, incluyendo el efecto del intercepto. En la

siguiente tabla se ve cómo se rechaza la hipótesis H0 : β2 = 0, que con�rma la adecuación

del modelo logístico lineal. Sin embargo, es necesario también un análisis de residuos y

de diagnósticos.

Causa de Variación g.l. Deviances P-valor

Regresión lineal 1 153,48 < 0, 0001

Residuo 4 10,26

Total 5 163,74

χ21;0,05 = 3, 84; χ2

1;0,01 = 6, 64


Los métodos de inferencia para los MLGs se basan, principalmente, en la teoría

de máxima de verosimilitud. De acuerdo a ella, existen tres estadísticos para testear

hipótesis relativas a los parámetros β's, que son deducidos de distribuciones asintóticas

de funciones adecuadas de las estimaciones de los β′s. Estos son:

1. Razón de verosimilitudes

2. Wald

3. Score,

41


que son asintóticamente equivalentes y, bajo H0, para φ conocido, convergen a una va-

riable con distribución χ2p.

Cuando se tiene un vector de parámetros, muchas veces es de interés testear hi-

pótesis sólo sobre un subconjunto de ellos. Sea entonces una partición del vector de

parámetros dada por:

β =[βt1, β

t2

]tsiendo β1 el vector de interés de dimensión q, y β2 el vector nuisance de dimensión p− q.

Análogamente, se tiene la partición de la matriz del modelo X = [X1, X2], del

vector escore U = φ−1XtW4 (y − μ) =[Ut

1,Ut2

]tcon U1 = φ−1Xt

1W4 (y − μ), y de

la matriz de información de Fisher para β

I =1

φXtWX =

[I11 I12I21 I22

],

con I12 = It21.

Usando resultados conocidos de álgebra de matrices que involucran la partición de

matrices (Searle, 1982), se tiene, para muestras grandes, la varianza asintótica de β1:

V ar(β1

)=(I11 − I12I−122 I21

)−1= φ

[Xt

1W12 (I−H2)W

12X1

]−1,

con H2 = W12X2

(Xt

2W12X2

)−1Xt

2W12 .

Sean las hipótesis H0 : β1 = β1,0

Ha : β1 6= β1,0,

siendo β1,0 un valor especí�co para β1. Sea β =[βt

1, βt

2

]tel estimador de máxima ve-

rosimilitud para β sin restricción y β0 =[βt1,0, β

t

2,0

]t, con β2,0 el estimador de máxima

verosimilitud para β2, bajo H0. A continuación se de�nen los tests anteriormente men-

cionados para testear la hipótesis H0.

42


2.8.1. Test de Razón de Verosimilitudes

Este test comprende la comparación de los valores del logaritmo de la función de ve-

rosimilitud maximizada sin restricción LL(β1, β2 | y

)y bajo la hipótesisH0

(LL(β1,0, β2,0 | y

)),

o, en términos de deviance, la comparación entre D (y | μ) y D(y | μ0

), donde μ0 =

g−1(η0

)y η0 = Xβ0.

Generalmente, este test, es utilizado en el caso de hipótesis relativas a varios coe-

�cientes β's. Si las diferencias son grandes, entonces, se rechaza H0. El estadístico para

este test está dado por:

Λ = −2 ln (λ) = 2[LL(β1, β2 | y

)− LL

(β1,0, β2,0 | y

)]=

1

φ

[D(y | μ0

)−D (y; μ)

].

Para muestras grandes, se rechaza H0, a un nivel de 100α% de probabilidad, si

Λ > χ2q,1−α.

2.8.2. Test de Wald

El test de Wald se basa en la distribución normal asintótica de β y es una generali-

zación del estadístico t de Student. Se usa generalmente en el caso de hipótesis relativas

a un solo coe�ciente βj .

Tiene como ventaja, en relación al test de razón de verosimilitudes, el hecho de no

requerir el calcular β2,0. Como fue visto en la Sección 2.4.2, asintóticamente se tiene:

β ∼ Np

(β, I−1

).

Por lo tanto, el estadístico para este test es

W =(β1 − β1,0

)t [ˆV ar(β1

)]−1 (β1 − β1,0

),

con ˆV ar(β1

)siendo V ar

(β1

)evaluada en β =

[βt

1, βt

2

]t.

Para muestras grandes, se rechaza H0, a un nivel del 100α% de probabilidad, si

W > χ2q,1−α.

43


2.8.3. Test Score

El test Score se obtiene a partir de la función score, siendo muy utilizado en Bio-

estadística. El estadístico para este test está dado por:

U = Ut1

(β0

)ˆV ar0

(β1

)U1

(β0

),

con ˆV ar0

(β1

)siendo V ar

(β1

)evaluada en β0 =

[βt

1,0, βt

2,0

]t.

Para muestras grandes, se rechaza H0, a un nivel del 100α% de probabilidad, si

U > χ2q,1−α.

Ejemplo 9. Supóngase que es de interés el test de hipótesis para el vector β como un

todo, es decir, se quiere testear las hipótesisH0 : β = β0

Ha : β 6= β0.

El vector β2 desaparece, entonces β1 = β (q = p), y se tienen las siguientes expresiones

para cada test:

1. Test de razón de verosimilitudes: Λ = −2 ln (λ) = 2[LL(β | y

)− LL

(β0 | y

)]=

1φ

[D(y | μ0

)−D (y | μ)

].

2. Test de Wald:W =(β− β0

)tI(β− β0

), con I la matriz de información de Fisher

evaluada en β.

3. Test Score: U = Ut(β0

)I−10 U

(β0

), con I0 la matriz de información de Fisher

evaluada en β0.

La utilización de la matriz de información puede tener un efecto signi�cativo en el po-

der de los tests para muestras �nitas. Su uso resulta inapropiado ya que no representa

correctamente a la función de verosimilitud, en contraposición con el test de razón de

verosimilitudes que sí lo hace (Buse, 1982).

Ejemplo 10. Sea Y1, Y2, . . . , Yn una muestra aleatoria de una distribución N(µ, σ2

)con µ desconocido y σ2 conocido. Visto como un MLG, se tiene:

1. Un único parámetro de interés, µ.

44


2. Ninguna variable explicativa.

3. La función de enlace es la identidad: η = µ.

El logaritmo de la función de verosimilitud es

LL = LL (µ | y1, . . . , yn) = − 1

2σ2

n∑i=1

(yi − µ)2 − n

2ln(2πσ2

),

a partir de lo que se obtiene:

U =dLL

dµ=

1

σ2

n∑i=1

(yi − µ) =n

σ2(y − µ) ,

E (U) =n

σ2[E(Y)− µ

]= 0

y

I = V ar (U) =n2

(σ2)2V ar

(Y)

=n2

(σ2)2σ2

n=

n

σ2.

Por lo tanto,

U = U tI−1U =n2(Y − µ

)2(σ2)2

σ2

n=

(Y − µ

)2σ2

n

∼ χ21.

Este resultado puede usarse para obtener intervalos de con�anza para µ.

Ejemplo 11. Sea Y ∼ Bin (m,π), entonces el logaritmo de la función de verosimilitud

será

LL (π | y) = ln

(m

y

)+ y ln (π) + (m− y) ln (1− π) ,

que tiene función score

U =dLL

dπ=y

π− m− y

1− π=

y −mππ (1− π)

.

45


Pero, como E (Y ) = µ = mπ y V ar (Y ) = mπ (1− π) = 1mµ (m− µ), será

E (U) =E (Y )−mππ (1− π)

= 0

I = V ar (U) =V ar (Y )

π2 (1− π)2=

m

π (1− π).

Luego,

U = U tI−1U =(Y −mπ)2

π2 (1− π)2π (1− π)

m=

(Y −mπ)2

mπ (1− π)=

[Y − E (Y )]2

V ar (Y )

que, según el Teorema del Límite Central, sigue una distribución χ21, o lo que es equiva-

lente a decir queY − E (Y )√V ar (Y )

=

√m (Y − µ)√µ (m− µ)

converge en distribución a N (0, 1).

Este resultado puede ser utilizado para realizar inferencias con respecto a µ.

2.9. Intervalos de Con�anza

Se pueden construir intervalos de con�anza asintóticos para β1 usando cualquiera

de los estadísticos de los tests anteriores.

A partir del estadístico del test de razón de verosimilitudes, una región de con�anza

para β1, con un coe�ciente de con�anza de 100 (1− α) %, incluye todos los valores de

β1 tales que

2[LL(β1, β2 | y

)− LL

(β1, β2,1 | y

)]< χ2

q,1−α,

con β2,1 la estimación de máxima verosimilitud de β2 para cada valor de β1 que es

testeado si pertenece, o no, al intervalo.

Usando el estadístico de Wald, una región de con�anza para β1, con un coe�ciente

de con�anza de 100 (1− α) %, incluye todos los valores de β1 tales que(β1 − β1

)t [ˆV ar(β1

)]−1 (β1 − β1

)< χ2

q,1−α.

46

2.10. Técnicas para la Veri�cación del Ajuste de un Modelo a un Conjunto de Datos

2.10. Técnicas para la Veri�cación del Ajuste de un

Modelo a un Conjunto de Datos

En la práctica, puede suceder que, después de haber elegido cuidadosamente las

variables de un MLG y haber ajustado el modelo a un conjunto de datos los resultados

no sean satisfactorios. Esto podría ocurrir a causa de algún desvío sistemático entre los

valores observados y los ajustados, o porque uno o más datos son discrepantes en relación

a los demás.

Los desvíos sistemáticos suelen ser provocados por una elección inadecuada de la

función de varianza, la función de enlace, de la matriz del modelo, o por la de�nición

errónea de la escala de la variable dependiente o de las covariables.

Las discrepancias aisladas pueden ocurrir porque los puntos están en los extremos

de la amplitud de validez de la covariable, porque son realmente erróneos debido a una

lectura o transcripción mal realizada, o, por otro lado, porque algún factor no controlado

in�uenció su obtención.

Comúnmente, lo que suele ocurrir, es una combinación de diferentes tipos de fallas,

por lo que la veri�cación de la adecuación de un modelo a un conjunto de datos resulta

un proceso complejo.

Las técnicas usadas para este �n se dividen en informales y formales. Las técnicas

informales se basan en la examinación visual de grá�cos para la detección de patrones o

de puntos discrepantes. Por otro lado, las técnicas formales involucran anidar el modelo

subyacente en una clase mayor, a través de la inclusión de un parámetro (o vector de

parámetros) extra γ. Las técnicas más usadas se basan en los tests de razón de verosimili-

tudes y score. Los parámetros extras pueden aparecer en varias situaciones como cuando

se incluye una covariable adicional o para realizar el test de adecuación de la función de

enlace.

2.11. Análisis de Residuos y Diagnósticos

2.11.1. Introducción

Si las hipótesis del modelo son violadas, el análisis resultante puede llevar a resul-

tados poco con�ables. Este tipo de violaciones al modelo son llamadas fallas sistemáticas

47


(no-linealidad, no-normalidad, heterocedasticidad, no-independencia, etc.). Por otro la-

do, puede suceder que, a pesar de haber escogido correctamente un modelo, el resultado

sea insatisfactorio debido a la presencia de puntos atípicos, consideradas como fallas

aisladas, que pueden in�uenciar (o no) el ajuste del modelo. Este tipo de fallas pueden

surgir de varias maneras como:

Errores groseros en la variable de respuesta o en las variables explicativas, debido

a medidas erróneas en el registro de una observación o en su transcripción.

Observación proveniente de condiciones distintas a las demás.

Modelo mal especi�cado (falta una o más covariables, modelo inadecuado, etc.).

Uso de una escala incorrecta. Algunos datos puede ser mejor descriptos luego de

una transformación, por ejemplo, del tipo logarítmica o raíz cuadrada.

La parte sistemática del modelo y la escala son correctos pero la de la distribución

de la variable de respuesta tiene una cola más larga que la distribución normal.

Dado un conjunto de observaciones a las que se ha ajustado un modelo determinado,

para veri�car sus hipótesis deben considerarse:

Los valores estimados (o ajustados) µi.

Los residuos ri = yi − µi.

Una estimación consistente del parámetro φ.

La matriz de proyección H = W12X(XtWX

)−1XtW

12 .

Los elementos de la diagonal de H son conocidos como leverage. Puede demostrarse que:

V−12 (µ− µ) ∼= HV−

12 (Y − µ) ,

conV = diag {V (µi)}. Esto muestra queHmide la in�uencia en unidades estudentizadas

de Y sobre µ.

2.11.2. Tipos de Residuos

Los residuos tienen un papel fundamental en la veri�cación del ajuste de un modelo.

Los tipos de residuos más utilizados para los MLG son:

48

2.11. Análisis de Residuos y Diagnósticos

a) Residuos ordinarios: ri = yi − µi.

b) Residuos de Pearson generalizados:

rPi =yi − µi√φwiV (µi)

,

con φ una estimación consistente del parámetro φ y wi un peso a priori (igual a 1

en la mayoría de los casos).

c) Residuos de Pearson generalizados internamente estudentizados:

rP′

i =yi − µi√

φwiV (µi) (1− hi)

,

con los hi elementos de la diagonal de la matriz H.

d) Componentes de deviance:

rDi = signo (yi − µi)√

2wiφ

[yi

(θi − θi

)+ b

(θi

)− b

(θi

)].

e) Componentes de deviance estudentizados internamente:

rD′

i =rDi√

φ (1− hi).

f) Componentes de deviance estudentizados externamente (jackknifed residual o de-

letion residuals):

rD∗

i = signo (yi − µi)√

(1− hi)(1rD

′i

)2+ hi

(1rP

′i

)2,

donde el índice 1 signi�ca 1ª iteración.

2.11.3. Tipos de Grá�cos

a) Residuos vs. alguna función de los valores ajustados: Se recomienda gra�car algún

tipo de residuo estudentizado contra ηi, o sino, contra los valores ajustados trans-

formados de tal forma que tengan varianza constante para la distribución en uso.

49


Tabla 2.4.: Distribuciones y sus funcionesDistribución FunciónNormal µiPoisson 2

√µi

Binomial 2 arcsin (µi/mi)Gamma 2 ln (µi)

Normal Inversa −2µ−1/2i

En la Tabla 2.4 se muestra la función usada para cada distribución. El modelo nulo

de este grá�co es una distribución de los residuos en torno al cero con amplitud

constante. Algunos desvíos sistemáticos pueden presentar algún tipo de curvatura

o, sino, cambios sistemáticos de amplitud con el valor ajustado. No tiene signi�cado

para datos binarios (Bernoulli).

b) Residuos vs. variables explicativas no incluidas: Puede mostrar si existe relación

entre los residuos del modelo ajustado y una variable aún no incluida en el modelo.

Una alternativa mejor a este grá�co es el grá�co de variable agregada (added varia-

ble plot). El modelo nulo para este grá�co muestra una distribución de los residuos

en torno al cero con amplitud constante.

c) Residuos vs. variables explicativas ya incluidas: Puede mostrar si hay una relación

sistemática entre los residuos y una variable ya incluida en el modelo. Una alter-

nativa mejor a esto es el grá�co de residuos parciales (partial residual plot). El

modelo nulo para este grá�co es una distribución aleatoria de media 0 y amplitud

constante.

d) Grá�co de variable agregada o de regresión parcial (added variable plot): Inicialmen-

te, se ajusta el modelo con predictor lineal η = Xβ. Después, se hace el grá�co de

W−1/2s versus (I−H)W−1/2u, siendo s el vector con elementos si = yi−µiai(φ)V (µi)

dµidηi

.

Aquí, W−1/2s representa el vector de elementos yi−µi√ai(φ)V (µi)

(residuo de Pearson

generalizado de regresión ponderada de Y en relación a X con matriz de pesos W)

y (I−H)W−1/2u representa los residuos de regresión ponderada de u en relación

a X con matriz de pesos W.

e) Grá�co de residuos parciales o grá�co de residuos más componente (partial residual

plot): Inicialmente, se ajusta el modelo con predictor lineal β = Xβ+γu, obteniendo

W−1s y γ. A continuación, se hace el grá�co de W−1s + γu contra u.

50

2.12. Veri�cación de la Función de Enlace

f) Grá�cos de índices: Sirven para localizar observaciones con residuo, leverage (h),

distancia de Cook modi�cada, etc., grandes.

g) Grá�co normal y semi-normal de probabilidades (normal plot y half-normal plot):

El grá�co normal de probabilidades se puede utilizar para identi�car la distribución

de origen de los datos y aquellos valores que se destacan del conjunto (Weisberg,

2005). Sea una muestra aleatoria de tamaño n y los valores ordenados de un cierto

estadístico de diagnóstico (residuos, distancia de Cook, h, etc.), d(1), d(2), . . . , d(n),

llamados estadísticos de orden. La idea general es que si los valores de una muestra

provienen de una distribución normal estándar, los estadísticos de orden y sus co-

rrespondientes valores para esta muestra, llamados estadísticos de orden esperados,

deberían estar linealmente relacionados. El grá�co entre los dos conjuntos de valores

debería ser, aproximadamente, una recta. El grá�co semi-normal de probabilidades

utiliza los estadísticos de orden absolutos∣∣d(i)∣∣. Se sugiere utilizar el grá�co normal

de probabilidades para los residuos y el semi-normal para medidas positivas como

el leverage y la distancia de Cook modi�cada (McCullagh y Nelder, 1989).

h) Valores observados o residuos versus tiempo: Aunque el tiempo no sea una varia-

ble incluida en el modelo, grá�cos de respuesta (Y ) o de residuos versus tiempo

deben ser realizados siempre que sea posible. Este tipo de grá�cos puede llevar a la

detección de patrones no sospechados, debidos al tiempo o, sino, a alguna variable

altamente correlacionada con él.

2.12. Veri�cación de la Función de Enlace

Un método informal para esta veri�cación es el grá�co de la variable dependiente

ajustada z contra el predictor lineal estimado η. Su modelo nulo es una recta. Se puede

utilizar también el grá�co de variable agregada, tomando u = η2, donde el modelo nulo

indicará que la función de enlace es adecuada.

Para funciones de enlace de la familia potencia, una curvatura hacia arriba en la

grá�ca indica que debe usarse una función de enlace con exponente mayor; en cambio,

una curvatura hacia abajo indica un exponente menor. Este tipo de grá�cos no sirve para

datos binarios.

Existen dos métodos formales para la veri�cación de adecuación de la función de

enlace usada:

51


1. El método más simple consiste en agregar η2como covariable extra y examinar el

cambio ocurrido en la deviance o lo que equivale al test de razón de verosimilitudes.

Si ocurre una disminución drástica, se tiene evidencia de que la función de enlace

es insatisfactoria. Se puede utilizar, también, el test score.

2. El otro método consiste en indexar la familia de enlaces por un parámetro λ y hacer

un test de hipótesis H0 : λ = λ0. Para esto pueden ser usados los tests de razón de

verosimilitudes y score.

La veri�cación de adecuación de la función de enlace es, inevitablemente, afectada por

una elección inadecuada de escalas para las variables explicativas del predictor lineal. En

particular, si el test formal construido para la adición de η2 al predictor lineal presenta

un desvío con respecto al modelo, esto puede indicar una pobre elección de la función de

enlace o que las escalas para las variables explicativas no son las correctas, o ambas. La

existencia de puntos atípicos también puede afectar la elección de la función de enlace.

2.13. Veri�cación de la Función de Varianza

Un método informal para testear la adecuación de la función de varianza (que es

de�nida al elegir una distribución determinada) es el grá�co de residuos absolutos contra

los valores ajustados transformados en una escala con varianza constante (como el que

se describió en el item (a) de la Sección 2.11.3). El modelo nulo para este grá�co es una

distribución aleatoria de media 0 y amplitud constante. Una elección inadecuada de la

función de varianza mostrará una tendencia en la media. En general una no adecuación

de la función de varianza será tratada como sobredispersión.

Análogamente a lo realizado en la sección anterior, un método formal consiste

en indexar la función de varianza por un parámetro λ y hacer un test de la hipótesis

H0 : λ = λ0. Para esto pueden ser usados los tests de razón de verosimilitudes o score.

De esta manera, por ejemplo, se puede usar V (µ) = µλ, y observar como el ajuste varía

en función de la variación de λ. En general, se usa el método de per�l de verosimilitud

para estimar λ.

Para la comparación de ajustes con diferentes funciones de varianza no puede ser

usada la deviance, en cambio, es necesario usar la teoría de cuasi-verosimilitud extendida.

52

2.14. Veri�cación de las Escalas de las Covariables

La veri�cación de adecuación de la función de varianza puede ser afectada por una

elección inadecuada de escalas para las variables explicativas del predictor lineal, por una

mala elección de la función de enlace y por puntos atípicos.

2.14. Veri�cación de las Escalas de las Covariables

El grá�co de residuos parciales es una herramienta importante para saber si un

término βx del predictor lineal puede ser mejor expresado como βh (x; λ) para alguna

función monótona h (· ; λ). Para los MLGs, el residuo parcial es de�nido por:

u = z − η + γx,

con z la variable dependiente ajustada, η el predictor lineal ajustado y γ la estimación

del parámetro para la variable explicativa x.

El grá�co de u contra x proporciona un método informal. Si la escala de x es

satisfactoria, el grá�co debe ser aproximadamente lineal. En caso contrario, su forma

puede sugerir un modelo alternativo. Sin embargo, pueden ocurrir distorsiones si las

escalas de las otras variables explicativas no fueran adecuadas, siendo necesario analizar

los grá�cos de residuos parciales para varios x's.

Un método formal consiste en colocar x en una familia z (·; λ) y luego calcular la

deviance para un conjunto de valores de λ y determinar λ como aquel valor que toma

deviance mínima (método de per�l de verosimilitud). El ajuste para λ será entonces

comparado con el ajuste para el valor inicial λ0, que suele ser 1. Este procedimiento

puede ser usado simultáneamente para varios x's y es particularmente útil cuando se

tienen las mismas dimensiones físicas, tal que es necesaria una transformación común.

La familia más común de transformaciones es la familia de Box-Cox (1964) dada por

h (x; λ) =

xλ−1λ para λ 6= 0

ln (x) para λ = 0.

Un método informal para el estudio de una única covariable es incluir como variable

adicional a u (λ0) = dz(λ)dλ

∣∣∣λ=λ0

para el test de adecuación de la escala para la variable

explicativa de interés. Se puede recurrir entonces a un grá�co de residuos parciales como

fue visto en el ítem 5 de la Sección 2.11.3.

53


Esa misma variable construida u puede utilizarse como una variable adicional en

el modelo para el test de la hipótesis H0 : λ = λ0 (que equivale al test de H0 : γ = 0)

que, si no es rechazada, indicará que la escala escogida es adecuada para la covariable

explicativa de interés.

Ejemplo 12. Transformación para la variable dependiente. Sea la familia de

transformaciones de Box-Cox normalizada

z (λ) = Xβ+ ε =

yλ−1λyλ−1 para λ 6= 0

y ln (y) para λ = 0

siendo y la media geométrica de las observaciones. La expansión de z (λ) en una serie de

Taylor en relación a λ0, conocido, está dada por:

z (λ) ∼= z (λ0) + (λ− λ0)u (λ0) ,

con u (λ0) de�nida como antes. Entonces,

z (λ0) = z (λ)− (λ− λ0)u (λ0) + ε = Xβ+ γu + ε.

Pero z (λ) = yλ−1λyλ−1 y, por lo tanto,

u (λ) =dz (λ)

dλ=yλ ln (y)−

(yλ − 1

) (λ−1 + ln (y)

)λyλ−1

.

El interés en general está en testear algunos valores de λ como, por ejemplo, λ0 = 1

(sin transformación) y λ0 = 0 (la transformación logarítmica). Como sólo se necesitan los

residuos de u (λ), si β contiene una constante, entonces se pueden ignorar todas las con-

tantes. Entonces, las variables construidas para testear λ0 = 1 y λ0 = 0, respectivamente,

serán

u (1) = y

[ln

(y

y

)− 1

]u (0) = y ln (y)

[ln (y)

2− ln (y)

].

Como −γ = λ−λ0, se tiene que una estimación para λ puede ser obtenida a partir

de λ = λ0− γ. Se usa en general un valor de λ cercano a λ que posea una interpretación

práctica.

54

2.15. Selección de Modelos

Ejemplo 13. Transformación para las variables explicativas. Si en lugar de trans-

formar y hubiera necesidad de transformar xj′ , se propone la siguiente familia:

z (λ) =∑j 6=j′βjxj + βj′x

λj′ = E (Y) .

Análogamente al ejemplo anterior, expandiendo z (λ) en una serie de Taylor con

respecto a λ0, conocido, resulta:

z (λ) ∼=∑j 6=j′βjxj + βj′x

λ0j′ + βj′ (λ− λ0)x

λ0j′ lnxj′ =

∑j 6=j′βjxj + βj′x

λ0j′ + γu (λ0) ,

porque dz(λ)dλ∼= βj′xλj′ lnxj′ , Entonces testear la hipótesis λ = λ0 es equivalente a testear

γ = 0 para la regresión con la variable construida u (λ0) = βj′xλ0j′ lnxj′ , con x

λ0j′ ya en el

modelo.

Para λ0 = 1 se tiene:

E (Y ) =∑j 6=j′βjxj + βj′x

λj′ + βj′ (λ− 1) lnxj′ = Xβ+ γu,

con u (λ) = xj′ lnxj′ .

Ejemplo 14. Transformación simultánea para las variables respuesta y expli-

cativas. Para la transformación simultánea de las variables respuesta y explicativas a

una misma potencia (excepto la constante 1λ = 1), la variable construida u (λ0) para

λ0 = 1 es:

u (1) =

p∑j=2

βjxj lnxj − y[ln

(y

y

)− 1

].


Muchas veces se tiene como objetivo realizar inferencias para un modelo particu-

lar con una estructura de parámetros especí�ca, la cual representa una hipótesis sobre

el sistema biológico en estudio. Sin embargo, en otros casos se pueden considerar múl-

tiples hipótesis, de las cuales se desprende un conjunto de modelos candidatos del que

se debe elegir el "mejor" con respecto a los datos observados. Una cuestión importante

55


es determinar cómo se realiza esta elección, para recién luego poder presentar buenas

estimaciones de los parámetros con respecto al modelo seleccionado.

Burnham y Anderson (2003) sugieren al Criterio de Información de Akaike (AIC)

como el mejor enfoque para la selección de modelos y la inferencia multi-modelo.

La mayoría de los métodos de selección están basados en cierta medida en el prin-

cipio de parsimonia, que se puede interpreta como que "Entre hipótesis que compiten,

se debe seleccionar aquella con la menor cantidad de supuestos". Estadísticamente, este

principio se puede ver como el balance entre el sesgo y la precisión. En general, cuando la

dimensión de un modelo (el número de parámetros) aumenta, el sesgo de las estimaciones

de los parámetros decrece, mientras que su varianza crece. Los modelos parsimoniosos

son aquellos que logran un balance perfecto entre el sesgo y la varianza.

Criterio de Información de Akaike

El método de AIC está basado en la verosimilitud pero con una penalización agre-

gada para incentivar la parsimonia, es decir buscar el modelo con la menor cantidad de

parámetros necesaria. El objetivo es comparar un conjunto de modelos, no necesariamen-

te anidados, y elegir aquel que minimice:

AIC = −2LL (θ | y) + 2δ

donde δ es el número de parámetros estimados en el modelo. La magnitud absoluta de

AIC no es relevante, sino que el enfoque de la selección de modelos está en las diferencias

de AIC entre los diferentes modelos. Usualmente, todos los modelos son comparados con

el modelo de menor AIC, construyendo una tabla de diferencias de AIC. Entonces, para

un modelo particular k, esta diferencia será:

∆AICk = AICk −AICmin.

Burnham y Anderson (2003) proponen como regla general que todos los mode-

los dentro de las 2 unidades de AIC, con respecto al "mejor" modelo, tienen un nivel

sustancial de soporte empírico.

Los valores ∆AICk forman la base de los pesos wi de AIC normalizados (no

56


confundir con los pesos de la función de verosimilitud):

wk =exp

(−1

2∆AICk)

R∑r=1

exp(−1

2∆AICr)

para un conjunto de R modelos. Cada peso wk se interpreta como "el peso de la evidencia

en favor de que el modelo k sea el mejor modelo". La suma de todos los pesos de AIC

da como resultado 1, lo que lleva a interpretar (heurísticamente) a cada peso wk como la

probabilidad de que el modelo k sea el "mejor" modelo entre los candidatos (Burnham

y Anderson, 2004).

Cuando varios modelos entre los candidatos poseen una característica en común

(por ejemplo, diferentes formulaciones para una misma hipótesis, o contienen el mis-

mo factor o covariable), una manera de determinar el nivel global de soporte de esta

característica es sumando los pesos de estos modelos.

Cuando hay demasiados parámetros en relación al tamaño de la muestra, el valor

AIC puede no ser adecuado, por lo que se recomienda corregir el criterio de la siguiente

manera:

AICC = AIC +2δ (δ + 1)

n− δ − 1,

donde n es el tamaño de muestra efectivo y δ el número de parámetros. Salvo que el

tamaño de la nuestra sea lo su�ciente grande en relación al número de parámetros (n/δ ≥40), se recomienda el uso de AICC (Burnham y Anderson, 2003). Sin embargo, la noción

del tamaño de muestra no siempre es clara, como es el caso de los modelos de ocupación

que serán estudiados en el siguiente capítulo. De hecho, el "tamaño de muestra efectivo"

puede variar para diferentes parámetros del modelo, por ejemplo ser diferente para las

probabilidades de ocupación y detección. Debido a este dilema, cuando no es obvio qué

se debe considerar como "tamaño de muestra efectivo", se suele utilizar simplemente

el criterio de AIC (MacKenzie, 2006). El efecto de esta elección es que modelos más

complejos (es decir, con más parámetros) podrían ubicarse más alto en el ranking de lo

que deberían.

Sobredispersión y Cuasi-AIC

En modelos con sobredispersión, la media o la estructura de la esperanza del modelo

es adecuada, pero la estructura de la varianza es inadecuada. Una abordaje es pensar

57


a la estructura de varianza verdadera siguiendo la forma α (θ)V ar (θ); sin embargo, es

complicado ajustar esta forma. Se puede simpli�car el planteo anterior tomando α (θ) = c

con c una constante, dando una estructura de varianza verdadera cV ar (θ).

Un método común para la estimación de sobredispersión es utilizar el estadístico

de Pearson χ2 del modelo global (el más general, aquel con más parámetros) dividido

por sus grados de libertad:

c =χ2

g.l..

Si no existe sobredispersión o falta de ajuste, entonces c debe ser igual a 1, y c

debería ser aproximadamente 1 (porque el valor esperado del estadístico es igual a sus

grados de libertad).

La sobredispersión es muy común en el modelado de datos ecológicos, por lo que

es necesario tenerla en cuenta en el criterio de selección de modelos. Los criterios AIC y

AICC se pueden modi�car para la sobredispersión (c) como

QAIC =−2LL (θ | y)

c+ 2δ

QAICC = QAIC +2δ (δ + 1)

n− δ − 1.

Una vez que QAIC o QAICC se calculan, las estimaciones empíricas de las va-

rianzas y covarianzas pueden obtenerse multiplicando por c las varianzas y covarianzas

teóricas del modelo. Notar que, aunque c es estimado en base al modelo global, se usa-

rá para estimar las varianzas y covarianzas de los parámetros de todos los modelos del

conjunto.

Estimaciones Promedio

En muchas situaciones ecológicas, no resulta tan evidente cuál es el "mejor" mo-

delo entre los candidatos, pudiéndose considerar varios modelos como razonables. En vez

de elegir un sólo modelo del cual hacer inferencias, se pueden usar estimaciones prove-

nientes de múltiples modelos, calculado las que se denominan estimaciones promedio. En

este caso, los pesos de AIC de los modelos candidatos son utilizados para obtener un

promedio pesado de las estimaciones de los parámetros. Para un conjunto de R modelos,

58


el estimador promedio es:

θP =R∑r=1

wrθr.

Considerando la incertidumbre de los modelos, la estimación de la varianza del

estimador promedio es:

V ar(θP

)=

[R∑r=1

wr

√V ar

(θr |Modr

)+(θr − θP

)2]2,

donde V ar(θr |Modr

)es la varianza de la estimación obtenida del modelo r condi-

cional a este. La segunda componente de la varianza corresponde a la incertidumbre de

los modelos, representada como la diferencia entre la estimación de cada modelo y la

estimación promedio.

59

3. Modelos de Ocupación

La presencia o ausencia de una especie dentro de una colección de unidades de

muestreo es un concepto básico utilizado ampliamente en estudios ecológicos. Hacia �nes

del siglo pasado la mayoría de los estudios relacionados con programas de monitoreo

de especies se basaban en la estimación de la abundancia, las tasas de nacimiento, las

probabilidades de supervivencia y otros parámetros demográ�cos, principalmente obte-

nidos de datos de captura-recaptura. Debido a la imposibilidad de estimar cambios en la

abundancia absoluta sobre grandes áreas a través del tiempo, surge la idea de medir la

presencia o ausencia de las especies sobre un cierto número de unidades de muestreo, lo

que comenzó a conocerse como �proporción de área ocupada�.

Casi siempre, el interés de una investigación de la ocupación se enfoca ya sea en la

proporción de sitios que están ocupados dentro de un número de sitios potenciales o en

la probabilidad subyacente de que un sitio dentro de un grupo esté ocupado. Es este el

parámetro de principal interés de los modelos de ocupación.

Existe una distinción importante entre �proporción de área ocupada� y �proba-

bilidad de ocupación�. La probabilidad se puede considerar como la esperanza a priori

de que un sitio en particular esté ocupado determinada por algún proceso subyacente,

mientras que la proporción se relaciona a la realización de dicho proceso. Como la proba-

bilidad es generalmente desconocida, la proporción observada puede ser utilizada como

una estimación de la misma. En muchas situaciones estos conceptos se usan indistinta-

mente, estimando la probabilidad de ocupación e interpretándola directamente como la

proporción de sitios ocupados. Sin embargo, en otras situaciones esta distinción puede

ser importante siendo necesario interpretar el modelado de manera diferente para hacer

inferencias directas sobre la proporción de área ocupada.

El protocolo básico de muestreo usado para la estimación de la ocupación involucra

simplemente visitar los sitios y pasar un tiempo determinado en cada uno, buscando

individuos de la especie de interés o evidencia de su presencia. Este tipo de muestreos se

61


conoce como presencia-ausencia. En este capítulo se desarrollarán una serie de modelos

que pueden ser usados para estimar y modelar patrones y dinámicas de ocupación. Los

modelos de ocupación serán estudiados en el marco de los modelos lineales generalizados

y los métodos de estimación desarrollados en el capítulo anterior.

3.1. Situación de Muestreo

La �nalidad es estimar la proporción de un área, o de hábitat adecuado dentro

de un área, que está habitada por una especie objetivo. Su utiliza el término área en

el sentido general de una población estadística, es decir, una colección de unidades de

muestreo, a las que se suele referir como sitios, sobre las cuales se quiere hacer inferencia.

Estas unidades pueden ser arbitrariamente de�nidas (por ejemplo, una grilla de celdas

de un tamaño especí�co) o naturales (por ejemplo, remanentes de bosque, lagunas o

islas). De una población de S unidades de muestreo, s unidades son seleccionadas sobre

las cuales se quiere establecer la presencia (ocupadas) o ausencia (desocupadas) de la

especie objetivo. Generalmente se considera que S es muy grande en comparación con s,

y que se quieren hacer inferencias sobre la población de las unidades de S. La manera

en que se seleccionan los sitios es fundamental para la congruencia y veracidad de los

resultados. Debe asumirse que fueron seleccionados tal que representan a la población

entera (por ejemplo, mediante la obtención de una muestra aleatoria que surja de un

diseño de muestreo apropiado).

Mientras que la presencia de una especie puede ser con�rmada por su detección, es

casi imposible con�rmarla si está ausente. La no detección de una especie puede resultar

de que la misma esté realmente ausente en el sitio o de que esté presente pero no haya

sido detectada durante los muestreos (MacKenzie y Royle, 2005). Salvo que la especie sea

tan visible que siempre es detectada (un caso muy raro), o que se realicen muestreos muy

intensivos, lo que suele suceder es que la especie está presente pero no es detectada. Esta

cuestión, conocida como detección imperfecta, ha sido notada por muchos biólogos de

campo, quienes desde hace tiempo vienen usando muestreos repetitivos para minimizar

la posibilidad de registrar "falsos ausentes" en un lugar.

Se considerará en este trabajo una situación básica de muestreo en la cual s sitios

son muestreadosK veces cada uno para una especie objetivo. En cada muestreo se utilizan

métodos apropiados para detectar la especie, como visuales, auditivos o con�rmaciones

indirectas de por lo menos un espécimen de la especie (estaciones de aromas, túneles

62

3.2. Estimación de la Ocupación con Probabilidad de Detección Conocida

de rastreo u otras señales como deposiciones frescas). Se asume que la especie nunca es

falsamente detectada cuando está ausente de un sitio, que es una suposición razonable

en la mayoría de los casos.

Los K muestreos son llevados a cabo en una ventana de tiempo adecuada, a lo

que se re�ere como temporada, durante la cual los sitios están cerrados a cambios en el

estado de ocupación; es decir, están siempre ocupados o siempre desocupados durante el

periodo de muestreo. El tiempo real que abarca una temporada varía en cada caso; por

ejemplo, para el estudio de colonias de aves, una temporada puede durar 2 o 3 meses,

mientras que para pequeños mamíferos la hipótesis de clausura sólo sería razonable para

una semana (MacKenzie, 2006). El concepto de "temporada" permite tomar una captura

de la población en un punto de tiempo, de la cual se pueden inferir patrones sobre el

nivel de ocupación.

La secuencia de detecciones y no detecciones (denotadas como 1 y 0, respectiva-

mente) de los K muestreos para el sitio i se registra como una historia de detección

(notada hi). Por ejemplo, si se realizan 3 muestreos en el sitio i, en los cuales la especie

se detectó en el primero y último, la historia para este sitio se expresará como hi = 101.

Análogamente, la historia de detección para un sitio en el que la especie no fue detectada

en ningún muestreo, se verá como hi = 000.

En base al planteo anterior, se considera que en cada situación de muestreo ocurren

dos procesos: la ocupación y la detección. La ocupación se relaciona con la presencia (o

ausencia) de la especie en el sitio durante el periodo de muestreo ("temporada"), y será

la cantidad de principal interés en la mayoría de los casos. Por otro lado, la detección

es un aspecto de los protocolos de muestreo, que será considerado generalmente como

un parámetro nuisance. Como se mencionó anteriormente, cuando se estudia especies

inconspicuas, no considerar la detección imperfecta puede llevar a conclusiones erróneas.

3.2. Estimación de la Ocupación con Probabilidad de

Detección Conocida

Aunque la situación en la cual la detección es perfecta, es poco común y carece

de interés para los investigadores, considerar el mejor caso posible puede proporcionar

información y servir como referencia para determinar qué tan bien funciona un estimador

63


en una situación dada. La precisión de cualquier estimador que incorpora detectabilidad

no puede superar la del estimador para el cual el estado de ocupación se conoce sin error.

Supóngase que todos los sitios tienen una misma probabilidad ψ de ser ocupados

por la especie. En adelante, se usará la letra ψ para la probabilidad de ocupación. Luego,

el número de sitios ocupados (x) de una muestra aleatoria de s sitios, seguirá una distri-

bución Binomial, con E (x) = sψ y V ar (x) = sψ (1− ψ). Un estimador natural para ψ,

cuando la especie es perfectamente detectada, es:

ψB =x

s

que es insesgado y tiene varianza asociada:

V ar(ψB

)=ψ (1− ψ)

s,

que puede ser aproximada sustituyendo ψ por su valor estimado.

Ahora supóngase que la especie es detectada imperfectamente y que la probabilidad

de detectarla en un muestreo simple en un sitio ocupado es igual a p, conocido (es decir,

no tiene error de muestreo asociado). Entonces, la probabilidad de detectar la especie en

al menos uno de los K muestreos será p∗ = 1− (1− p)K . Esto es 1 menos la probabilidad

de no detectar la especie en todos los muestreos. Luego, la probabilidad de que la especie

esté presente y sea detectada será ψp∗.

El número de sitios en el cual la especie es detectada (sD) de una muestra aleatoria

de s sitios seguirá también una distribución Binomial con E (sD) = sψp∗ y V ar (sD) =

sψp∗ (1− ψp∗). Como anteriormente, un estimador para la proporción de sitios ocupados,

cuando p es conocido, sería:

ψp =sDsp∗

con varianza:

V ar(ψp

)=ψ (1− ψp∗)

sp∗

=ψ (1− ψ) (1− ψp∗)

s (1− ψ) p∗

=ψ (1− ψ)

s+ψ (1− p∗)

sp∗.

Se puede apreciar de la última ecuación, que la varianza consiste de dos com-

64

3.3. Modelado

ponentes. La primera componente corresponde a la variación Binomial asociada con el

verdadero valor subyacente de ψ. La segunda componente se debe a la detección imper-

fecta y es producto de tener que estimar el número de sitios que estaban ocupados en la

muestra. Esta separación se suele dar para mayoría de los estimadores de ocupación.

Otro punto importante es que, cuando una especie se detecta imperfectamente, la

varianza de un estimador de ocupación no puede ser menor que el término de variación

Binomial. Esto se debe a que la segunda componente debe ser mayor que 0 (aunque

tenderá a 0 a medida que p∗ se acerca a 1).

De todas maneras, el caso descrito no es de interés práctico debido a que raramente

se conocerá a priori la probabilidad de detección. En la mayoría de los casos, se deberán

estimar conjuntamente la probabilidad de ocupación y detección (ambas desconocidas)

de los datos recogidos.

3.3. Modelado

Modelando las probabilidades de las observaciones resultantes del proceso de mues-

treo es posible estimar simultáneamente los parámetros de ocupación y detección. Este

marco proporciona los medios para investigar la potencial relación entre las probabili-

dades de ocupación y detección y factores asociados a ellos (como tipo de hábitat o las

condiciones climáticas del muestreo). Además de la posibilidad de explorar y compa-

rar hipótesis, este enfoque otorga �exibilidad gracias a permitir el esfuerzo de muestreo

desigual en diferentes sitios, posibilitando así diseños más realistas.

3.3.1. Construcción de un Modelo

Como se ha visto anteriormente, la base del modelo conceptual es que hay dos

procesos estocásticos ocurriendo que afectan el hecho de que una especie sea detectada

en un sitio (ver Figura 3.1). Por un lado, se tiene la probabilidad ψ de que el sitio esté

ocupado y por otro lado que, para cada muestreo j, existe una probabilidad pj de que la

especie sea detectada en el sitio. Así, la probabilidad de observar la historia de detección

hi = 1010, será:

P (hi = 1010) = ψp1 (1− p2) p3 (1− p4) .

65


Probabilidad Asociada

Muestreo 1

Realidad Biológica

Muestreo 2

Especie

Presente (�)

Detectada (p1)

Detectada (p2)

11 �p1p2

No Detectada

(1-p2)

10 �p1(1-p2)

No Detectada

(1-p1)

Detectada (p2)

01 �p1(1-p2)

No Detectada

(1-p2)

00 �(1-p1)(1-p2)

Ausente (1-�)

00 (1-�)

Figura 3.1.: Diagrama de ocupación y detección para dos muetreos (K = 2).

Calcular la probabilidad de que una especie no sea detectada en ningún muestreo

es un poco más complicado, debido a que hay dos posibilidades por las que esto puede

suceder.

Así, por ejemplo, para la historia de detección hi = 0000, su probabilidad asociada

será:

P (hi = 0000) = ψ

4∏j=1

(1− pj) + (1− ψ) .

El primer término corresponde al caso en que el sitio está ocupado pero la especie no fue

detectada en ningún muestreo, mientras que el segundo término corresponde al caso en

que el sitio no está ocupado en primer instancia.

Dadas las s historias de detección observadas según su correspondiente probabilidad

de ocurrencia y asumiendo que las historias son independientes, la verosimilitud de los

datos observados es:

L (ψ,p | h1,h2, . . . ,hs) =s∏i=1

P (hi) ,

que se reduce a:

L (ψ,p | h1,h2, . . . ,hs) =

ψsD K∏j=1

psjj (1− pj)sD−sj

ψ K∏j=1

(1− pj) + (1− ψ)

s−sD ,

donde sD es el número de sitos en los cuales la especie fue detectada al menos una vez,

66

3.3. Modelado

y sj es el número de sitios donde la especie fue detectada durante el j-ésimo muestreo.

Bajo la hipótesis de que la probabilidad de detección es constante entre muestreos,

el enfoque anterior es equivalente a modelar el número de detecciones en cada sitio (yi)

como una variable aleatoria Binomial con una clase in�ada por ceros, es decir:

P (Y = yi) =

ψ(Kyi

)pyi (1− p)K−yi si yi > 0

ψ (1− p)K + (1− ψ) si yi = 0.

Sin embargo, considerando probabilidades especí�cas para cada muestreo se obtiene

un mayor grado de �exibilidad.

En resumen, las principales hipótesis de este modelo son:

1. El estado de ocupación de los sitios no cambia durante el periodo de muestreo.

2. La probabilidad de ocupación es igual entre los sitios.

3. Dada la presencia de la especie, la probabilidad de detección en un muestreo es

igual entre sitios.

4. La detección de las especies en cada muestreo en un sitio es independiente de las

detecciones durante otros muestreos en el mismo sitio.

5. Las historias de detección observadas en cada sitio son independientes.

3.3.2. Estimación

Como se vio en el Capítulo 2, la ecuación de verosimilitud de�nida anteriormente,

puede usarse para estimar los parámetros del modelo utilizando tanto la teoría frecuen-

tista como la Bayesiana, tomando la función de verosimilitud como la probabilidad de

observar los datos dados los parámetros. La inferencia Bayesiana utiliza métodos compu-

tacionales, como MCMC, que pueden di�cultar la discusión general de los resultados y

las comparaciones con otros métodos. En contraste, los estimadores de máxima verosi-

militud de los parámetros del modelo pueden escribirse de manera relativamente simple,

tal que la discusión de los resultados sea más sencilla.

A continuación, se desarrollan dos situaciones con respecto a la obtención de las

estimaciones de máxima verosimilitud de los parámetros, que consideran a la probabilidad

detección constante y especí�ca por muestreo, respectivamente.

67


Modelo de Probabilidad con Detección Constante

Suponiendo constante la probabilidad de detección, la verosimilitud del modelo se

expresa como:

L (ψ, p | h1,h2, . . . ,hs) =

ψsDp K∑j=1

sj(1− p)

KsD−K∑j=1

sj

[ψ (1− p)K + (1− ψ)]s−sD

.

Tomando las primeras derivadas con respecto a cada parámetro e igualando a cero,

se obtienen las siguientes ecuaciones:

ψEMV =sD

sp∗EMV

; pEMV =pEMV

p∗EMV

=1

KsD

K∑j=1

sj ,

donde ψEMV y pEMV son las estimaciones de máxima verosimilitud, p∗EMV = 1 −(1− pEMV )K es la estimación de la probabilidad de detectar la especie por lo menos

una vez (dada la presencia), y pEMV es la estimación de la probabilidad de detectar la

especie durante un muestreo sabiendo que fue detectada al menos una vez en el sitio.

Notar que la primera ecuación es similar a la de los estimadores de la sección

anterior; que, aunque no derivan de la perspectiva de verosimilitud, deberían aproximar

el EMV siempre y cuando las probabilidades de detección fueran estimadas de manera

apropiada.

La segunda ecuación, muestra que una estimación condicional de la probabilidad

de detección (pEMV ; de la cual se puede obtener numéricamente pEMV ) está dada por el

cociente entre el número total de detecciones y el total de muestreos realizados en sitios

donde la especie fue detectada al menos una vez.

La teoría de verosimilitud sugiere que la fórmula de la varianza asintótica para

ψEMV se puede obtener invirtiendo la matriz de información de Fisher, lo que permite

usar métodos numéricos para estimar la varianza y los errores estándar de las estimaciones

de los parámetros.

La fórmula de la varianza para ψEMV se puede expresar de dos formas. La primera

tiene la apariencia familiar de dos componentes, con una componente debida a la pro-

porción Binomial y otra relacionada a la incertidumbre en el número de sitios realmente

68

3.3. Modelado

ocupados. En la otra forma, la segunda componente se puede expresar también en dos

componentes, siendo una la incertidumbre en el número de sitios ocupados, asumiendo

p conocido, y la otra siendo la contribución de tener que estimar p de los datos simul-

táneamente. De esta forma, se tienen tres componentes, donde las dos primeras dan la

fórmula de la varianza para cuando p es conocido:

V ar(ψEMV

)=ψ (1− ψ)

s+

ψ (1− p∗) (1− p)s [p∗ (1− p)−Kp (1− p∗)]

(3.1)

=ψ (1− ψ)

s+ψ (1− p∗)

sp∗+

ψ (1− p∗)Kp (1− p∗)sp∗ [p∗ (1− p)−Kp (1− p∗)]

.

Claramente, dado una conjunto de datos, la varianza del estimador de ocupación

puede ser aproximada sustituyendo por los valores estimados de ψ y p (y p∗).

Modelo de Probabilidad con Detección Especí�ca por Muestreo

Ahora, cuando se tienen probabilidades de detección especí�cas por muestreo pj 's,

usando la misma técnica que antes, se obtienen las ecuaciones de estimación:

ψEMV =sD

sp∗EMV

pj, EMV =pj, EMV

1−K∏i=1

(1− pi, EMV )

=sjsD,

donde ahora p∗EMV = 1−K∏j=1

(1− pj, EMV ).

De nuevo, pj, EMV no puede ser expresado simplemente en forma exacta, entonces

debe usarse un método numérico. Sin embargo, notar la forma intuitiva de pj, EMV . Aquí,

sD puede interpretarse como el número de muestreos realizados en la visita j en sitios

donde la especie fue detectada al menos una vez durante los K muestreos. Entonces,

pj, EMV , es la fracción de muestreos realizados al tiempo j en los sitios donde la especie

fue eventualmente detectada.

No se incluye una ecuación para V ar(ψEMV

)para este caso, pero métodos simi-

lares a los del caso anterior pueden ser usados para obtenerla (inversión de la matriz de

información).

69


Probabilidad de Ocupación Dado que la Especie No fue Detectada en un Sitio

En muchas situaciones, será de interés calcular la probabilidad de que la especie

esté presente en un sitio dado que nunca fue detectada. Del Teorema de Bayes se tiene:

ψcondl =P (especie presente | especie no detectada)

=P (especie presente y no detectada)

P (especie no detectada)

=

ψK∏j=1

(1− pj)

(1− ψ) + ψK∏j=1

(1− pj).

Esto puede ser calculado de los parámetros estimados. Por lo tanto, el hecho de que

una especie no fue detectada en un sitio puede ser incorporado en el procedimiento de

inferencia sobre el estado de ocupación de un sitio especí�co.

Una aproximación de la varianza asintótica para ψcondl puede ser obtenida por

el método delta. Este método saca provecho de una expansión en series de Taylor para

linealizar las funciones y es utilizado como una alternativa para obtener aproximaciones

para las varianzas y covarianzas de grandes muestras. Según el método delta, dada una

función h (θ) de los parámetros del modelo, la varianza de su estimación de máxima

verosimilitud será:

V ar(h (θ)

)= V ar

(h(θ))

=[h′(θ)]

[V][h′(θ)]t

, (3.2)

donde V es la matriz de covarianzas para el vector de EMVs θ, y h′(θ)es el vector de

derivadas parciales de h (θ) evaluadas en θ.

Aplicando el método delta a la funciónψcondl de los parámetros, se comienza por

derivar su expresión con respecto a ψ y los p's. La derivada de ψcondl con respecto a ψ

es:∂ψcondl∂ψ

=1− p∗

(1− ψp∗)2

donde p∗ = 1−K∏j=1

(1− pj) es la probabilidad de detectar la especie al menos una vez

70

3.3. Modelado

en los K muestreos. Cuando la probabilidad de detección es constante, se tiene:

∂ψcondl∂p

= −ψ (1− ψ)K (1− p)K−1

(1− ψp∗)2;

mientras que cuando la probabilidad de detección es especí�ca por muestreo se tiene:

∂ψcondl∂pj

= −ψ (1− ψ)

∏k 6=j

(1− pk)

(1− ψp∗)2.

Finalmente, utilizando la matriz de covarianzas para ψ y los p's, se llega a una aproxi-

mación de V ar (ψcondl) mediante la Fórmula 3.2.

Ejemplo 15. A �nes de la década del '90 investigadores, trabajando en cooperación con

el Servicio de Parques Nacionales de los Estados Unidos, llevaron a cabo una serie de

estudios sobre un conjunto de especies de salamandras de los Apalaches del Sur, con el

objetivo era desarrollar métodos de monitoreo e�cientes a largo plazo . La ocupación fue

una de las variables de estado exploradas, pudiéndose encontrar en Bailey et al. (2004)

un análisis de ocupación detallado de estos datos. A continuación se ilustran los modelos

simples de una temporada antes descritos, utilizando los datos de detección de un año

de una de las especies, Eurycea wilderae.

Las salamandras fueron muestreadas en 39 sitios (s = 39) separados aproxima-

damente por 250 m para asegurar la independencia entre ellos. Los muestreos fueron

realizados cada dos semanas desde Abril hasta mediados de Junio (K = 5), período en

el cual se cree que las salamandras se encuentran más activas y cercanas a la super�cie.

Considérense dos modelos simples:

1. ψ (·) p (·): La ocupación y la detección son constante entre sitios y muestreos.

2. ψ (·) p (t): La ocupación es constante pero la probabilidad de detección puede variar

entre muestreos.

En la Tabla 3.1 se encuentran los modelos ordenados por AIC junto a las estimaciones

de los parámetros y otros valores de interés.

De los 39 sitios, se detectó la especie en 18, de lo que se obtiene una estimación naïve

para la ocupación (sD/s) de 0,46. Este valor en comparación con las estimaciones para la

ocupación de los modelos indica que la ocupación es subestimada por aproximadamente

71


Tabla 3.1.: Resumen de los modelos ajustados a los datos de una especie de salamandra

Modelo ∆AIC wi Parámetros −2LL ψ EE(ψ)

p1 p2 p3 p4 p5

ψ (·) p (·) 0,00 0,73 2 161,76 0,60 0,12 0,26 0,26 0,26 0,26 0,26ψ (·) p (t) 1,96 0,27 6 155,71 0,58 0,12 0,18 0,13 0,40 0,35 0,27

Modelo Promedio 0,59 0,12 0,24 0,22 0,30 0,28 0,26

20% cuando la probabilidad de detección es ignorada. Los pesos de AIC indican que el

modelo con detección constante es el de mayor soporte, pero, de todas maneras, el modelo

ψ (·) p (t) tiene su�ciente soporte como para sugerir cierta variación en la probabilidad

de detección entre muestreos. Las estimaciones promedio sugieren que la probabilidad de

detectar la especie durante un muestreo a un sitio ocupado está entre 0,2 y 0,3, por lo

que la probabilidad de no detectar la especie en ningún muestro es de 0,13 (es decir, la

probabilidad de un falso ausente).

Supóngase que se quiere estimar la probabilidad de que un sitio esté ocupado dado

que la especie no fue detectada en ningún muestreo (ψcondl). Tomando el "mejor" modelo,

una estimación para ψcondl será:

ψcondl =ψ (1− p)K(

1− ψ)

+ ψ (1− p)K=

0, 6 (1− 0, 26)5

(1− 0, 6) + 0, 6 (1− 0, 26)5= 0, 25.

El error estándar para ψcondl se puede aproximar por el método delta explicado

anteriormente, donde la matriz de covarianzas para ψ y p es

V =

[0, 0150 −0, 0038

−0, 0038 0, 0033

]

y

h′(θ)

=[

∂ψcondl∂ψ

∂ψcondl∂p

]=[

0, 7807 −1, 2660].

A partir de la Ecuación 3.2 se obtiene

V ar(ψcondl

)=[

0, 7807 −1, 2660] [ 0, 0150 −0, 0038

−0, 0038 0, 0033

][0, 7807

−1, 2660

]= 0, 0219.

Por lo tanto, el error estándar de ψcondl será EE(ψcondl

)= 0, 15.

72

3.3. Modelado

3.3.3. Observaciones Faltantes

La hipótesis de que la probabilidad de detectar una especie durante un muestreo

especí�co es igual para todos los sitios, viene de pensar que dicha probabilidad variará

junto a condiciones ambientales (por ejemplo, precipitaciones, temperatura, etc.) y que

estas condiciones afectarán todos los sitios de manera similar. Luego, es importante te-

ner en cuenta que, desde un punto de vista biológico, los modelos con probabilidad de

detección especí�ca por muestreo, sólo tienen sentido cuando los sitios son muestreados

simultáneamente (o dentro de un periodo de tiempo corto).

Sin embargo, en muchas situaciones, esto no sucede. Por cuestiones logísticas, es

poco usual que todos (o una gran parte) de los sitios puedan ser muestreados al mismo

tiempo. Los datos suelen ser recogidos por pequeños grupos de personas que deben tras-

ladarse de un sitio a otro, haciendo imposible el muestreo simultáneo de todos los sitios.

Aquí es donde entra en juego el concepto de observaciones faltantes (o missings).

Considerando la forma general de la verosimilitud antes vista, las observaciones

pueden ser incluidas fácilmente. Supóngase que el sitio i no fue muestreado en la visita

j, entonces la probabilidad de detectar la especie en esa visita debe ser cero, i.e. pij =

0. Imponiendo esta restricción cuando un sitio no es muestreado, la j-ésima visita es

efectivamente ignorada para ese sitio, por lo que ni pj , ni (1− pj)aparecen en la expresiónde la probabilidad. Esto re�eja el hecho de que no se recolectó información con respecto

a la detección (o no) de la especie en ese sitio durante esa visita.

Ejemplo 16. Considerar la siguiente tabla de historias de detección:

Sitio Día 1 Día 2 Día 3 Día 4 Día 5

1 1 0 1 - 0

2 - 0 - 1 1

Como se ve, el sitio 1 no fue visitado el día 4, mientras que el sitio 2 no fue visitado

los días 1 y 3; siendo estas visitas consideradas observaciones faltantes.

La probabilidad de observar las respectivas historias puede ser expresada como:

P (h1 = 101_0) =ψp1 (1− p2) p3 (1− p5)

P (h2 = _0_11) =ψ (1− p2) p4p5,

73


donde el guión bajo ("_") en la historia denota una observación faltante.

Aunque se ha introducido el concepto de observaciones faltantes desde la pers-

pectiva del diseño, donde las limitaciones logísticas di�cultan el muestreo simultáneo de

sitios, este tipo de observaciones pueden aparecer en una amplia variedad de circunstan-

cias (por ejemplo, cambios de clima o roturas de equipamientos). Tanto las observaciones

faltantes relacionadas con el diseño como las aleatorias, pueden ser tratadas como se vio

anteriormente, pero las segundas, también pueden ser modeladas mediante la adición de

parámetros.

La capacidad de incluir observaciones faltantes es de vital importancia para el

diseño de estudios de ocupación basados en este método de análisis. De esta manera,

no se requieren esfuerzos de muestreo igualitarios entre sitios. De hecho, dado que el

propósito de los muestreos repetidos es recolectar información adecuada que permita

estimar las probabilidades de detección, visitar los sitios un número igual de veces puede

no ser muy e�ciente en cuestión del uso de recursos.

3.3.4. Modelado de Covariables

Hasta ahora, todos los modelos descritos han asumido que tanto la probabilidad de

ocupación como la de detección son iguales entre sitios. Esto puede no ser una suposición

razonable para la mayoría de los casos y las probabilidades variarán entre sitios; es

decir, las mismas serán heterogéneas. De hecho, en muchas situaciones, la manera en

que estas probabilidades varían en función de las características de los sitios, será el

principal enfoque de estudio. Como se vio en el capítulo anterior, usando una función de

enlace adecuada, se puede modelar la probabilidad de ocupación en función de covariables

medibles.

Usando la función de enlace logit, se puede expresar la probabilidad de que el sitio

i esté ocupado como:

logit (ψi) = β0 + β1xi1 + β2xi2 + . . .+ βUxiU ,

que es una función de U covariables asociadas al sitio i (xi1, xi2,..., xiU ) y de U + 1

coe�cientes a ser estimados: una ordenada o término constante (β0) y U coe�cientes de

regresión para cada covariable. Mientras que la probabilidad de ocupación puede variar

entre sitios, los parámetros a ser estimados (los β's) se suponen constantes entre sitios.

74

3.3. Modelado

Además, si ψi se modela sólo en función de β0 (sin covariables), entonces será ψi = ψ

para todos los sitios.

Como se supone que los sitios tienen estado de ocupación constante dentro de una

temporada, los tipos de covariables que se pueden considerar adecuadas para modelar ψison aquellos que se mantienen constantes durante este periodo. Esto incluye casi cualquier

covariable que pueda caracterizar un sitio o su localización; por ejemplo, tipo de hábitat,

tamaño de sitio, aislamiento del sitio, elevación, distancia a un punto de coordenadas, y

condiciones climáticas generales.

Análogamente, también se pueden modelar aquellas covariables que varían de un

muestreo a otro, como por ejemplo, condiciones ambientales locales, hora del día, o ex-

periencia de la persona encargada del muestreo. Usando la ecuación logística, la proba-

bilidad de detectar la especie en el sitio i durante el muestreo j puede ser expresada

como:

logit (pij) = β0 + β1xi1 + . . .+ βUxiU + βU+1xij1 + . . .+ βU+V xijV ,

donde xi1,..., xiU denotan las U covariables constantes durante la temporada asociadas

al sitio i (que pueden diferir de aquellas usadas para modelar la ocupación), y xij1,...,

xijV son las V covariables de detección asociadas con el muestro j del sitio i.

Tener la habilidad de modelar tanto la ocupación como la detección en función de

covariables, permite investigar un amplio rango de modelos disponiendo de datos apro-

piados. Esto, sumado a la posibilidad de considerar observaciones faltantes, es la razón

por la que este abordaje, junto al uso de procedimientos de selección (como AIC), pro-

porcionan una herramienta superior para hacer inferencias sobre parámetros relacionados

con la ocupación.

Algunas recomendaciones con respecto al tratamiento de las covariables:

1. Las covariables categóricas. Deben ser tratadas como variables dummy. Si se

tienen m categorías, deben incluirse m− 1 variables binarias (1 equivale "Sí" y 0 a

"No"), siendo la restante categoría introducida cuando todas las demás sean nulas.

Por ejemplo, si la covariable es "Tipo de Hábitat" para el cual se tienen 3 tipos,

se toma como referencia uno de ellos. Tomando como referencia al Tipo 3, se crean

2 covariables para el Tipo 1 y el Tipo 2, respectivamente. Un sitio perteneciente

al Tipo 1 de hábitat será aquel que tenga un 1 en la covariable Tipo 1 y un 0 en

75


la Tipo 2; se dará el caso inverso para los sitios del Tipo 2. Notar que un sitio

no puede pertenecer a dos categorías diferentes, por lo tanto ninguno tendrá un 1

en ambas covariables. Un sitio del Tipo 3 será aquel cuyas ambas covariables sean

nulas, es decir, no es ni del Tipo 1 ni del Tipo 2.

2. Estandarizar las covariables continuas para un mejor funcionamiento compu-

tacional y un manejo de los datos más intuitivo. Cuando la media de covariables

individuales es muy grande o muy chica, o su rango abarca varios órdenes de mag-

nitud, el algoritmo de optimización puede fallar al encontrar las estimaciones de

los parámetros.

3. Aplicar logaritmo a las covariables discretas (de conteo). Sumar 1 previamente

para evitar los ceros.

3.3.5. Ajuste del Modelo

Para evaluar el modelo propuesto, es necesario analizar la bondad de ajuste. Una

falta de ajuste substancial en un modelo puede llevar a inferencias erróneas, ya sea en

términos de sesgo o de precisión.

Un enfoque popular a la hora de analizar datos ecológicos es ajustar un conjunto

de modelos candidatos a los datos y usar técnicas de selección de modelos como AIC o

similares, para elegir el "mejor" modelo (o "mejores"). De todas maneras, esta elección no

garantiza la selección de un "buen" modelo. Hay que tener en cuenta que estas técnicas

asumen que, por lo menos un modelo entre los candidatos, se ajusta adecuadamente a

los datos; luego, no son sustitutas del análisis de ajuste del modelo. Un recurso que se

suele usar en selección de modelos para AIC y otras médidas, es testear el ajuste del

modelo más general y, si este es considerado adecuado, se procede en la manera usual.

Si por el contrario, el ajuste del modelo más global no es adecuado, entonces se estima

un parámetro de sobredispersión de cuasi-verosimilitud, que es usado para modi�car el

AIC, como se vio en la Sección 2.15.

Aunque se busca evaluar los modelos siempre que sea posible, la realidad es que, en

muchos estudios ecológicos, los tamaños de las muestras son muy pequeños para detectar

un pobre ajuste; es decir, los tests de ajuste pueden tener bajo poder. Esto puede conducir

a una falsa con�anza, en la que se decida que un modelo es adecuado sólo por tener datos

insu�cientes, y no porque su estructura es apropiada. En estos casos se recomienda, a la

76

3.3. Modelado

hora de usar tests de hipótesis, estar dispuestos a rechazar una hipótesis nula de ajuste

adecuado, basados en que la evidencia es más débil; es decir, considerar rechazarla aunque

el P -valor sea mayor de 0,05.

En términos de los modelos de ocupación de una temporada, MacKenzie y Bailey

(2004) desarrollaron un método para evaluar el ajuste de los mismos, que pone a prueba

si el número observado de sitios en los que sucede una historia de detección en particular,

tiene chances razonables de ocurrir si se asume como "correcto" el modelo objetivo (el

que se está evaluando).

Sea Oh el número de sitios que se observan con la historia h, y sea Eh el número

esperado de sitios con la historia h de acuerdo al modelo objetivo. Por ejemplo, suponer

que el modelo objetivo asume la ocupación y la detección constante entre sitios y visitas;

es decir, el modelo ψ (· ) p (· ), y que las estimaciones de los parámetros son ψ = 0,82 y

p = 0,43. El número esperado de sitios para la historia 101 será:

E101 =s× P (h = 101)

=sψp (1− p) p

=s× 0,82× 0,432 × (1− 0,43)

=0,09s

En general, Eh equivale a la suma de las probabilidades estimadas de observar h en todos

los sitios, ya que las probabilidades de ocupación y detección pueden ser especí�cas por

sitio dependiendo del modelo que se está ajustando. Por ejemplo:

E101 =s∑i=1

P (hi = 101)

=s∑i=1

ψipi1 (1− pi2) pi3

Sin embargo, esto supone que no hay observaciones faltantes y que el esfuerzo

de muestreo es igualitario, ya que un requerimiento implícito es que las probabilidades

estimadas de observar cada historia posible sume 1 (i.e.,∑h

P (h = h) = 1) tal que∑h

Oh =∑h

Eh. Para tener en cuenta las observaciones faltantes, se puede tomar aquellos sitios

con una única combinación de valores faltantes como cohortes separados (por ejemplo,

las historias 1-01 y 0-11 pertenecen a la misma cohorte). Entonces, para cada cohorte c,

77


el número esperado de sitios con cada historia de detección será:

Ehc =

sc∑i=1

P (hi = hc) .

donde sc es el número de sitios en la cohorte.

Una vez que se calcularon los Eh's, el estadístico χ2de Pearson permite testear la

bondad de ajuste:

χ2 =∑c

∑h

(OhC − Ehc)2

Ehc.

Como muchos de los Ehc suelen ser relativamente pequeños (< 2), incluso para

valores moderados de K (por ejemplo, K ≥ 5), los argumentos usuales de la distribución

usados para justi�car que χ2 tendrá una distribución Chi-Cuadrado con df grados de

libertad es raro que se cumplan. Por ello se suele utilizar un bootstrap paramétrico para

determinar si el valor observado de χ2 es inusualmente grande.

Este procedimiento involucra asumir que el modelo objetivo es correcto y después

generar conjuntos de datos alternativos sujetos a las restricciones de que los sc's están

�jos. Como se supone que el modelo objetivo es correcto para los datos generados, si los

datos observados parecen típicos en comparación, entonces será razonable concluir que

el modelo es adecuado para ellos también. Entonces el bootstrap paramétrico puede ser

una técnica ideal para evaluar la estructura del modelo. Para el caso de los modelos de

ocupación de una temporada, este procedimiento se implementa como sigue:

1. Ajustar el modelo objetivo a los datos observados y estimar los parámetros ψ y pij(que pueden ser funciones de covariables).

2. Calcular el estadístico de prueba para los datos observados, χ2Obs, usando el ajuste

del modelo del paso anterior.

3. Para cada sitio generar un número aleatorio uniforme (r) entre 0 y 1. Si r ≤ ψi

entonces el sitio está ocupado y se generan otros K números aleatorios uniformes

(rj) entre 0 y 1. Si rj ≤ pij entonces la especie fue "detectada" y la observación

bootstrap correspondiente es un "1" ("0" en caso contrario). Si r > ψi entonces el

sitio no está ocupado y las observaciones bootstrap serán todas "0" para ese sitio.

4. Ajustar un modelo con la misma estructura que el del primer paso a los datos

bootstrap.

78

3.3. Modelado

5. Calcular el estadístico de prueba para los nuevos datos, χ2B, usando el ajuste del

paso anterior.

6. Repetir pasos 3 a 5 un número de veces su�cientemente grande para aproximar la

distribución del estadístico de prueba, dado que el modelo ajustado es correcto.

7. Comparar χ2Obs con la distribución bootstrap de χ

2B para determinar la probabilidad

de observar un valor más grande (el P -valor).

Si el modelo objetivo resulta con un ajuste pobre, pero igual se deben hacer inferencias,

se puede utilizar un parámetro de sobredispersión (c) para "in�ar" los errores están-

dar (McCullagh y Nelder, 1989) y ajustar los procedimientos de selección de modelos

(Burnham y Anderson, 2003). c puede ser estimado como:

c =χ2Obs

χ2B

,

donde χ2B es el promedio de los estadísticos de prueba obtenidos del procedimiento de

bootstrap. Si el modelo objetivo describe adecuadamente los datos, entonces c debe ser

aproximadamente igual a 1. Valores más grandes que 1 sugieren que hay más variación

en los datos observados que lo que el modelo esperaría; mientras que valores menores que

1 sugieren menos variación.

Cuando se consideran múltiples modelos para los datos y se usa algún procedimien-

to de selección, se recomienda primero evaluar la falta de ajuste del modelo más general

o "global" (el más complejo, con mayor número de parámetros). La lógica es que, si este

modelo se ajusta a los datos, entonces cualquier modelo reducido que explique un nivel

similar de variación en los datos (un modelo más parsimonioso) también proporcionará

una descripción adecuada de los mismos. Si el modelo global ajusta pobremente enton-

ces, en base al valor c calculado del modelo global, se deben ajustar los errores estándar

(por un factor de√c) y utilizar QAIC para los procedimientos de selección de modelos

(Burnham y Anderson, 2003).

En algunos casos el número de parámetros del modelo global es demasiado grande,

entonces la poca precisión de los estimadores puede di�cultar la habilidad del test de

detectar la falta de ajuste. En estos casos se debería testear también el ajuste de un

modelo más parsimonioso.

Mediante simulaciones, MacKenzie y Bailey (2004) encontraron que, si un modelo

79


se ajusta pobremente a los datos, puede deberse a una estructura inadecuada del mo-

delo (por ejemplo, exclusión de alguna covariable) o por una violación a las hipótesis

del mismo, como independencia en la unidades de muestreo. En este último caso, los

estimadores de los parámetros siguen siendo insesgados aunque los errores estándar son

chicos (McCullagh y Nelder, 1989). Por otro lado, la falta de ajuste estructural causa

que los estimadores estén sesgados.

3.3.6. Ejemplo de Modelos de Ocupación

Durante los inviernos de 1980-81 y 1981-82, se muestrearon 256 sitios en Wyoming,

Estados Unidos, para determinar si estaban siendo usados por el berrendo o antílope

americano (Antilocapra americana). Con la intención de identi�car aquellos factores que

afectan el uso de los sitio por la especie, se registraron cuatro características de los sitios:

densidad de artemisia (DA), pendiente (Pnd), distancia a fuente de agua (DFA) y aspecto

(A), que es una variable categórica que depende de la ubicación de cada sitio (ver Sección

3.3.4 sobre el tratamiento de variables categóricas). La artemisia (Artemisia tridentata)

es uno de los alimentos de predilección del antílope americano.

MacKenzie (2006) tomó como hipótesis que los sitios estaban siendo usados o no por

la especie durante los dos inviernos, por lo que consideró los muestreos de cada invierno

como muestreos repetidos dentro de una misma temporada. Con el �n de ilustrar la

importancia de tener en cuenta la detección imperfecta, MacKenzie (2006) analizó los

datos con respecto a dos enfoques. El primer enfoque usa regresión logística simple y

considera que la no detección del antílope equivale a que este no está usando el sitio.

El segundo enfoque corresponde a los modelos de ocupación desarrollados anteriormente,

los cuales utiliza para realizar inferencias sobre la selección de hábitat teniendo en cuenta

la probabilidad de detección de la especie. Ambos enfoques consideran el efecto de las

cuatro covariables en la selección de hábitat.

Los resultados del enfoque de regresión logística simple se pueden ver en la Tabla

3.2a. Tener en cuenta que en este caso, para que la regresión logística sea válida se supone

implícitamente que, o bien se condujeron su�cientes muestreos tal que la probabilidad

de un falso ausente es despreciable, o que la probabilidad de detección es constante entre

sitios. En este último caso, los resultados deben ser interpretados como relativos en lugar

de medidas absolutas de la ocupación o uso. Las sumas de los pesos de los modelos que

incluyen a cada covariable son: 90% para la distancia a fuente de agua; 55% para la

80

3.4. Estimación de la Ocupación para una Población Finita o Área Pequeña

pendiente; 38% para la densidad de artemisia; y 19% para el aspecto. Por lo tanto,

se podría llegar a la conclusión que la distancia a una fuente de agua es el factor más

importante para determinar el uso de un sitio por la especie.

Se obtienen diferentes resultados al modelar la probabilidad de ocupación en el

marco de los modelos de ocupación, considerando ahora la detección imperfecta de la

especie (ver Tabla 3.2b). Análogamente al enfoque anterior, se modeló la probabilidad

de ocupación en base a las covariables, mientras que para la probabilidad de detección

se consideró el modelo constante (p (·)). La suma de los pesos de los modelos para cada

covariable con respecto a la ocupación (uso) son: 69% para la pendiente; 33% para la

densidad de artemisia; 22% para el aspecto; y 17% para la distancia a fuente de agua.

La distancia a una fuente de agua pasó de ser la covariable con más sustento a una de

sustento débil.

La diferencia entre los resultados de los dos enfoques demuestra la importancia

de considerar la detección imperfecta a la hora de modelar la ocupación de especies. Es

probable que la probabilidad de detección se esté viendo afectada por una serie factores

no considerados en los modelos.

3.4. Estimación de la Ocupación para una Población Finita

o Área Pequeña

En algunas casos resulta importante distinguir entre probabilidad de ocupación y

proporción de sitios ocupados. Aunque la base de los modelos desarrollados puede usarse

para hacer inferencia sobre la proporción de sitios ocupados en un población relativamente

pequeña, surgen inquietudes al respecto de las aproximaciones asintóticas usadas por la

teoría de verosimilitud para calcular varianzas y errores estándar, que pueden conducir

a la exploración de otros métodos de inferencia.

Asimismo, se sabe que x (el número de sitios ocupados en la muestra) puede sólo

tomar valores enteros entre sD y s. Consecuentemente, la proporción de sitios ocupados en

una muestra toma valores en un conjunto �nito; por ejemplo, si s = 20, la proporción de

sitios ocupados puede tomar los valores 0, 0, 05, 0, 1, 0, 15, . . .. Luego, una vez estimado

el número de sitios ocupados en la población, se puede obtener la proporción de sitios

ocupados simplemente dividiendo este valor por el tamaño de la población de interés (s

81


Tabla 3.2.: Resumen de la selección de modelos para el ejemplo del antílope americano

Modelo ∆AIC w −2LL Parámetros (δ)

ψ (Pnd+DFA) 0,00 23% 345,26 3ψ (DFA) 0,22 21% 348,48 2

ψ (DA+ Pnd+DFA) 0,82 16% 344,08 4ψ (DA+DFA) 1,18 13% 346,44 3

ψ (Pnd+DFA+A) 2,79 6% 342,05 6ψ (DFA+A) 3,08 5% 344,34 5ψ (Pnd) 3,81 3% 351,07 2

ψ (DA+ Pnd+DFA+A) 4,05 3% 341,31 7ψ (DA+DFA+A) 4,45 3% 343,71 6ψ (DA+ Pnd) 4,67 2% 349,93 3

ψ (·) 5,63 1% 354,89 1ψ (Pnd+A) 6,11 1% 347,37 5ψ (DA) 6,65 1% 353,91 2

ψ (DA+ Pnd+A) 7,45 1% 346,71 6ψ (A) 7,67 1% 350,93 4

ψ (DA+A) 9,13 0% 350,39 5

(a) Modelos de regresión logística simple con detección perfecta (p = 1)

Modelo ∆AIC w −2LL Parámetros (δ)

ψ (Pnd) 0,00 28% 631,72 3ψ (DA+ Pnd) 1,24 15% 630,97 4

ψ (·) 1,63 13% 635,36 2ψ (Pnd+A) 2,34 9% 628,06 6ψ (DA) 2,83 7% 634,55 3

ψ (Pnd+DFA) 3,02 6% 632,74 4ψ (DA+ Pnd+DFA) 3,37 5% 631,09 5

ψ (A) 3,67 5% 631,39 5ψ (DA+ Pnd+A) 4,01 4% 627,73 7

ψ (DFA) 4,02 4% 635,74 3ψ (DA+A) 5,31 2% 631,03 6

ψ (Pnd+DFA+A) 5,57 2% 629,29 7ψ (DFA+A) 8,42 0% 634,14 6

ψ (DA+ Pnd+DFA+A) 10,38 0% 632,10 8ψ (DA+DFA+A) 10,88 0% 634,60 7ψ (DA+DFA) 12,81 0% 642,53 4

(b) Modelos de ocupación con probabilidad de detección constante (p (·))

82


o S). Para evitar confusión, se denota el número de sitios ocupados en la muestra como

x, y el número de sitios ocupados en la población más grande, pero �nita, como xpop.

3.4.1. Predicción del Estado de Ocupación No Observado

La esencia de estimar el número de sitios ocupados en una población es predecir

el estado de ocupación de sitios especí�cos. Su valor exacto para un sitio puede ser

desconocido tanto por detección imperfecta como porque el sitio no estaba incluido entre

los sitios muestreados. El estado de ocupación de cada sitio puede ser referido como una

variable de estado latente (es decir, no observada). Se ha venido usando este concepto

implícitamente para enfocarse en la estimación de los parámetros del modelo (de la

población) que gobiernan las variables de estado de ocupación latentes (por ejemplo,

presencia o ausencia de las especies). Sin embargo, muchos problemas de inferencia (como

estimar el número de sitios ocupados) requieren un enfoque directo en las variables de

estado latente.

Sea zi el estado de ocupación binario para el sitio i (presencia/ausencia de las

especies). Si este fuera observado para cada sitio, entonces el número de sitios ocupados

que fueron muestreados es la cantidad:

x =

s∑i=1

zi.

Sin embargo, debido a la detección imperfecta, el estado de ocupación es descono-

cido para algunos sitios. El estimador lógico de x es:

x = sD+s∑

i=sD+1

zi,

esto es, el número de sitios ocupados en los cuales la especie fue detectada más el estado

de ocupación estimado para cada sitio donde no hubo detecciones. El valor esperado del

segundo término es (s− sD)ψcondl, donde ψcondl es la probabilidad de que el sitio esté

ocupado, condicional a que la especie no fue detectada. Recordar que este valor está

relacionado con p y ψ por el Teorema de Bayes:

ψcondl =ψ (1− p)K

(1− ψ) + ψ (1− p)K

83


y, un estimador de ψcondl puede obtenerse sustituyendo ψ y p por sus estimadores en la

expresión. Luego, un estimador de x es:

x = sD + (s− sD) ψcondl.

Para un número mayor de sitios (incluidos los no muestreados), indexados por

j = s+ 1, s+ 2, . . . , S, donde S es la lista de sitios de muestreo potenciales, es necesario

agregar otro término al estimador de x. Entonces:

xpop = sD+

s∑i=sD+1

zi+

S∑j=s+1

zj .

Para esos sitios no muestreados, el valor esperado de zj es la probabilidad de ocu-

pación incondicional ψj . Cuando no se poseen covariables para explicar la variación en

la ocupación, el tercer término puede ser estimado simplemente como (S − s) ψ. Sin em-

bargo, no se espera que esta forma del estimador sea útil ante la presencia de covariables

de ocupación. En esos casos, el estado de ocupación de todas las unidades de muestreo

potenciales debe ser considerado en el contexto de las covariables disponibles, y la forma

general del estimador toma esto en consideración explícita.

Aunque se espera que estos estimadores sean insesgados, existe menos certeza de

obtener estimaciones precisas de la varianza para estas cantidades. Se sugiere que el esti-

mador para el número de sitios ocupados en la muestra, cuando la detección es constante,

tenga una varianza asintótica de:

V ar (x) =sψ (1− p∗)

p∗ −Kp (1− p)K−1.

Esto se basa en la segunda componente de V ar(ψEMV

), en su forma de dos componentes

de la Ecuación 3.1. Esta componente se asocia con la incertidumbre en el número de sitios

ocupados debida a la detección imperfecta de las especies. Análogamente, si se busca

estimar el número de sitios ocupados en una población �nita, cuando algunos sitios no

fueron muestreados y la probabilidad de detección es constante, se sugiere que la varianza

asintótica sea:

V ar (xpop) =sψ (1− p∗)

p∗ −Kp (1− p)K−1+ (S − s)2 V ar

(ψEMV

).

84


Estas ecuaciones de varianza se basan puramente en los heurísticos de la situa-

ción y no se considerarán como estimaciones de varianza precisas por dos razones: 1)

dependen de las propiedades asintóticas de las estimaciones de máxima verosimilitud; y

2) no tienen en cuenta el aspecto discreto del estimador al que se re�rió anteriormente.

Usar un enfoque Bayesiano para la estimación podría solucionar este problema con una

implementación relativamente fácil, dadas las ventajas de los algoritmos MCMC.

3.4.2. Formulación Bayesiana del Modelo

Una manera más genérica de resolver cuestiones relacionadas a la inferencia sobre

el estado de ocupación es formular el modelo explícitamente en términos de las varia-

bles de estado de ocupación latentes (las zi's) y luego adoptar un análisis Bayesiano del

modelo jerárquico resultante. El bene�cio importante de este enfoque (en el contexto de

los modelos de ocupación) es que la estimación e inferencia de valores especí�cos de ziy funciones de zi's, como puede ser el número de sitios ocupados (x), pueden obtenerse

directamente. Además, se logra cierto grado de generalidad al abordar problemas de infe-

rencia bajo extensiones a los modelos, como cuando se tiene disponibilidad de covariables.

Más generalizaciones son relativamente sencillas, incluyendo situaciones multi-temporada

y modelos para múltiples especies.

La inferencia Bayesiana no es asintótica, esto es, medidas de la incertidumbre de los

parámetros, incluyendo funciones de ellos (es decir, parámetros derivados) y predicciones

de variables latentes, son válidas para cualquier tamaño de muestra.

Sea zi el estado de ocupación del sitio i (siendo 1 cuando está ocupado y 0 cuando

no). En la primer etapa del modelo jerárquico se especi�ca un modelo para el número

observado de detecciones en cada sitio, condicional al estado de ocupación del mismo.

Para zi = 1, se tiene una distribución Binomial cuando la probabilidad de detección es

constante, y para zi = 0, se tiene una masa puntual en 0 (es decir, si el sitio no está

ocupado sólo puede haber 0 detecciones). Por lo tanto, la primer componente del modelo

es el producto de Binomiales de los modelos de máxima verosimilitud, excepto que aquí,

al expresarse condicional a las variables de estado latentes zi, es el producto sólo de

aquellos sitios para los cuales zi = 1:

f (y1, y2, . . . , yx | z1, z2, . . . , zx) =∏zi=1

Bin (yi; p) ,

85


donde yi es en número observado de detecciones.

En la segunda etapa, se especi�ca el modelo para las variables de estado latente

zi con i = 1, 2, . . . , s. Suponer entonces que las zi son variables aleatorias Bernoulli

independientes con probabilidad ψ, por lo que se tiene:

g (z1, z2, . . . , zs) =s∏i=1

ψzi (1− ψ)1−zi .

Por lo tanto, la distribución conjunta para las frecuencias de detección observadas

y las variables de estado de ocupación latentes es el producto

f (y1, y2, . . . , yx | z1, z2, . . . , zx) g (z1, z2, . . . , zs) .

Finalmente, deben especi�carse las distribuciones de probabilidad para los dos

parámetros en el modelo, p y ψ, es decir las distribuciones a priori (ver Sección 2.4.3). Una

elección natural (y la más común) para estas distribuciones es la distribución uniforme

U (0, 1) (es decir, todos los valores de p y ψ entre 0 y 1 son igualmente probables).

Estas hipótesis producen un modelo Bayesiano completamente especi�cado en el

sentido de que el cálculo de la distribución a posteriori de cualquier componente des-

conocida del modelo (por ejemplo, los parámetros o las variables de estado latentes)

puede obtenerse. Para obtener estas distribuciones se procede con la ayuda de métodos

de simulaciones, como MCMC, a través de softwares como WinBugs, R o SAS.

Una vez que se aproximaron las distribuciones a posteriori para cada cantidad,

cualquier resumen a posteriori se puede obtener de manera sencilla. Por ejemplo, sean

ψ(1), ψ(2), . . . , ψ(M) las M muestras a posteriori para las distribuciones de la probabili-

dad de ocupación, ψ. Puede representarse la distribución a posteriori con un histograma

o con un grá�co de densidad basado en estos valores, o simplemente calcular una esti-

mación puntual basada en la estimación Monte Carlo de la media a posteriori :

ψ =1

M

M∑m=1

ψ(m).

El mayor bene�cio del análisis Bayesiano en este contexto es que se pueden obtener

muestras a posteriori de las variables latentes zi con i = 1, 2, . . . , s (i.e., si la especie está

86


presente o no en el sitio), que pueden utilizarse para estimar funciones de esas variables

(por ejemplo, el número de sitios ocupados en la muestra). En general, la distribución

a posteriori de una función de los parámetros del modelo puede ser estimada aplicando

esta función a las muestras a posteriori que se obtienen del MCMC. Por ejemplo, puede

realizarse un sorteo a posteriori (es decir, un valor de la distribución a posteriori) del

número de sitios ocupados entre los s sitios de la muestra calculando:

x(m) = sD+

s∑i=sD+1

z(m)i

usando la salida del MCMC para z(m)i con i = sD + 1, sD + 2, . . . , s. Esto puede ser

repetido para todas las muestras a posteriori de z(m)i para obtener la distribución a

posteriori de x. En la práctica, en vez de calcular estos valores después de completar

el proceso MCMC, puede especi�carse que x(m) debe ser calculado y guardado en cada

iteración del procedimiento. La distribución a posteriori de x será discreta (es decir, sólo

tendrá valores enteros entre sD y s); entonces, las estimaciones de la varianza basada

en esta distribución deben ser precisas para la situación de muestreo. No se necesitan

consideraciones asintóticas para a�rmar la validez de estas inferencias. Ademas, para

hacer inferencias sobre el número de sitios ocupados en la población, puede predecirse el

valor de las variables de estado latentes z(m)i con i = s+ 1, s+ 2, . . . , S como variables

aleatorias Bernoulli con probabilidad ψ. El procedimiento completo puede ser fácilmente

generalizado para tener en cuenta observaciones faltantes y permitir el uso de covariables.

Ejemplo 17. Con los mismos datos de la especie de salamandra del Ejemplo 15, pero

ahora con un enfoque Bayesiano, se desea estimar el número de sitios (sobre un total de

39) que estaban ocupados por la especie.

Como se dijo anteriormente, este enfoque utiliza métodos MCMC para generar ite-

rativamente muestras de los parámetros a partir de sus distribuciones a posteriori. Como

suele suceder en cualquier situación de muestreo, un número de muestras mayor provee

resultados más precisos sobre los parámetros. En este caso se obtuvieron computacional-

mente 101.000 muestras para aproximar la distribución a posteriori, donde las primeras

1.000 muestras son utilizadas como período de adaptación.

En la Figura 3.2 se encuentran los grá�cos de densidad o histogramas para las

distribuciones a posteriori estimadas de x, ψ y p. Observar que la distribución a posteriori

del número de sitios ocupados (x) es discreta y toma valores entre el número de sitios

con detecciones (18) y el total de sitios (39). En la Tabla 3.3 se muestran los valores de

87


Figura 3.2.: Distribuciones a posteriori del número de sitios ocupados (x) y los paráme-tros del modelo (ψ y p) para el caso de la especie de salamandra

resumen de las distribuciones a posteriori estimadas. Notar que los valores de las medias

y errores estándar a posteriori de ψ y p son similares a las estimaciones obtenidas del

modelo constante ψ (·) p (·) en el enfoque de máxima verosimilitud (Tabla 3.1). Por lo

tanto, la inferencia realizada sobre la probabilidad de ocupación subyacente es similar en

ambos casos a pesar de tener un muestra relativamente chica.

En la Tabla 3.3 también se incluyen, para cada parámetro, los intervalos de credi-

bilidad al 95% ("intervalos de con�anza Bayesianos") de sus distribuciones a posteriori.

Notar que el intervalo de credibilidad correspondiente al número de sitios ocupados (x)

es asimétrico, lo cual es de esperarse en situaciones con muestras chicas.

3.5. Modelos con Probabilidad de Detección Heterogénea

A diferencia de los modelos anteriores donde se asumía la probabilidad de detec-

ción (p) constante (o variando sólo en respuesta a covariables medibles), existen modelos

88

3.5. Modelos con Probabilidad de Detección Heterogénea

Tabla 3.3.: Resumen de las distribuciones a posteriori del número de sitios ocupados (x)y los parámetros del modelo (ψ y p) ajustado a los datos de la especie desalamandra

Parámetro Media Desvío Intervalo de Credibilidad

ψ 0,61 0,12 (0, 40; 0, 89)

p 0,26 0,06 (0, 16; 0, 37)

x 24,16 4,06 (19; 34)

de ocupación que permiten heterogeneidad de la detección entre sitios. Es natural esta

consideración debido a que son muchos y variados los factores que in�uyen en la detec-

tabilidad, y puede no ser posible identi�carlos, mucho menos controlarlos, a todos. Por

ejemplo, la variación en la probabilidad de detección puede ser inducida por covariables

que afectan la detección pero no fueron incluidas en el modelo. Un factor crucial es que

los datos en los que se basan los modelos de ocupación son típicamente observaciones de

detección de las especies, y la variación en la abundancia de las especies en cada sitio

afecta seguramente la probabilidad de detectarlas (es decir, detectar al menos un indivi-

duo). La detección de al menos un miembro de la especie tenderá a ser mayor en aquellos

sitios donde la abundancia es alta, y baja en aquellos con poca abundancia. Por lo tanto,

sólo se puede descartar la heterogeneidad inducida por la abundancia en el caso que esta

sea vista como relativamente constante entre sitios "ocupados", lo cual raramente suele

suceder en la mayoría de los problemas de muestreo de animales. Esté fenómeno de hete-

rogeneidad inducida por la abundancia suele cobrar importancia para poblaciones chicas

(menos de 10 individuos) e irá disminuyendo en importancia para mayores tamaños de

población, caso en que la probabilidad de detección será tomada como aproximadamente

constante.

Existen muchos trabajos sobre modelos de captura-recaptura donde se introduce

heterogeneidad en la detección suponiendo que p varía por individuo (pi), y que cada uno

de estos es un valor aleatorio proveniente de una distribución, conocida como distribución

mezcla. Se suelen considerar distribuciones discretas, lo que se traduce en que p puede

tomar valores dentro de un conjunto �nito, conocido como mezcla �nita; y distribuciones

contínuas como la distribución Beta y la Logit-Normal. Estos modelos se pueden extender

al caso de los modelos de ocupación.

Alternativamente, Royle y Nichols (2003) sugieren explotar la relación entre la pro-

babilidad de detección y la abundancia, como formulación de modelos con heterogeneidad

en la detección. Lo que hicieron fue colocar la distribución mezcla en la abundancia. Su

89


modelo permite la estimación de la abundancia a partir de datos de detección.

Análogamente a los modelos de ocupación anteriores, puede considerarse que p

varía temporalmente o en relación a covariables medibles, en adición a la heterogeneidad

entre sitios.

En este trabajo no se aplicarán estos modelos debido a la di�cultad de la recolección

de datos de abundancia para las especies de interés.

90

4. Modelos de Ocupación con

Componente Espacial

4.1. Introducción

Sitios vecinos tienden a tener condiciones similares y si las covariables disponibles

no re�ejan totalmente estas condiciones, entonces los residuos de un modelo ajustado

presentarán autocorrelación espacial. Incluso, más allá de los efectos del ambiente, la

probabilidad de ocurrencia de una especie en un sitio puede no ser independiente de la

ocurrencia de esta en un sitio vecino. Esto puede generar autocorrelación espacial que no

puede ser modelada satisfactoriamente por covariables ambientales.

Generalmente, la autocorrelación espacial se origina ya sea por tener un ambiente

autocorrelacionado donde locaciones cercanas son más similares que aquellas lejanas entre

sí, o por procesos como la atracción coespecí�ca y la habilidad de dispersión limitada

de la especie objetivo. Reconocer y analizar la autocorrelación espacial puede proveer

conocimientos sobre los procesos ecológicos que podrían ser pasados por alto de otra

manera. De esta manera, incorporar la autocorrelación espacial podría requerir el uso de

menos covariables y obtener una mejor visión de qué covariables afectan la distribución

de la especie. Además, el efecto de la estructura espacial es una importante componente

en el modelado de la relación ocupación-abundancia.

En este capítulo se estudiará la importancia de tener en cuenta la autocorrelación

espacial y la detección imperfecta a la hora de modelar la distribución de especies móviles,

raras y amenazadas. Se propone una formulación de modelos espaciales cuyo enfoque

discretiza el espacio en regiones o sitios, y modela la autocorrelación continuando con el

marco de máxima verosimilitud de los capítulos anteriores.

91

4. Modelos de Ocupación con Componente Espacial

4.2. Análisis Espacial

Un análisis espacial centra su atención en el estudio de objetos espaciales, de los

cuales utiliza dos tipos de información. Por un lado están los atributos de los objetos

espaciales, que incluyen tanto medidas cuantitativas como tamaño, temperatura y preci-

pitaciones, como también variables cualitativas como tipo de suelo, presencia de amenazas

o disponibilidad de un cierto recurso. Por otro lado, cada objeto espacial tiene una ubica-

ción, que puede ser descrita por su posición en un mapa, por referencias geográ�cas o por

sistemas de coordenadas. La mayoría de los análisis estadísticos hacen hincapié sobre uno

sólo de estos aspectos, siendo la autocorrelación espacial una de las pocas técnicas que

trata simultáneamente con información de ubicación y de atributos (Goodchild, 1986).

La importancia práctica de la autocorrelación espacial radica en sus diversas apli-

caciones. Aplicada como un índice descriptivo provee información sobre un fenómeno

espacialmente distribuido que no se encuentra disponible a través de otros análisis esta-

dísticos. Otra aplicación es que, cuando se buscan causantes de una distribución espacial

en particular, puede suceder que una variable explique un patrón pero sólo parcialmente,

por lo que examinar los patrones espaciales de los residuos puede ayudar a encontrar

otras variables que respondan por la variación restante. Por último, puede pensarse co-

mo una medida del proceso por el cual un sitio in�uencia a otro, siendo usualmente el

análisis de autocorrelación espacial una parte necesaria para una correcta previsión.

En sintonía con los modelos de ocupación, se utilizarán indistintamente los términos

"sitio", "objeto espacial" y "unidad de muestreo" para hacer referencia a los diferentes

objetos sobre los que se desean realizar inferencias.

4.2.1. Matrices de Pesos Espaciales

Los objetos espaciales pueden clasi�carse en puntos, líneas, áreas o retículos. Este

último grupo consiste de una grilla regular de puntos o celdas, usualmente rectangula-

res. En la mayoría de los casos el tipo de objeto espacial presente en los datos no se

corresponde a una característica de la realidad, por ejemplo, al usar objetos puntuales

en representación de áreas. Además de los diferentes tipos de objetos espaciales, existen

diversas maneras en que se puede medir la similitud espacial entre los mismos. Debido a

la amplia variedad de situaciones espaciales posibles, se introduce el concepto de matrices

de pesos espaciales.

92


Sea un conjunto de n sitios, una matriz de pesos espaciales es una matriz W de

n× n con elementos wij que satisfacen:

a) wij ≥ 0 para todo i, j = 1, . . . , n.

b)n∑j=1

wij = 1 para todo i = 1, . . . , n.

Básicamente, wij cuanti�ca la in�uencia espacial relativa del sitio j sobre el si-

tio i. Los términos "contigüidad", "conectividad", "adyacencia" o "asociación" pueden

expresarse bajo diferentes con�guraciones de estas matrices. Además, la posibilidad de

utilizar pesos no simétricos ofrece mayor �exibilidad y realismo (Bavaud, 1998). No debe

prohibirse el uso de pesos diagonales no nulo, ya que el término wii puede pensarse como

una medida de auto-in�uencia del sitio i sobre sí mismo.

Una matriz de pesos espaciales puede no satisfacer la condición (b) de la de�ni-

ción anterior, es decir, no estar estandarizada por �las. Sin embargo, dicha condición

corresponde a una convención en los modelos de autocorrelación espacial, cuyo objetivo

es disminuir la heterogeneidad inducida por los diferente grados de conectividad de los

objetos (Tiefelsdorf, 2006). Esta condición debe obviarse para sitios aislados, es decir

sitios que no son in�uenciados por ningún otro. A estos se les corresponden �las nulas

en la matriz de pesos espaciales cuyos elementos suman cero y no veri�can la condición

(b) de la de�nición.

A continuación se presentan diferentes maneras de de�nir los pesos espaciales. Para

facilitar la lectura, se muestra cómo de�nir los pesos previo a la estandarización por �las

de las matrices.

Pesos Espaciales Por Contigüidad

Uno de los esquemas espaciales más simple es aquel en el que se tiene una grilla de

n celdas cuadradas y se de�ne el peso espacial entre dos celdas como:

wij =

1 si iy j son contígüas

0 caso contrario.

Existen diferentes criterios para determinar si dos celdas son contiguas. Los dos

criterios más simples se relacionan con los movimientos de las piezas torre y reina de un

93


tablero de ajedrez. La torre puede realizar sólo movimientos en línea recta (por columnas

y �las), de lo que se desprende un esquema donde cada celda tiene 4 vecinas:

♣♣ yi ♣♣

.

Considerando ahora la reina, que puede moverse en cualquier dirección (por �las, colum-

nas y diagonales), se obtiene un esquema con 8 vecinas:

♣ ♣ ♣♣ yi ♣♣ ♣ ♣

.

La matriz de pesos espaciales resultante puede ser estandarizada por �las divi-

diendo cada �la por la cantidad de vecinos total del sitio correspondiente. Por ejemplo,

considerando un esquema de 9 celdas, las matrices de pesos para los esquemas anteriores

quedan como:

Wtorre =

0 12 0 1

2 0 0 0 0 013 0 1

3 0 13 0 0 0 0

0 12 0 0 0 1

2 0 0 013 0 0 0 1

3 0 13 0 0

0 14 0 1

4 0 14 0 1

4 0

0 0 13 0 1

3 0 0 0 13

0 0 0 12 0 0 0 1

2 0

0 0 0 0 13 0 1

3 0 13

0 0 0 0 0 12 0 1

2 0

94


para el esquema torre y

Wreina =

0 13 0 1

313 0 0 0 0

15 0 1

515

15

15 0 0 0

0 13 0 0 1

313 0 0 0

15

15 0 0 1

5 0 15

15 0

16

16

16

16 0 1

616

16

16

0 15

15 0 1

5 0 0 15

15

0 0 0 13

13 0 0 1

3 0

0 0 0 15

15

15

15 0 1

5

0 0 0 0 13

13 0 1

3 0

para el esquema reina.

De manera análoga se puede de�nir los pesos espaciales por contigüidad para ob-

jetos del tipo área. Sea fr (i) la frontera del objeto i, entonces los pesos de contigüidad

reina se de�nen como

wij =

1 si fr (i) ∩ fr (j) 6= ∅

0 si fr (i) ∩ fr (j) = ∅.

Esto permite que sitios que comparten frontera en un sólo punto sean considerados

como in�uyentes entre sí, como las celdas diagonales del esquema reina para celdas (de

ahí el nombre de los pesos). Para establecer una condición más fuerte, sea lij la longitud

de la frontera compartida entre las áreas i y j (fr (i) ∩ fr (j)), entonces los pesos de

contigüidad torre se de�nen como:

wij =

1 si lij > 0

0 si lij = 0.

Pesos Espaciales Basados en la Distancia

En el esquema reina para grillas se le asignó el mismo peso a todos los vecinos, sin

embargo resulta más intuitivo asignar mayor peso a los vecinos horizontales y verticales

y menos a los diagonales. Esto se puede realizar de�niendo los pesos espaciales en base

a la distancia entre los centros de las celdas.

La distancia puede utilizarse para de�nir los pesos espaciales de otros tipos objetos

espaciales como puntos y áreas. Mientras que la distancia entre puntos suele calcularse de

95


manera sencilla, la de�nición de una distancia entre áreas puede resultar más compleja.

Una opción es representar las áreas a través puntos de control, como sus centroides, y

medir la distancia entre estos puntos.

El centroide o media espacial de una región corresponde al punto que minimiza el

promedio de la distancia al cuadrado con los demás puntos de la región. Si el área de una

región R es

Area (R) =

ˆ

R

dx,

entonces el centroide o de R está dado por

o =1

Area (R)

ˆ

R

xdx,

que es simplemente el "promedio" de los puntos de la región.

Una vez calculadas las distancias dij entre los centroides de las diferentes áreas,

los pesos se pueden calcular aplicándoles una función decreciente apropiada como una

potencia negativa ,wij = d−bij , o una función exponencial negativa, wij = exp (−bdij). Enambos casos, b puede interpretarse como un parámetro �jo que afecta la velocidad en la

que el peso decrece con respecto a la distancia. Cuanto más chico sea el valor de b, más

lenta será la caída de la función.

Cada función de�nirá una relación diferente entre los pesos y las distancias, res-

petando en la mayoría de los casos la idea de que "menor distancia"="mayor peso".

Sin embargo, puede considerarse un modelo que asigne el mismo peso a todos los sitios

dentro de un umbral de distancias D, más allá de que algunos estén más cerca que otros.

Formalmente, los pesos se de�nen como:

wij =

1 si dij ≤ D

0 si dij > D.

La distancia entre centroides es una buena medida de "cercanía" cuando los sitios

son representados como áreas del mismo tamaño y forma, pero cuando varían en tamaño

y/o forma, su utilización puede no re�ejar correctamente el grado de asociación entre

ellos y resultar en una perdida de información. En la Figura 4.1 se observan dos pares

de áreas cuyas distancias entre centroides son iguales. Sin embargo, en el ejemplo (b) las

96


(a) Esquema espacial con dos regiones de igual ta-maño

(b) Esquema espacial con dos regiones de diferentetamaño

Figura 4.1.: Ejemplos de distancia entre regiones de diferentes tamaños

dos áreas parecen estar más "cerca" que en el ejemplo (a). Esto se debe a la variación

en el tamaño de una de las regiones, información que no es representada por la distancia

entre centroides.

Intuitivamente, se puede de�nir la distancia entre dos áreas como la mínima dis-

tancia entre todos los pares de puntos formados por un punto de cada área:

dij = mın {d (p, q) con p ∈ i y q ∈ j} .

Para sitios cuyas fronteras se intersecan resulta dij = 0. Esto imposibilita la uti-

lización de las potencias negativas d−bij en la de�nición de los pesos. Una alternativa es

utilizar una función exponencial negativa o una traslación de las potencias negativas,

como por ejemplo:(dij + 1)−b.

Pesos Espaciales por Frontera Compartida

Como para los pesos espaciales por contigüidad, las fronteras de los sitios pueden

jugar un papel importante en determinar el grado de in�uencia espacial entre ellos. En

estos modelos se asigna el mismo peso a todos los sitios sin importar la longitud de

97


la frontera compartida. Alternativamente, los pesos por frontera compartida se de�nen

como:

wij = lij ,

donde lij es la longitud de la frontera compartida entre i y j (fr (i) ∩ fr (j)). La

di�cultad de este enfoque es que la identi�cación de contigüidades y el cálculo de los lij 's,

requiere la manipulación de datos sobre fronteras, lo cual resulta mucho más complejo

que la utilización de datos de simples puntos de coordenadas (Smith, 2016).

Pesos Combinados

En muchas situaciones puede considerarse que tanto la distancia como la frontera

compartida entre sitios determinan el grado de in�uencia espacial entre ellos. Combinando

las de�niciones anteriores se pueden de�nir los pesos espaciales como

wij = lijs (dij ; b) ,

con s (dij ; b) una función de la distancia dij entre los sitios i y j (como las de�nidas

anteriormente) y b una constante positiva.

4.2.2. Medidas de Autocorrelación Espacial

Dados dos objetos espaciales i y j, sea cij un valor que represente la similitud entre

los atributos de los objetos y wij el peso espacial que representa la similitud entre sus

ubicaciones. En general, las medidas de autocorrelación espacial comparan el conjunto

de similitudes de atributos cij con el de similitudes entre ubicaciones wij , combinándolos

en un sólo índice de la forma: ∑ij

cijwij .

Existe una amplia variedad de maneras en que se pueden de�nir los cij 's, depen-

diendo del tipo de atributo involucrado. Sea xi el valor del atributo de interés para el

objeto i. Para datos categóricos las similitudes se suelen de�nir como:

cij =

1 si xi = xj

0 si xi 6= xj.

98


Mientras que para datos intervalares (donde la diferencia entre valores está de�ni-

da) se suele recurrir a la diferencia cuadrada (xi − xj)2 o al producto (xi − x) (xj − x),

donde x corresponde al promedio de los valores del atributo.

El índice C de Geary (Geary, 1954) calcula los cij utilizando la diferencia cuadrada

y se de�ne como:

C =

∑ijwijcij

2S2n−1∑ijwij

,

donde S2n−1 corresponde a la varianza de los atributos xi's.

Geary diseñó este índice de tal manera que valga 1 cuando los atributos están

distribuidos independientemente de su ubicación, siendo menor que 1 cuando atributos

similares coinciden con ubicaciones similares y mayor que 1 en el caso contrario.

Alternativamente, el índice I de Moran (Moran, 1948) es positivo cuando sitios

cercanos tienden a ser similares, negativo cuando tienden a ser disimiles y aproximada-

mente cero cuando los atributos están distribuidos aleatoria e independientemente en el

espacio. Este índice se calcula como:

I =

∑ijwijcij

s2∑ijwij

,

donde s2 corresponde a la varianza muestral:

s2 =1

n

∑i

(xi − x)2 .

En este caso, la similitud entre atributos cij se calcula como el producto (xi − x) (xj − x),

que mide la covarianza entre el valor de una variable en un lugar y su valor en otro.

I varía entre -1 y 1, y su valor esperado bajo la hipótesis nula de ausencia de

autocorrelación espacial es (Gri�th, 1987):

E (I) = − 1

n− 1.

Para matrices de pesos espaciales estandarizadas por �las el índice de Moran re-

99


Figura 4.2.: Esquema espacial de cuatro regiones

sulta:

I =

∑ijwijcij∑

i(xi − x)2

.

A continuación se ilustra el cálculo de los índices de autocorrelación espacial con

un simple ejemplo.

Ejemplo 18. Considerar el esquema espacial de la Figura 4.2 y un atributo asociado

cuyos valores para cada región son:

x1 = 3; x2 = 2; x3 = 2; x4 = 1.

Las medidas de resumen de los valores del atributo son:

z=2

σ2 =2

3

s2 =1

2.

Utilizando las diferencias cuadradas de los atributos se construye la matriz de las

100


similitudes de atributos cij para el índice C de Geary:

cC =

0 1 1 4

1 0 0 1

1 0 0 1

4 1 1 0

.

Mientras que aplicando el producto (xi − x) (xj − x) se obtiene la matriz de los cij 's para

el índice I de Moran:

cI =

1 0 0 −1

0 0 0 0

0 0 0 0

−1 0 0 1

.

Utilizando pesos espaciales por contigüidad, la matriz de pesos resulta:

W =

0 1 1 1

1 0 0 1

1 0 0 1

1 1 1 0

,

que estandarizada por �las es:

W =

0 1

313

13

12 0 0 1

212 0 0 1

213

13

13 0

.

Finalmente aplicando las fórmulas de ambos índices se obtiene que C = 1, 2 e

I = −0, 4 para la matriz de pesos sin estandarizar, y C = 1, 125 e I = −1/3 para la

matriz de pesos estandarizadas. Notar que en todos los casos los índices evidencian una

autocorrelación espacial negativa, y que su efecto es más leve cuando se utiliza la matriz

de pesos espaciales estandarizada por �las en los cálculos. En este caso se observa que al

utilizar los pesos sin estandarizar se podría estar in�ando los efectos de autocorrelación

espacial.

101


4.3. Autocovariable Espacial

Utilizando las matrices de pesos espaciales se puede construir un término de auto-

correlación espacial en base a los estados de ocupación de sitios contiguos. A continuación

se propone una manera de adicionar este término a los modelos formulados en capítulos

anteriores. Se comenzará desde el modelo más simple que no tiene en cuenta la detección

imperfecta, y se irán construyendo, a partir de este, modelos más complejos.

4.3.1. Modelos Espaciales con Detección Perfecta

Supóngase, inicialmente, que la detección es perfecta, siendo innecesaria la repeti-

ción de los muestreos. De esta manera, el vector de respuestas Y contiene los estados de

ocupación de los sitios, es decir:

yi =

1 si la especie está presente en el sitio i

0 caso contrario.

Sea pi la probabilidad de que la especie esté presente en el sitio i. Adicionando una

autocovariable o término de autocorrelación espacial en el modelado de las probabilidades

pi's se obtiene el modelo autologístico:

logit (pi) = β0 + βxi + cWiY

donde los dos primeros términos corresponden al modelo logístico de los capítulos ante-

riores, c es el parámetro de autoregresión y Wi es la �la de la matriz de pesos espaciales

correspondiente al sitio i.

Puede suceder, sobre todo cuando se trabaja con grillas de sitios, que no se posean

las observaciones correspondientes a algunos sitios dentro del área de muestreo. En estas

situaciones el término de autocorrelación espacial no puede ser evaluado, ya que para

algunos sitios el patrón de ocupación de sus vecinos es desconocido. Una solución es

incorporar un muestreo de Gibbs al modelo autologístico anterior.

El muestro de Gibbs permite estimar la distribución de la presencia/ausencia en

sitios no muestreados. Es un mecanismo para generar una observación (presencia o au-

sencia) en el sitio i dado el patrón de ocupación en sitios vecinos. A continuación se

detalla el algoritmo a utilizar:

102


1. Ajustar el modelo de regresión logística, es decir el modelo sin la componente

espacial a los sitios muestreados. Calcular la probabilidad ajustada pi para todos

los sitios.

2. Crear un vector inicial Y de presencia/ausencia, generando un valor 1 o 0 con

probabilidad pi para los sitios no muestreados.

3. Calcular la autocovariable espacial para cada sitio usando la matriz de pesos espa-

ciales correspondiente y el vector Y del paso anterior.

4. Ajustar el modelo autologístico a los datos usando la autocovariable calculada del

vector Y actual.

5. Para cada sitio no muestreado:

a) Calcular la autocovariable en el sitio i.

b) Calcular pi, la predicción de la probabilidad condicional de presencia en el

sitio i, y generar una nueva yi.

6. Repetir pasos 3 a 5 hasta lograr convergencia.

El vector �nal de presencia/ausencia es la predicción de la distribución de la especie,

permitiendo la autocorrelación espacial. El muestreo de Gibbs crea una realización es-

tocástica del vector de presencia/ausencia en cada iteración y la utiliza para generar

estocásticamente observaciones para calcular la covariable. Como resultado, el mode-

lo autologístico ajustado después de cada iteración depende del resultado aleatorio de

este vector estocástico. Esto introduce variabilidad considerable y reduce la tasa de con-

vergencia del muestreo de Gibbs (Augustin et al., 1996). Una variación que se puede

implementar en cada paso es calcular la autocovariable utilizando la probabilidad de

ocupación, en lugar de los datos de las respuestas generadas

logit (pi) = β0 + βxi + cWip,

donde p es el vector de las probabilidades de ocupación ajustadas pi.

Este método es más e�ciente computacionalmente ya que no necesita la generación

de las respuestas para los sitios no muestreados en cada iteración.

103


4.3.2. Modelos Espaciales con Detección Imperfecta

Muchos estudios se han realizado con el objetivo de mejorar los métodos estadís-

ticos capaces de incorporar ya sea la autocorrelación espacial o la detección imperfecta,

pero pocos han introducido ambos simultáneamente (Webb et al., 2014). En los capí-

tulos anteriores se habló extensivamente de la importancia de incorporar la detección

imperfecta en los modelos ocupación, por lo que a continuación se intentará adaptar la

autocorrelación espacial a los modelos ya estudiados.

Debido a que en los modelos de ocupación con detección imperfecta existen dos

procesos ocurriendo simultáneamente (la ocupación y la detección), se puede introducir

la autocorrelación espacial en cualquiera de ellos. Resulta más intuitivo considerar la

autocorrelación como un factor que afecta la probabilidad de ocupación de un sitio, la

cual estaría sujeta al estado de ocupación de sitios vecinos. Adaptando la autocovariable

espacial a la ocupación, se obtiene el modelo:

logit (ψi) = β0 + βxi + cWiZ,

donde ahora el término espacial está compuesto por el vector Z de las estimaciones para

las variables de estado latente zi, que indican si un sitio se encuentra realmente ocupado.

Para los sitios con al menos una detección se tiene que zi = 1, pero para los sitios sin

detecciones su valor es desconocido ya que puede suceder que la especie esté presente

pero no detectada (zi = 1) o que la especie no esté presente (zi = 0). Para estos sitios,

como se vio en la Sección 3.4.1, el valor esperado de zi será ψcondl, la probabilidad de

ocupación condicional a que la especie no fue detectada. Una estimación de ψcondl para

cada sitio está dada por:

ψi−condl =ψi (1− pi)K(

1− ψi)

+ ψi (1− pi)K

con K el número de visitas, y ψi y pi las estimaciones para el sitio i de la ocupación y la

detección, respectivamente.

Análogamente al modelo anterior, se puede adaptar el algoritmo del muestro de

Gibbs para obtener estimaciones de la ocupación en sitios sin detecciones y poder eva-

luar la autocovariable espacial. Inicializando el proceso utilizando las estimaciones de las

ψi−condl obtenidas del modelo logístico (sin la autocovariable) para generar valores de

104


las zi's en sitios sin detecciones, luego se aplicará reiteradamente el modelo autologístico

actualizando estas estimaciones en cada iteración.

1. Ajustar el modelo de regresión logística (sin la componente espacial) a los sitios.

Calcular la probabilidad ajustada ψi−condl para los sitios sin detecciones.

2. Crear un vector inicial Z de presencia/ausencia, generando un valor 1 o 0 con

probabilidad ψi−condl para los sitios sin detecciones.

3. Calcular la autocovariable espacial para cada sitio usando la matriz de pesos espa-

ciales correspondiente y el vector Z del paso anterior.

4. Ajustar el modelo autologístico a los datos usando la autocovariable calculada del

vector Z.

5. Para cada sitio sin detecciones:

a) Calcular la autocovariable en el sitio i.

b) Calcular ψi−condl, la predicción de la probabilidad condicional de presencia en

el sitio i, y generar una nueva zi.

6. Repetir pasos 3 a 5 hasta lograr convergencia.

Como en algunas casos pueden existir tanto sitios sin detecciones como sitios no muestrea-

dos (pero in�uyentes), pueden fusionarse sin demasiadas complicaciones ambos muestreos

de Gibbs en un algoritmo que sortee estas situaciones simultáneamente.

Es de esperar que, al no haber muestreado algunos sitios, tampoco se posean los

datos de las covariables necesarios para calcular las estimaciones de la ocupación en

estos. En sintonía con la hipótesis de que sitios con ubicaciones similares tienden a poseer

características similares, se puede reemplazar la estimación de la ocupación en sitios no

muestreados por el promedio pesado de las estimaciones de la ocupación en los demás

sitios:

ψi =∑j

wijψj .

Análogamente al modelo con detección perfecta se puede implementar una varia-

ción al algoritmo propuesto calculando en cada paso la autocovariable espacial en base

105


a las probabilidades de ocupación de los demás sitios, en lugar de las estimaciones de la

variable de estado latente Z:

logit (ψi) = β0 + βxi + cWiψ,

donde ψ es el vector de las probabilidades de ocupación ajustadas ψi.

Como se vio en el capítulo anterior, es posible utilizar las covariables de ocupación

como covariables de detección. Por lo tanto, se puede introducir variabilidad espacial en

la detección incluyendo la autocovariable espacial.

4.4. Ejemplo

Mediante simulaciones se creó una muestra de 40 sitios cuyos estados de ocupación

estaban espacialmente correlacionados. Cada sitio fue muestreado un total de 4 veces sin

observaciones faltantes. Los sitios tienen forma circular de�nida como un radio alrededor

de un punto de referencia y se encuentran distribuidos en un área de 10,000 km2. En la

Figura 4.3 se puede observar la distribución geográ�ca de los sitios y en cuáles sitios la

especie fue detectada al menos una vez.

Debido a que el tamaño de los sitios es variable, se construyen los pesos espaciales

en base a la distancia mínima, y no a la distancia entre centroides. Por lo tanto, se debe

seleccionar adecuadamente una función que esté de�nida en el cero. En este caso, dadas

las distancias entre sitios, se aplica la función exponencial negativa exp(− x

10

). Una vez

construida la matriz de pesos, se pueden calcular los índices de autocorrelación espacial.

Clasi�cando a los sitios en base a si tuvieron detecciones o no, se obtiene que el valor

para los índices C de Geary e I de Moran es de 0, 42 y 0, 57, respectivamente, lo que

evidencia una autocorrelación espacial positiva en ambos casos.

Por simplicidad, se tienen en cuenta sólo dos covariables, la autocovariable espacial

(AE) y el tamaño de los sitios (Área) medido en km2. Para mejor funcionamiento de los

algoritmos, se estandarizaron ambas covariables previo al ajuste de los modelos. Como se

ve en la Tabla 4.1, los modelos espaciales se ajustan considerablemente mejor a los datos

que los modelos sin la componente espacial. El tamaño de los sitios no parece ser un factor

determinante en los estados de ocupación, lo cual es de esperarse considerando que no

106

4.4. Ejemplo

Figura 4.3.: Distribución geográ�ca de los sitios diferenciados entre los que tuvieron almenos una detección y los que no tuvieron ninguna.

Tabla 4.1.: Selección de modelos y estimaciones de los parámetros

Modelo AICEstimaciones

ψ Área AE p

ψ (AE) p (·) 167, 67 309, 23± 366, 31 - 385, 12± 456, 34 −0, 41± 0, 19ψ(AE + Área

)p (·) 169, 53 21, 24± 56, 37 6, 19± 31, 06 21, 24± 65, 37 −0, 41± 0, 19

ψ(Área

)p (·) 195, 02 6, 19± 5, 85 5, 33± 5, 22 - −0, 63± 0, 20

ψ (·) p (·) 198, 90 2, 28± 1, 37 - - −0, 70± 0, 25

intervino en la simulación de los mismos. Por otro lado, las estimaciones del parámetro

espacial en los modelos que lo incluían evidenciaron un fuerte apoyo a la hipótesis de que

la relaciones espaciales entre los sitios afectan positivamente la probabilidad de ocupación.

La adición de la covariable Área en el modelo espacial no tuvo ningún efecto sobre

el funcionamiento del algoritmo propuesto, convergiendo en ambos casos a modelos que

utilizaban la misma estimación de la variable de estado latente Z para calcular la auto-

covariable espacial (Figura 4.4). El algoritmo fue exitoso a la hora de identi�car que uno

de los sitios estaba ocupado a pesar de no haber tenido detecciones, correspondiéndose

el mapa de la Figura 4.4 con el mapa original de ocupación a partir del cual se construyó

la matriz de historias de detección mediante simulaciones.

107


Figura 4.4.: Mapa de ocupación estimado utilizado por los modelos espaciales ψ (AE) p (·)y ψ

(AE + Área

)p (·) para calcular la autocovariable espacial.

4.5. Discusión

La elección de un modelo espacial en particular se debe basar en las hipótesis

sobre el sistema biológico. En particular, un modelo espacial debe estar fuertemente

relacionado con la manera en que fueron elegidas y diseñadas las unidades de muestro.

Por ejemplo, al estudiar una especie de ave voladora, sería más adecuado un modelo con

pesos espaciales basados en distancias que uno con pesos basados en fronteras. De la

misma manera, que para un caso de este tipo resulta más adecuado considerar una serie

de sitios lo su�cientemente alejados entre sí. Sin embargo, como sucede con las covariables

no espaciales, debe evaluarse la incorporación de diferentes términos espaciales, y recurrir

a la selección de modelos para determinar el modelo que se ajusta mejor a los datos.

En contraste con el enfoque anterior, que se basa en discretizar el área de muestreo

en celdas o áreas, se puede ver el espacio como inherentemente continuo y modelar la

autocorrelación espacial introduciendo funciones suaves de las coordenadas espaciales.

Este enfoque depende de modelos estadísticos más �exibles que permitan identi�car y

caracterizar efectos de regresión no lineal. Estos modelos son conocidos como Modelos

Aditivos Generalizados (Hastie y Tibshirani, 1986) y se caracterizan por reemplazar los

108

4.5. Discusión

términos del predictor lineal de los Modelos Lineales Generalizados por funciones suaves

desconocidas. Debido a que requieren el desarrollo de la teoría de Modelos Aditivos

Generalizados, no se analizará la incorporación de una covariable espacial suavizada en

este trabajo.

109

5. Caso de Estudio: El Sapito de las

Sierras

5.1. Introducción

El Sapito de las Sierras (Melanophryniscus a�. montevidensis) (Figura 5.1) es una

especie amenazada y endémica restringida a dos pequeños y fragmentados relictos de

pastizal serrano del Sistema de Tandilia en Argentina (Figura 5.2). Debido a su pequeño

tamaño (de 2,5 a 3 cm) y su coloración oscura resulta muy difícil su detección visual, pa-

sando inadvertidos durante la mayor parte del año. La detección del sapito se incrementa

notablemente durante su temporada reproductiva, gracias a que los machos emiten un

canto nupcial, incrementando así la detección auditiva de la especie. Sin embargo, la ac-

tividad de canto de los machos está restringida a breves periodos de 2 a 3 días, asociados

a intensas precipitaciones (Cortelezzi et al., 2015).

En la actualidad, la fragmentación, la falta de conexión entre sitios reproductivos

y la modi�cación de los pastizales naturales está causando la disminución de la especie,

por ello resulta fundamental identi�car aquellas variables que afectan su detección para

de�nir programas de monitoreo e�cientes.

En este capítulo se trabajará sobre datos del Sapito de las Sierras pertenecientes al

Instituto Multidiciplinario sobre Ecosistemas y Desarrollo Sustentable (ECOSISTEMAS)

de la Universidad Nacional del Centro de la Provincia de Buenos Aires (UNICEN).

5.2. Métodos

La región de estudio se encuentra ubicada en el área protegida "La Poligonal",

un mosaico de pastizales serranos en las afueras de la ciudad de Tandil. Sobre este área

111

5. Caso de Estudio: El Sapito de las Sierras

Figura 5.1.: El Sapito de las Sierras (Melanophryniscus a�. montevidensis) en los pasti-zales serranos de la Pampa, Argentina.

112

5.2. Métodos

Figura 5.2.: Fragmentos de pastizal serrana en el área protegida La Poligonal, provinciade Buenos Aires Argentina. La grilla regular incluye 358 celdas de 12,8 hascada una. El mapa interior muestra la ubicación de la región Pampeana.

113


se de�nió una grilla y se muestrearon 38 celdas, completando 4 visitas por celda en la

mayoría de los casos. Las visitas se realizaron entre las 10 y las 17 hs, entre Agosto de

2012 y Marzo de 2014. En cada visita se detectaron los sapitos mediante una combinación

de muestreos auditivos y visuales.

Basados en las características y comportamientos de la especie se incluyeron seis

covariables bajo las siguientes hipótesis:

1. Los días calurosos, es decir aquellos con altas temperaturas diarias máximas, limitan

el forrajeo y la actividad reproductiva, afectando negativamente la detección.

2. Las noches cálidas, es decir aquellas con altas temperaturas diarias mínimas, esti-

mulan el forrajeo y la actividad reproductiva, favoreciendo la detección.

3. Las altas precipitaciones y los altos niveles de almacenaje de agua en el suelo crean

las condiciones ambientales propicias para la reproducción.

4. La actividad reproductiva decrece al ir avanzando la temporada.

Las covariables de detección serán:

Temperaturas mínimas y máximas del día de visita (TMin y TMax).

Precipitaciones acumuladas de 1 día y 3 días antes de la visita (P1D y P3D).

Datos del almacenaje de agua en suelo (Alm) obtenidos del sitio de la O�cina de

Riesgo Agropecuario (http://www.ora.gov.ar/).

Día de la temporada (DT) contando a partir del 1º de Agosto de 2012.

Previo a la implementación de los métodos, se describieron las variables antes menciona-

das y se realizaron pruebas t de Student sobre las covariables obtenidas según dos grupos

con y sin detección. Se calcularon además medidas de asociación entre estas variables

(Ver Tabla 5.1) . Sólo se observó una correlación lineal superior a 0.7 entre el almace-

naje de agua en suelo (Alm) y la precipitación acumulada los 3 días previos al muestreo

(P3D). La temperatura máxima (TMax), el almacenaje de agua en suelo (Alm) y las pre-

cipitaciones acumuladas en las 24 Hs previas al muestreo (P1D) mostraron diferencias

signi�cativas entre los sitios con y sin detección.

114

5.2. Métodos

Tabla 5.1.: Análisis de las covariables a utilizar en los modelos de ocupación ajustados alos datos del Sapito de las Sierras

VariableNo detección

x± EEDetecciónx± EE P -valor

TMax 25, 91± 2, 52 23, 64± 4, 13 2, 76× 10−4

TMin 9, 55± 3, 93 9, 58± 4, 53 0, 97P1D 0, 24± 1, 25 5, 26± 14, 2 4, 34× 10−3

P3D 15, 27± 19, 38 21, 64± 23 0, 10Alm 68, 14± 10, 32 73, 43± 10, 85 0, 01DT 97, 02± 36, 5 92, 31± 41, 94 0, 51

(a) Pruebas t de Student para dos muestras, con y sin detección, conrespecto cada covariable

TMax TMin P1D P3D Alm DTTMax - 0, 68 0, 30 0, 51 0, 41 0, 52TMin - - 0, 27 0, 57 0, 43 0, 56P1D - - - 0, 39 0, 44 0, 19P3D - - - - 0, 78 0, 56Alm - - - - - 0, 47

(b) Pruebas de asociación entre covariables utilizando el coe�-ciente de correlación de Pearson

115


5.3. Modelado

En este caso, la ocupación (ψ) se de�ne como la proporción de sitios ocupados.

En consecuencia, la probabilidad de detectar la especie en un muestreo es de�nida como

el producto entre la probabilidad de que la misma use esa celda durante la temporada

y la probabilidad de detectarla durante el muestreo, dado que se encuentra físicamente

presente en la celda (p).

Por problemas de acceso y restricciones de tiempo, no se pudieron completar las

cuatro visitas en 13 de las 38 celdas, por lo que se ajustaron modelos que aceptan obser-

vaciones faltantes.

Previo al ajuste de los modelos se estandarizaron las covariables continuas (TMax,

TMin, P1D, P3D, Alm) para un mejor funcionamiento computacional y se transformó a

la escala logarítmica a la covariable de conteo DT.

En base a las hipótesis anteriores se desarrolló un conjunto de modelos con 2 a 5

parámetros (incluyendo los interceptos para la ocupación y la detección). De este conjun-

to, se identi�có al modelo ψ (·) p (TMax + P1D + Alm) como el mejor, correspondiente

al de menor valor de AIC. En la Tabla 5.2 se pueden ver las estimaciones de los pará-

metros (β's) y los errores estándar correspondientes a las covariables de los modelos que

se encontraron a dos unidades de AIC (∆AIC < 2) del mejor modelo.

La temperatura máxima (TMax) estuvo presente en los 3 modelos seleccionados,

en todos ellos su coe�ciente fue negativo, lo que indica que es de esperar menor detec-

ción a temperaturas máximas más altas. En cambio, la covariable de las precipitaciones

acumuladas de 1 día (P1D), que también estuvo en todos los mejores modelos, mostró

una asociación positiva. Otras covariables signi�cativas fueron el almacenaje de agua en

suelo (Alm), la temperatura mínima (TMin) y las precipitaciones acumuladas de 3 días

(P3D), con coe�cientes positivos en todos los casos, indicando que a mayores valores de

estas covariables se espera una mayor probabilidad de detección.

En los grá�cos de la Figura 5.3, se encuentra gra�cada la detección sobre los 3

mejores modelos en base a las covariables TMax y P1D, dejando las demás covariables en

cero (su media en la escala normal). Se puede apreciar el efecto negativo de la temperatura

máxima sobre la detección. En el caso de las precipitaciones del día anterior, no sólo se

puede ver su efecto positivo sino también lo rápido que llega a un punto de saturación.

116

5.3. Modelado

(a) Estimación de la probabilidad de detección en función de la temperaturamáxima

(b) Estimación de la probabilidad de detección en función de las precipitacionesdel día anterior

Figura 5.3.: Estimación de la Detección en relación a las variables presentes en los mejoresmodelos 117


Tabla 5.2.: Selección de modelos y estimaciones de los parámetros para el caso del Sapitode las Sierras

Modelo AICEstimaciones

p TMax TMin P1D P3D Almψ (·) p (TMax + P1D + P3D) 133, 5184 0, 81± 0, 48 −1, 48± 0, 32 - 2, 58± 1, 70 1, 00± 0, 29 -ψ (·) p (TMax + P1D + Alm) 134, 8695 0, 59± 0, 36 −1, 41± 0, 32 - 1, 38± 1, 20 - 0, 91± 0, 27ψ (·) p (TMax + TMin + P1D) 135, 4261 0, 87± 0, 49 −1, 67± 0, 36 1, 08± 0, 34 3, 00± 1, 80 - -

5.4. Estimación de la Probabilidad de Detección Utilizando

Datos de Previsión Meteorológica

Como se vio en la sección anterior, es necesario proporcionar a los modelos los va-

lores de las covariables involucradas para poder obtener una estimación de la detección.

Ahora, estos valores podrían provenir de datos meteorológicos de previsión, de esta mane-

ra se obtendría una estimación para los días futuros. Con estos datos se puede programar

con anticipación los muestreos conociendo qué días la estimación de la probabilidad de

detección es más alta.

Datos previsionales como las precipitaciones y las temperaturas se pueden obtener

fácilmente de una serie de servicios meteorológicos online. En cambio, es más complejo

obtener datos futuros para el almacenaje de agua en suelo, porque depende de diversos

factores como el tipo de suelo, la variación temporal de la lluvia, de la temperatura y

de otros atributos del clima (Durval et al., 1999). Para sortear este obstáculo se puede

recurrir a proporcionar a los modelos valores de almacenaje por debajo y por arriba de

la media para evaluar diferentes escenarios.

Una vez obtenidos los datos de temperaturas y precipitaciones para los días próxi-

mos a la fecha desde la página web de algún servicio meteorológico, en este caso Wind-

Guru.com, se le proporcionan al software los valores de las covariables del modelo elegido

y valores para el almacenaje de agua en suelo (en caso que esta sea una de dichas covaria-

bles), obteniendo estimaciones de la detección para los próximos días. Supóngase, a modo

de ejemplo, que se quieren conocer las estimación de la detección bajo el segundo mejor

modelo ψ (·) p (TMax + P1D + Alm). Como el almacenaje es una de las covariables, se

suministran a la función los valores -1, 0 y 1. Como se ve en la Figura 5.4, los días 27,

28 y 29 de Noviembre serían los mejores para realizar muestreos del sapito, es decir los

días donde hay mayor probabilidad de encontrarlo.

118

5.4. Estimación de la Probabilidad de Detección Utilizando Datos de Previsión Meteorológica

Figura 5.4.: Previsión de la estimación de la probabilidad detección

119


5.5. Conclusiones

El análisis anterior proporciona evidencia de una predecible asociación entre la pro-

babilidad de detección y una combinación de condiciones de clima y suelo en el Sapito de

las Sierras (Friedman et al., 2016). El almacenaje de agua en suelo y las precipitaciones

acumuladas del día anterior se mostraron asociadas a altas probabilidades de detección.

Estos dos factores son necesarios para el establecimiento y persistencia de charcos tem-

porarios.

La detección del Sapito de las Sierras estuvo restringida por las temperaturas dia-

rias, lo cual no es sorpresa siendo que la actividad de la mayoría de los ectotermos es

in�uenciada de manera similar (Rohr y Malone, 2001). Altos niveles de temperaturas

mínimas, característica asociada a noches templadas, exhibieron un efecto positivo en la

probabilidad de detección. Alternativamente, el aumento de las temperaturas máximas

durante días cálidos, mostró un efecto negativo en la detección. Las altas temperaturas

pueden causar que los sapitos se retraigan entre la vegetación, reduciendo la actividad de

llamado. Además, las altas temperaturas del verano aumentan la evaporación, reduciendo

la humedad del suelo y la persistencia de los charcos.

Contrario a lo supuesto, no se encontraron efectos lineales del momento de la

temporada sobre la probabilidad de detección. La actividad reproductiva del sapito parece

concentrarse en primavera y hacia el �nal del verano.

La sólida relación entre el clima y la probabilidad de detección permite estimar

cuántas oportunidades de muestreo hay durante una temporada. Teniendo a disponibi-

lidad una base de datos climáticos, los modelos desarrollados se pueden utilizar para

evaluar tendencias en el número de oportunidades de reproducción entre diferentes tem-

poradas. Desde una perspectiva de monitoreo, la predicción de la detección basada en

datos climáticos futuros permitirá seleccionar las mejores fechas de muestreo. El desa-

rrollo de una herramienta basada en datos climáticos disponibles gratuitamente provee

una solución práctica para el efectivo muestreo de especies elusivas con problemas de

conservación.

120

6. Caso de Estudio: Loros de Bolivia

6.1. Introducción

La manera en que las diferentes especies se ven afectadas por la fragmentación

de sus hábitats puede estar determinada por diferencias en aquellos comportamientos

relacionados al uso del espacio y los patrones de movimiento de los individuos. Carac-

terísticas como la lealtad o la especialización de hábitat, la habilidad de dispersión y la

capacidad de colonización afectan la vulnerabilidad de las especies a la fragmentación de

su hábitat.

En el caso de la mayoría de las especies de loros, su alta movilidad les permite

usar, o alcanzar al menos, pequeños remanentes dentro de paisajes fragmentados. Esta

habilidad les permite usar hábitats heterogéneos, incluso durante un mismo día, para

diferentes propósitos. Además, el uso puede cambiar entre temporadas en respuesta a la

disponibilidad de alimentos. Sin embargo, la �delidad a los sitios de anidado y descanso es

alta, sobretodo en la temporada reproductiva. Como resultado de este comportamiento

es que se debe considerar la variabilidad de la detectabilidad en estudios de hábitat

(Berkunsky et al., 2015).

Las sabanas de Beni, al norte de Bolivia, son el hábitat de 23 especies de loros,

incluyendo al Guacamayo de Barba Azul (Ara glaucogularis) que se encuentra en peligro

crítico de extinción. Los hábitats de bosque de esta zona se encuentran naturalmente

fragmentados y limitados a islas de bosque y galerías de bosques ribereños. Sin embargo,

la calidad de estos fragmentos se ha ido reduciendo notablemente, por esta razón es que,

identi�car las variables asociadas al uso de los fragmentos es esencial para determinar

cómo la calidad del hábitat se ve afectada por las actividades del hombre.

En este capítulo se cuanti�carán las diferencias en el uso de las islas de bosque

(hábitats boscosos naturalmente fragmentados) por especies de loros a través del mode-

121


lado de la ocupación. Se examinará el uso del hábitat de una serie de islas de bosque que

varían en tamaño, disponibilidad de recursos y en presencia de amenazas.

6.2. Métodos

El paisaje de la región de estudio está dominado por áreas bajas y planas cubiertas

por sabana completamente abierta, sin árboles y que se inunda según la temporada.

Las características de la sabana no son adecuadas para el desarrollo de la agricultura

tradicional, por lo que la ganadería es la actividad económica principal (Mayle et al.,

2007).

En 2011 se muestrearon 60 islas de bosque para estudiar la ocurrencia de las especies

de loros. El muestro se realizó durante un período de 9 semanas al �n de la temporada

seca, que coincide con la temporada reproductiva.

Las palmeras grandes se consideran un recurso clave para los guacamayos y loros

debido a que son usados para la alimentación y el anidado. Por esta razón, se registró e

incluyó en los modelos la presencia de las especies de palmeras Motacú (Attalea phalerata)

y Totaí (Acrocomia aculeata) como covariables. También se tuvo en cuenta la presencia

de tala selectiva y de fuegos como covariables de amenaza al hábitat.

Además del tamaño de las islas de bosque, se consideró el número de cavidades de

cada isla como covariable de disponibilidad de recursos de anidado.

Bajo la hipótesis de que cuanto más tarde en el día sea realizado el muestro la

probabilidad de detección será más baja, se incluyó como covariable de detección al

tiempo de inicio de cada muestro registrado en horas desde el amanecer.

En la Tabla 6.1 se pueden apreciar en resumen las covariables incluidas junto a las

hipótesis correspondientes.

Previo a la implementación de los métodos, se compararon los valores medios de

cada covariable en los grupos con y sin detecciones, realizando pruebas t de Student

para las covariables numéricas y pruebas Chi-Cuadrado para las covariables dicotómicas.

Además, se analizaron los datos de covariables en busca de correlaciones signi�cativas.

Tómese como ejemplo al Guacamayo de Barba Azul (Ara glaucogularis). En la Tabla 6.2

se puede apreciar que el número de cavidades mostró una diferencia signi�cativa entre los

122

6.3. Modelado

Tabla 6.1.: Resumen de las covariables a tener en cuenta en los modelos ajustados a losdatos del Guacamayo de Barba Azul

Categoría Variable Descripción Tipo Hipótesis

Recursos

Área Tamaño de la isla (ha) Continua ⇑ Disponibilidad de hábitatCavidades Número de cavidades detectadas Conteo ⇑ Hábitat de nidi�caciónMotacú Presencia de Atthalea phalerata Binaria ⇑ Forrajeo y nidi�caciónTotaí Presencia de Acrocomia aculeata Binaria ⇑ Forrajeo y nidi�cación

AmenazasTala Evidencia de tala selectiva Binaria ⇓ Calidad de hábitatFuego Evidencia de fuego Binaria ⇓ Calidad de hábitat

Muestreo Inicio Hora de comienzo del muestreo relativa ala salida del sol

Continua ⇓ Actividad de los loros

Tabla 6.2.: Análisis de Covariables para el caso del Guacamayo de Barba Azul. Tomandopara cada covariable dos muestras, una correspondiente a los sitios con almenos una detección y otra en sitio sin detecciones, se compararon las mediasentre los dos grupos.

VariableNo detección

x + EEDetecciónx + EE

P -valor

Área 5, 26± 10, 42 17, 43± 26, 83 0, 15Cavidades 2, 67± 4, 37 8, 33± 5, 03 2, 65× 10−3

Motacú 0, 90± 0, 31 1, 00± 0, 00 0, 24Totaí 0, 40± 0, 49 0, 75± 0, 46 0, 03Tala 0, 67± 0, 48 0, 75± 0, 46 0, 53Fuego 0, 35± 0, 48 0, 33± 0, 49 0, 89Inicio −0, 05± 0, 96 0, 09± 1, 13 0, 59

dos grupos, y en menor medida esto sucedió para la covariable Totaí. No se encontraron

diferencias signi�cativas entre los muestreos con y sin detecciones con respecto al inicio

de muestro.

No se observó asociación entre la presencia de las palmeras y las amenazas (Fuego

y Tala), excepto para Totaí que estuvo presente a pesar de la tala.

6.3. Modelado

En este caso, la hipótesis de clausura no se cumple debido a que el estado de

ocupación de los sitios es variable. Si las especies de loros se mueven aleatoriamente

entre las unidades de muestreo, el estimador de ocupación debe ser interpretado como

la proporción de islas de bosque "usadas" por las especies objetivo (MacKenzie y Royle,

2005). Consecuentemente, la probabilidad de detección en una isla de bosque se de�ne

123


como el producto entre la probabilidad de uso durante la temporada y la probabilidad

de detección dado que la especie se encuentra físicamente en el lugar.

Por problemas de acceso y restricciones de tiempo no se pudo completar el máximo

establecido de tres visitas para 46 de los 60 sitios, por lo que se adecuó un modelo de

una temporada con observaciones faltantes.

Previamente a la implementación de los modelos, se estandarizaron las covariables

continuas (área e inicio de muestreo) y transformar a la escala logarítmica la covariable

de conteo correspondiente al número de cavidades (sumando previamente 1 para evitar

los ceros).

Se consideraron sólo modelos con 2 a 6 parámetros (incluyendo los interceptos de la

detección y la ocupación) manteniendo un ratio aproximado de datos/parámetros mayor

a 10,

Máximo número de parámetros =Cantidad de sitios

10.

Análogamente al caso anterior, se desecharon aquellos modelos cuyo valor de AIC

era menor que el del modelo constante (ψ(·) p (·)) y luego aquellos con más de 2 unidades

de AIC de diferencia (∆AIC > 2) con el modelo de mejor ajuste. Aquellos modelos que

no hayan convergido deben ser descartados ya que pueden conducir a inferencias erróneas.

También se debe analizar el número de condición de cada modelo, el cual muestra el

grado de inestabilidad del mismo y de sus estimaciones. Ante la presencia de modelos

con números de condición demasiado grandes, se debe determinar si sus estimaciones,

además de explicar correctamente los datos, no resultan irrisorias.

Para las covariables presentes en el conjunto de 8 modelos restantes se calcularon

las estimaciones de los parámetros (β's) y sus errores estándar (Tabla 6.3). El número de

cavidades estuvo presente en los mejores modelos seguido por la presencia de la palmera

Totaí (presente en 6 de los 8 modelos), ambas exhibiendo un marcado efecto positivo en

la probabilidad de uso. Otras covariables presentes en menor medida fueron la evidencia

de fuego (en 3 modelos), la evidencia de tala (en 1 modelo) y el tamaño de sitio (en 1

modelo). De acuerdo a las hipótesis, las amenazas (fuego y tala) mostraron un efecto

negativo en el uso, mientras que el tamaño de sitio mostró un efecto positivo. Sólo

dos modelos de la lista incluyeron al inicio de muestreo como covariable de detección,

exhibiendo un efecto negativo sobre esta. Es probable que la presencia de estos modelos

entre los mejores se deba más al aporte de las covariables de ocupación y no tanto a la

inclusión de la covariable de detección.

124

6.3. Modelado

Tabla

6.3.:Estim

acionesde

losparámetrosde

losmejores

modelos

para

elcaso

delGuacamayode

Barba

Azul

Modelo

AIC

Estim

acionesp

Estim

acionesψ

p(Intercepto)

Inicio

ψ(Intercepto)

Área

Cavidades

Totaí

Tala

Fuego

ψ(C

avidades

+Totaí

)p

(·)73,

681,

01±

0,51

-−

4,84±

1,4

1-

1,79±

0,6

11,

59±

0,96

--

ψ(C

avidades

+Totaí

+Fuego

)p

(·)73,8

11,

06±

0,49

-−

4,91±

1,4

9-

2,13±

0,7

01,

49±

0,99

-−

1,4

1±

1,08

ψ(C

avidades

+Fuego

)p

(·)74,2

50,

95±

0,51

-−

3,91±

1,1

8-

2,18±

0,7

3-

-−

1,5

3±

1,06

ψ(C

avidades

)p

(·)74,5

70,

82±

0,55

-−

3,92±

1,2

0-

1,91±

0,7

1-

--

ψ( Áre

a+Cavidades

+Totaí) p(·

)74,4

10,

98±

0,52

-−

4,67±

1,4

20,2

9±

0,7

11,

66±

0,6

31,

66±

1,03

--

ψ(C

avidades

+Totaí

)p

(Inicio)

75,4

21,

07±

0,53

−0,

20±

0,3

9−

4,83±

1,4

1-

1,79±

0,6

01,

58±

0,96

--

ψ(C

avidades

+Totaí

+Fuego

)p

(Inicio)

75,5

81,

12±

0,5

1−

0,19±

0,3

9−

4,9

1±

1,5

0-

2,13±

0,7

01,

49±

0,98

-−

1,39±

1,0

8ψ

(Cavidades

+Totaí

+Tala)p

(·)75,6

51,

01±

0,5

0-

−4,7

4±

1,5

1-

1,79±

0,6

01,

68±

1,08

−0,2

1±

1,1

2-

125


Tabla 6.4.: Resumen de las estimaciones de los parámetros del modelo promedio para elcaso del Guacamayo de Barba Azul

Parámetro Estimación EE Intervalo de Con�anzaψ (Intercepto) −4, 58 1, 45 (−6, 95; −2, 20)

Área 0, 29 0, 71 (−0, 87; 1, 46)Cavidades 1, 95 0, 69 (0, 80; 3, 09)Totaí 1, 57 0, 99 (−0, 07; 3, 20)Tala −0, 21 1, 12 (−2, 06; 1, 64)Fuego −1,45 1, 07 (−3, 22; 0, 32)

p (Intercepto) 0, 99 0, 52 (0, 14; 1, 85)Inicio −0, 20 0, 39 (−0, 84; 0, 45)

Para determinar el nivel general de soporte de cada variable se calculó la estimación

del modelo promedio que se obtiene promediando las estimaciones de los modelos en

los que está incluida la covariable con los pesos de AIC de cada uno (Tabla 6.4). Se

considera que el efecto de una covariable es signi�cativo si todos los valores del intervalo

de con�anza se encuentran del mismo lado de cero (son todos positivos o todos negativos).

Si el intervalo de con�anza al 90% contiene al cero (más precisamente al valor especi�cado

en la hipótesis nula), entonces el efecto de la covariable no será signi�cativo. La única

covariable que cumple este requisito es el número de cavidades, lo que indica un efecto

positivo consistente sobre la probabilidad de uso (Lane, 2011).

Para entender mejor el efecto del número de cavidades sobre la probabilidad de

uso, se tomó el modelo promedio de los primeros cuatro modelos que incluyen a las

tres covariables más signi�cativas (número de cavidades, presencia de Totaí y evidencia

de fuegos), y se gra�caron los diferentes escenarios con respecto a los valores de las

covariables binarias Totaí y Fuego. En la Figura 6.1 se puede apreciar cómo el mejor

escenario es aquel donde está presente la palmera Totaí y no hay evidencias de incendios.

También se puede observar cómo la curva asociada a este caso llega a un punto de

saturación alrededor de las 15 cavidades. Por otro lado, el peor escenario es el opuesto al

anterior, con evidencia de fuegos y ausencia de Totaí. Este escenario describe una curva

de crecimiento mucho más suave que las demás.

6.4. Conclusiones

Las islas de bosque, hábitats de un gran número de especies de loros de la sabana de

Beni, mostraron variación en tamaño, disponibilidad de recursos y presencia de amenazas.

126

6.4. Conclusiones

Figura 6.1.: Estimación promedio de la probabilidad de uso en función del número decavidades para diferentes escenarios.

127


Esta heterogeneidad en la calidad del hábitat explicaron el uso de las islas por las especies

de loros.

El número de cavidades en árboles presentes en cada isla fue identi�cado como un

factor clave asociado al uso de los sitios por las especies. Islas con más de 5 cavidades

mostraron una probabilidad de uso mayor a 0,5 y de 0,9 en islas con más de 15 (Berkunsky

et al., 2015).

La palmera Motacú (Attalea phalerata) estuvo presente en casi todas las islas de

bosque. Esta falta de variación puede haber sido la causa de que la covariable asociada

haya estado ausente entre los mejores modelos. Por otro lado, la palmera Totaí (Acrocomia

aculeata) explicó parte del uso de las islas de bosque. Esta palmera es un recurso común

de anidado y alimento para muchos loros neotropicales (Berkunsky et al., 2014).

El Guacamayo de Barba Azul (Ara glaucogularis), que se encuentra en peligro de

extinción, fue la única especie estudiada que con�rmó la hipótesis de asociación negativa

con el uso tanto para la evidencia de incendios como para la evidencia de tala.

El objetivo de este estudio fue proveer información, a nivel de sitio y paisaje,

sobre las relaciones del hábitat de los loros que puede ser utilizada para el manejo de

poblaciones de los mismos en paisajes fragmentados. El estudio reveló que la calidad de

los hábitats, caracterizada por sus recursos y presencia de amenazas, es heterogénea y

no siempre está asociada al tamaño de las islas. Por lo tanto, resulta más apropiada la

inclusión de covariables particulares asociadas a los recursos y amenazas, en lugar de sólo

una covariable asociada al tamaño de isla.

Entender la manera en la que los loros utilizan su hábitat natural fragmentado,

ayuda a determinar cuáles de estos fragmentos deben ser preservados prioritariamente y

que acciones de conservación son necesarias. Un programa de monitoreo riguroso sigue

siendo una herramienta esencial para la conservación y manejo de poblaciones de loros.

128

A. Anexo: Implementación en R

Aunque existen varias herramientas para trabajar con modelos de ocupación, como

los softwares MARK y PRESENCE (desarrollado por MacKenzie et al. (2002)), las

rutinas implementadas dentro del software R han resultado ser las más útiles por su

con�abilidad, soporte y constantes actualizaciones.

R es un entorno de software libre que provee una amplia variedad de técnicas

estadísticas y grá�cas, y que es altamente personalizable. Por ejemplo, para aplicar lo

desarrollado en este trabajo se utilizó especialmente el paquete unmarked, entre otros.

Este paquete apunta a ser una entorno completo para el análisis estadístico de datos

obtenidos de muestreos de animales no marcados.

unmarked proporciona estructuras de datos, sintaxis ajustable y un post-procesamiento

que forman una marco cohesivo para el análisis de datos ecológicos recolectados usan-

do un diseño de metapoblación. Este paquete permite estimar la ocupación de un sitio,

abundancia y densidad de animales (u otros organismos/objetos) que no pueden ser

detectados con exactitud.

A.1. Modelos de Ocupación Básicos en R

A continuación se presenta el código R utilizado tomando a modo de ejemplo los

datos del Guacamayo de Barba Azul del Capitulo 6.

Creación del marco de datos

129


# Carga de datos en un data.frame

loro <- read.xlsx("Loros_Raw.xlsx", 1)

# Matriz de historias

y <- loro[1:3]

# Covariables de ocupación

siteCovs <- loro[4:9]

names(siteCovs) <- c("Area", "Cavidades", "Motacu",

"Totai", "Tala", "Fuego")

# Covariables de detección

obsCovs <- list(Inicio = loro[10:12])

# Introducción de una variable dummy

s <- nrow(loro)

(Tiempo <- as.factor(rep(c(1, 2, 3), s)))

## [1] 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2

## [33] 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1

## [65] 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3

## [97] 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2

## [129] 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1

## [161] 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3

## Levels: 1 2 3

obsCovs <- data.frame(Tiempo)

# Creación de objeto unmarkedFrameOccu

datos <- unmarkedFrameOccu(y = y, siteCovs = siteCovs, obsCovs = obsCovs)

# Resumen de los datos

summary(datos)

## unmarkedFrame Object

##

## 60 sites

## Maximum number of observations per site: 3

130

A.1. Modelos de Ocupación Básicos en R

## Mean number of observations per site: 1.73

## Sites with at least one detection: 12

##

## Tabulation of y observations:

## 0 1 <NA>

## 82 22 76

##

## Site-level covariates:

## Area Cavidades Motacu Totai

## Min. : 0.1000 Min. : 0.00 Min. :0.0000 Min. :0.0000

## 1st Qu.: 0.7775 1st Qu.: 0.00 1st Qu.:1.0000 1st Qu.:0.0000

## Median : 1.9883 Median : 2.00 Median :1.0000 Median :0.0000

## Mean : 7.6953 Mean : 3.80 Mean :0.9167 Mean :0.4667

## 3rd Qu.: 7.3626 3rd Qu.: 5.25 3rd Qu.:1.0000 3rd Qu.:1.0000

## Max. :89.4597 Max. :24.00 Max. :1.0000 Max. :1.0000

## Tala Fuego

## Min. :0.0000 Min. :0.00

## 1st Qu.:0.0000 1st Qu.:0.00

## Median :1.0000 Median :0.00

## Mean :0.6833 Mean :0.35

## 3rd Qu.:1.0000 3rd Qu.:1.00

## Max. :1.0000 Max. :1.00

##

## Observation-level covariates:

## Inicio

## Min. :-0.9163

## 1st Qu.:-0.6820

## Median :-0.4221

## Mean : 0.0000

## 3rd Qu.: 0.2256

## Max. : 3.0463

## NA's :75

# Estandarización de la covariable contínua

siteCovs(datos)["Area"] <- scale(siteCovs(datos)["Area"])

# Transformación de la covariable de conteo a la escala logarítmica

131


siteCovs(datos)["Cavidades"] <- log(siteCovs(datos)["Cavidades"] + 1)

Correr los modelos

#Formula general

modelo<-occu(~[Fórmula de detección] ~[Fórmula de ocupación],datos)

# Modelo constante:

(mod0 <- occu(~1 ~ 1, datos))

##

## Call:

## occu(formula = ~1 ~ 1, data = datos)

##

## Occupancy:

## Estimate SE z P(>|z|)

## -1.1 0.368 -2.98 0.00293

##

## Detection:


## 0.841 0.504 1.67 0.0949

##

## AIC: 88.74932

# Modelo con covariables:

(mod1 <- occu(~Inicio ~ Cavidades + Totai, datos))

##

## Call:

## occu(formula = ~Inicio ~ Cavidades + Totai, data = datos)

##

## Occupancy:

132

A.2. Estimaciones de los Parámetros


## (Intercept) -4.83 1.408 -3.43 0.000599

## Cavidades 1.79 0.602 2.97 0.003000

## Totai 1.58 0.958 1.64 0.100147

##

## Detection:


## (Intercept) 1.069 0.525 2.034 0.042

## Inicio -0.203 0.393 -0.518 0.604

##

## AIC: 75.41891

A.2. Estimaciones de los Parámetros

# Estimación de los parámetros de ocupación

coef(mod1, type = "state")

## psi(Int) psi(Cavidades) psi(Totai)

## -4.831766 1.785331 1.575021

# Estimación de los parámetros de detección

coef(mod1, type = "det")

## p(Int) p(Inicio)

## 1.0685452 -0.2034555

# Combinación lineal de las estimaciones

linearComb(mod1, type = "state", coefficients = c(1, 1, 1))

## Linear combination(s) of Occupancy estimate(s)

##

## Estimate SE (Intercept) Cavidades Totai

## -1.47 0.654 1 1 1

133


# Transformación a escala original sin covariables

backTransform(mod0, "state")

## Backtransformed linear combination(s) of Occupancy estimate(s)

##

## Estimate SE LinComb (Intercept)

## 0.25 0.0692 -1.1 1

##

## Transformation: logistic

# Transformación a escala original sin covariables

backTransform(mod0, "state")

## Backtransformed linear combination(s) of Occupancy estimate(s)

##

## Estimate SE LinComb (Intercept)

## 0.25 0.0692 -1.1 1

##

## Transformation: logistic

#Transformación a escala original con covariables

nuevosDatos<-data.frame(Totai=1,

Cavidades=seq(0,4,length.out=10))

predict(mod1,type='state',newdata=nuevosDatos,appendData=TRUE)

## Predicted SE lower upper Totai Cavidades

## 1 0.03708527 0.03968297 0.00434329 0.2537484 1 0.0000000

## 2 0.07847392 0.06413923 0.01475045 0.3263131 1 0.4444444

## 3 0.15845292 0.09251716 0.04610481 0.4231313 1 0.8888889

## 4 0.29394424 0.11723435 0.12095313 0.5574518 1 1.3333333

## 5 0.47930588 0.13664083 0.23941190 0.7291390 1 1.7777778

## 6 0.67054620 0.14374812 0.36246377 0.8793193 1 2.2222222

## 7 0.81819065 0.12356758 0.46904804 0.9582032 1 2.6666667

134

A.3. Selección de Modelos y Modelo Promedio

## 8 0.90867950 0.08701646 0.56029010 0.9872940 1 3.1111111

## 9 0.95652402 0.05345346 0.63917937 0.9963537 1 3.5555556

## 10 0.97985755 0.03024127 0.70712394 0.9989808 1 4.0000000

A.3. Selección de Modelos y Modelo Promedio

# Lista d modelos ordenados por AIC

modlist <- fitList(`psi(.)p(.)` = mod0, `psi(.)p()` = mod1)

modSel(modlist)

## nPars AIC delta AICwt cumltvWt

## psi(.)p() 5 75.42 0.00 0.9987 1.00

## psi(.)p(.) 2 88.75 13.33 0.0013 1.00

#Más información sobre los modelos

slot(modSel(modlist),'Full')

#Estimaciones de los parámetros del modelo promedio

modlst <- list('psi(.)p(.)' = mod0,

'psi(Cavidades+Totai)p(Inicio)' = mod1)

modavg(modlst, parm="Cavidades", modnames=names(modlst),

parm.type="psi", conf.level=.90, second.ord=F)

##

## Multimodel inference on " psi(Cavidades) " based on AIC

##

## AIC table used to obtain model-averaged estimate:

##

## K AIC Delta_AIC AICWt Estimate SE

## psi(Cavidades+Totai)p(Inicio) 5 75.42 0 1 1.79 0.6

##

## Model-averaged estimate: 1.79

135


## Unconditional SE: 0.6

## 90 % Unconditional confidence interval: 0.8 , 2.77

# Estimación de la ocupación del modelo promedio

modavgpred(modlst, modnames = names(modlst), nuevosDatos, second.ord = F,

type = "response", uncond.se = "revised", parm.type = "psi")

##

## Model-averaged predictions based on entire model set:

##

## mod.avg.pred uncond.se

## 1 0.04 0.04

## 2 0.08 0.06

## 3 0.16 0.09

## 4 0.29 0.12

## 5 0.48 0.14

## 6 0.67 0.14

## 7 0.82 0.13

## 8 0.91 0.09

## 9 0.96 0.06

## 10 0.98 0.04

A.4. Bondad de Ajuste y Bootstrap Paramétrico.

# Bondad de ajuste

mb.gof.test(mod1, nsim = 20, plot.hist = F)

##

## MacKenzie and Bailey goodness-of-fit for single-season occupancy model

##

## Pearson chi-square table:

##

136

A.5. Métodos Bayesianos

## Cohort Observed Expected Chi-square

## 000 0 9 10.19 0.14

## 011 0 2 0.60 3.25

## 111 0 3 1.60 1.23

## 00NA 1 10 9.75 0.01

## 01NA 1 3 1.35 2.00

## 10NA 1 1 1.23 0.04

## 11NA 1 2 3.66 0.75

## 0NANA 2 29 27.95 0.04

## 1NANA 2 1 2.05 0.54

##

## Chi-square statistic = 9.6068

## Number of bootstrap samples = 20

## P-value = 0.25

##

## Quantiles of bootstrapped statistics:

## 0% 25% 50% 75% 100%

## 2.0 5.0 7.9 9.6 26.9

##

## Estimate of c-hat = 1.12

En la Figura A.1 se puede ver un histograma del estadístico de prueba de ajuste

para 1.000 iteraciones del bootstrap paramétrico (Burnham y Anderson, 2003).

A.5. Métodos Bayesianos

# Estimación de la proporción de sitios ocupados

s = nrow(loro)

re <- ranef(mod1)

EBUP <- bup(re, stat = "mode")

CI <- confint(re, level = 0.9)

rbind(PAO = c(Estimate = sum(EBUP), colSums(CI))/s)

## Estimate 5% 95%

## PAO 0.2 0.2 0.4166667

137


Figura A.1.: Histograma del estadístico de prueba de ajuste para 1000 muestras.

A.6. Estimación de la Probabilidad de Detección

Utilizando Datos de Previsión Meteorológica

estimDet=function(formula,AlmVal=c(NA)){

#1. IMPORTAR DATOS METEOROLÓGICOS

URL="http://www.windguru.cz/es/index.php?sc=53104"

doc = htmlTreeParse(URL, useInternalNodes = TRUE)

#Encontrar donde están alojados los datos

tabla<-xpathSApply(doc, "//*/script[@type='text/javascript']", xmlValue)

wndgru<-grep('wg_fcst_tab_data_1',tabla,value=T)

#Extraer datos de temperaturas

TMPw<-strsplit(wndgru,'\"TMP\":[',fixed=TRUE)[[1]][2]

TMPw<-strsplit(TMPw,']',fixed=TRUE)[[1]][1]

TMP<-strsplit(TMPw,',',fixed=TRUE)[[1]]

TMP<-as.numeric(TMP)

#Extraer datos de precipitaciones

PCPw<-strsplit(wndgru,'\"APCP\":[',fixed=TRUE)[[1]][2]

PCPw<-strsplit(PCPw,']',fixed=TRUE)[[1]][1]

138

A.6. Estimación de la Probabilidad de Detección Utilizando Datos de Previsión Meteorológica

PCP<-strsplit(PCPw,',',fixed=TRUE)[[1]]

PCP<-suppressWarnings(as.numeric(PCP))

#Extraer nombre de días

Diasw<-strsplit(wndgru,'\"hr_weekday\":[',fixed=TRUE)[[1]][2]

Diasw<-strsplit(Diasw,']',fixed=TRUE)[[1]][1]

Dias<-strsplit(Diasw,',',fixed=TRUE)[[1]]

Dias<-as.numeric(Dias)

DiaIni<-strsplit(wndgru,'initdate\":\"',fixed=TRUE)[[1]][2]

DiaIni<-strsplit(DiaIni,' 12:00:00',fixed=TRUE)[[1]][1]

DiaIni<-as.Date(DiaIni)

#Separar los datos por fecha TmpLst<-list(TMP[1])

PcpLst<-list(PCP[1])

dia=1

for (i in 2:length(Dias)){

if (Dias[i]==Dias[i-1]){

TmpLst[[dia]]<-c(TmpLst[[dia]],TMP[i])

PcpLst[[dia]]<-c(PcpLst[[dia]],PCP[i])

} else {

dia<-dia+1 TmpLst<-c(TmpLst,TMP[i])

PcpLst<-c(PcpLst,PCP[i])}}

#Calcular las temperaturas máximas y mínimas y la precipitación acumulada

PcpLst[length(TmpLst)]<-NULL

TmpLst[1]<-NULL

MaxTmp<-unlist(lapply(TmpLst,max))

MinTmp<-unlist(lapply(TmpLst,min))

AcumPcp<-unlist(lapply(PcpLst,sum,na.rm=T))

#Crear vector de fechas

Fechas<-DiaIni+1:length(TmpLst)

#2. CORRER EL MODELO

#Importar datos y crear unmarkedFrame

sapo<-read.xlsx("Datos.xls",1)

y<-sapo[,2:5]

obsCovs<-list(TMax=sapo[,c(6:9)],TMin=sapo[,c(10:13)],

P1D=sapo[,c(14:17)],Alm=sapo[,c(18:21)])

sapo2<-unmarkedFrameOccu(y=y,obsCovs=obsCovs)

139


#Crear matriz de medidas de resumen

resumen<-data.frame(data=matrix(nrow=2,ncol=4),row.names = c("Mean","SD"))

names(resumen)<-names(obsCovs)

with (sapo2@obsCovs, {

resumen[1,]�-c(mean(TMax,na.rm=T),mean(TMin,na.rm=T),

mean(P1D,na.rm=T),mean(Alm,na.rm=T))

resumen[2,]�-c(sd(TMax,na.rm=T),sd(TMin,na.rm=T),

sd(P1D,na.rm=T),sd(Alm,na.rm=T))})

#Estandarizar covariables

obsCovs(sapo2)<-scale(obsCovs(sapo2))

#Correr modelo

modelo<-occu(formula(formula), sapo2)

#3. ESTIMAR DETECCIÓN USANDO DATOS METEOROLÓGICOS

#Crear data.frame con los datos descargados

nuevosDatos = data.frame(

TMax=rep((MaxTmp -resumen['Mean','TMax'])/resumen['SD','TMax'],

length(AlmVal)),

TMin=rep((MinTmp -resumen['Mean','TMin'])/resumen['SD','TMin'],

length(AlmVal)),

P1D=rep((AcumPcp -resumen['Mean','P1D'])/resumen['SD','P1D'],

length(AlmVal)),

Alm=rep(AlmVal, each=length(MaxTmp)))

pred<-predict(modelo, type = 'det', newdata = nuevosDatos, appendData=TRUE)

pred<-cbind(pred,Fechas=rep(Fechas,length(AlmVal)))

#4. GRAFICAR PREDICCIONES

if (length(AlmVal)==1){

ggplot(pred,aes(x=Fechas,y=Predicted))+

scale_x_date(breaks=Fechas, labels=date_format("%d de %B")) +

theme(axis.text.x = element_text(angle=30,hjust=1,vjust=1)) +

geom_line(size=1,colour="#009999")+geom_point(size=3)+

labs(x = "Días", y = "Detección Estimada")

}else{

ggplot(pred,aes(x=Fechas,y=Predicted,colour=as.character(Alm)))+

scale_x_date(breaks=Fechas, labels=date_format("%d de %B")) +

theme(axis.text.x = element_text(angle=30,hjust=1,vjust=1),

legend.background=element_rect(fill="white", colour="black"),

140

A.7. Modelos Espaciales

legend.title=element_text(face="bold")) + geom_line(size=1)+

scale_color_manual(values=c("#009999","#FF3333","#59B356"))+

geom_point(size=3) +

labs(color="Almacenaje",x = "Días", y = "Detección Estimada")}

}

Ejemplos de uso:

#Con Almacenaje como covariable:

estimDet(~TMax+Alm+P1D ~1, c(-1,0,1))

#Sin Almacenaje como covariable:

estimDet(~TMax+P1D ~1)


# Construcción de una lista de vecinos arreglados en una grilla de nxm

cell2nb(n, m, type = "rook") #para el esquema torre

cell2nb(n, m, type = "queen") #para el esquema reina

# Construcción de matriz de k vecinos para cada punto

vecinos <- knearneigh(coordenadas, k = k)

knn2nb(vecinos)

# Construcción matriz de vecinos en un umbral de distancia [d1,d2]

dnearneigh(coordenadas, d1, d2)

# Aplicación de una función f a una lista de distancias D

pesos <- lapply(D, function(x) f(x))

# Construicción de objeto estandarizado por filas

W <- nb2listw(knn2nb(vecinos), glist = pesos, style = "W")

listw2mat(W)

Cálculo de los índices de Geary y Moran para el ejemplo de la Sección 4.4:

141


# Índice I de Moran

moran.test(z0, listw = W)

##

## Moran I test under randomisation

##

## data: z0

## weights: W

##

## Moran I statistic standard deviate = 8.634, p-value < 2.2e-16

## alternative hypothesis: greater

## sample estimates:

## Moran I statistic Expectation Variance

## 0.567675981 -0.025641026 0.004722226

# Índice C de Geary

geary.test(z0, listw = W)

##

## Geary C test under randomisation

##

## data: z0

## weights: W

##

## Geary C statistic standard deviate = 8.436, p-value < 2.2e-16

## alternative hypothesis: Expectation greater than statistic

## sample estimates:

## Geary C statistic Expectation Variance

## 0.41500047 1.00000000 0.00480877

Modelos espaciales autologísticos con el muestreo de Gibbs:

#1. Ajustar modelo logístico

datos <- unmarkedFrameOccu(y = Y, siteCovs = siteCovs)

142


mod0<-occu(~1 ~1, datos)

AICS<-slot(mod0,"AIC") #Vector de AICs de los modelos

#2. Extraer extimaciones del modelo logístico

psi=backTransform(mod0,type='state')@estimate

p=backTransform(mod0,type='det')@estimate

psic=(psi*(1-p)^k)/(1-psi+psi*(1-p)^k) #psi condicional

Z<-Z0<-as.numeric(rowSums(Y) > 0)

nodet<-as.numeric(row.names(Y[rowSums(Y)==0,]))

#3. Correr 1er modelo autologístico

repeat {

#Valores iniciales de Z para sitios sin detecciones

Z[nodet]<-rbinom(length(nodet),1,psic)

Zaux<-Z

siteCovs<-data.frame(autocov=scale(W%*%Z))

datos2<-unmarkedFrameOccu(y=Y,siteCovs=siteCovs)

modaux<-occu(~1 ~autocov, datos2)

#Chequear convergencia

if (slot(modaux,"opt")$convergence==0) {break} }

mod<-modaux AICS<-c(AICS,slot(mod,"AIC"))

#4. Muestreo de Gibbs

Gibbs<-function(it) {

for (j in 1:it) {

repeat {

#Generar Zs para sitios sin detecciones

nd.aleat<-sample(nodet, length(nodet)) #otro orden de los sitios

for (i in 1:length(nd.aleat)){

p<-backTransform(mod,type='det')@estimate

Waux=((W%*%Z)[nd.aleat[i]]-mean(W%*%Zaux))/sd(W%*%Zaux)

psi<-predict(mod, type = 'state',

newdata = data.frame(autocov=Waux))$Predicted

psic=(psi*(1-p)^k)/(1-psi+psi*(1-p)^k)

Z[nd.aleat[i]]=rbinom(1,1,psic)}

143


#Correr modelo autologístico con nuevo Z

siteCovs<-data.frame(autocov=scale(W%*%Z))

datos2<-unmarkedFrameOccu(y=Y,siteCovs=siteCovs)

modaux<-occu(~1 ~autocov, datos2)

#Chequear convergencia

if (slot(modaux,"opt")$convergence==0) {break} }

mod�-modaux

Zaux�-Z

AICS�-c(AICS,slot(mod,"AIC")) #Almacenar AIC }

#Devolver el vector Z y el modelo finales

Z�-Z

return(mod)}

144

Bibliografía

Augustin, N., Mugglestone, M., y Buckland, S. (1996). An autologistic model for the

spatial distribution of wildlife. Journal of Applied Ecology, pp. 339�347.

Bailey, L. L., Simons, T. R., y Pollock, K. H. (2004). Estimating site occupancy and

species detection probability parameters for terrestrial salamanders. Ecological Appli-

cations, 14(3):692�702.

Bavaud, F. (1998). Models for spatial weights: a systematic look. Geographical analysis,

30(2):153�171.

Berkunsky, I., Daniele, G., Kacoliris, F. P., Díaz-Luque, J. A., Frias, C. P. S., Aramburu,

R. M., y Gilardi, J. D. (2014). Reproductive parameters in the critically endangered

blue-throated macaw: limits to the recovery of a parrot under intensive management.

PloS one, 9(6):e99941.

Berkunsky, I., Simoy, M. V., Cepeda, R. E., Marinelli, C., Kacoliris, F. P., Daniele,

G., Cortelezzi, A., Díaz-Luque, J. A., Friedman, J. M., y Aramburú, R. M. (2015).

Assessing the use of forest islands by parrot species in a neotropical savanna. Avian

Conservation and Ecology, 10(1).

Bivand, R. S., Pebesma, E., y Gomez-Rubio, V. (2013). Applied spatial data analysis

with R, Second edition. Springer, NY.

Box, G. E. y Cox, D. R. (1964). An analysis of transformations. Journal of the Royal

Statistical Society. Series B (Methodological), pp. 211�252.

Burnham, K. P. y Anderson, D. (2003). Model selection and multi-model inference. A

Pratical informatio-theoric approch. Sringer.

Burnham, K. P. y Anderson, D. R. (2004). Multimodel inference understanding AIC and

BIC in model selection. Sociological methods & research, 33(2):261�304.

145

Bibliografía

Buse, A. (1982). The likelihood ratio, Wald, and Lagrange multiplier tests: An expository

note. The American Statistician, 36(3a):153�157.

Chang, W. (2013). R Graphics Cookbook. O'Reilly Media, Inc.

Cortelezzi, A., Berkunsky, I., Simoy, M. V., Cepeda, R., Marinelli, C., y Kacoliris, F. P.

(2015). Are breeding sites a limiting factor for the tandilean redbelly toad (bufonidae)

in pampean highland grasslands? Neotropical Biology and Conservation, 10(3):182�

186.

Demétrio, C. G. B. (2001). Modelos lineares generalizados em experimentação agronô-

mica. USP/ESALQ.

Dobson, A. J. y Barnett, A. (2008). An introduction to generalized linear models. CRC

press.

Durval, Dourado-Neto and Luiz, Fancelli Antonio and Antonio, Frizzone José and Klaus,

Reichardt and others (1999). Balance hídrico ciclico y secuencial: estimación de alma-

cenamiento de agua en el suelo. Scientia Agricola.

Fahrmeir, L. y Kaufmannm, H. (1985). Consistency and asymptotic normality of the

maximum likelihood estimator in generalized linear models. The Annals of Statistics,

13(1):342�368.

Friedman, M., Cepeda, R. E., Cortelezzi, A., Simoy, M. V., Marinelli, C., Kacoliris,

F. P., Dopazo, J., y Berkunsky, I. (2016). Searching for an elusive anuran: A detection

model based on weather forecasting for the tandilean red-belly toad. Herpetological

Conservation and Biology.

Geary, R. C. (1954). The contiguity ratio and statistical mapping. The incorporated

statistician, 5(3):115�146.

Goodchild, M. (1986). Spatial autocorrelation. concepts and techniques in modern geo-

graphy 47. Norwich, UK: Geo Books.

Gri�th, D. (1987). Spatial autocorrelation: a primer. Resource publications in geography.

Association of American Geographers.

Hastie, T. y Tibshirani, R. (1986). Generalized additive models. Statistical science, pp.

297�310.

146

Bibliografía

Lane, D. (2011). Online Statistics Education, pp. 1018�1020. Springer Berlin Heidelberg,

Berlin, Heidelberg.

Link, W. A. (2003). Nonidenti�ability of population size from capture-recapture data

with heterogeneous detection probabilities. Biometrics, 59(4):1123�1130.

MacKenzie, D. I. (2006). Occupancy estimation and modeling: inferring patterns and

dynamics of species occurrence. Academic Press.

MacKenzie, D. I. y Bailey, L. L. (2004). Assessing the �t of site-occupancy models.

Journal of Agricultural, Biological, and Environmental Statistics, 9(3):300�318.

MacKenzie, D. I., Nichols, J. D., Lachman, G. B., Droege, S., Andrew Royle, J., y Lang-

timm, C. A. (2002). Estimating site occupancy rates when detection probabilities are

less than one. Ecology, 83(8):2248�2255.

MacKenzie, D. I. y Royle, J. A. (2005). Designing occupancy studies: general advice and

allocating survey e�ort. Journal of Applied Ecology, 42(6):1105�1114.

Mayle, F. E., Langstroth, R. P., Fisher, R. A., y Meir, P. (2007). Long-term forest�

savannah dynamics in the bolivian amazon: implications for conservation. Philosophical

Transactions of the Royal Society of London B: Biological Sciences, 362(1478):291�307.

McCullagh, P. y Nelder, J. A. (1989). Generalized linear models, volumen 37. CRC press.

Moran, P. A. (1948). The interpretation of statistical maps. Journal of the Royal Statis-

tical Society. Series B (Methodological), 10(2):243�251.

Murray, J. (2011). Mathematical Biology: I. An Introduction. Interdisciplinary Applied

Mathematics. Springer New York.

Nelder, J. A. y Wedderburn, R. W. M. (1972). Generalized linear models. Journal of the

Royal Statistical Society. Series A (General), 135(3):370�384.

Rohr, D. H. y Malone, B. S. (2001). Activity times and body temperature in australian

copperheads (serpentes: Elapidae). Australian Journal of Zoology, 49(3):223�233.

Royle, J. A. y Nichols, J. D. (2003). Estimating abundance from repeated presence-

absence data or point counts. Ecology, 84(3):777�790.

147

Bibliografía

Searle, S. (1982). Matrix algebra useful for statistics. Wiley series in probability and

mathematical statistics: Applied probability and statistics. Wiley.

Smith, T. (2016). Notebook on spatial data analysis. [En línea] http://www.seas.

upenn.edu/~ese502/.

Tiefelsdorf, M. (2006). Modelling spatial processes: the identi�cation and analysis of spa-

tial relationships in regression residuals by means of Moran's I, volumen 87. Springer.

Webb, M. H., Wotherspoon, S., Stojanovic, D., Heinsohn, R., Cunningham, R., Bell, P.,

y Terauds, A. (2014). Location matters: Using spatially explicit occupancy models

to predict the distribution of the highly mobile, endangered swift parrot. Biological

Conservation, 176:99�108.

Weisberg, S. (2005). Applied linear regression, volumen 528. John Wiley & Sons.

148

modelos de ocupación - unicen

Documents