universidad autÓnoma chapingo divisiÓn de ciencias ...€¦ · agradecimientos a dios, por...
TRANSCRIPT
UUNNIIVVEERRSSIIDDAADD AAUUTTÓÓNNOOMMAA CCHHAAPPIINNGGOO
DDIIVVIISSIIÓÓNN DDEE CCIIEENNCCIIAASS FFOORREESSTTAALLEESS
“DISCRIMINACIÓN ENTRE LAS DISTRIBUCIONES GAUSIANA INVERSA Y WEIBULL Y UNA APLICACIÓN EN
BIOMETRÍA FORESTAL.”
TESIS PROFESIONAL
Que como requisito parcial para obtener el título de:
LLIICCEENNCCIIAADDOO EENN EESSTTAADDÍÍSSTTIICCAA
PRESENTA:
Acosta Percastegui Alan
Chapingo, México. Julio del 2009.
La presente tesis titulada "Discriminación entre las distribuciones Gausiana Inversa y Weibull y una aplicación en Biometría Forestal" fue realizada por el C. Alan Acosta Percastegui, bajo la dirección del Dr. Carlos L. Cíntora González. Ha sido revisada y aprobada por el Comité Revisor y Jurado examinador que se indica para obtener el título de Licenciado en Estadística. Presidente Dr. Carlos L. Cíntora González Secretario Dr. Gerardo H. Terrazas González Vocal Lc. Margarito Soriano Montero Suplente M. en C. Alejandro Corona Ambriz Suplente M. en C. Ángel Leyva Ovalle
AGRADECIMIENTOS
A Dios, por permitirme concluir este primer paso en mi formación profesional, y por poder compartir con mi familia y amigos este logro.
A mis padres, Joel Acosta Martínez y Yolanda Percastegui González, por su apoyo incondicional, sin importar que tan difíciles fueran los tiempos, por su amor de padres para con sus hijos, MUCHAS GRACIAS.
A mis hermanas, Arianna y Jeannette, por todo su apoyo y cariño.
A toda mi familia, que por cuestiones de espacio no los nombro, pero sé que cuento con su apoyo.
A la Universidad Autónoma Chapingo, mi alma mater, por la invaluable oportunidad que me brindó para formarme profesionalmente.
Al Dr. Carlos L. Cíntora González, por su asesoría constante, tiempo y esfuerzo prestados para la realización de la presente.
Al Dr. Gerardo H. Terrazas González, Lic. Margarito Soriano Montero, M. en C. Ángel Leyva Ovalle y al M. en C. Alejandro Corona Ambriz, por la revisión, y puntuales observaciones para la realización de la presente.
A mis amigos: Arisel, Kaliman, Fer, Lore, Chumi, Eli, Francisco, Roy, Ramón, José, Mari, Micah, a los miembros de la generación 2004-2008 de la Lic. en Estadística, una disculpa a los que omite por cuestiones de espacio, pero sé que cuento con su inapreciable amistad.
“Cada uno de nosotros lo sabe todo. Sólo necesitamos abrir nuestras mentes para escuchar nuestra propia sabiduría”
Indice general
Indice de Cuadros IV
Indice de Figuras VI
Resumen VII
Abstract IX
1. Introduccion 1
2. Objetivos 3
3. Revision de Literatura 4
3.1. Distribucion Gausiana Inversa . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1.2. Estimacion por Maxima Verosimilitud . . . . . . . . . . . . . . . . 7
3.2. Distribucion Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2.2. Estimacion por Maxima Verosimilitud . . . . . . . . . . . . . . . . 11
3.3. Informacion de Kullback-Leibler o Distancia Entre dos Modelos . . . . 13
I
3.3.1. La realidad f , considerada como constante . . . . . . . . . . . . . . 14
3.4. Criterio de Informacion de Akaike . . . . . . . . . . . . . . . . . . . . . . 16
3.4.1. Criterio de Informacion de segundo orden . . . . . . . . . . . . . 19
3.5. Prueba de Vuong . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.6. Metodo de Simulacion de Monte Carlo . . . . . . . . . . . . . . . . . . . . 22
4. Metodologıa 24
5. Aplicacion, Simulacion y Discusion 27
5.1. Aplicacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.1.1. Estimacion Distribucion Weibull . . . . . . . . . . . . . . . . . . . 28
5.1.2. Estimacion Distribucion Gausiana Inversa . . . . . . . . . . . . . 31
5.1.3. Criterio de Informacion AICc . . . . . . . . . . . . . . . . . . . . . 33
5.1.4. Estadıstico de Vuong . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2. Simulacion y Evaluacion del Comportamiento de los Estadısticos . . . . 36
5.2.1. Simulacion del criterio AICc . . . . . . . . . . . . . . . . . . . . . . 36
5.2.2. Simulacion del criterio de Vuong . . . . . . . . . . . . . . . . . . . 41
5.3. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
6. Conclusiones y Recomendaciones 48
APENDICES 51
A. Codigo R usado para calcular el criterio AICc 52
II
B. Codigo R usado para la simulacion de Monte Carlo 56
Referencias 66
III
Indice de cuadros
4.1. Diametros normales de n = 67 arboles de pino en la estacion forestal ex-
perimental Zoquiapan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1. Valores estimados de AICc para cada una de las densidades . . . . . . . . 33
5.2. Fracciones de rechazo observadas. Modelo verdadero IG(µ = 0.5, λ =
1), y discriminacion basada en el criterio AICc con nivel de significancia
nominal de α = 0.05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3. Fracciones de rechazo observadas. Modelo verdadero IG(µ = 0.5, λ =
0.8), y discriminacion basada en el criterio AICc con nivel de significancia
α = 0.05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.4. Fracciones de rechazo observadas. Modelo verdadero IG(µ = 0.5, λ =
2.5), y discriminacion basada en el criterio AICc con nivel de significancia
α = 0.05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.5. Fracciones de rechazo observadas. Modelo verdadero Weibull(c = 1.5, α =
0.5), y discriminacion basada en el criterio AICc con nivel de significancia
de α = 0.05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.6. Fracciones de rechazo observadas. Modelo verdadero Weibull(c = 1.5, α =
0.95), y discriminacion basada en el criterio AICc con nivel de significancia
α = 0.05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
IV
5.7. Fracciones de rechazo observadas. Modelo verdadero Weibull(c = 1.5, α =
2.5) y discriminacion basada en el criterio AICc con nivel de significancia
α = 0.05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.8. Fracciones de Seleccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.9. Fracciones de rechazo, modelo verdadero IG(µ = 0.8, λ = 1.5), criterio de
discriminacion de Vuong con nivel de significancia α = 0.05 . . . . . . . . 42
5.10. Fracciones de rechazo, modelo verdadero Weibull(c = 4, α = 1.5), criterio
de discriminacion de Vuong con nivel de significancia α = 0.05 . . . . . . 43
5.11. Fracciones de rechazo, modelo verdadero es χ215, criterio de discriminacion
de Vuong con nivel de significancia α = 0.05 . . . . . . . . . . . . . . . . . 43
5.12. Fracciones de rechazo, modelo verdadero IG(µ = 0.8, λ = 1.5), criterio de
discriminacion de Vuong con nivel de significancia α = 0.05 . . . . . . . . 44
5.13. Fracciones de rechazo, modelo verdadero Weibull(c = 4, α = 1.5), criterio
de discriminacion Vuong . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.14. Fracciones de rechazo, modelo verdadero χ215, criterio de discriminacion
Vuong . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
V
Indice de figuras
3.1. Distribucion IG(µ = 1, λ = 14 ) y IG(µ = 1,λ = 1) . . . . . . . . . . . . . . . . . 5
3.2. Distribucion Weibull(c = 1.5, α = 1.25) y Weibull(c = 2,α = 1.25) respectiva-
mente (con ξ0 = 0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
5.1. Histograma de n = 67 observaciones de diametros normales . . . . . . . . . . . 27
5.2. Distribucion estimada Weibull(c = 1.8291474, α = 0.292557) . . . . . . . . . . . 30
5.3. Distribucion estimada Weibull(c = 1.8291474, α = 0.292557) vs histograma muestral 31
5.4. Distribucion estimada IG(µ = 0.2576866, λ = 0.9933674) . . . . . . . . . . . . . 32
5.5. Distribucion estimada IG(µ = 0.2576866, λ = 0.9933674) vs histograma muestral 35
VI
Resumen
El presente trabajo tuvo como finalidad estudiar el comportamiento de dos criterios para
discriminar entre las densidades Weibull y Gausiana Inversa. Los criterios de seleccion
de modelos son los estadısticos AICc y Vuong, y se aplicaron a una muestra de 67 ob-
servaciones correspondientes a diametros normales. Se realizo la estimacion de ambas
distribuciones por el metodo de maxima verosimilitud, y el calculo de ambos criterios de
discriminacion fue programado en el software R, resultando mejor modelo la distribu-
cion Gausiana Inversa con parametros estimados µ = 0.2576866 y λ = 0.9933674 con
un valor de AICc = −104.0795. La prueba de Vuong rechazo la igualdad de modelos en
favor de distribucion Gausiana Inversa con un nivel de significancia de α = 0.05. Se ana-
lizo el comportamiento de ambos criterios por medio de simulaciones de Monte Carlo,
para lo cual se fijaron pseudo poblaciones determinadas por modelos Weibull y Gausiano
Inverso, para los cuales se simularon 10,000 muestras de tamano 10,20,30,50 y 60 respec-
tivamente. Para cada una de las pseudo poblaciones se estimaron ambos modelos y se
evaluaron los criterios AICc y Vuong. Para la situacion en la que la pseudo poblacion
estaba determinada por un modelo Gausiano Inverso la fraccion de rechazo del criterio
AICc y Vuong fue pequena (cercana a 0), es decir, el nivel de significancia observado fue
menor o igual que el nivel nominal de ambas pruebas, es decir, ambos criterios elegıan
al modelo Gausiano Inverso como mejor modelo sobre la distribucion Weibull, cuando
en realidad este es el que genero la muestra aleatoria. Para la situacion en la que la pseu-
do poblacion estaba determinada por alguna distribucion Weibull el comportamiento fue
similar. Mas aun, para todas las situaciones en las que la pseudo poblacion estaba deter-
minada por algun modelo Gausiano Inverso, se encontro que con un tamano de muestra
de n = 30 y mayor, el nivel de significancia observado es igual o menor que el nivel
nominal en ambas pruebas (AICc y Vuong).
Cada una de las rutinas fueron escritas en el software R, y se presentan en los apendices
A y B.
VII
Palabras Clave: AICc, Vuong, Monte Carlo, densidad Gausiana Inversa, densidad
Weibull, R.
VIII
Abstract
The behavior of two criteria for discriminating between an Inverse Gaussian and a Weibull
density was studied. The criteria are based on the AICc statistic and Vuong’s test, and
were applied to a random sample of 67 diameters at breast height obtained from pines
growing at Estacion Forestal Experimental Zoquiapan, Mexico. Maximum likelihood es-
timates of the parameters were obtained and the computations were implemented using
the R language; numerical optimization was used to estimate the Weibull density, where-
as analytic expressions for the estimators were available for the Inverse Gaussian density.
The best model, according to the discrimination criteria, was the Inverse Gaussian den-
sity with estimates µ = 0.2576866, λ = 0.9933674 and AICc = −104.0795. Vuong’s test
rejected the null hypothesis of equal models assumption, selecting the Inverse Gaussian
over the Weibull density with a nominal significance level of α = 0.05. To study the be-
havior of the above discrimination criteria, as a function of the sample size, Monte Carlo
simulations were performed; pseudo-populations, determined by the Inverse Gaussian
or Weibull density, were considered and 10,000 random samples of sizes 10, 20, 30, 50 and
60 respectively were simulated from each of the above densities. Using each simulated
sample the maximum likelihood estimates and the AICc and Vuong’s statistic were es-
timated. When the pseudo-population corresponded to an Inverse Gaussian model, the
fraction of times that the null hypothesis was rejected, when it was indeed true, was less
or equal than the nominal significance level, for both tests, i.e. the Inverse Gaussian was
selected as the best model when the sample was generated from this model. The same
behavior was observed when the true model was the Weibull density. It was generally
found that, if the sample was generated from the Inverse Gaussian model, then a sample
size of 30 was enough to attain an empirical significance level close to the nominal one
for both, the AICc and Vuong test.
Key words: AICc, Vuong, Monte Carlo, Inverse Gausian, Weibull, R.
IX
Capıtulo 1
Introduccion
La distribucion Weibull, ası como la Gausiana Inversa, o distribucion de Wald, son
modelos de probabilidad ampliamente utilizados en situaciones en las cuales el soporte
de la variable aleatoria de interes son los numeros reales positivos. Dentro de esta gama
de situaciones se encuentran las de los datos relacionados con tiempos de vida y analisis
de supervivencia.
La distribucion Weibull, obtenida por el ingeniero Sueco Walodi Weibull, ha sido
ampliamente usada en analisis de tiempos de vida, ver por ejemplo Lawless (1982),
Kalbfleisch and Prentice (2002),o Klein and Moeschberger (2003), y ha sido estudiada ex-
tensivamente por diversos autores, entre los cuales pueden citarse a Smith and Weissman
(1985), Bain and Antle (1969), y otros mas.
En su forma simple, el modelo Weibull consta de dos parametros, uno de escala y otro
de forma, y puede considerarse uno adicional, de localizacion, pero en este caso ocurre a
menudo que la funcion de verosimilitud falla en proporcionar los estimadores de maxima
verosimilitud cuando las observaciones son pequenas y el parametro de forma es menor
que la unidad, Smith and Weissman (1985).
La densidad Gausiana Inversa, por su parte, es una densidad asociada a una variable
aleatoria continua con soporte en los reales positivos, la cual pertenece a la familia expo-
1
nencial multi-parametrica, ver Fahrmeir and Tutz (2001), o Dobson (2001). La densidad
ha sido usada en diversas aplicaciones, Jorgensen (1982), Seshadri (1993), pero parece no
haber sido usada en aplicaciones forestales.
El problema de discriminar entre modelos estadısticos competitivos ocurre cuando se
tiene un conjunto de observaciones, correspondientes a realizaciones de variables aleato-
rias observables, y se dispone de dos o mas modelos candidatos que pueden usarse para
modelar las respuestas observadas. Dadas las observaciones, la discriminacion consiste
en escoger uno de los modelos competitivos, usando como criterio una medida de la
calidad del ajuste del modelo y la comparacion entre las medidas respectivas obtenidas.
Aunque el problema de discriminar entre modelos competitivos ha sido estudiado en
algunos casos, Cox (1961), Vuong (1989), no se tiene informacion relativa al problema de
discriminar entre los modelos Gausiano inverso y Weibull y, por ende, se considera de
interes efectuar un estudio que proporcione informacion al respecto.
2
Capıtulo 2
Objetivos
En el presente trabajo se tienen los siguientes objetivos:
1. Establecer criterios estadısticos de discriminacion que permitan escoger entre los
modelos Weibull y Gausiano inverso.
2. Estudiar mediante simulacion Monte Carlo el desempeno de los criterios en dis-
cusion.
3. Mostrar una aplicacion de los criterios para la discriminacion entre dos modelos de
utilidad para la descripcion de distribuciones diametricas de arboles.
3
Capıtulo 3
Revision de Literatura
3.1. Distribucion Gausiana Inversa
La variable aleatoria X sigue la densidad Gausiana Inversa con parametros µ y λ si
fX(x | µ, λ) =[
λ
2πx3
]1/2
exp{− λ
2µ2x(x− µ)2
}(3.1)
=[
λ
2πx3
]1/2
exp{− λ
2µ
(xµ− 2 +
µ
x
)}(3.2)
donde µ > 0, λ > 0 y x > 0. Cuando X sigue la densidad anterior se anota
X ∼ IG(µ, λ). En la Figura (3.1) se muestran dos casos especıficos de tal densidad.
4
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.5
1.0
1.5
2.0
2.5
x
f X(x
)
IG(µ = 1 λ = 1 4)
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.5
1.0
1.5
2.0
2.5
x
f X(x
)
IG(µ = 1 λ = 1)
Figura 3.1: Distribucion IG(µ = 1, λ = 14 ) y IG(µ = 1,λ = 1)
La densidad (3.2) puede escribirse en cualquiera de las siguientes tres formas:
fx(x | µ, φ) =[
µφ
2πx3
]1/2
eφ exp{−1
2φ
(xµ
+µ
x
)}, (3.3)
fx(x | φ, µ) =[
λ
2πx3
]1/2
eφ exp{−1
2
(φ2xλ
+λ
x
)}, (3.4)
fx(x | α, λ) =[
λ
2πx3
]1/2
exp[−λ
2
{λx− (2λ)1/2 +
12x
}], (3.5)
a las cuales se les representara respectivamente por IG(µ, φµ), IG(λφ , λ) e IG( α2
2 , λ) re-
spectivamente. En las ecuaciones anteriores φ = λ/µ, α =√
(2µ), mientras que λ,µ,φ, y
α son todas positivas.
La funcion de distribucion acumulada correspondiente a (3.2) es
FX(x | µ, λ) = Φ
{√λ
x
(xµ− 1
)}+ e2λ/µΦ
{−
√λ
x
(xµ
+ 1)}
(3.6)
5
donde Φ(·) representa la funcion de distribucion normal estandar.
De (3.2) se obtiene la funcion generadora de momentos, es decir
ΨX(t; µ, λ) = log mX(t) =λ
µ
{1−
(1− 2µ2t
λ
)1/2}, (3.7)
donde mX(t) = E(etX), t = 1, 2, .., n, es decir, t-esimo momento; la funcion caracterıstica
correspondiente es:
exp
[λ
µ
{1−
(1− 2iµ2t
λ
)1/2}]. (3.8)
Las funciones generadoras acumuladas para (3.3),(3.4) y (3.5) respectivamente son:
ΨX(t; µ, φ) = φ
{1−
(1− 2µt
φ
)1/2}
(3.9)
ΨX(t; φ, λ) = φ
{1−
(1− 2λt
φ2
)1/2}
(3.10)
ΨX(t; α, λ) = 21/2λ
{α1/2 −
(α− t
λ
)1/2}
, (3.11)
y los primeros cuatro momentos correspondientes a (3.2) son
k1 = µ
k2 = µ3
λ
k3 = 3µ5
λ2
k4 = 5µ7
λ3
En general, para r ≥ 2
kr = 1× 3× 5× ...× (2r− 3)µ2r−1
λr−1
donde kr(.) representa el r-esimo momento de la densidad Gausiana Inversa, ver Johnson
et al. (1994).
6
3.1.1. Propiedades
Algunas propiedades de la densidad Gausiana Inversa son las siguientes:
1) Si X ∼ IG(µ, λ) y a > 0, entonces
aX ∼ IG(aµ, aλ).
2) Considere las variables X1, ..., Xn mutuamente independientes, con distribucion IG(µi, λi)
para i = 1, ..., n, entoncesn
∑i=1
(µ−2i λiXi) ∼ IG(µ, λ)
donde
µ =n
∑i=1
(λi
µi
)y λ = µ2.
3) Si µi = µ y λi = λ para i = 1, ..., n, se cumple que
λ
µ2
n
∑i=1
Xi =λ
µ2 nX ∼ IG(nλ/µ, n2λ2/µ2)
donde
X ∼ IG(µ, nλ).
4) Si las variables X1, X2, ..., Xn son mutuamente independientes e identicamente dis-
tribuidas IG(µ, λ), entonces
Q1 =nλ(X− µ)2
µ2X
y
Q−Q1 = λ
{n
∑i=1
X−1i − nX−1
}
son mutuamente independientes y Q−Q1 se distribuye como una variable aleatoria con
densidad χ2n−1. Ver Johnson et al. (1994).
3.1.2. Estimacion por Maxima Verosimilitud
Los estimadores de maxima verosimilitud (EMV) se obtienen en la forma usual; sean
X1, ..., Xn una serie de observaciones provenientes de distribuciones Gausianas Inversas
7
IG(µ, λi) para i = 1, ..., n y sea λi = wiλ0, donde λ0 es desconocida, pero wi es un valor
positivo conocido. Los EMV de µ y λ satisfacen las ecuaciones
µ =
[n
∑i=1
wiXi
] [n
∑i=1
wi
]−1
(3.12)
1λ
=1n
n
∑i=1
wi(X−1i − X−1) (3.13)
Cuando las wi son todas iguales a la unidad, entonces (3.12) y (3.13) se convierten respec-
tivamente en
µ = X = ∑ni=1 Xi
n(3.14)
1λ0
= V = n−1n
∑i=1
(X−1i − X−1) (3.15)
Puede verificarse que X es un estadıstico suficiente para µ, cuya distribucion es IG(µ, nλ0),
y Tweedie (1957) demostro que X y λ0 son independientes. Puede mostrarse tambien que
si
V = λ−10
entonces
(λ0n)V ∼ χ2n−1.
Combinando el resultado anterior y la expresion (3.15) se obtiene la siguiente relacionn
∑i=1
wi(X−1i − X−1) ∼ λ−1
0 × (χ2) (3.16)
donde χ2 denota la densidad Ji-cuadrada con n − 1 grados de libertad. A partir de la
expresion (3.16) es posible construir intervalos de confianza para λ0, [Tweedie (1957)].
Tambien note que
(n− 1)−1n
∑i=1
wi(X−1i − X−1)
es un estimador insesgado de 1/λ0, y es de hecho el estimador insesgado de mınima
varianza, Roy and Wasan (1968).
Una aproximacion para el estimador insesgado de 1/λ0 es S2/X3, donde
S2 = ∑ni=1(Xi − X−1)
n− 1.
8
3.2. Distribucion Weibull
Se dira que la variable X sigue una distribucion Weibull, si para c > 0, α > 0, y ξ0 se
cumple que:
Y =(
X− ξ0
α
)∼ exp(1), X > 0 (3.17)
donde exp(1) representa la distribucion exponencial estandar con funcion de densidad
de probabilidad
fY(y) = e−y, y > 0. (3.18)
De acuerdo con esto, la funcion de densidad de probabilidad de la variable aleatoria X es
fX(x) =cα
(x− ξ0
α
)c−1
e{(x−ξ0)/α}c, x > ξ0. (3.19)
La densidad (3.19) se denomina densidad Weibull con parametros c > 0, α > 0, y ξ0 y se
anotara X ∼ Weibull(c, α, ξ0), Johnson et al. (1994). Si X ∼ Weibull(c, α, ξ0), entonces la
funcion de distribucion acumulada es:
FX(x) = 1− e−{(x−ξ0)/α}c, x > ξ0. (3.20)
Para c > 1 la funcion de densidad Weibull en (3.19) tiende a 0 conforme x → ξ0, y hay
un solo modelo
x = α
(c− 1
c
)1/c+ ξ0. (3.21)
Este valor tiende a α + ξ0 rapidamente cuando c → ∞. Para 0 < c ≤ 1 el modelo es ξ0 y
la densidad es una funcion decreciente en x para toda x > ξ0.
De (3.20) puede ver que la mediana de la distribucion es
α(log 2)1/c
Ademas note que para cualquier valor de c
FX(ξ0 + α) = 1− e−1 .= 0.63 (3.22)
9
La forma estandar de la distribucion considera ξ0 = 0 y α = 1, y ası la funcion de densi-
dad estandar es
fX(x) = cxc−1e−xc, x > 0, c > 0, (3.23)
mientras que la correspondiente funcion de distribucion acumulada es
FX(x) = 1− e−xc, c > 0, x > 0. (3.24)
3.2.1. Propiedades
Los momentos correspondientes a la distribucion Weibull de tres parametros (3.19)
pueden obtenerse a partir de la densidad (3.23)usando la transformacion X′= ξ0 + αX.
Haciendo esto se obtiene
E[X] = Γ(
1c
+ 1)
Var(X) = Γ(
2c
+ 1)−
{Γ
(1c
+ 1)}2
.
Cuando c es grande, las expresiones anteriores se pueden aproximar mediante
E[X] = 1− γ
c+
12c2
(π2
6+ γ2
)' 1− 0.57722
c+
0.98905c2
Var(X) ' π2
6c2 =0.64493
c2
donde γ es la constante de Euler definida como
γ = lımn→∞
[n
∑k=1
1k− log(n)
]=
∫ ∞
1
(1bxc −
1x
)≈ 0.57721566...
para la cual bxc se define como
bxc = max {k ∈ Z | k ≤ x}
donde Z representa el conjunto de los enteros positivos. En las expresiones anteriores,
Γ(.) representa la funcion Gama definida como
Γ(t) =∫ ∞
0xt−1e−xdx t > 0.
10
Sean X1, X2, ..., Xn variables aleatorias mutuamente independientes e identicamente
distribuidas tales que Xi ∼ Weibull(c, α, ξ0) con funcion de distribucion acumulada dada
por (3.20), y sean X(1) ≤ X(2) ≤ ... ≤ X(n)las estadısticas de orden obtenidas de las n
variables anteriores. La funcion de densidad del estadıstico mas pequeno X(1) es
fX(1)(x) = n {1− FX(x)}n−1 fX(x) (3.25)
=ncα
(x− ξ0
α
)c−1
e−n{(x−ξ0)/α}c, x > ξ0. (3.26)
De la ecuacion anterior se sigue facilmente que X(1) tiene tambien distribucion Weibull,
excepto que ahora α es reemplazada por αn−1/c. La funcion de densidad de X(r), para
1 ≤ r ≤ n, es
fX(r)(x) =
n!(r− 1)!(n− r)!
(1− e−xc)r−1e−xc(n−r+1)cxc−1, x > 0. (3.27)
De (3.27), se obtiene el k-esimo momento de X(r)
E[(X(r))
k]
=n!
(r− 1)!(n− r)!
∫ ∞
0xk
{1− exc
}r−1e−xc(n−r+1)cxc−1dx
=n!
(r− 1)!(n− r)!
r−1
∑i=0
(−1)i(
r− 1i
) ∫ ∞
0e−xc(n−r+i+1)xkcxc−1dx
=n!
(r− 1)!(n− r)!Γ
(1 +
kc
) r−1
∑i=0
(−1)i(r−1i )
(n− r + i + 1)1+(k/c)
ver por ejemplo Johnson et al. (1994).
3.2.2. Estimacion por Maxima Verosimilitud
La situacion mas comun es cuando el umbral ξ0 se considera conocido pero c y α
desconocidas, por lo cual deben de ser estimados; dos ejemplos de esta distribucion se
muestran la Figura 3.2. Dada una muestra aleatoria de tamano n de una distribucion
Weibull de dos parametros con funcion de distribucion
fX(x) =cα
(xα
)c−1e−(x/α)c
, x > 0, (3.28)
11
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.2
0.4
0.6
0.8
x
f X(x
)
Weibull(c = 1.5 α = 1.25)
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.2
0.4
0.6
0.8
x
f X(x
)
Weibull(c = 2 α = 1.25)
Figura 3.2: Distribucion Weibull(c = 1.5, α = 1.25) y Weibull(c = 2,α = 1.25) respectivamente
(con ξ0 = 0)
los estimadores de maxima verosimilitud c y α satisfacen las ecuaciones
α =
{1n
n
∑i=1
Xci
}1/c
(3.29)
y
c =
{n
∑i=1
Xci log Xi
} {n
∑i=1
Xci
}−1
− 1n
n
∑i=1
log Xi
−1
. (3.30)
Si ξ0 no es igual a cero, entonces cada Xi se remplaza por Xi − ξ0 en las ecuaciones
anteriores. El valor c se obtiene al resolver (3.30) y al usarlo en (3.29) se obtiene α; estas
soluciones se obtienen mediante metodos numericos ya que no existe solucion analıtica.
Debe notarse que si c fuese conocido igual a c, entonces α en (3.29) debe ser el estimador
de maxima verosimilitud de α.
Si el parametro ξ0 es tambien desconocido, entonces los estimadores de maxima verosimil-
12
itud c, α y ξ0 satisfacen las ecuaciones
α =
{1n
n
∑i=1
(Xi − ξ0)c
}1/c
(3.31)
c =
{n
∑i=1
(Xi − ξ0)c log(Xi − ξ0)
} {n
∑i=1
(Xi − ξ0)c
}−1
− 1n
n
∑i=1
log(Xi − ξ0)
−1
(3.32)
y
(c− 1)n
∑i=1
(Xi − ξ0)−1 = cα−cn
∑i=1
(Xi − ξ0)c−1 (3.33)
Si el valor ξ0 satisface (3.31)-(3.33) y es mas grande que X(1), entonces este es el esti-
mador de maxima verosimilitud de ξ0. Ademas si el EMV ξ0 es tal que ξ0 = X(1), entonces
las expresiones en (3.31) y (3.32) son satisfechas al usar α y c. Johnson et al. (1994)
3.3. Informacion de Kullback-Leibler o Distancia Entre dos
Modelos
Suponga que f y g son dos modelos de probabilidad completamente conocidos, de los
cuales f representa la ”realidad o la verdad” y se denotara a g como un modelo de aprox-
imacion en terminos de una distribucion de probabilidades. De acuerdo con lo anterior,
Kullback y Leibler definieron la informacion (K-L) entre los modelos f y g como
I( f , g) =∫
f (x) log(
f (x)g(x | θ)
)dx
donde log denota el logaritmo natural. De acuerdo con su definicion, la notacion I( f , g)
representa ınformacion perdida cuando se usa g para aproximar a f ”. Como una inter-
pretacion heurıstica, ”I( f , g) es la distancia entre los modelos g y f ”.
Para escoger entre dos modelos candidatos, un principio consiste en buscar el modelo
que pierda la menor cantidad de informacion posible; esto es equivalente a minimizar
13
I( f , g) con respecto a g. La densidad f se asume completamente conocida y solo se per-
mite variar a g sobre todo el espacio de modelos posibles, indizado por θ. La distancia
Kullback-Leibler (K-L) es una medida de ineficiencia al suponer que la distribucion es g
cuando la verdadera distribucion es f .
La distancia de Kullback-Leibler puede ser conceptualizada como una distancia di-
rigida entre dos modelos, por decir f y g. Estrictamente hablando es una medida de
”discrepancia”, ya que no es una distancia puesto que la medida de f a g no es la misma
que la medida de g a f .
A un nivel heurıstico, ınformacion”se define como (loge( f (x)) para funciones de
densidad de probabilidad continua. La informacion de Kullback-Leibler es un tipo de
ınformacion cruzada”. El lado derecho es el valor esperado del logaritmo de la razon de
dos distribuciones ( f y g) y puede visualizarse como el promedio, con respecto a f , de
log( f /g).
La distancia de K-L (I( f , g)) siempre es positiva, excepto cuando las dos distribu-
ciones f y g son identicas, es decir,
I( f , g) = 0 ⇔ f (x) = g(x),
Burnham and Anderson (2002).
3.3.1. La realidad f , considerada como constante
Todo lo anterior hace pensar que se debe conocer en su totalidad las distribuciones
f y g para poder calcular la distancia K-L entre ambos modelos. Sin embargo, si solo
se considera la distancia relativa entre ambos modelos, conocer en su totalidad ambos
modelos es inutil, de donde I( f , g) puede escribirse equivalentemente como
I( f , g) =∫
f (x) log( f (x))dx−∫
f (x) log(g(x | θ))dx.
14
Note que cada uno de los dos terminos del lado derecho de la ecuacion anterior es una
esperanza estadıstica con respecto a f . Por lo tanto la distancia K-L puede ser expresada
como la diferencia de dos esperanzas.
I( f , g) = E f [log( f (X))]− E f [log(g(X | θ))]
cada una de ellas con respecto a f . Esta ultima expresion facilita la derivacion del Criterio
de Informacion de Akaike (AIC).
La esperanza E f [log( f (X))] es una constante que depende solo de la distribucion
verdadera desconocida, es decir, se desconoce en el analisis a f , por lo tanto, tratan-
do este termino desconocido como una constante, es posible calcular una medida di-
rigida relativa, Burnham and Anderson (2002). Claramente, si se calcula la esperanza
E f [log(g(X | θ))], se puede estimar I( f , g), excepto por una constante C, concretamente
E f [log( f (X))],
I( f , g) = C− E f [log(g(X | θ))]
o
I( f , g)− C = −E f [log(g(X | θ))].
El termino (I( f , g) − C) es una distancia relativa entre los modelos f y g; entonces,
E f [log(g(X | θ))] se convierte en la medida de calidad de interes para la seleccion de un
mejor modelo.
Para dos modelos g1 y g2, si
I( f , g1) < I( f , g2)
entonces g1 es mejor, luego
I( f , g1)− C < I( f , g2)− C
y por lo tanto
−E f [log(g1(X | θ))] < −E f [log(g2(X | θ)).
15
Mas aun
I( f , g2)− I( f , g1) ≡ −E f [log(g2(X | θ))] + E f [log(g1(X | θ))]
y entonces se sabe que g1 es mejor modelo que g2. Sin conocer C no es posible saber
absolutamente que tan buen modelo es g1, pero es posible identificar el hecho de que es
mejor modelo que g2.
Tıpicamente, se postulan modelos a-priori gi(x | θ) y se desea seleccionar el mejor
entre ellos para tomarlo como base para el analisis e inferencia. Es decir se selecciona
el modelo que tenga la menor distancia. Alternativamente, se selecciona al modelo que
pierda la menor cantidad de informacion con respecto a la realidad. El concepto de real-
idad f , se convierte en una constante y no es necesario conocerla. En la practica, solo es
posible obtener un estimador relativo de la distancia K-L para cada uno de los modelos
de aproximacion gi(x | θ), Burnham and Anderson (2002).
3.4. Criterio de Informacion de Akaike
Akaike (1973) encontro una manera de calcular la informacion K-L basado en el loga-
ritmo de la funcion de verosimilitud en su punto maximo. Dado un modelo estructurado
para el cual existe un unico valor de θ que minimiza la distancia K-L (I( f , g)), el mini-
mizador depende de f , de la estructura del modelo g, del espacio de parametros, y del
espacio muestral (es decir, de la estructura y naturaleza de los datos observados). En este
sentido, hay un valor ”verdadero”de θ bajo la estimacion de MV, sea este valor igual a θ0.
Entonces θ0 es el mejor valor de θ para el modelo g; en efecto, la perdida de informacion
de K-L es minimizada por θ0.
En el analisis de datos los parametros del modelo deben estimarse, y hay general-
mente incertidumbre sobre estas estimaciones. Los modelos basados en estimaciones de
los parametros, es decir θ y no θ, representan una gran distincion del caso en el que los
parametros son conocidos. Esta distincion afecta la forma en que se usa la distancia de
16
K-L como base para la seleccion del modelo. La diferencia entre tener θ o θ0 y tener el
estimador θ es muy importante, y basicamente cambia el criterio de seleccion del modelo
a minimizar la distancia K-L esperada, en vez de minimizar la distancia conocida K-L
sobre el conjunto R conformado por los modelos considerados.
Aunque es tentador solo calcular EYEX[log(g(X | θ(y)))
]por medio de la minimizacion
de log(L(θ) | datos) para cada gi. Akaike (1973) mostro que maximizar el logaritmo de la
funcion de verosimilitud genera un estimador sesgado positivamente del modelo objeti-
vo. Tambien encontro que bajo ciertas condiciones este sesgo es aproximadamente igual
a K, el numero de parametros estimables en el modelo aproximado. Este es un resultado
asintotico de fundamental importancia [Burnham and Anderson (2002)]:
Un estimador aproximadamente insesgado de
EYEX[log(g(X | θ)))
]
para muestras grandes y ”buenos”modelos, es decir, modelos adecuados o que propicien
una buena estimacion es
log(L(θ | datos))− K.
Este resultado es equivalente a
log(L(θ | datos))− K = constante− Eθ [I( f , g)]
donde g = g(· | θ). Para mas detalles sobre el termino de correccion del sesgo (K) ver
Takeuchi (1976).
Akaike (1973) definio un criterio de informacion llamado AIC; multiplicando log(L(θ |y))− K por -2 obtuvo
AIC = −2 log(L(θ | y)) + 2k.
Por lo tanto, mas que tener una medida simple de la distancia directa entre dos modelos
(es decir la distancia K-L), se tiene en lugar un estimador de la esperanza de la distancia
17
relativa entre el modelo candidato y el mecanismo desconocido (quizas de dimension
infinita) que en realidad genero los datos.
El termino log(L(θ | y)) es un valor numerico del logaritmo de la funcion de verosimil-
itud en su punto maximo y este punto maximo corresponde a los valores de los esti-
madores de maxima verosimilitud. El numero de parametros estimados es denotado por
K. En algunas clases de modelos existen excepcionalmente parametros que no son es-
timables a partir de los datos, y no son contados en K. Por ejemplo la no estimabilidad
ocurre en el analisis de datos generados por conteos cuando una celda no tiene observa-
ciones, por lo tanto un parametro no es estimable. En la practica, se calcula el AIC para
cada uno de los modelos candidatos y se selecciona el que tenga el menor valor de AIC.
Este es el modelo ”mas cercano” al modelo desconocido que en realidad genero los datos,
dentro de todos los modelos candidatos considerados en la discriminacion.
Por supuesto, dentro de todos los modelos considerados en la discriminacion el AIC
seleccionara el mejor de ellos dentro de este conjunto, y si todos los modelos son muy
pobres respecto a la aproximacion al modelo verdadero, el criterio AIC seleccionara el
mejor de ellos, pero incluso este mejor modelo relativamente sera pobre; es por esta razon
que se debe se hacer una buena seleccion de los modelos a discriminar, con el unico
proposito de seleccionar un modelo adecuado.
El criterio I( f , g) puede hacerse mas pequeno anadiendo mas parametros conocidos
en el modelo aproximado g, por lo tanto, para un conjunto de datos fijos, la adicion de
parametros en el modelo gi le permitira ser muy cercano a f . Sin embargo, cuando estos
parametros deben estimarse se agrega incertidumbre al calculo de la distancia relativa
de K-L. En algun momento, la adicion de un parametro mas tendra el efecto contrario
al deseado (reducir Eθ[I( f ,g)]). En esa situacion, la estimacion de la distancia relativa de
K-L se incrementa debido al ¨ruido” en los parametros estimados que en realidad no son
necesarios para conseguir un buen modelo. Este fenomeno puede ser observado mini-
18
mizando el criterio de informacion
AIC = −2 log(L(θ | y)) + 2K
donde el primer termino del lado derecho decrece conforme mas parametros se adicionan
al modelo aproximado; mientras que el segundo termino (2K) se incrementa conforme
se incrementa el numero de parametros al modelo aproximado. Algunos investigadores
han considerado que K sea una medida de ´´complejidad´´, pero esto no es necesario,
aun cuando no es irracional. Considere a K principalmente como una simple expresion
del sesgo asintotico en el logaritmo de la funcion de verosimilitud, como un estimador
de EYEX[log(g(x | θ)(y)))
]Shibata (1983), Linhart and Zuchini (1986), Bozdogan (1987),
y Sakamoto (1991).
3.4.1. Criterio de Informacion de segundo orden
El AIC puede operar mal si el numero de parametros es muy grande en relacion con
el tamano de la muestra. Sugiura (1978), Sakamoto (1991) derivaron una variante de se-
gundo orden del AIC llamado AICc.
Hurvich y Tsai (1989) estudiaron el comportamiento para muestras pequenas que re-
sulto en un criterio llamado AICc
AICc = −2 log(L(θ | y)) + 2K(
nn− K− 1
)
donde el termino 2K es multiplicado por n/(n− K − 1) y se llama factor de correccion.
Este puede ser escrito como:
AICc = −2 log(L(θ | y)) + 2K +2K(K + 1)n− K− 1
o equivalentemente
AICc = AIC +2K(K + 1)n− K− 1
19
donde n es el tamano de muestra. A menos que el tamano de muestra sea grande con
respecto al numero de parametros estimados, se recomienda el uso del AICc.
El criterio AICc simplemente tiene adicionado un termino de correccion. Si n es grande
con respecto a K, entonces la correccion de segundo orden es despreciable y el criterio AIC
funciona de forma correcta. Bedrick and Tsai (1994) proveen una mejora adicional pero
es complicada de calcular (para mas detalles verHurvich and Tsai (1991) y Hurvich and
Tsai (995a) y Hurvich and Tsai (995b), y Hurvich et al. (1990)). En general, se recomienda
el uso del AICc cuando la razon n/K es pequena (¡40). Llegar a una decision sobre el uso
de AIC y AICc dependera solo del tamano de la razon n/K. Si la razon n/K es suficiente-
mente grande, entonces AIC y AICc son similares y seleccionaran el mismo modelo. Debe
usarse AIC o AICc consistentemente en un analisis, en vez de mezclar ambos criterios.
Pocos paquetes de software proveen valores de AICc, pero estos pueden ser calculados
facilmente.
3.5. Prueba de Vuong
La prueba de Vuong considera la eleccion entre dos modelos no anidados, es decir,
modelos tales que uno no puede ser expresado en terminos del otro y viceversa. Sean Fθ
y Gγ modelos con densidades f (y | xi, θ) y g(y | xi, γ).
El estadıstico LR para discriminar entre el modelo Fθ contra Gγ es
LR(θ, γ) ≡ L f (θ)−Lg(γ) =n
∑i=1
logf (y | xi, θ)g(y | xi, γ)
donde θ y γ son los estimadores de maxima verosimilitud correspondientes a las densi-
dades Fθ y Gγ respectivamente.
En el caso especial donde los modelos son anidados, Fθ ⊂ Gγ, se obtiene el resultado
general que establece que la variables aleatoria 2 LR(θ,γ) se distribuye como Ji-cuadrada
bajo la hipotesis nula Gy = Fθ. Considere la prueba para modelos no anidados, Fθ * Gy
20
y Gy * Fθ, entonces la distribucion ji-cuadrada no es apropiada, Cameron and Trivedi
(1998).
Cox (1961,1962) propuso la solucion al problema mediante la aplicacion del Teorema
Central de Lımite, bajo la suposicion de que Fθ es el modelo verdadero. Este enfoque es
difıcil de implementar para el analisis, ya que se requiere obtener E f [log [ f (y | xi, θ)/g(y | xi, γ)]];
donde, E f denota la esperanza con respecto a la densidad f (y | xi, θ). Ademas, si un es-
tadıstico similar se obtiene con los papeles de Fθ y Gγ invertidos, es posible encontrar
ambos casos, que el modelo Fθ es rechazado en favor de Gγ, y que el modelo Gγ es rec-
hazado en favor de Fθ.
Voung (1989) en lugar de discriminar entre modelos usando sus distancias con respec-
to al proceso real que genero los datos, con densidad h0(y | xi), propuso el estadıstico
TLR,NN =AB
=1√n
LR(θ, γ)/w2
donde
A =1√n
n
∑i=1
lnf (y | xi, θ)g(y | xi, γ)
B =
1n
n
∑i=1
(ln
f (y | xi, θ)g(y | xi, γ)
)2
−(
1n
n
∑i=1
lnf (y | xi, θ)g(y | xi, γ)
)2
y
w2 =1n
n
∑i=1
(ln
f (y | xi, θ)g(y | xi, γ)
)2
−(
1n
n
∑i=1
lnf (y | xi, θ)g(y | xi, γ)
)2
,
es una estimacion de la varianza de 1√n LR(θ, γ).Para modelos estrictamente no anidados
TLR,NN converge en distribucion a una N(0, 1) Cameron and Trivedi (1998), es decir,
TLR,NN d−→ N(0, 1)
bajo
H0 : Eh
[log
f (y | xi, θ)g(y | xi, γ)
]= 0
21
donde Eh denota la esperanza con respecto a h0(y | xi). Por lo tanto, se rechaza la hipote-
sis nula de equivalencia de modelos en favor de Fθ con un nivel de significancia α, si
TLR,NN > zα (o si TLR,NN < −zα). La hipotesis nula no se rechaza si | TLR,NN |≤ z α2,
Cameron and Trivedi (1998). Donde zα es el cuantil superior α de la densidad N(0, 1), es
decir, el valor zα, tal que P(z ≥ zα) = α.
3.6. Metodo de Simulacion de Monte Carlo
El metodo de Monte Carlo es un metodo numerico que permite resolver, en forma
aproximada y mediante la simulacion de variables aleatorias, problemas matematicos. El
metodo fue bautizado ası por su analogıa con los juegos de ruleta de los casinos, el mas
celebre de los cuales es el de Monte Carlo, cuya construccion fue propuesta en 1856 por
el prıncipe Carlos III de Monaco.
La importancia actual del metodo Monte Carlo se basa en la existencia de problemas
que tienen difıcil solucion por metodos exclusivamente analıticos o numericos, pero que
pueden asociarse a un modelo probabilıstico artificial, el cual puede estudiarse en forma
sencilla simulando variables aleatorias correspondientes al mismo. La idea fundamental
detras de la simulacion de Monte Carlo para realizar inferencia, es que las caracterısticas
de un estadıstico pueden ser observadas generando muestras aleatorias de la poblacion
de interes repetidamente y observando el comportamiento del estadıstico sobre todas las
muestras simuladas. En otras palabras, calcular la distribucion del estadıstico tomando
muestras al azar de la poblacion y guardando los valores del estadıstico para cada una
de las muestras. Los valores observados del estadıstico para cada muestra se usan para
calcular la distribucion de este.
El primer paso para realizar la simulacion de Monte Carlo consiste en definir una
pseudo poblacion que debe suponerse representa a la poblacion legıtima en todos sus
aspectos relevantes. El uso de la palabra pseudo enfatiza el hecho de que se obtienen
22
muestras mediante el uso de una computadora y de numeros pseudo aleatorios.
La pseudo poblacion debe ser tal que sea posible tomar muestras usando la com-
putadora. El procedimiento basico de Monte Carlo para estudiar propiedades de un esti-
mador, consta de los siguientes pasos
1. Determinar la pseudo poblacion o modelo que representa la verdadera poblacion
de interes.
2. Usar un metodo de muestreo para muestrear la pseudo poblacion.
3. Calcular el valor del estadıstico y almacenarlo.
4. Repetir los pasos 2 y 3 M ocasiones.
5. Usar los M valores obtenidos en el paso 4 para estudiar empıricamente la distribu-
cion del estadıstico.
Es importante tener en mente que cuando se muestrea la pseudo poblacion, el analista
debe de asegurar que todas las caracterıstica relevantes reflejen la situacion estadıstica.
Por ejemplo, el mismo tamano de muestra y estrategia de muestreo se deben de usar
cuando se trata de comprender el rendimiento de una estadıstica. Esto quiere decir que la
distribucion de la estadıstica obtenida vıa simulacion de Monte Carlo es eficaz solamente
para las condiciones del procedimiento de muestreo y las suposiciones sobre la pseudo
poblacion, Wendy and Angel (2002).
23
Capıtulo 4
Metodologıa
Se definieron los objetivos para el desarrollo de la discriminacion entre las distribu-
ciones Weibull y Gausiana Inversa, y se llevo a cabo una revision de literatura para las
distribuciones Weibull y Gausiana Inversa consideradas en el presente estudio, detal-
lando las funciones de densidad, momentos, estimadores y propiedades sobre variables
aleatorias para cada una de las distribuciones.
Ası mismo, se realizo una revision bibliografica sobre criterios de discriminacion en-
tre distribuciones candidatas a modelar cierto proceso que genero una serie de obser-
vaciones, ası como sus diferentes aplicaciones; de igual manera se realizo una revision
bibliografica de las tecnicas de validacion de estadısticas, como lo es la simulacion de
Monte Carlo. Recabada toda esta informacion se procedio a la aplicacion de los criterios
analizados en la revision bibliografica a una serie de observaciones reales provenientes
de una muestra aleatoria formada por mediciones de diametros normales de arboles de
pino.
Despues de la revision bibliografica se procedio a un estudio de simulacion de Monte
Carlo y al analisis de un conjunto de datos reales para ejemplificar el uso de las tecnicas.
Para efectuar las simulaciones de Monte Carlo, el proceso consistio en simular obser-
vaciones de un conjunto de poblaciones completamente conocidas; a estas observaciones
24
se les aplicaron los estadısticos incluidos en el analisis para cada una de las poblaciones
simuladas, y posteriormente, con el resultado de la simulacion, se observo el compor-
tamiento de los estadısticos (AIC y Vuong).
Para mostrar la aplicacion de los criterios descritos, se considero un conjunto de diame-
tros normales conformado por n = 67 observaciones el cual se muestra en el Cuadro 4.1.
Las observaciones, de diametros normales (medidos a 1.3 m de altura y expresadas en
metros) corresponden al mismo numero de arboles seleccionados de manera aleatoria. El
area en la cual fueron medidos estos arboles se ubica dentro del Parque Nacional Zoquia-
pan, y es conocida como Estacion Experimental de Ensenanza e Investigacion de Zoquia-
pan. La estacion experimental se localiza en los lımites del Estado de Mexico y Puebla, en
la region montanosa conocida como Sierra Nevada, aproximadamente entre los paralelos
19◦12’30” y 19◦20’00” de latitud Norte, y entre los meridianos 98◦42’30” y 98◦30’00” de
longitud Oeste, en la cual predomina bosque boreal y en el subtipo bosque de pino, los
arboles predominantes del bosque boreal son el oyamel (Abies sp.), ocote (Pinus spp.),
aile (Alnus spp.), pinabete (Pseudotsuga spp.) y enebros alpinos (Juniperus spp.), el sub-
piso esta constituido por zacatones (Festuca, Muhlenbergia y Agrostis) y se encuentra
confinada en la zona alta de la cordillera volcanica que cruza al paıs, ver Jose et al. (1981).
25
Cuadro 4.1: Diametros normales de n = 67 arboles de pino en la estacion forestal experi-
mental Zoquiapan.
Obs. Diametro
(m)
Obs. Diametro
(m)
Obs. Diametro
(m)
1 0.22 24 0.19 47 0.235
2 0.25 25 0.17 48 0.385
3 0.13 26 0.23 49 0.36
4 0.13 27 0.13 50 0.175
5 0.3 28 0.13 51 0.22
6 0.21 29 0.65 52 0.49
7 0.185 30 0.17 53 0.36
8 0.155 31 0.205 54 0.2
9 0.14 32 0.13 55 0.16
10 0.385 33 0.165 56 0.58
11 0.105 34 0.14 57 0.21
12 0.93 35 0.13 58 0.2
13 0.245 36 0.275 59 0.38
14 0.17 37 0.6 60 0.4
15 0.225 38 0.6 61 0.17
16 0.23 39 0.18 62 0.2
17 0.41 40 0.18 63 0.13
18 0.375 41 0.17 64 0.26
19 0.245 42 0.21 65 0.59
20 0.2 43 0.16 66 0.3
21 0.15 44 0.225 67 0.12
22 0.19 45 0.135
23 0.135 46 0.25
26
Capıtulo 5
Aplicacion, Simulacion y Discusion
5.1. Aplicacion
Para una aplicacion de los criterios de discriminacion en una aplicacion forestal real
considere los datos contenidos en el Cuadro 4.1. En la Figura 5.1 se observa el compor-
tamiento de tales diametros.
X
Fre
cuen
cia
0.0 0.2 0.4 0.6 0.8 1.0
02
46
8
Figura 5.1: Histograma de n = 67 observaciones de diametros normales
27
Como es posible notar, la distribucion del histograma presenta cierta asimetrıa y una
forma semejante a la que las distribuciones Weibull y Gausiana Inversa pueden presentar,
con ciertos valores particulares de los parametros. Es por esta razon y por el hecho de que
la variable aleatoria que representa Diametro es estrictamente positiva que los modelos
Weibull y Gausiano inverso se consideran buenos modelos candidatos.
5.1.1. Estimacion Distribucion Weibull
La estimacion de la distribucion Weibull se realiza mediante el procedimiento de
maxima verosimilitud. Considere la muestra aleatoria X1, X2, ..., Xn donde Xi ∼ Weibull(c, α),
con funcion de densidad como (3.28). La funcion de verosimilitud para de la muestra an-
terior es
`(θ) = L( fX(x)) =( c
α
)n(
n
∏i=1
xi
α
)c−1
exp
(−
n
∑i=1
(xi/α)c
)
donde θ = (c, α)
Tomando el logaritmo natural de la funcion de verosimilitud se obtiene
`(θ) = log(L( fX(x))) = n log( c
α
)+ (c− 1)
n
∑i=1
log(xi
α
)−
n
∑i=1
(xi
α
)c
Si la expresion anterior se deriva con respecto a c y α, y las expresiones resultantes se
igual a cero, la solucion de estas generan los estimadores de maxima verosimilitud de
c y α, como se muestra en (3.29) y (3.30). Para maximizar el logaritmo de la funcion de
verosimilitud se utilizo el procedimiento nlm() del software R, el cual minimiza fun-
ciones continuas, diferenciables (hasta de orden dos) y con un solo punto critico, por lo
que para optimizar la funcion de verosimilitud se proporciona − log(`(θ)) y ası de esta
manera el procedimiento nlm() maximiza tal funcion.
El procedimiento nlm() necesita que se le especifique e ingrese la funcion a optimizar
y los valores de inicio de los parametros de la siguiente manera,
nlm( f , p)
28
donde el termino f representa la funcion a minimizar (en este caso se maximizo la forma
ya mencionada) y el termino p, los valores de inicio para realizar la optimizacion. Para
esto se realizo la programacion de la funcion de verosimilitud de la siguiente manera
> lfmv<-function(p,X)
+ {
+ cc<-p[1]
+ a<-p[2]
+ f<-n*(log(cc/a))+(cc-1)*sum(log(X/a))-sum((X/a)**cc)
+ return(-f)
+ }
>
donde el termino p es un vector que contiene ambos parametros de la distribucion, en la
primer posicion se encuentra el parametro c y en la segunda el parametro α; el objeto X
representan los valores de la muestra con los que se realizara la optimizacion. Finalmente
el termino return(− f ) proporciona el valor de la funcion.
Dada la funcion a maximizar y los valores de inicio iguales a (0.2, 0.1) para c y α
respectivamente, se evaluo la funcion nlm() de la siguiente forma
> estimacion<-nlm(lfmv,c(0.2,0.1))
donde el objeto estimacion contiene los parametros ajustados por maxima verosimilitud,
ademas de otros componentes que el software proporciona. Las estimaciones obtenidas
se extraen del objeto estimacion agregando al final del objeto el signo $ y la palabra
estimate, de la siguiente manera, >estimacion$estimate, con este procedimiento se ob-
tuvo las siguientes estimaciones basada en la muestra observada
c = 1.8291474
29
y
α = 0.2925577.
De acuerdo con estos valores estimados la funcion de densidad estimada Weibull se
muestra en la Figura 5.2
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
x
f X(x
)
Weibull(c = 1.829147 α = 0.292557)
Figura 5.2: Distribucion estimada Weibull(c = 1.8291474, α = 0.292557)
En comparacion con el comportamiento de la muestra se tiene la Figura 5.3 que con-
trasta la estimacion del modelo Weibull, con el comportamiento de la muestra
30
0.0 0.2 0.4 0.6 0.8 1.0
02
46
8
x
f X(x
)
Weibull(c = 1.829147 α = 0.292557)
0.0 0.2 0.4 0.6 0.8 1.0
02
46
8
Figura 5.3: Distribucion estimada Weibull(c = 1.8291474, α = 0.292557) vs histograma muestral
Se puede observar que la estimacion realizada por el modelo Weibull aparentemente
resulta malo. Lo cual sera determinado por el criterio AICc y Vuong mas adelante.
5.1.2. Estimacion Distribucion Gausiana Inversa
La estimacion de la distribucion Gausiana Inversa basada en la muestra observada se
obtuvo de igual forma que para la distribucion Weibull, es decir, por maxima verosimil-
itud. Considere la muestra aleatoria X1, X2, ..., Xn, donde Xi ∼ IG(µ, λ), con funcion de
densidad como en (3.2), entonces la correspondiente funcion de verosimilitud esta dada
por
L( fX(x)) =(
λ
2π
)n/2(
n
∏i=1
1x3
i
)1/2
exp
[− λ
2µ2
n
∑i=1
(xi − µ)2
xi
]
Derivando la expresion con respecto a µ y λ respectivamente se obtiene dos expre-
siones que al ser igualadas a cero y resolver para µ y λ generan los estimadores de maxi-
ma verosimilitud µ y λ.
31
µ = X = ∑ni=1 Xi
n
y
λ =1
n−1 ∑ni=1(X−1
i − X−1).
Sustituyendo valores para la muestra (diametros normales) se obtiene
µ = 0.2576866
y
λ = 0.9933674
en consecuencia, la grafica de la densidad estimada Gausiana Inversa se muestra en la
figura (5.4)
0.0 0.2 0.4 0.6 0.8 1.0
01
23
4
x
f X(x
)
IG(µ = 0.2576866 λ = 0.9933674)
Figura 5.4: Distribucion estimada IG(µ = 0.2576866, λ = 0.9933674)
32
5.1.3. Criterio de Informacion AICc
La discriminacion en el presente analisis hara uso de criterio AIC modificado por el
tamano de muestra (llamada AICc) y se define como
AICc = −2 log(L(θ) | y) + 2K +2K(K + 1)n− K− 1
en donde el termino log(L(θ) | y) representa el punto maximo de la funcion de verosimil-
itud evaluada en los estimadores de maxima verosimilitud. El valor maximo del logar-
itmo de la funcion de verosimilitud, ası como los parametros estimados se obtienen al
ejecutar el procedimiento nlm() del software R. El valor correspondiente del AICc para
la distribucion Gausiana Inversa y el correspondiente codigo en R se muestra en el Anexo
1. El valor de AICc para la distribucion Weibull es AICc = −78.7921.
Cuadro 5.1: Valores estimados de AICc para cada una de las densidades
Densidad AICc Estimaciones Estimaciones
Weibull -78.7921 c = 1.8291474 α = 0.292557
Gausiana I. -104.0795 µ = 0.2576866 λ = 0.9933674
5.1.4. Estadıstico de Vuong
El proposito basico del estadıstico de Vuong en la seleccion de modelos es contrastar
la hipotesis
H0 : Eh
[ln
f (y | xi, θ)g(y | xi, γ)
]= 0
Para llevar a cabo la prueba de hipotesis denotaremos a la distribucion Gausiana Inversa
como f (y | xi, θ), y al modelo Weibull como g(y | xi, γ). Para contrastar la hipotesis se cal-
culo el valor del estadıstico TLR,NN = 22.49689, y el valor del percentil z0.05 = 1.644854; de
acuerdo con la regla de decision se rechazo la hipotesis nula, de igualdad de modelos, en
favor del modelo Fθ, que para este caso representa el modelo determinado por la distribu-
cion Gausiana Inversa con parametros estimados µ = 0.2576866 y λ = 0.9933675 como
33
mejor modelo, sobre la distribucion Weibull con parametros c = 1.8291474 y α = 0.292557
denotada por g(y | xi, γ). Notese que al igual que la discriminacion realizada por el crite-
rio de AICc, el criterio de Vuong selecciono como mejor modelo la distribucion estimada
Gausiana Inversa. El codigo propio al software R con el cual se realizo la prueba se pre-
senta en el Anexo 1.
5.1.5. Resultados
De acuerdo con el criterio de AICc, el cual establece que el mejor modelo para aprox-
imarse al que en realidad genero los datos, es aquel que tenga el menor valor de AICc,
de acuerdo con esto y con nuestros resultados concentrados en el Cuadro 5.1, el mejor
modelo resulta ser la distribucion Gausiana Inversa con parametros µ = 0.2576866 y
λ = 0.9933674.
Al igual que el criterio del AICc el estadıstico de Vuong selecciono como mejor modelo
al Gausiana inverso. Como se muestra en la Figura 5.5, la eleccion del modelo Gausiano
inverso como el mejor, en comparacion con la estimacion de la distribucion Weibull, es
justificado graficamente, es decir, la estimacion realizada por la distribucion Gausiana In-
versa resulta ser semejante al comportamiento de las frecuencias observadas en la mues-
tra.
34
0.0 0.2 0.4 0.6 0.8 1.0
02
46
8
0.0 0.2 0.4 0.6 0.8 1.0
02
46
8
x
f X(x
)
IG(µ = 0.2576866 λ = 0.9933674)
Figura 5.5: Distribucion estimada IG(µ = 0.2576866, λ = 0.9933674) vs histograma muestral
Con la finalidad de validar la discriminacion, considere la prueba de bondad de ajuste
de Kolmogorov-Smirnov, que establece, bajo la hipotesis nula, que la distribucion de la
muestra es F0.
La hipotesis que se prueba es:
H0: La funcion de distribucion de donde la muestra aleatoria proviene es F0
H1: La funcion de distribucion de donde la muestra aleatoria proviene no es F0
El procedimiento es el siguiente;
1) A partir de los valores observados x1, x2, ..., xn se calcula
dn = max | Fn(xi)− F0(xi) |
donde
Fn(xi) =1n
n
∑i=1
I(−∞,xi](xi)
35
y F0 es la funcion de distribucion especificada en la hipotesis nula.
2) Se rechaza H0 con un nivel de significancia α, si dn > k1−α, donde k1−α es tal que se
cumple
α ≈ 1− H(√
nk1−α) = 1− 2n
∑i=1
(−1)i−1e−2ni2k21−α
Considerando F0 = IG(µ = 0.2576866, λ = 0.9933674) y la muestra conformada por los
n = 67 diametros normales, se tiene que
dn = max | Fn(xi)− F0(xi) |= 0.1445098.
Los valores crıticos para k1−α, cuando n > 50 y α = 0.05, estan determinados por 1.360√n ,
por lo que
k1−α = 0.1856975
de donde, como k1−α > dn, entonces no se rechaza la hipotesis nula, es decir, el modelo
estimado Gausiano inverso ajusta satisfactoriamente al conjunto de observaciones dia-
metricas.
5.2. Simulacion y Evaluacion del Comportamiento de los
Estadısticos
5.2.1. Simulacion del criterio AICc
El proposito de la simulacion es evaluar el comportamiento de cualquier estadıstico;
en ese sentido, se realizaron una serie de simulaciones, en las cuales se supone una dis-
tribucion completamente conocida. Se llevo a cabo un proceso de muestreo simulado a
partir del modelo conocido y posteriormente se realizo el calculo de los valores del AICc
para ambas distribuciones (Gausiana Inversa y Weibull).
En el presente estudio se simularon 10,000 muestras de tamano 10,20,30,50 y 60 y para
cada tamano de muestra se calcularon los 10,000 valores del estadıstico AICc. Ademas
36
para la realizacion la simulacion se consideraron tres distribuciones Gausiana Inversa
completamente conocidas, IG(µ = 0.5, λ = 1),IG(µ = 0.5, λ = 0.8) y IG(µ = 0.5, λ =
2.5), para las cuales se realizo el proceso de simulacion ya descrito.
Es natural pensar que si se simulan muestras de una poblacion Gausiana Inversa y se
calculan los valores de AICc para las distribuciones en cuestion, el criterio siempre ele-
gira el modelo Gausiano inverso como el mejor modelo, comparando con la distribucion
Weibull. En este sentido despues de generar las 10,000 muestras para cada uno de los 5
tamanos de muestra, se calculo la fraccion de rechazos observado, es decir, la fraccion
de veces en las que el criterio AICc no eligio a el modelo Gausiano inverso como mejor
modelo, siendo este el que en realidad genero las observaciones.
Para el caso en el que se generaron las muestras con el modelo IG(µ = 0.5, λ = 1) los
resultados se concentran en el Cuadro 5.2.
Cuadro 5.2: Fracciones de rechazo observadas. Modelo verdadero IG(µ = 0.5, λ = 1), y
discriminacion basada en el criterio AICc con nivel de significancia nominal de α = 0.05
Tamano de Muestra Fraccion de rechazo observada
10 0.2779
20 0.1679
30 0.1310
40 0.0642
60 0.0463
Para la situacion en la cual el modelo verdadero es el modelo determinado por IG(µ =
0.5, λ = 0.8), las fracciones de rechazo observadas se concentran en el Cuadro 5.3.
37
Cuadro 5.3: Fracciones de rechazo observadas. Modelo verdadero IG(µ = 0.5, λ = 0.8),
y discriminacion basada en el criterio AICc con nivel de significancia α = 0.05
Tamano de Muestra Fraccion de rechazo observada
10 0.0702
20 0.0115
30 0.0051
40 0.0013
60 0.0037
Finalmente, para el caso en el que el modelo verdadero esta determinado por la dis-
tribucion IG(µ = 0.5, λ = 2.5), las fracciones de rechazo se presentan en el Cuadro 5.4
Cuadro 5.4: Fracciones de rechazo observadas. Modelo verdadero IG(µ = 0.5, λ = 2.5),
y discriminacion basada en el criterio AICc con nivel de significancia α = 0.05
Tamano de Muestra Fraccion de rechazo observada
10 0.0621
20 0.0100
30 0.0044
40 0.0093
60 0.0045
Tambien se considero el caso en el que la pseudo poblacion esta determinada por
una densidad Weibull, para esta situacion se consideraron los siguientes tres modelos,
Weibull(c = 1.5, α = 0.5),Weibull(c = 1.5, α = 0.95) y Weibull(c = 1.5, α = 2.5), para los
cuales se calculo su correspondiente fraccion de rechazo observada, es decir, la fraccion
de veces (de las 10,000 muestras) en las que el criterio AICc no eligio al modelo Weibull
como mejor modelo sobre la distribucion Gausiana Inversa, siendo que este es el que en
realidad genero las observaciones. Para el caso en el que la pseudo poblacion esta deter-
38
minada por el modelo Weibull(c = 1.5, α = 0.5), las fracciones de rechazo se muestran
en el Cuadro 5.5.
Cuadro 5.5: Fracciones de rechazo observadas. Modelo verdadero Weibull(c = 1.5, α =
0.5), y discriminacion basada en el criterio AICc con nivel de significancia de α = 0.05
Tamano de Muestra Fraccion de rechazo observada
10 0.3544
20 0.2269
30 0.1576
40 0.0744
60 0.0519
Para el caso en el que las muestras fueron generadas bajo el modelo Weibull(c =
1.5, α = 0.95), las fracciones de rechazo se muestran en el Cuadro 5.6.
Cuadro 5.6: Fracciones de rechazo observadas. Modelo verdadero Weibull(c = 1.5, α =
0.95), y discriminacion basada en el criterio AICc con nivel de significancia α = 0.05
Tamano de Muestra Fraccion de rechazo observada
10 0.3532
20 0.2218
30 0.1487
40 0.0771
60 0.0520
Finalmente, para el caso en el que se considero el modelo determinado por Weibull(c =
1.5, α = 2.5), las fracciones de rechazo se muestran en el Cuadro 5.7.
39
Cuadro 5.7: Fracciones de rechazo observadas. Modelo verdadero Weibull(c = 1.5, α =
2.5) y discriminacion basada en el criterio AICc con nivel de significancia α = 0.05
Tamano de Muestra Fraccion de rechazo observada
10 0.3515
20 0.2260
30 0.1506
40 0.0728
60 0.0532
Con la finalidad de observar el comportamiento del criterio AICc en el caso en el que
la pseudo poblacion esta determinada por un modelo diferente a las distribuciones in-
volucradas en el analisis (Weibull y Gausiana Inversa), se realizaron tres simulaciones
bajo la distribucion Gamma de dos parametros. Para estas simulaciones se consideraron
tres casos, el primer caso esta determinado por una distribucion Gamma con parametro
de forma igual a 3 y de escala a 0.9, el segundo caso esta determinado por una distribu-
cion Gamma con parametro de forma igual a 1.5 y de escala a 0.9; finalmente, el tercer
caso consiste en una distribucion Gamma con parametro de forma 2 y escala 0.9.
Para cada uno de los tres casos ya mencionados y para cada tamano de muestra se
calculo la fraccion de seleccion, es decir, en la que la distribucion Gausiana Inversa fue
elegida como mejor modelo sobre el modelo Weibull, basada en el criterio AICc , dichas
fracciones se concentran en el Cuadro 5.8.
Cuadro 5.8: Fracciones de SeleccionTamano de
Muestra
10 20 30 50 60
Caso 1 0.4881 0.4402 0.4008 0.3594 0.3402
Caso 2 0.3996 0.2839 0.2084 0.1273 0.0956
Caso 3 0.4430 0.3703 0.3033 0.2103 0.1822
40
Una interpretacion para la fraccion de seleccion es, por ejemplo, para el caso numero
uno y el tamano de muestra 30, aproximadamente el 40.08 % de las 10000 simulaciones
fueron discriminadas en favor del modelo Gausiano inverso; de manera semejante se
puede interpretar cada una de las fracciones.
Las instrucciones propias al lenguaje R con las que se realizo el calculo de los valores
de las fracciones de rechazo observadas y las fracciones de discriminacion, ası como para
general la simulacion se presenta en el Anexo 2.
5.2.2. Simulacion del criterio de Vuong
Al igual que con el estadıstico AICc, con el de Vuong se realizo un proceso de simu-
lacion por el metodo de Monte Carlo, para lo cual se consideraron dos casos; el primero
consiste en probar el criterio de Vuong considerando la hipotesis.
H0 : Eh
[ln
f (y | xi, θ)g(y | xi, γ)
]= 0
que contrasta la equivalencia de modelos. El correspondiente estadıstico de contraste es
TLR,NN =1√n
LR(θ, γ)/w2
en donde
LR(θ, γ) = L f (θ)−Lg(γ)
es la diferencia de las funciones de verosimilitud en su punto maximo, y
w2 =1n
n
∑i=1
(log
f (y | xi, θ)g(y | xi, γ)
)2
−(
1n
n
∑i=1
logf (y | xi, θ)g(y | xi, γ)
)2
para el cual el modelo representado por f (y | xi, θ) es el modelo descrito por la dis-
tribucion Gausiana Inversa, mientras que el modelo representado por g(y | xi, γ) es la
distribucion Weibull.
41
Para el analisis del comportamiento del estadıstico de Vuong, bajo este primer caso
se realizaron tres simulaciones, la primer simulacion consistio en generar datos a partir
de una distribucion IG(µ = 0.8, λ = 1.5) con la que se genero la muestra; la segunda
simulacion se realizo bajo el modelo Weibull(c = 4, α = 1.5) y finalmente una tercera
simulacion se genero bajo una distribucion Ji-cuadrada central con 15 grados de libertad,
esto con la finalidad de analizar el comportamiento del criterio de Vuong bajo un modelo
que no es alguno de los dos involucrados en el estudio. Como la regla de decision plantea
rechazar al nivel de significancia de 0.05 la hipotesis nula de equivalencia de modelos, en
favor de Fθ, es decir, es mejor modelo que Gγ si TLR,NN > z0.05, es decir, mayor al cauntil
superior z0.05 de la distribucion N(0, 1), entonces al realizar el muestreo de una poblacion
determinada por el modelo IG(µ = 0.8, λ = 1.5), las fracciones para las cuales el criterio
de Vuong rechazo la hipotesis nula se esperan sean muy cercanas a uno, estas fracciones
de resumen en el Cuadro 5.9.
Cuadro 5.9: Fracciones de rechazo, modelo verdadero IG(µ = 0.8, λ = 1.5), criterio de
discriminacion de Vuong con nivel de significancia α = 0.05
Tamano de Muestra Fraccion de rechazo
10 0.7057
20 0.8417
30 0.9035
40 0.9616
60 0.9762
Para la situacion en la que la muestra proviene de una poblacion determinada por
Weibull(c = 4, α = 1.5), las fracciones de rechazo se presentan en el Cuadro 5.10.
42
Cuadro 5.10: Fracciones de rechazo, modelo verdadero Weibull(c = 4, α = 1.5), criterio
de discriminacion de Vuong con nivel de significancia α = 0.05
Tamano de Muestra Fraccion de rechazo
10 0.7283
20 0.7620
30 0.7819
40 0.8062
60 0.8150
Finalmente, las fracciones de rechazo, para la situacion en la que la muestra proviene
de una poblacion simulada determinada por una distribucion Ji-cuadrada central con 15
grados de libertad, se presentan en el Cuadro 5.11.
Cuadro 5.11: Fracciones de rechazo, modelo verdadero es χ215, criterio de discriminacion
de Vuong con nivel de significancia α = 0.05
Tamano de Muestra Fraccion de rechazo
10 0.6991
20 0.6944
30 0.6618
40 0.6156
60 0.5963
El segundo caso planteado del criterio de Vuong fue realizado bajo el cambio de pa-
peles de los modelos, es decir, ahora el modelo determinado por f (y | xi, θ) paso a ser
descrito por el modelo Weibull, y el modelo representado por g(y | xi, γ) se convirtio en
la densidad Gausiana Inversa. Para este caso las poblaciones simuladas fueron las mis-
mas que para el primer caso, este cambio de papeles de las distribuciones lo permite el
criterio de Vuong y este otro enfoque puede ser otra forma de trabajar. Las fracciones de
43
rechazo para las situacion en la que la poblacion esta determinada por la distribucion
IG(µ = 0.8, λ = 1.5) se presentan en el cuadro 5.12.
Cuadro 5.12: Fracciones de rechazo, modelo verdadero IG(µ = 0.8, λ = 1.5), criterio de
discriminacion de Vuong con nivel de significancia α = 0.05
Tamano de Muestra Fracciones de rechazo
10 0.7225
20 0.7682
30 0.7929
40 0.8005
60 0.8081
Ahora para la situacion en la que la poblacion esta determinada por el modelo Weibull(c =
4, α = 1.5), las fracciones de rechazo se presentan en el Cuadro 5.13.
Cuadro 5.13: Fracciones de rechazo, modelo verdadero Weibull(c = 4, α = 1.5), criterio
de discriminacion Vuong
Tamano de Muestra Fracciones de rechazo
10 0.7118
20 0.8430
30 0.9084
40 0.9011
60 0.9116
Finalmente, las fracciones de rechazo cuando la pseudo poblacion esta determinada
por una distribucion Ji-cuadrada central con 15 g.l. se presentan en el Cuadro 5.14.
44
Cuadro 5.14: Fracciones de rechazo, modelo verdadero χ215, criterio de discriminacion
Vuong
Tamano de Muestra Fracciones de rechazo
10 0.3030
20 0.2993
30 0.3369
40 0.3749
60 0.3945
Como se observa, el comportamiento del estadıstico de Vuong para ambos casos es
semejante, es decir, cuando se espera que las proporciones sean grandes (cercanas a uno)
estas lo son, y cuando las proporciones se esperan sean pequenas (cercanas a cero) lo son,
salvo ciertas situaciones que se comentaran en la siguiente seccion, similarmente al caso
en que la muestra de la simulacion es tomada de un modelo distinto a los involucrados
en el analisis. Cabe mencionar que para el segundo caso del criterio de Vuong, este dis-
criminara ahora en favor del modelo Weibull. Las lıneas que ejecutan y calculan cada una
de los simulaciones anteriores son presentados en el Anexo 2.
5.3. Discusion
Es importante tener presente la complejidad que el proceso de estimacion de paramet-
ros implica, en este sentido, computacionalmente es mas sencillo obtener las estimaciones
propias al modelo Gausiano nverso en comparacion con el modelo Weibull, debido a
que las expresiones correspondientes a la distribucion Gausiana Inversa son cerradas,
es decir, pueden ser calculadas analıticamente, en contraste con las estimaciones cor-
respondientes al modelo Weibull que deben de ser obtenidas mediante un proceso de
45
optimizacion numerica. Es precisamente en este punto en el cual algunas estimaciones
pueden no existir, como ya se planteo en la revision bibliografica, y el proceso de esti-
macion resulte aun mas complicado. Por estas razones es que desde el punto de vista
computacional y practico, la estimacion de parametros propia al modelo Gausiano inver-
so resulta mas sencilla de realizar.
Como se puede notar en los cuadros de resumen de las fracciones de rechazo obser-
vadas, la discriminacion que realiza el criterio AICc es cada vez mejor, cuando el tamano
de muestra es mayor, es decir, el modelo estimado ajusta mejor a los datos observados
cuando la estimacion se basa en un numero mayor de observaciones. Por ejemplo, con-
sidere el Cuadro 5.3 para el cual la poblacion simulada esta determinada por el modelo
GI(µ = 0.5, λ = 0.8) y el tamano de muestra n = 20, y el nivel de significancia observado
es menor (0.0115) que el nivel de significancia nominal (α = 0.05) con el que el criterio
AICc realiza la discriminacion.
Para el caso en el que la simulacion fue realizada bajo el modelo Weibull(c = 1.5, α =
0.5), el nivel de significancia observado mas cercano al nivel de significancia nominal
del criterio AICc (0.05) se observo cuando el tamano de muestra n = 60 con un valor
de 0.0519, es decir, el modelo Weibull requiere de mayor cantidad de datos para poder
discriminar efectivamente en favor de tal modelo cuando se simula del mismo.
Durante el proceso de simulacion se pudo notar que el comportamiento del criterio de
discriminacion (AICc) es como se espera, es decir, cuando se simulan datos provenientes
de una distribucion Gausiana Inversa esperamos que el criterio discrimine siempre en
este sentido, y como se observo, es este el comportamiento. De igual manera ocurrio con
el proceso cuando se simularon datos que provenıan de una distribucion Weibull.
Respecto a la simulacion del criterio de discriminacion de Vuong, para el primer ca-
so, en el cual se rechaza en favor del modelo Gausiano inverso, y en que la poblacion
esta determinada por el modelo IG(µ = 0.8, λ = 1.5) y el tamano de muestra es n = 40,
la fraccion de rechazo, es decir, las veces que el estadıstico de Vuong rechazo la igualdad
46
de modelos en favor del modelo Gausiano inverso, fue de 0.9616, es decir, el nivel de
significancia observado es 0.0384, que es menor que el nivel de significancia nominal de
0.05 con el cual se realiza la prueba de hipotesis propia al criterio de discriminacion de
Vuong.
En comparacion, para el segundo caso considerado en la simulacion de Vuong, para el
cual se rechaza en favor del modelo Weibull, considere la situacion en la cual la poblacion
simulada proviene del modelo Weibull(c = 4, α = 1.5) y tamano de muestra n = 60, la
fraccion de rechazo fue de 0.9116, es decir, un nivel de significancia estimado de 0.0884, el
cual es mayor al nivel de significancia nominal de la prueba de Vuong. En comparacion
con el primer caso considerado en la simulacion del criterio de Vuong, se puede notar que
el modelo Gausiano inverso en contraste con el modelo Weibull requiere menor cantidad
de observaciones para presentar un nivel de significancia observado menor que el nivel
de significancia nominal (0.05) propio a la prueba de Vuong.
47
Capıtulo 6
Conclusiones y Recomendaciones
Del presente trabajo se concluye que los criterios de discriminacion de Vuong y AICc,
puede considerarse como criterios simples de usar para discriminar entre modelos can-
didatos a describir cierto conjunto de datos.
Los resultados de las simulaciones de Monte Carlo muestran que el comportamiento
de los criterios de Vuong y AICc es congruente con lo que se espera cuando hay una dis-
criminacion efectiva: cuando se opera bajo cualquiera de los modelos, Weibull o Gausiano
inverso, como pseudo poblacion, la discriminacion en un alto porcentaje es realizada en
favor del que genera la muestra.
Como se puede notar al realizar la discriminacion entre los modelos Weibull y Gau-
siano inverso mediante los criterios de Vuong y AICc, ambos discriminaron en favor de
la distribucion Gausiana inversa como mejor modelo para describir el comportamiento
del conjunto de observaciones consideradas, es decir las bservaciones diametricas. Esto
es respaldado por la prueba de Kolmogorov-Smirnov, mediante la cual se concluye que
el modelo seleccionado por los criterios de Vuong y AICc ajusta satisfactoriamente al
conjunto de observaciones.
De acuerdo con la revision bibliografica, el criterio AICc corregido por el tamano de
muestra, es decir, para el caso en que fraccion n/K < 40, y el criterio de informacion no
48
corregido AIC, al igual que la prueba de Vuong, representan buenos criterios de discrimi-
nacion para seleccionar entre modelos candidatos a ajustar un conjunto de observaciones
diametricas.
Del presente trabajo se concluye tambien que debe tenerse en cuenta que el uso del
criterio AICc o AIC, esta sujeto al tamano de la muestra, es decir, si la fraccion n/K < 40;
es por esta razon que es recomendable el uso alternativo de ambos criterios cuando la
situacion del tamano de la muestra ası lo requiera.
La prueba de Vuong puede ser utilizada en ambos sentidos para poder concluir si
cierto modelo es el mejor dentro de los candidatos a modelar nuestros datos; es decir,
se puede probar la igualdad de modelos en el sentido de que el mejor modelo sea el
establecido en la hipotesis nula y viceversa.
En relacion a los niveles de significancia observados, la tendencia de la fracciones de
rechazo es mejor con el modelo Gausiano inverso que con el Weibull; es decir, para re-
alizar la discriminacion entre ambos modelos basados en el criterio de AICc, la estimacion
del modelo Gausiano inverso se realiza mejor a partir del tamano de muestra n = 20, es-
to significa que con un tamano de muestra menor el modelo estimado ajusta mejor a los
datos observados. Por esta razon, se recomienda que el tamano de muestra sea mayor o
igual a 20, puesto que la estimacion que realiza el modelo Gausiano inverso es cada vez
mejor a partir de este tamano de muestra, y es cuando el nivel de significancia observado
comienza a ser menor que el nivel de significancia nominal.
Considerando el criterio de Vuong, para el caso en el que se rechaza en favor del
modelo Gausiano inverso, el nivel de significancia observado es menor que el nominal
a partir del tamano de muestra n = 40, en contraste con el modelo Weibull, para el cual
aun con un tamano de muestra n = 60, el nivel de significancia observado es mayor
al nominal; es decir, el modelo Weibull requiere una mayor cantidad de observaciones
que el modelo Gausiano inverso para que el modelo estimado ajuste mejor a los datos
observados.
49
En conclusion, el modelo Gausiano inverso requiere menor cantidad de observaciones
para realizar una buena estimacion en comparacion con el modelo Weibull. En este sen-
tido, se recomienda que el tamano de muestra para estimar un modelo Gausiano inverso
sea mayor o igual a 40, puesto que a partir de este tamano de muestra el nivel de signifi-
cancia observado para los criterios AICc y Vuong es menor que el nominal.
Respecto a la estimabilidad del los modelos, la estimacion del modelo Weibull debe
efectuarse mediante un proceso de optimizacion numerica, en contraste con el mode-
lo Gausiano inverso, en el cual las estimaciones provienen de ecuaciones analıticas, es
decir, expresiones en forma cerrada, por lo que las estimaciones siempre existen. Por lo
tanto, desde el punto de vista de facilidad de estimacion, el modelo Gausiano inverso es
mas facil de estimar que el Weibull; por estas razones, ademas de que el modelo Gau-
siano inverso puede adoptar una gran diversidad de formas, bajo ciertos valores de sus
parametros, y requiere menor cantidad de observaciones para realizar una mejor esti-
macion, se recomienda el uso de este para modelar estructuras diametricas.
50
APENDICES
51
Apendice A
Codigo R usado para calcular el criterio
AICc
Instrucciones propias del software R con las cuales se calculo el criterio de Informa-
cion de Akaike corregido por el tamano de muestra AICc
datos<-read.table("C:/----/)
X<-datos[,4]
n<-length(X)
lfmvig<-function(~n)
{
mu<-~n[1]
lambda<-~n[2]
ff<-(n/2)*log(lambda/(2*pi))+(1/2)*sum(log(1/(X**3)))
-(lambda/(2*mu**2))*sum(((X-mu)**2)/X)
return(-ff)
}
uno<-c(rep(1/n,n))
MU<- uno%*%X
52
lambdaa<-n/(sum(X^{-1}-MU^{-1}))
parametros_i<-c(MU,lambdaa)
ln_i<-lfmvig(c(MU,lambdaa))
AIC_i<--2*ln_i+2*k*(n/(n-k-1))
Es importante notar que para el caso de la distribucion Gausiana Inversa no es nece-
sario utilizar la funcion nlm(), puesto que las ecuaciones para estimar los parametros
por maxima verosimilitud son analıticas (cerradas). El valor de AICc para la distribucion
Gausiana Inversa es AICc = −104.0795. De manera similar se obtuvo el valor de AICc
para la distribucion Weibull, a continuacion se presenta el codigo correspondiente
lfmvw<-function(p)
{
cc<-p[1]
a<-p[2]
f<-n*(log(cc/a))+(cc-1)*sum(log(X/a))-sum((X/a)**cc)
return(-f)
}
parametros_w<-nlm(lfmvw,c(0.2,0.1))$estimate
k<-length(parametros_w)
ln_w<--nlm(lfmvw,c(0.2,0.1))$minimum
AIC_w<--2*ln_w+2*k*(n/(n-k-1))
A continuacion se presentan las instrucciones para el calculo de la prueba de Vuong,
en el lenguaje R.
# Maximo del logaritmo Gausiana Inversa
X<-datos
53
n<-length(X)
lfmvig<-function(~n)
{
mu<-~n[1]
lambda<-~n[2]
ff<-(n/2)*log(lambda/(2*pi))+(1/2)*sum(log(1/(X**3)))-
(lambda/(2*mu**2))*sum(((X-mu)**2)/X)
return(ff)
}
uno<-c(rep(1/n,n))
MU<- uno%*%X
lambdaa<-n/(sum(X^{-1}-MU^{-1}))
parametros_i<-c(MU,lambdaa)
ln_i<-lfmvig(c(MU,lambdaa))
#-----------------------------------------------------------#
# Maximo del logaritmo Weibull #
lfmvw<-function(p)
{
cc<-p[1]
a<-p[2]
f<-n*(log(cc/a))+(cc-1)*sum(log(X/a))-sum((X/a)**cc)
return(-f)
}
parametros_w<-nlm(lfmvw,c(0.2,0.1))$estimate
k<-length(parametros_w)
ln_w<--nlm(lfmvw,c(0.2,0.1))$minimum
#----------------------------------------------------------#
# W estimada^2 #
54
w_2<-(1/n)*sum((ln_i-ln_w)^2)-((1/n)*(ln_i-ln_w))^2
Tlrnn<-((1/(sqrt(n)))*(ln_i-ln_w))/(w_2)
55
Apendice B
Codigo R usado para la simulacion de
Monte Carlo
Codigos propios al lenguaje R con los cuales fueron realizadas cada una de las simu-
laciones tanto para el criterio AICc como para la prueba de Vuong.
El siguiente codigo realiza la simulacion del criterio AICc, bajo el muestreo de una
poblacion determinada por la densidad Gausiana Inversa con los siguientes parametros
µ = 0.5 y λ = 1, µ = 0.5 y λ = 0.8, µ = 0.5 y λ = 2.5 respectivamente, se puede realizar
cada uno de las pruebas para combinacion de parametros solo haciendo un cambio en la
lınea
X<-rinverse.gaussian(tm,0.5,1)
que es la que genera las muestras aleatorias, en la cual el termino tm representa el tamano
de muestra, el siguiente objeto representa el valor del parametro µ y el tercer termino
representa el valor del parametro λ de la distribucion Gausiana Inversa.
#----------------------------------------------------------#
# Simulacion Gausiana Inversa
56
#----------------------------------------------------------#
# Genera Muestras Aleatorias de Inversa Gausiana
rinverse.gaussian<-function(n,mu,lambda)
{
k<-0
for (i in 1:n)
{
d<-0
y<-rchisq(1,1)
u<-runif(1,0,1)
r1<-(mu/2*lambda)*(2*lambda+mu*y-sqrt(4*lambda*mu*y+mu**2 *y**2 ))
r2<-((mu**2)/r1)
if (u<(mu/(mu+r1))) d<-r1
else d<-r2
k[i]<-d
}
return(k)
}
#---------------------------------------------------------------
# Simulacion criterio de Vuong
M<-10000
res<-matrix(0,M,10)
l<-0
for (i in c(1:5))
{
pos<-c(10,20,30,50,60)
tm<-pos[i]
l<-l+2
57
for (j in c(1:M))
{
X<-rinverse.gaussian(tm,0.8,1.5)
n<-length(X)
#---------------------------------------------------------
lfmvig<-function(~n)
{
mu<-~n[1]
lambda<-~n[2]
ff<-(n/2)*log(lambda/(2*pi))+(1/2)*sum(log(1/(X**3)))
-(lambda/(2*mu**2))*sum(((X-mu)**2)/X)
ff2<-((1/2)*log(lambda/(2*pi))+(1/2)*(log(1/(X**3)))
-(lambda/(2*mu**2))*(((X-mu)**2)/X))
return(cbind(ff,ff2))
}
#--------------------------------------------------------
uno<-c(rep(1/n,tm))
MU<- uno%*%X
lambdaa<-n/(sum(X^{-1}-MU^{-1}))
parametros_i<-c(MU,lambdaa)
ln_i<-lfmvig(parametros_i)[1]
#--------------------------------------------------------------
# Maximo del logaritmo Weibull
lfmvw<-function(p,X)
{
cc<-p[1]
a<-p[2]
58
f<-n*(log(cc/a))+(cc-1)*sum(log(X/a))-sum((X/a)**cc)
return(-f)
}
parametros_w<-nlm(lfmvw,c(0.2,0.1),X=X)$estimate
k<-length(parametros_w)
ln_w<--nlm(lfmvw,c(0.2,0.1),X=X)$minimum
#---------------------------------------------------------------
# W estimada^2
fwe<--(apply(matrix(X,nc=1),1,lfmvw,p=parametros_w)+(n-1)*
(log(parametros_w[1]/parametros_w[2])))
w_2<-(1/n)*sum((fwe-lfmvig(parametros_i)[,2])^2)-((1/n)*(ln_w-ln_i))^2
Tlrnn<-1/sqrt(n)*(ln_w-ln_i)/w_2
res[j,c(l-1,l)]<-cbind(abs(Tlrnn),qnorm(0.975))
}
}
las siguientes lıneas solo efectuan el calculo de los niveles de significancia observados
mediante una simple comparacion de valores de AIC para cada una de las muestras para
los correspondientes tamanos de muestra, ademas del calculo de fraccion.
z<-0
nob<-0
for (i in c(1:5))
{
z<-z+2
f<-0
for (j in c(1:M))
{
if (res[j,z-1]>res[j,z]) f<-f+1
59
else f<-f+0
}
nob[i]<-(f/M)
}
Para el resto de las simulaciones, es decir, para la simulacion de AICc cuando la muestra
proviene de una poblacion determinada por una distribucion Weibull el cambio en el
codigo solo es en la lınea en la que se genera la muestra aleatoria, en lugar de presentar
la lınea
X<-rinverse.gaussian(tm,0.5,1)
el cambio se realiza por
X<-rweibull(tm,0.5,1)
la cual genera muestras aleatorias de tamano tm con parametros c = 0.5 y α = 1, al igual
que para la simulacion de la distribucion Gamma, el cambio solo es por la lınea
X<-rgamma(tm,shape=2,scale=0.9)
Para el proceso de simulacion del criterio de Vuong bajo el proceso de Monte Carlo, en
la situacion en la que el modelo determinado por f (yi | xi, θ) es la distribucion Gausiana
Inversa y el modelo nombrado por g(yi | xi, γ) la distribucion Weibull y simulando una
poblacion Gausiana Inversa el codigo es el siguiente:
#-------------------------------------------------------------
# Genera Muestras Aleatorias de Gausiana Inversa
rinverse.gaussian<-function(n,mu,lambda)
{
k<-0
60
for (i in 1:n)
{
d<-0
y<-rchisq(1,1)
u<-runif(1,0,1)
r1<-(mu/2*lambda)*(2*lambda+mu*y-sqrt(4*lambda*mu*y+mu**2 *y**2 ))
r2<-((mu**2)/r1)
if (u<(mu/(mu+r1))) d<-r1
else d<-r2
k[i]<-d
}
return(k)
}
#-----------------------------------------------------------
# Simulacion criterio de Vuong
M<-1000
res<-matrix(0,M,10)
l<-0
for (i in c(1:5))
{
pos<-c(10,20,30,50,60)
tm<-pos[i]
l<-l+2
for (j in c(1:M))
{
X<-rweibull(tm,3.5,5.5)
n<-length(X)
#------------------------------------------------------
61
# Maximo de la Verosimilitud IG
lfmvig<-function(~n)
{
mu<-~n[1]
lambda<-~n[2]
ff<-(n/2)*log(lambda/(2*pi))+(1/2)*sum(log(1/(X**3)))
-(lambda/(2*mu**2))*sum(((X-mu)**2)/X)
return(ff)
}
uno<-c(rep(1/n,tm))
MU<- uno%*%X
lambdaa<-n/(sum(X^{-1}-MU^{-1}))
parametros_i<-c(MU,lambdaa)
ln_i<-lfmvig(c(MU,lambdaa))
#------------------------------------------------------
# Maximo del logaritmo Weibull
lfmvw<-function(p)
{
cc<-p[1]
a<-p[2]
f<-n*(log(cc/a))+(cc-1)*sum(log(X/a))-sum((X/a)**cc)
return(-f)
}
parametros_w<-nlm(lfmvw,c(0.2,0.1))$estimate
k<-length(parametros_w)
ln_w<--nlm(lfmvw,c(0.2,0.1))$minimum
#------------------------------------------------------
# W estimada^2
62
w_2<-(1/n)*sum((ln_i-ln_w)^2)-((1/n)*sum(ln_i+ln_w))^2
Tlrnn<-((1/(sqrt(n)))*(ln_i-ln_w))/(w_2)
res[j,c(l-1,l)]<-cbind(Tlrnn,qnorm(0.05,0,1))
}
}
esta ultima parte del codigo calcula la promociona para cada uno de los cinco tamanos
de muestra en los cuales el criterio de Vuong discrimino correctamente cuando el proceso
de simulacion se realizo bajo un modelo Gausiano Inversa.
z<-0
nob<-0
for (i in c(1:5))
{
z<-z+2
f<-0
for (j in c(1:M))
{
if (res[j,z-1]>res[j,z]) f<-f+1
else f<-f+0
}
nob[i]<-(f/M)
}
para las demas simulaciones, es decir, para las cuales las muestran provienen de pobla-
ciones Weibull y Ji-Cuadrada solo se realiza el cambio en la lınea
X<-rinverse.gaussian(tm,3.5,5.5)
para las correspondientes, en concreto cuando se simulo una poblacion Weibull la lınea
anterior del codigo cambia por
63
X<-rweibull(tm,3.5,5.5)
y en el caso cuando se generaron las muestras de una poblacion Ji-cuadrada no central
con 15 grados de libertad el codigo para las muestras cambia por
X<-rchisq(tm,15)
con los respectivos cambios en los valores de parametros para los cuales se realizo el
proceso de simulacion.
Para el segundo caso considerado en la simulacion del criterio de Vuong, es decir,
cuando los papeles de las distribuciones determinadas por f (yi | xi, θ) y g(yi | xi, γ) son
intercambiados y cuando la muestra proviene de una poblacion Weibull es el siguiente:
M<-10000
res<-matrix(0,M,10)
l<-0
for (i in c(1:5))
{
pos<-c(10,20,30,50,60)
tm<-pos[i]
l<-l+2
for (j in c(1:M))
{
X<-rweibull(tm,4,1.5)
n<-length(X)
#-------------------------------------------------------------
# Maximo de la verosimilitud IG
lfmvig<-function(~n)
{
64
mu<-~n[1]
lambda<-~n[2]
ff<-(n/2)*log(lambda/(2*pi))+(1/2)*sum(log(1/(X**3)))-
(lambda/(2*mu**2))*sum(((X-mu)**2)/X)
return(ff)
}
#-------------------------------------------------------------
uno<-c(rep(1/n,tm))
MU<- uno%*%X
lambdaa<-n/(sum(X^{-1}-MU^{-1}))
parametros_i<-c(MU,lambdaa)
ln_i<-lfmvig(c(MU,lambdaa))
#------------------------------------------------------------
# Maximo de la verosimilitud Weibull
lfmvw<-function(p)
{
cc<-p[1]
a<-p[2]
f<-n*(log(cc/a))+(cc-1)*sum(log(X/a))-sum((X/a)**cc)
return(-f)
}
parametros_w<-nlm(lfmvw,c(0.2,0.1))$estimate
k<-length(parametros_w)
ln_w<--nlm(lfmvw,c(0.2,0.1))$minimum
#------------------------------------------------------------
# W estimada^2
w_2<-(1/n)*sum((ln_w-ln_i)^2)-((1/n)*sum(ln_w-ln_i))^2
Tlrnn<-((1/(sqrt(n)))*(ln_w-ln_i))/(w_2)
65
res[j,c(l-1,l)]<-cbind(Tlrnn,qnorm(0.05,0,1))
}
}
z<-0
nob<-0
for (i in c(1:5))
{
z<-z+2
f<-0
for (j in c(1:M))
{
if (res[j,z-1]>res[j,z]) f<-f+1
else f<-f+0
}
nob[i]<-(f/M)
}
Igual que para el primer caso de simulacion del criterio de Vuong, la parte final calcula
la proporcion de casos en los que el modelo Weibull es seleccionado como mejor con
respecto al modelo Gausiano inverso; de igual forma que para el primer caso cuando se
desea probar el estadıstico con distinta poblacion generadora de la muestra el cambio en
el codigo solo se efectua en la lınea
X<-rweibull(tm,4,1.5)
de manera similar que en el primer caso.
66
Referencias
Akaike, H. (1973). Information theory as an extension of the maximum likelihood principle.
Akademiai Kiado, Budapest.
Bain, T. D. R. and Antle, C. E. (1969). Inferences on the parameters of the weibull distri-
bution. Technometrics, 11:445–460.
Bedrick, E. J. and Tsai, C.-L. (1994). Model selection for multivariate regression in small
samples. Biometrics, 50.
Bertram, H., Thomas, W. B., and John, A. K. (2003). Forest Mensuration. John Wiley and
Sons Inc., New York.
Bozdogan, H. (1987). Model selection and akaike information criterion (aic): The general
theory and its analytical extensions. Psychometrika, 52.
Burnham, K. and Anderson, D. R. (2002). Model Selection and Multimodel Inference: A Prac-
tical Information-Theoretic Approach, volume Second Edition. Springer.
Cameron, A. C. and Trivedi, P. K. (1998). Regression Analysis of Count Data. Cambridge
University Press.
Cox, D. (1961). Test of separate families of hypotheses. Proceedings of the Fourth Berkeley Sym-
posium on Mathematical Statistics and Probability, volume I. New York.
Dobson, A. (2001). An Introduction to Generalized Linear Models. Ed. Chapman and Hall.
67
Fahrmeir, L. and Tutz, W. (2001). Multivariate statistical Modelling Based on Generalized
Linear Models. Ed. Springer Verlag, New York.
Hurvich, C. M., Shumway, R., and Tsai, C.-L. (1990). Improved estimators of kullback-
leibler information for autoregressive model selection in small samples. Biometrika, 77.
Hurvich, C. M. and Tsai, C.-L. (1991). Bias of the corrected aic criterion for underfitted
regression and time series models. Biometrika, 78.
Hurvich, C. M. and Tsai, C.-L. (1995a). Relative rates of convergence for efficient model
selection criteria in linear regression. Biometrika, 82.
Hurvich, C. M. and Tsai, C.-L. (1995b). Model selection for extended quasi-likelihood
models in small samples. Biometrics, 51.
Johnson, N. L., Kotz, S., and Balakrishna, N. (1994). Continuous Univariate Distribution,
volume 1, Second Edition. John Wiley and Sons Inc.
Jorgensen, B. (1982). Statistical Properties of the Generalized Inverse Gaussian Distribution,
Lecture Notes in Statistics 9. Ed. Springer Verlag, New York.
Jose, M., Rafael, P., Ana, S., and Segundo, B. (1981). Ecologıa de la estacion experimental
zoquiapan. Universidad Autonoma Chapingo, Mexico.
Kalbfleisch, J. D. and Prentice, R. L. (2002). The Statistical Analysis of Failure Time Data. Ed.
John Wiley and Sons, New York.
Klein, J. P. and Moeschberger, M. L. (2003). Survival Analysis: Techniques for censured and
Truncates Data. Ed. Springer Verlag.
Lawless, J. F. (1982). Statistical Models and Methods for Lifetime Data. John Wiley and Sons,
New York.
Linhart, H. and Zuchini, W. (1986). Model Selection. John Wiley and Sons, New York.
68
Roy, L. K. and Wasan, M. T. (1968). The first passage time distribution of brownian motion
with positive drift. Mathematical Biosciences, 3.
Sakamoto, Y. (1991). Categorical data analysis by AIC. KTK Scientific Publishers,
Tokyo,Japan.
Seshadri, V. (1993). The Inverse Gaussian Distribution: A Case Study in Exponential Families.
Oxford Science Publications.
Shibata, R. (1983). A theoretical view of the use of AIC, Time series analysis: theory and practice.
Elsevier Science Publication, North-Holland.
Smith, R. L. and Weissman, I. (1985). Maximum likehood estimation of the lower tail of a
probability distribution. Biometrika, 47:285–298.
Sugiura, N. (1978). Further analysis of the data by akaike´s information criterion and the
finite corrections. Communications in Statistics, Theory and Methods, A7.
Takeuchi, K. (1976). Distribution of informational statistics and a criterion of model fitting.
Suri-Kagaku.
Tweedie, M. C. K. (1957). Statistics properties of inverse gaussian distributions. Annals of
Mathematical Statistical, 28.
Vuong, Q. H. (1989). Likelihood ratio tests for model selection and non-nested hypothe-
sis. Econometrica, 57.
Wendy, L. M. and Angel, R. M. (2002). Computational Statistics Handbook with MATLAB.
CHAPMAN AND HALL/CRC.
69