colegio de postgraduados...t e s i s presentada como requisito parcial para obtener el grado de:...
TRANSCRIPT
COLEGIO DE POSTGRADUADOS
INSTITUCION DE ENSENANZA E INVESTIGACION EN CIENCIAS AGRICOLAS
CAMPUS MONTECILLO
POSTGRADO EN SOCIOECONOMIA, ESTADISTICA E INFORMATICA
ESTADISTICA
UN MODELO ESTADISTICO ESPACIAL PARA LA
PREVALENCIA DE LA POBREZA EN MEXICO
MARCELO QUITERIO MENDOZA
T E S I S
PRESENTADA COMO REQUISITO PARCIAL
PARA OBTENER EL GRADO DE:
MAESTRO EN CIENCIAS
MONTECILLO,TEXCOCO, EDO. DE MEXICO
2009
La presente tesis titulada: Un modelo estadıstico espacial para la prevalencia de
la pobreza en Mexico, realizada por el alumno: Marcelo Quiterio Mendoza, bajo la
direccion del Consejo Particular indicado ha sido aprobada por el mismo y aceptada como
requisito parcial para obtener el grado de:
MAESTRO EN CIENCIAS
SOCIOECONOMIA, ESTADISTICA E INFORMATICA
ESTADISTICA
CONSEJO PARTICULAR
CONSEJERO
Dr. Sergio Perez Elizalde
ASESOR
Dr. Felix Gonzalez Cossıo
ASESOR
M.C. J. Valente Hidalgo Contreras
Montecillo, Texcoco, Edo. De Mexico, 2009
Un modelo estadıstico espacial para la prevalencia de la pobreza
en Mexico
Marcelo Quiterio Mendoza
Colegio de Postgraduados, 2009
En este trabajo se propone un modelo geoestadıstico bayesiano para identificar las zonas
de mayor incidencia de pobreza en Mexico. El objetivo es proporcionar una metodologıa
de analisis para quienes toman las decisiones en relacion a los programas de desarrollo
social y erradicacion de la pobreza. Con base a lo dispuesto por el Consejo Nacional de
Evaluacion de la Polıtica de Desarrollo Social, se define una variable binaria que indica
si un hogar presenta pobreza alimentaria o no. Las covariables de ındole socioeconomico
se obtienen de la informacion generada por la Encuesta Nacional de Ingresos y Gastos de
los Hogares. El modelo propuesto es logıstico e incorpora efectos de estratos, agrupando a
los estados de la republica de acuerdo a su nivel de marginacion. Tambien se consideran
efectos espaciales modelados mediante procesos gausianos condicionalmente autorregresivos
(CAR). La distribucion final de los parametros se estima mediante metodos de Cadenas de
Markov Monte Carlo (CMMC).
Palabras clave: Pobreza alimentaria, modelo espacial, cadenas de markov monte carlo,
CAR.
iii
A spatial statistical model for prevalence of poverty in Mexico
Marcelo Quiterio Mendoza
Colegio de Postgraduados, 2009
This work proposes a geostatistical bayesian model to identify areas with highest incidence
of poverty in Mexico. The main purpose of this study is to provide a method of analysis
for who take decisions about social development programs and poverty eradication. The
variable of interest is a binary response which indicates whether a household is ranked with
alimentary poverty or not and this is built according with the methodology of Consejo
Nacional de Evaluacion de la Polıtica de Desarrollo Social. The socio-economic covariates
were taken from the information generated by the Encuenta Nacional de Ingresos de los
Hogares 2005. The logistic model proposed incorporates effects of strata, by grouping the
states of the republic according to their marginalization levels. Spatial effects are also
considered, which are modeled using conditionally autoregressive (CAR) estructure. The
posterior distribution of the parameters was estimated using Monte Carlo Markov Chains
(MCMC) methods.
Key words: Alimentary poor, spatial model, monte carlo markov chains, CAR.
iv
AGRADECIMIENTOS
Al Consejo Nacional de Ciencia y Tecnologıa (CONACYT) por el apoyo economico brin-
dado durante la realizacion de mis estudios.
Al Colegio de Postgraduados, por la oportunidad para seguir mi formacion academica.
Al Dr. Sergio Perez Elizalde, por su tiempo, esfuerzo y paciencia en la direccion de este
trabajo.
A los integrantes de mi consejo particular, por su importante colaboracion para la realiza-
cion de esta tesis.
A los profesores que participaron en mi formacion academica.
A mis companeros y amigos.
v
A mi esposa, Patricia
A mi hijo, M. Alexander
A mis padres
A mis hermanos: Jesus, Lorena, Ivonne, J.Luis, J.Cornelio, Emiliano,
Ricardo, Hugo, Rosa, Leocadia, Concepcion.
vi
Contenido
1. Introduccion 1
2. Objetivos 4
3. Antecedentes 5
4. Revision de literatura 9
4.1. Inferencia bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.1.1. Probabilidad y teorema de Bayes . . . . . . . . . . . . . . . . . . . 9
4.1.2. Naturaleza de la inferencia bayesiana . . . . . . . . . . . . . . . . . 14
4.1.3. Distribuciones a priori localmente uniformes . . . . . . . . . . . . . 16
4.1.4. Distribuciones a priori conjugadas . . . . . . . . . . . . . . . . . . . 17
4.1.5. Modelo lineal generalizado . . . . . . . . . . . . . . . . . . . . . . . 18
4.1.6. Modelo lineal generalizado, enfoque bayesiano . . . . . . . . . . . . 23
4.1.7. Regla de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.8. Modelos Jerarquicos . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.1.9. Metodos de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . 29
4.1.10. Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.1.11. Gibbs sampler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1.12. Muestreo de rechazo . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.1.13. Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . . . 32
4.2. Estadıstica espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.1. Datos espaciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.2. Autocorrelacion, dependencia y heterogeneidad espacial . . . . . . . 36
4.2.3. Modelos lineales generalizados con efectos espaciales . . . . . . . . . 36
4.2.4. Inferencia bayesiana mediante MCMC para MLGM . . . . . . . . . 41
5. Metodologıa 43
5.1. Base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2. Programacion R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
vii
5.3. Modelo logıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.4. Modelo espacial bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6. Resultados 50
6.1. Situacion de la pobreza en Mexico . . . . . . . . . . . . . . . . . . . . . . . 50
6.2. Resultados del modelo logıstico . . . . . . . . . . . . . . . . . . . . . . . . 52
6.3. Resultados del modelo espacial bayesiano . . . . . . . . . . . . . . . . . . . 57
7. Conclusiones 61
8. Referencias 63
A. Anexos 68
A.1. Cuadros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
A.2. Densidades estimadas con el modelos espacial en WinBugs . . . . . . . . . 73
A.3. Criterio DIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
A.4. Algoritmo ARS para muestreo Gibbs . . . . . . . . . . . . . . . . . . . . . 76
A.5. Distribuciones espaciales en WinBugs . . . . . . . . . . . . . . . . . . . . . 80
A.6. Codigo WinBugs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
A.7. Codigo en R para obtener las matriz de vecindades estatales . . . . . . . . 82
A.8. Codigo R para la elaboracion de mapas de pobreza . . . . . . . . . . . . . 83
A.9. Factores de expansion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
viii
Lista de cuadros
1. Pobreza alimentaria de los hogares por estado, ENIGH (2005) . . . . . . . 68
2. Variables utilizadas para modelar la prevalencia de la pobreza . . . . . . . 69
3. Parametros estimados del modelo logıstico . . . . . . . . . . . . . . . . . . 70
4. Resultados de la simulacion MCMC . . . . . . . . . . . . . . . . . . . . . . 71
5. Estimaciones del modelo espacial por estado . . . . . . . . . . . . . . . . . 72
ix
Lista de figuras
1. Mapa de pobreza observada por municipio, ENIGH (2005) . . . . . . . . . 51
2. Pobreza observada por municipio, ENIGH (2005) . . . . . . . . . . . . . . 52
3. Pobreza con el modelo logıstico por hogar, ENIGH (2005) . . . . . . . . . 53
4. Mapa de pobreza con el modelo logıstico por municipio, ENIGH (2005) . . 54
5. Pobreza con el modelo logıstico por municipio, ENIGH (2005) . . . . . . . 55
6. Mapa de pobreza con el modelo logıstico por estado, ENIGH (2005) . . . . 56
7. Pobreza con el modelo espacial por hogar, ENIGH (2005) . . . . . . . . . . 57
8. Mapa de pobreza con el modelo espacial por municipio, ENIGH (2005) . . 58
9. Pobreza con el modelo espacial por municipio, ENIGH (2005) . . . . . . . 59
10. Mapa de pobreza con el modelo espacial por entidad, ENIGH (2005) . . . . 60
11. Parametros fijos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
x
1. Introduccion
Hace solo una decada, la pobreza no era un tema del que se ocuparan la prensa y otros
medios de difusion masiva. Algunos gobiernos de America Latina veıan con recelo los
estudios de medicion y analisis de la pobreza. Los organismos internacionales le prestaban
menos atencion al tema que en la decada de los setenta. Hoy, en cambio, el panorama es
diferente no solo en America Latina sino a escala mundial. En 1995 se llevo a cabo en
Copenhague la cumbre mundial sobre el desarrollo social que pretendio poner el tema de
la pobreza en el centro del interes internacional como lo esta ya el del medio ambiente.
El Banco Mundial (BM) esta presionando a gobiernos de paıses subdesarrollados para que
lleven a cabo programas de mitigacion o reduccion de la pobreza extrema. El Programa de
las Naciones Unidas para el Desarrollo (PNUD) ha venido impulsando la idea del desarrollo
humano -que constituye la otra cara de la moneda de la superacion de la pobreza- como
una alternativa al mero crecimiento economico. Sus informes anuales sobre el tema han
estimulado la discusion sobre el para que y el como del desarrollo, proponiendose servir
de contrapeso a los del BM, que a pesar de su interes por la pobreza, siguen evaluando el
desarrollo de los paıses de acuerdo con el desempeno de las variables economicas.
La medicion del bienestar es una herramienta indispensable para la planeacion de las polıti-
cas publicas y para la evaluacion del desempeno de un paıs. Conforme avanzan los anos,
parecen aumentar las posibilidades para analizar estadısticamente este tipo de problemas
de gran complejidad, con datos multivariantes de naturaleza espacial y temporal, incre-
mentando el nivel de detalle para espacios geograficos especıficos mas alla de los promedios
nacionales, como son los estados y municipios, o incluso las localidades.
Los investigadores en diversas areas como la climatologıa, la ecologıa, la salud ambiental,
entre muchas otras, estan cada vez mas enfrentados a la tarea de analizar datos multiva-
riados, con muchos predictores y variables respuesta, con referencia geografica, a menudo
presentados como mapas y temporalmente correlacionados, en estructuras longitudinales
u otras de series de tiempo. En estudios de fenomenos socioeconomicos por ejemplo, los
datos presentan forma jerarquica y espacial de manera natural.
La estadıstica espacial fue brevemente esbozada por R.A. Fisher en su investigacion es-
tadıstica aplicada a la agricultura. Fisher en los anos 30 escribio:
Tras seleccionar el area, habitualmente no tenemos otra guıa que el hecho ampliamente
verificable de que las parcelas mas proximas son normalmente mas parecidas, en terminos
de produccion de la cosecha, que aquellas que estan mas alejadas.
La estadıstica espacial concierne al estudio de datos espaciales y modelos estadısticos de
procesos. Los metodos de Monte Carlo por cadenas de Markov (MCMC) proporcionan
una herramienta para analizar estas situaciones y han propiciado el rapido desarrollo de la
estadıstica espacial desde la ultima decada del siglo XX. A pesar de ello, todavıa quedan
muchas cuestiones pendientes. La comunidad cientıfica debate sobre la complejidad de los
modelos y la fiabilidad de las tecnicas empleadas. La estadıstica espacial, lınea de investi-
gacion de desarrollo relativamente reciente, se basa en modelos estadısticos y matematicos,
hace uso de mapas y de sistemas de informacion geografica y muestra actualmente un
interes creciente en ambitos tan distintos como los de la estadıstica matematica, la epi-
demiologıa, las ciencias del medio ambiente, la economıa espacial o ciencia regional, la
geografıa, la historia, la agronomıa, la arqueologıa, etc.
En esta tesis se propone una metodologıa para el analisis de la prevalencia de la pobreza
alimentaria 1, entendida como la proporcion de individuos de un grupo o poblacion que
presenta una caracterıstica o evento determinado en un momento o periodo de tiempo
particular, desde un enfoque espacial bayesiano, utilizando modelos geoestadısticos que
incorporan esta informacion y que frecuentemente no se considera.
En capıtulo 2 se describen los objetivos de este trabajo. El capıtulo 3 trata sobre la me-
dicion de la pobreza en Mexico, ası como los primeros trabajos realizados en relacion a
este tema. En el capıtulo 4 se da una introduccion a la inferencia bayesiana; se define la
1La pobreza alimentaria se define como la incapacidad para obtener una canasta basica alimentaria,
aun si se hiciera uso de todo el ingreso disponible en el hogar en comprar solo los bienes de dicha canasta.
Para las zonas urbanas se establece el valor de la canasta basica igual 790.74 pesos, en tanto que para zonas
rurales, esta es de 584.34. Para mayor detalle ver el Capitulo 5 del libro “Numeros que mueven al mundo:
la Medicion de la Pobreza en Mexico”, coordinado por Miguel Szekely, editorial Miguel Angel Porrua.
2
notacion y describe el teorema de Bayes. Tambien se describen los principales tipos de
datos espaciales, ası como la estructura y modelacion espacial. El capıtulo 5 indican las
bases de datos que fueron utilizadas para la construccion de la variable binaria de pobreza
alimentaria; ası mismo, se mencionan los paquetes del software R que fueron utilizados
para la manipulacion de la informacion y el mapa digital; se describe el modelo espacial
y la metodologıa para obtener una muestra de la distribucion final de los parametros con
el software WinBugs. En el capıtulo 6 se muestran los resultados de los ajustes generados
para los modelos sugeridos en este estudio, ası como sus respectivos mapas desagregados
a escala municipal y estatal. El capıtulo 7 presenta las principales conclusiones, ademas
indica lıneas de trabajo a realizar. Los anexos incluyen los codigos del software R y Win-
Bugs. El disco compacto anexo contiene la informacion de la ENIGH 2005, el codigo R para
obtener la variable binaria de pobreza alimentaria y codigo Winbugs con la informacion
para realizar el ajuste espacial, ası como los archivos Arcview para elaborar los mapas en
R.
3
2. Objetivos
a) Proponer un modelo estadıstico espacial para la prevalencia de la pobreza alimentaria
en Mexico.
b) Explicar la variacion geografica de la pobreza alimentaria en Mexico, ası como ubicar
las zonas de mayor marginacion, desde una perspectiva bayesiana.
c) Proporcionar una herramienta de analisis de informacion para la toma efectiva de
decisiones en la disminucion de la pobreza.
4
3. Antecedentes
La medicion de la pobreza en Mexico se comenzo a realizar de manera oficial en el ano
2002, utilizando la Encuesta Nacional de Ingresos y Gastos de los Hogares2 (ENIGH),
publicada por el Instituto Nacional de Estadıstica, Geografıa e Informatica (INEGI), la
cual es representativa a nivel nacional, para areas urbanas y rurales. La encuesta tiene la
ventaja de estar disenada para obtener de la manera mas precisa posible indicadores de los
ingresos y gastos de los hogares, ası como de las condiciones de la vivienda y otras variables
socioeconomicas. La principal limitacion de la ENIGH es que no permite una desagregacion
de informacion a nivel estatal o municipal. De hecho, por ser una muestra aleatoria de la
poblacion, esta encuesta no incluye informacion sobre todos los municipios del paıs.
En el trabajo de Lopez et al. (2005) se adapta y aplica al caso de Mexico una metodologıa
propuesta por Elbers et al. (2003), la cual consiste en realizar estimaciones econometricas
para incrementar el grado de precision y detalle en la medicion de uno de los indicadores de
bienestar mas comunmente utilizados: el ingreso de los hogares. La metodologıa propone
un proceso de imputacion en dos etapas. En la primera se estima un modelo de ingresos
y un modelo de heteroscedasticidad a partir de los datos de una encuesta de hogares (que
generalmente esta disenada para captar con alta precision el nivel de ingreso o gasto).
En la segunda etapa, se imputa un ingreso a cada uno de los hogares de la otra fuente
de informacion, el Censo de Poblacion (que provee datos a nivel de localidades, munici-
pios, y otras areas geograficas), utilizando el vector de parametros obtenido en la primera
etapa y se incorpora el modelo de heteroscedasticidad para minimizar los errores en el
calculo del ingreso. Con este metodo de imputacion se pretende obtener datos confiables
geograficamente desagregables.
2El hogar se define como el conjunto de personas unidas o no por lazos de parentesco que residieron
habitualmente en la misma vivienda particular y se sostuvieron de un gasto comun para comer; es decir
que consumieron de los alimentos que prepararon con un presupuesto comun, en una misma estufa o
fogon e incluso utilizaron los mismos utensilios para su preparacion, una persona que vivıa sola o que no
compartio gastos con otra (s) aunque viviera en la misma vivienda particular tambien constituye un hogar,
INEGI, 2000.
5
Por otra parte, Szekely et al. (2005), utiliza el procedimiento de Lopez et al. (2005) para
obtener una primera estimacion sobre la pobreza de ingresos y la desigualdad a nivel estatal
y municipal para Mexico. Esta estimacion permite mapear la pobreza de ingresos, ası como
determinar la contribucion de cada estado y municipio a la pobreza de ingresos. Ademas,
facilita la medicion del nivel de desigualdad en espacios geograficos desagregados, ası como
su descomposicion en terminos de la proporcion debida a desigualdades intra-estatales y
municipales.
La metodologıa de imputacion supone que si un indicador de bienestar W depende de la
variable de interes, el ingreso per capita del hogar yh, a partir de la ENIGH y el censo
de poblacion se puede obtener la distribucion conjunta de yh y una serie de variables
independientes xh.
En primer lugar se obtiene un modelo de prediccion de ingresos. Ası, la variable ych es el
ingreso del hogar h en la comunidad c y se asume que:
lnych = E [lnych|xch] + uch, (1)
donde el vector de errores se distribuye como u ∼ Γ(0,Σ) y el error se desagrega como:
uch = ηc + εch, (2)
donde ηc es el error de la comunidad c y εch corresponde al error del hogar h de la comunidad
c. Note que (1) y (2) forman un modelo jerarquico.
Por otra parte, dentro del marco del II Congreso de la Asociacion Latinoamericana de
Poblacion, llevada a cabo en Guadalajara, Sanchez (2006) realizo un estudio con relacion
a la pobreza, denominado Metodos para el analisis espacial. Una aplicacion al estudio de
la geografıa de la pobreza. Este trabajo explica tres metodos para el analisis espacial: 1)
analisis exploratorio de datos espaciales, 2) modelos de regresion espacial y 3) regresion
ponderada geograficamente. Estas tecnicas permiten visualizar la distribucion geografica
de las variables, estimar la presencia de grupos y la heterogeneidad en su comportamiento
6
en el espacio y desarrollar modelos explicativos que consideren dicha informacion. Para
mostrar su utilidad a los estudios demograficos, se aplican estas tecnicas al estudio de la
pobreza urbana en Guadalajara, Mexico. Los datos provienen del Censo de Poblacion y
Vivienda 2000 agregados por AGEB3 y son vinculados al mapa digital de la cartografıa
censal.
Del mismo modo, de acuerdo con la ley general de desarrollo social, el Consejo Nacional de
Evaluacion de la Polıtica de Desarrollo Social (CONEVAL), el cual tiene por objeto normar
y coordinar la evaluacion de las polıticas y programas de desarrollo social que ejecutan las
dependencias publicas ası como establecer los lineamientos y criterios para la definicion,
identificacion y medicion de la pobreza, en el documento Los mapas de pobreza en Mexico,
dio a conocer los resultados de sus estimaciones para la medicion multidimensional de
la pobreza a nivel estatal y municipal. Los mapas muestran dos medidas de carencias:
la pobreza por ingresos y el ındice de rezago social. Estas mediciones se construyeron a
partir de los indicadores que marca la ley y que deben ser considerados en la definicion,
identificacion y medicion de la pobreza. Las mediciones de pobreza por ingresos a nivel
estatal y municipal se realizaron empleando el procedimiento econometrico elaborado por
Elbers et al. (2003). Se combino la informacion de la ENIGH, con la informacion censal
del II Conteo de Poblacion y Vivienda 2005 (CONEVAL, 2007a). En agosto de 2007, el
CONEVAL reporto las cifras actualizadas de pobreza por ingreso a nivel nacional y en los
ambitos rural y urbano para el ano 2006, utilizando la informacion generada por el INEGI.
Estos calculos se realizaron a partir de la informacion de la ENIGH de 2006. Los datos
reportados se basan unicamente en el ingreso corriente per capita (CONEVAL, 2007b).
En relacion al analisis espacial de datos binarios, Czado et al. (2004) realizaron el trabajo
denominado: Hierarchical Binary Spatial Regression Models with Cluster Effects. Este fue
motivado por un estudio de la movilidad y el uso de opciones del transporte publico. El
interes central es identificar areas de baja/alta utilizacion del transporte publico despues de
ajustar factores explicativos tales como viaje, cualidades del individuo y de los hogares. La
3Area Geoestadıstica Basica definida por el INEGI de acuerdo a caracterısticas afines, tamano y tiempo
de recorrido similares.
7
meta fue desarrollar modelos estadısticos flexibles para una respuesta binaria con efectos
espaciales y de conglomerados.
8
4. Revision de literatura
Esta seccion describe algunos conceptos de la inferencia bayesiana, cadenas de markov y
metodos MCMC para obtener una muestra de las distribucion a posteriori y poder hacer
inferencia acerca de los parametros de interes.
4.1. Inferencia bayesiana
4.1.1. Probabilidad y teorema de Bayes
Para al menos dos eventos E y H se define P (E|H) como la probabilidad del evento E
dada la hipotesis H, la cual se atiene a los siguientes axiomas:
P1) P (E|H) ≥ 0 para todo E, H.
P2) P (H|H) = 1 para todo H.
P3) P (E ∪ F |H) = P (E|H) + P (F |H) cuando EFH = ∅.
P4) P (E|FH)P (F |H) = P (EF |H).
El axioma (P4) puede escribirse como:
P (E|FH) =P (EF |H)
P (F |H)
La forma robusta del axioma (P3) es:
P (∪∞n=1En|H) =∞∑n=1
P (En|H)
Ademas note que:
P (E) para P (E|Ω),
P (E|F ) para P (E|FΩ)
9
donde Ω es el espacio muestral (la suma del total de datos disponibles) y F ⊂ Ω, por lo
que FΩ = F . De los axiomas anteriores se sigue
0 ≤ P (E) ≤ 1,
P (Ω) = 1, P (∅) = 0,
P (∪∞n=1En) =∞∑n=1
P (En)
donde En son eventos y
P (E|F )P (F ) = P (EF )
o
P (E|F ) = P (EF )/P (F ) para P (F ) 6= 0
se define como probabilidad condicional.
Dos eventos E y F son independientes si dado H
P (EF |H) = P (E|H)P (F |H)
del axioma (P4) se sigue que si P (F |H) 6= 0 esta condicion es equivalente a
P (E|FH) = P (E|H)
ası que si E es independiente de F dado H entonces la informacion extra cuando F es
verdadera no altera la probabilidad de E dado H unicamente. Sin embargo, la restriccion
de esta interpretacion al caso donde P (F |H) 6= 0 hace la ecuacion mas general.
De manera mas general, para una secuencia de eventos (En), las parejas son independientes,
dado H, si
10
P (EmEn|H) = P (Em|H)P (En|H) para m 6= n
y parejas de eventos mutuamente independientes dado H si cualquier conjunto finito de
ellos
P (En1En2 ...Enk|H) = P (En1|H)P (En2|H)...P (Enk
|H)
pero parejas independientes no implica mutua independencia y que
P (E1E2...En) = P (E1|H)P (E2|H)...P (En|H)
no es suficiente para asegurar que la secuencia finita E1, E2, ..., En sea mutuamente inde-
pendientes dado H.
Note que de los axiomas (P4) y (P2) y el hecho que HH = H que
P (E|H) = P (EH|H)
y en particular,
P (E) = P (EΩ)
Ademas, si dado H, E implica F , esto es EH ⊂ F y ası EFH = EH, entonces por (P4)
y la ecuacion anterior
P (E|FH)P (F |H) = P (EF |H) = P (EFH|H) = P (EH|H) = P (E|H)
De lo anterior y el hecho que P (E|FH) ≤ 1 se sigue que si, dado H, E implica F , entonces
P (E|H) ≤ P (F |H).
En particular, si E implica F entonces
P (E|F )P (F ) = P (E)
11
P (E) ≤ P (F ).
Sea (Hn) una secuencia de eventos y sea E cualquier evento. Entonces
P (E) =∑n
P (E|Hn)P (Hn)
puesto que por (P4) en los terminos del lado derecho son P (EHn). Este resultado es
conocido como ley de adicion generalizada.
El resultado principal a lo anteriormente expuesto es el teorema de Bayes, el cual se deduce
como sigue: sea (Hn) una secuencia de eventos, entonces por (P4)
P (Hn|E)P (E) = P (EHn) = P (Hn)P (E|Hn)
de modo que, para P (E) 6= 0,
P (Hn|E) ∝ P (Hn)P (E|Hn)
donde 1/P (E) es la constante de proporcionalidad.
Se pueden combinar las dos condiciones anteriores para que:
P (Hn|E) =P (Hn)P (E|Hn)∑m P (Hm)P (E|Hm)
.
Ademas, si H1, H2, ..., Hn son eventos cualesquiera, entonces
P (H1H2...Hn) = P (H1)P (H2|H1)P (H3|H1H2)...P (Hn|H1H2...Hn−1)
la cual es conocida como la ley de multiplicacion generalizada, donde P (H1H2...Hn−1) 6= 0
y se puede obtener aplicando repetidamente el axioma P4.
En el caso contınuo, para dos variables x e y,
p(x, y) ≥ 0,
∫ ∫p(x, y)dxdy = 1
12
y
p(x) =
∫p(x, y)dy.
Ademas, la densidad condicional se define como
p(y|x) = p(x, y)/p(x)
donde p(x) 6= 0.
Tambien note que
p(y|x) ≥ 0,
∫p(y|x)dy = 1
y
p(y) =
∫p(x, y)dx =
∫p(x)p(y|x)dx
es claro que
p(y|x) = p(x, y)/p(x) = p(y)p(x|y)/p(x)
asi que
p(y|x) ∝ p(y)p(x|y).
La ecuacion anterior es una forma del teorema de Bayes, donde la constante de proporcio-
nalidad es
1/p(x) = 1/
∫p(y)p(x|y)dy
en el caso contınuo y
1/p(x) = 1/∑y
p(y)p(x|y)
en el caso discreto.
13
4.1.2. Naturaleza de la inferencia bayesiana
Si se esta interesado en los valores de k cantidades desconocidas
θ = (θ1, θ2, ..., θk)
(donde k puede ser uno o mas que uno) y que se tiene un conocimiento a priori acerca
de sus valores los cuales se pueden expresar en terminos de su funcion de densidad de
probabilidad
p(θ)
y suponga que se obtienen algunos datos relevantes para sus valores. Esto es, si se tienen
n observaciones
X = (X1, X2, ..., Xn)
la cual tiene una distribucion de probabilidad que depende de estas k cantidades desco-
nocidas, parametros, ası que la funcion de probabilidad (continua o discreta) del vector
X depende del vector θ. Generalmente los componentes de θ y X son enteros o numeros
reales, y los componentes de X son variables aleatorias, y ası la dependencia de X sobre θ
puede expresarse en terminos de una funcion de distribucion
p(X|θ).
Del teorema de Bayes se sabe que
p(θ|X) ∝ p(θ)p(X|θ),
donde a p(X|θ), como una funcion de θ, se le conoce como la funcion de verosimilitud,
algunas veces descrita como:
l(θ|X) = p(X|θ)
tambien escrita como: pX|θ(X|θ)
14
o
l(θ|X)(θ|X)
Tambien es natural considerar la funcion de log-verosimilitud:
L(θ|X) = log l(θ|X)
Con esta definicion y la de p(θ) como la densidad de probabilidad a priori para θ y de
p(θ|X) como la densidad de probabilidad a posteriori para θ dado X, se construye el
teorema de Bayes.
Ademas, cuando se tiene una muestra inicial de observaciones X, entonces:
p(θ|X) ∝ p(θ)l(θ|X).
Para un segundo conjunto de observaciones Y distribuidas independientemente de la pri-
mera muestra, se tiene:
p(θ|X,Y) ∝ p(θ)l(θ|X,Y).
La independencia implica
p(X,Y|θ) = p(X|θ)p(Y|θ)
de donde se deduce que
l(θ|X,Y) ∝ l(θ|X)l(θ|Y)
por lo tanto,
p(l(θ|X,Y)) ∝ p(θ)l(θ|X)l(θ|Y)
∝ p(θ|X)l(θ|Y)(3)
15
Ası que la densidad a posteriori para θ dado X y Y se obtiene tratando la a posteriori
dada X como la a priori para las observaciones de Y.
Por otro lado, ocacionalmente se necesita obtener la distribucion marginal
p(X) =
∫p(X|θ)p(θ)dθ
conocida como la distribucion predictiva de X, puesto que representa la prediccion de
X considerando la incertidumbre acerca del valor de θ y la incertidumbre residual de X
cuando θ es conocida.
4.1.3. Distribuciones a priori localmente uniformes
Una a priori que no cambia sobre la region en la que se aprecia la verosimilitud y no toma
valores grandes fuera de la region es conocida como a priori localmente uniforme. Para tal
a priori
p(θ|x) ∝ p(x|θ) = l(θ|x) (4)
ası que la a posteriori normalizada debe ser igual a la verosimilitud estandar.
De acuerdo con Bayes, por lo menos en el caso donde θ es una probabilidad desconocida
entre 0 y 1, el caso donde no se conoce nada debe representarse con una a priori uniforme.
Sin embargo, si por ejemplo,
p(θ) = 1 (0 < θ < 1) (5)
entonces para
φ = 1/θ (6)
de acuerdo con el cambio de variable, se tiene:
16
p(φ)|dφ| = p(θ)|dθ| (7)
o
p(φ) = p(θ)|dθ/dφ| = 1/φ2 (1 < φ <∞). (8)
Ademas, si no se conoce nada sobre θ entonces no se conoce nada sobre φ, la cual podrıa
ser representado por la a priori impropia
p(φ) = constante (1 < φ <∞), (9)
ası que la idea de que una a priori uniforme puede ser usada para representar la ignorancia
no es en si misma consistente.
La densidad a priori uniforme (impropia) es como una distribucion normal de varianza
infinita o precision cero,
p(θ) ∝ c (−∞ < θ <∞). (10)
4.1.4. Distribuciones a priori conjugadas
Sea l una funcion de verosimilitud l(θ|x). Se dice que la clase Π de distribuciones a priori
forma una familia conjugada si la densidad a posteriori:
p(θ|x) ∝ p(θ)l(θ|x) (11)
esta en la clase Π para toda x cuando la densidad a priori esta en Π. Si Π es una familia
conjugada y q(θ) es cualquier funcion fija, entonces la familia Ψ de densidades proporcional
a q(θ)p(θ) para p ∈ Π es tambien una familia conjugada.
Por ejemplo, sea k con distribucion binomial con ındice n y parametro π, entonces:
17
l(π|k) ∝ πk(1− π)n−k (12)
Esto es, π tiene una distribucion beta con parametros α y β, Be(α, β), si su densidad es
de la forma:
p(π) ∝ πα−1(1− π)β−1 (13)
Si π tiene una densidad a priori beta, entonces tiene una densidad a posteriori beta, por
lo que la familia de densidades beta forman una familia conjugada.
4.1.5. Modelo lineal generalizado
El modelo lineal generalizado es una extension del modelo lineal clasico. Un vector de ob-
servaciones y con n componentes se asume como una realizacion de la variable aleatoria
Y cuyos componentes estan independientemente distribuidos con media µ. La parte sis-
tematica del modelo es la especificacion del vector µ en terminos de un numero reducido de
parametros desconocidos β1, ..., βp. En el caso del modelo lineal ordinario, la especificacion
es de la forma
µ =
p∑1
xjβj (14)
donde las βj son parametros cuyos valores generalmente son desconocidos y deben ser
estimados de los datos. Sea i el ındice de las observaciones entonces la parte sistematica
del modelo puede escribirse como:
E(Yi) = µi =
p∑1
xijβj; i = 1, ..., n, (15)
donde xij es el valor de la j-esima covariable para la observacion i. En notacion matricial
(donde µ es n× 1, X es n× p y β es p× 1) puede escribirse:
18
µ = Xβ (16)
donde X es la matriz del modelo y β es el vector de parametros. Para la parte aleatoria, se
asume independencia y varianza constante de los errores. Ademas, se asume que los errores
siguen una distribucion Normal con varianza constante σ2.
El modelo lineal clasico puede resumirse de la siguiente manera:
Se asume que las componentes de Y son variables normales independientes con varianza
constante σ2 y
E(Y) = µ donde µ = Xβ. (17)
La generalizacion del modelo se simplifica reacomodando ligeramente (17) para formar las
siguientes partes
1. El componente aleatorio: las componentes de Y tienen distribuciones Normales inde-
pendientes, con E(Y) = µ y varianza constante σ2;
2. El componente sistematico: las covariables x1,x2, ...,xp producen un predictor lineal η
dado por:
η =
p∑1
xjβj; (18)
3. La liga entre las componentes aleatoria y sistematica:
µ = η. (19)
La generalizacion introduce el sımbolo η para el predictor lineal y el punto 3 especifica que
µ y η son identicos. Si se escribe
19
ηi = g(µi) (20)
donde g(·) es conocida como funcion liga. En el modelo clasico la funcion liga es la identidad.
Los modelos lineales generalizados permiten que la distribucion en (1) pueda provenir de
la familia exponencial, distinto al caso Normal, ademas la funcion liga en (3) puede ser
cualquier funcion monotona diferenciable.
Se asume que las componentes de Y tienen una distribucion de la familia exponencial y
toman la forma
fY (y; θ, φ) = exp (yθ − b(θ))/a(φ) + c(y, φ) (21)
para ciertas funciones a(·), b(·) y c(·). Si φ es conocida, este es un modelo de la familia
exponencial con parametro canonico θ. Ası, para la distribucion Normal
fY (y; θ, φ) = 1√2πσ2
exp −(y − µ)2/2σ2
= exp
(yµ− µ2/2)/σ2 − 12(y2/σ2 + log(2πσ2))
(22)
ası que θ = µ, φ = σ2 y
a(φ) = φ, b(θ) = θ2/2, c(y, φ) = −1
2(y2/σ2 + log(2πσ2)). (23)
Escribiendo l(θ, φ; y) = logfY (y; θ, φ) para la funcion de log-verosimilitud como una funcion
de θ y φ dado y. La media y la varianza de Y se puede derivar como sigue:
E
(∂l
∂θ
)= 0 (24)
y
E
(∂2l
∂θ2
)+ E
(∂l
∂θ
)2
= 0. (25)
20
De la ecuacion (21),
l(θ; y) = yθ − b(θ) /a(φ) + c(y, φ), (26)
de donde,
∂l
∂θ= y − b′(θ) /a(φ) (27)
y
∂2l
∂θ2= −b′′(θ)/a(φ) (28)
donde ′ indica la derivada respecto a θ.
De (24) y (27) se tiene que,
0 = E
(∂l
∂θ
)= µ− b′(θ) /a(φ), (29)
por lo cual,
E(Y ) = µ = b′(θ). (30)
Similarmente, de (25), (27) y (28) se tiene que,
0 = −b′′(θ)
a(φ)+
var(Y )
a2(φ)(31)
por tanto:
var(Y ) = b′′(θ)a(φ). (32)
21
La varianza de Y es el producto de: b′′(θ), que depende del parametro canonico (y por lo
tanto de la media) solamente y es conocido como funcion de la varianza, mientras que el
otro es independiente de θ y depende de φ.
La funcion a(φ) comunmente es de la forma
a(φ) = φ/w, (33)
donde φ, tambien denotado con σ2, es llamado parametro de dispersion y es constante
sobre las observaciones; w es el peso a priori que varıa de observacion a observacion. En el
caso del modelo Normal, cada observacion es la media de m lecturas independientes,
a(φ) = σ2/m (34)
ası que w = m.
Para el caso de la distribucion Binomial, donde 0 < µ < 1, la funcion liga debe satisfacer
la condicion de mapear del intervalo (0,1) de la recta real. Por ejemplo,
1. logit, η = logµ/(1− µ);
2. probit, η = Φ−1(µ); donde Φ(·) es la funcion de distribucion acumulada.
3. log-log, η = log−log(1− µ)
La funcion liga logit propicia la existencia de un estadıstico suficiente de igual dimension
a β en el predictor lineal η =∑
xjβj. Estas ligas canonicas se presentan cuando
θ = η. (35)
En notacion vectorial, el estadıstico suficiente es igual a XTY, con componentes
∑xijYi, j = 1, ..., p. (36)
22
4.1.6. Modelo lineal generalizado, enfoque bayesiano
De acuerdo con Dey et al. (2000), en su trabajo Breslow y Clayton (1993) extendieron los
modelos lineales generalizados introduciendo efectos aleatorios ademas de los efectos fijos.
Los modelos que resultaron son conocidos como modelos lineales generalizados mixtos
(MLGM), los cuales tienen una gama mas amplia de aplicacion en el analisis de datos.
Considere mediciones (discretas o continuas) para n unidades. Para la i-esima unidad, la
variable respuesta se denota por yi y el correspondiente vector de parametros se denota
por xi. La variable respuesta puede ser continua o discreta, por ejemplo binaria.
Existen ciertos supuestos distribucionales y estructurales asociados con los MLG. El prin-
cipal supuesto distribucional es que dado θi, las yi son independientes con funciones de
distribucion de la familia exponencial de un parametro, esto es
f(yi|θi) = exp[a−1(φi) yiθi − ψ(θi)+ c(yi, φi)
](37)
donde las θi son desconocidas, pero a(φi) (> 0) son conocidas. El supuesto usual es que
θi = h(xTi b), donde h es una funcion suficiente y estrictamente creciente, b(p × 1) es un
vector de coeficientes de regresion no conocidos y xi(p× 1) son vectores diseno conocidos
de dimension p. Los parametros θi son conocidos como parametros canonicos. Los casos
mas importantes son la distribucion binomial con parametro de probabilidad de exito
p = exp(θi)/ [1 + exp(θi)], para a(φi) = 1, y la distribucion Poisson con media λi = exp(θi),
a(φi) = 1. La distribucion N(µi, σ2i ), con θi = µi y a(φi) = σ2
i .
Una estimacion clasica para un MLG es mediante el metodo de maxima verosimilitud. Por
simplicidad, se asume que φi son conocidas y que XT = (x1, ...,xn) tienen rango p. La
funcion de verosimilitud es dada por
L(b) ∝ exp
[n∑i=1
a−1(φi)yih(xTi b)− ψ(h(xTi b))
]. (38)
Ademas,
23
dlogL(b)
db=
n∑i=1
a−1i (φi)yi − ψ′(h(xTi b))h′(h(xTi b))xi, (39)
con matriz de informacion de Fisher igual a
I(b) = E
[−d
2logL
dbdbT
]= XTDV(b)∆2(b)X, (40)
donde D = Diag(a−1(φi), ..., a−1(φn)), V(b) = Diag(ψ′′(h(xT1 b)), ..., ψ′′(h(xTnb))) y ∆(b) =
Diag(h′(xT1 b), ..., h′(xTnb)).
Los estimadores de maxima verosimilitud se obtienen como soluciones iterativas de las
ecuaciones de verosimilitud dlogL(b)db
= 0. Si la log-verosimilitud l(b) = L(b) es concava,
el estimador de maxima verosimilitud es unico cuando existe al menos una b dentro del
conjunto admisible de parametros, donde l(b) obtiene el maximo local o global.
Para el modelo bayesiano con verosimilitud L(b) en (38) se requiere una distribucion a
priori para b. Dellaportas y Smith (1993) sugieren una distribucion N(b0,Σ), donde b0 y
Σ son conocidos. Entonces para y = (y1, ..., yn)T , la distribucion a posteriori de b esta dada
por
π(b|y) = exp
[n∑1
a−1(φi)yih(xTi b)− ψ(h(xTi b)) − 1
2(b− b0)TΣ−1(b− b0)
]. (41)
No obstante, la distribucion anterior es analıticamente intratable. De hecho, no existe una
expresion cerrada para la constante de normalizacion. Ademas no es facil encontrar la media
y varianza a posteriori con metodos de integracion numerica, incluso para una p moderada.
La aproximacion mas conveniente se obtiene generando muestras de la distribucion final con
tecnicas de integracion MCMC, utilizando en general el algoritmo de Metropolis-Hastings.
Sin embargo, si la distribucion a posteriori es log-concava puede utilizarse el algoritmo
ARS de Gilks y Wild (1992).
Si no se tiene informacion a priori, una alternativa es usar distribuciones a priori no in-
formativas. Esto implica que la distribucion a posteriori provee esencialmente el mismo
24
resultado numerico que en el analisis de verosimilitud. Una a priori no informativa que se
utiliza con frecuencia es πL(b) ∝ 1, la cual se debe a Laplace (1812). Sin embargo, el uso
de esta a priori propicia una distribucion a posteriori impropia.
Laud y Ibrahim (1991) propusieron la a priori de Jeffreys para resolver este problema,
dando πL(b) = |I(b)|1/2, propiciando una a posteriori πJ(b|y) propia.
4.1.7. Regla de Jeffreys
La funcion de log-verosimilitud se define como:
L(θ|x) = logl(θ|x)
El hecho de que la verosimilitud puede ser multiplicada por cualquier constante implica
que la log-verosimilitud contiene una constante aditiva.
Un concepto importante que se presenta en la estadıstica clasica, en el contexto del lımite
de Cramer-Rao para la varianza de un estimador insesgado, es que la informacion provista
por un experimento esta dada por:
I(θ) = −E∂2(log p)/∂θ2, (42)
donde la esperanza se toma sobre todos los valores de x para θ fija. Note que la informacion
depende de la distribucion de los datos mas que de cualquier valor particular de este,
ası que si se lleva a cabo un experimento y se observa, por ejemplo, que x = 3, entonces
la informacion no es diferente de la informacion si x = 5; basicamente tiene que ver con lo
que se puede esperar de un experimento antes y no despues de haberse llevado a cabo.
Debido a que la log-verosimilitud difiere de log p(x|θ) por una constante, todas sus derivadas
son iguales, y se puede definir la informacion por:
I(θ) = −E∂2L/∂θ2 (43)
25
Considere los siguientes lemas:
Lema 1. E∂L(θ|x)/∂θ = 0
Lema 2. I(θ) = E(∂L(θ|x)/∂θ)2
Si se tienen n observaciones independientes x = (x1, x2, ..., xn), entonces el logaritmo del
producto de las densidades, es la suma de las log-verosimilitudes. Por lo cual, si se define
I(θ) = −E∂2L(θ|x)/∂θ2 (44)
entonces por linealidad de la esperanza
I(θ) = nI(θ) (45)
Esto concuerda con la idea intuitiva de que n veces mas observaciones debera dar n veces
mas informacion acerca del valor de un parametro desconocido.
En el contexto bayesiano, si se transforma el parametro desconocido θ a ψ = ψ(θ) entonces:
∂log l(ψ|x)∂ψ
=∂log l(θ|x)
∂θ
dθ
dψ. (46)
Elevando al cuadrado y tomando las esperanzas sobre los valores de x (note que dθ/dψ no
depende de x), se sigue que:
I(ψ) = I(θ)(dθ/dψ)2. (47)
Por lo tanto si se utiliza una densidad a priori de la forma,
p(θ) ∝√I(θ), (48)
entonces por la regla de cambio de variable,
26
p(ψ) ∝√I(ψ). (49)
Jeffreys sugiere que la funcion (48) es una a priori de referencia (el uso de esta a priori
en ocaciones se conoce como la regla de Jeffreys). Esta regla tiene la propiedad de que
la a priori es invariante tal que, en cualquier escala escogida para medir el parametro
desconocido, resulta la misma a priori cuando la escala es transformada. De acuerdo con
Jeffreys, cualquier arbitrariedad en la eleccion de los parametros no registrara diferencia
en los resultados.
En el caso del parametro de la distribucion Binomial,
L(π|x) = x log π + (n− x)log(1− π) + constante (50)
ası que
∂2L/∂π2 = −x/π2 − (n− x)/(1− π)2. (51)
Puesto que Ex = nπ, se sigue
I(π|x) = nπ/π2 + (n− nπ)/(1− π)2 = nπ−1(1− π)−1, (52)
implicando que se tome como a priori:
p(π) ∝ π−12 (1− π)−
12 (53)
es decir, π ∼ Be(12, 1
2), la distribucion arc-seno, la cual es una a priori objetiva para este
caso.
27
4.1.8. Modelos Jerarquicos
Muchas aplicaciones implican multiples parametros conectados, de alguna manera, en la
estructura del problema implicando que el modelo de probabilidad conjunta para estos
parametros refleje la dependencia entre ellos. La caracterıstica principal de estos modelos
es que se aplica para datos anidados. Esto es, los datos yij representan la observacion de
la unidad i del grupo j con probabilidad θj, y pueden utilizarse para determinar la dis-
tribucion poblacional de las θj’s incluso si las θj no son observadas. Es natural modelar
tales datos jerarquicamente, puesto que los resultados pueden ser modelados condicional-
mente en ciertos parametros, los cuales tienen a su vez una especificacion probabilıstica en
terminos de mas parametros, conocidos como hiperparametros.
Considere un conjunto de experimentos j = 1, ..., J , donde yj es el vector de datos y θj el
vector de parametros, con verosimilitud p(yj|θj). Algunos parametros de los experimentos
pueden coincidir; cada yj puede ser una muestra de una distribucion normal por ejemplo,
por lo que θj = (µj, σ2). Para crear un modelo de probabilidad conjunta para todos los
parametros θ, se utiliza el concepto de intercambiabilidad, el cual se define a continuacion.
Si no existe mas informacion que los datos y para distinguir entre las θj’s, y no se pueden
ordenar o los parametros, se debe suponer simetrıa entre los parametros en su distribu-
cion a priori. Esta simetrıa se representa probabilısticamente por la intercambiabilidad;
los parametros (θ1, ..., θJ) son intercambiables en la distribucion conjunta si p(θ1, ..., θJ) es
invariante ante permutaciones de los ındices (1, ..., J). El desconocimiento implica inter-
cambiabilidad.
La forma mas simple de una distribucion intercambiable tiene cada uno de los parametros
θj como una muestra independiente de una distribucion a priori controlada por un vector
de parametros desconocidos φ; ası que
p(θ|φ) =J∏j=1
p(θj|φ). (54)
En general, φ es desconocido ası que la distribucion de θ debe ser el promedio de la incer-
tidumbre en φ
28
p(θ) =
∫ [ J∏j=1
p(θj|φ)
]p(φ)dφ, (55)
la mezcla de estas distribuciones iid captura la intercambiabilidad.
De acuerdo con el Teorema de Finetti, cuando en el lımite J →∞ cualquier distribucion en
(θ1, ..., θJ) puede ser escrita en la forma anterior. Estadısticamente, el modelo caracteriza
a los parametros como una muestra de una superpoblacion la cual se determina por φ
hiperparametros.
La parte fundamental de estos modelos radica en que no se conoce φ por lo que se le tiene
que asignar su propia distribucion a priori p(φ). La distribucion a priori conjunta es:
p(φ, θ) = p(φ)p(θ|φ), (56)
y la distribucion conjunta final es:
p(φ, θ|y) ∝ p(φ, θ)p(y|φ, θ)
= p(φ, θ)p(y|θ)(57)
la ultima expresion se debe a que la distribucion de los datos depende unicamente de θ.
Los hiperparametros φ afectan a y solo a traves de θ.
En necesario asignar una distribucion a priori para φ. Cuando se use una distribucion
impropia se debe tener cuidado en que la distribucion final sea propia. En la practica se
comienza con una distribucion a priori no informativa para φ.
4.1.9. Metodos de Monte Carlo
En la vida real frecuentemente se dificulta modelar las situaciones que se presentan en la
practica. Para llegar a la distribucion a posteriori,
29
p(θ|x) ∝ p(θ)l(θ|x) (58)
hay muchas tecnicas de integracion, sin embargo, la mayorıa se relaciona con la idea de
integracion Monte Carlo, como un metodo para encontrar la esperanza. La forma mas
simple de esta es
∫ b
a
f(x)p(x)dx ∼=1
n
n∑i=1
f(xi) (59)
donde x1, x2, ..., xn son numeros pseudo-aleatorios independientes con densidad p(x) en el
intervalo (a, b), el cual es en el caso mas simple, la distribucion uniforme U(a, b). Aun
cuando los resultados con esta tecnica son mejores en dimensiones mas grandes, el metodo
de Monte Carlo simple se elige como ultimo recurso, especialmente para integrales definidas
sobre regiones no estandar.
Una extension del metodo de Monte Carlo simple es el muestreo de importancia, el cual se
utiliza cuando se desea encontrar la esperanza con respecto a una densidad q(x) pero no se
pueden generar variables aleatorias con esta densidad, aunque se pueden generar variables
xi con una densidad p(x) la cual se aproxima mucho a q(x). Entonces
∫ b
a
f(x)q(x)dx =
∫ b
a
f(x)
(q(x)
p(x)
)p(x)dx ∼=
1
n
n∑i=1
f(xi)q(xi)
p(xi)(60)
4.1.10. Cadenas de Markov
Una Cadena de Markov puede considerarse como un modelo para un sistema el cual se
mueve aleatoriamente a traves de series de estados sin tener memoria de donde ha estado,
es decir, el siguiente salto depende solo del estado actual, esto es, dado el presente, el pasado
y el futuro son independientes. De esta manera se tiene una densidad de probabilidad,
denominada densidad de la probalidad de transicion, representando la probabilidad del
30
estado y en el tiempo t dado que el estado en el tiempo t − 1 es x. Si la densidad de
probabilidad de su estado en el tiempo 0 es p(0)(x), entonces la densidad de su estado en
el tiempo 1 se da por la ley de adicion generalizada como
p(1)(y) =∑x
p(0)(x)p(y|x). (61)
Cuando la suma se reemplaza por la integral, el conjunto de estados es continuo. Iterando
este proceso, se puede encontrar la distribucion del estado en cualquier tiempo t en terminos
de p0(x) y p(y|x). El punto principal es que en el lımite esta densidad se aproxima a p(y)
y no depende de p(0)(x) y es determinado unicamente por p(y|x). La distribucion lımite es
conocida como distribucion estacionaria o invariante.
4.1.11. Gibbs sampler
El algoritmo se expresa de la siguiente manera: empezar de un valor η(0) generado de la
distribucion a priori para η y entonces iterar como sigue:
1) Escoger η(i+1) de η de la densidad p(η|z(i),x)
2) z(i+1) de z de la densidad p(z|η(i+1),x)
A esta version del algoritmo se le conoce como aumento de datos encadenados, puesto que
la distribucion del siguiente par de valores (η, z) depende de los valores actuales, y ası estas
parejas se comportan como una cadena de Markov. Como resultado de las propiedades de
Cadenas de Markov, despues de un numero grande T de iteraciones, los valores resultantes
de η y z tienen una densidad conjunta, la cual se aproxima a p(η, z|x).
En general, las observaciones no son independientes, por lo tanto, para obtener observacio-
nes independientes e identicamente distribuidas se debe iterar T veces tomando el ultimo
valor para k replicas.
31
4.1.12. Muestreo de rechazo
Un metodo que no utiliza metodos de Cadenas de Markov pero que ayuda para comprender
el algoritmo de Metropolis-Hastings es el muestreo de rechazo o muestreo de aceptacion y
rechazo. Este metodo utiliza una densidad p(θ) = f(θ)/K en el caso donde la constante de
normalizacion K es casi imposible de conocer, la cual es una situacion tıpica que se presenta
en estadıstica bayesiana cuando se desea conocer la distribucion a posteriori. Se asume que
existe una densidad candidata h(θ) de la cual se simulan muestras y una constante c tal
que f(θ) ≤ c h(θ). Para obtener una variable aleatoria θ con densidad p(θ) se procede de
la siguiente manera:
1) Generar una variable Y de la densidad h(θ).
2) Generar un valor U ∼ U(0, 1) la cual se distribuye uniformemente en (0,1).
3) Entonces si U ≤ f(Y )/c h(Y ) se define θ = Y ; de otro modo regresar al paso 1.
4.1.13. Algoritmo de Metropolis-Hastings
El algoritmo de Metropolis-Hastings comienza al obtener de una densidad candidata, como
en el muestreo de rechazo, pero debido a que se consideran cadenas de Markov, la densidad
depende del estado actual del proceso. Sea q(φ|θ) la densidad candidata y se supone que∑φ q(φ|θ) = 1 . Si la densidad resultado q(y|x) es reversible en el tiempo, entonces no se
necesita buscar mas. Sin embargo, si se encuentra que,
π(θ)q(φ|θ) > π(φ)q(θ|φ) (62)
entonces parece que el proceso se mueve de θ a φ frecuentemente y de φ a θ raramente. Se
puede reducir el numero de movimientos de θ a φ introduciendo una probabilidad α(φ|θ),
llamada la probabilidad de movimiento. Para alcanzar el tiempo de reversibilidad se toma
α(φ|θ) tal que,
32
π(θ)q(φ|θ)α(φ|θ) = π(φ)q(θ|φ) (63)
asi que
α(φ|θ) =π(φ)q(θ|φ)
π(θ)q(φ|θ). (64)
No se requiere reducir el numero de movimientos de φ a θ en tal caso, ası que se toma
α(θ|φ) = 1 y similarmente α(φ|θ) = 1 en el caso donde la desigualdad se invierte y se tiene:
π(θ)q(φ|θ) < π(φ)q(θ|φ). (65)
La formula general es
α(φ|θ) = min
[π(φ)q(θ|φ)
π(θ)q(φ|θ), 1
](66)
ası que la probabilidad de cambiar del estado θ al estado φ es p∗(φ|θ) = q(φ|θ)α(φ|θ),
mientras que la probabilidad de que el resto de la cadena en su estado actual θ es:
r(θ) = 1−∑φ
q(φ|θ)α(φ|θ). (67)
La matriz de probabilidades de transicion es dada por
p(φ|θ) = p∗(φ|θ) + r(θ)δ(φ|θ) = q(φ|θ)α(φ|θ) +
(1−
∑φ
q(φ|θ)α(φ|θ)
)δ(φ|θ) (68)
Note que es suficiente conocer la densidad objetivo π(θ) hasta una constante multiple,
debido a que aparece en el numerador y denominador de la expresion α(φ|θ). Ademas, si
la densidad candidata q(φ|θ) es simetrica, es decir, q(φ|θ) = q(θ|φ), entonces, α(φ|θ) se
reduce a
33
α(φ|θ) = min
[π(φ)
π(θ), 1
](69)
El algoritmo de Metropolis-Hastings se puede resumir de la siguiente manera
1) Muestrear un punto candidato θ∗ de una distribucion de salto q(θ∗|θ(t−1)).
2) Calcular α = min[
p(θ∗)q(θ(t−1)|θ∗)p(θ(t−1))q(θ∗|θ(t−1))
, 1].
3) Generar un valor U ∼ U(0, 1) el cual se distribuye uniformente en (0,1).
4) Entonces si U ≤ α se define θ(t) = θ∗; de otro modo, θ(t) = θ(t−1).
5) Regresar la secuencia θ(1), θ(2), ..., θ(n).
Se ignoran los valores de θ(i) hasta que la cadena converge al equilibrio.
En el muestreo de Gibbs el proceso salta de acuerdo con la probabilidad de transicion
p(θj|θ(t−1)−j ,x). Una modificacion conocida como Metropolis dentro del muestreador de
Gibbs, consiste en muestrear un punto candidato θ∗j distinto de θ(t)j con probabilidad:
p(θ∗j |θ(t−1)−j ,x)
1− p(θ(t−1)−j |θ
(t−1)−j ,x)
. (70)
El valor θ(t−1)j se reemplaza por θ∗j con probabilidad:
α = min
1− p(θ(t−1)
j |θ(t−1))
1− p(θ∗j |θ(t−1))
, 1
(71)
Esta modificacion es estadısticamente mas eficiente, aunque ligeramente mas complicada
que el muestreador de Gibbs y es utilizada en WinBugs.
34
4.2. Estadıstica espacial
4.2.1. Datos espaciales
En estadıstica espacial se distinguen tres tipos de datos (Cressie, 1993): datos geoestadısti-
cos o georeferenciados, datos de rejilla o datos en un area y datos de procesos puntuales.
Para mayor detalle puede consultarse tambien Banerjee et al., 2004.
Los datos geoestadısticos se observan en s localizaciones de un conjunto no contable D ∈ Rd
donde d especifica la dimensionalidad del espacio. Generalmente, las localizaciones se ex-
presan por su latitud, longitud y altitud. Las observaciones se toman en cada localizacion
y se consideran como una realizacion de un proceso estocastico espacial denotado gene-
ralmente por Z(s). El objetivo es predecir el proceso en nuevas localizaciones, mediante
tecnicas de Kriging, a partir de los datos observados en las localizaciones muestreadas. El
metodo precisa del conocimiento de la funcion de covarianza o del semivariograma.
Los datos de rejilla se presentan en una region deD ∈ Rd contable, es decir un numero finito
de areas con vecindad bien definida, regular o irregularmente espaciadas. Esta metodologıa
se aplica frecuentemente en estudios epidemilogicos.
Los datos de procesos puntuales espaciales D es una coleccion de sucesos aleatorios cuya
realizacion se llama proceso puntual, donde cada suceso indica la localizacion de un evento
de interes.
35
4.2.2. Autocorrelacion, dependencia y heterogeneidad espacial
La autocorrelacion espacial, segun Vilalta (2005), es la concentracion o dispersion de los
valores de una variable en un mapa. Esta medida refleja el grado en que los objetos o
actividades en una unidad geografica son similares a otros objetos o actividades en unidades
geograficas proximas (Goodchild, 1987). Lo anterior sugiere que unidades geograficamente
cercanas dan lugar al surgimiento de clusters, por ejemplo, en nuestro analisis se esperarıa
que hogares pobres estuvieran relativamente cerca de otros pobres.
La dependencia espacial se presenta cuando el valor de la variable dependiente en una
unidad espacial es parcialmente funcion del valor de la misma variable en unidades vecinas
(Flint et al., 2000). La diferencia entre correlacion y dependencia espacial es, fundamen-
talmente, en el uso de las palabras; esto es, la primera se refiere simultaneamente a un
fenomeno y tecnica estadıstica, y el segundo a una explicacion teorica.
La heterogeneidad espacial se refiere a la variacion de las relaciones entre las variables en
el espacio. En terminos teoricos, la heterogeneidad espacial se debe a una variacion real y
sustantiva que evidencia la existencia y validez del contexto geografico en la definicion de,
por ejemplo, un comportamiento social. La heterogeneidad espacial indica la presencia de
diferencias sistematicas en la ocurrencia de un fenomeno en distintas regiones geograficas,
de tal forma que este podrıa tener diferentes distribuciones en un subgrupo espacial de
los datos, simplemente cambiando con la ubicacion de las unidades. Entonces, se podrıa
hablar de heterogeneidad si la region sur tiene niveles medios de pobreza, distintos de la
region norte o si las variables explicativas tienen un efecto diferente en ciertas regiones.
4.2.3. Modelos lineales generalizados con efectos espaciales
Generalmente se asume que los efectos aleatorios en los modelos mixtos son independientes
y tienen una distribucion estandar tal como la normal o gamma. Sin embargo, con los
metodos MCMC, en particular el muestreo de Gibbs, tales restricciones no son necesarias
y pueden utilizarse en la practica modelos aun mas complejos, tal como aquellos que tienen
efectos aleatorios correlacionados.
36
Con ayuda de los metodos MCMC se puede extender el modelo lineal generalizado a aquel
que incorpora efectos aleatorios residuales al termino lineal, no tomados en cuenta en el
ajuste. Estos terminos minimizan la perturbacion ocacionada por observaciones atıpicas.
Para este modelo, sean Y1, ..., YN observaciones aleatorias independientes, donde Yi tiene
densidad
fi(yi|ηi, φ) = exp[Ai(φ)−1yiηi −Bi(ηi) + Ci(yi;φ)
]. (72)
La funcion Ai(φ) es comunmente de la forma Ai(φ) = φw−1i , donde wi son los pesos previa-
mente especificados. Frecuentemente se asume que el parametro de escala φ es conocido.
Cuando Yi sigue una distribucion binomial con parametros mi y pi, φ = 1, Ai(φ) = 1,
ηi = logpi/(1− pi), Bi(ηi) = milog1 + exp(ηi) y Ci(yi;φ) = −log[mi!/yi(mi − yi)!].
Generalmente se desea modelar la variabilidad de ηi tomando en cuenta ciertas covariables.
Los parametros ηi se modelan como sigue
hi(ηi) = x1iθ, (73)
donde las hi son funciones monotonas, X1 = (x11, ...,x1n)t es la matriz diseno de N × p y
θ es el vector de efectos fijos. ηi es el parametro canonico, φ es el parametro de escala y hi
es la funcion liga.
El siguiente modelo incluye efectos aleatorios
hi(ηi) = xt1iθ + xt2iZ, (74)
donde hi es una funcion monotona, X1 = (x11, ...,x1n)t y X2 = (x21, ...,x2n)t son las
matrices diseno de N ×p yN ×k, el vector θ de p×1 representa los efectos fijos y el vector
Z de k×1 a los efectos aleatorios. Este tipo de modelos es ampliamente usado en el mapeo
de enfermedades.
37
El modelo se puede extender agregando efectos de los residuos al modelo
hi(ηi) = xt1iθ + xt2iZ + ei, (75)
donde e = (e1, ..., eN)t son los efectos de los residuales, tal que E(ei) = 0. Se asume que Z
y e son mutuamente independientes. Los efectos de los residuales se incluyen para tomar
en cuenta otras fuentes de variacion, tal como observaciones atıpicas. ei es completamente
diferente a Z en el sentido que Z toma en cuenta efectos aleatorios geograficos y correlacion
espacial. A este tipo de modelos se le conoce como Modelo Lineal Generalizado Mixto y
son discutidos ampliamente en Dey et al. (2000).
Cuando Yi sigue una distribucion binomial, la funcion liga logit es canonica y logit(pi) =
logpi/(1− pi) = ηi− log(mi− eηi) = hi(ηi), resultando en una regresion logıstica. Las ei
pueden ser iid normal con media 0 y varianza δ0 o exp(ei) son iid gamma(R,R), R > 0.
Como caso especial, Ghosh et al. (1988) utilizo ei en un modelo binomial-normal e incor-
poro efectos espaciales tomando X2Z = U, donde U sigue una distribucion definida por
un modelo condicionalmente autorregresivo (CAR(1)) de Besag (1974).
Historicamente se ha asumido que los efectos aleatorios son independientes en este tipo
de modelos; sin embargo, existen situaciones donde los efectos deben ser modelados como
correlacionados. Los modelos correlacionados son apropiados para los efectos espaciales.
Entre los metodos que existen para integrar informacion espacial esta la especificacion
directa de la matriz de correlacion. Si los efectos aleatorios estan linealmente ordenados, por
ejemplo con datos longitudinales serıa conveniente especificar una estructura de correlacion
directamente, modelando la correlacion como funcion decreciente respecto a la distancia,
asumiendo que Z = (Z1, ..., Zk)t sigue una distribucion NMV(0,Σ), donde Σ = (σij) de
k × k, con elementos
σij = τρ|i−j| (76)
38
para τ > 0 y ρ ∈ (−1, 1).
Otro manera de incorporar efectos aleatorios al modelo, es mediante un modelo AR(1), tal
que
Zi = ρZi−1 + εi, i = 2, ..., k, (77)
donde ρ ∈ (−1, 1), y (ε1, ..., εk)iid∼ N(0, δ1). Si Z1 ∼ N(0, δ1/(1−ρ2)), entonces Z sigue una
distribucion NMV(0,Σ), donde Σ = (σij) de k × k y τ = δ1/(1− ρ2).
El modelo AR(1) generalizado se define como
Zi = ρk∑j=1
CijZj + εi (78)
donde Cij son constantes fijas, tal que Cii = 0, ε1, ..., εkiid∼ N(0, δ1), ρ es el coeficiente de
correlacion de Zi en el sentido que entre mas grande sea |ρ|, mas fuerte es la correlacion
entre los componentes de Z. Si las Zi estan linealmente ordenadas, se define su distribucion
conjunta asumiendo lo siguiente
Z1 = ρZ2 + ε1
Zi = ρ(Zi−1 + Zi+1) + εi, i = 2, ..., k − 1,
Zk = ρZk−1 + εk,
(79)
donde C = (Cij) de k × k es la matriz de coeficientes, I de k × k la matriz identidad y
Wρ = I− ρC, (80)
para el modelo general en (78) es equivalente a WρZ = (ε1, ..., εk)t. Si Wρ no es singular,
Z tiene distribucion normal multivariada con media cero y matriz de covarianza Σ =
δ1(WtρWρ). Una eleccion comun para C es la matriz de adyacencias A = (aij)k×k definida
por
39
aij =
1, si j es adyacente a i
0, de otro modo(81)
La clase de distribuciones para Z cuando Wρ = I−ρA ha sido utilizada para la modelacion
de efectos regionales en el mapeo de enfermedades.
Una manera de ver la a priori de Z es a traves de distribuciones condicionales de Zi, tal
que Z−j = (Zj, j 6= i). Para el modelo AR(1) simple (77) puede mostrarse que B = δ1Σ−1
es una matriz triangular con (1, 1+ρ2, ..., 1+ρ2, 1) en la diagonal y −ρ fuera de la diagonal.
Ademas, se sigue que Z tiene la propiedad de Markov
Zi|Z−i ∼ N(ρ
1 + ρ2(Zi−1 + Zi+1),
δ1
1 + ρ2), para i = 2, .., k − 1, (82)
es decir, la distribucion de Zi depende solo de las variables adyacentes.
Por otra parte, los modelos CAR son utilizados con frecuencia por sus propiedades de
Markov en modelacion espacial. Un modelo popular tal como
Zi|Z−i ∼ N
(ρ
di
k∑j 6=i
CijZj,δ1
di
), (83)
donde Cij y di > 0 son constantes tal que Cii = 0. Este es un caso especial del modelo de
Besag (1974) con
f(Zi|Z−i) =
(αi
2πδ1
)1/2
exp
− αi2δ1
(Zi −
k∑j 6=i
βijZj
)2 (84)
i = 1, ..., k. Suponga que B es una matriz de k × k con αi en la diagonal y −αiβij fuera
de la diagonal. Besag probo que si B es simetrica y positiva definida, estas distribuciones
condicionales producen la distribucion conjunta de Z,
40
f(Z) = (2πδ1)−k/2|B|1/2exp
(− 1
2δ1
ZtBZ
), (85)
es decir, Z ∼ NMV(0, δ1B−1). Suponga que
B = Bρ = D− ρC, (86)
donde D es una matriz diagonal con elementos positivos (d1, ..., dk) y C es una matriz
simetrica con Cii = 0. Si Bρ es positiva definida, entonces la distribucion condicional y
conjunta de Z son como se describe en (83) y (85), respectivamente.
Estos modelos son importantes debido a que las distribuciones condicionales dependen so-
lamente de los valores vecinos para Zi, lo cual es deseable para analisis bayesiano utilizando
metodos MCMC.
Asuma que C = A es la matriz de adyacencias y di =∑
j Cij. Si ρ ∈ (−1, 1), entonces B
es positiva definida y la distribucion condicional de Zi dado Z−i es N(ρZi, δ1/ni), donde ni
es el numero de vecinos de la localizacion i, y Zi es la media de ni vecinos Zj’s, por lo que
αi = ni y βij = ρ/ni si j es adyacente a i y cero de otro modo. Este modelo fue estudiado
por Besag (1975) y Ripley (1981).
4.2.4. Inferencia bayesiana mediante MCMC para MLGM
La inferencia bayesiana se puede implementar mediante metodos MCMC con algoritmos
tales como muestreo Gibbs y/o Metropolis. Asumiendo que los componentes de varianza δi
siguen una distribucion a priori gamma inversa (ai, bi), entonces el total de distribuciones
condicionales son las siguientes:
1. θ|(η, φ,Z, δ0, δ1) ∼ NMVρ((Xt1)(X1)−1Xt
1(V−X2Z), δ0(Xt1X1)−1).
2. Z|(η, φ,θ, δ0, δ1) ∼ NMVk(M1Xt2(V−X1θ), δ0M1), donde M1 = (Xt
2X2 + δ0δ−11 B)−1
3. δ0|(η, φ,θ,Z, δ1) ∼ IG(α0 + n2, b0 + 1
2(V−X1θ −X2Z)t(V−X1θ −X2Z))
41
4. δ1|(η, φ,θ,Z, δ0) ∼ IG(α1 + k2, b1 + 1
2ZtBZ)
5. Dados (φ,Z, δ0, δ1), ηj (o υj = hj(ηi)) son independientes. Ademas, puesto que ηj y
vj tienen una relacion uno a uno en la transformacion, se puede simular de ηj o vj,
dependiendo de la simplicidad. La densidad de ηj dado (φ,θ,Z, δ0, δ1) es:
sj(ηj) ∝ exp
[yjηj −Bj(ηj)
Aj(φ)−hj(ηj)− xt1jθ − xt2jZ2
2δ0
]h′j(ηj)
y la densidad de vj dado (φ,Z, δ0, δ1) es:
sj(vj) ∝ exp
[yjh−1j −Bjh−1
j (vj)Aj(φ)
−vj − xt1jθ − xt2jZ2
2δ0
],
donde h−1j es la funcion inversa de hj.
6. Si φ tiene una densidad a priori g(φ), entonces su distribicion a posteriori dado (η,θ,Z, δ0, δ1)
es
g∗(φ) ∝ g(φ)N∏i=1
exp[Ai(φ)−1yiηi −Bi(ηi)+ Ci(yi;φ)]
Con frecuencia, la distribucion de ηi o vi es log-concava. En el caso binomial, cuando
hi(ηi) = ηi = logpi/(1− pi), se tiene
si(ηi) ∝ exp
[yiηi −milog(1 + eηi)− ηi − log(mi)− (xt1iθ + xt2iZ)2
2δ0
].
Se puede mostrar que
∂2
∂η2i
logsi(ηi) = −mieηi(1 + eηi)−2 − δ−1
0 < 0
Por lo que la densidad condicional de ηi = vi dado (φ,Z, δ0, δ1) es log-concava.
42
5. Metodologıa
5.1. Base de datos
Los datos utilizados en esta investigacion provienen de la ENIGH del ano 2005, la cual es
un proyecto de generacion estadıstica que realiza el INEGI desde el ano de 1984. Tiene la
finalidad de proporcionar un panorama estadıstico del comportamiento del ingreso y gasto
de los hogares en cuanto a su monto, procedencia y distribucion, para apoyar la toma de
decisiones en materia de polıtica economica y social, ası como para brindar informacion
util a investigadores, academicos y organismos internacionales.
La ENIGH es importante en la generacion de estadıstica dado que proporciona los datos
necesarios para conformar la Cuenta de Hogares del Sistema de Cuentas Nacionales de
Mexico, cubriendo la tematica correspondiente a los gastos que realizan los integrantes del
hogar, tanto monetarios como no monetarios, en la adquisicion de bienes de consumo final,
ası como los ingresos que perciben como pago al factor trabajo, capital y subsidios.
La informacion captada en el levantamiento de la ENIGH se compone de seis tablas con
extension dbf (dBase)
hogares contiene caracterısticas de los hogares, de las viviendas y el factor de expan-
sion.
poblacion define caracterısticas sociodemograficas y ocupacionales de los miembros
del hogar.
ingresos proporciona los ingresos y percepciones de capital de cada uno de los miem-
bros de los hogares.
gastos contiene los gastos realizados por el hogar.
erogaciones contiene las erogaciones de capital por hogar.
nomonerario proporciona los gastos o ingresos realizados por hogar y algunos por
persona.
43
Adicionalmente, se incluye un tabla de las principales variables de la encuesta. Esta tabla
se denomina concentrado y contiene 23,174 registros, donde el 38.69 % es de zonas rulares,
y se agrupan en 572 municipios, incluıdas las 32 entidades de paıs4.
5.2. Programacion R
Para procesar la informacion de las tablas de datos se utilizo un programa en lenguaje R
(tambien conocido como GNUS, es un entorno y un lenguaje para el calculo estadıstico
y la generacion de graficos. R implementa un dialecto del lenguaje S, desarrollado en los
laboratorios Bell por Chambers et al., 1988). El software es gratuito y puede obtenerse en
la siguiente pagina http://cran.r-project.org.
Debido a la magnitud de las tablas, la informacion se almaceno en Microsof Access 2003.
Para interactuar entre Access y R se utilizo la librerıa RODBC, la cual permite realizar
consultas (Queries) mediante sentencias SQL (Structured Query Language). Las tablas
fueron enlazadas por el Folio.
Tambien se utilizaron las librerıas DCluster y Maptools para visualizar un mapa digital,
en formato shapefile (asociado al programa ArcView GIS), de los municipios de Mexico.
Con el mismo se obtuvo la matriz de vecindades de cada uno de los estados. Ademas, con
estos paquetes se graficaron los resultados en el mapa digital. El codigo de R para obtener
la informacion se incluye en los anexos.
4Esta informacion esta disponible de manera libre en la pagina http://www.inegi.org.mx
44
5.3. Modelo logıstico
La primera aproximacion para el estudio de pobreza es mediante un modelo logıstico, donde
la variable respuesta es una variable binaria, Y = (Y1, ..., Yn)t, que indica si un hogar se
clasifica con pobreza alimentaria o no, de acuerdo con la metodologıa establecida por el
CONEVAL5, donde:
Yijk =
1, hogar con pobreza alimentaria
0, de otro modo(87)
donde Yijk es la clasificacion del hogar k en el municipio j, del estado i, k = 1, ..., nij,
j = 1, ..., 572, i = 1, ..., 32.
Se asume que dado pijk, las Yijk son independientes y siguen una distribucion Bernoulli con
probabilidad de exito pijk para k = 1, ..., nij. Las probabilidades pijk se modelan a traves
de la funcion liga logit como sigue:
θijk := log
(pijk
1− pijk
)= xtijkβ (88)
El vector diseno xijk multiplicado por el vector de parametros de regresion β ∈ Rp repre-
senta los efectos fijos de covariables de ındole socioeconomico sugeridas por Lopez et al.,
(2005) y se muestran en el Cuadro 2 del anexo: Yk es la respuesta binaria dada en (87) de
acuerdo a la linea de pobreza alimentaria establecida por la Secretarıa de Desarrollo Social
(SEDESOL). Tambien se consideran como variables: el numero de miembros del hogar, la
cantidad de automoviles para uso en el hogar, numero de televisores y computadoras; asi
mismo, se incluyen variables con relacion al jefe del hogar, como son la edad, ano aprobado
en la escuela, total de horas trabajadas en la semana y estado conyugal. Ademas se toman
en cuenta cinco grupos de estados, estratificados a partir de los niveles de marginacion de
las entidades federativas (Lopez et al., 2005).
5El codigo para R se encuentra en los anexos y se basa en el archivo que genero el CONEVAL para el
paquete estadıstico SPSS.
45
5.4. Modelo espacial bayesiano
La segunda aproximacion es una modelacion espacial, la cual es un area de investigacion
con enorme proyeccion en estadıstica y ha tenido un rapido desarrollo debido al uso de
metodos de Cadenas de Markov Monte Carlo.
El objetivo es tomar en consideracion posibles efectos espaciales aleatorios en el modelo, co-
munes a muchos fenomenos socioeconomicos, para lo cual se incluye el vector b = (b1, ..., bI),
de tal manera que la dependencia espacial es tratada como una forma de heterogeneidad
no modelada en el comportamiento de la distribucion de pobreza. En contraste con los
modelos de efectos aleatorios estandar, los efectos aleatorios en lugares vecinos no son asu-
midos espacialmente independientes. Por el contrario, a los efectos aleatorios se les permite
presentar autocorrelacion espacial, como a menudo es el caso cuando unidades vecinas in-
teractuan entre sı o con atributos similares que no se incorporan en la especificacion del
modelo.
Puesto que la informacion disponible se clasifica como datos tipo area, se utiliza una ex-
tension del modelo desarrollado por Besag et al., (1991), en el contexto de restauracion de
imagenes. Este esta dado por,
θijk := log
(pijk
1− pijk
)= xtijkβ︸ ︷︷ ︸
efecto fijo
+ bi(jk)︸︷︷︸efecto espacial aleatorio
(89)
Este modelo incorpora la informacion espacial a traves de la adyacencia entre los estratos
en lugar de la distacia entre ellos (Banerjee et al., 2003). Por lo tanto,
b|λ ∼ CAR(λ) (90)
donde b = (b1(jk), ..., bI(jk)) y CAR representa una estructura condicionalmente autorre-
gresiva intrınseca (Besag y Green, 1993). En este caso, la distribucion del vector b es tal
que,
46
λI/2exp
[−λ
2
∑i adj i′
(bi − bi′)2
]∝ λI/2exp
[−λ
2
I∑i=1
mibi(bi − bi′)2
](91)
donde i adj i′ denota que las regiones i y i′ son adyacentes, bi es la media de las bi′ 6=i que
son adyacentes a bi y mi es el numero de estas adyacencias. Para permitir que los datos
tengan un intercepto α0, se restringe∑I
i=1 bi = 0. Una consecuencia de esta a priori es,
bi|bi′ 6=i ∼ N(bi, 1/(λmi)). (92)
Una distribucion gamma propia
f(λ) =sr
Γ(r)λr−1e−sλ (93)
como hiper a priori para λ, tal como lo sugiere Bernardinelli et al., (1995b), completa la
especificacion del modelo (Banerjee et al., 2003; Czado et al., 2004; Bradley y Thomas,
2000; Congdon, 2006).
Asumiendo el modelo dado por (3) y (4) la verosimilitud del vector respuesta Y es propor-
cional a
f(Y|β,b) ∝n∏k=1
exp(Yijk(xtijkβ + bi(jk)))
1 + exp(xtijkβ + bi(jk))
el cual es similar a la familia de modelos semiparametricos para datos espacio-temporales
multicategoricos.
La figura siguiente ilustra la estructura modelo jerarquico:
47
Y
@@I
β b
6
λ
Para estimar la distribucion a posteriori se utilizan metodos MCMC, en especial muestreo
Gibbs (Casella y George, 1992). Ası se obtiene un numero grande arbitrario de muestras
de la distribucion a posteriori f(β,b, λ|Y) para realizar la inferencia de los parametros,
por medio de las medias a posteriori por ejemplo.
La formulacion bayesiana asume distribuciones a priori independientes para los efectos fijos
β y el parametro espacial b dada su varianza escalar λ. Para los efectos fijos, Banerjee et
al..,(2003), sugiere una distribucion uniforme impropia plana. Por lo tanto para
Π[β,b, λ] = Π[β]× Π[b|λ]× Π[λ],
la distribucion a posteriori es,
Π[β,b, λ|Y] ∝ Π[β|b, λ,Y]× Π[b|β, λ,Y]× Π[λ|b, β,Y] (94)
donde
Π[β|b, λ,Y] = Π[β|b,Y] ∝ [Y|β,b]× [β] (95)
la cual tiene tiene el siguiente total de condicionales, para βl, l = 1, ..., p:
Π[βl|β−l,b, λ,Y] ∝n∏k=1
exp(Yijk(xtijklβl))
1 + exp(xtijkβ + bi(jk))[βl] (96)
donde β−l = (β1, ..., βl−1, βl+1, ..., βp)t. Puesto que la ultima ecuacion no representa una
distribucion estandar, se necesita un paso Metropolis-Hastings.
48
Para el parametro espacial se utiliza la densidad a priori CAR(λ) intrınseca. El total de
condicionales es proporcional a,
Π[bi|β,b−i, λ,Y] ∝ Π[Y|β,b]× [bi|β,b−i, λ]
∝∏n
i:j(i)=jexp(Yijkbi)
1+exp(xtijkβ+bi(jk))
λI/2exp[−λ
2
∑Ii=1mibi(bi − bi′)2
] (97)
donde b−i = (b1, ..., bl−1, bl+1, ..., bI)t. Tambien aquı se requiere un paso Metropolis-Hastings.
Las condicionales para el parametro de varianza espacial son las siguientes,
Π[λ|β,b,Y] = Π[λ|b] ∝ Π[b|λ]× [λ] (98)
Como densidad a priori de la varianza espacial se utiliza la distribucion gama dada en la
ecuacion (93), donde r > 0 y s > 0. Esto es, λ ∼ Γ(r, s). Por lo tanto, la distribucion de
Π[λ|β,b,Y] es otra distribucion gama, Γ(r∗, s∗), donde
r∗ = r +K
2
y
s∗ = s+1
2
∑mibi(bi − bi).
49
6. Resultados
6.1. Situacion de la pobreza en Mexico
En este trabajo se analiza la pobreza alimentaria medida a traves del ingreso, utilizando
la metodologıa establecida por el CONEVAL. Los resultados generados se presentan a
continuacion.
La encuesta de la ENIGH 2005 proporciona registros para 23 mil 174 hogares, los cuales se
agrupan en 572 municipios, como una muestra de los 32 estados de la republica mexicana.
Es importante senalar que del total de hogares considerados en la muestra, 38.69 % eran
rulares, es decir, 8 mil 966.
La Figura 1 muestra la distribucion de la pobreza observada por municipio, con base en el
calculo de la proporcion de hogares en esta situacion (ver Cuadro 1).
Los estados que albergan a los municipios clasificados en la categorıa de pobreza mas alta
son Chiapas, Guerrero, Hidalgo, Oaxaca, Puebla y Veracruz, lo cual coincide con diversos
estudios sociodemograficos en Mexico, tal como los ındices de desarrollo humano realizados
por el PNUD.
La Figura 2 muestra que de los 572 municipios involucrados en la encuesta, 13 se clasificaron
como los mas pobres paıs.
De los municipios mas pobres en Mexico, es decir, los clasificados en la categorıa 5, cuatro
son del estado de Guerrero, a saber, San Luis Acatlan (0.9333), Zapotitlan Tablas (0.9375),
Copanatoyac(0.9412), Igualapa (0.9500); tres del estado de Chiapas, Zinacantan (0.8043),
Tumbala (0.8286), Pantelho (0.8421); dos del estado de Oaxaca, Villa Sola de Vega (0.8333),
San Pedro Quiatoni (0.8500); dos de Veracruz, Ixhuatlan de Madero (0.8485), Tamiahua
(0.8571);uno de Hidalgo, Yahualica (0.9545) y uno de Puebla, Coyomeapan (1.0000).
50
Figura 1: Mapa de pobreza observada por municipio, ENIGH (2005)
51
Figura 2: Pobreza observada por municipio, ENIGH (2005)
6.2. Resultados del modelo logıstico
Ejecutando el algoritmo stepwise, el cual selecciona el mejor modelo utilizando el criterio
de informacion de Akaike (AIC por sus siglas en ingles) en el software R con la funcion
glm, las covariables que fueron seleccionadas se muestran en el Cuadro 3 de los anexos.
Como se observa en el Cuadro 3, todas las variables resultaron significativas. Con este
ajuste se obtiene una devianza de 13764.28, siendo el mejor modelo de entre los ajustados
para el analisis de la pobreza en Mexico.
El modelo logıstico tiende a ser mas utilizado en comparacion con el modelo probit, debido
a que los coeficientes pueden ser interpretados como razones de probabilidad (odds ratios).
La razon de probabilidad se puede interpretar como el aumento estimado en la probabilidad
de exito asociado con un cambio unitario en el valor de la variable predictora, en general, el
aumento estimado del cociente de probabilidad, asociado con un cambio de d unidades en
la variable predictora, es exp(dβj) para el regresor xj, suponiendo que las demas variables
predictoras son constantes (Montgomery et al.,2005).
52
Figura 3: Pobreza con el modelo logıstico por hogar, ENIGH (2005)
Aunque no es el objetivo de este trabajo, como ejemplo, se interpreta el coeficiente β1: pri-
mero se obtiene el valor de la razon de probabilidad, que no es mas que el valor exponencial
del coeficiente, esto es, el valor de β1 es 0.361945, lo cual implica un valor exponencial de
1.4361; por lo tanto, un miembro adicional en el tamano del hogar aumenta en 40 % la
probabilidad de que un hogar sea pobre manteniendo constantes las demas variables pre-
dictoras.
Los resultados indican que 16 mil 504 hogares se clasificaron en la categorıa de pobreza
alimentaria baja, de los cuales 25.98 % son rurales; 3 mil 195 hogares se clasificaron en
la categorıa 2 de pobreza, donde 58.34 % se ubican en zonas rurales; 1 mil 768 hogares
pertenecieron a la categorıa 3, con el 75.34 % de hogares rurales; 1 mil 158 en la categorıa
4, con 85.15 % rurales; por ultimo, 496 hogares se clasificaron como los mas pobres en el
paıs, de los cuales el 90.35 % son de zonas rurales.
Los estados de Chiapas, Puebla, Guerrero, Oaxaca y Veracruz agruparon al 62.30 % de los
hogares mas pobres del paıs.
Debido a que se obtienen estimaciones a nivel de hogar y se desea representar en un mapa
53
una estimacion para cada municipio, en el que se observe la dispersion de la pobreza de
acuerdo al ajuste del modelo logıstico (ver Figura 4), se utilizan los factores de expansion
proporcionados en la base del ENIGH denominada concentrado (Anexo A.1).
Figura 4: Mapa de pobreza con el modelo logıstico por municipio, ENIGH (2005)
El mapa de municipios (Figura 4) muestra que 19 se clasificaron en la categorıa de pobreza
alta, 45 en la categorıa 4, 77 en la categorıa 3, 140 en la categorıa 2 y 291 en la categorıa
1, la de menor pobreza.
Los estados en los que se encontraron los municipios mas pobres fueron Oaxaca con seis,
Guerrero y Chiapas cinco cada uno,Veracruz y San Luis dos, Puebla e Hidalgo tuvieron un
54
Figura 5: Pobreza con el modelo logıstico por municipio, ENIGH (2005)
municipio cada uno.
Utilizando nuevamente los factores de expansion, se realizaron estimaciones para cada una
de las entidades federativas.
La Figura 6 muestra que las entidades mas pobres son: Oaxaca, Chiapas e Hidalgo. En
contraste, los de mejores condiciones se encuentran en la parte norte, a excepcion del
Distrito Federal, Aguascalientes y Colima. Los resultados son similares a los que reporta
el CONEVAL en su trabajo denominado los mapas de pobreza en Mexico.
55
Figura 6: Mapa de pobreza con el modelo logıstico por estado, ENIGH (2005)
56
6.3. Resultados del modelo espacial bayesiano
En esta seccion se presentan los resultados de simulacion del modelo espacial con una
distribucion a priori CAR intrınseca. El ajuste se llevo a cabo con el sofware WinBugs
(Lawson et al., 2003), con ayuda de MLWiN (Rasbash et al., 2005), el cual permite la
aplicacion de un amplio rango de modelos jerarquicos bayesianos.
Con este modelo se obtuvo una devianza igual 13639.540, menor a la que se obtuvo con el
modelo logıstico (13764.28), indicando que este es un mejor modelo para el estudio de la
pobreza.
De acuerdo con las estimaciones, 16 mil 567 hogares se clasificaron en la categorıa de
pobreza baja, de los cuales 26.11 % de localidades rurales; 3 mil 157 hogares se ubicaron en
la categorıa 2 de pobreza, con el 58.92 % de zonas rurales; 1 mil 688 hogares se clasificaron
en la categorıa 3, donde el 74.29 % son de zonas rurales; 1 mil 150 hogares se concentran
en la categorıa 4 de pobreza, con 84.96 % en zonas rurales; por ultimo, 612 hogares se
clasifican en la categorıa de pobreza alta, siendo 89.87 % de zonas rurales.
Figura 7: Pobreza con el modelo espacial por hogar, ENIGH (2005)
57
Figura 8: Mapa de pobreza con el modelo espacial por municipio, ENIGH (2005)
De los 612 hogares clasificados con pobreza alta, los estados de Guerrero, Chiapas, Puebla,
Oaxaca y Veracruz concentraban al 61.27 %.
Como se muestra en la Figura 8, los resultados por municipio indican que 14 se clasificaron
con pobreza alta, de los cuales seis son de Guerrero, a saber, Copanatoyac, Igualapa,
Malinaltepec, San Luis Acatlan, Xochistlahuaca y Zapotitlan Tablas; cinco de Chiapas,
Pantelho, Rayon, Tumbala, Zinacantan y San Andres Duraznal; dos de Oaxaca, San Felipe
Jalapa de Dıaz y Santiago Ixtayutla; y uno de San Luis Potosı, Aquismon.
58
Figura 9: Pobreza con el modelo espacial por municipio, ENIGH (2005)
En relacion a los estados, Chiapas, Guerrero, Oaxaca e Hidalgo, resultaron como los de
mayor pobreza en Mexico. Los estados del norte presentan un menor grado de pobreza
alimentaria en relacion al sur del paıs.
Los resultados de los parametros estimados se muetran en el cuadro 4 de los anexos.
59
Figura 10: Mapa de pobreza con el modelo espacial por entidad, ENIGH (2005)
60
7. Conclusiones
De acuerdo con los resultados del criterio de informacion de la devianza bayesiana, al
incorporar efectos espaciales aleatorios se obtiene un modelo mas apropiado para los datos
de pobreza alimentaria en Mexico, en comparacion al logıstico. Sin duda, al tomar en
cuenta la posible correlacion espacial en los datos mediante el modelo espacial bayesiano,
se explica de mejor manera la pobreza. Esto es, los efectos aleatorios correspondientes a
estratos, en este caso los municipios, que guardan una vecindad una con otra tienden a ser
similares en magnitud.
Aun cuando este modelo es relativamente eficiente, se recomienda considerar mas covaria-
bles que guarden una estrecha relacion con la pobreza. Ademas, si todos los municipios
del paıs tuvieran observaciones, se tendrıa una estructura de vecindad mas desagregada en
comparacion a la de estados.
Como se describe en el desarrollo de este trabajo, solo se consideraron los datos de la
ENIGH para el ano 2005, a pesar de contar con tres muestras mas para diferentes anos;
sin duda, incluirlas en el analisis agregarıa variabilidad espacio–temporal y, por lo tanto, se
tendrıa un modelo mas eficiente, cuya complejidad alienta el uso de estadıstica bayesiana,
implementada con algoritmos de cadenas de Markov Monte Carlo.
Debido a que se considera la metodologıa establecida por el CONEVAL, el modelo ajustado
en este trabajo es una aproximacion importante, cuyos resultados son similares a los de
dicha institucion.
En relacion a los mapas, se observa que los municipios con mayor pobreza se encuentran
en la parte sur de la republica, principalmente en Chiapas, Guerrero, Oaxaca, lo cual
coincide con el trabajo del CONEVAL, 2007a. Sin embargo, debido a que el estudio de esta
institucion utiliza el metodo de imputacion de ingresos, mediante el uso de los resultados
del ENIGH y el Conteo de poblacion 2005, las estimaciones por municipio y estado difieren
ligeramente.
En este trabajo de tesis se trabajo con la lınea de pobreza alimentaria, si embargo, se
61
incluye el codigo R para la obtener las tres lıneas de pobreza: Lınea de Pobreza Alimentaria,
Lınea de Pobreza de Capacidades y Lınea de Pobreza Patrimonial, mismas que estima el
CONEVAL con SPSS.
62
8. Referencias
Akaike, H. 1973. Information theory and an extension of the maximum likelihood principle.
In Petrov, B. N. and Csaki, F. (eds), 2nd International Symposium on Information
Theory, Budapest. pp. 267-281.
Banerjee, S. and B. P. Carlin. 2003. Semiparametric Spatio-Temporal Frailty Modeling.
Environmetrics. 14:523-535.
Banerjee, S., M. M. Wall and B. P. Carlin. 2003. Frailty Modeling for Spatially Correlated
Survival Data, with Application to Infant Mortality in Minnesota. Biostatistics. 4(1):
123-142.
Banerjee, S., B. P. Carlin and A.E. Gelfand. 2004. Hierarchical Modeling and Analysis for
Spatial Data. CRC/Chapman and Hall. United States of America. pp:1:212.
Bernardinelli, L. and C. Montomoli. 1992. Empirical Bayes versus fully Bayesian analysis
of geographical variation in disease risk. Statistics in Medicine. 11:983-1007.
Besag, J. 1974. Spatial interaction and the statistical analysis of lattice systems (with
discussion). J. Roy. Statist Soc, Ser. B, 36, 192-236.
Besag, J. 1975. Statistical analysis of non-lattice data. The Statistician, 24, 179-195.
Besag, J., J. York and A. Mollie. 1991. Bayesian image restoration with two applications
in spatial statistics. Annals of the Institute of Statistical Mathematics. 43:1-59.
Besag, J. and P. Green. 1993. Spatial statistics and Bayesian computation (with discus-
sion). J. R. Statist. Soc. B, 55: 25-37.
Breslow, N. and D. Clayton. 1993. Approximate inference in generalized linear mixed mo-
dels. J. Am. Statist. Ass. 88:9-25.
Carlin, B. P. and J. S. Hodges. 1999. Hierarchical proportional hazards regression models
for highly stratified data. Biometrics. 55:1162-1170.
63
Carlin, B. P. and T. A. Louis. 2000. Bayes and Empirical Bayes Methods for Data Analysis.
Second Edition. CRC/Chapman and Hall
Casella, G. and E. George. 1992. Explaining the Gibbs sampler. Amer. Statistician. 46:167-
174.
Chambers, J. M., R. A. Becker and A. R. Wilks. 1988. The New S Language. Chapman
& Hall, New York.
CONEVAL (Consejo Nacional de Evaluacion de la Polıtica de Desarrollo Social). 2006.
Aplicacion de la Metodologıa del Comite Tecnico para la Medicion de la Pobreza
2000-2005. Mexico, D.F.
http://www.coneval.gob.mx/coneval/comunicados.html.
CONEVAL (Consejo Nacional de Evaluacion de la Polıtica de Desarrollo Social) 2007a.
Los Mapas de Pobreza en Mexico. Mexico, D.F.
CONEVAL (Consejo Nacional de Evaluacion de la Polıtica de Desarrollo Social). 2007b.
Reporta CONEVAL cifras actualizadas de pobreza por ingresos 2006. Direccion de
Informacion y Comunicacion Social. Mexico, D.F.
Congdon, P. 2006. Bayesian Statistical Modelling. Second edition. John Wiley & Sons,
Ltd. England.
Cressie, N. A. C. 1993. Statistics for Spatial Data, revised edition. Wiley. New York.
CTMP (Comite Tecnico para la Medicion de la Pobreza). 2002. Medicion de la pobre-
za, variantes metodologicas y estimacion preliminar. Secretarıa de Desarrollo Social.
Documentos de Investigacion. Serie 1. Mexico.
Czado, C. and S. Prokopenko. 2004. Modeling transport mode decisions using hierarchical
binary spatial regression models with cluster effects. Discussion Paper 406. SFB 386.
Dey, K. D, S. K. Ghosh and B. K. Mallick. 2000. Generalized linear models, a bayesian
perspective. Dekker, Inc. New York.
64
Diggle, P., J. Tawn and R. Moyeed. 1998. Model-based geostatistics (with discussion).
Applied Statistics. 47(3):299-350.
Elbers, C., J. O. Lanjouw , and P. Lanjouw. 2003. Micro-level estimation of poverty and
inequality. Econometrica. 71(1):355-364.
Flint, C., M. Harrower and R. Edsall. 2000. But How Does Place Matter? Using Baye-
sian Networks to Explore a Structural Definition of Place. Documento presentado en
The New Methodologies for the social sciencies conference. University of Colorado,
Boulder.
Gelman, A., J. B. Carlin, H. S. Stern and D. B. Rubin. 2004. Bayesian Data Analysis.
Second Edition. CRC/Chapman and Hall. Boca Raton, Florida. United States of
America. 695 p.
Gelman, A. and J. Hill . 2006. Data Analysis Using Regression and Multilevel/Hierarchical
Models. Cambridge. New York.
Gilks, W. R., N. G. Best and K. K. C. Tan. 1995. Adaptive Rejection Metropolis Sampling
within Gibbs Sampling. Applied Statistics. 44: 455-472.
Ghosh, M. and K. Natarajan. 1998. Small area estimation: a Bayesian perspec-perspective.
Multivariate, Design and Sampling. Ed. S. Ghosh, Marcel Dekker. New York (to
appear).
Ghosh, M. , K. Natarajan, T.W.F. Stroud and B. P. Carlin. 1998. Generalized linear mo-
dels for small-area estimation. Journal of the American Statistical Association, 93,
273-282.
Goodchild, M . 1987. Spatial Analytical Perspective on Geographical Information Sys-
tems”, International Journal of Geographical Information Systems, 1:327–334
INEGI (Instituto Nacional de Estadıstica, Geografıa e Informatica). 2000. Encuesta Na-
cional de Ingresos y Gastos de los Hogares, 2000. Documento Metodologico. INEGI,
Mexico. 314 p.
65
Lawson, A. B. , W. J. Browne and C. Vidal-Rodeiro. 2003. Disease mapping with Winbugs
and Mlwin. John Wiley & Sons, Chichester, England. 282 p.
Lopez C., L.F., A. Melendez, E. Rascon, L. Rodrıguez-Chammusy y M. Szekely. 2005.
Poniendo al ingreso de los hogares en el mapa de Mexico. Tecnologico de Monterrey,
Escuela de Graduados en Administracion Publica y Polıtica Publica, Mexico D.F.
Lopez C., L.F., E. Rascon, L. Rodrıguez, A. Melendez y M. Szekely. 2005. Poniendo al bie-
nestar en el mapa: estimaciones de ingreso estatal y municipal en Mexico, Secretarıa
de Desarrollo Social. Mexico DF.
Montgomery, D. C., E. A. Peck y G. G. Vining. 2005. Introduccion al analisis de regresion
lineal. V. Gonzalez P. Primera edicion en espanol, Segunda reimpresion. Continental,
Mexico D.F. 588 p.
Ntzoufras I. 2009. Bayesian Modeling Using WinBUGS. John Wiley & Sons, Inc. New
Jersey.
Pettitt, A., I. Weir and A. Hart. 2002. Conditional autoregressive Gaussian process for
irregularly spaced multivariate data with application to modelling large sets of binary
data. Statistics and Computing 12: 353-367.
Rasbash J., F. Steele, W. Browne and B. Prosser. 2005. A User’s Guide to MLwiN. Centre
for Multilevel Modelling University of Bristol. United Kingdom.
Ripley, B. D. 1981. Spatial Statistics. Wiley, New York.
Sanchez P., L. 2006. Metodos para el analisis espacial. Una aplicacion al estudio de la
geografıa de la pobreza. II Congreso de la Asociacion Latinoamericana de Poblacion,
Guadalajara, Mexico.
Szekely P., M. 2005. Numeros que mueven al mundo: la medicion de la pobreza en Mexico.
Miguel Angel Porrua, SEDESOL-CIDE-ANUIES.
66
Szekely P., M., L. F. Lopez C., A. Melendez, E. G. Rascon y L. Rodrıguez-Chammusy.
2005. Poniendo a la pobreza de ingresos y a la desigualdad en el mapa de Mexi-
co. Tecnologico de Monterrey, Escuela de Graduados en Administracion Publica y
Polıtica Publica, Mexico D.F. Working Paper.
Spiegelhalter, D. J., N. Best, B. P. Carlin and A Van Der Linde. 2002. Bayesian measures of
model complexity and fit (with discussion). To appear Journal of the Royal Statistical
Society, Series B.
Spiegelhalter, D., A. Thomas, N. Best and D. Lunn. 2003 WinBUGS User Manual. Version
1.4. http://www.mrc-bsu.cam.ac.uk/bugs
Vilalta P., J.C. 2005. Como ensenar autocorrelacion espacial. Economıa, Sociedad y Terri-
torio. 18:323–333
Voss, P., D. Logg, R. Hammer y S. Friedman. 2005. County Child Poverty Rates in the
US: A Spatial Regression Approach.
67
A. Anexos
A.1. Cuadros
Cuadro 1: Pobreza alimentaria de los hogares por estado, ENIGH (2005)Clave Entidad Pobre No pobre
01 Aguascalientes 37 347
02 Baja California 19 531
03 Baja California Sur 9 391
04 Campeche 128 416
05 Coahuila 48 506
06 Colima 22 367
07 Chiapas 264 386
08 Chihuahua 108 668
09 Distrito Federal 42 1152
10 Durango 117 444
11 Guanajuato 67 543
12 Guerrero 301 360
13 Hidalgo 165 425
14 Jalisco 81 425
15 Mexico 144 1082
16 Michoacan 104 433
17 Morelos 45 427
18 Nayarit 42 359
19 Nuevo Leon 34 491
20 Oaxaca 248 438
21 Puebla 408 1470
22 Queretaro 63 393
23 Quintana Roo 66 378
24 San Luis Potosı 130 396
25 Sinaloa 71 398
26 Sonora 167 1669
27 Tabasco 338 1460
28 Tamaulipas 76 533
29 Tlaxcala 65 320
30 Veracruz 385 1372
31 Yucatan 63 392
32 Zacatecas 53 292
68
Cuadro 2: Variables utilizadas para modelar la prevalencia de la pobrezaParametro Variable Descripcion
Yijk poblp1 Lınea de Pobreza Alimentaria, 1 pobre, 0 no pobre
β1 tam hog Poblacion total
β2 VEHI06 1 automoviles para uso en el hogar
β3 EQH10 07 Television a color
β4 EQH10 08 Videocasetera
β5 EQH10 10 Licuadora
β6 EQH10 30 Refrigerador
β7 EQH10 23 Lavadora
β8 EQH10 20 Computadora
β9 EDAD Edad del jefe del hogar
β10 SERV01 1 Servicio de lınea telefonica 1 si , 2 no
N INSTR161: Ano aprobado en la escuela
β11 N INS NULO Ano aprobado en la escuela, 1 Ninguno, 0 otro
β12 N INS prep Ano aprobado en la escuela, 1 Preparatoria o bachillerato, 0
otro
β13 N INS NORMAL Ano aprobado en la escuela, 1 Normal, 0 otro
β14 N INS CTECNIC Ano aprobado en la escuela, 1 Carrera tecnica o comercial,
otro
β15 N INS PROFESIONAL Ano aprobado en la escuela, 1 Profesional, 0 otro
β16 HORAS TRAB Total de horas trabajadas a la semana Suma de las horas tra-
bajadas en su(s) empleo(s)
EDOCONY: Estado conyugal
β17 EDOUNIONLIB Estado conyugal, 1 Vive con su pareja en union libre , 0 otro
β18 EDOCASADO Estado conyugal, 1 Casado (a) , 0 otro
REGION: estratificacion a partir de los niveles de marginacion de las entidades federativas
β19 REGION 1 Marginacion muy baja: Aguascalientes, Baja California, Baja
California Sur, Coahuila, Chihuahua, Distrito Federal y Nuevo
Leon.
β20 REGION 2 Marginacion baja: Colima, Jalisco, Estado de Mexico, Sonora
y Tamaulipas.
β21 REGION 3 Marginacion media: Durango, Guanajuato, Morelos, Nayarit,
Queretaro, Quintana Roo, Sinaloa, Tlaxcala y Zacatecas.
β22 REGION 4 Marginacion alta: Campeche, Hidalgo, Michoacan, Puebla,
San Luis Potosı, Tabasco y Yucatan.
β23 REGION 5 Marginacion muy alta: Chiapas, Guerrero, Oaxaca y Veracruz.
69
Cuadro 3: Parametros estimados del modelo logıstico
Coeficientes: Estimado Error Std. Valor de z Pr(> |z|)
(Intercepto) -2.725238 0.185523 -14.689 < 2e-16 ***
tam hog 0.361945 0.010850 33.359 < 2e-16 ***
VEHI06 1 -0.521723 0.079916 -6.528 6.65e-11 ***
EQH10 07 -0.634414 0.041801 -15.177 < 2e-16 ***
EQH10 08 -0.433681 0.070085 -6.188 6.10e-10 ***
EQH10 10 -0.480358 0.050789 -9.458 < 2e-16 ***
EQH10 30 -1.019515 0.161024 -6.331 2.43e-10 ***
EQH10 23 -0.409994 0.052099 -7.869 3.56e-15 ***
EQH10 20 -0.512685 0.051378 -9.979 < 2e-16 ***
EDAD -0.008048 0.001592 -5.054 4.33e-07 ***
SERV01 1 0.743377 0.062568 11.881 < 2e-16 ***
N INS NULO 0.349644 0.060160 5.812 6.18e-09 ***
N INS prep -0.472792 0.103736 -4.558 5.17e-06 ***
N INS NORMAL -1.959703 0.522829 -3.748 0.000178 ***
N INS CTECNIC -0.639634 0.213817 -2.992 0.002776 **
N INS PROFESIONAL -1.085597 0.168775 -6.432 1.26e-10 ***
HORAS TRAB -0.013283 0.001024 -12.966 < 2e-16 ***
EDOUNIONLIB 0.412136 0.071358 5.776 7.67e-09 ***
EDOCASADO 0.262747 0.057884 4.539 5.65e-06 ***
REGION2 0.466054 0.089480 5.208 1.90e-07 ***
REGION3 0.556825 0.087885 6.336 2.36e-10 ***
REGION4 0.836051 0.080058 10.443 < 2e-16 ***
REGION5 1.144431 0.083873 13.645 < 2e-16 ***
Codigos de Significancia: 0 ’***’0.001 ’**’0.01 ’*’0.05 ’.’0.1 ’ ’1
70
Cuadro 4: Resultados de la simulacion MCMCParametro Media Desv Est Error MC 2.5 % Mediana 97.50 %
β1 0.3633 0.01064 4.53E-04 0.3432 0.3631 0.3845
β2 -0.5151 0.0803 0.001456 -0.6746 -0.5124 -0.3606
β3 -0.6336 0.04259 0.001207 -0.7168 -0.6336 -0.5517
β4 -0.4555 0.0701 0.001095 -0.5911 -0.4561 -0.3165
β5 -0.456 0.05224 0.001745 -0.5574 -0.4549 -0.3536
β6 -1.044 0.1628 0.002493 -1.374 -1.042 -0.7325
β7 -0.4349 0.05329 0.001463 -0.5359 -0.4357 -0.3275
β8 -0.5522 0.05389 0.001905 -0.6592 -0.5522 -0.4488
β9 -0.007972 0.001677 1.18E-04 -0.01123 -0.007977 -0.004522
β10 0.7401 0.06045 0.004639 0.6149 0.741 0.8505
β11 0.3446 0.06139 0.001636 0.2231 0.3449 0.4645
β12 -0.4525 0.1044 0.001814 -0.6598 -0.4511 -0.2483
β13 -2.127 0.5602 0.008111 -3.336 -2.09 -1.121
β14 -1.049 0.1704 0.002622 -1.387 -1.051 -0.7188
β15 -0.0128 0.001051 4.57E-05 -0.01478 -0.0128 -0.01067
β16 0.3527 0.07804 0.003205 0.1985 0.3529 0.5064
β17 -0.3052 0.1142 0.003051 -0.5306 -0.3047 -0.08007
β18 0.1805 0.06615 0.002883 0.04939 0.1809 0.3096
β19 0.5192 1.212 0.1414 -1.657 0.3138 3.033
β20 -2.136 1.742 0.2055 -4.687 -2.871 0.7999
β21 -0.7859 1.232 0.1451 -2.976 -0.828 1.209
β22 -0.6312 1.653 0.195 -3.068 -0.5907 2.302
carmean -1.355 0.9936 0.1176 -3.082 -1.431 0.278
71
Cuadro 5: Estimaciones del modelo espacial por estadoClave Entidad Pi Categ
1 Aguascalientes 0.06559285 1
2 Baja California 0.05330306 1
3 Baja California Sur 0.0511826 1
4 Campeche 0.17107529 3
5 Coahuila 0.04604467 1
6 Colima 0.08507055 1
7 Chiapas 0.33761102 5
8 Chihuahua 0.05023668 1
9 Distrito Federal 0.0340364 1
10 Durango 0.16642409 3
11 Guanajuato 0.15747389 3
12 Guerrero 0.2705919 4
13 Hidalgo 0.31870182 5
14 Jalisco 0.10776648 2
15 Mexico 0.10695652 2
16 Michoacan 0.16504055 3
17 Morelos 0.12093393 2
18 Nayarit 0.10387986 2
19 Nuevo Leon 0.03472733 1
20 Oaxaca 0.32551093 5
21 Puebla 0.22766829 4
22 Queretaro 0.13793612 2
23 Quintana Roo 0.11819758 2
24 San Luis 0.17678705 3
25 Sinaloa 0.13779411 2
26 Sonora 0.08350287 1
27 Tabasco 0.20674935 3
28 Tamaulipas 0.09284338 1
29 Tlaxcala 0.16554512 3
30 Veracruz 0.25933722 4
31 Yucatan 0.1859242 3
32 Zacatecas 0.16317361 3
72
A.2. Densidades estimadas con el modelos espacial en WinBugs
Figura 11: Parametros fijos
73
A.3. Criterio DIC
Recientemente, Spiegelhalter et al. (2002) han proporcionado una sencilla e intuitiva ex-
tension del Criterio de Informacion de Akaike (AIC por sus siglas en ingles; Akaike, 1973)
denominado Criterio de informacion de la Devianza (DIC). Este criterio se basa en la
distribucion a posteriori del estadıstico de la devianza,
D(θ) = −2 log f(y|θ) + 2 log h(y) (99)
donde f(y|θ) es la funcion de verosimilitud de los datos observados, vector y, dado el vector
de parametros θ y h(y) es alguna funcion normalizada de los datos por sı solos (que por lo
tanto, no tiene ningun impacto sobre la seleccion del modelo). En este enfoque, el ajuste de
un modelo se resume por la esperanza a posteriori de la devianza, D = Eθ|y[D], mientras
que la complejidad de un modelo se captura por el numero efectivo de parametros, pD. En
Spiegelhalter et al. (2002) se muestra que una definicion razonable de pD es
pD = Eθ|y[D]−D(Eθ|y[θ]) = D −D(θ) (100)
es decir, la desviacion esperada menos la desviacion evaluada en las esperanzas posteriores.
Tıpicamente, este total efectivo de parametros PD sera inferior al actual numero total de
parametros en el modelo, debido a la toma de fuerza a traves de efectos aleatorios (en
nuestro caso, la Wi). El DIC se define de forma analoga al AIC como la esperanza de la
devianza mas el numero efectivo de parametros, es decir,
DIC = D + pD (101)
Puesto que valores pequenos de D indican buen ajuste mientras valores pequenos de PD
indican un cuidadoso modelo, los valores pequenos de la suma (DIC) indican modelos
preferidos. Al igual que ocurre con el AIC y otros criterios de probabilidad penalizada, el
DIC no esta destinado para la identificacion del modelo correcto, sino simplemente como
un metodo de comparar una coleccion de modelos alternativos (todos los cuales pueden
74
ser incorrectos). Tenga en cuenta tambien que el DIC tiene libre de escala; la eleccion de
la funcion de normalizacion h(y) es arbitraria. De este modo, los valores DIC no tienen
sentido intrınseco, solo diferencias en los modelos a traves de DIC son significativos.
Ademas de su caracter general, un atractivo aspecto del DIC es que puede ser facilmente
calculado durante una corrida MCMC monitoreando θ y D(θ) y al final de la simulacion
simplemente se toma la media muestral de los valores simulados de D, menos la estimacion
de la desvianza mediante las medias muestrales de los valores simulados de θ. Esta can-
tidad puede ser calculada para cada modelo siendo considerada sin adaptacion analıtica,
funciones de perdida complicadas, muestreo MCMC adicionales (por ejemplo, de los valores
predictivos), o la inversion de cualquier matriz. Para mayor detalle consulte Spiegelhalter
et al. (2002) y Banerjee, S. et al. (2003).
75
A.4. Algoritmo ARS para muestreo Gibbs
Es una tecnica para la toma de muestras de cualquier funcion de densidad de probabilidad
f(x) univariada log-concava (Gilks et al. (1995)). El metodo se basa en el muestreo de
rechazo y no requiere de la determinacion de la moda de f(x). Es adaptable: las funciones
envelope y squeezing (que forman los limites superior e inferior para f(x)) convergen a
la densidad f(x) como producto de muestreo. Las funciones envelope y squeezing son de
variables a trozos exponenciales. La naturaleza de adaptacion permite muestras que se
pueden extraer con pocas evaluaciones de f(x); por lo tanto, es util en situaciones en las
que la evaluacion de f(x) es computacionalmente dificil.
Muestreo de Rechazo Adaptivo
Primero se describe el muestreo de rechazo estandar (no-adaptativo).
Muestreo de rechazo no adaptivo
El muestreo de rechazo es un metodo general para muestrear puntos independientemente
de una densidad f(x). La densidad necesita ser especificada solo hasta una constante de
integracion, es decir, el muestreo de rechazo se puede llevar a cabo mediante el uso de
g(x) en lugar de f(x), donde g(x) = cf(x) para algunos valores posibles de c. Esto es
especialmente util cuando c =∫Dg(x)dx no esta disponible en forma cerrada (donde D
denota el dominio de f(x), es decir, el conjunto de x para el que f(x) > 0).
Para muestrear n puntos independientemente de f(x) por el muestreo de rechazo, se define
una funcion envelope gu(x) tal que las gu(x) ≥ g(x) para toda x en D, y, opcionalmente,
definir tambien una funcion squeezing gl(x) tal que g(x) ≤ g(x) para toda x en D. A
continuacion, se lleva a cabo el siguiente paso de muestreo hasta que n puntos han sido
aceptados.
Muestrear un valor de x∗ de gu(x) y muestrear un valor w independientemente de la
distribucion uniforme (0, l). Si se ha definido la funcion gl(x), realizar la siguiente prueba
squeezing: si
w ≤ gl(x∗)/gu(x∗)
76
entonces aceptar x*. En caso contrario, evaluar g(x∗) y llevar a cabo la siguiente prueba
de rechazo: si
w ≤ g(x∗)/gu(x∗)
entonces aceptar x*; en otro caso rechazar x*. Repita hasta que n puntos han sido acepta-
dos.
El muestreo de rechazo solo es util si es mas eficiente o conveniente para muestrear de
la envelope gu(x) que la densidad de f(x). En la practica, la busqueda de una adecuada
gu(x) puede ser difıcil ya que a menudo involucra la ubicacion del supremum de g(x) en D
mediante el uso de una tecnica de optimizacion estandar.
Muestreo de Rechazo Adaptivo
Para el muestreo Gibbs, por lo general solo una muestra se requiere de cada densidad, aun-
que el muestreo de muchos miles de diferentes densidades pueden ser necesarios. Ademas,
al estimar un modelo no conjugado, las evaluaciones de g(x) pueden ser computacional-
mente dificiles. En estas circunstancias, el muestreo de rechazo puede ser muy ineficiente,
puesto que puede implicar muchos miles de optimizaciones, cada una implicando varias
evaluaciones de una funcion g(x).
El muestreo de rechazo adaptado reduce el numero de evaluaciones de g(x) de dos maneras.
En primer lugar, a traves de la asuncion de log-concavidad de f(x), se evita la necesidad
de localizar el supremum de g(x) en D. En segundo lugar, despues de cada rechazo, la
probabilidad de tener que evaluar g(x) se reduce aun mas mediante la actualizacion de
las funciones envelope y squeezing para incorporar la recientemente adquirida informacion
acerca de g(x).
Se asume que D esta conectado, que g(x) es continua y diferenciable en todo D y que
h(x) = lng(x) es concava en todo D (es decir, h′(x) = dh(x)/dx disminuye monotamente
con el incremento de x en D). Esta definicion de log-concavidad admite ambos segmentos
de lınea recta en h(x) y discontinuidades en h′(x). La curva continua en la Fig.1 es un
ejemplo de h (x) concava con dominio D.
77
Suponga que h(x) y de h′(x) se han evaluado en k abscisas en D: xl ≤ x2 ≤ ... ≤ xk. Sea
Tk = xi, i = 1, ..., k. Se define el rechazo envelope en Tk como expuk(x), donde uk(x) es
una piecewise linear upper hull formada de las tangentes a h(x) en las abscisas en Tk, en
la forma de la curva superior discontinua de la Fig.1. Para j = 1, ..., k− 1 las tangentes xj
and xj+1 se intersectan en
zj =h(xj+1)− h(xj)− xj+1h
′(xj+1) + xjh′(xj)
h′(xj)− h′(xj+1)
De este modo que para x ∈ [zj−1, zj] y j = 1, ..., k, se define
uk(x) = h(xj) + (x− xj)h′(xj)
donde z0 es el lımite inferior de D (o −∞ si D no tiene lımite inferior) y zk es el lımite
superior de D (o +∞ si D no esta limitado). Tambien se define
sk = expuk(x)/
∫D
expuk(x′)dx′
Finalmente, se define la funcion squeezing en Tk como explk(x), donde lk(x) es una piecewise
lineal lower hull formados a partir de las cuerdas entre abscisas adyacentes in Tk, en la forma
de la curva inferior discontinua de la Fig. 1. De este modo, para x ∈ [xj, xj+1]
lk(x) =(xj+1 − x)h(xj) + (x− xj)h(xj+1)
xj+1 − xjpara j = l, ..., k − l. Para x < x1 o x > xk se define lk(x) = −∞.
Por lo tanto, las funciones de rechazo, envelope y squeezing, son funciones piecewise ex-
ponenciales. La concavidad de h(x) asegura que lk(x) ≤ h(x) ≤ uk(x) para toda x en
D.
Para muestrear n puntos independientemente de f(x) mediante muestreo de rechazo adap-
tado, se llevan a cabo los siguientes pasos de inicializacion y, a continuacion, realizar el
siguiente muestreo y pasos de actualizacion alternativamente hasta que n puntos han sido
aceptados.
Etapa de inicializacion
78
Iniciar las abscisas en Tk. Si D es ilimitado a la izquierda entonces elegir xl tal que h′(xl) > 0.
If D no tiene lımite a la derecha entonces eligir xk tal que h′(xk) < 0. Habiendo definido k
abscisas de comienzo, calcular las funciones uk(x), sk(x) y lk(x).
Etapa de muestreo
Muestrear un valor x* de sk(x) y muestrear un valor w independientemente de la distribu-
cion uniforme (0, 1). Realice la siguiente prueba de squeezing: si
w ≤ explk(x∗)− uk(x∗)
entonces aceptar x*. En caso contrario, evaluar h(x∗) y h′(x∗) y llevar a cabo la siguiente
prueba de rechazo: si
w ≤ exph(x∗)− uk(x∗)
entonces aceptar x*; en otro caso rechazar x*.
Etapa de actualizacion
Si h(x∗) y de h′(x∗) fueron evaluados en la etapa de muestreo, incluir x* en Tk para formar
Tk+1; ordenar los elementos de Tk+1 en orden ascendente; construir las funciones uk+1(x),
sk+1(x) y lk+1(x), en base a Tk+1; incremente k. Volver a la etapa de muestreo, si n puntos
aun no han sido aceptados.
79
A.5. Distribuciones espaciales en WinBugs
De acuerdo con Lawson et al. (2003) la distribucion a priori CAR gausiana intrınseca (o
CAR simplemente) se especifica usando la distribucion car.normal:
b[ ] ∼ car.normal(adj[ ], w[ ], n[ ], tau) (102)
donde
- adj [ ] es un vector que lista las areas adyacentes para cada area. En nuestro caso, es una
lista de estados adyacentes para cada entidad.
- w [ ] es un vector de la misma longitud que adj [ ] tiene los pesos asociados a cada par de
areas.
- n[ ] es un vector de longitud m (numero total de areas) dando el numero de vecinos para
cada area.
- tau es un escalar representando la inversa de la varianza del efecto aleatorio. (Disease
mapping)
Los tres primeros argumentos son los datos y deben ser especificados en los archivos de
datos: tau se trata como desconocido y se le asigna una distribucion a priori.
Puesto que el modelo CAR es impropio, es necesario tener una restriccion para asegurar
que el modelo sea propio. Esto significa que termino de intercepto debe incluirse en el
modelo y a este debe ser asignado una a priori uniforme impropia. WinBUGS incluye una
distribucion llamada dflat() que corresponde a una impropia en toda la recta real.
80
A.6. Codigo WinBugs
Este programa se utiliza para la estimacion del modelo lineal generalizado con efectos
espaciales. Se contruyo con ayuda del sofware MlWin version 2.02. El modelo completo y
los datos se encuentran en el anexo digital.
model
# Level 1 definition
for(i in 1:N)
poblp1[i] dbin(p[i],denom[i])
logit(p[i]) <- beta[1] * tam hog[i]
+ beta[2] * VEHI06 1[i]
+ beta[3] * EQH10 07[i]
+ beta[4] * EQH10 08[i]
+ beta[5] * EQH10 10[i]
+ beta[6] * EQH10 30[i]
+ beta[7] * EQH10 23[i]
+ beta[8] * EQH10 20[i]
+ beta[9] * EDAD[i]
+ beta[10] * SERV01 1[i]
+ beta[11] * N INS NULO[i]
+ beta[12] * N INS prep[i]
+ beta[13] * N INS NORMAL[i]
+ beta[14] * N INS CTECNIC[i]
+ beta[15] * N INS PROFESIONAL[i]
+ beta[16] * HORAS TRAB[i]
+ beta[17] * EDOUNIONLIB[i]
+ beta[18] * EDOCASADO[i]
+ beta[19] * REGION 2[i]
+ beta[20] * REGION 3[i]
+ beta[21] * REGION 4[i]
+ beta[22] * REGION 5[i]
+ carmean + u3[ident[i]] * cons[i]
+ u4[REGION[i]] * cons[i]
# Higher level definitions
u3[1:n3] car.normal(adj[],weights[],num[],tau.u3)
for (j in 1:n4)
u4[j] dnorm(0,tau.u4)
# Priors for fixed effects
for (k in 1:22) beta[k] dflat()
carmean dflat()
# Priors for random terms
tau.u3 dgamma(0.001000,0.001000)
sigma2.u3 <- 1/tau.u3
81
tau.u4 dgamma(0.001000,0.001000)
sigma2.u4 <- 1/tau.u4
A.7. Codigo en R para obtener las matriz de vecindades estatales
Este programa sirve para el calculo de la matriz de vecindades utilizando un mapa digital
de la republica a nivel estatal, en formato Arcview, el cual se incluye en el disco compacto
anexo.
# Ponemos el directorio de trabajo
setwd(‘‘C:/Users/DELL INSPIRON 6000/Documents/Tesis/pobreza/ENIGH00 05")
library(DCluster)
library(maptools)
# Leemos los datos y pintamos el mapa
estados<-read.shape(‘‘Estados.shp")
length(estados) # numero de componentes en la lista ‘‘municipios"
names(estados) # nombres de los componetes de la lista ‘‘municipios"
names(estados$att.data)
estados$att.data$CVEEST
estados$att.data$NOM ENT # Nombres de las entidades
plot(estados)
# Extraemos los polıgonos de los contornos municipales
# y usamos como identificador el codigo municipal
poligonos <- Map2poly(estados, estados$att.data$CVEEST)
# Una vez que tenemons los polıgonos, volvemos a emplear funciones de
# una de las librerıas que se cargan automaticamente con ‘‘DCluster",
# concretamente la ‘‘spdep", para crear una estructura de vecindad
estados.nb <- poly2nb(poligonos, estados$att.data$CVEEST)
summary.nb(estados.nb)
estados.nb[[03]]
# Vemos la matriz de vecindades
estados.mat <- nb2mat(estados.nb)
estados.mat[1,]
dim(estados.mat)
attributes(estados.nb)
summary.nb(estados.nb)
# Datos para winbugs
DatosWBugs<-nb2WB(estados.nb)
dput(DatosWBugs, control=NULL)
82
A.8. Codigo R para la elaboracion de mapas de pobreza
Con este programa se realizan las estimaciones del modelo lineal generalizado y los mapas
de pobreza en Mexico con la metodologıa propuesta en este trabajo.
# Ponemos el directorio de trabajo setwd(‘‘C:/Documents and Settings/Marcelo/Escritorio/Datos 05")
# Total de hogares por muncipio en Mexico
hog<- read.table(‘‘hogares.csv",header=T,sep=‘‘,")
hog$UBICA GEO<-paste(substr(hog$UBICA GEO,1,2),substr(hog$UBICA GEO,4,6),sep=‘‘")
hog$UBICA GEO<-as.numeric(hog$UBICA GEO)
hog$ident<-substr(hog$UBICA GEO,1,2)
# BASE GENERADA CON SPSS POR EL CONEVAL
basefinal<- read.table(‘‘basefinal 05.csv",header=T,sep=‘‘,")
basefinal<-as.data.frame(basefinal)
names(basefinal)
#Analisis de la base (basefinal)
table(basefinal$rururb) # Tenemos 14208 hogares urbanos(0’s) y 8966 rurales (1’s)
table(basefinal$poblp1) # 3910 hogares en pobreza alimentaria y 19264 no pobres
tapply(basefinal$poblp1,basefinal$rururb,sum) # 1272 son pobres urbanos y 1929 pobres rurales
table(basefinal$poblp1,basefinal$rururb) #no pobres y pobres de acuerdo a si son rurales o urbanos
# IMPORTAMOS LAS BASES dbf
library(foreign)
concen<-read.dbf(‘‘concen.dbf",T)
sum(concen$HOG[concen$UBICA GEO==‘‘01001"])
hogares<-read.dbf(‘‘hogares.dbf",T)
hogar<-data.frame(hogares[,c(‘‘FOLIO",‘‘UBICA GEO",
‘‘AGUA15",‘‘LUZ22",‘‘COMBUS11",‘‘PISOS04",‘‘MUROS01",
‘‘TECHOS02",‘‘CUA COC",‘‘COC DUER",‘‘DRENAJE21",‘‘TENENCIA12",
# Caracterısticas de la vivienda: disponibilidad de agua, disponibilidad de
# electricidad, combustible para cocinar, material en pisos, material en muros,
# material en techos, cuarto para cocinar, disponibilidad de drenaje, y tenencia
# de la vivienda.
‘‘SERV01 1",‘‘EQH10 05",‘‘EQH10 06",‘‘EQH10 07",‘‘EQH10 08",
‘‘EQH10 10",‘‘EQH10 20",‘‘EQH10 23",‘‘EQV26 8",‘‘VEHI06 1",‘‘EQH10 30")])
# Artıculos de la vivienda: telefono, radio, television, video casetera,
# licuadora, refrigerador, lavadora, calentador de agua, automovil o camioneta
# propios y computadora.
poblacion<-read.dbf(‘‘pobla.dbf",T)
pobla<-poblacion[poblacion$PARENTESCO==100,c(‘‘FOLIO",‘‘PARENTESCO",
‘‘SEXO",‘‘EDAD",‘‘EDOCONY",‘‘ALFABE",‘‘ASIS ESC",‘‘N INSTR161",
‘‘TRABAJO",‘‘CMO121",‘‘HORAS TRAB",‘‘POSICION09")]
# Caracterısticas sociodemograficas: sexo, edad, estado civil, parentesco,
# asistencia escolar, alfabetismo y escolaridad.
dim(hogar)
names(hogar)
dim(basefinal)
# Concatenamos las bases
# FILAS EN LAS QUE EL FOLIO DE LA PRIMERA TABLA COINCIDEN CON
#EL FOLIO DE LA SEGUNDA TABLA
filas<-match(hogar$FOLIO,basefinal$folio)
83
basefinal$UBICA GEO<-rep(0,length(basefinal$folio))
basefinal$AGUA15<-rep(0,length(basefinal$folio))
basefinal$LUZ22<-rep(0,length(basefinal$folio))
basefinal$COMBUS11<-rep(0,length(basefinal$folio))
basefinal$PISOS04<-rep(0,length(basefinal$folio))
basefinal$MUROS01<-rep(0,length(basefinal$folio))
basefinal$TECHOS02<-rep(0,length(basefinal$folio))
basefinal$CUA COC<-rep(0,length(basefinal$folio))
basefinal$COC DUER<-rep(0,length(basefinal$folio))
basefinal$DRENAJE21<-rep(0,length(basefinal$folio))
basefinal$TENENCIA12<-rep(0,length(basefinal$folio))
basefinal$SERV01 1<-rep(0,length(basefinal$folio))
basefinal$EQH10 05<-rep(0,length(basefinal$folio))
basefinal$EQH10 06<-rep(0,length(basefinal$folio))
basefinal$EQH10 07<-rep(0,length(basefinal$folio))
basefinal$EQH10 08<-rep(0,length(basefinal$folio))
basefinal$EQH10 10<-rep(0,length(basefinal$folio))
basefinal$EQH10 20<-rep(0,length(basefinal$folio))
basefinal$EQH10 23<-rep(0,length(basefinal$folio))
basefinal$EQV26 8<-rep(0,length(basefinal$folio))
basefinal$VEHI06 1<-rep(0,length(basefinal$folio))
basefinal$EQH10 30<-rep(0,length(basefinal$folio))
basefinal[filas,c(‘‘UBICA GEO",‘‘AGUA15",‘‘LUZ22",‘‘COMBUS11",
‘‘PISOS04",‘‘MUROS01",‘‘TECHOS02",‘‘CUA COC",‘‘COC DUER",‘‘DRENAJE21",
‘‘TENENCIA12",‘‘SERV01 1",‘‘EQH10 05",‘‘EQH10 06",
‘‘EQH10 07",‘‘EQH10 08",‘‘EQH10 10",‘‘EQH10 20",‘‘EQH10 23",
‘‘EQV26 8",‘‘VEHI06 1",‘‘EQH10 30")] <-hogar[,c(‘‘UBICA GEO",‘‘AGUA15",
‘‘LUZ22",‘‘COMBUS11",‘‘PISOS04",‘‘MUROS01",‘‘TECHOS02",‘‘CUA COC",
‘‘COC DUER",‘‘DRENAJE21",‘‘TENENCIA12",‘‘SERV01 1",‘‘EQH10 05",‘‘EQH10 06",
‘‘EQH10 07",‘‘EQH10 08",‘‘EQH10 10",‘‘EQH10 20",‘‘EQH10 23",
‘‘EQV26 8",‘‘VEHI06 1",‘‘EQH10 30")]
filas<-match(pobla$FOLIO,basefinal$folio)
# FILAS EN LAS QUE EL FOLIO DE LA PRIMERA TABLA # COINCIDEN CON EL FOLIO DE LA SEGUNDA TABLA
names(pobla)
basefinal$PARENTESCO<-rep(0,length(basefinal$folio))
basefinal$SEXO<-rep(0,length(basefinal$folio))
basefinal$EDAD<-rep(0,length(basefinal$folio))
basefinal$EDOCONY<-rep(0,length(basefinal$folio))
basefinal$ALFABE<-rep(0,length(basefinal$folio))
basefinal$ASIS ESC<-rep(0,length(basefinal$folio))
basefinal$N INSTR161<-rep(0,length(basefinal$folio))
basefinal$TRABAJO<-rep(0,length(basefinal$folio))
basefinal$CMO121<-rep(0,length(basefinal$folio))
basefinal$HORAS TRAB<-rep(0,length(basefinal$folio))
basefinal$POSICION09<-rep(0,length(basefinal$folio))
basefinal[filas,c(‘‘PARENTESCO",‘‘SEXO",‘‘EDAD",‘‘EDOCONY",
‘‘ALFABE",‘‘ASIS ESC",‘‘N INSTR161",‘‘TRABAJO",‘‘CMO121",
‘‘HORAS TRAB",‘‘POSICION09")]<-pobla[,c(‘‘PARENTESCO",‘‘SEXO",
‘‘EDAD",‘‘EDOCONY",‘‘ALFABE",‘‘ASIS ESC",‘‘N INSTR161",
‘‘TRABAJO",‘‘CMO121",‘‘HORAS TRAB",‘‘POSICION09")]
# frecuencia de pobres por municipio
pobrmpio<-tapply(basefinal$poblp1,basefinal$UBICA GEO,sum)
idmun <- unlist(dimnames(pobrmpio)) # Convierte las ids de los mpios a numeros
length(idmun) # 572 municipios de los 32 estados en el pais
ident <- substr(idmun,1,2)
# Entidades a las que pertencen los mpios (factor categoriza, ordena de menor a mayor. Factor ayuda a crear tablas)
# n es el numero de hogares encuestados por mpio
n <- table(basefinal$UBICA GEO)
prop.pobr<-as.vector(pobrmpio/n) # proporcion de pobres por municipio
# proporcion de hogares rurales por municipios
prop.rural <- prop.table(table(basefinal$rururb,basefinal$UBICA GEO),2)[2,]
pobrmpio<-as.vector(pobrmpio)
n<-as.vector(n)
84
prop.rural<-as.vector(prop.rural)
# Base que contiene las proporciones de pobres por municipio
prop.pobr.dat <- data.frame(ident,idmun,pobrmpio,n,prop.rural,prop.pobr)
mode(prop.pobr.dat$ident)
names(prop.pobr.dat)[2]<-‘‘UBICA GEO" # Cambio de nombre de una columna
names(prop.pobr.dat)
# Vamos a concatenar (base chica a grande)
filas<-match(basefinal$UBICA GEO,prop.pobr.dat$UBICA GEO)
basefinal[,c(‘‘ident",‘‘pobrmpio",‘‘n",‘‘prop.rural",‘‘prop.pobr")]
<-prop.pobr.dat[filas,c(‘‘ident",‘‘pobrmpio",‘‘n",‘‘prop.rural",‘‘prop.pobr")]
table(prop.pobr.dat$ident) # Municipios por estado
basefinal$CMO<-substr(basefinal$CMO121,1,2) # CREAMOS LA VARIABLE CMO
# REGIONES
#Region 1 (Marginacion muy baja): 1 Aguascalientes, 2 Baja California, 3 Baja California
#Sur, 5 Coahuila, 8 Chihuahua, 9 Distrito Federal y 19 Nuevo Leon.
basefinal$REGION[basefinal$ident==‘‘01" | basefinal$ident==‘‘02" |
basefinal$ident==‘‘03" | basefinal$ident==‘‘05"
| basefinal$ident==‘‘08"| basefinal$ident==‘‘09"| basefinal$ident==‘‘19"]<-1
# Region 2 (Marginacion baja): 6 Colima, 14 Jalisco, 15 Estado de Mexico,
#26 Sonora y 28 Tamaulipas.
basefinal$REGION[basefinal$ident==‘‘06" | basefinal$ident==‘‘14"
| basefinal$ident==‘‘15" | basefinal$ident==‘‘26"
| basefinal$ident==‘‘28"]<-2
# Region 3 (Marginacion media): 10 Durango, 11 Guanajuato, 17 Morelos,
#18 Nayarit, 22 Queretaro,
# 23 Quintana Roo, 25 Sinaloa, 29 Tlaxcala y 32 Zacatecas.
basefinal$REGION[basefinal$ident==‘‘10" | basefinal$ident==‘‘11" |
basefinal$ident==‘‘17" | basefinal$ident==‘‘18"
| basefinal$ident==‘‘22" | basefinal$ident==‘‘23"| basefinal$ident==‘‘25"
| basefinal$ident==‘‘29"| basefinal$ident==‘‘32"]<-3
# Region 4 (Marginacion alta): 4 Campeche, 13 Hidalgo, 16 Michoacan, 21 Puebla, 24 San Luis
# Potosı, 27 Tabasco y 31 Yucatan.
basefinal$REGION[basefinal$ident==‘‘04" | basefinal$ident==‘‘13"
| basefinal$ident==‘‘16" basefinal$ident==‘‘21"
| basefinal$ident==‘‘24" | basefinal$ident==‘‘27"| basefinal$ident==‘‘31"]<-4
# Region 5 (Marginacion muy alta): 7 Chiapas, 12 Guerrero, 20 Oaxaca y
30 Veracruz.
basefinal$REGION[basefinal$ident==‘‘07" | basefinal$ident==‘‘12"
| basefinal$ident==‘‘20" | basefinal$ident==‘‘30"]<-5
# VARIABLES
basefinal$murosadobe<-ifelse(basefinal$MUROS01==‘‘07",1,0)
basefinal$murosdesecho<-ifelse(basefinal$MUROS01==‘‘01",1,0)
basefinal$techopalma<-ifelse(basefinal$TECHOS02==‘‘04",1,0)
basefinal$techoteja<-ifelse(basefinal$TECHOS02==‘‘07",1,0)
basefinal$pisotierra<-ifelse(basefinal$PISOS04==‘‘1",1,0)
basefinal$pisocemento<-ifelse(basefinal$PISOS04==‘‘2",1,0)
basefinal$PISOS04 <-as.numeric(basefinal$PISOS04)
basefinal$AGUAentubadadv<-ifelse(basefinal$AGUA15==‘‘1",1,0)
basefinal$AGUAentubadafv<-ifelse(basefinal$AGUA15==‘‘2",1,0)
basefinal$drenajered<-ifelse(basefinal$DRENAJE21==‘‘1",1,0)
basefinal$drenajefosa<-ifelse(basefinal$DRENAJE21==‘‘2",1,0)
85
basefinal$drenajeno<-ifelse(basefinal$DRENAJE21==‘‘5",1,0)
basefinal$COMBUS11GAS<-ifelse(basefinal$COMBUS11==1,1,0) # cocina con gas
basefinal$N INS NULO<-ifelse(basefinal$N INSTR161==0,1,0)
basefinal$N INS preesc<-ifelse(basefinal$N INSTR161==1,1,0)
basefinal$N INS primaria<-ifelse(basefinal$N INSTR161==2,1,0)
basefinal$N INS sec<-ifelse(basefinal$N INSTR161==3,1,0)
basefinal$N INS prep<-ifelse(basefinal$N INSTR161==4,1,0)
basefinal$N INS NORMAL<-ifelse(basefinal$N INSTR161==5,1,0)
basefinal$N INS CTECNIC<-ifelse(basefinal$N INSTR161==6,1,0)
basefinal$N INS PROFESIONAL<-ifelse(basefinal$N INSTR161==7,1,0)
basefinal$educasuperior<-ifelse(basefinal$N INSTR161>=5,1,0)
basefinal$obrero<-ifelse(basefinal$POSICION09==1,1,0)
basefinal$jornalero<-ifelse(basefinal$POSICION09==2,1,0)
basefinal$trabaxcuentapropia<-ifelse(basefinal$POSICION09==5,1,0)
basefinal$patron<-ifelse(basefinal$POSICION09==6,1,0)
basefinal$EDOUNIONLIB<-ifelse(basefinal$EDOCONY==‘‘1",1,0)
basefinal$EDOSEPARADO<-ifelse(basefinal$EDOCONY==‘‘2",1,0)
basefinal$EDODIVORCIADO<-ifelse(basefinal$EDOCONY==‘‘3",1,0)
basefinal$EDOCASADO<-ifelse(basefinal$EDOCONY==‘‘5",1,0)
basefinal$EDOSOLTERO<-ifelse(basefinal$EDOCONY==‘‘6",1,0)
basefinal$HOMBRE<-ifelse(basefinal$SEXO==‘‘1",1,0)
basefinal$viviendarenta<-ifelse(basefinal$TENENCIA12==‘‘1",1,0)
basefinal$viviendapropia<-ifelse(basefinal$TENENCIA12==‘‘5",1,0)
apply(apply(basefinal,2,is.na),2,sum)
model5 <-glm(poblp1 tam hog+VEHI06 1+EQH10 07+EQH10 08+EQH10 10+
EQH10 30+EQH10 23+EQH10 20+EDAD+SERV01 1
+N INS NULO+N INS prep+N INS NORMAL+N INS CTECNIC+
N INS PROFESIONAL+HORAS TRAB+EDOUNIONLIB+
EDOSEPARADO+EDOSOLTERO+EDOCASADO+factor(REGION),family=binomial,data=basefinal)
# Ajusta un modelos binomial generalizado
summary(model5)
# Grafica las proporciones predichas de pobres
plot(sort(predict(model5,type=‘‘resp")),xlab=‘‘",ylab=‘‘",col=‘‘red")
points(sort(basefinal$prop.pobr),col=‘‘orange") # Grafica las proporciones de pobres para c/mpio
# ELABORACION DE MAPAS
# Elaboracion de mapas. Para representar mapas con el R, es necesario
# conocer los polıgonos que definen los contornos municipales,
# al igual que ocurre en el caso de los tests de agregacion.
# Esta informacion de tipo cartografico esta disponible en varios formatos,
# entre ellos el del progama Arcview (o ArcGIS en su version mas moderna).
# En este formato, ‘‘.shp", se puede importar desde R mediante la
#librerıa ‘‘shapefiles"
# y manipularla para representar en un mapa el riesgo relativo de los municipios.
# Cargamos la librerıa
library(shapefiles)
# Leemos la informacion cartografica (sustituir el directorio por el adecuado...)
mun.shp <- read.shapefile(‘‘Municipios")
# Vamos a crear una lista con cuatro componentes. La primera sera un vector que
# contendra los codigos de los municipios, la segunda otro vector con los nombres,
# la tercera sera una lista con las matrices de los vertices del contorno de
# los municipios y la cuarta sera una matriz con los baricentros de los polıgonos.
# Creamos primero cada una de las componentes y luego las introducimos en una lista
nmun <- length(mun.shp$shp$shp) #Numero de municipios
idmun <- as.numeric(as.character(mun.shp$dbf$dbf$ENTMUN)) #Id de los mpios
86
nombres <- mun.shp$dbf$dbf$NOM MUN #Nombres de los mpios
vertices <- list()
for(i in 1:nmun)
vertices[[i]] <- mun.shp$shp$shp[[i]]$points
baricentros <- t(sapply(vertices, apply, 2, mean))
mun.map <- list(idmun=idmun, nombre=nombres, vertices=vertices,
baricentros=baricentros)
# Para pintar el mapa necesitamos conocer las coordenadas mınima y maxima
# de latitud y longitud de aragon. Vamos a calcularlas:
xymin <- apply(t(sapply(mun.map$vertices, apply, 2, min)), 2, min)
xymax <- apply(t(sapply(mun.map$vertices, apply, 2, max)), 2, max)
esquinas <- expand.grid(xymin, xymax)
# Pintamos el mapa y sus baricentros
#par(pty=‘‘s") # Para que el area de dibujo sea cuadrada
plot(rbind(xymin, xymax), type=‘‘n")
for (i in 1:nmun)
polygon(x=mun.map$vertices[[i]][,1], y=mun.map$vertices[[i]][,2])
points(mun.map$baricentros, col=2, cex=0.4)
# Ahora se trata de pintar la prevalencia de la pobreza.
# En primer lugar categorizamos
# prop.pobr.dat$pp.cat <- cut(prop.pobr.dat$prop.pobr, seq(0,1,0.2),labels=1:5)
basefinal$pp.cat<-cut(basefinal$prop.pobr, c(-Inf,0.25,0.5,0.75,Inf),labels=1:4)
# crea una columna con la categoria a la que pertenece el mpio de acuerdo a su prop. de pobres
################ #RESULTADOS
filas<-match(as.numeric(basefinal$UBICA GEO),as.numeric(hog$UBICA GEO))
# FILAS (de la segunda tabla) EN QUE EL FOLIO DE LA PRIMERA TABLA COINCIDEN CON EL FOLIO DE LA SEGUNDA TABLA
basefinal$Total<-hog[filas,‘‘Total"]
basefinal$Nombre<-hog[filas,‘‘Nombre"]
Entidades<- read.table(‘‘Entidades.csv",header=T,sep=‘‘,")
filas<-match(as.numeric(basefinal$ident),Entidades$ENTIDAD)
basefinal$NOM ENT<-Entidades[filas,‘‘NOM ENT"]
#grafica por hogares
table(basefinal$pp.cat)
barplot(table(basefinal$pp.cat),
col=c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"),
ylab=‘‘Hogares",names.arg=c(‘‘[0,0.25)",
‘‘[0.25,5)",‘‘[0.5-0.75)",‘‘[0.75,1)"),
legend=as.vector(table(basefinal$pp.cat)))
max(basefinal$prop.pobr)
basefinal[basefinal$prop.pobr==1,c(‘‘UBICA GEO",‘‘Nombre",‘‘NOM ENT")]
table(basefinal$pp.cat,basefinal$rururb)
sort(table(basefinal[basefinal$pp.cat==4,‘‘NOM ENT"])) # Hogares pobres por Entidad
# grafica por municipios
f<-factor(basefinal$UBICA GEO)
municipios<-levels(f) # Municipios distintos en la muestra
filas<-match(municipios,concen$UBICA GEO)
clasificacion<-basefinal[filas,c(‘‘UBICA GEO",‘‘pp.cat",‘‘ident",
‘‘NOM ENT",‘‘Nombre",‘‘prop.pobr")]
87
dim(clasificacion) # Categorıa de cada municipio en la muestra
sort(table(clasificacion[clasificacion$pp.cat==4,‘‘NOM ENT"])) # Municipios por entidad en la categorıa 4
clasificacion[clasificacion$pp.cat==4,c(‘‘NOM ENT",‘‘Nombre")]
clasificacion[clasificacion$pp.cat==4 &
clasificacion$prop.pobr>0.9,c(‘‘NOM ENT",‘‘Nombre",‘‘prop.pobr")]
barplot(table(clasificacion$pp.cat),
col=c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"),xlab=‘‘Municipios",
legend.text=c(as.vector(table(clasificacion$pp.cat))),
names.arg=c(‘‘[0,0.25)",‘‘[0.25,5)",‘‘[0.5-0.75)",‘‘[0.75,1)"))
####################
# Y finalmente representamos el mapa
palette(c(‘‘yellow1",‘‘orange",‘‘orange3",‘‘red"))
basefinal$UBICA GEO<-as.numeric(basefinal$UBICA GEO)
orden <- match(mun.map$idmun,basefinal$UBICA GEO)
plot(rbind(xymin, xymax), type=‘‘n")
for (i in 1:nmun)
polygon(x=mun.map$vertices[[i]][,1],
y=mun.map$vertices[[i]][,2],
col=as.numeric(basefinal$pp.cat[orden[i]]),lty=0)
legend(xymin[1], 23, fill=1:4,
legend=c(‘‘0-0.25", ‘‘0.25-0.5", ‘‘0.5-0.75",‘‘0.75-1.0"), cex=1)
Division.shp<- read.shapefile(‘‘Estados")
nest <- length(Division.shp$shp$shp)
codigos est <- as.numeric(as.character(Division.shp$dbf$dbf$NOM ENT))
nombres est <- Division.shp$dbf$dbf$NOMBRE
vertices est <- list()
for(i in 1:nest)
vertices est[[i]] <- Division.shp$shp$shp[[i]]$points
baricentros est <- t(sapply(vertices est, apply, 2, mean))
Division.map <- list(codigo est=codigos est, nombre est=nombres est,
vertices est=vertices est,baricentros est=baricentros est)
#par(pty=‘‘s") # Para que el area de dibujo sea cuadrada
#plot(rbind(xymin, xymax), type=‘‘n")
for (i in 1:nest)
polygon(x=Division.map$vertices est[[i]][,1],
y=Division.map$vertices est[[i]][,2],border=‘‘gray")
##############################
# # # MODELO LINEAL GENERALIZADO #
# # ##############################
estimados<-fitted(model5)
basefinal$prop.pobr.Est<-as.vector(estimados)
prop.suma<-tapply(basefinal$prop.pobr.Est*basefinal$factor,
basefinal$UBICA GEO,sum)
factor.tot<-tapply(basefinal$factor,basefinal$UBICA GEO,sum)
UBICA GEO<- as.numeric(unlist(dimnames(prop.suma)))
prop.suma<-as.vector(prop.suma)
factor.tot<-as.vector(factor.tot)
UBICA GEO<-as.vector(UBICA GEO)
estimaciones<-data.frame(prop.suma,factor.tot,UBICA GEO)
88
# Vamos a concatenar (base chica a grande)
filas<-match(basefinal$UBICA GEO,estimaciones$UBICA GEO)
basefinal[,c(‘‘prop.suma",‘‘factor.tot")]
<-estimaciones[filas,c(‘‘prop.suma",‘‘factor.tot")]
basefinal$prop.pobr.glm<-basefinal$prop.suma/basefinal$factor.tot
basefinal$pp.cat.glm<-cut(basefinal$prop.pobr.glm,
c(-Inf,0.25,0.5,0.75,Inf),labels=1:4)
# Clasifica las proporciones de hogares pobres en cinco categorias
#grafica por hogares
table(basefinal$pp.cat.glm)
barplot(table(basefinal$pp.cat.glm),
col=c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"),ylab=‘‘Hogares",
names.arg=c(‘‘[0,0.25)",‘‘[0.25,5)",‘‘[0.5-0.75)",‘‘[0.75,1)"),
legend=as.vector(table(basefinal$pp.cat.glm)))
basefinal$prop.pobr.glm<-round(basefinal$prop.pobr.glm,7)
max(basefinal$prop.pobr.glm)
basefinal[basefinal$prop.pobr.glm==0.7965362,
c(‘‘UBICA GEO",‘‘Nombre",‘‘NOM ENT")]
table(basefinal$pp.cat.glm,basefinal$rururb)
sort(table(basefinal[basefinal$pp.cat.glm==4,‘‘NOM ENT"])) # Hogares pobres por Entidad
# grafica por municipios
f<-factor(basefinal$UBICA GEO)
municipios<-levels(f) # Municipios distintos en la muestra
filas<-match(municipios,basefinal$UBICA GEO)
clasificacion<-basefinal[filas,c(‘‘UBICA GEO",‘‘pp.cat.glm",‘‘ident",
‘‘NOM ENT",‘‘Nombre",‘‘prop.pobr.glm")]
dim(clasificacion) # Categorıa de cada municipio en la muestra
sort(table(clasificacion[clasificacion$pp.cat.glm==4,‘‘NOM ENT"])) # Municipios por entidad en la categorıa 4
clasificacion[clasificacion$pp.cat.glm==4,c(‘‘NOM ENT",‘‘Nombre")]
clasificacion[clasificacion$pp.cat.glm==3,c(‘‘NOM ENT",‘‘Nombre")]
clasificacion[clasificacion$pp.cat.glm==4 &
clasificacion$prop.pobr.glm>0.7,c(‘‘NOM ENT",‘‘Nombre",‘‘prop.pobr.glm")]
barplot(table(clasificacion$pp.cat.glm),
col=c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"),
xlab=‘‘Municipios",legend.text=c(as.vector(table(clasificacion$pp.cat.glm))),
names.arg=c(‘‘[0,0.25)",
‘‘[0.25,5)",‘‘[0.5-0.75)",‘‘[0.75,1)"))
# MAPA GLM
palette(c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"))
plot(rbind(xymin, xymax), type=‘‘n")
for (i in 1:nmun)
polygon(x=mun.map$vertices[[i]][,1],
y=mun.map$vertices[[i]][,2],col=as.numeric(basefinal$pp.cat.glm[orden[i]]),lty=0)
legend(xymin[1], 23, fill=1:4, legend=c(‘‘0-0.25", ‘‘0.25-0.5",
‘‘0.5-0.75",‘‘0.75-1"), cex=1)
Division.shp<- read.shapefile(‘‘Estados")
nest <- length(Division.shp$shp$shp)
codigos est <- as.numeric(as.character(Division.shp$dbf$dbf$CODMUNI))
nombres est <- Division.shp$dbf$dbf$NOMBRE
vertices est <- list()
89
for(i in 1:nest)
vertices est[[i]] <- Division.shp$shp$shp[[i]]$points
baricentros est <- t(sapply(vertices est, apply, 2, mean))
Division.map <- list(codigo est=codigos est, nombre est=nombres est,
vertices est=vertices est,baricentros est=baricentros est)
#par(pty=‘‘s") # Para que el area de dibujo sea cuadrada
#plot(rbind(xymin, xymax), type=‘‘n")
for (i in 1:nest)
polygon(x=Division.map$vertices est[[i]][,1],
y=Division.map$vertices est[[i]][,2],border=‘‘gray")
#####################
# DATOS PARA MlWin #
#####################
#dim(basefinal)
#datosWB<-basefinal[,1:92]
#datosWB$UBICA GEO<-as.character(datosWB$UBICA GEO)
#datosWB$ident<-as.character(datosWB$ident)
#datosWB$folio<-as.character(datosWB$folio)
#summary(datosWB)
#PESOS Y MATRIZ DE VECINDADES
#neigh<-read.table(‘‘neigh.csv",header=T,sep=‘‘,")
# cocatenamos (base chica a grande)
#filas<-match(as.numeric(datosWB$ident),as.numeric(neigh$ident))
# CONCATENAMOS TABLAS
#dim(datosWB)
#datosWB[,93:116]<-neigh[filas,2:25]
# DATOS PARA MlWin
#export(datosWB, type = ‘‘ascii", file = ‘‘datosMlWin.txt")
##############
# CAR median #
###############
car<- read.table(‘‘muestra car.csv",header=T,sep=‘‘,")
basefinal$prop.pobr.car<-car$median
basefinal$prop.pobr.car<-round(basefinal$prop.pobr.car,digits=8)
plot(sort(basefinal$prop.pobr.car),xlab=‘‘ ",ylab=‘‘ ",col=‘‘red")
points(sort(basefinal$prop.pobr),col=‘‘orange")
prop.suma.car<-tapply(basefinal$prop.pobr.car*basefinal$factor,
basefinal$UBICA GEO,sum)
UBICA GEO<- as.numeric(unlist(dimnames(prop.suma.car)))
prop.suma.car<-as.vector(prop.suma.car)
UBICA GEO<-as.vector(UBICA GEO)
estimaciones.car<-data.frame(prop.suma.car,UBICA GEO)
# Vamos a concatenar (base chica a grande)
filas<-match(as.numeric(basefinal$UBICA GEO),
as.numeric(estimaciones.car$UBICA GEO))
basefinal[,‘‘prop.suma.car"]<-estimaciones.car[filas,‘‘prop.suma.car"]
basefinal$prop.pobr.car<-basefinal$prop.suma.car/basefinal$factor.tot
basefinal$pp.cat.car<-cut(basefinal$prop.pobr.car,
c(-Inf,0.25,0.5,0.75,Inf),labels=1:4) # Clasifica las
90
proporciones de hogares pobres en cinco categorias
#grafica por hogares
table(basefinal$pp.cat.car)
barplot(table(basefinal$pp.cat.car),
col=c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"),ylab=‘‘Hogares",
names.arg=c(‘‘[0,0.25)",‘‘[0.25,5)",‘‘[0.5-0.75)",‘‘[0.75,1)"),
legend=as.vector(table(basefinal$pp.cat.car)))
basefinal$prop.pobr.car<-round(basefinal$prop.pobr.car,7)
max(basefinal$prop.pobr.car)
basefinal[basefinal$prop.pobr.car>=0.8541941,c(‘‘UBICA GEO",‘‘Nombre",‘‘NOM ENT")]
table(basefinal$pp.cat.car,basefinal$rururb)
sort(table(basefinal[basefinal$pp.cat.car==4,‘‘NOM ENT"])) # Hogares pobres por Entidad
# grafica por municipios
f<-factor(basefinal$UBICA GEO)
municipios<-levels(f) # Municipios distintos en la muestra
filas<-match(municipios,basefinal$UBICA GEO)
clasificacion<-basefinal[filas,
c(‘‘UBICA GEO",‘‘pp.cat.car",‘‘ident",‘‘NOM ENT",‘‘Nombre",‘‘prop.pobr.car")]
dim(clasificacion) # Categorıa de cada municipio en la muestra
sort(table(clasificacion[clasificacion$pp.cat.car==4,‘‘NOM ENT"])) # Municipios por entidad en la categorıa 4
clasificacion[clasificacion$pp.cat.car==4,c(‘‘NOM ENT",
‘‘Nombre",‘‘prop.pobr.car")]
clasificacion[clasificacion$pp.cat.car==3,c(‘‘NOM ENT",‘‘Nombre")]
clasificacion[clasificacion$pp.cat.car==4 &
clasificacion$prop.pobr.glm>0.7,c(‘‘NOM ENT",‘‘Nombre",‘‘prop.pobr.glm")]
barplot(table(clasificacion$pp.cat.car),
col=c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"),xlab=‘‘Municipios",
legend.text=c(as.vector(table(clasificacion$pp.cat.car))),
names.arg=c(‘‘[0,0.25)",‘‘[0.25,5)",‘‘[0.5-0.75)",‘‘[0.75,1)"))
# MAPA CAR
palette(c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"))
plot(rbind(xymin, xymax), type=‘‘n")
for (i in 1:nmun)
polygon(x=mun.map$vertices[[i]][,1],
y=mun.map$vertices[[i]][,2],
col=as.numeric(basefinal$pp.cat.car[orden[i]]),lty=0)
legend(xymin[1], 23, fill=1:4,
legend=c(‘‘0-0.25", ‘‘0.25-0.5", ‘‘0.5-0.75",‘‘0.75-1"), cex=1)
Division.shp<- read.shapefile(‘‘Estados")
nest <- length(Division.shp$shp$shp)
codigos est <- as.numeric(as.character(Division.shp$dbf$dbf$CODMUNI))
nombres est <- Division.shp$dbf$dbf$NOMBRE
vertices est <- list()
for(i in 1:nest)
vertices est[[i]] <- Division.shp$shp$shp[[i]]$points
baricentros est <- t(sapply(vertices est, apply, 2, mean))
Division.map <- list(codigo est=codigos est, nombre est=nombres est,
vertices est=vertices est,baricentros est=baricentros est)
#par(pty=‘‘s") # Para que el area de dibujo sea cuadrada
#plot(rbind(xymin, xymax), type=‘‘n")
for (i in 1:nest)
polygon(x=Division.map$vertices est[[i]][,1],
y=Division.map$vertices est[[i]][,2],border=‘‘gray")
91
A.9. Factores de expansion
Puesto que las pk obtenidas, tanto para el modelo logıstico como para el modelo espacial,
son a nivel hogar, se obtiene una estimacion de la probabilidad para los municipios y estados
utilizando los factores de expansion fijk incluıdos en las bases de la ENGIH.
Municipios
pj =
∑nj
k=1 pjk × fjk∑nj
k=1 fjk(103)
Estados
pi =
∑ni
j=1 pij × fij∑ni
j=1 fij(104)
donde
pij =
nj∑k=1
pijk × fijk
y
fij =
nj∑k=1
×fijk
El disco anexo incluye el codigo para R en el que se realizan tales calculos.
92