colegio de postgraduados...t e s i s presentada como requisito parcial para obtener el grado de:...

COLEGIO DE POSTGRADUADOS

INSTITUCION DE ENSENANZA E INVESTIGACION EN CIENCIAS AGRICOLAS

CAMPUS MONTECILLO

POSTGRADO EN SOCIOECONOMIA, ESTADISTICA E INFORMATICA

ESTADISTICA

UN MODELO ESTADISTICO ESPACIAL PARA LA

PREVALENCIA DE LA POBREZA EN MEXICO

MARCELO QUITERIO MENDOZA

T E S I S

PRESENTADA COMO REQUISITO PARCIAL

PARA OBTENER EL GRADO DE:

MAESTRO EN CIENCIAS

MONTECILLO,TEXCOCO, EDO. DE MEXICO

2009

La presente tesis titulada: Un modelo estadıstico espacial para la prevalencia de

la pobreza en Mexico, realizada por el alumno: Marcelo Quiterio Mendoza, bajo la

direccion del Consejo Particular indicado ha sido aprobada por el mismo y aceptada como

requisito parcial para obtener el grado de:

MAESTRO EN CIENCIAS

SOCIOECONOMIA, ESTADISTICA E INFORMATICA

ESTADISTICA

CONSEJO PARTICULAR

CONSEJERO

Dr. Sergio Perez Elizalde

ASESOR

Dr. Felix Gonzalez Cossıo

ASESOR

M.C. J. Valente Hidalgo Contreras

Montecillo, Texcoco, Edo. De Mexico, 2009

Un modelo estadıstico espacial para la prevalencia de la pobreza

en Mexico

Marcelo Quiterio Mendoza

Colegio de Postgraduados, 2009

En este trabajo se propone un modelo geoestadıstico bayesiano para identificar las zonas

de mayor incidencia de pobreza en Mexico. El objetivo es proporcionar una metodologıa

de analisis para quienes toman las decisiones en relacion a los programas de desarrollo

social y erradicacion de la pobreza. Con base a lo dispuesto por el Consejo Nacional de

Evaluacion de la Polıtica de Desarrollo Social, se define una variable binaria que indica

si un hogar presenta pobreza alimentaria o no. Las covariables de ındole socioeconomico

se obtienen de la informacion generada por la Encuesta Nacional de Ingresos y Gastos de

los Hogares. El modelo propuesto es logıstico e incorpora efectos de estratos, agrupando a

los estados de la republica de acuerdo a su nivel de marginacion. Tambien se consideran

efectos espaciales modelados mediante procesos gausianos condicionalmente autorregresivos

(CAR). La distribucion final de los parametros se estima mediante metodos de Cadenas de

Markov Monte Carlo (CMMC).

Palabras clave: Pobreza alimentaria, modelo espacial, cadenas de markov monte carlo,

CAR.

iii

A spatial statistical model for prevalence of poverty in Mexico

Marcelo Quiterio Mendoza

Colegio de Postgraduados, 2009

This work proposes a geostatistical bayesian model to identify areas with highest incidence

of poverty in Mexico. The main purpose of this study is to provide a method of analysis

for who take decisions about social development programs and poverty eradication. The

variable of interest is a binary response which indicates whether a household is ranked with

alimentary poverty or not and this is built according with the methodology of Consejo

Nacional de Evaluacion de la Polıtica de Desarrollo Social. The socio-economic covariates

were taken from the information generated by the Encuenta Nacional de Ingresos de los

Hogares 2005. The logistic model proposed incorporates effects of strata, by grouping the

states of the republic according to their marginalization levels. Spatial effects are also

considered, which are modeled using conditionally autoregressive (CAR) estructure. The

posterior distribution of the parameters was estimated using Monte Carlo Markov Chains

(MCMC) methods.

Key words: Alimentary poor, spatial model, monte carlo markov chains, CAR.

iv

AGRADECIMIENTOS

Al Consejo Nacional de Ciencia y Tecnologıa (CONACYT) por el apoyo economico brin-

dado durante la realizacion de mis estudios.

Al Colegio de Postgraduados, por la oportunidad para seguir mi formacion academica.

Al Dr. Sergio Perez Elizalde, por su tiempo, esfuerzo y paciencia en la direccion de este

trabajo.

A los integrantes de mi consejo particular, por su importante colaboracion para la realiza-

cion de esta tesis.

A los profesores que participaron en mi formacion academica.

A mis companeros y amigos.

v

A mi esposa, Patricia

A mi hijo, M. Alexander

A mis padres

A mis hermanos: Jesus, Lorena, Ivonne, J.Luis, J.Cornelio, Emiliano,

Ricardo, Hugo, Rosa, Leocadia, Concepcion.

vi

Contenido

1. Introduccion 1

2. Objetivos 4

3. Antecedentes 5

4. Revision de literatura 9

4.1. Inferencia bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

4.1.1. Probabilidad y teorema de Bayes . . . . . . . . . . . . . . . . . . . 9

4.1.2. Naturaleza de la inferencia bayesiana . . . . . . . . . . . . . . . . . 14

4.1.3. Distribuciones a priori localmente uniformes . . . . . . . . . . . . . 16

4.1.4. Distribuciones a priori conjugadas . . . . . . . . . . . . . . . . . . . 17

4.1.5. Modelo lineal generalizado . . . . . . . . . . . . . . . . . . . . . . . 18

4.1.6. Modelo lineal generalizado, enfoque bayesiano . . . . . . . . . . . . 23

4.1.7. Regla de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.1.8. Modelos Jerarquicos . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.1.9. Metodos de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . 29

4.1.10. Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.1.11. Gibbs sampler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.1.12. Muestreo de rechazo . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.1.13. Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . . . 32

4.2. Estadıstica espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.2.1. Datos espaciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.2.2. Autocorrelacion, dependencia y heterogeneidad espacial . . . . . . . 36

4.2.3. Modelos lineales generalizados con efectos espaciales . . . . . . . . . 36

4.2.4. Inferencia bayesiana mediante MCMC para MLGM . . . . . . . . . 41

5. Metodologıa 43

5.1. Base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.2. Programacion R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

vii

5.3. Modelo logıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.4. Modelo espacial bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

6. Resultados 50

6.1. Situacion de la pobreza en Mexico . . . . . . . . . . . . . . . . . . . . . . . 50

6.2. Resultados del modelo logıstico . . . . . . . . . . . . . . . . . . . . . . . . 52

6.3. Resultados del modelo espacial bayesiano . . . . . . . . . . . . . . . . . . . 57

7. Conclusiones 61

8. Referencias 63

A. Anexos 68

A.1. Cuadros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

A.2. Densidades estimadas con el modelos espacial en WinBugs . . . . . . . . . 73

A.3. Criterio DIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

A.4. Algoritmo ARS para muestreo Gibbs . . . . . . . . . . . . . . . . . . . . . 76

A.5. Distribuciones espaciales en WinBugs . . . . . . . . . . . . . . . . . . . . . 80

A.6. Codigo WinBugs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

A.7. Codigo en R para obtener las matriz de vecindades estatales . . . . . . . . 82

A.8. Codigo R para la elaboracion de mapas de pobreza . . . . . . . . . . . . . 83

A.9. Factores de expansion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

viii

Lista de cuadros

1. Pobreza alimentaria de los hogares por estado, ENIGH (2005) . . . . . . . 68

2. Variables utilizadas para modelar la prevalencia de la pobreza . . . . . . . 69

3. Parametros estimados del modelo logıstico . . . . . . . . . . . . . . . . . . 70

4. Resultados de la simulacion MCMC . . . . . . . . . . . . . . . . . . . . . . 71

5. Estimaciones del modelo espacial por estado . . . . . . . . . . . . . . . . . 72

ix

Lista de figuras

1. Mapa de pobreza observada por municipio, ENIGH (2005) . . . . . . . . . 51

2. Pobreza observada por municipio, ENIGH (2005) . . . . . . . . . . . . . . 52

3. Pobreza con el modelo logıstico por hogar, ENIGH (2005) . . . . . . . . . 53

4. Mapa de pobreza con el modelo logıstico por municipio, ENIGH (2005) . . 54

5. Pobreza con el modelo logıstico por municipio, ENIGH (2005) . . . . . . . 55

6. Mapa de pobreza con el modelo logıstico por estado, ENIGH (2005) . . . . 56

7. Pobreza con el modelo espacial por hogar, ENIGH (2005) . . . . . . . . . . 57

8. Mapa de pobreza con el modelo espacial por municipio, ENIGH (2005) . . 58

9. Pobreza con el modelo espacial por municipio, ENIGH (2005) . . . . . . . 59

10. Mapa de pobreza con el modelo espacial por entidad, ENIGH (2005) . . . . 60

11. Parametros fijos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

x

1. Introduccion

Hace solo una decada, la pobreza no era un tema del que se ocuparan la prensa y otros

medios de difusion masiva. Algunos gobiernos de America Latina veıan con recelo los

estudios de medicion y analisis de la pobreza. Los organismos internacionales le prestaban

menos atencion al tema que en la decada de los setenta. Hoy, en cambio, el panorama es

diferente no solo en America Latina sino a escala mundial. En 1995 se llevo a cabo en

Copenhague la cumbre mundial sobre el desarrollo social que pretendio poner el tema de

la pobreza en el centro del interes internacional como lo esta ya el del medio ambiente.

El Banco Mundial (BM) esta presionando a gobiernos de paıses subdesarrollados para que

lleven a cabo programas de mitigacion o reduccion de la pobreza extrema. El Programa de

las Naciones Unidas para el Desarrollo (PNUD) ha venido impulsando la idea del desarrollo

humano -que constituye la otra cara de la moneda de la superacion de la pobreza- como

una alternativa al mero crecimiento economico. Sus informes anuales sobre el tema han

estimulado la discusion sobre el para que y el como del desarrollo, proponiendose servir

de contrapeso a los del BM, que a pesar de su interes por la pobreza, siguen evaluando el

desarrollo de los paıses de acuerdo con el desempeno de las variables economicas.

La medicion del bienestar es una herramienta indispensable para la planeacion de las polıti-

cas publicas y para la evaluacion del desempeno de un paıs. Conforme avanzan los anos,

parecen aumentar las posibilidades para analizar estadısticamente este tipo de problemas

de gran complejidad, con datos multivariantes de naturaleza espacial y temporal, incre-

mentando el nivel de detalle para espacios geograficos especıficos mas alla de los promedios

nacionales, como son los estados y municipios, o incluso las localidades.

Los investigadores en diversas areas como la climatologıa, la ecologıa, la salud ambiental,

entre muchas otras, estan cada vez mas enfrentados a la tarea de analizar datos multiva-

riados, con muchos predictores y variables respuesta, con referencia geografica, a menudo

presentados como mapas y temporalmente correlacionados, en estructuras longitudinales

u otras de series de tiempo. En estudios de fenomenos socioeconomicos por ejemplo, los

datos presentan forma jerarquica y espacial de manera natural.

La estadıstica espacial fue brevemente esbozada por R.A. Fisher en su investigacion es-

tadıstica aplicada a la agricultura. Fisher en los anos 30 escribio:

Tras seleccionar el area, habitualmente no tenemos otra guıa que el hecho ampliamente

verificable de que las parcelas mas proximas son normalmente mas parecidas, en terminos

de produccion de la cosecha, que aquellas que estan mas alejadas.

La estadıstica espacial concierne al estudio de datos espaciales y modelos estadısticos de

procesos. Los metodos de Monte Carlo por cadenas de Markov (MCMC) proporcionan

una herramienta para analizar estas situaciones y han propiciado el rapido desarrollo de la

estadıstica espacial desde la ultima decada del siglo XX. A pesar de ello, todavıa quedan

muchas cuestiones pendientes. La comunidad cientıfica debate sobre la complejidad de los

modelos y la fiabilidad de las tecnicas empleadas. La estadıstica espacial, lınea de investi-

gacion de desarrollo relativamente reciente, se basa en modelos estadısticos y matematicos,

hace uso de mapas y de sistemas de informacion geografica y muestra actualmente un

interes creciente en ambitos tan distintos como los de la estadıstica matematica, la epi-

demiologıa, las ciencias del medio ambiente, la economıa espacial o ciencia regional, la

geografıa, la historia, la agronomıa, la arqueologıa, etc.

En esta tesis se propone una metodologıa para el analisis de la prevalencia de la pobreza

alimentaria 1, entendida como la proporcion de individuos de un grupo o poblacion que

presenta una caracterıstica o evento determinado en un momento o periodo de tiempo

particular, desde un enfoque espacial bayesiano, utilizando modelos geoestadısticos que

incorporan esta informacion y que frecuentemente no se considera.

En capıtulo 2 se describen los objetivos de este trabajo. El capıtulo 3 trata sobre la me-

dicion de la pobreza en Mexico, ası como los primeros trabajos realizados en relacion a

este tema. En el capıtulo 4 se da una introduccion a la inferencia bayesiana; se define la

1La pobreza alimentaria se define como la incapacidad para obtener una canasta basica alimentaria,

aun si se hiciera uso de todo el ingreso disponible en el hogar en comprar solo los bienes de dicha canasta.

Para las zonas urbanas se establece el valor de la canasta basica igual 790.74 pesos, en tanto que para zonas

rurales, esta es de 584.34. Para mayor detalle ver el Capitulo 5 del libro “Numeros que mueven al mundo:

la Medicion de la Pobreza en Mexico”, coordinado por Miguel Szekely, editorial Miguel Angel Porrua.

2

notacion y describe el teorema de Bayes. Tambien se describen los principales tipos de

datos espaciales, ası como la estructura y modelacion espacial. El capıtulo 5 indican las

bases de datos que fueron utilizadas para la construccion de la variable binaria de pobreza

alimentaria; ası mismo, se mencionan los paquetes del software R que fueron utilizados

para la manipulacion de la informacion y el mapa digital; se describe el modelo espacial

y la metodologıa para obtener una muestra de la distribucion final de los parametros con

el software WinBugs. En el capıtulo 6 se muestran los resultados de los ajustes generados

para los modelos sugeridos en este estudio, ası como sus respectivos mapas desagregados

a escala municipal y estatal. El capıtulo 7 presenta las principales conclusiones, ademas

indica lıneas de trabajo a realizar. Los anexos incluyen los codigos del software R y Win-

Bugs. El disco compacto anexo contiene la informacion de la ENIGH 2005, el codigo R para

obtener la variable binaria de pobreza alimentaria y codigo Winbugs con la informacion

para realizar el ajuste espacial, ası como los archivos Arcview para elaborar los mapas en

R.

3

2. Objetivos

a) Proponer un modelo estadıstico espacial para la prevalencia de la pobreza alimentaria

en Mexico.

b) Explicar la variacion geografica de la pobreza alimentaria en Mexico, ası como ubicar

las zonas de mayor marginacion, desde una perspectiva bayesiana.

c) Proporcionar una herramienta de analisis de informacion para la toma efectiva de

decisiones en la disminucion de la pobreza.

4

3. Antecedentes

La medicion de la pobreza en Mexico se comenzo a realizar de manera oficial en el ano

2002, utilizando la Encuesta Nacional de Ingresos y Gastos de los Hogares2 (ENIGH),

publicada por el Instituto Nacional de Estadıstica, Geografıa e Informatica (INEGI), la

cual es representativa a nivel nacional, para areas urbanas y rurales. La encuesta tiene la

ventaja de estar disenada para obtener de la manera mas precisa posible indicadores de los

ingresos y gastos de los hogares, ası como de las condiciones de la vivienda y otras variables

socioeconomicas. La principal limitacion de la ENIGH es que no permite una desagregacion

de informacion a nivel estatal o municipal. De hecho, por ser una muestra aleatoria de la

poblacion, esta encuesta no incluye informacion sobre todos los municipios del paıs.

En el trabajo de Lopez et al. (2005) se adapta y aplica al caso de Mexico una metodologıa

propuesta por Elbers et al. (2003), la cual consiste en realizar estimaciones econometricas

para incrementar el grado de precision y detalle en la medicion de uno de los indicadores de

bienestar mas comunmente utilizados: el ingreso de los hogares. La metodologıa propone

un proceso de imputacion en dos etapas. En la primera se estima un modelo de ingresos

y un modelo de heteroscedasticidad a partir de los datos de una encuesta de hogares (que

generalmente esta disenada para captar con alta precision el nivel de ingreso o gasto).

En la segunda etapa, se imputa un ingreso a cada uno de los hogares de la otra fuente

de informacion, el Censo de Poblacion (que provee datos a nivel de localidades, munici-

pios, y otras areas geograficas), utilizando el vector de parametros obtenido en la primera

etapa y se incorpora el modelo de heteroscedasticidad para minimizar los errores en el

calculo del ingreso. Con este metodo de imputacion se pretende obtener datos confiables

geograficamente desagregables.

2El hogar se define como el conjunto de personas unidas o no por lazos de parentesco que residieron

habitualmente en la misma vivienda particular y se sostuvieron de un gasto comun para comer; es decir

que consumieron de los alimentos que prepararon con un presupuesto comun, en una misma estufa o

fogon e incluso utilizaron los mismos utensilios para su preparacion, una persona que vivıa sola o que no

compartio gastos con otra (s) aunque viviera en la misma vivienda particular tambien constituye un hogar,

INEGI, 2000.

5

Por otra parte, Szekely et al. (2005), utiliza el procedimiento de Lopez et al. (2005) para

obtener una primera estimacion sobre la pobreza de ingresos y la desigualdad a nivel estatal

y municipal para Mexico. Esta estimacion permite mapear la pobreza de ingresos, ası como

determinar la contribucion de cada estado y municipio a la pobreza de ingresos. Ademas,

facilita la medicion del nivel de desigualdad en espacios geograficos desagregados, ası como

su descomposicion en terminos de la proporcion debida a desigualdades intra-estatales y

municipales.

La metodologıa de imputacion supone que si un indicador de bienestar W depende de la

variable de interes, el ingreso per capita del hogar yh, a partir de la ENIGH y el censo

de poblacion se puede obtener la distribucion conjunta de yh y una serie de variables

independientes xh.

En primer lugar se obtiene un modelo de prediccion de ingresos. Ası, la variable ych es el

ingreso del hogar h en la comunidad c y se asume que:

lnych = E [lnych|xch] + uch, (1)

donde el vector de errores se distribuye como u ∼ Γ(0,Σ) y el error se desagrega como:

uch = ηc + εch, (2)

donde ηc es el error de la comunidad c y εch corresponde al error del hogar h de la comunidad

c. Note que (1) y (2) forman un modelo jerarquico.

Por otra parte, dentro del marco del II Congreso de la Asociacion Latinoamericana de

Poblacion, llevada a cabo en Guadalajara, Sanchez (2006) realizo un estudio con relacion

a la pobreza, denominado Metodos para el analisis espacial. Una aplicacion al estudio de

la geografıa de la pobreza. Este trabajo explica tres metodos para el analisis espacial: 1)

analisis exploratorio de datos espaciales, 2) modelos de regresion espacial y 3) regresion

ponderada geograficamente. Estas tecnicas permiten visualizar la distribucion geografica

de las variables, estimar la presencia de grupos y la heterogeneidad en su comportamiento

6

en el espacio y desarrollar modelos explicativos que consideren dicha informacion. Para

mostrar su utilidad a los estudios demograficos, se aplican estas tecnicas al estudio de la

pobreza urbana en Guadalajara, Mexico. Los datos provienen del Censo de Poblacion y

Vivienda 2000 agregados por AGEB3 y son vinculados al mapa digital de la cartografıa

censal.

Del mismo modo, de acuerdo con la ley general de desarrollo social, el Consejo Nacional de

Evaluacion de la Polıtica de Desarrollo Social (CONEVAL), el cual tiene por objeto normar

y coordinar la evaluacion de las polıticas y programas de desarrollo social que ejecutan las

dependencias publicas ası como establecer los lineamientos y criterios para la definicion,

identificacion y medicion de la pobreza, en el documento Los mapas de pobreza en Mexico,

dio a conocer los resultados de sus estimaciones para la medicion multidimensional de

la pobreza a nivel estatal y municipal. Los mapas muestran dos medidas de carencias:

la pobreza por ingresos y el ındice de rezago social. Estas mediciones se construyeron a

partir de los indicadores que marca la ley y que deben ser considerados en la definicion,

identificacion y medicion de la pobreza. Las mediciones de pobreza por ingresos a nivel

estatal y municipal se realizaron empleando el procedimiento econometrico elaborado por

Elbers et al. (2003). Se combino la informacion de la ENIGH, con la informacion censal

del II Conteo de Poblacion y Vivienda 2005 (CONEVAL, 2007a). En agosto de 2007, el

CONEVAL reporto las cifras actualizadas de pobreza por ingreso a nivel nacional y en los

ambitos rural y urbano para el ano 2006, utilizando la informacion generada por el INEGI.

Estos calculos se realizaron a partir de la informacion de la ENIGH de 2006. Los datos

reportados se basan unicamente en el ingreso corriente per capita (CONEVAL, 2007b).

En relacion al analisis espacial de datos binarios, Czado et al. (2004) realizaron el trabajo

denominado: Hierarchical Binary Spatial Regression Models with Cluster Effects. Este fue

motivado por un estudio de la movilidad y el uso de opciones del transporte publico. El

interes central es identificar areas de baja/alta utilizacion del transporte publico despues de

ajustar factores explicativos tales como viaje, cualidades del individuo y de los hogares. La

3Area Geoestadıstica Basica definida por el INEGI de acuerdo a caracterısticas afines, tamano y tiempo

de recorrido similares.

7

meta fue desarrollar modelos estadısticos flexibles para una respuesta binaria con efectos

espaciales y de conglomerados.

8

4. Revision de literatura

Esta seccion describe algunos conceptos de la inferencia bayesiana, cadenas de markov y

metodos MCMC para obtener una muestra de las distribucion a posteriori y poder hacer

inferencia acerca de los parametros de interes.

4.1. Inferencia bayesiana

4.1.1. Probabilidad y teorema de Bayes

Para al menos dos eventos E y H se define P (E|H) como la probabilidad del evento E

dada la hipotesis H, la cual se atiene a los siguientes axiomas:

P1) P (E|H) ≥ 0 para todo E, H.

P2) P (H|H) = 1 para todo H.

P3) P (E ∪ F |H) = P (E|H) + P (F |H) cuando EFH = ∅.

P4) P (E|FH)P (F |H) = P (EF |H).

El axioma (P4) puede escribirse como:

P (E|FH) =P (EF |H)

P (F |H)

La forma robusta del axioma (P3) es:

P (∪∞n=1En|H) =∞∑n=1

P (En|H)

Ademas note que:

P (E) para P (E|Ω),

P (E|F ) para P (E|FΩ)

9

donde Ω es el espacio muestral (la suma del total de datos disponibles) y F ⊂ Ω, por lo

que FΩ = F . De los axiomas anteriores se sigue

0 ≤ P (E) ≤ 1,

P (Ω) = 1, P (∅) = 0,

P (∪∞n=1En) =∞∑n=1

P (En)

donde En son eventos y

P (E|F )P (F ) = P (EF )

o

P (E|F ) = P (EF )/P (F ) para P (F ) 6= 0

se define como probabilidad condicional.

Dos eventos E y F son independientes si dado H

P (EF |H) = P (E|H)P (F |H)

del axioma (P4) se sigue que si P (F |H) 6= 0 esta condicion es equivalente a

P (E|FH) = P (E|H)

ası que si E es independiente de F dado H entonces la informacion extra cuando F es

verdadera no altera la probabilidad de E dado H unicamente. Sin embargo, la restriccion

de esta interpretacion al caso donde P (F |H) 6= 0 hace la ecuacion mas general.

De manera mas general, para una secuencia de eventos (En), las parejas son independientes,

dado H, si

10

P (E) ≤ P (F ).

Sea (Hn) una secuencia de eventos y sea E cualquier evento. Entonces

P (E) =∑n

P (E|Hn)P (Hn)

puesto que por (P4) en los terminos del lado derecho son P (EHn). Este resultado es

conocido como ley de adicion generalizada.

El resultado principal a lo anteriormente expuesto es el teorema de Bayes, el cual se deduce

como sigue: sea (Hn) una secuencia de eventos, entonces por (P4)

P (Hn|E)P (E) = P (EHn) = P (Hn)P (E|Hn)

de modo que, para P (E) 6= 0,

P (Hn|E) ∝ P (Hn)P (E|Hn)

donde 1/P (E) es la constante de proporcionalidad.

Se pueden combinar las dos condiciones anteriores para que:

P (Hn|E) =P (Hn)P (E|Hn)∑m P (Hm)P (E|Hm)

.

Ademas, si H1, H2, ..., Hn son eventos cualesquiera, entonces

P (H1H2...Hn) = P (H1)P (H2|H1)P (H3|H1H2)...P (Hn|H1H2...Hn−1)

la cual es conocida como la ley de multiplicacion generalizada, donde P (H1H2...Hn−1) 6= 0

y se puede obtener aplicando repetidamente el axioma P4.

En el caso contınuo, para dos variables x e y,

p(x, y) ≥ 0,

∫ ∫p(x, y)dxdy = 1

12

y

p(x) =

∫p(x, y)dy.

Ademas, la densidad condicional se define como

p(y|x) = p(x, y)/p(x)

donde p(x) 6= 0.

Tambien note que

p(y|x) ≥ 0,

∫p(y|x)dy = 1

y

p(y) =

∫p(x, y)dx =

∫p(x)p(y|x)dx

es claro que

p(y|x) = p(x, y)/p(x) = p(y)p(x|y)/p(x)

asi que

p(y|x) ∝ p(y)p(x|y).

La ecuacion anterior es una forma del teorema de Bayes, donde la constante de proporcio-

nalidad es

1/p(x) = 1/

∫p(y)p(x|y)dy

en el caso contınuo y

1/p(x) = 1/∑y

p(y)p(x|y)

en el caso discreto.

13

4.1.2. Naturaleza de la inferencia bayesiana

Si se esta interesado en los valores de k cantidades desconocidas

θ = (θ1, θ2, ..., θk)

(donde k puede ser uno o mas que uno) y que se tiene un conocimiento a priori acerca

de sus valores los cuales se pueden expresar en terminos de su funcion de densidad de

probabilidad

p(θ)

y suponga que se obtienen algunos datos relevantes para sus valores. Esto es, si se tienen

n observaciones

X = (X1, X2, ..., Xn)

la cual tiene una distribucion de probabilidad que depende de estas k cantidades desco-

nocidas, parametros, ası que la funcion de probabilidad (continua o discreta) del vector

X depende del vector θ. Generalmente los componentes de θ y X son enteros o numeros

reales, y los componentes de X son variables aleatorias, y ası la dependencia de X sobre θ

puede expresarse en terminos de una funcion de distribucion

p(X|θ).

Del teorema de Bayes se sabe que

p(θ|X) ∝ p(θ)p(X|θ),

donde a p(X|θ), como una funcion de θ, se le conoce como la funcion de verosimilitud,

algunas veces descrita como:

l(θ|X) = p(X|θ)

tambien escrita como: pX|θ(X|θ)

14

o

l(θ|X)(θ|X)

Tambien es natural considerar la funcion de log-verosimilitud:

L(θ|X) = log l(θ|X)

Con esta definicion y la de p(θ) como la densidad de probabilidad a priori para θ y de

p(θ|X) como la densidad de probabilidad a posteriori para θ dado X, se construye el

teorema de Bayes.

Ademas, cuando se tiene una muestra inicial de observaciones X, entonces:

p(θ|X) ∝ p(θ)l(θ|X).

Para un segundo conjunto de observaciones Y distribuidas independientemente de la pri-

mera muestra, se tiene:

p(θ|X,Y) ∝ p(θ)l(θ|X,Y).

La independencia implica

p(X,Y|θ) = p(X|θ)p(Y|θ)

de donde se deduce que

l(θ|X,Y) ∝ l(θ|X)l(θ|Y)

por lo tanto,

p(l(θ|X,Y)) ∝ p(θ)l(θ|X)l(θ|Y)

∝ p(θ|X)l(θ|Y)(3)

15

Ası que la densidad a posteriori para θ dado X y Y se obtiene tratando la a posteriori

dada X como la a priori para las observaciones de Y.

Por otro lado, ocacionalmente se necesita obtener la distribucion marginal

p(X) =

∫p(X|θ)p(θ)dθ

conocida como la distribucion predictiva de X, puesto que representa la prediccion de

X considerando la incertidumbre acerca del valor de θ y la incertidumbre residual de X

cuando θ es conocida.

4.1.3. Distribuciones a priori localmente uniformes

Una a priori que no cambia sobre la region en la que se aprecia la verosimilitud y no toma

valores grandes fuera de la region es conocida como a priori localmente uniforme. Para tal

a priori

p(θ|x) ∝ p(x|θ) = l(θ|x) (4)

ası que la a posteriori normalizada debe ser igual a la verosimilitud estandar.

De acuerdo con Bayes, por lo menos en el caso donde θ es una probabilidad desconocida

entre 0 y 1, el caso donde no se conoce nada debe representarse con una a priori uniforme.

Sin embargo, si por ejemplo,

p(θ) = 1 (0 < θ < 1) (5)

entonces para

φ = 1/θ (6)

de acuerdo con el cambio de variable, se tiene:

16

p(φ)|dφ| = p(θ)|dθ| (7)

o

p(φ) = p(θ)|dθ/dφ| = 1/φ2 (1 < φ <∞). (8)

Ademas, si no se conoce nada sobre θ entonces no se conoce nada sobre φ, la cual podrıa

ser representado por la a priori impropia

p(φ) = constante (1 < φ <∞), (9)

ası que la idea de que una a priori uniforme puede ser usada para representar la ignorancia

no es en si misma consistente.

La densidad a priori uniforme (impropia) es como una distribucion normal de varianza

infinita o precision cero,

p(θ) ∝ c (−∞ < θ <∞). (10)

4.1.4. Distribuciones a priori conjugadas

Sea l una funcion de verosimilitud l(θ|x). Se dice que la clase Π de distribuciones a priori

forma una familia conjugada si la densidad a posteriori:

p(θ|x) ∝ p(θ)l(θ|x) (11)

esta en la clase Π para toda x cuando la densidad a priori esta en Π. Si Π es una familia

conjugada y q(θ) es cualquier funcion fija, entonces la familia Ψ de densidades proporcional

a q(θ)p(θ) para p ∈ Π es tambien una familia conjugada.

Por ejemplo, sea k con distribucion binomial con ındice n y parametro π, entonces:

17

l(π|k) ∝ πk(1− π)n−k (12)

Esto es, π tiene una distribucion beta con parametros α y β, Be(α, β), si su densidad es

de la forma:

p(π) ∝ πα−1(1− π)β−1 (13)

Si π tiene una densidad a priori beta, entonces tiene una densidad a posteriori beta, por

lo que la familia de densidades beta forman una familia conjugada.

4.1.5. Modelo lineal generalizado

El modelo lineal generalizado es una extension del modelo lineal clasico. Un vector de ob-

servaciones y con n componentes se asume como una realizacion de la variable aleatoria

Y cuyos componentes estan independientemente distribuidos con media µ. La parte sis-

tematica del modelo es la especificacion del vector µ en terminos de un numero reducido de

parametros desconocidos β1, ..., βp. En el caso del modelo lineal ordinario, la especificacion

es de la forma

µ =

p∑1

xjβj (14)

donde las βj son parametros cuyos valores generalmente son desconocidos y deben ser

estimados de los datos. Sea i el ındice de las observaciones entonces la parte sistematica

del modelo puede escribirse como:

E(Yi) = µi =

p∑1

xijβj; i = 1, ..., n, (15)

donde xij es el valor de la j-esima covariable para la observacion i. En notacion matricial

(donde µ es n× 1, X es n× p y β es p× 1) puede escribirse:

18

µ = Xβ (16)

donde X es la matriz del modelo y β es el vector de parametros. Para la parte aleatoria, se

asume independencia y varianza constante de los errores. Ademas, se asume que los errores

siguen una distribucion Normal con varianza constante σ2.

El modelo lineal clasico puede resumirse de la siguiente manera:

Se asume que las componentes de Y son variables normales independientes con varianza

constante σ2 y

E(Y) = µ donde µ = Xβ. (17)

La generalizacion del modelo se simplifica reacomodando ligeramente (17) para formar las

siguientes partes

1. El componente aleatorio: las componentes de Y tienen distribuciones Normales inde-

pendientes, con E(Y) = µ y varianza constante σ2;

2. El componente sistematico: las covariables x1,x2, ...,xp producen un predictor lineal η

dado por:

η =

p∑1

xjβj; (18)

3. La liga entre las componentes aleatoria y sistematica:

µ = η. (19)

La generalizacion introduce el sımbolo η para el predictor lineal y el punto 3 especifica que

µ y η son identicos. Si se escribe

19

ηi = g(µi) (20)

donde g(·) es conocida como funcion liga. En el modelo clasico la funcion liga es la identidad.

Los modelos lineales generalizados permiten que la distribucion en (1) pueda provenir de

la familia exponencial, distinto al caso Normal, ademas la funcion liga en (3) puede ser

cualquier funcion monotona diferenciable.

Se asume que las componentes de Y tienen una distribucion de la familia exponencial y

toman la forma

fY (y; θ, φ) = exp (yθ − b(θ))/a(φ) + c(y, φ) (21)

para ciertas funciones a(·), b(·) y c(·). Si φ es conocida, este es un modelo de la familia

exponencial con parametro canonico θ. Ası, para la distribucion Normal

fY (y; θ, φ) = 1√2πσ2

exp −(y − µ)2/2σ2

= exp

(yµ− µ2/2)/σ2 − 12(y2/σ2 + log(2πσ2))

(22)

ası que θ = µ, φ = σ2 y

a(φ) = φ, b(θ) = θ2/2, c(y, φ) = −1

2(y2/σ2 + log(2πσ2)). (23)

Escribiendo l(θ, φ; y) = logfY (y; θ, φ) para la funcion de log-verosimilitud como una funcion

de θ y φ dado y. La media y la varianza de Y se puede derivar como sigue:

E

(∂l

∂θ

)= 0 (24)

y

E

(∂2l

∂θ2

)+ E

(∂l

∂θ

)2

= 0. (25)

20

De la ecuacion (21),

l(θ; y) = yθ − b(θ) /a(φ) + c(y, φ), (26)

de donde,

∂l

∂θ= y − b′(θ) /a(φ) (27)

y

∂2l

∂θ2= −b′′(θ)/a(φ) (28)

donde ′ indica la derivada respecto a θ.

De (24) y (27) se tiene que,

0 = E

(∂l

∂θ

)= µ− b′(θ) /a(φ), (29)

por lo cual,

E(Y ) = µ = b′(θ). (30)

Similarmente, de (25), (27) y (28) se tiene que,

0 = −b′′(θ)

a(φ)+

var(Y )

a2(φ)(31)

por tanto:

var(Y ) = b′′(θ)a(φ). (32)

21

La varianza de Y es el producto de: b′′(θ), que depende del parametro canonico (y por lo

tanto de la media) solamente y es conocido como funcion de la varianza, mientras que el

otro es independiente de θ y depende de φ.

La funcion a(φ) comunmente es de la forma

a(φ) = φ/w, (33)

donde φ, tambien denotado con σ2, es llamado parametro de dispersion y es constante

sobre las observaciones; w es el peso a priori que varıa de observacion a observacion. En el

caso del modelo Normal, cada observacion es la media de m lecturas independientes,

a(φ) = σ2/m (34)

ası que w = m.

Para el caso de la distribucion Binomial, donde 0 < µ < 1, la funcion liga debe satisfacer

la condicion de mapear del intervalo (0,1) de la recta real. Por ejemplo,

1. logit, η = logµ/(1− µ);

2. probit, η = Φ−1(µ); donde Φ(·) es la funcion de distribucion acumulada.

3. log-log, η = log−log(1− µ)

La funcion liga logit propicia la existencia de un estadıstico suficiente de igual dimension

a β en el predictor lineal η =∑

xjβj. Estas ligas canonicas se presentan cuando

θ = η. (35)

En notacion vectorial, el estadıstico suficiente es igual a XTY, con componentes

∑xijYi, j = 1, ..., p. (36)

22

4.1.6. Modelo lineal generalizado, enfoque bayesiano

De acuerdo con Dey et al. (2000), en su trabajo Breslow y Clayton (1993) extendieron los

modelos lineales generalizados introduciendo efectos aleatorios ademas de los efectos fijos.

Los modelos que resultaron son conocidos como modelos lineales generalizados mixtos

(MLGM), los cuales tienen una gama mas amplia de aplicacion en el analisis de datos.

Considere mediciones (discretas o continuas) para n unidades. Para la i-esima unidad, la

variable respuesta se denota por yi y el correspondiente vector de parametros se denota

por xi. La variable respuesta puede ser continua o discreta, por ejemplo binaria.

Existen ciertos supuestos distribucionales y estructurales asociados con los MLG. El prin-

cipal supuesto distribucional es que dado θi, las yi son independientes con funciones de

distribucion de la familia exponencial de un parametro, esto es

f(yi|θi) = exp[a−1(φi) yiθi − ψ(θi)+ c(yi, φi)

](37)

donde las θi son desconocidas, pero a(φi) (> 0) son conocidas. El supuesto usual es que

θi = h(xTi b), donde h es una funcion suficiente y estrictamente creciente, b(p × 1) es un

vector de coeficientes de regresion no conocidos y xi(p× 1) son vectores diseno conocidos

de dimension p. Los parametros θi son conocidos como parametros canonicos. Los casos

mas importantes son la distribucion binomial con parametro de probabilidad de exito

p = exp(θi)/ [1 + exp(θi)], para a(φi) = 1, y la distribucion Poisson con media λi = exp(θi),

a(φi) = 1. La distribucion N(µi, σ2i ), con θi = µi y a(φi) = σ2

i .

Una estimacion clasica para un MLG es mediante el metodo de maxima verosimilitud. Por

simplicidad, se asume que φi son conocidas y que XT = (x1, ...,xn) tienen rango p. La

funcion de verosimilitud es dada por

L(b) ∝ exp

[n∑i=1

a−1(φi)yih(xTi b)− ψ(h(xTi b))

]. (38)

Ademas,

23

dlogL(b)

db=

n∑i=1

a−1i (φi)yi − ψ′(h(xTi b))h′(h(xTi b))xi, (39)

con matriz de informacion de Fisher igual a

I(b) = E

[−d

2logL

dbdbT

]= XTDV(b)∆2(b)X, (40)

donde D = Diag(a−1(φi), ..., a−1(φn)), V(b) = Diag(ψ′′(h(xT1 b)), ..., ψ′′(h(xTnb))) y ∆(b) =

Diag(h′(xT1 b), ..., h′(xTnb)).

Los estimadores de maxima verosimilitud se obtienen como soluciones iterativas de las

ecuaciones de verosimilitud dlogL(b)db

= 0. Si la log-verosimilitud l(b) = L(b) es concava,

el estimador de maxima verosimilitud es unico cuando existe al menos una b dentro del

conjunto admisible de parametros, donde l(b) obtiene el maximo local o global.

Para el modelo bayesiano con verosimilitud L(b) en (38) se requiere una distribucion a

priori para b. Dellaportas y Smith (1993) sugieren una distribucion N(b0,Σ), donde b0 y

Σ son conocidos. Entonces para y = (y1, ..., yn)T , la distribucion a posteriori de b esta dada

por

π(b|y) = exp

[n∑1

a−1(φi)yih(xTi b)− ψ(h(xTi b)) − 1

2(b− b0)TΣ−1(b− b0)

]. (41)

No obstante, la distribucion anterior es analıticamente intratable. De hecho, no existe una

expresion cerrada para la constante de normalizacion. Ademas no es facil encontrar la media

y varianza a posteriori con metodos de integracion numerica, incluso para una p moderada.

La aproximacion mas conveniente se obtiene generando muestras de la distribucion final con

tecnicas de integracion MCMC, utilizando en general el algoritmo de Metropolis-Hastings.

Sin embargo, si la distribucion a posteriori es log-concava puede utilizarse el algoritmo

ARS de Gilks y Wild (1992).

Si no se tiene informacion a priori, una alternativa es usar distribuciones a priori no in-

formativas. Esto implica que la distribucion a posteriori provee esencialmente el mismo

24

resultado numerico que en el analisis de verosimilitud. Una a priori no informativa que se

utiliza con frecuencia es πL(b) ∝ 1, la cual se debe a Laplace (1812). Sin embargo, el uso

de esta a priori propicia una distribucion a posteriori impropia.

Laud y Ibrahim (1991) propusieron la a priori de Jeffreys para resolver este problema,

dando πL(b) = |I(b)|1/2, propiciando una a posteriori πJ(b|y) propia.

4.1.7. Regla de Jeffreys

La funcion de log-verosimilitud se define como:

L(θ|x) = logl(θ|x)

El hecho de que la verosimilitud puede ser multiplicada por cualquier constante implica

que la log-verosimilitud contiene una constante aditiva.

Un concepto importante que se presenta en la estadıstica clasica, en el contexto del lımite

de Cramer-Rao para la varianza de un estimador insesgado, es que la informacion provista

por un experimento esta dada por:

I(θ) = −E∂2(log p)/∂θ2, (42)

donde la esperanza se toma sobre todos los valores de x para θ fija. Note que la informacion

depende de la distribucion de los datos mas que de cualquier valor particular de este,

ası que si se lleva a cabo un experimento y se observa, por ejemplo, que x = 3, entonces

la informacion no es diferente de la informacion si x = 5; basicamente tiene que ver con lo

que se puede esperar de un experimento antes y no despues de haberse llevado a cabo.

Debido a que la log-verosimilitud difiere de log p(x|θ) por una constante, todas sus derivadas

son iguales, y se puede definir la informacion por:

I(θ) = −E∂2L/∂θ2 (43)

25

Considere los siguientes lemas:

Lema 1. E∂L(θ|x)/∂θ = 0

Lema 2. I(θ) = E(∂L(θ|x)/∂θ)2

Si se tienen n observaciones independientes x = (x1, x2, ..., xn), entonces el logaritmo del

producto de las densidades, es la suma de las log-verosimilitudes. Por lo cual, si se define

I(θ) = −E∂2L(θ|x)/∂θ2 (44)

entonces por linealidad de la esperanza

I(θ) = nI(θ) (45)

Esto concuerda con la idea intuitiva de que n veces mas observaciones debera dar n veces

mas informacion acerca del valor de un parametro desconocido.

En el contexto bayesiano, si se transforma el parametro desconocido θ a ψ = ψ(θ) entonces:

∂log l(ψ|x)∂ψ

=∂log l(θ|x)

∂θ

dθ

dψ. (46)

Elevando al cuadrado y tomando las esperanzas sobre los valores de x (note que dθ/dψ no

depende de x), se sigue que:

I(ψ) = I(θ)(dθ/dψ)2. (47)

Por lo tanto si se utiliza una densidad a priori de la forma,

p(θ) ∝√I(θ), (48)

entonces por la regla de cambio de variable,

26

p(ψ) ∝√I(ψ). (49)

Jeffreys sugiere que la funcion (48) es una a priori de referencia (el uso de esta a priori

en ocaciones se conoce como la regla de Jeffreys). Esta regla tiene la propiedad de que

la a priori es invariante tal que, en cualquier escala escogida para medir el parametro

desconocido, resulta la misma a priori cuando la escala es transformada. De acuerdo con

Jeffreys, cualquier arbitrariedad en la eleccion de los parametros no registrara diferencia

en los resultados.

En el caso del parametro de la distribucion Binomial,

L(π|x) = x log π + (n− x)log(1− π) + constante (50)

ası que

∂2L/∂π2 = −x/π2 − (n− x)/(1− π)2. (51)

Puesto que Ex = nπ, se sigue

I(π|x) = nπ/π2 + (n− nπ)/(1− π)2 = nπ−1(1− π)−1, (52)

implicando que se tome como a priori:

p(π) ∝ π−12 (1− π)−

12 (53)

es decir, π ∼ Be(12, 1

2), la distribucion arc-seno, la cual es una a priori objetiva para este

caso.

27

4.1.8. Modelos Jerarquicos

Muchas aplicaciones implican multiples parametros conectados, de alguna manera, en la

estructura del problema implicando que el modelo de probabilidad conjunta para estos

parametros refleje la dependencia entre ellos. La caracterıstica principal de estos modelos

es que se aplica para datos anidados. Esto es, los datos yij representan la observacion de

la unidad i del grupo j con probabilidad θj, y pueden utilizarse para determinar la dis-

tribucion poblacional de las θj’s incluso si las θj no son observadas. Es natural modelar

tales datos jerarquicamente, puesto que los resultados pueden ser modelados condicional-

mente en ciertos parametros, los cuales tienen a su vez una especificacion probabilıstica en

terminos de mas parametros, conocidos como hiperparametros.

Considere un conjunto de experimentos j = 1, ..., J , donde yj es el vector de datos y θj el

vector de parametros, con verosimilitud p(yj|θj). Algunos parametros de los experimentos

pueden coincidir; cada yj puede ser una muestra de una distribucion normal por ejemplo,

por lo que θj = (µj, σ2). Para crear un modelo de probabilidad conjunta para todos los

parametros θ, se utiliza el concepto de intercambiabilidad, el cual se define a continuacion.

Si no existe mas informacion que los datos y para distinguir entre las θj’s, y no se pueden

ordenar o los parametros, se debe suponer simetrıa entre los parametros en su distribu-

cion a priori. Esta simetrıa se representa probabilısticamente por la intercambiabilidad;

los parametros (θ1, ..., θJ) son intercambiables en la distribucion conjunta si p(θ1, ..., θJ) es

invariante ante permutaciones de los ındices (1, ..., J). El desconocimiento implica inter-

cambiabilidad.

La forma mas simple de una distribucion intercambiable tiene cada uno de los parametros

θj como una muestra independiente de una distribucion a priori controlada por un vector

de parametros desconocidos φ; ası que

p(θ|φ) =J∏j=1

p(θj|φ). (54)

En general, φ es desconocido ası que la distribucion de θ debe ser el promedio de la incer-

tidumbre en φ

28

p(θ) =

∫ [ J∏j=1

p(θj|φ)

]p(φ)dφ, (55)

la mezcla de estas distribuciones iid captura la intercambiabilidad.

De acuerdo con el Teorema de Finetti, cuando en el lımite J →∞ cualquier distribucion en

(θ1, ..., θJ) puede ser escrita en la forma anterior. Estadısticamente, el modelo caracteriza

a los parametros como una muestra de una superpoblacion la cual se determina por φ

hiperparametros.

La parte fundamental de estos modelos radica en que no se conoce φ por lo que se le tiene

que asignar su propia distribucion a priori p(φ). La distribucion a priori conjunta es:

p(φ, θ) = p(φ)p(θ|φ), (56)

y la distribucion conjunta final es:

p(φ, θ|y) ∝ p(φ, θ)p(y|φ, θ)

= p(φ, θ)p(y|θ)(57)

la ultima expresion se debe a que la distribucion de los datos depende unicamente de θ.

Los hiperparametros φ afectan a y solo a traves de θ.

En necesario asignar una distribucion a priori para φ. Cuando se use una distribucion

impropia se debe tener cuidado en que la distribucion final sea propia. En la practica se

comienza con una distribucion a priori no informativa para φ.

4.1.9. Metodos de Monte Carlo

En la vida real frecuentemente se dificulta modelar las situaciones que se presentan en la

practica. Para llegar a la distribucion a posteriori,

29

p(θ|x) ∝ p(θ)l(θ|x) (58)

hay muchas tecnicas de integracion, sin embargo, la mayorıa se relaciona con la idea de

integracion Monte Carlo, como un metodo para encontrar la esperanza. La forma mas

simple de esta es

∫ b

a

f(x)p(x)dx ∼=1

n

n∑i=1

f(xi) (59)

donde x1, x2, ..., xn son numeros pseudo-aleatorios independientes con densidad p(x) en el

intervalo (a, b), el cual es en el caso mas simple, la distribucion uniforme U(a, b). Aun

cuando los resultados con esta tecnica son mejores en dimensiones mas grandes, el metodo

de Monte Carlo simple se elige como ultimo recurso, especialmente para integrales definidas

sobre regiones no estandar.

Una extension del metodo de Monte Carlo simple es el muestreo de importancia, el cual se

utiliza cuando se desea encontrar la esperanza con respecto a una densidad q(x) pero no se

pueden generar variables aleatorias con esta densidad, aunque se pueden generar variables

xi con una densidad p(x) la cual se aproxima mucho a q(x). Entonces

∫ b

a

f(x)q(x)dx =

∫ b

a

f(x)

(q(x)

p(x)

)p(x)dx ∼=

1

n

n∑i=1

f(xi)q(xi)

p(xi)(60)

4.1.10. Cadenas de Markov

Una Cadena de Markov puede considerarse como un modelo para un sistema el cual se

mueve aleatoriamente a traves de series de estados sin tener memoria de donde ha estado,

es decir, el siguiente salto depende solo del estado actual, esto es, dado el presente, el pasado

y el futuro son independientes. De esta manera se tiene una densidad de probabilidad,

denominada densidad de la probalidad de transicion, representando la probabilidad del

30

estado y en el tiempo t dado que el estado en el tiempo t − 1 es x. Si la densidad de

probabilidad de su estado en el tiempo 0 es p(0)(x), entonces la densidad de su estado en

el tiempo 1 se da por la ley de adicion generalizada como

p(1)(y) =∑x

p(0)(x)p(y|x). (61)

Cuando la suma se reemplaza por la integral, el conjunto de estados es continuo. Iterando

este proceso, se puede encontrar la distribucion del estado en cualquier tiempo t en terminos

de p0(x) y p(y|x). El punto principal es que en el lımite esta densidad se aproxima a p(y)

y no depende de p(0)(x) y es determinado unicamente por p(y|x). La distribucion lımite es

conocida como distribucion estacionaria o invariante.

4.1.11. Gibbs sampler

El algoritmo se expresa de la siguiente manera: empezar de un valor η(0) generado de la

distribucion a priori para η y entonces iterar como sigue:

1) Escoger η(i+1) de η de la densidad p(η|z(i),x)

2) z(i+1) de z de la densidad p(z|η(i+1),x)

A esta version del algoritmo se le conoce como aumento de datos encadenados, puesto que

la distribucion del siguiente par de valores (η, z) depende de los valores actuales, y ası estas

parejas se comportan como una cadena de Markov. Como resultado de las propiedades de

Cadenas de Markov, despues de un numero grande T de iteraciones, los valores resultantes

de η y z tienen una densidad conjunta, la cual se aproxima a p(η, z|x).

En general, las observaciones no son independientes, por lo tanto, para obtener observacio-

nes independientes e identicamente distribuidas se debe iterar T veces tomando el ultimo

valor para k replicas.

31

4.1.12. Muestreo de rechazo

Un metodo que no utiliza metodos de Cadenas de Markov pero que ayuda para comprender

el algoritmo de Metropolis-Hastings es el muestreo de rechazo o muestreo de aceptacion y

rechazo. Este metodo utiliza una densidad p(θ) = f(θ)/K en el caso donde la constante de

normalizacion K es casi imposible de conocer, la cual es una situacion tıpica que se presenta

en estadıstica bayesiana cuando se desea conocer la distribucion a posteriori. Se asume que

existe una densidad candidata h(θ) de la cual se simulan muestras y una constante c tal

que f(θ) ≤ c h(θ). Para obtener una variable aleatoria θ con densidad p(θ) se procede de

la siguiente manera:

1) Generar una variable Y de la densidad h(θ).

2) Generar un valor U ∼ U(0, 1) la cual se distribuye uniformemente en (0,1).

3) Entonces si U ≤ f(Y )/c h(Y ) se define θ = Y ; de otro modo regresar al paso 1.

4.1.13. Algoritmo de Metropolis-Hastings

El algoritmo de Metropolis-Hastings comienza al obtener de una densidad candidata, como

en el muestreo de rechazo, pero debido a que se consideran cadenas de Markov, la densidad

depende del estado actual del proceso. Sea q(φ|θ) la densidad candidata y se supone que∑φ q(φ|θ) = 1 . Si la densidad resultado q(y|x) es reversible en el tiempo, entonces no se

necesita buscar mas. Sin embargo, si se encuentra que,

π(θ)q(φ|θ) > π(φ)q(θ|φ) (62)

entonces parece que el proceso se mueve de θ a φ frecuentemente y de φ a θ raramente. Se

puede reducir el numero de movimientos de θ a φ introduciendo una probabilidad α(φ|θ),

llamada la probabilidad de movimiento. Para alcanzar el tiempo de reversibilidad se toma

α(φ|θ) tal que,

32

α(φ|θ) = min

[π(φ)

π(θ), 1

](69)

El algoritmo de Metropolis-Hastings se puede resumir de la siguiente manera

1) Muestrear un punto candidato θ∗ de una distribucion de salto q(θ∗|θ(t−1)).

2) Calcular α = min[

p(θ∗)q(θ(t−1)|θ∗)p(θ(t−1))q(θ∗|θ(t−1))

, 1].

3) Generar un valor U ∼ U(0, 1) el cual se distribuye uniformente en (0,1).

4) Entonces si U ≤ α se define θ(t) = θ∗; de otro modo, θ(t) = θ(t−1).

5) Regresar la secuencia θ(1), θ(2), ..., θ(n).

Se ignoran los valores de θ(i) hasta que la cadena converge al equilibrio.

En el muestreo de Gibbs el proceso salta de acuerdo con la probabilidad de transicion

p(θj|θ(t−1)−j ,x). Una modificacion conocida como Metropolis dentro del muestreador de

Gibbs, consiste en muestrear un punto candidato θ∗j distinto de θ(t)j con probabilidad:

p(θ∗j |θ(t−1)−j ,x)

1− p(θ(t−1)−j |θ

(t−1)−j ,x)

. (70)

El valor θ(t−1)j se reemplaza por θ∗j con probabilidad:

α = min

1− p(θ(t−1)

j |θ(t−1))

1− p(θ∗j |θ(t−1))

, 1

(71)

Esta modificacion es estadısticamente mas eficiente, aunque ligeramente mas complicada

que el muestreador de Gibbs y es utilizada en WinBugs.

34

4.2. Estadıstica espacial

4.2.1. Datos espaciales

En estadıstica espacial se distinguen tres tipos de datos (Cressie, 1993): datos geoestadısti-

cos o georeferenciados, datos de rejilla o datos en un area y datos de procesos puntuales.

Para mayor detalle puede consultarse tambien Banerjee et al., 2004.

Los datos geoestadısticos se observan en s localizaciones de un conjunto no contable D ∈ Rd

donde d especifica la dimensionalidad del espacio. Generalmente, las localizaciones se ex-

presan por su latitud, longitud y altitud. Las observaciones se toman en cada localizacion

y se consideran como una realizacion de un proceso estocastico espacial denotado gene-

ralmente por Z(s). El objetivo es predecir el proceso en nuevas localizaciones, mediante

tecnicas de Kriging, a partir de los datos observados en las localizaciones muestreadas. El

metodo precisa del conocimiento de la funcion de covarianza o del semivariograma.

Los datos de rejilla se presentan en una region deD ∈ Rd contable, es decir un numero finito

de areas con vecindad bien definida, regular o irregularmente espaciadas. Esta metodologıa

se aplica frecuentemente en estudios epidemilogicos.

Los datos de procesos puntuales espaciales D es una coleccion de sucesos aleatorios cuya

realizacion se llama proceso puntual, donde cada suceso indica la localizacion de un evento

de interes.

35

4.2.2. Autocorrelacion, dependencia y heterogeneidad espacial

La autocorrelacion espacial, segun Vilalta (2005), es la concentracion o dispersion de los

valores de una variable en un mapa. Esta medida refleja el grado en que los objetos o

actividades en una unidad geografica son similares a otros objetos o actividades en unidades

geograficas proximas (Goodchild, 1987). Lo anterior sugiere que unidades geograficamente

cercanas dan lugar al surgimiento de clusters, por ejemplo, en nuestro analisis se esperarıa

que hogares pobres estuvieran relativamente cerca de otros pobres.

La dependencia espacial se presenta cuando el valor de la variable dependiente en una

unidad espacial es parcialmente funcion del valor de la misma variable en unidades vecinas

(Flint et al., 2000). La diferencia entre correlacion y dependencia espacial es, fundamen-

talmente, en el uso de las palabras; esto es, la primera se refiere simultaneamente a un

fenomeno y tecnica estadıstica, y el segundo a una explicacion teorica.

La heterogeneidad espacial se refiere a la variacion de las relaciones entre las variables en

el espacio. En terminos teoricos, la heterogeneidad espacial se debe a una variacion real y

sustantiva que evidencia la existencia y validez del contexto geografico en la definicion de,

por ejemplo, un comportamiento social. La heterogeneidad espacial indica la presencia de

diferencias sistematicas en la ocurrencia de un fenomeno en distintas regiones geograficas,

de tal forma que este podrıa tener diferentes distribuciones en un subgrupo espacial de

los datos, simplemente cambiando con la ubicacion de las unidades. Entonces, se podrıa

hablar de heterogeneidad si la region sur tiene niveles medios de pobreza, distintos de la

region norte o si las variables explicativas tienen un efecto diferente en ciertas regiones.

4.2.3. Modelos lineales generalizados con efectos espaciales

Generalmente se asume que los efectos aleatorios en los modelos mixtos son independientes

y tienen una distribucion estandar tal como la normal o gamma. Sin embargo, con los

metodos MCMC, en particular el muestreo de Gibbs, tales restricciones no son necesarias

y pueden utilizarse en la practica modelos aun mas complejos, tal como aquellos que tienen

efectos aleatorios correlacionados.

36

Con ayuda de los metodos MCMC se puede extender el modelo lineal generalizado a aquel

que incorpora efectos aleatorios residuales al termino lineal, no tomados en cuenta en el

ajuste. Estos terminos minimizan la perturbacion ocacionada por observaciones atıpicas.

Para este modelo, sean Y1, ..., YN observaciones aleatorias independientes, donde Yi tiene

densidad

fi(yi|ηi, φ) = exp[Ai(φ)−1yiηi −Bi(ηi) + Ci(yi;φ)

]. (72)

La funcion Ai(φ) es comunmente de la forma Ai(φ) = φw−1i , donde wi son los pesos previa-

mente especificados. Frecuentemente se asume que el parametro de escala φ es conocido.

Cuando Yi sigue una distribucion binomial con parametros mi y pi, φ = 1, Ai(φ) = 1,

ηi = logpi/(1− pi), Bi(ηi) = milog1 + exp(ηi) y Ci(yi;φ) = −log[mi!/yi(mi − yi)!].

Generalmente se desea modelar la variabilidad de ηi tomando en cuenta ciertas covariables.

Los parametros ηi se modelan como sigue

hi(ηi) = x1iθ, (73)

donde las hi son funciones monotonas, X1 = (x11, ...,x1n)t es la matriz diseno de N × p y

θ es el vector de efectos fijos. ηi es el parametro canonico, φ es el parametro de escala y hi

es la funcion liga.

El siguiente modelo incluye efectos aleatorios

hi(ηi) = xt1iθ + xt2iZ, (74)

donde hi es una funcion monotona, X1 = (x11, ...,x1n)t y X2 = (x21, ...,x2n)t son las

matrices diseno de N ×p yN ×k, el vector θ de p×1 representa los efectos fijos y el vector

Z de k×1 a los efectos aleatorios. Este tipo de modelos es ampliamente usado en el mapeo

de enfermedades.

37

El modelo se puede extender agregando efectos de los residuos al modelo

hi(ηi) = xt1iθ + xt2iZ + ei, (75)

donde e = (e1, ..., eN)t son los efectos de los residuales, tal que E(ei) = 0. Se asume que Z

y e son mutuamente independientes. Los efectos de los residuales se incluyen para tomar

en cuenta otras fuentes de variacion, tal como observaciones atıpicas. ei es completamente

diferente a Z en el sentido que Z toma en cuenta efectos aleatorios geograficos y correlacion

espacial. A este tipo de modelos se le conoce como Modelo Lineal Generalizado Mixto y

son discutidos ampliamente en Dey et al. (2000).

Cuando Yi sigue una distribucion binomial, la funcion liga logit es canonica y logit(pi) =

logpi/(1− pi) = ηi− log(mi− eηi) = hi(ηi), resultando en una regresion logıstica. Las ei

pueden ser iid normal con media 0 y varianza δ0 o exp(ei) son iid gamma(R,R), R > 0.

Como caso especial, Ghosh et al. (1988) utilizo ei en un modelo binomial-normal e incor-

poro efectos espaciales tomando X2Z = U, donde U sigue una distribucion definida por

un modelo condicionalmente autorregresivo (CAR(1)) de Besag (1974).

Historicamente se ha asumido que los efectos aleatorios son independientes en este tipo

de modelos; sin embargo, existen situaciones donde los efectos deben ser modelados como

correlacionados. Los modelos correlacionados son apropiados para los efectos espaciales.

Entre los metodos que existen para integrar informacion espacial esta la especificacion

directa de la matriz de correlacion. Si los efectos aleatorios estan linealmente ordenados, por

ejemplo con datos longitudinales serıa conveniente especificar una estructura de correlacion

directamente, modelando la correlacion como funcion decreciente respecto a la distancia,

asumiendo que Z = (Z1, ..., Zk)t sigue una distribucion NMV(0,Σ), donde Σ = (σij) de

k × k, con elementos

σij = τρ|i−j| (76)

38

para τ > 0 y ρ ∈ (−1, 1).

Otro manera de incorporar efectos aleatorios al modelo, es mediante un modelo AR(1), tal

que

Zi = ρZi−1 + εi, i = 2, ..., k, (77)

donde ρ ∈ (−1, 1), y (ε1, ..., εk)iid∼ N(0, δ1). Si Z1 ∼ N(0, δ1/(1−ρ2)), entonces Z sigue una

distribucion NMV(0,Σ), donde Σ = (σij) de k × k y τ = δ1/(1− ρ2).

El modelo AR(1) generalizado se define como

Zi = ρk∑j=1

CijZj + εi (78)

donde Cij son constantes fijas, tal que Cii = 0, ε1, ..., εkiid∼ N(0, δ1), ρ es el coeficiente de

correlacion de Zi en el sentido que entre mas grande sea |ρ|, mas fuerte es la correlacion

entre los componentes de Z. Si las Zi estan linealmente ordenadas, se define su distribucion

conjunta asumiendo lo siguiente

Z1 = ρZ2 + ε1

Zi = ρ(Zi−1 + Zi+1) + εi, i = 2, ..., k − 1,

Zk = ρZk−1 + εk,

(79)

donde C = (Cij) de k × k es la matriz de coeficientes, I de k × k la matriz identidad y

Wρ = I− ρC, (80)

para el modelo general en (78) es equivalente a WρZ = (ε1, ..., εk)t. Si Wρ no es singular,

Z tiene distribucion normal multivariada con media cero y matriz de covarianza Σ =

δ1(WtρWρ). Una eleccion comun para C es la matriz de adyacencias A = (aij)k×k definida

por

39

aij =

1, si j es adyacente a i

0, de otro modo(81)

La clase de distribuciones para Z cuando Wρ = I−ρA ha sido utilizada para la modelacion

de efectos regionales en el mapeo de enfermedades.

Una manera de ver la a priori de Z es a traves de distribuciones condicionales de Zi, tal

que Z−j = (Zj, j 6= i). Para el modelo AR(1) simple (77) puede mostrarse que B = δ1Σ−1

es una matriz triangular con (1, 1+ρ2, ..., 1+ρ2, 1) en la diagonal y −ρ fuera de la diagonal.

Ademas, se sigue que Z tiene la propiedad de Markov

Zi|Z−i ∼ N(ρ

1 + ρ2(Zi−1 + Zi+1),

δ1

1 + ρ2), para i = 2, .., k − 1, (82)

es decir, la distribucion de Zi depende solo de las variables adyacentes.

Por otra parte, los modelos CAR son utilizados con frecuencia por sus propiedades de

Markov en modelacion espacial. Un modelo popular tal como

Zi|Z−i ∼ N

(ρ

di

k∑j 6=i

CijZj,δ1

di

), (83)

donde Cij y di > 0 son constantes tal que Cii = 0. Este es un caso especial del modelo de

Besag (1974) con

f(Zi|Z−i) =

(αi

2πδ1

)1/2

exp

− αi2δ1

(Zi −

k∑j 6=i

βijZj

)2 (84)

i = 1, ..., k. Suponga que B es una matriz de k × k con αi en la diagonal y −αiβij fuera

de la diagonal. Besag probo que si B es simetrica y positiva definida, estas distribuciones

condicionales producen la distribucion conjunta de Z,

40

f(Z) = (2πδ1)−k/2|B|1/2exp

(− 1

2δ1

ZtBZ

), (85)

es decir, Z ∼ NMV(0, δ1B−1). Suponga que

B = Bρ = D− ρC, (86)

donde D es una matriz diagonal con elementos positivos (d1, ..., dk) y C es una matriz

simetrica con Cii = 0. Si Bρ es positiva definida, entonces la distribucion condicional y

conjunta de Z son como se describe en (83) y (85), respectivamente.

Estos modelos son importantes debido a que las distribuciones condicionales dependen so-

lamente de los valores vecinos para Zi, lo cual es deseable para analisis bayesiano utilizando

metodos MCMC.

Asuma que C = A es la matriz de adyacencias y di =∑

j Cij. Si ρ ∈ (−1, 1), entonces B

es positiva definida y la distribucion condicional de Zi dado Z−i es N(ρZi, δ1/ni), donde ni

es el numero de vecinos de la localizacion i, y Zi es la media de ni vecinos Zj’s, por lo que

αi = ni y βij = ρ/ni si j es adyacente a i y cero de otro modo. Este modelo fue estudiado

por Besag (1975) y Ripley (1981).

4.2.4. Inferencia bayesiana mediante MCMC para MLGM

La inferencia bayesiana se puede implementar mediante metodos MCMC con algoritmos

tales como muestreo Gibbs y/o Metropolis. Asumiendo que los componentes de varianza δi

siguen una distribucion a priori gamma inversa (ai, bi), entonces el total de distribuciones

condicionales son las siguientes:

1. θ|(η, φ,Z, δ0, δ1) ∼ NMVρ((Xt1)(X1)−1Xt

1(V−X2Z), δ0(Xt1X1)−1).

2. Z|(η, φ,θ, δ0, δ1) ∼ NMVk(M1Xt2(V−X1θ), δ0M1), donde M1 = (Xt

2X2 + δ0δ−11 B)−1

3. δ0|(η, φ,θ,Z, δ1) ∼ IG(α0 + n2, b0 + 1

2(V−X1θ −X2Z)t(V−X1θ −X2Z))

41

4. δ1|(η, φ,θ,Z, δ0) ∼ IG(α1 + k2, b1 + 1

2ZtBZ)

5. Dados (φ,Z, δ0, δ1), ηj (o υj = hj(ηi)) son independientes. Ademas, puesto que ηj y

vj tienen una relacion uno a uno en la transformacion, se puede simular de ηj o vj,

dependiendo de la simplicidad. La densidad de ηj dado (φ,θ,Z, δ0, δ1) es:

sj(ηj) ∝ exp

[yjηj −Bj(ηj)

Aj(φ)−hj(ηj)− xt1jθ − xt2jZ2

2δ0

]h′j(ηj)

y la densidad de vj dado (φ,Z, δ0, δ1) es:

sj(vj) ∝ exp

[yjh−1j −Bjh−1

j (vj)Aj(φ)

−vj − xt1jθ − xt2jZ2

2δ0

],

donde h−1j es la funcion inversa de hj.

6. Si φ tiene una densidad a priori g(φ), entonces su distribicion a posteriori dado (η,θ,Z, δ0, δ1)

es

g∗(φ) ∝ g(φ)N∏i=1

exp[Ai(φ)−1yiηi −Bi(ηi)+ Ci(yi;φ)]

Con frecuencia, la distribucion de ηi o vi es log-concava. En el caso binomial, cuando

hi(ηi) = ηi = logpi/(1− pi), se tiene

si(ηi) ∝ exp

[yiηi −milog(1 + eηi)− ηi − log(mi)− (xt1iθ + xt2iZ)2

2δ0

].

Se puede mostrar que

∂2

∂η2i

logsi(ηi) = −mieηi(1 + eηi)−2 − δ−1

0 < 0

Por lo que la densidad condicional de ηi = vi dado (φ,Z, δ0, δ1) es log-concava.

42

5. Metodologıa

5.1. Base de datos

Los datos utilizados en esta investigacion provienen de la ENIGH del ano 2005, la cual es

un proyecto de generacion estadıstica que realiza el INEGI desde el ano de 1984. Tiene la

finalidad de proporcionar un panorama estadıstico del comportamiento del ingreso y gasto

de los hogares en cuanto a su monto, procedencia y distribucion, para apoyar la toma de

decisiones en materia de polıtica economica y social, ası como para brindar informacion

util a investigadores, academicos y organismos internacionales.

La ENIGH es importante en la generacion de estadıstica dado que proporciona los datos

necesarios para conformar la Cuenta de Hogares del Sistema de Cuentas Nacionales de

Mexico, cubriendo la tematica correspondiente a los gastos que realizan los integrantes del

hogar, tanto monetarios como no monetarios, en la adquisicion de bienes de consumo final,

ası como los ingresos que perciben como pago al factor trabajo, capital y subsidios.

La informacion captada en el levantamiento de la ENIGH se compone de seis tablas con

extension dbf (dBase)

hogares contiene caracterısticas de los hogares, de las viviendas y el factor de expan-

sion.

poblacion define caracterısticas sociodemograficas y ocupacionales de los miembros

del hogar.

ingresos proporciona los ingresos y percepciones de capital de cada uno de los miem-

bros de los hogares.

gastos contiene los gastos realizados por el hogar.

erogaciones contiene las erogaciones de capital por hogar.

nomonerario proporciona los gastos o ingresos realizados por hogar y algunos por

persona.

43

Adicionalmente, se incluye un tabla de las principales variables de la encuesta. Esta tabla

se denomina concentrado y contiene 23,174 registros, donde el 38.69 % es de zonas rulares,

y se agrupan en 572 municipios, incluıdas las 32 entidades de paıs4.

5.2. Programacion R

Para procesar la informacion de las tablas de datos se utilizo un programa en lenguaje R

(tambien conocido como GNUS, es un entorno y un lenguaje para el calculo estadıstico

y la generacion de graficos. R implementa un dialecto del lenguaje S, desarrollado en los

laboratorios Bell por Chambers et al., 1988). El software es gratuito y puede obtenerse en

la siguiente pagina http://cran.r-project.org.

Debido a la magnitud de las tablas, la informacion se almaceno en Microsof Access 2003.

Para interactuar entre Access y R se utilizo la librerıa RODBC, la cual permite realizar

consultas (Queries) mediante sentencias SQL (Structured Query Language). Las tablas

fueron enlazadas por el Folio.

Tambien se utilizaron las librerıas DCluster y Maptools para visualizar un mapa digital,

en formato shapefile (asociado al programa ArcView GIS), de los municipios de Mexico.

Con el mismo se obtuvo la matriz de vecindades de cada uno de los estados. Ademas, con

estos paquetes se graficaron los resultados en el mapa digital. El codigo de R para obtener

la informacion se incluye en los anexos.

4Esta informacion esta disponible de manera libre en la pagina http://www.inegi.org.mx

44

5.3. Modelo logıstico

La primera aproximacion para el estudio de pobreza es mediante un modelo logıstico, donde

la variable respuesta es una variable binaria, Y = (Y1, ..., Yn)t, que indica si un hogar se

clasifica con pobreza alimentaria o no, de acuerdo con la metodologıa establecida por el

CONEVAL5, donde:

Yijk =

1, hogar con pobreza alimentaria

0, de otro modo(87)

donde Yijk es la clasificacion del hogar k en el municipio j, del estado i, k = 1, ..., nij,

j = 1, ..., 572, i = 1, ..., 32.

Se asume que dado pijk, las Yijk son independientes y siguen una distribucion Bernoulli con

probabilidad de exito pijk para k = 1, ..., nij. Las probabilidades pijk se modelan a traves

de la funcion liga logit como sigue:

θijk := log

(pijk

1− pijk

)= xtijkβ (88)

El vector diseno xijk multiplicado por el vector de parametros de regresion β ∈ Rp repre-

senta los efectos fijos de covariables de ındole socioeconomico sugeridas por Lopez et al.,

(2005) y se muestran en el Cuadro 2 del anexo: Yk es la respuesta binaria dada en (87) de

acuerdo a la linea de pobreza alimentaria establecida por la Secretarıa de Desarrollo Social

(SEDESOL). Tambien se consideran como variables: el numero de miembros del hogar, la

cantidad de automoviles para uso en el hogar, numero de televisores y computadoras; asi

mismo, se incluyen variables con relacion al jefe del hogar, como son la edad, ano aprobado

en la escuela, total de horas trabajadas en la semana y estado conyugal. Ademas se toman

en cuenta cinco grupos de estados, estratificados a partir de los niveles de marginacion de

las entidades federativas (Lopez et al., 2005).

5El codigo para R se encuentra en los anexos y se basa en el archivo que genero el CONEVAL para el

paquete estadıstico SPSS.

45

5.4. Modelo espacial bayesiano

La segunda aproximacion es una modelacion espacial, la cual es un area de investigacion

con enorme proyeccion en estadıstica y ha tenido un rapido desarrollo debido al uso de

metodos de Cadenas de Markov Monte Carlo.

El objetivo es tomar en consideracion posibles efectos espaciales aleatorios en el modelo, co-

munes a muchos fenomenos socioeconomicos, para lo cual se incluye el vector b = (b1, ..., bI),

de tal manera que la dependencia espacial es tratada como una forma de heterogeneidad

no modelada en el comportamiento de la distribucion de pobreza. En contraste con los

modelos de efectos aleatorios estandar, los efectos aleatorios en lugares vecinos no son asu-

midos espacialmente independientes. Por el contrario, a los efectos aleatorios se les permite

presentar autocorrelacion espacial, como a menudo es el caso cuando unidades vecinas in-

teractuan entre sı o con atributos similares que no se incorporan en la especificacion del

modelo.

Puesto que la informacion disponible se clasifica como datos tipo area, se utiliza una ex-

tension del modelo desarrollado por Besag et al., (1991), en el contexto de restauracion de

imagenes. Este esta dado por,

θijk := log

(pijk

1− pijk

)= xtijkβ︸︷︷︸

efecto fijo

+ bi(jk)︸︷︷︸efecto espacial aleatorio

(89)

Este modelo incorpora la informacion espacial a traves de la adyacencia entre los estratos

en lugar de la distacia entre ellos (Banerjee et al., 2003). Por lo tanto,

b|λ ∼ CAR(λ) (90)

donde b = (b1(jk), ..., bI(jk)) y CAR representa una estructura condicionalmente autorre-

gresiva intrınseca (Besag y Green, 1993). En este caso, la distribucion del vector b es tal

que,

46

λI/2exp

[−λ

2

∑i adj i′

(bi − bi′)2

]∝ λI/2exp

[−λ

2

I∑i=1

mibi(bi − bi′)2

](91)

donde i adj i′ denota que las regiones i y i′ son adyacentes, bi es la media de las bi′ 6=i que

son adyacentes a bi y mi es el numero de estas adyacencias. Para permitir que los datos

tengan un intercepto α0, se restringe∑I

i=1 bi = 0. Una consecuencia de esta a priori es,

bi|bi′ 6=i ∼ N(bi, 1/(λmi)). (92)

Una distribucion gamma propia

f(λ) =sr

Γ(r)λr−1e−sλ (93)

como hiper a priori para λ, tal como lo sugiere Bernardinelli et al., (1995b), completa la

especificacion del modelo (Banerjee et al., 2003; Czado et al., 2004; Bradley y Thomas,

2000; Congdon, 2006).

Asumiendo el modelo dado por (3) y (4) la verosimilitud del vector respuesta Y es propor-

cional a

f(Y|β,b) ∝n∏k=1

exp(Yijk(xtijkβ + bi(jk)))

1 + exp(xtijkβ + bi(jk))

el cual es similar a la familia de modelos semiparametricos para datos espacio-temporales

multicategoricos.

La figura siguiente ilustra la estructura modelo jerarquico:

47

Y

@@I

β b

6

λ

Para estimar la distribucion a posteriori se utilizan metodos MCMC, en especial muestreo

Gibbs (Casella y George, 1992). Ası se obtiene un numero grande arbitrario de muestras

de la distribucion a posteriori f(β,b, λ|Y) para realizar la inferencia de los parametros,

por medio de las medias a posteriori por ejemplo.

La formulacion bayesiana asume distribuciones a priori independientes para los efectos fijos

β y el parametro espacial b dada su varianza escalar λ. Para los efectos fijos, Banerjee et

al..,(2003), sugiere una distribucion uniforme impropia plana. Por lo tanto para

Π[β,b, λ] = Π[β]× Π[b|λ]× Π[λ],

la distribucion a posteriori es,

Π[β,b, λ|Y] ∝ Π[β|b, λ,Y]× Π[b|β, λ,Y]× Π[λ|b, β,Y] (94)

donde

Π[β|b, λ,Y] = Π[β|b,Y] ∝ [Y|β,b]× [β] (95)

la cual tiene tiene el siguiente total de condicionales, para βl, l = 1, ..., p:

Π[βl|β−l,b, λ,Y] ∝n∏k=1

exp(Yijk(xtijklβl))

1 + exp(xtijkβ + bi(jk))[βl] (96)

donde β−l = (β1, ..., βl−1, βl+1, ..., βp)t. Puesto que la ultima ecuacion no representa una

distribucion estandar, se necesita un paso Metropolis-Hastings.

48

Para el parametro espacial se utiliza la densidad a priori CAR(λ) intrınseca. El total de

condicionales es proporcional a,

Π[bi|β,b−i, λ,Y] ∝ Π[Y|β,b]× [bi|β,b−i, λ]

∝∏n

i:j(i)=jexp(Yijkbi)

1+exp(xtijkβ+bi(jk))

λI/2exp[−λ

2

∑Ii=1mibi(bi − bi′)2

] (97)

donde b−i = (b1, ..., bl−1, bl+1, ..., bI)t. Tambien aquı se requiere un paso Metropolis-Hastings.

Las condicionales para el parametro de varianza espacial son las siguientes,

Π[λ|β,b,Y] = Π[λ|b] ∝ Π[b|λ]× [λ] (98)

Como densidad a priori de la varianza espacial se utiliza la distribucion gama dada en la

ecuacion (93), donde r > 0 y s > 0. Esto es, λ ∼ Γ(r, s). Por lo tanto, la distribucion de

Π[λ|β,b,Y] es otra distribucion gama, Γ(r∗, s∗), donde

r∗ = r +K

2

y

s∗ = s+1

2

∑mibi(bi − bi).

49

6. Resultados

6.1. Situacion de la pobreza en Mexico

En este trabajo se analiza la pobreza alimentaria medida a traves del ingreso, utilizando

la metodologıa establecida por el CONEVAL. Los resultados generados se presentan a

continuacion.

La encuesta de la ENIGH 2005 proporciona registros para 23 mil 174 hogares, los cuales se

agrupan en 572 municipios, como una muestra de los 32 estados de la republica mexicana.

Es importante senalar que del total de hogares considerados en la muestra, 38.69 % eran

rulares, es decir, 8 mil 966.

La Figura 1 muestra la distribucion de la pobreza observada por municipio, con base en el

calculo de la proporcion de hogares en esta situacion (ver Cuadro 1).

Los estados que albergan a los municipios clasificados en la categorıa de pobreza mas alta

son Chiapas, Guerrero, Hidalgo, Oaxaca, Puebla y Veracruz, lo cual coincide con diversos

estudios sociodemograficos en Mexico, tal como los ındices de desarrollo humano realizados

por el PNUD.

La Figura 2 muestra que de los 572 municipios involucrados en la encuesta, 13 se clasificaron

como los mas pobres paıs.

De los municipios mas pobres en Mexico, es decir, los clasificados en la categorıa 5, cuatro

son del estado de Guerrero, a saber, San Luis Acatlan (0.9333), Zapotitlan Tablas (0.9375),

Copanatoyac(0.9412), Igualapa (0.9500); tres del estado de Chiapas, Zinacantan (0.8043),

Tumbala (0.8286), Pantelho (0.8421); dos del estado de Oaxaca, Villa Sola de Vega (0.8333),

San Pedro Quiatoni (0.8500); dos de Veracruz, Ixhuatlan de Madero (0.8485), Tamiahua

(0.8571);uno de Hidalgo, Yahualica (0.9545) y uno de Puebla, Coyomeapan (1.0000).

50

Figura 1: Mapa de pobreza observada por municipio, ENIGH (2005)

51

Figura 2: Pobreza observada por municipio, ENIGH (2005)

6.2. Resultados del modelo logıstico

Ejecutando el algoritmo stepwise, el cual selecciona el mejor modelo utilizando el criterio

de informacion de Akaike (AIC por sus siglas en ingles) en el software R con la funcion

glm, las covariables que fueron seleccionadas se muestran en el Cuadro 3 de los anexos.

Como se observa en el Cuadro 3, todas las variables resultaron significativas. Con este

ajuste se obtiene una devianza de 13764.28, siendo el mejor modelo de entre los ajustados

para el analisis de la pobreza en Mexico.

El modelo logıstico tiende a ser mas utilizado en comparacion con el modelo probit, debido

a que los coeficientes pueden ser interpretados como razones de probabilidad (odds ratios).

La razon de probabilidad se puede interpretar como el aumento estimado en la probabilidad

de exito asociado con un cambio unitario en el valor de la variable predictora, en general, el

aumento estimado del cociente de probabilidad, asociado con un cambio de d unidades en

la variable predictora, es exp(dβj) para el regresor xj, suponiendo que las demas variables

predictoras son constantes (Montgomery et al.,2005).

52

Figura 3: Pobreza con el modelo logıstico por hogar, ENIGH (2005)

Aunque no es el objetivo de este trabajo, como ejemplo, se interpreta el coeficiente β1: pri-

mero se obtiene el valor de la razon de probabilidad, que no es mas que el valor exponencial

del coeficiente, esto es, el valor de β1 es 0.361945, lo cual implica un valor exponencial de

1.4361; por lo tanto, un miembro adicional en el tamano del hogar aumenta en 40 % la

probabilidad de que un hogar sea pobre manteniendo constantes las demas variables pre-

dictoras.

Los resultados indican que 16 mil 504 hogares se clasificaron en la categorıa de pobreza

alimentaria baja, de los cuales 25.98 % son rurales; 3 mil 195 hogares se clasificaron en

la categorıa 2 de pobreza, donde 58.34 % se ubican en zonas rurales; 1 mil 768 hogares

pertenecieron a la categorıa 3, con el 75.34 % de hogares rurales; 1 mil 158 en la categorıa

4, con 85.15 % rurales; por ultimo, 496 hogares se clasificaron como los mas pobres en el

paıs, de los cuales el 90.35 % son de zonas rurales.

Los estados de Chiapas, Puebla, Guerrero, Oaxaca y Veracruz agruparon al 62.30 % de los

hogares mas pobres del paıs.

Debido a que se obtienen estimaciones a nivel de hogar y se desea representar en un mapa

53

una estimacion para cada municipio, en el que se observe la dispersion de la pobreza de

acuerdo al ajuste del modelo logıstico (ver Figura 4), se utilizan los factores de expansion

proporcionados en la base del ENIGH denominada concentrado (Anexo A.1).

Figura 4: Mapa de pobreza con el modelo logıstico por municipio, ENIGH (2005)

El mapa de municipios (Figura 4) muestra que 19 se clasificaron en la categorıa de pobreza

alta, 45 en la categorıa 4, 77 en la categorıa 3, 140 en la categorıa 2 y 291 en la categorıa

1, la de menor pobreza.

Los estados en los que se encontraron los municipios mas pobres fueron Oaxaca con seis,

Guerrero y Chiapas cinco cada uno,Veracruz y San Luis dos, Puebla e Hidalgo tuvieron un

54

Figura 5: Pobreza con el modelo logıstico por municipio, ENIGH (2005)

municipio cada uno.

Utilizando nuevamente los factores de expansion, se realizaron estimaciones para cada una

de las entidades federativas.

La Figura 6 muestra que las entidades mas pobres son: Oaxaca, Chiapas e Hidalgo. En

contraste, los de mejores condiciones se encuentran en la parte norte, a excepcion del

Distrito Federal, Aguascalientes y Colima. Los resultados son similares a los que reporta

el CONEVAL en su trabajo denominado los mapas de pobreza en Mexico.

55

Figura 6: Mapa de pobreza con el modelo logıstico por estado, ENIGH (2005)

56

6.3. Resultados del modelo espacial bayesiano

En esta seccion se presentan los resultados de simulacion del modelo espacial con una

distribucion a priori CAR intrınseca. El ajuste se llevo a cabo con el sofware WinBugs

(Lawson et al., 2003), con ayuda de MLWiN (Rasbash et al., 2005), el cual permite la

aplicacion de un amplio rango de modelos jerarquicos bayesianos.

Con este modelo se obtuvo una devianza igual 13639.540, menor a la que se obtuvo con el

modelo logıstico (13764.28), indicando que este es un mejor modelo para el estudio de la

pobreza.

De acuerdo con las estimaciones, 16 mil 567 hogares se clasificaron en la categorıa de

pobreza baja, de los cuales 26.11 % de localidades rurales; 3 mil 157 hogares se ubicaron en

la categorıa 2 de pobreza, con el 58.92 % de zonas rurales; 1 mil 688 hogares se clasificaron

en la categorıa 3, donde el 74.29 % son de zonas rurales; 1 mil 150 hogares se concentran

en la categorıa 4 de pobreza, con 84.96 % en zonas rurales; por ultimo, 612 hogares se

clasifican en la categorıa de pobreza alta, siendo 89.87 % de zonas rurales.

Figura 7: Pobreza con el modelo espacial por hogar, ENIGH (2005)

57

Figura 8: Mapa de pobreza con el modelo espacial por municipio, ENIGH (2005)

De los 612 hogares clasificados con pobreza alta, los estados de Guerrero, Chiapas, Puebla,

Oaxaca y Veracruz concentraban al 61.27 %.

Como se muestra en la Figura 8, los resultados por municipio indican que 14 se clasificaron

con pobreza alta, de los cuales seis son de Guerrero, a saber, Copanatoyac, Igualapa,

Malinaltepec, San Luis Acatlan, Xochistlahuaca y Zapotitlan Tablas; cinco de Chiapas,

Pantelho, Rayon, Tumbala, Zinacantan y San Andres Duraznal; dos de Oaxaca, San Felipe

Jalapa de Dıaz y Santiago Ixtayutla; y uno de San Luis Potosı, Aquismon.

58

Figura 9: Pobreza con el modelo espacial por municipio, ENIGH (2005)

En relacion a los estados, Chiapas, Guerrero, Oaxaca e Hidalgo, resultaron como los de

mayor pobreza en Mexico. Los estados del norte presentan un menor grado de pobreza

alimentaria en relacion al sur del paıs.

Los resultados de los parametros estimados se muetran en el cuadro 4 de los anexos.

59

Figura 10: Mapa de pobreza con el modelo espacial por entidad, ENIGH (2005)

60

7. Conclusiones

De acuerdo con los resultados del criterio de informacion de la devianza bayesiana, al

incorporar efectos espaciales aleatorios se obtiene un modelo mas apropiado para los datos

de pobreza alimentaria en Mexico, en comparacion al logıstico. Sin duda, al tomar en

cuenta la posible correlacion espacial en los datos mediante el modelo espacial bayesiano,

se explica de mejor manera la pobreza. Esto es, los efectos aleatorios correspondientes a

estratos, en este caso los municipios, que guardan una vecindad una con otra tienden a ser

similares en magnitud.

Aun cuando este modelo es relativamente eficiente, se recomienda considerar mas covaria-

bles que guarden una estrecha relacion con la pobreza. Ademas, si todos los municipios

del paıs tuvieran observaciones, se tendrıa una estructura de vecindad mas desagregada en

comparacion a la de estados.

Como se describe en el desarrollo de este trabajo, solo se consideraron los datos de la

ENIGH para el ano 2005, a pesar de contar con tres muestras mas para diferentes anos;

sin duda, incluirlas en el analisis agregarıa variabilidad espacio–temporal y, por lo tanto, se

tendrıa un modelo mas eficiente, cuya complejidad alienta el uso de estadıstica bayesiana,

implementada con algoritmos de cadenas de Markov Monte Carlo.

Debido a que se considera la metodologıa establecida por el CONEVAL, el modelo ajustado

en este trabajo es una aproximacion importante, cuyos resultados son similares a los de

dicha institucion.

En relacion a los mapas, se observa que los municipios con mayor pobreza se encuentran

en la parte sur de la republica, principalmente en Chiapas, Guerrero, Oaxaca, lo cual

coincide con el trabajo del CONEVAL, 2007a. Sin embargo, debido a que el estudio de esta

institucion utiliza el metodo de imputacion de ingresos, mediante el uso de los resultados

del ENIGH y el Conteo de poblacion 2005, las estimaciones por municipio y estado difieren

ligeramente.

En este trabajo de tesis se trabajo con la lınea de pobreza alimentaria, si embargo, se

61

incluye el codigo R para la obtener las tres lıneas de pobreza: Lınea de Pobreza Alimentaria,

Lınea de Pobreza de Capacidades y Lınea de Pobreza Patrimonial, mismas que estima el

CONEVAL con SPSS.

62

8. Referencias

Akaike, H. 1973. Information theory and an extension of the maximum likelihood principle.

In Petrov, B. N. and Csaki, F. (eds), 2nd International Symposium on Information

Theory, Budapest. pp. 267-281.

Banerjee, S. and B. P. Carlin. 2003. Semiparametric Spatio-Temporal Frailty Modeling.

Environmetrics. 14:523-535.

Banerjee, S., M. M. Wall and B. P. Carlin. 2003. Frailty Modeling for Spatially Correlated

Survival Data, with Application to Infant Mortality in Minnesota. Biostatistics. 4(1):

123-142.

Banerjee, S., B. P. Carlin and A.E. Gelfand. 2004. Hierarchical Modeling and Analysis for

Spatial Data. CRC/Chapman and Hall. United States of America. pp:1:212.

Bernardinelli, L. and C. Montomoli. 1992. Empirical Bayes versus fully Bayesian analysis

of geographical variation in disease risk. Statistics in Medicine. 11:983-1007.

Besag, J. 1974. Spatial interaction and the statistical analysis of lattice systems (with

discussion). J. Roy. Statist Soc, Ser. B, 36, 192-236.

Besag, J. 1975. Statistical analysis of non-lattice data. The Statistician, 24, 179-195.

Besag, J., J. York and A. Mollie. 1991. Bayesian image restoration with two applications

in spatial statistics. Annals of the Institute of Statistical Mathematics. 43:1-59.

Besag, J. and P. Green. 1993. Spatial statistics and Bayesian computation (with discus-

sion). J. R. Statist. Soc. B, 55: 25-37.

Breslow, N. and D. Clayton. 1993. Approximate inference in generalized linear mixed mo-

dels. J. Am. Statist. Ass. 88:9-25.

Carlin, B. P. and J. S. Hodges. 1999. Hierarchical proportional hazards regression models

for highly stratified data. Biometrics. 55:1162-1170.

63

Carlin, B. P. and T. A. Louis. 2000. Bayes and Empirical Bayes Methods for Data Analysis.

Second Edition. CRC/Chapman and Hall

Casella, G. and E. George. 1992. Explaining the Gibbs sampler. Amer. Statistician. 46:167-

174.

Chambers, J. M., R. A. Becker and A. R. Wilks. 1988. The New S Language. Chapman

& Hall, New York.

CONEVAL (Consejo Nacional de Evaluacion de la Polıtica de Desarrollo Social). 2006.

Aplicacion de la Metodologıa del Comite Tecnico para la Medicion de la Pobreza

2000-2005. Mexico, D.F.

http://www.coneval.gob.mx/coneval/comunicados.html.

CONEVAL (Consejo Nacional de Evaluacion de la Polıtica de Desarrollo Social) 2007a.

Los Mapas de Pobreza en Mexico. Mexico, D.F.

CONEVAL (Consejo Nacional de Evaluacion de la Polıtica de Desarrollo Social). 2007b.

Reporta CONEVAL cifras actualizadas de pobreza por ingresos 2006. Direccion de

Informacion y Comunicacion Social. Mexico, D.F.

Congdon, P. 2006. Bayesian Statistical Modelling. Second edition. John Wiley & Sons,

Ltd. England.

Cressie, N. A. C. 1993. Statistics for Spatial Data, revised edition. Wiley. New York.

CTMP (Comite Tecnico para la Medicion de la Pobreza). 2002. Medicion de la pobre-

za, variantes metodologicas y estimacion preliminar. Secretarıa de Desarrollo Social.

Documentos de Investigacion. Serie 1. Mexico.

Czado, C. and S. Prokopenko. 2004. Modeling transport mode decisions using hierarchical

binary spatial regression models with cluster effects. Discussion Paper 406. SFB 386.

Dey, K. D, S. K. Ghosh and B. K. Mallick. 2000. Generalized linear models, a bayesian

perspective. Dekker, Inc. New York.

64

Diggle, P., J. Tawn and R. Moyeed. 1998. Model-based geostatistics (with discussion).

Applied Statistics. 47(3):299-350.

Elbers, C., J. O. Lanjouw , and P. Lanjouw. 2003. Micro-level estimation of poverty and

inequality. Econometrica. 71(1):355-364.

Flint, C., M. Harrower and R. Edsall. 2000. But How Does Place Matter? Using Baye-

sian Networks to Explore a Structural Definition of Place. Documento presentado en

The New Methodologies for the social sciencies conference. University of Colorado,

Boulder.

Gelman, A., J. B. Carlin, H. S. Stern and D. B. Rubin. 2004. Bayesian Data Analysis.

Second Edition. CRC/Chapman and Hall. Boca Raton, Florida. United States of

America. 695 p.

Gelman, A. and J. Hill . 2006. Data Analysis Using Regression and Multilevel/Hierarchical

Models. Cambridge. New York.

Gilks, W. R., N. G. Best and K. K. C. Tan. 1995. Adaptive Rejection Metropolis Sampling

within Gibbs Sampling. Applied Statistics. 44: 455-472.

Ghosh, M. and K. Natarajan. 1998. Small area estimation: a Bayesian perspec-perspective.

Multivariate, Design and Sampling. Ed. S. Ghosh, Marcel Dekker. New York (to

appear).

Ghosh, M. , K. Natarajan, T.W.F. Stroud and B. P. Carlin. 1998. Generalized linear mo-

dels for small-area estimation. Journal of the American Statistical Association, 93,

273-282.

Goodchild, M . 1987. Spatial Analytical Perspective on Geographical Information Sys-

tems”, International Journal of Geographical Information Systems, 1:327–334

INEGI (Instituto Nacional de Estadıstica, Geografıa e Informatica). 2000. Encuesta Na-

cional de Ingresos y Gastos de los Hogares, 2000. Documento Metodologico. INEGI,

Mexico. 314 p.

65

Lawson, A. B. , W. J. Browne and C. Vidal-Rodeiro. 2003. Disease mapping with Winbugs

and Mlwin. John Wiley & Sons, Chichester, England. 282 p.

Lopez C., L.F., A. Melendez, E. Rascon, L. Rodrıguez-Chammusy y M. Szekely. 2005.

Poniendo al ingreso de los hogares en el mapa de Mexico. Tecnologico de Monterrey,

Escuela de Graduados en Administracion Publica y Polıtica Publica, Mexico D.F.

Lopez C., L.F., E. Rascon, L. Rodrıguez, A. Melendez y M. Szekely. 2005. Poniendo al bie-

nestar en el mapa: estimaciones de ingreso estatal y municipal en Mexico, Secretarıa

de Desarrollo Social. Mexico DF.

Montgomery, D. C., E. A. Peck y G. G. Vining. 2005. Introduccion al analisis de regresion

lineal. V. Gonzalez P. Primera edicion en espanol, Segunda reimpresion. Continental,

Mexico D.F. 588 p.

Ntzoufras I. 2009. Bayesian Modeling Using WinBUGS. John Wiley & Sons, Inc. New

Jersey.

Pettitt, A., I. Weir and A. Hart. 2002. Conditional autoregressive Gaussian process for

irregularly spaced multivariate data with application to modelling large sets of binary

data. Statistics and Computing 12: 353-367.

Rasbash J., F. Steele, W. Browne and B. Prosser. 2005. A User’s Guide to MLwiN. Centre

for Multilevel Modelling University of Bristol. United Kingdom.

Ripley, B. D. 1981. Spatial Statistics. Wiley, New York.

Sanchez P., L. 2006. Metodos para el analisis espacial. Una aplicacion al estudio de la

geografıa de la pobreza. II Congreso de la Asociacion Latinoamericana de Poblacion,

Guadalajara, Mexico.

Szekely P., M. 2005. Numeros que mueven al mundo: la medicion de la pobreza en Mexico.

Miguel Angel Porrua, SEDESOL-CIDE-ANUIES.

66

Szekely P., M., L. F. Lopez C., A. Melendez, E. G. Rascon y L. Rodrıguez-Chammusy.

2005. Poniendo a la pobreza de ingresos y a la desigualdad en el mapa de Mexi-

co. Tecnologico de Monterrey, Escuela de Graduados en Administracion Publica y

Polıtica Publica, Mexico D.F. Working Paper.

Spiegelhalter, D. J., N. Best, B. P. Carlin and A Van Der Linde. 2002. Bayesian measures of

model complexity and fit (with discussion). To appear Journal of the Royal Statistical

Society, Series B.

Spiegelhalter, D., A. Thomas, N. Best and D. Lunn. 2003 WinBUGS User Manual. Version

1.4. http://www.mrc-bsu.cam.ac.uk/bugs

Vilalta P., J.C. 2005. Como ensenar autocorrelacion espacial. Economıa, Sociedad y Terri-

torio. 18:323–333

Voss, P., D. Logg, R. Hammer y S. Friedman. 2005. County Child Poverty Rates in the

US: A Spatial Regression Approach.

67

A. Anexos

A.1. Cuadros

Cuadro 1: Pobreza alimentaria de los hogares por estado, ENIGH (2005)Clave Entidad Pobre No pobre

01 Aguascalientes 37 347

02 Baja California 19 531

03 Baja California Sur 9 391

04 Campeche 128 416

05 Coahuila 48 506

06 Colima 22 367

07 Chiapas 264 386

08 Chihuahua 108 668

09 Distrito Federal 42 1152

10 Durango 117 444

11 Guanajuato 67 543

12 Guerrero 301 360

13 Hidalgo 165 425

14 Jalisco 81 425

15 Mexico 144 1082

16 Michoacan 104 433

17 Morelos 45 427

18 Nayarit 42 359

19 Nuevo Leon 34 491

20 Oaxaca 248 438

21 Puebla 408 1470

22 Queretaro 63 393

23 Quintana Roo 66 378

24 San Luis Potosı 130 396

25 Sinaloa 71 398

26 Sonora 167 1669

27 Tabasco 338 1460

28 Tamaulipas 76 533

29 Tlaxcala 65 320

30 Veracruz 385 1372

31 Yucatan 63 392

32 Zacatecas 53 292

68

Cuadro 2: Variables utilizadas para modelar la prevalencia de la pobrezaParametro Variable Descripcion

Yijk poblp1 Lınea de Pobreza Alimentaria, 1 pobre, 0 no pobre

β1 tam hog Poblacion total

β2 VEHI06 1 automoviles para uso en el hogar

β3 EQH10 07 Television a color

β4 EQH10 08 Videocasetera

β5 EQH10 10 Licuadora

β6 EQH10 30 Refrigerador

β7 EQH10 23 Lavadora

β8 EQH10 20 Computadora

β9 EDAD Edad del jefe del hogar

β10 SERV01 1 Servicio de lınea telefonica 1 si , 2 no

N INSTR161: Ano aprobado en la escuela

β11 N INS NULO Ano aprobado en la escuela, 1 Ninguno, 0 otro

β12 N INS prep Ano aprobado en la escuela, 1 Preparatoria o bachillerato, 0

otro

β13 N INS NORMAL Ano aprobado en la escuela, 1 Normal, 0 otro

β14 N INS CTECNIC Ano aprobado en la escuela, 1 Carrera tecnica o comercial,

otro

β15 N INS PROFESIONAL Ano aprobado en la escuela, 1 Profesional, 0 otro

β16 HORAS TRAB Total de horas trabajadas a la semana Suma de las horas tra-

bajadas en su(s) empleo(s)

EDOCONY: Estado conyugal

β17 EDOUNIONLIB Estado conyugal, 1 Vive con su pareja en union libre , 0 otro

β18 EDOCASADO Estado conyugal, 1 Casado (a) , 0 otro

REGION: estratificacion a partir de los niveles de marginacion de las entidades federativas

β19 REGION 1 Marginacion muy baja: Aguascalientes, Baja California, Baja

California Sur, Coahuila, Chihuahua, Distrito Federal y Nuevo

Leon.

β20 REGION 2 Marginacion baja: Colima, Jalisco, Estado de Mexico, Sonora

y Tamaulipas.

β21 REGION 3 Marginacion media: Durango, Guanajuato, Morelos, Nayarit,

Queretaro, Quintana Roo, Sinaloa, Tlaxcala y Zacatecas.

β22 REGION 4 Marginacion alta: Campeche, Hidalgo, Michoacan, Puebla,

San Luis Potosı, Tabasco y Yucatan.

β23 REGION 5 Marginacion muy alta: Chiapas, Guerrero, Oaxaca y Veracruz.

69

Cuadro 3: Parametros estimados del modelo logıstico

Coeficientes: Estimado Error Std. Valor de z Pr(> |z|)

(Intercepto) -2.725238 0.185523 -14.689 < 2e-16 ***

tam hog 0.361945 0.010850 33.359 < 2e-16 ***

VEHI06 1 -0.521723 0.079916 -6.528 6.65e-11 ***

EQH10 07 -0.634414 0.041801 -15.177 < 2e-16 ***

EQH10 08 -0.433681 0.070085 -6.188 6.10e-10 ***

EQH10 10 -0.480358 0.050789 -9.458 < 2e-16 ***

EQH10 30 -1.019515 0.161024 -6.331 2.43e-10 ***

EQH10 23 -0.409994 0.052099 -7.869 3.56e-15 ***

EQH10 20 -0.512685 0.051378 -9.979 < 2e-16 ***

EDAD -0.008048 0.001592 -5.054 4.33e-07 ***

SERV01 1 0.743377 0.062568 11.881 < 2e-16 ***

N INS NULO 0.349644 0.060160 5.812 6.18e-09 ***

N INS prep -0.472792 0.103736 -4.558 5.17e-06 ***

N INS NORMAL -1.959703 0.522829 -3.748 0.000178 ***

N INS CTECNIC -0.639634 0.213817 -2.992 0.002776 **

N INS PROFESIONAL -1.085597 0.168775 -6.432 1.26e-10 ***

HORAS TRAB -0.013283 0.001024 -12.966 < 2e-16 ***

EDOUNIONLIB 0.412136 0.071358 5.776 7.67e-09 ***

EDOCASADO 0.262747 0.057884 4.539 5.65e-06 ***

REGION2 0.466054 0.089480 5.208 1.90e-07 ***

REGION3 0.556825 0.087885 6.336 2.36e-10 ***

REGION4 0.836051 0.080058 10.443 < 2e-16 ***

REGION5 1.144431 0.083873 13.645 < 2e-16 ***

Codigos de Significancia: 0 ’***’0.001 ’**’0.01 ’*’0.05 ’.’0.1 ’ ’1

70

Cuadro 4: Resultados de la simulacion MCMCParametro Media Desv Est Error MC 2.5 % Mediana 97.50 %

β1 0.3633 0.01064 4.53E-04 0.3432 0.3631 0.3845

β2 -0.5151 0.0803 0.001456 -0.6746 -0.5124 -0.3606

β3 -0.6336 0.04259 0.001207 -0.7168 -0.6336 -0.5517

β4 -0.4555 0.0701 0.001095 -0.5911 -0.4561 -0.3165

β5 -0.456 0.05224 0.001745 -0.5574 -0.4549 -0.3536

β6 -1.044 0.1628 0.002493 -1.374 -1.042 -0.7325

β7 -0.4349 0.05329 0.001463 -0.5359 -0.4357 -0.3275

β8 -0.5522 0.05389 0.001905 -0.6592 -0.5522 -0.4488

β9 -0.007972 0.001677 1.18E-04 -0.01123 -0.007977 -0.004522

β10 0.7401 0.06045 0.004639 0.6149 0.741 0.8505

β11 0.3446 0.06139 0.001636 0.2231 0.3449 0.4645

β12 -0.4525 0.1044 0.001814 -0.6598 -0.4511 -0.2483

β13 -2.127 0.5602 0.008111 -3.336 -2.09 -1.121

β14 -1.049 0.1704 0.002622 -1.387 -1.051 -0.7188

β15 -0.0128 0.001051 4.57E-05 -0.01478 -0.0128 -0.01067

β16 0.3527 0.07804 0.003205 0.1985 0.3529 0.5064

β17 -0.3052 0.1142 0.003051 -0.5306 -0.3047 -0.08007

β18 0.1805 0.06615 0.002883 0.04939 0.1809 0.3096

β19 0.5192 1.212 0.1414 -1.657 0.3138 3.033

β20 -2.136 1.742 0.2055 -4.687 -2.871 0.7999

β21 -0.7859 1.232 0.1451 -2.976 -0.828 1.209

β22 -0.6312 1.653 0.195 -3.068 -0.5907 2.302

carmean -1.355 0.9936 0.1176 -3.082 -1.431 0.278

71

Cuadro 5: Estimaciones del modelo espacial por estadoClave Entidad Pi Categ

1 Aguascalientes 0.06559285 1

2 Baja California 0.05330306 1

3 Baja California Sur 0.0511826 1

4 Campeche 0.17107529 3

5 Coahuila 0.04604467 1

6 Colima 0.08507055 1

7 Chiapas 0.33761102 5

8 Chihuahua 0.05023668 1

9 Distrito Federal 0.0340364 1

10 Durango 0.16642409 3

11 Guanajuato 0.15747389 3

12 Guerrero 0.2705919 4

13 Hidalgo 0.31870182 5

14 Jalisco 0.10776648 2

15 Mexico 0.10695652 2

16 Michoacan 0.16504055 3

17 Morelos 0.12093393 2

18 Nayarit 0.10387986 2

19 Nuevo Leon 0.03472733 1

20 Oaxaca 0.32551093 5

21 Puebla 0.22766829 4

22 Queretaro 0.13793612 2

23 Quintana Roo 0.11819758 2

24 San Luis 0.17678705 3

25 Sinaloa 0.13779411 2

26 Sonora 0.08350287 1

27 Tabasco 0.20674935 3

28 Tamaulipas 0.09284338 1

29 Tlaxcala 0.16554512 3

30 Veracruz 0.25933722 4

31 Yucatan 0.1859242 3

32 Zacatecas 0.16317361 3

72

A.2. Densidades estimadas con el modelos espacial en WinBugs

Figura 11: Parametros fijos

73

A.3. Criterio DIC

Recientemente, Spiegelhalter et al. (2002) han proporcionado una sencilla e intuitiva ex-

tension del Criterio de Informacion de Akaike (AIC por sus siglas en ingles; Akaike, 1973)

denominado Criterio de informacion de la Devianza (DIC). Este criterio se basa en la

distribucion a posteriori del estadıstico de la devianza,

D(θ) = −2 log f(y|θ) + 2 log h(y) (99)

donde f(y|θ) es la funcion de verosimilitud de los datos observados, vector y, dado el vector

de parametros θ y h(y) es alguna funcion normalizada de los datos por sı solos (que por lo

tanto, no tiene ningun impacto sobre la seleccion del modelo). En este enfoque, el ajuste de

un modelo se resume por la esperanza a posteriori de la devianza, D = Eθ|y[D], mientras

que la complejidad de un modelo se captura por el numero efectivo de parametros, pD. En

Spiegelhalter et al. (2002) se muestra que una definicion razonable de pD es

pD = Eθ|y[D]−D(Eθ|y[θ]) = D −D(θ) (100)

es decir, la desviacion esperada menos la desviacion evaluada en las esperanzas posteriores.

Tıpicamente, este total efectivo de parametros PD sera inferior al actual numero total de

parametros en el modelo, debido a la toma de fuerza a traves de efectos aleatorios (en

nuestro caso, la Wi). El DIC se define de forma analoga al AIC como la esperanza de la

devianza mas el numero efectivo de parametros, es decir,

DIC = D + pD (101)

Puesto que valores pequenos de D indican buen ajuste mientras valores pequenos de PD

indican un cuidadoso modelo, los valores pequenos de la suma (DIC) indican modelos

preferidos. Al igual que ocurre con el AIC y otros criterios de probabilidad penalizada, el

DIC no esta destinado para la identificacion del modelo correcto, sino simplemente como

un metodo de comparar una coleccion de modelos alternativos (todos los cuales pueden

74

ser incorrectos). Tenga en cuenta tambien que el DIC tiene libre de escala; la eleccion de

la funcion de normalizacion h(y) es arbitraria. De este modo, los valores DIC no tienen

sentido intrınseco, solo diferencias en los modelos a traves de DIC son significativos.

Ademas de su caracter general, un atractivo aspecto del DIC es que puede ser facilmente

calculado durante una corrida MCMC monitoreando θ y D(θ) y al final de la simulacion

simplemente se toma la media muestral de los valores simulados de D, menos la estimacion

de la desvianza mediante las medias muestrales de los valores simulados de θ. Esta can-

tidad puede ser calculada para cada modelo siendo considerada sin adaptacion analıtica,

funciones de perdida complicadas, muestreo MCMC adicionales (por ejemplo, de los valores

predictivos), o la inversion de cualquier matriz. Para mayor detalle consulte Spiegelhalter

et al. (2002) y Banerjee, S. et al. (2003).

75

A.4. Algoritmo ARS para muestreo Gibbs

Es una tecnica para la toma de muestras de cualquier funcion de densidad de probabilidad

f(x) univariada log-concava (Gilks et al. (1995)). El metodo se basa en el muestreo de

rechazo y no requiere de la determinacion de la moda de f(x). Es adaptable: las funciones

envelope y squeezing (que forman los limites superior e inferior para f(x)) convergen a

la densidad f(x) como producto de muestreo. Las funciones envelope y squeezing son de

variables a trozos exponenciales. La naturaleza de adaptacion permite muestras que se

pueden extraer con pocas evaluaciones de f(x); por lo tanto, es util en situaciones en las

que la evaluacion de f(x) es computacionalmente dificil.

Muestreo de Rechazo Adaptivo

Primero se describe el muestreo de rechazo estandar (no-adaptativo).

Muestreo de rechazo no adaptivo

El muestreo de rechazo es un metodo general para muestrear puntos independientemente

de una densidad f(x). La densidad necesita ser especificada solo hasta una constante de

integracion, es decir, el muestreo de rechazo se puede llevar a cabo mediante el uso de

g(x) en lugar de f(x), donde g(x) = cf(x) para algunos valores posibles de c. Esto es

especialmente util cuando c =∫Dg(x)dx no esta disponible en forma cerrada (donde D

denota el dominio de f(x), es decir, el conjunto de x para el que f(x) > 0).

Para muestrear n puntos independientemente de f(x) por el muestreo de rechazo, se define

una funcion envelope gu(x) tal que las gu(x) ≥ g(x) para toda x en D, y, opcionalmente,

definir tambien una funcion squeezing gl(x) tal que g(x) ≤ g(x) para toda x en D. A

continuacion, se lleva a cabo el siguiente paso de muestreo hasta que n puntos han sido

aceptados.

Muestrear un valor de x∗ de gu(x) y muestrear un valor w independientemente de la

distribucion uniforme (0, l). Si se ha definido la funcion gl(x), realizar la siguiente prueba

squeezing: si

w ≤ gl(x∗)/gu(x∗)

76

entonces aceptar x*. En caso contrario, evaluar g(x∗) y llevar a cabo la siguiente prueba

de rechazo: si

w ≤ g(x∗)/gu(x∗)

entonces aceptar x*; en otro caso rechazar x*. Repita hasta que n puntos han sido acepta-

dos.

El muestreo de rechazo solo es util si es mas eficiente o conveniente para muestrear de

la envelope gu(x) que la densidad de f(x). En la practica, la busqueda de una adecuada

gu(x) puede ser difıcil ya que a menudo involucra la ubicacion del supremum de g(x) en D

mediante el uso de una tecnica de optimizacion estandar.

Muestreo de Rechazo Adaptivo

Para el muestreo Gibbs, por lo general solo una muestra se requiere de cada densidad, aun-

que el muestreo de muchos miles de diferentes densidades pueden ser necesarios. Ademas,

al estimar un modelo no conjugado, las evaluaciones de g(x) pueden ser computacional-

mente dificiles. En estas circunstancias, el muestreo de rechazo puede ser muy ineficiente,

puesto que puede implicar muchos miles de optimizaciones, cada una implicando varias

evaluaciones de una funcion g(x).

El muestreo de rechazo adaptado reduce el numero de evaluaciones de g(x) de dos maneras.

En primer lugar, a traves de la asuncion de log-concavidad de f(x), se evita la necesidad

de localizar el supremum de g(x) en D. En segundo lugar, despues de cada rechazo, la

probabilidad de tener que evaluar g(x) se reduce aun mas mediante la actualizacion de

las funciones envelope y squeezing para incorporar la recientemente adquirida informacion

acerca de g(x).

Se asume que D esta conectado, que g(x) es continua y diferenciable en todo D y que

h(x) = lng(x) es concava en todo D (es decir, h′(x) = dh(x)/dx disminuye monotamente

con el incremento de x en D). Esta definicion de log-concavidad admite ambos segmentos

de lınea recta en h(x) y discontinuidades en h′(x). La curva continua en la Fig.1 es un

ejemplo de h (x) concava con dominio D.

77

Suponga que h(x) y de h′(x) se han evaluado en k abscisas en D: xl ≤ x2 ≤ ... ≤ xk. Sea

Tk = xi, i = 1, ..., k. Se define el rechazo envelope en Tk como expuk(x), donde uk(x) es

una piecewise linear upper hull formada de las tangentes a h(x) en las abscisas en Tk, en

la forma de la curva superior discontinua de la Fig.1. Para j = 1, ..., k− 1 las tangentes xj

and xj+1 se intersectan en

zj =h(xj+1)− h(xj)− xj+1h

′(xj+1) + xjh′(xj)

h′(xj)− h′(xj+1)

De este modo que para x ∈ [zj−1, zj] y j = 1, ..., k, se define

uk(x) = h(xj) + (x− xj)h′(xj)

donde z0 es el lımite inferior de D (o −∞ si D no tiene lımite inferior) y zk es el lımite

superior de D (o +∞ si D no esta limitado). Tambien se define

sk = expuk(x)/

∫D

expuk(x′)dx′

Finalmente, se define la funcion squeezing en Tk como explk(x), donde lk(x) es una piecewise

lineal lower hull formados a partir de las cuerdas entre abscisas adyacentes in Tk, en la forma

de la curva inferior discontinua de la Fig. 1. De este modo, para x ∈ [xj, xj+1]

lk(x) =(xj+1 − x)h(xj) + (x− xj)h(xj+1)

xj+1 − xjpara j = l, ..., k − l. Para x < x1 o x > xk se define lk(x) = −∞.

Por lo tanto, las funciones de rechazo, envelope y squeezing, son funciones piecewise ex-

ponenciales. La concavidad de h(x) asegura que lk(x) ≤ h(x) ≤ uk(x) para toda x en

D.

Para muestrear n puntos independientemente de f(x) mediante muestreo de rechazo adap-

tado, se llevan a cabo los siguientes pasos de inicializacion y, a continuacion, realizar el

siguiente muestreo y pasos de actualizacion alternativamente hasta que n puntos han sido

aceptados.

Etapa de inicializacion

78

Iniciar las abscisas en Tk. Si D es ilimitado a la izquierda entonces elegir xl tal que h′(xl) > 0.

If D no tiene lımite a la derecha entonces eligir xk tal que h′(xk) < 0. Habiendo definido k

abscisas de comienzo, calcular las funciones uk(x), sk(x) y lk(x).

Etapa de muestreo

Muestrear un valor x* de sk(x) y muestrear un valor w independientemente de la distribu-

cion uniforme (0, 1). Realice la siguiente prueba de squeezing: si

w ≤ explk(x∗)− uk(x∗)

entonces aceptar x*. En caso contrario, evaluar h(x∗) y h′(x∗) y llevar a cabo la siguiente

prueba de rechazo: si

w ≤ exph(x∗)− uk(x∗)

entonces aceptar x*; en otro caso rechazar x*.

Etapa de actualizacion

Si h(x∗) y de h′(x∗) fueron evaluados en la etapa de muestreo, incluir x* en Tk para formar

Tk+1; ordenar los elementos de Tk+1 en orden ascendente; construir las funciones uk+1(x),

sk+1(x) y lk+1(x), en base a Tk+1; incremente k. Volver a la etapa de muestreo, si n puntos

aun no han sido aceptados.

79

A.5. Distribuciones espaciales en WinBugs

De acuerdo con Lawson et al. (2003) la distribucion a priori CAR gausiana intrınseca (o

CAR simplemente) se especifica usando la distribucion car.normal:

b[ ] ∼ car.normal(adj[ ], w[ ], n[ ], tau) (102)

donde

- adj [ ] es un vector que lista las areas adyacentes para cada area. En nuestro caso, es una

lista de estados adyacentes para cada entidad.

- w [ ] es un vector de la misma longitud que adj [ ] tiene los pesos asociados a cada par de

areas.

- n[ ] es un vector de longitud m (numero total de areas) dando el numero de vecinos para

cada area.

- tau es un escalar representando la inversa de la varianza del efecto aleatorio. (Disease

mapping)

Los tres primeros argumentos son los datos y deben ser especificados en los archivos de

datos: tau se trata como desconocido y se le asigna una distribucion a priori.

Puesto que el modelo CAR es impropio, es necesario tener una restriccion para asegurar

que el modelo sea propio. Esto significa que termino de intercepto debe incluirse en el

modelo y a este debe ser asignado una a priori uniforme impropia. WinBUGS incluye una

distribucion llamada dflat() que corresponde a una impropia en toda la recta real.

80

A.6. Codigo WinBugs

Este programa se utiliza para la estimacion del modelo lineal generalizado con efectos

espaciales. Se contruyo con ayuda del sofware MlWin version 2.02. El modelo completo y

los datos se encuentran en el anexo digital.

model

# Level 1 definition

for(i in 1:N)

poblp1[i] dbin(p[i],denom[i])

logit(p[i]) <- beta[1] * tam hog[i]

+ beta[2] * VEHI06 1[i]

+ beta[3] * EQH10 07[i]

+ beta[4] * EQH10 08[i]

+ beta[5] * EQH10 10[i]

+ beta[6] * EQH10 30[i]

+ beta[7] * EQH10 23[i]

+ beta[8] * EQH10 20[i]

+ beta[9] * EDAD[i]

+ beta[10] * SERV01 1[i]

+ beta[11] * N INS NULO[i]

+ beta[12] * N INS prep[i]

+ beta[13] * N INS NORMAL[i]

+ beta[14] * N INS CTECNIC[i]

+ beta[15] * N INS PROFESIONAL[i]

+ beta[16] * HORAS TRAB[i]

+ beta[17] * EDOUNIONLIB[i]

+ beta[18] * EDOCASADO[i]

+ beta[19] * REGION 2[i]




+ carmean + u3[ident[i]] * cons[i]

+ u4[REGION[i]] * cons[i]

# Higher level definitions

u3[1:n3] car.normal(adj[],weights[],num[],tau.u3)

for (j in 1:n4)

u4[j] dnorm(0,tau.u4)

# Priors for fixed effects

for (k in 1:22) beta[k] dflat()

carmean dflat()

# Priors for random terms

tau.u3 dgamma(0.001000,0.001000)

sigma2.u3 <- 1/tau.u3

81

tau.u4 dgamma(0.001000,0.001000)

sigma2.u4 <- 1/tau.u4

A.7. Codigo en R para obtener las matriz de vecindades estatales

Este programa sirve para el calculo de la matriz de vecindades utilizando un mapa digital

de la republica a nivel estatal, en formato Arcview, el cual se incluye en el disco compacto

anexo.

# Ponemos el directorio de trabajo

setwd(‘‘C:/Users/DELL INSPIRON 6000/Documents/Tesis/pobreza/ENIGH00 05")

library(DCluster)

library(maptools)

# Leemos los datos y pintamos el mapa

estados<-read.shape(‘‘Estados.shp")

length(estados) # numero de componentes en la lista ‘‘municipios"

names(estados) # nombres de los componetes de la lista ‘‘municipios"

names(estados$att.data)

estados$att.data$CVEEST

estados$att.data$NOM ENT # Nombres de las entidades

plot(estados)

# Extraemos los polıgonos de los contornos municipales

# y usamos como identificador el codigo municipal

poligonos <- Map2poly(estados, estados$att.data$CVEEST)

# Una vez que tenemons los polıgonos, volvemos a emplear funciones de

# una de las librerıas que se cargan automaticamente con ‘‘DCluster",

# concretamente la ‘‘spdep", para crear una estructura de vecindad

estados.nb <- poly2nb(poligonos, estados$att.data$CVEEST)

summary.nb(estados.nb)

estados.nb[[03]]

# Vemos la matriz de vecindades

estados.mat <- nb2mat(estados.nb)

estados.mat[1,]

dim(estados.mat)

attributes(estados.nb)

summary.nb(estados.nb)

# Datos para winbugs

DatosWBugs<-nb2WB(estados.nb)

dput(DatosWBugs, control=NULL)

82

A.8. Codigo R para la elaboracion de mapas de pobreza

Con este programa se realizan las estimaciones del modelo lineal generalizado y los mapas

de pobreza en Mexico con la metodologıa propuesta en este trabajo.

# Ponemos el directorio de trabajo setwd(‘‘C:/Documents and Settings/Marcelo/Escritorio/Datos 05")

# Total de hogares por muncipio en Mexico

hog<- read.table(‘‘hogares.csv",header=T,sep=‘‘,")

hog$UBICA GEO<-paste(substr(hog$UBICA GEO,1,2),substr(hog$UBICA GEO,4,6),sep=‘‘")

hog$UBICA GEO<-as.numeric(hog$UBICA GEO)

hog$ident<-substr(hog$UBICA GEO,1,2)

# BASE GENERADA CON SPSS POR EL CONEVAL

basefinal<- read.table(‘‘basefinal 05.csv",header=T,sep=‘‘,")

basefinal<-as.data.frame(basefinal)

names(basefinal)

#Analisis de la base (basefinal)

table(basefinal$rururb) # Tenemos 14208 hogares urbanos(0’s) y 8966 rurales (1’s)

table(basefinal$poblp1) # 3910 hogares en pobreza alimentaria y 19264 no pobres

tapply(basefinal$poblp1,basefinal$rururb,sum) # 1272 son pobres urbanos y 1929 pobres rurales

table(basefinal$poblp1,basefinal$rururb) #no pobres y pobres de acuerdo a si son rurales o urbanos

# IMPORTAMOS LAS BASES dbf

library(foreign)

concen<-read.dbf(‘‘concen.dbf",T)

sum(concen$HOG[concen$UBICA GEO==‘‘01001"])

hogares<-read.dbf(‘‘hogares.dbf",T)

hogar<-data.frame(hogares[,c(‘‘FOLIO",‘‘UBICA GEO",

‘‘AGUA15",‘‘LUZ22",‘‘COMBUS11",‘‘PISOS04",‘‘MUROS01",

‘‘TECHOS02",‘‘CUA COC",‘‘COC DUER",‘‘DRENAJE21",‘‘TENENCIA12",

# Caracterısticas de la vivienda: disponibilidad de agua, disponibilidad de

# electricidad, combustible para cocinar, material en pisos, material en muros,

# material en techos, cuarto para cocinar, disponibilidad de drenaje, y tenencia

# de la vivienda.

‘‘SERV01 1",‘‘EQH10 05",‘‘EQH10 06",‘‘EQH10 07",‘‘EQH10 08",

‘‘EQH10 10",‘‘EQH10 20",‘‘EQH10 23",‘‘EQV26 8",‘‘VEHI06 1",‘‘EQH10 30")])

# Artıculos de la vivienda: telefono, radio, television, video casetera,

# licuadora, refrigerador, lavadora, calentador de agua, automovil o camioneta

# propios y computadora.

poblacion<-read.dbf(‘‘pobla.dbf",T)

pobla<-poblacion[poblacion$PARENTESCO==100,c(‘‘FOLIO",‘‘PARENTESCO",

‘‘SEXO",‘‘EDAD",‘‘EDOCONY",‘‘ALFABE",‘‘ASIS ESC",‘‘N INSTR161",

‘‘TRABAJO",‘‘CMO121",‘‘HORAS TRAB",‘‘POSICION09")]

# Caracterısticas sociodemograficas: sexo, edad, estado civil, parentesco,

# asistencia escolar, alfabetismo y escolaridad.

dim(hogar)

names(hogar)

dim(basefinal)

# Concatenamos las bases

# FILAS EN LAS QUE EL FOLIO DE LA PRIMERA TABLA COINCIDEN CON

#EL FOLIO DE LA SEGUNDA TABLA

filas<-match(hogar$FOLIO,basefinal$folio)

83

basefinal$UBICA GEO<-rep(0,length(basefinal$folio))

basefinal$AGUA15<-rep(0,length(basefinal$folio))

basefinal$LUZ22<-rep(0,length(basefinal$folio))

basefinal$COMBUS11<-rep(0,length(basefinal$folio))

basefinal$PISOS04<-rep(0,length(basefinal$folio))

basefinal$MUROS01<-rep(0,length(basefinal$folio))

basefinal$TECHOS02<-rep(0,length(basefinal$folio))

basefinal$CUA COC<-rep(0,length(basefinal$folio))

basefinal$COC DUER<-rep(0,length(basefinal$folio))

basefinal$DRENAJE21<-rep(0,length(basefinal$folio))

basefinal$TENENCIA12<-rep(0,length(basefinal$folio))

basefinal$SERV01 1<-rep(0,length(basefinal$folio))

basefinal$EQH10 05<-rep(0,length(basefinal$folio))







basefinal$EQV26 8<-rep(0,length(basefinal$folio))

basefinal$VEHI06 1<-rep(0,length(basefinal$folio))


basefinal[filas,c(‘‘UBICA GEO",‘‘AGUA15",‘‘LUZ22",‘‘COMBUS11",

‘‘PISOS04",‘‘MUROS01",‘‘TECHOS02",‘‘CUA COC",‘‘COC DUER",‘‘DRENAJE21",

‘‘TENENCIA12",‘‘SERV01 1",‘‘EQH10 05",‘‘EQH10 06",

‘‘EQH10 07",‘‘EQH10 08",‘‘EQH10 10",‘‘EQH10 20",‘‘EQH10 23",

‘‘EQV26 8",‘‘VEHI06 1",‘‘EQH10 30")] <-hogar[,c(‘‘UBICA GEO",‘‘AGUA15",

‘‘LUZ22",‘‘COMBUS11",‘‘PISOS04",‘‘MUROS01",‘‘TECHOS02",‘‘CUA COC",

‘‘COC DUER",‘‘DRENAJE21",‘‘TENENCIA12",‘‘SERV01 1",‘‘EQH10 05",‘‘EQH10 06",

‘‘EQH10 07",‘‘EQH10 08",‘‘EQH10 10",‘‘EQH10 20",‘‘EQH10 23",

‘‘EQV26 8",‘‘VEHI06 1",‘‘EQH10 30")]

filas<-match(pobla$FOLIO,basefinal$folio)

# FILAS EN LAS QUE EL FOLIO DE LA PRIMERA TABLA # COINCIDEN CON EL FOLIO DE LA SEGUNDA TABLA

names(pobla)

basefinal$PARENTESCO<-rep(0,length(basefinal$folio))

basefinal$SEXO<-rep(0,length(basefinal$folio))

basefinal$EDAD<-rep(0,length(basefinal$folio))

basefinal$EDOCONY<-rep(0,length(basefinal$folio))

basefinal$ALFABE<-rep(0,length(basefinal$folio))

basefinal$ASIS ESC<-rep(0,length(basefinal$folio))

basefinal$N INSTR161<-rep(0,length(basefinal$folio))

basefinal$TRABAJO<-rep(0,length(basefinal$folio))

basefinal$CMO121<-rep(0,length(basefinal$folio))

basefinal$HORAS TRAB<-rep(0,length(basefinal$folio))

basefinal$POSICION09<-rep(0,length(basefinal$folio))

basefinal[filas,c(‘‘PARENTESCO",‘‘SEXO",‘‘EDAD",‘‘EDOCONY",

‘‘ALFABE",‘‘ASIS ESC",‘‘N INSTR161",‘‘TRABAJO",‘‘CMO121",

‘‘HORAS TRAB",‘‘POSICION09")]<-pobla[,c(‘‘PARENTESCO",‘‘SEXO",

‘‘EDAD",‘‘EDOCONY",‘‘ALFABE",‘‘ASIS ESC",‘‘N INSTR161",

‘‘TRABAJO",‘‘CMO121",‘‘HORAS TRAB",‘‘POSICION09")]

# frecuencia de pobres por municipio

pobrmpio<-tapply(basefinal$poblp1,basefinal$UBICA GEO,sum)

idmun <- unlist(dimnames(pobrmpio)) # Convierte las ids de los mpios a numeros

length(idmun) # 572 municipios de los 32 estados en el pais

ident <- substr(idmun,1,2)

# Entidades a las que pertencen los mpios (factor categoriza, ordena de menor a mayor. Factor ayuda a crear tablas)

# n es el numero de hogares encuestados por mpio

n <- table(basefinal$UBICA GEO)

prop.pobr<-as.vector(pobrmpio/n) # proporcion de pobres por municipio

# proporcion de hogares rurales por municipios

prop.rural <- prop.table(table(basefinal$rururb,basefinal$UBICA GEO),2)[2,]

pobrmpio<-as.vector(pobrmpio)

n<-as.vector(n)

84

prop.rural<-as.vector(prop.rural)

# Base que contiene las proporciones de pobres por municipio

prop.pobr.dat <- data.frame(ident,idmun,pobrmpio,n,prop.rural,prop.pobr)

mode(prop.pobr.dat$ident)

names(prop.pobr.dat)[2]<-‘‘UBICA GEO" # Cambio de nombre de una columna

names(prop.pobr.dat)

# Vamos a concatenar (base chica a grande)

filas<-match(basefinal$UBICA GEO,prop.pobr.dat$UBICA GEO)

basefinal[,c(‘‘ident",‘‘pobrmpio",‘‘n",‘‘prop.rural",‘‘prop.pobr")]

<-prop.pobr.dat[filas,c(‘‘ident",‘‘pobrmpio",‘‘n",‘‘prop.rural",‘‘prop.pobr")]

table(prop.pobr.dat$ident) # Municipios por estado

basefinal$CMO<-substr(basefinal$CMO121,1,2) # CREAMOS LA VARIABLE CMO

# REGIONES

#Region 1 (Marginacion muy baja): 1 Aguascalientes, 2 Baja California, 3 Baja California

#Sur, 5 Coahuila, 8 Chihuahua, 9 Distrito Federal y 19 Nuevo Leon.

basefinal$REGION[basefinal$ident==‘‘01" | basefinal$ident==‘‘02" |

basefinal$ident==‘‘03" | basefinal$ident==‘‘05"

| basefinal$ident==‘‘08"| basefinal$ident==‘‘09"| basefinal$ident==‘‘19"]<-1

# Region 2 (Marginacion baja): 6 Colima, 14 Jalisco, 15 Estado de Mexico,

#26 Sonora y 28 Tamaulipas.

basefinal$REGION[basefinal$ident==‘‘06" | basefinal$ident==‘‘14"

| basefinal$ident==‘‘15" | basefinal$ident==‘‘26"

| basefinal$ident==‘‘28"]<-2

# Region 3 (Marginacion media): 10 Durango, 11 Guanajuato, 17 Morelos,

#18 Nayarit, 22 Queretaro,

# 23 Quintana Roo, 25 Sinaloa, 29 Tlaxcala y 32 Zacatecas.

basefinal$REGION[basefinal$ident==‘‘10" | basefinal$ident==‘‘11" |

basefinal$ident==‘‘17" | basefinal$ident==‘‘18"

| basefinal$ident==‘‘22" | basefinal$ident==‘‘23"| basefinal$ident==‘‘25"

| basefinal$ident==‘‘29"| basefinal$ident==‘‘32"]<-3

# Region 4 (Marginacion alta): 4 Campeche, 13 Hidalgo, 16 Michoacan, 21 Puebla, 24 San Luis

# Potosı, 27 Tabasco y 31 Yucatan.


| basefinal$ident==‘‘16" basefinal$ident==‘‘21"

| basefinal$ident==‘‘24" | basefinal$ident==‘‘27"| basefinal$ident==‘‘31"]<-4

# Region 5 (Marginacion muy alta): 7 Chiapas, 12 Guerrero, 20 Oaxaca y

30 Veracruz.


| basefinal$ident==‘‘20" | basefinal$ident==‘‘30"]<-5

# VARIABLES

basefinal$murosadobe<-ifelse(basefinal$MUROS01==‘‘07",1,0)

basefinal$murosdesecho<-ifelse(basefinal$MUROS01==‘‘01",1,0)

basefinal$techopalma<-ifelse(basefinal$TECHOS02==‘‘04",1,0)

basefinal$techoteja<-ifelse(basefinal$TECHOS02==‘‘07",1,0)

basefinal$pisotierra<-ifelse(basefinal$PISOS04==‘‘1",1,0)

basefinal$pisocemento<-ifelse(basefinal$PISOS04==‘‘2",1,0)

basefinal$PISOS04 <-as.numeric(basefinal$PISOS04)

basefinal$AGUAentubadadv<-ifelse(basefinal$AGUA15==‘‘1",1,0)

basefinal$AGUAentubadafv<-ifelse(basefinal$AGUA15==‘‘2",1,0)

basefinal$drenajered<-ifelse(basefinal$DRENAJE21==‘‘1",1,0)

basefinal$drenajefosa<-ifelse(basefinal$DRENAJE21==‘‘2",1,0)

85

basefinal$drenajeno<-ifelse(basefinal$DRENAJE21==‘‘5",1,0)

basefinal$COMBUS11GAS<-ifelse(basefinal$COMBUS11==1,1,0) # cocina con gas

basefinal$N INS NULO<-ifelse(basefinal$N INSTR161==0,1,0)

basefinal$N INS preesc<-ifelse(basefinal$N INSTR161==1,1,0)

basefinal$N INS primaria<-ifelse(basefinal$N INSTR161==2,1,0)

basefinal$N INS sec<-ifelse(basefinal$N INSTR161==3,1,0)

basefinal$N INS prep<-ifelse(basefinal$N INSTR161==4,1,0)

basefinal$N INS NORMAL<-ifelse(basefinal$N INSTR161==5,1,0)

basefinal$N INS CTECNIC<-ifelse(basefinal$N INSTR161==6,1,0)

basefinal$N INS PROFESIONAL<-ifelse(basefinal$N INSTR161==7,1,0)

basefinal$educasuperior<-ifelse(basefinal$N INSTR161>=5,1,0)

basefinal$obrero<-ifelse(basefinal$POSICION09==1,1,0)

basefinal$jornalero<-ifelse(basefinal$POSICION09==2,1,0)

basefinal$trabaxcuentapropia<-ifelse(basefinal$POSICION09==5,1,0)

basefinal$patron<-ifelse(basefinal$POSICION09==6,1,0)

basefinal$EDOUNIONLIB<-ifelse(basefinal$EDOCONY==‘‘1",1,0)

basefinal$EDOSEPARADO<-ifelse(basefinal$EDOCONY==‘‘2",1,0)

basefinal$EDODIVORCIADO<-ifelse(basefinal$EDOCONY==‘‘3",1,0)

basefinal$EDOCASADO<-ifelse(basefinal$EDOCONY==‘‘5",1,0)

basefinal$EDOSOLTERO<-ifelse(basefinal$EDOCONY==‘‘6",1,0)

basefinal$HOMBRE<-ifelse(basefinal$SEXO==‘‘1",1,0)

basefinal$viviendarenta<-ifelse(basefinal$TENENCIA12==‘‘1",1,0)

basefinal$viviendapropia<-ifelse(basefinal$TENENCIA12==‘‘5",1,0)

apply(apply(basefinal,2,is.na),2,sum)

model5 <-glm(poblp1 tam hog+VEHI06 1+EQH10 07+EQH10 08+EQH10 10+

EQH10 30+EQH10 23+EQH10 20+EDAD+SERV01 1

+N INS NULO+N INS prep+N INS NORMAL+N INS CTECNIC+

N INS PROFESIONAL+HORAS TRAB+EDOUNIONLIB+

EDOSEPARADO+EDOSOLTERO+EDOCASADO+factor(REGION),family=binomial,data=basefinal)

# Ajusta un modelos binomial generalizado

summary(model5)

# Grafica las proporciones predichas de pobres

plot(sort(predict(model5,type=‘‘resp")),xlab=‘‘",ylab=‘‘",col=‘‘red")

points(sort(basefinal$prop.pobr),col=‘‘orange") # Grafica las proporciones de pobres para c/mpio

# ELABORACION DE MAPAS

# Elaboracion de mapas. Para representar mapas con el R, es necesario

# conocer los polıgonos que definen los contornos municipales,

# al igual que ocurre en el caso de los tests de agregacion.

# Esta informacion de tipo cartografico esta disponible en varios formatos,

# entre ellos el del progama Arcview (o ArcGIS en su version mas moderna).

# En este formato, ‘‘.shp", se puede importar desde R mediante la

#librerıa ‘‘shapefiles"

# y manipularla para representar en un mapa el riesgo relativo de los municipios.

# Cargamos la librerıa

library(shapefiles)

# Leemos la informacion cartografica (sustituir el directorio por el adecuado...)

mun.shp <- read.shapefile(‘‘Municipios")

# Vamos a crear una lista con cuatro componentes. La primera sera un vector que

# contendra los codigos de los municipios, la segunda otro vector con los nombres,

# la tercera sera una lista con las matrices de los vertices del contorno de

# los municipios y la cuarta sera una matriz con los baricentros de los polıgonos.

# Creamos primero cada una de las componentes y luego las introducimos en una lista

nmun <- length(mun.shp$shp$shp) #Numero de municipios

idmun <- as.numeric(as.character(mun.shp$dbf$dbf$ENTMUN)) #Id de los mpios

86

nombres <- mun.shp$dbf$dbf$NOM MUN #Nombres de los mpios

vertices <- list()

for(i in 1:nmun)

vertices[[i]] <- mun.shp$shp$shp[[i]]$points

baricentros <- t(sapply(vertices, apply, 2, mean))

mun.map <- list(idmun=idmun, nombre=nombres, vertices=vertices,

baricentros=baricentros)

# Para pintar el mapa necesitamos conocer las coordenadas mınima y maxima

# de latitud y longitud de aragon. Vamos a calcularlas:

xymin <- apply(t(sapply(mun.map$vertices, apply, 2, min)), 2, min)

xymax <- apply(t(sapply(mun.map$vertices, apply, 2, max)), 2, max)

esquinas <- expand.grid(xymin, xymax)

# Pintamos el mapa y sus baricentros

#par(pty=‘‘s") # Para que el area de dibujo sea cuadrada

plot(rbind(xymin, xymax), type=‘‘n")

for (i in 1:nmun)

polygon(x=mun.map$vertices[[i]][,1], y=mun.map$vertices[[i]][,2])

points(mun.map$baricentros, col=2, cex=0.4)

# Ahora se trata de pintar la prevalencia de la pobreza.

# En primer lugar categorizamos

# prop.pobr.dat$pp.cat <- cut(prop.pobr.dat$prop.pobr, seq(0,1,0.2),labels=1:5)

basefinal$pp.cat<-cut(basefinal$prop.pobr, c(-Inf,0.25,0.5,0.75,Inf),labels=1:4)

# crea una columna con la categoria a la que pertenece el mpio de acuerdo a su prop. de pobres

################ #RESULTADOS

filas<-match(as.numeric(basefinal$UBICA GEO),as.numeric(hog$UBICA GEO))

# FILAS (de la segunda tabla) EN QUE EL FOLIO DE LA PRIMERA TABLA COINCIDEN CON EL FOLIO DE LA SEGUNDA TABLA

basefinal$Total<-hog[filas,‘‘Total"]

basefinal$Nombre<-hog[filas,‘‘Nombre"]

Entidades<- read.table(‘‘Entidades.csv",header=T,sep=‘‘,")

filas<-match(as.numeric(basefinal$ident),Entidades$ENTIDAD)

basefinal$NOM ENT<-Entidades[filas,‘‘NOM ENT"]

#grafica por hogares

table(basefinal$pp.cat)

barplot(table(basefinal$pp.cat),

col=c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"),

ylab=‘‘Hogares",names.arg=c(‘‘[0,0.25)",

‘‘[0.25,5)",‘‘[0.5-0.75)",‘‘[0.75,1)"),

legend=as.vector(table(basefinal$pp.cat)))

max(basefinal$prop.pobr)

basefinal[basefinal$prop.pobr==1,c(‘‘UBICA GEO",‘‘Nombre",‘‘NOM ENT")]

table(basefinal$pp.cat,basefinal$rururb)

sort(table(basefinal[basefinal$pp.cat==4,‘‘NOM ENT"])) # Hogares pobres por Entidad

# grafica por municipios

f<-factor(basefinal$UBICA GEO)

municipios<-levels(f) # Municipios distintos en la muestra

filas<-match(municipios,concen$UBICA GEO)

clasificacion<-basefinal[filas,c(‘‘UBICA GEO",‘‘pp.cat",‘‘ident",

‘‘NOM ENT",‘‘Nombre",‘‘prop.pobr")]

87

dim(clasificacion) # Categorıa de cada municipio en la muestra

sort(table(clasificacion[clasificacion$pp.cat==4,‘‘NOM ENT"])) # Municipios por entidad en la categorıa 4

clasificacion[clasificacion$pp.cat==4,c(‘‘NOM ENT",‘‘Nombre")]

clasificacion[clasificacion$pp.cat==4 &

clasificacion$prop.pobr>0.9,c(‘‘NOM ENT",‘‘Nombre",‘‘prop.pobr")]

barplot(table(clasificacion$pp.cat),

col=c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"),xlab=‘‘Municipios",

legend.text=c(as.vector(table(clasificacion$pp.cat))),

names.arg=c(‘‘[0,0.25)",‘‘[0.25,5)",‘‘[0.5-0.75)",‘‘[0.75,1)"))

####################

# Y finalmente representamos el mapa

palette(c(‘‘yellow1",‘‘orange",‘‘orange3",‘‘red"))

basefinal$UBICA GEO<-as.numeric(basefinal$UBICA GEO)

orden <- match(mun.map$idmun,basefinal$UBICA GEO)


for (i in 1:nmun)

polygon(x=mun.map$vertices[[i]][,1],

y=mun.map$vertices[[i]][,2],

col=as.numeric(basefinal$pp.cat[orden[i]]),lty=0)

legend(xymin[1], 23, fill=1:4,

legend=c(‘‘0-0.25", ‘‘0.25-0.5", ‘‘0.5-0.75",‘‘0.75-1.0"), cex=1)

Division.shp<- read.shapefile(‘‘Estados")

nest <- length(Division.shp$shp$shp)

codigos est <- as.numeric(as.character(Division.shp$dbf$dbf$NOM ENT))

nombres est <- Division.shp$dbf$dbf$NOMBRE

vertices est <- list()

for(i in 1:nest)

vertices est[[i]] <- Division.shp$shp$shp[[i]]$points

baricentros est <- t(sapply(vertices est, apply, 2, mean))

Division.map <- list(codigo est=codigos est, nombre est=nombres est,

vertices est=vertices est,baricentros est=baricentros est)


#plot(rbind(xymin, xymax), type=‘‘n")

for (i in 1:nest)

polygon(x=Division.map$vertices est[[i]][,1],

y=Division.map$vertices est[[i]][,2],border=‘‘gray")

##############################

# # # MODELO LINEAL GENERALIZADO #

# # ##############################

estimados<-fitted(model5)

basefinal$prop.pobr.Est<-as.vector(estimados)

prop.suma<-tapply(basefinal$prop.pobr.Est*basefinal$factor,

basefinal$UBICA GEO,sum)

factor.tot<-tapply(basefinal$factor,basefinal$UBICA GEO,sum)

UBICA GEO<- as.numeric(unlist(dimnames(prop.suma)))

prop.suma<-as.vector(prop.suma)

factor.tot<-as.vector(factor.tot)

UBICA GEO<-as.vector(UBICA GEO)

estimaciones<-data.frame(prop.suma,factor.tot,UBICA GEO)

88


filas<-match(basefinal$UBICA GEO,estimaciones$UBICA GEO)

basefinal[,c(‘‘prop.suma",‘‘factor.tot")]

<-estimaciones[filas,c(‘‘prop.suma",‘‘factor.tot")]

basefinal$prop.pobr.glm<-basefinal$prop.suma/basefinal$factor.tot

basefinal$pp.cat.glm<-cut(basefinal$prop.pobr.glm,

c(-Inf,0.25,0.5,0.75,Inf),labels=1:4)

# Clasifica las proporciones de hogares pobres en cinco categorias


table(basefinal$pp.cat.glm)

barplot(table(basefinal$pp.cat.glm),

col=c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"),ylab=‘‘Hogares",

names.arg=c(‘‘[0,0.25)",‘‘[0.25,5)",‘‘[0.5-0.75)",‘‘[0.75,1)"),

legend=as.vector(table(basefinal$pp.cat.glm)))

basefinal$prop.pobr.glm<-round(basefinal$prop.pobr.glm,7)

max(basefinal$prop.pobr.glm)

basefinal[basefinal$prop.pobr.glm==0.7965362,

c(‘‘UBICA GEO",‘‘Nombre",‘‘NOM ENT")]

table(basefinal$pp.cat.glm,basefinal$rururb)

sort(table(basefinal[basefinal$pp.cat.glm==4,‘‘NOM ENT"])) # Hogares pobres por Entidad




filas<-match(municipios,basefinal$UBICA GEO)

clasificacion<-basefinal[filas,c(‘‘UBICA GEO",‘‘pp.cat.glm",‘‘ident",

‘‘NOM ENT",‘‘Nombre",‘‘prop.pobr.glm")]


sort(table(clasificacion[clasificacion$pp.cat.glm==4,‘‘NOM ENT"])) # Municipios por entidad en la categorıa 4

clasificacion[clasificacion$pp.cat.glm==4,c(‘‘NOM ENT",‘‘Nombre")]

clasificacion[clasificacion$pp.cat.glm==3,c(‘‘NOM ENT",‘‘Nombre")]

clasificacion[clasificacion$pp.cat.glm==4 &

clasificacion$prop.pobr.glm>0.7,c(‘‘NOM ENT",‘‘Nombre",‘‘prop.pobr.glm")]

barplot(table(clasificacion$pp.cat.glm),

col=c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"),

xlab=‘‘Municipios",legend.text=c(as.vector(table(clasificacion$pp.cat.glm))),

names.arg=c(‘‘[0,0.25)",

‘‘[0.25,5)",‘‘[0.5-0.75)",‘‘[0.75,1)"))

# MAPA GLM

palette(c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"))


for (i in 1:nmun)


y=mun.map$vertices[[i]][,2],col=as.numeric(basefinal$pp.cat.glm[orden[i]]),lty=0)

legend(xymin[1], 23, fill=1:4, legend=c(‘‘0-0.25", ‘‘0.25-0.5",

‘‘0.5-0.75",‘‘0.75-1"), cex=1)



codigos est <- as.numeric(as.character(Division.shp$dbf$dbf$CODMUNI))



89

for(i in 1:nest)







for (i in 1:nest)



#####################

# DATOS PARA MlWin #

#####################

#dim(basefinal)

#datosWB<-basefinal[,1:92]

#datosWB$UBICA GEO<-as.character(datosWB$UBICA GEO)

#datosWB$ident<-as.character(datosWB$ident)

#datosWB$folio<-as.character(datosWB$folio)

#summary(datosWB)

#PESOS Y MATRIZ DE VECINDADES

#neigh<-read.table(‘‘neigh.csv",header=T,sep=‘‘,")

# cocatenamos (base chica a grande)

#filas<-match(as.numeric(datosWB$ident),as.numeric(neigh$ident))

# CONCATENAMOS TABLAS

#dim(datosWB)

#datosWB[,93:116]<-neigh[filas,2:25]

# DATOS PARA MlWin

#export(datosWB, type = ‘‘ascii", file = ‘‘datosMlWin.txt")

##############

# CAR median #

###############

car<- read.table(‘‘muestra car.csv",header=T,sep=‘‘,")

basefinal$prop.pobr.car<-car$median

basefinal$prop.pobr.car<-round(basefinal$prop.pobr.car,digits=8)

plot(sort(basefinal$prop.pobr.car),xlab=‘‘ ",ylab=‘‘ ",col=‘‘red")

points(sort(basefinal$prop.pobr),col=‘‘orange")

prop.suma.car<-tapply(basefinal$prop.pobr.car*basefinal$factor,

basefinal$UBICA GEO,sum)

UBICA GEO<- as.numeric(unlist(dimnames(prop.suma.car)))

prop.suma.car<-as.vector(prop.suma.car)

UBICA GEO<-as.vector(UBICA GEO)

estimaciones.car<-data.frame(prop.suma.car,UBICA GEO)


filas<-match(as.numeric(basefinal$UBICA GEO),

as.numeric(estimaciones.car$UBICA GEO))

basefinal[,‘‘prop.suma.car"]<-estimaciones.car[filas,‘‘prop.suma.car"]

basefinal$prop.pobr.car<-basefinal$prop.suma.car/basefinal$factor.tot

basefinal$pp.cat.car<-cut(basefinal$prop.pobr.car,

c(-Inf,0.25,0.5,0.75,Inf),labels=1:4) # Clasifica las

90

proporciones de hogares pobres en cinco categorias


table(basefinal$pp.cat.car)

barplot(table(basefinal$pp.cat.car),

col=c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"),ylab=‘‘Hogares",

names.arg=c(‘‘[0,0.25)",‘‘[0.25,5)",‘‘[0.5-0.75)",‘‘[0.75,1)"),

legend=as.vector(table(basefinal$pp.cat.car)))

basefinal$prop.pobr.car<-round(basefinal$prop.pobr.car,7)

max(basefinal$prop.pobr.car)

basefinal[basefinal$prop.pobr.car>=0.8541941,c(‘‘UBICA GEO",‘‘Nombre",‘‘NOM ENT")]

table(basefinal$pp.cat.car,basefinal$rururb)

sort(table(basefinal[basefinal$pp.cat.car==4,‘‘NOM ENT"])) # Hogares pobres por Entidad




filas<-match(municipios,basefinal$UBICA GEO)

clasificacion<-basefinal[filas,

c(‘‘UBICA GEO",‘‘pp.cat.car",‘‘ident",‘‘NOM ENT",‘‘Nombre",‘‘prop.pobr.car")]


sort(table(clasificacion[clasificacion$pp.cat.car==4,‘‘NOM ENT"])) # Municipios por entidad en la categorıa 4

clasificacion[clasificacion$pp.cat.car==4,c(‘‘NOM ENT",

‘‘Nombre",‘‘prop.pobr.car")]

clasificacion[clasificacion$pp.cat.car==3,c(‘‘NOM ENT",‘‘Nombre")]

clasificacion[clasificacion$pp.cat.car==4 &

clasificacion$prop.pobr.glm>0.7,c(‘‘NOM ENT",‘‘Nombre",‘‘prop.pobr.glm")]

barplot(table(clasificacion$pp.cat.car),

col=c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"),xlab=‘‘Municipios",

legend.text=c(as.vector(table(clasificacion$pp.cat.car))),

names.arg=c(‘‘[0,0.25)",‘‘[0.25,5)",‘‘[0.5-0.75)",‘‘[0.75,1)"))

# MAPA CAR

palette(c(‘‘yellow",‘‘orange",‘‘orange3",‘‘red"))


for (i in 1:nmun)


y=mun.map$vertices[[i]][,2],

col=as.numeric(basefinal$pp.cat.car[orden[i]]),lty=0)

legend(xymin[1], 23, fill=1:4,

legend=c(‘‘0-0.25", ‘‘0.25-0.5", ‘‘0.5-0.75",‘‘0.75-1"), cex=1)



codigos est <- as.numeric(as.character(Division.shp$dbf$dbf$CODMUNI))



for(i in 1:nest)







for (i in 1:nest)



91

A.9. Factores de expansion

Puesto que las pk obtenidas, tanto para el modelo logıstico como para el modelo espacial,

son a nivel hogar, se obtiene una estimacion de la probabilidad para los municipios y estados

utilizando los factores de expansion fijk incluıdos en las bases de la ENGIH.

Municipios

pj =

∑nj

k=1 pjk × fjk∑nj

k=1 fjk(103)

Estados

pi =

∑ni

j=1 pij × fij∑ni

j=1 fij(104)

donde

pij =

nj∑k=1

pijk × fijk

y

fij =

nj∑k=1

×fijk

El disco anexo incluye el codigo para R en el que se realizan tales calculos.

92