clase1 stata

7/31/2019 Clase1 STATA

1/30

Centro de Microdatos

2011

Anlisis de DatosMagister en Polticas Pblicas

Javiera Vsquez


2/30

Introduccin

La mayora de las decisiones en economa y polticas pblicas depender de cun bien podamos

entender, las relaciones entre las variables que nos rodean.

Al momento de disear una poltica pblica se debe tener una pregunta concreta en trminoscuantitativos sobre la o las variables que queremos afectar, y que instrumentos disponemos para

afectar estas variables, es decir, necesitamos dar respuestas cuantitativas a preguntas

cuantitativas, y adicionalmente, debemos tener clara cul es la causalidad de la relacin entre las

variables.

Por ejemplo, podemos querer dar respuesta a las siguientes preguntas:

El cuidado prenatal lleva a tener hijos ms saludables? La Reforma Previsional, mejor la calidad de vida de los adultos mayores? EL programa de Subsidio a la Contratacin de Trabajadores Jvenes, incrementar la

formalizacin del trabajo juvenil?

Hay discriminacin por gnero en el mercado laboral?Hay discriminacin por aparienciafsica en el mercado laboral?

Cul es el impacto de las restricciones a los fumadores sobre el hbito de fumar? Qu impacto ha tenido el programa Chile Crece Contigo? Existe mayor vulnerabilidad econmica en los hogares monoparentales? Cmo afecta la disponibilidad de salas cunas a la tasa de participacin femenina?

Para que los datos nos entreguen respuestas concretas y tiles a estas preguntas debemos

aprender a trabajar con ellos, para esto es importante adquirir prctica en organizar la

informacin y presentarla de manera informativa, entender la aleatoriedad y cuando lo que

encontramos puede ser producto del azar, entender los conceptos de probabilidad y como estos

pueden ser usados para interpretar la informacin emprica.

Datos Experimentales versus No Experimentales

El escenario ideal para estimar el efecto de un tratamiento o de una poltica es hacer cambios

experimentales (controlados) sobre una variable y observar los cambios en la variable de inters.

Adems para tener una base de comparacin necesitamos un grupo de control. Esto es lo que

generalmente se hace en medicina para probar nuevas drogas y sus efectos, se tiene un grupo de

tratamiento y un grupo de control con caractersticas similares, y slo a los del grupo de

tratamiento se le entrega la droga y a los del grupo de control unplacebo, luego podemos analizar

simplemente comparando ambos grupos cuales son los efectos de la droga.

En polticas pblicas la asignacin aleatoria de un tratamiento o poltica es algo bastante ms

complejo, ya que una poltica es diseada para la poblacin o un grupo de ellas y a veces no es

tico darle prioridad aleatoria a un grupo versus otro. Adems implementar un experimento en


3/30

polticas pblicas es mucho ms costoso porque requiere la implementacin del programa

propiamente tal a una escala menor. De esta forma, en la mayora de los casos que estudiemos no

disponemos de Datos Experimentales sino de Datos Observados o No Experimentales.

Cuando los datos son de naturaleza experimental, el efecto causal de la poltica (o tratamiento) se

puede obtener tomando la diferencia de promedios de la variable de resultados entre el grupo detratamiento y control, por ejemplo, tomando el peso al nacer promedio de bebes de madres con

cuidado prenatal y restndole el peso al nacer promedio de bebes de madres sin cuidado prenatal.

Sin embargo, si los datos no son experimentales debemos utilizar tcnicas economtricas para

estimar el efecto causal, estas herramientas se preocupan de aislar el efecto que otras variables,

distintas al tratamiento, pueden tener sobre el resultado (outcome).


4/30

Tipos de Datos

Los datos que disponemos para trabajar pueden tener tres formatos: corte transversal, Series de

Tiempo, y Datos de Panel (o Longitudinales).

Corte Transversal

Los datos de corte transversal se caracterizan por recopilar informacin para varias unidades en un

momento del tiempo, las unidades pueden ser individuos, hogares, comunas, colegios, empresas,

regiones, etc.

Un ejemplo de datos de corte transversal en Chile es la Encuesta CASEN.

La Figura 1 muestra un ejemplo de una base de corte transversal de pases, que muestra la tasa de

mortalidad, expectativa de vida, y otras variables para el ao 2005.

Figura 1

Datos de tipo Corte Transversal


5/30

Series de Tiempo

Las series de tiempo representan observaciones para una sola unidad en varios momentos del

tiempo, la frecuencia de los datos puede ser diaria, semanal, trimestral, anual, etc.

Por ejemplo, del Banco Central de Chile podemos obtener las series de tiempo del ProductoInterno Bruto (PIB), Indice de Precios al Consumidor (IPC), fuerza de trabajo, ocupados, etc. Ver

Figura 2.

Figura 2

Datos de tipo Serie de Tiempo

Datos de Panel o Longitudinales

Los datos longitudinales corresponden a observaciones de varias unidades en distintos momentosdel tiempo, por ejemplo puedo tener los puntajes en SIMCE, PSU, nmero de alumnos, nmero de

profesores, para varios colegios entre los aos 2000 y 2008.

La ventaja de los datos de panel es que observamos la mima unidad en diferentes momentos del

tiempo lo que nos permite estudiar la dinmica en el comportamiento de diversas variables.


6/30

La Figura 3 muestra un ejemplo de datos de panel, con observaciones de varios pases entre el ao

2004 y 2009.

Figura 3

Datos de tipo Datos de Panel


7/30

Una primera inspeccin de los datos

Lo primero que debe hacer todo investigador que trabaja con una base de datos, ya sea de

creacin propia o externa, antes de aplicar modelos estadsticos, es inspeccionar y explorar los

datos de modo correcto.

Qu debemos tener presente cuando inspeccionamos los datos?

A qu nivel de agregacin queremos trabajar y presentar los datos: individuos, hogar,comunas, regiones, etc.

Qu tipo de grfico me permite mostrar de manera clara y ordenada los resultados,incluso es relevante fijarse en las escalas de los ejes de los grficos que los haga

comparable entre ellos, y relevantes para el anlisis.

Seleccin correcta de la informacin que se mostrar, no siempre es preferible ms amenos, no es recomendable presentar muchos datos ni grficos, sino saber elegir los

correctos.

Para revisar algunos conceptos relacionados con la inspeccin de los datos utilizaremos la

Encuesta CASEN 2009 (http://www.mideplan.gob.cl/casen/index.html), especficamente

trataremos de producir estadsticas descriptivas y grficos en STATA que nos permitan analizar la

situacin de los ingresos, pobreza, y desigualdad en Chile.

Para nuestro primer anlisis utilizaremos como medida el ingreso autnomo per-cpita del hogar1,

el que puede ser generado a partir de la informacin disponible en la encuesta:

1El Ingreso Autmomo se define como aquel por concepto de sueldos y salarios, ganancias provenientes del

trabajo independiente, autoprovisin de bienes producidos por el hogar, bonificaciones, gratificaciones,

rentas, intereses, as como jubilaciones, pensiones, montepos y transferencias entre privados.

use casen2009.dta, clear

egen hogarid=group(segmento folio)

g s=1 if pco1!=14

replace s=0 if pco1==14

egen n=sum(s), by(hogarid)

gen yauthpc=yauthaj/n
http://www.mideplan.gob.cl/casen/index.htmlhttp://www.mideplan.gob.cl/casen/index.htmlhttp://www.mideplan.gob.cl/casen/index.htmlhttp://www.mideplan.gob.cl/casen/index.html


8/30

histogram yauthpcif yauthpc


9/30

histogram yauthpc if yauthpc


10/30



11/30

kdensity yauthpc if yauthpc


12/30

necesitamos tener indicadores concretos que de alguna forma resuman lo que podemos ver

grficamente con el histograma o kernel. Algunos de estos indicadores son las medidas de

tendencia central y las medidas de dispersin.

Medidas de Tendencia Central

Las medidas de tendencia central, tal como lo dice su nombre hablan del punto medio de la

distribucin.

Una medida de tendencia central es la media aritmtica (o promedio), la que representa elpunto

de equilibrio de la distribucin:

Por ejemplo, el promedio entre los nmeros 1 y 9 es 5, ya que de esta manera se equilibra ladistribucin de ellos, la distancia (en valor absoluto) entre 1 y 5 es la misma que la distancia entre

9 y 5.

Veamos otro ejemplo, supongamos los siguientes nmeros: 1, 2, 3, 4, y 5. La media aritmtica de

estos nmeros es 3, ya que de esta manera equilibramos la distribucin de estos nmeros.

Notemos la segunda columna de la Tabla 1, la diferencia (en valor absoluto) entre 1 y la media (3)

es 2, entre 2 y la media es 1, y entre 3 y la media es cero, estos tres valores son menores o iguales

a la media, y la suma de su distancia con respecto a la media es 3. Por otra parte, los valores que

estn sobre la media, tienen una diferencia de 1 con respecto a la media y 2 con respecto a la

media, lo que tambin suma 3. De esta forma, vemos que la media es el nmero que logra

equilibrar la distribucin de los nmeros observados.

Tabla 1

Ejemplo media aritmtica

Nmeros

Diferencia absoluta con

respecto a la media

Suma antes y despus de la

media

1 2

2 1

3 0 3

4 1

5 2 3

La Tabla 2 nos muestra otro ejemplo, en este caso tenemos 8 nmeros cuya media aritmtica es

26.75. Slo dos de los ocho nmeros estn sobre la media aritmtica y los restantes seis estn bajo

la media, podemos ver que la suma de la diferencia absoluta de cada uno de los nmeros que


13/30

estn bajo la media con respecto a la media es exactamente igual a la suma de las diferencias

absolutas de los nmeros que estn sobre la media.

Tabla 2


Nmeros


respecto a la media


media

10 16.75

11 15.75

12 14.75

13 13.75

13 13.75

15 11.75 86.5

40 13.25

100 73.25 86.5

Veamos un caso an ms extremo, la Tabla 3 nos muestra un listado de 12 nmeros, los primeros

11 nmeros son bastante pequeos (menores o iguales a 1), pero el ltimo nmero es un nmero

bastante grande, lo que hace que para equilibrar estos nmeros el promedio va a ser un nmero

bastante ms grande que los primeros 11 nmeros, en efecto el promedio de estos 12 nmeros es

8.79, y 11 de los 12 nmeros estn bajo el promedio, mientras que 1 slo est sobre el promedio.

Tabla 3


Nmeros


respecto a la media


media

0 8.79

0.1 8.69

0.2 8.59

0.3 8.49

0.4 8.39

0.5 8.29

0.6 8.19

0.7 8.090.8 7.99

0.9 7.89

1.0 7.79 91.21

100 91.21 91.21


14/30

Esto nos muestra algo importante que hay que tener presente cuando uno utiliza la media como

una medida de tendencia central, esta medida es bastante sensible a valores extremos en la

distribucin de nmeros.

En el caso del ingreso autnomo per-cpita de la encuesta CASEN 2009, la media de esta variable

es $130,992.7:

De las 244,511 observaciones, 162,504 (66.5%) estn bajo la media y 82,007 (33.5%) estn sobre la

media.

Otra medida de tendencia central es la mediana, la que corresponde al valor de la variable en la

mitad de la distribucin, es decir, si ordenamos las observaciones de menor a mayor valor de lavariable, la mediana es el valor de la observacin que est justo en la mitad, dejando la misma

cantidad de observaciones a la derecha y a la izquierda de la mediana. La mediana es una medida

de tendencia central ms robusta que la media, en el sentido que no es afectada por valores

extremos.

En el ejemplo de la Tabla 1 tenemos 5 nmeros, donde el nmero 3 corresponde al que est justo

en la mitad de estos 5 nmeros, de esta forma la mediana es 3. En el ejemplo, de la Tabla 2

tenemos 8 nmeros, no existe un nico nmero que este en la mitad, en este caso tenemos que

considerar los nmeros en la posicin 4 y 5 para calcular la mediana, como ambos nmeros son

iguales a 13, la mediana de estos nmeros es 13. Finalmente, en la Tabla 3 tenemos 12 nmeros,nuevamente al ser un nmero par no existe un nico nmero en la mitad, tenemos que considerar

los nmeros en la posicin 6 y 7 para calcular la mediana, la que corresponde al promedio de estos

dos nmeros, 0.55.

La mediana del ingreso autnomo per-cpita es $93,361.7, bastante menor a la media ya que esta

medida no es sensible a los valores extremos, ingresos elevados.

La mediana corresponde al percentil 50 y podemos calcular este valor en STATA a travs del

comando summarize con la opcin detail.


15/30



16/30

Simetra de una distribucin

Se dice que una distribucin es simtrica con respecto a la media3 si existe el mismo nmero de

valores a la derecha de la media que a la izquierda de la media, esto significa que el lado derecho

de la distribucin es un espejo del lado izquierdo de la distribucin.

Por ejemplo, la siguiente variable es simtrica en torno a su media que es igual a 3

Grfico 6

Histograma de variable simtrica en torno a la media

Para saber de manera ms objetiva si la variable es simtrica o no, y no simplemente utilizando la

inspeccin grfica, podemos calcular el coeficiente de asimetra. Si este coeficiente es igual a cero

se dice que la variable tiene una distribucin simtrica en torno a la media, en este ejemplo el

coeficiente de asimetra es -0.0054. Si el coeficiente de asimetra es positivo la variable tiene una

distribucin que concentra ms observaciones a lado izquierdo de la distribucin (bajo la media),

por el contrario si el coeficiente de asimetra es negativo hay ms observaciones en el lado

derecho de la distribucin (sobre la media).

3La simetra se puede definir tambin con respecto a la mediana o cualquier otro punto de inters, por

ejemplo, el punto ms alto de la distribucin.

0

.1

.2

.3

.4

-3 -2 -1 0 1 2 3 4 5 6 7 8 9


17/30

g lyauthpc=ln(yauthpc)

(8829 missing values generate)

histogram yauthpc if yauthpc>0 & yauthpc


18/30

Grfico 7

El coeficiente de asimetra de la variable en logaritmo es bastante ms pequeo:

0

5

10

15

0 200000 400000 600000 800000 1000000Ingreso Autnomo per-cpita del hogar

Fuente: Elaboracin propia en base a Encuesta CASEN 2006

Distribucin Emprica

Ingreso Autnomo per-capita

0

2

4

6

8

10

Porcentaje

4 6 8 10 12 14Ingreso Autnomo per-cpita del hogar

Fuente: Elaboracin propia en base a Encuesta CASEN 2006

Distribucin Emprica

Logaritmo Ingreso Autnomo per-capita


19/30

Medidas de dispersin

Tal como dice su nombre las medidas de dispersin tienen que ver con que tan dispersas estn las

observaciones, o que tan concentradas estn.

Una medida de dispersin es la varianza (2):

Varianza poblacional:

Varianza muestral:

La varianza corresponde el promedio de las desviaciones al cuadrado de cada observacin con

respecto a la media de la variable. Notemos que nos interesan las desviaciones, razn por la cual

se toma el valor al cuadrado, generando siempre un valor positivo, pero al estar al cuadrado la

medida de dispersin le da ms peso a las observaciones ms distantes en el promedio. Otra

consecuencia de que se midan las desviaciones al cuadrado es que la medida quedara expresada

en el cuadrado de la unidad en la que medida la variable, lo cual dificulta bastante la

interpretacin. Por esta razn usualmente se utiliza la desviacin estndar que consiste en tomar

raz cuadrada de la varianza, por lo cual la medida de dispersin queda expresada en la mismaunidad de la variable estudiada.

Desviacin estndar muestral:

La desviacin estndar del ingreso autnomo per-cpita es de $130,662.

El siguiente grfico nos muestra variables generadas aleatoriamente con distribucin normal con

media 1, pero diferentes varianzas (desviaciones estndar).


20/30

clear

set obs 10000

matrix desv1=1

matrix desv2=sqrt(2)

matrix desv3=sqrt(3)

matrix desv4=2

drawnorm var1, m(1) sd(desv1)




histogram var1, percent fcolor(purple) xtitle(media=1 varianza=1) saving(var1,

replace)


replace)


replace)


replace)

graph combine var1.gph var2.gph var3.gph var4.gph, xcommon

Grfico 8

0

2

4

6

8

-10 -5 0 5 10

media=1 varianza=1

0

2

4

6

8

Percent

-10 -5 0 5 10

media=1 varianza=2

0

2

4

6

8

-10 -5 0 5 10

media=1 varianza=3

0

2

4

6

8

Percent

-10 -5 0 5 10

media=1 varianza=4


21/30

graph box yauthpc if yauthpc>0 & yauthpc


22/30

Grfico 9

La lnea dentro de la caja corresponde a la mediana de la variable (medida de tendencia central), la

parte superior de la caja representa el percentil 75 y la parte baja de la caja el percentil 25, por lo

cual la altura de la caja representa el rango inter-cuartil (medida de dispersin). La lnea que esta

por sobre la caja define la cantidad de valores extremos en la variable, todas las observaciones

sobre esta lnea son valores extremos o outliers. Esta lnea se est definida por el percentil 75 ms1.5 veces el rango inter-cuartil, de manera equivalente la lnea que est bajo la casa corresponde

al percentil 25 menos 1.5 veces el rango inter-cuartil.

Medidas de desigualdad

Para definir si una persona es indigente, pobre no indigente, o no pobre se utiliza la lnea de

indigencia y pobreza definida segn el consumo de una canasta bsica por MIDEPLAN. Para el ao

2009 se tienen los siguientes valores de lnea de indigencia y pobreza:

Tabla 4Lnea de indigencia

Urbana 32,067

Rural 24,710

Lnea de pobreza

Urbana 64,134

Rural 43,242

0


23/30

**Ingreso total per-cpita

g ingpc=ytothaj/n

***Ingreso del trabajo del hogar****

g ytrab= ytrabhaj

replace ytrab=. if ytrab==0

***Ingreso Autonomo ditisntos del trabajo, del hogar***

g yaut2=yauthaj-ytrab

replace yaut2=. if yaut2==0

***Ingresos de subsidios del hogar***

g ysub=ysubhaj

replace ysub=. if ysub==0

***Alquiler imputado***

g alq=yaimhaj

replace alq=. if alq==0

***Ingreso Autonomo Percapita del hogar***

g yaupc=yauthaj/nreplace yaupc=. if yaupc==.

Para definir si un individuo tiene un ingreso bajo o sobre la lnea de pobreza o indigencia, se

calcula su ingreso per-cpita del hogar, tomando el ingreso total del hogar y dividindolo por el

nmero de personas en el hogar, excluyendo el servicio domstico.

Los ingresos totales del hogar se pueden dividir en:

Ingreso autnomo del hogaro Ingresos laboraleso Otras fuentes de ingresos (rentas, pensiones, etc.)

Ingresos por subsidios monetarios Alquiler imputado

Dos medidas de desigualdad ampliamente utilizadas son la razn entre el ltimo y primer quintil, y

la razn entre el ltimo y primer decil.

A continuacin tomaremos las diferentes medidas de ingreso para analizar las medidas de

tendencia central, dispersin, y desigualdad.


24/30


25/30

sum yaut2 [w=expr] if o==1 & quintil_au2==1

matrix MED[2,5]=r(mean)

sum yaut2 [w=expr] if o==1 & quintil_au2==5


sum yaut2 [w=expr] if o==1 & decil_au2==1


sum yaut2 [w=expr] if o==1 & decil_au2==10


sum ysub [w=expr] if o==1, detail


matrix MED[3,2]=r(sd)

matrix MED[3,3]=r(p25)


sum ysub [w=expr] if o==1 & quintil_sub==1matrix MED[3,5]=r(mean)

sum ysub [w=expr] if o==1 & quintil_sub==5


sum ysub [w=expr] if o==1 & decil_sub==1


sum ysub [w=expr] if o==1 & decil_sub==10


sum alq [w=expr] if o==1, detail





sum alq [w=expr] if o==1 & quintil_alq==1


sum alq [w=expr] if o==1 & quintil_alq==5


sum alq [w=expr] if o==1 & decil_alq==1

matrix MED[4,7]=r(mean)sum alq [w=expr] if o==1 & decil_alq==10



26/30

sum yaupc [w=expr] if o==1, detail





sum yaupc [w=expr] if o==1 & quintil_aupc==1


sum yaupc [w=expr] if o==1 & quintil_aupc==5


sum yaupc [w=expr] if o==1 & decil_aupc==1


sum yaupc [w=expr] if o==1 & decil_aupc==10


sum ingpc [w=expr] if o==1, detailmatrix MED[6,1]=r(mean)




sum ingpc [w=expr] if o==1 & quintil_totpc==1


sum ingpc [w=expr] if o==1 & quintil_totpc==5


sum ingpc [w=expr] if o==1 & decil_totpc==1


sum ingpc [w=expr] if o==1 & decil_totpc==10


local i=1

while `i'


27/30

La razn de deciles y quintiles nos permiten estudiar la distribucin o desigualdad en las distintas

medidas de ingresos propuestas. Por ejemplo, se tiene que los hogares del decil ms alto obtienen

ingresos del trabajo que son en promedio ms de 37 veces los ingresos de las personas del decil

ms bajo. Esto puede ser de alguna manera compensado (al menos en trminos relativos) con los

subsidios, ya que la razn entre el Decil 90 y Decil 10 de subsidios monetarios es 45.5. Con

respecto a la razn de quintiles, las personas que estn en el 20% de mayores ingresos del trabajo

tienen ingresos por este tem promedio que son 16.2 veces los ingresos de trabajo de las personasque estn en el 20% inferior.

En trminos de ingreso autnomo per-cpita la desigualdad de ingresos nos muestra que las

personas del decil ms alto tienen un ingreso 78.7 veces el ingreso de las personas del decil ms

bajo. En trminos de quintiles la razn (desigualdad) es menor, nos muestra que las personas en el

quintil ms acomodado tiene un ingreso autnomo 24 veces el ingreso del primer quintil. Pero si

nos concentramos en el ingreso total del hogar, el cual corresponde a los ingresos autnomos ms

los subsidios monetarios y alquiler imputado, se tiene que la razn de deciles es poco menos de la

mitad de la misma medida para el ingreso autnomo, y la razn de quintiles es 15.8.

Otras dos medidas de desigualdad son la curva de Lorenz y el coeficiente de Gini. La Curva de

Lorenz mide el porcentaje acumulado del ingreso (o de la variable que estemos analizando) en

manos del porcentaje acumulado de la poblacin. La Figura 5 nos muestra la Curva de Lorenz en

rojo, en el eje horizontal nos va mostrando la proporcin de la poblacin que va desde cero a 1, y

en el eje vertical la proporcin del ingreso. Por ejemplo, esta curva nos muestra que un 60% de la

poblacin acumula cerca del 30% de los ingresos. Mientras mayor curvatura tenga la curva de


28/30

lorenz yaupc

lorenz mayor es la desigualdad, y mientras ms recta sea la curva menor es la desigualdad, en el

extremo no existe desigualdad en la lnea negra (45).

Figura 5

Grfico 10


29/30

inequal yaupc

Esta medida de desigualdad es grfica y dificulta la comparacin con otras variables. El coeficiente

de Gini es un indicador ms objetivo que se obtiene a partir de la Curva de Lorenz, el Gini es un

nmero que est entre 0 y 1, en donde 0 corresponde a perfecta igualdad y 1 corresponde a

perfecta desigualdad.

El Coeficiente de Gini se obtiene de dividir el rea que hay entre la lnea de perfecta igualdad y laCurva de Lorenz (a), y el rea total bajo la lnea de perfecta igualdad (a+b).

Figura 6

Coeficiente de Gini

Para obtener el coeficiente de GINI del ingreso autnomo per-cpita podemos utilizar el comando

inequal de STATA:

El coefiente del Gini del ingreso autnomo per-cpita es 0.513 o 51.3%.


30/30

La interpretacin del coeficiente de GINI es la siguiente, si tomo dos familias o personas al azar, la

diferencia en ingresos autnomos per-cpita de estas dos personas como proporcin del ingreso

promedio:

Es el doble del coeficiente de GINI, es decir, en este caso 102.6%.

Todos los indicadores que hemos presentados: medidas de tendencia central, medidas de

dispersin, y medidas de desigualdad, lo hemos mostrando pensando en el anlisis de una sola

variable. Sin embargo, en muchos casos nos interesar hacer comparaciones entre estadsticos de

diferentes variables o para diferentes grupos, por ejemplo, podramos comparar los ingresos

promedios entre hombre y mujeres.

Una forma de compararlos sera simplemente tomar la diferencia entre el ingreso promedio de los

hombres y el ingreso promedio de las mujeres, esto nos entregar un nmero. Pero no sabremos

si decir si ese nmero es grande o pequeo, o afirmar que realmente la diferencia existe, para esto

necesitamos determinar si el valor encontrado es estadsticamente diferente de cero.

A continuacin comenzaremos a desarrollar el marco conceptual que ms adelante nos permitir

responder esta pregunta.

clase1 stata

Documents