clase1 stata
TRANSCRIPT
-
7/31/2019 Clase1 STATA
1/30
Centro de Microdatos
2011
Anlisis de DatosMagister en Polticas Pblicas
Javiera Vsquez
-
7/31/2019 Clase1 STATA
2/30
Introduccin
La mayora de las decisiones en economa y polticas pblicas depender de cun bien podamos
entender, las relaciones entre las variables que nos rodean.
Al momento de disear una poltica pblica se debe tener una pregunta concreta en trminoscuantitativos sobre la o las variables que queremos afectar, y que instrumentos disponemos para
afectar estas variables, es decir, necesitamos dar respuestas cuantitativas a preguntas
cuantitativas, y adicionalmente, debemos tener clara cul es la causalidad de la relacin entre las
variables.
Por ejemplo, podemos querer dar respuesta a las siguientes preguntas:
El cuidado prenatal lleva a tener hijos ms saludables? La Reforma Previsional, mejor la calidad de vida de los adultos mayores? EL programa de Subsidio a la Contratacin de Trabajadores Jvenes, incrementar la
formalizacin del trabajo juvenil?
Hay discriminacin por gnero en el mercado laboral?Hay discriminacin por aparienciafsica en el mercado laboral?
Cul es el impacto de las restricciones a los fumadores sobre el hbito de fumar? Qu impacto ha tenido el programa Chile Crece Contigo? Existe mayor vulnerabilidad econmica en los hogares monoparentales? Cmo afecta la disponibilidad de salas cunas a la tasa de participacin femenina?
Para que los datos nos entreguen respuestas concretas y tiles a estas preguntas debemos
aprender a trabajar con ellos, para esto es importante adquirir prctica en organizar la
informacin y presentarla de manera informativa, entender la aleatoriedad y cuando lo que
encontramos puede ser producto del azar, entender los conceptos de probabilidad y como estos
pueden ser usados para interpretar la informacin emprica.
Datos Experimentales versus No Experimentales
El escenario ideal para estimar el efecto de un tratamiento o de una poltica es hacer cambios
experimentales (controlados) sobre una variable y observar los cambios en la variable de inters.
Adems para tener una base de comparacin necesitamos un grupo de control. Esto es lo que
generalmente se hace en medicina para probar nuevas drogas y sus efectos, se tiene un grupo de
tratamiento y un grupo de control con caractersticas similares, y slo a los del grupo de
tratamiento se le entrega la droga y a los del grupo de control unplacebo, luego podemos analizar
simplemente comparando ambos grupos cuales son los efectos de la droga.
En polticas pblicas la asignacin aleatoria de un tratamiento o poltica es algo bastante ms
complejo, ya que una poltica es diseada para la poblacin o un grupo de ellas y a veces no es
tico darle prioridad aleatoria a un grupo versus otro. Adems implementar un experimento en
-
7/31/2019 Clase1 STATA
3/30
polticas pblicas es mucho ms costoso porque requiere la implementacin del programa
propiamente tal a una escala menor. De esta forma, en la mayora de los casos que estudiemos no
disponemos de Datos Experimentales sino de Datos Observados o No Experimentales.
Cuando los datos son de naturaleza experimental, el efecto causal de la poltica (o tratamiento) se
puede obtener tomando la diferencia de promedios de la variable de resultados entre el grupo detratamiento y control, por ejemplo, tomando el peso al nacer promedio de bebes de madres con
cuidado prenatal y restndole el peso al nacer promedio de bebes de madres sin cuidado prenatal.
Sin embargo, si los datos no son experimentales debemos utilizar tcnicas economtricas para
estimar el efecto causal, estas herramientas se preocupan de aislar el efecto que otras variables,
distintas al tratamiento, pueden tener sobre el resultado (outcome).
-
7/31/2019 Clase1 STATA
4/30
Tipos de Datos
Los datos que disponemos para trabajar pueden tener tres formatos: corte transversal, Series de
Tiempo, y Datos de Panel (o Longitudinales).
Corte Transversal
Los datos de corte transversal se caracterizan por recopilar informacin para varias unidades en un
momento del tiempo, las unidades pueden ser individuos, hogares, comunas, colegios, empresas,
regiones, etc.
Un ejemplo de datos de corte transversal en Chile es la Encuesta CASEN.
La Figura 1 muestra un ejemplo de una base de corte transversal de pases, que muestra la tasa de
mortalidad, expectativa de vida, y otras variables para el ao 2005.
Figura 1
Datos de tipo Corte Transversal
-
7/31/2019 Clase1 STATA
5/30
Series de Tiempo
Las series de tiempo representan observaciones para una sola unidad en varios momentos del
tiempo, la frecuencia de los datos puede ser diaria, semanal, trimestral, anual, etc.
Por ejemplo, del Banco Central de Chile podemos obtener las series de tiempo del ProductoInterno Bruto (PIB), Indice de Precios al Consumidor (IPC), fuerza de trabajo, ocupados, etc. Ver
Figura 2.
Figura 2
Datos de tipo Serie de Tiempo
Datos de Panel o Longitudinales
Los datos longitudinales corresponden a observaciones de varias unidades en distintos momentosdel tiempo, por ejemplo puedo tener los puntajes en SIMCE, PSU, nmero de alumnos, nmero de
profesores, para varios colegios entre los aos 2000 y 2008.
La ventaja de los datos de panel es que observamos la mima unidad en diferentes momentos del
tiempo lo que nos permite estudiar la dinmica en el comportamiento de diversas variables.
-
7/31/2019 Clase1 STATA
6/30
La Figura 3 muestra un ejemplo de datos de panel, con observaciones de varios pases entre el ao
2004 y 2009.
Figura 3
Datos de tipo Datos de Panel
-
7/31/2019 Clase1 STATA
7/30
Una primera inspeccin de los datos
Lo primero que debe hacer todo investigador que trabaja con una base de datos, ya sea de
creacin propia o externa, antes de aplicar modelos estadsticos, es inspeccionar y explorar los
datos de modo correcto.
Qu debemos tener presente cuando inspeccionamos los datos?
A qu nivel de agregacin queremos trabajar y presentar los datos: individuos, hogar,comunas, regiones, etc.
Qu tipo de grfico me permite mostrar de manera clara y ordenada los resultados,incluso es relevante fijarse en las escalas de los ejes de los grficos que los haga
comparable entre ellos, y relevantes para el anlisis.
Seleccin correcta de la informacin que se mostrar, no siempre es preferible ms amenos, no es recomendable presentar muchos datos ni grficos, sino saber elegir los
correctos.
Para revisar algunos conceptos relacionados con la inspeccin de los datos utilizaremos la
Encuesta CASEN 2009 (http://www.mideplan.gob.cl/casen/index.html), especficamente
trataremos de producir estadsticas descriptivas y grficos en STATA que nos permitan analizar la
situacin de los ingresos, pobreza, y desigualdad en Chile.
Para nuestro primer anlisis utilizaremos como medida el ingreso autnomo per-cpita del hogar1,
el que puede ser generado a partir de la informacin disponible en la encuesta:
1El Ingreso Autmomo se define como aquel por concepto de sueldos y salarios, ganancias provenientes del
trabajo independiente, autoprovisin de bienes producidos por el hogar, bonificaciones, gratificaciones,
rentas, intereses, as como jubilaciones, pensiones, montepos y transferencias entre privados.
use casen2009.dta, clear
egen hogarid=group(segmento folio)
g s=1 if pco1!=14
replace s=0 if pco1==14
egen n=sum(s), by(hogarid)
gen yauthpc=yauthaj/n
http://www.mideplan.gob.cl/casen/index.htmlhttp://www.mideplan.gob.cl/casen/index.htmlhttp://www.mideplan.gob.cl/casen/index.htmlhttp://www.mideplan.gob.cl/casen/index.html -
7/31/2019 Clase1 STATA
8/30
histogram yauthpcif yauthpc
-
7/31/2019 Clase1 STATA
9/30
histogram yauthpc if yauthpc
-
7/31/2019 Clase1 STATA
10/30
histogram yauthpc if yauthpc
-
7/31/2019 Clase1 STATA
11/30
kdensity yauthpc if yauthpc
-
7/31/2019 Clase1 STATA
12/30
necesitamos tener indicadores concretos que de alguna forma resuman lo que podemos ver
grficamente con el histograma o kernel. Algunos de estos indicadores son las medidas de
tendencia central y las medidas de dispersin.
Medidas de Tendencia Central
Las medidas de tendencia central, tal como lo dice su nombre hablan del punto medio de la
distribucin.
Una medida de tendencia central es la media aritmtica (o promedio), la que representa elpunto
de equilibrio de la distribucin:
Por ejemplo, el promedio entre los nmeros 1 y 9 es 5, ya que de esta manera se equilibra ladistribucin de ellos, la distancia (en valor absoluto) entre 1 y 5 es la misma que la distancia entre
9 y 5.
Veamos otro ejemplo, supongamos los siguientes nmeros: 1, 2, 3, 4, y 5. La media aritmtica de
estos nmeros es 3, ya que de esta manera equilibramos la distribucin de estos nmeros.
Notemos la segunda columna de la Tabla 1, la diferencia (en valor absoluto) entre 1 y la media (3)
es 2, entre 2 y la media es 1, y entre 3 y la media es cero, estos tres valores son menores o iguales
a la media, y la suma de su distancia con respecto a la media es 3. Por otra parte, los valores que
estn sobre la media, tienen una diferencia de 1 con respecto a la media y 2 con respecto a la
media, lo que tambin suma 3. De esta forma, vemos que la media es el nmero que logra
equilibrar la distribucin de los nmeros observados.
Tabla 1
Ejemplo media aritmtica
Nmeros
Diferencia absoluta con
respecto a la media
Suma antes y despus de la
media
1 2
2 1
3 0 3
4 1
5 2 3
La Tabla 2 nos muestra otro ejemplo, en este caso tenemos 8 nmeros cuya media aritmtica es
26.75. Slo dos de los ocho nmeros estn sobre la media aritmtica y los restantes seis estn bajo
la media, podemos ver que la suma de la diferencia absoluta de cada uno de los nmeros que
-
7/31/2019 Clase1 STATA
13/30
estn bajo la media con respecto a la media es exactamente igual a la suma de las diferencias
absolutas de los nmeros que estn sobre la media.
Tabla 2
Ejemplo media aritmtica
Nmeros
Diferencia absoluta con
respecto a la media
Suma antes y despus de la
media
10 16.75
11 15.75
12 14.75
13 13.75
13 13.75
15 11.75 86.5
40 13.25
100 73.25 86.5
Veamos un caso an ms extremo, la Tabla 3 nos muestra un listado de 12 nmeros, los primeros
11 nmeros son bastante pequeos (menores o iguales a 1), pero el ltimo nmero es un nmero
bastante grande, lo que hace que para equilibrar estos nmeros el promedio va a ser un nmero
bastante ms grande que los primeros 11 nmeros, en efecto el promedio de estos 12 nmeros es
8.79, y 11 de los 12 nmeros estn bajo el promedio, mientras que 1 slo est sobre el promedio.
Tabla 3
Ejemplo media aritmtica
Nmeros
Diferencia absoluta con
respecto a la media
Suma antes y despus de la
media
0 8.79
0.1 8.69
0.2 8.59
0.3 8.49
0.4 8.39
0.5 8.29
0.6 8.19
0.7 8.090.8 7.99
0.9 7.89
1.0 7.79 91.21
100 91.21 91.21
-
7/31/2019 Clase1 STATA
14/30
Esto nos muestra algo importante que hay que tener presente cuando uno utiliza la media como
una medida de tendencia central, esta medida es bastante sensible a valores extremos en la
distribucin de nmeros.
En el caso del ingreso autnomo per-cpita de la encuesta CASEN 2009, la media de esta variable
es $130,992.7:
De las 244,511 observaciones, 162,504 (66.5%) estn bajo la media y 82,007 (33.5%) estn sobre la
media.
Otra medida de tendencia central es la mediana, la que corresponde al valor de la variable en la
mitad de la distribucin, es decir, si ordenamos las observaciones de menor a mayor valor de lavariable, la mediana es el valor de la observacin que est justo en la mitad, dejando la misma
cantidad de observaciones a la derecha y a la izquierda de la mediana. La mediana es una medida
de tendencia central ms robusta que la media, en el sentido que no es afectada por valores
extremos.
En el ejemplo de la Tabla 1 tenemos 5 nmeros, donde el nmero 3 corresponde al que est justo
en la mitad de estos 5 nmeros, de esta forma la mediana es 3. En el ejemplo, de la Tabla 2
tenemos 8 nmeros, no existe un nico nmero que este en la mitad, en este caso tenemos que
considerar los nmeros en la posicin 4 y 5 para calcular la mediana, como ambos nmeros son
iguales a 13, la mediana de estos nmeros es 13. Finalmente, en la Tabla 3 tenemos 12 nmeros,nuevamente al ser un nmero par no existe un nico nmero en la mitad, tenemos que considerar
los nmeros en la posicin 6 y 7 para calcular la mediana, la que corresponde al promedio de estos
dos nmeros, 0.55.
La mediana del ingreso autnomo per-cpita es $93,361.7, bastante menor a la media ya que esta
medida no es sensible a los valores extremos, ingresos elevados.
La mediana corresponde al percentil 50 y podemos calcular este valor en STATA a travs del
comando summarize con la opcin detail.
-
7/31/2019 Clase1 STATA
15/30
histogram yauthpc if yauthpc
-
7/31/2019 Clase1 STATA
16/30
Simetra de una distribucin
Se dice que una distribucin es simtrica con respecto a la media3 si existe el mismo nmero de
valores a la derecha de la media que a la izquierda de la media, esto significa que el lado derecho
de la distribucin es un espejo del lado izquierdo de la distribucin.
Por ejemplo, la siguiente variable es simtrica en torno a su media que es igual a 3
Grfico 6
Histograma de variable simtrica en torno a la media
Para saber de manera ms objetiva si la variable es simtrica o no, y no simplemente utilizando la
inspeccin grfica, podemos calcular el coeficiente de asimetra. Si este coeficiente es igual a cero
se dice que la variable tiene una distribucin simtrica en torno a la media, en este ejemplo el
coeficiente de asimetra es -0.0054. Si el coeficiente de asimetra es positivo la variable tiene una
distribucin que concentra ms observaciones a lado izquierdo de la distribucin (bajo la media),
por el contrario si el coeficiente de asimetra es negativo hay ms observaciones en el lado
derecho de la distribucin (sobre la media).
3La simetra se puede definir tambin con respecto a la mediana o cualquier otro punto de inters, por
ejemplo, el punto ms alto de la distribucin.
0
.1
.2
.3
.4
-3 -2 -1 0 1 2 3 4 5 6 7 8 9
-
7/31/2019 Clase1 STATA
17/30
g lyauthpc=ln(yauthpc)
(8829 missing values generate)
histogram yauthpc if yauthpc>0 & yauthpc
-
7/31/2019 Clase1 STATA
18/30
Grfico 7
El coeficiente de asimetra de la variable en logaritmo es bastante ms pequeo:
0
5
10
15
0 200000 400000 600000 800000 1000000Ingreso Autnomo per-cpita del hogar
Fuente: Elaboracin propia en base a Encuesta CASEN 2006
Distribucin Emprica
Ingreso Autnomo per-capita
0
2
4
6
8
10
Porcentaje
4 6 8 10 12 14Ingreso Autnomo per-cpita del hogar
Fuente: Elaboracin propia en base a Encuesta CASEN 2006
Distribucin Emprica
Logaritmo Ingreso Autnomo per-capita
-
7/31/2019 Clase1 STATA
19/30
Medidas de dispersin
Tal como dice su nombre las medidas de dispersin tienen que ver con que tan dispersas estn las
observaciones, o que tan concentradas estn.
Una medida de dispersin es la varianza (2):
Varianza poblacional:
Varianza muestral:
La varianza corresponde el promedio de las desviaciones al cuadrado de cada observacin con
respecto a la media de la variable. Notemos que nos interesan las desviaciones, razn por la cual
se toma el valor al cuadrado, generando siempre un valor positivo, pero al estar al cuadrado la
medida de dispersin le da ms peso a las observaciones ms distantes en el promedio. Otra
consecuencia de que se midan las desviaciones al cuadrado es que la medida quedara expresada
en el cuadrado de la unidad en la que medida la variable, lo cual dificulta bastante la
interpretacin. Por esta razn usualmente se utiliza la desviacin estndar que consiste en tomar
raz cuadrada de la varianza, por lo cual la medida de dispersin queda expresada en la mismaunidad de la variable estudiada.
Desviacin estndar muestral:
La desviacin estndar del ingreso autnomo per-cpita es de $130,662.
El siguiente grfico nos muestra variables generadas aleatoriamente con distribucin normal con
media 1, pero diferentes varianzas (desviaciones estndar).
-
7/31/2019 Clase1 STATA
20/30
clear
set obs 10000
matrix desv1=1
matrix desv2=sqrt(2)
matrix desv3=sqrt(3)
matrix desv4=2
drawnorm var1, m(1) sd(desv1)
drawnorm var2, m(1) sd(desv2)
drawnorm var3, m(1) sd(desv3)
drawnorm var4, m(1) sd(desv4)
histogram var1, percent fcolor(purple) xtitle(media=1 varianza=1) saving(var1,
replace)
histogram var2, percent fcolor(purple) xtitle(media=1 varianza=2) saving(var2,
replace)
histogram var3, percent fcolor(purple) xtitle(media=1 varianza=3) saving(var3,
replace)
histogram var4, percent fcolor(purple) xtitle(media=1 varianza=4) saving(var4,
replace)
graph combine var1.gph var2.gph var3.gph var4.gph, xcommon
Grfico 8
0
2
4
6
8
-10 -5 0 5 10
media=1 varianza=1
0
2
4
6
8
Percent
-10 -5 0 5 10
media=1 varianza=2
0
2
4
6
8
-10 -5 0 5 10
media=1 varianza=3
0
2
4
6
8
Percent
-10 -5 0 5 10
media=1 varianza=4
-
7/31/2019 Clase1 STATA
21/30
graph box yauthpc if yauthpc>0 & yauthpc
-
7/31/2019 Clase1 STATA
22/30
Grfico 9
La lnea dentro de la caja corresponde a la mediana de la variable (medida de tendencia central), la
parte superior de la caja representa el percentil 75 y la parte baja de la caja el percentil 25, por lo
cual la altura de la caja representa el rango inter-cuartil (medida de dispersin). La lnea que esta
por sobre la caja define la cantidad de valores extremos en la variable, todas las observaciones
sobre esta lnea son valores extremos o outliers. Esta lnea se est definida por el percentil 75 ms1.5 veces el rango inter-cuartil, de manera equivalente la lnea que est bajo la casa corresponde
al percentil 25 menos 1.5 veces el rango inter-cuartil.
Medidas de desigualdad
Para definir si una persona es indigente, pobre no indigente, o no pobre se utiliza la lnea de
indigencia y pobreza definida segn el consumo de una canasta bsica por MIDEPLAN. Para el ao
2009 se tienen los siguientes valores de lnea de indigencia y pobreza:
Tabla 4Lnea de indigencia
Urbana 32,067
Rural 24,710
Lnea de pobreza
Urbana 64,134
Rural 43,242
0
-
7/31/2019 Clase1 STATA
23/30
**Ingreso total per-cpita
g ingpc=ytothaj/n
***Ingreso del trabajo del hogar****
g ytrab= ytrabhaj
replace ytrab=. if ytrab==0
***Ingreso Autonomo ditisntos del trabajo, del hogar***
g yaut2=yauthaj-ytrab
replace yaut2=. if yaut2==0
***Ingresos de subsidios del hogar***
g ysub=ysubhaj
replace ysub=. if ysub==0
***Alquiler imputado***
g alq=yaimhaj
replace alq=. if alq==0
***Ingreso Autonomo Percapita del hogar***
g yaupc=yauthaj/nreplace yaupc=. if yaupc==.
Para definir si un individuo tiene un ingreso bajo o sobre la lnea de pobreza o indigencia, se
calcula su ingreso per-cpita del hogar, tomando el ingreso total del hogar y dividindolo por el
nmero de personas en el hogar, excluyendo el servicio domstico.
Los ingresos totales del hogar se pueden dividir en:
Ingreso autnomo del hogaro Ingresos laboraleso Otras fuentes de ingresos (rentas, pensiones, etc.)
Ingresos por subsidios monetarios Alquiler imputado
Dos medidas de desigualdad ampliamente utilizadas son la razn entre el ltimo y primer quintil, y
la razn entre el ltimo y primer decil.
A continuacin tomaremos las diferentes medidas de ingreso para analizar las medidas de
tendencia central, dispersin, y desigualdad.
-
7/31/2019 Clase1 STATA
24/30
-
7/31/2019 Clase1 STATA
25/30
sum yaut2 [w=expr] if o==1 & quintil_au2==1
matrix MED[2,5]=r(mean)
sum yaut2 [w=expr] if o==1 & quintil_au2==5
matrix MED[2,6]=r(mean)
sum yaut2 [w=expr] if o==1 & decil_au2==1
matrix MED[2,7]=r(mean)
sum yaut2 [w=expr] if o==1 & decil_au2==10
matrix MED[2,8]=r(mean)
sum ysub [w=expr] if o==1, detail
matrix MED[3,1]=r(mean)
matrix MED[3,2]=r(sd)
matrix MED[3,3]=r(p25)
matrix MED[3,4]=r(p75)
sum ysub [w=expr] if o==1 & quintil_sub==1matrix MED[3,5]=r(mean)
sum ysub [w=expr] if o==1 & quintil_sub==5
matrix MED[3,6]=r(mean)
sum ysub [w=expr] if o==1 & decil_sub==1
matrix MED[3,7]=r(mean)
sum ysub [w=expr] if o==1 & decil_sub==10
matrix MED[3,8]=r(mean)
sum alq [w=expr] if o==1, detail
matrix MED[4,1]=r(mean)
matrix MED[4,2]=r(sd)
matrix MED[4,3]=r(p25)
matrix MED[4,4]=r(p75)
sum alq [w=expr] if o==1 & quintil_alq==1
matrix MED[4,5]=r(mean)
sum alq [w=expr] if o==1 & quintil_alq==5
matrix MED[4,6]=r(mean)
sum alq [w=expr] if o==1 & decil_alq==1
matrix MED[4,7]=r(mean)sum alq [w=expr] if o==1 & decil_alq==10
matrix MED[4,8]=r(mean)
-
7/31/2019 Clase1 STATA
26/30
sum yaupc [w=expr] if o==1, detail
matrix MED[5,1]=r(mean)
matrix MED[5,2]=r(sd)
matrix MED[5,3]=r(p25)
matrix MED[5,4]=r(p75)
sum yaupc [w=expr] if o==1 & quintil_aupc==1
matrix MED[5,5]=r(mean)
sum yaupc [w=expr] if o==1 & quintil_aupc==5
matrix MED[5,6]=r(mean)
sum yaupc [w=expr] if o==1 & decil_aupc==1
matrix MED[5,7]=r(mean)
sum yaupc [w=expr] if o==1 & decil_aupc==10
matrix MED[5,8]=r(mean)
sum ingpc [w=expr] if o==1, detailmatrix MED[6,1]=r(mean)
matrix MED[6,2]=r(sd)
matrix MED[6,3]=r(p25)
matrix MED[6,4]=r(p75)
sum ingpc [w=expr] if o==1 & quintil_totpc==1
matrix MED[6,5]=r(mean)
sum ingpc [w=expr] if o==1 & quintil_totpc==5
matrix MED[6,6]=r(mean)
sum ingpc [w=expr] if o==1 & decil_totpc==1
matrix MED[6,7]=r(mean)
sum ingpc [w=expr] if o==1 & decil_totpc==10
matrix MED[6,8]=r(mean)
local i=1
while `i'
-
7/31/2019 Clase1 STATA
27/30
La razn de deciles y quintiles nos permiten estudiar la distribucin o desigualdad en las distintas
medidas de ingresos propuestas. Por ejemplo, se tiene que los hogares del decil ms alto obtienen
ingresos del trabajo que son en promedio ms de 37 veces los ingresos de las personas del decil
ms bajo. Esto puede ser de alguna manera compensado (al menos en trminos relativos) con los
subsidios, ya que la razn entre el Decil 90 y Decil 10 de subsidios monetarios es 45.5. Con
respecto a la razn de quintiles, las personas que estn en el 20% de mayores ingresos del trabajo
tienen ingresos por este tem promedio que son 16.2 veces los ingresos de trabajo de las personasque estn en el 20% inferior.
En trminos de ingreso autnomo per-cpita la desigualdad de ingresos nos muestra que las
personas del decil ms alto tienen un ingreso 78.7 veces el ingreso de las personas del decil ms
bajo. En trminos de quintiles la razn (desigualdad) es menor, nos muestra que las personas en el
quintil ms acomodado tiene un ingreso autnomo 24 veces el ingreso del primer quintil. Pero si
nos concentramos en el ingreso total del hogar, el cual corresponde a los ingresos autnomos ms
los subsidios monetarios y alquiler imputado, se tiene que la razn de deciles es poco menos de la
mitad de la misma medida para el ingreso autnomo, y la razn de quintiles es 15.8.
Otras dos medidas de desigualdad son la curva de Lorenz y el coeficiente de Gini. La Curva de
Lorenz mide el porcentaje acumulado del ingreso (o de la variable que estemos analizando) en
manos del porcentaje acumulado de la poblacin. La Figura 5 nos muestra la Curva de Lorenz en
rojo, en el eje horizontal nos va mostrando la proporcin de la poblacin que va desde cero a 1, y
en el eje vertical la proporcin del ingreso. Por ejemplo, esta curva nos muestra que un 60% de la
poblacin acumula cerca del 30% de los ingresos. Mientras mayor curvatura tenga la curva de
-
7/31/2019 Clase1 STATA
28/30
lorenz yaupc
lorenz mayor es la desigualdad, y mientras ms recta sea la curva menor es la desigualdad, en el
extremo no existe desigualdad en la lnea negra (45).
Figura 5
Grfico 10
-
7/31/2019 Clase1 STATA
29/30
inequal yaupc
Esta medida de desigualdad es grfica y dificulta la comparacin con otras variables. El coeficiente
de Gini es un indicador ms objetivo que se obtiene a partir de la Curva de Lorenz, el Gini es un
nmero que est entre 0 y 1, en donde 0 corresponde a perfecta igualdad y 1 corresponde a
perfecta desigualdad.
El Coeficiente de Gini se obtiene de dividir el rea que hay entre la lnea de perfecta igualdad y laCurva de Lorenz (a), y el rea total bajo la lnea de perfecta igualdad (a+b).
Figura 6
Coeficiente de Gini
Para obtener el coeficiente de GINI del ingreso autnomo per-cpita podemos utilizar el comando
inequal de STATA:
El coefiente del Gini del ingreso autnomo per-cpita es 0.513 o 51.3%.
-
7/31/2019 Clase1 STATA
30/30
La interpretacin del coeficiente de GINI es la siguiente, si tomo dos familias o personas al azar, la
diferencia en ingresos autnomos per-cpita de estas dos personas como proporcin del ingreso
promedio:
Es el doble del coeficiente de GINI, es decir, en este caso 102.6%.
Todos los indicadores que hemos presentados: medidas de tendencia central, medidas de
dispersin, y medidas de desigualdad, lo hemos mostrando pensando en el anlisis de una sola
variable. Sin embargo, en muchos casos nos interesar hacer comparaciones entre estadsticos de
diferentes variables o para diferentes grupos, por ejemplo, podramos comparar los ingresos
promedios entre hombre y mujeres.
Una forma de compararlos sera simplemente tomar la diferencia entre el ingreso promedio de los
hombres y el ingreso promedio de las mujeres, esto nos entregar un nmero. Pero no sabremos
si decir si ese nmero es grande o pequeo, o afirmar que realmente la diferencia existe, para esto
necesitamos determinar si el valor encontrado es estadsticamente diferente de cero.
A continuacin comenzaremos a desarrollar el marco conceptual que ms adelante nos permitir
responder esta pregunta.