diseños muestrales impuestos irpf (categoría ii) e iass

22
Diseños muestrales Impuestos IRPF (Categoría II) e IASS.

Upload: others

Post on 26-Jun-2022

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

Diseños muestrales

Impuestos IRPF (Categoría II) e IASS.

Page 2: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

2

Page 3: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

3

Tabla de Contenidos

INTRODUCCIÓN 4

1. DISEÑO MUESTRAL IRPF (CATEGORÍA II) – OPCIÓN PERSONAL 5

1.1 Marco muestral 5

1.2 Diseño 5

1.3 Ponderadores calibrados 6

2. DISEÑO MUESTRAL IRPF (CATEGORÍA II) – OPCIÓN NÚCLEO FAMILIAR 8

2.1 Marco Muestral 8

2.2 Diseño 8

2.3 Ponderadores calibrados 9

3. DISEÑO MUESTRAL IASS 9

3.1 Marco Muestral 9

3.2 Diseño 9

3.3 Ponderadores calibrados 10

ANEXO 1. CONCEPTOS BÁSICOS Y CALIBRACIÓN. 11

ANEXO 2 NOTA PARA LOS USUARIOS 17

ANEXO 3 DICCIONARIO DE VARIABLES 18

BIBLIOGRAFÍA 21

Page 4: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

4

Introducción1 El Instituto Nacional de Estadística (INE) y la Dirección General de Impositiva (DGI) seleccionaron muestras aleatorias representativas de las Bases de Datos de la DGI de los Impuestos IRPF (Categoría II) e IASS. Las muestras correspondientes son de uso público de acuerdo a las normas que regulan el secreto estadístico y el tributario. El objetivo es entregar un insumo imprescindible (que actualmente no se encontraba disponible) para los investigadores y diseñadores de políticas para evaluación del impacto económico y social del sistema tributario, al tiempo que serán de utilidad para la evaluación y diseño de políticas públicas en otras áreas. A su vez, dichas muestras pueden utilizarse como insumo para usuarios de otras muestras, por ejemplo, la Encuesta Continua de Hogares (ECH), que deseen ayudar a sus estimaciones con información auxiliar extraída de las muestras de IRPF e IASS. Se le brinda a los usuarios bases de datos con un tamaño lo suficientemente grande, para que los mismos puedan realizar sus propias estimaciones con buenos niveles de precisión (dependiendo de la apertura) y a su vez, preservar el secreto tributario y poder trabajar con una base de datos reducida que pueda ser utilizada sin la necesidad de un software específico, bastando únicamente con una planilla electrónica. En el siguiente documento se detallan los diseños muestrales utilizados para la selección de las muestras de IRPF e IASS y la metodología empleada para el cálculo de los ponderadores finales. En el caso del IRPF – Categoría II, la muestra contiene dos secciones (con archivos separados), correspondientes a las distintas opciones de tributación del impuesto: opción personal, opción núcleo familiar. Finalmente, se hace una breve reseña técnica de los diseños muestrales y los estimadores utilizados y el modo correcto de tratar las muestras en los software de uso extendido utilizados por los investigadores de nuestro país.

1 Este documento fue elaborado por Juan Pablo Ferreira, Instituto Nacional de Estadística

Page 5: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

5

1. Diseño muestral IRPF (Categoría II) – Opción Personal 1.1 Marco muestral El marco muestral corresponde a la base de IRPF Categoría II – Opción Personal. El tamaño del mismo es de 1.210.506 personas, que según las bases de datos de la DGI perciben rentas comprendidas en este impuesto. La información contenida en el marco muestral corresponde a datos demográficos de la persona (sexo, edad), fuente de empleo, total de ingresos percibidos, total de deducciones, monto devengado del impuesto, e información sobre la actividad económica principal declarada por el empleador en donde la persona desempeña sus tareas (hasta seis clases de actividad). En base a dicho marco muestral se seleccionó una muestra probabilística.

1.2 Diseño La muestra se seleccionó al azar mediante un muestreo estratificado. Los estratos del diseño muestral reconocen tres dimensiones:

- Tramo etáreo del individuo (menor de 25 años, entre 25 y 34 años, entre 35 y 44 años, entre 45 y 54 años, 55 años o más).

- Sexo del individuo. - La fuente de renta del individuo.

Teniendo en cuenta la interacción de las tres variables definidas anteriormente, el número total de estratos asciende a cuarenta. El objetivo de dicha estratificación es tener un tamaño de muestra controlado para las posibles aperturas a llevar a cabo por los usuarios y la construcción de los mismos no sigue ningún criterio de optimización para minimizar la variación de los estimadores. En cada uno de los estratos del diseño definidos se seleccionó una muestra bajo un muestreo aleatorio simple sin reposición. El tamaño de muestra en cada uno de los estratos es determinado de manera independiente para obtener un error relativo menor al 4% y con un nivel de confianza del 95 % para estimar el total de ingresos percibidos por los individuos en el estrato

1222222 96.196.1

hhhhh SNSNn , donde hN es el tamaño del estrato, 2

hS es la varianza poblacional de la variable auxiliar total de ingreso percibido por el individuo en el estrato h , 96.1 es el valor de la distribución normal estándar que acumula el 0.975 de probabilidad y es la precisión fijada. Bajo los requerimientos anteriores el tamaño de muestra es de 61.811 casos (una tasa de muestreo del 5% aproximadamente).

Page 6: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

6

En los cuadros 1 y 2 se muestra la distribución de las personas entre hombres y mujeres, en tramos de edad y en función de las fuentes de rentas. Las mismas se desglosan de la siguiente manera:

Única renta dependiente: perciben rentas por trabajo en relación de dependencia de un solo empleador.

Independiente: percibe una o varias rentas por trabajo fuera de la relación de

dependencia. Multirenta dependiente: perciben rentas por trabajo en relación de dependencia

de varios empleadores.

Independiente-Dependiente: perciben rentas por trabajo en relación de dependencia y fuera de la misma.

Cuadro 1: Tamaño de muestra para los hombres por fuentes de rentas según

tramos de edad. Fuentes de Rentas

Independiente Tramos de Edad Total

Única renta dependiente Independiente

Multirenta dependiente /Dependiente

Total 35.079 12.881 5.750 13.275 3.173 Menor de 25 3.638 1.949 293 1.218 178

25 – 34 6.174 2.220 1.050 2.206 698 35 – 44 8.605 2.639 1.423 3.770 773 45 - 54 7.603 2.522 1.293 3.035 753 55 o + 9.059 3.551 1.691 3.046 771

Fuente: Dirección General de Impositiva Cuadro 2: Tamaño de muestra para las mujeres por fuentes de rentas según

tramos de edad. Fuentes de Rentas

Independiente Tramos de Edad Total

Única renta dependiente Independiente

Multirenta dependiente /Dependiente

Total 26.732 10.764 5.216 7.955 2.797 Menor de 25 3.382 1.691 275 1.216 200

25 – 34 5.355 2.135 1.050 1.514 656 35 – 44 6.244 2.371 1.236 1.933 704 45 - 54 5.775 2.207 1.298 1.646 624 55 o + 5.976 2.360 1.357 1.646 613

Fuente: Dirección General de Impositiva

1.3 Ponderadores calibrados Dada la posibilidad de conocer los valores que toman todas las variables de interés para todos los individuos de la población, se utilizaron ponderadores calibrados2, los cuales permiten obtener estimadores de mayor precisión.

2 Ver Anexo 1

Page 7: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

7

Los ponderadores calibrados se obtienen de modificar los ponderadores provenientes del diseño muestral, en base a la información auxiliar disponible. Dichos ponderadores estiman sin error los totales de las variables auxiliares utilizadas para su cálculo, es decir, las estimaciones coinciden con los totales poblaciones de las variables utilizadas para su cálculo. En este caso, las variables auxiliares coinciden con las variables de interés. Las variables auxiliares utilizadas para el cálculo de los ponderadores calibrados son:

- Total de ingresos percibidos en el año. - Total de deducciones. - Total del impuesto devengado.

A su vez, se definieron cuatro subpoblaciones (mutuamente excluyentes) para los totales de las variables anteriores, denominados grupos de calibración3, los cuales se encuentran definidos por el tipo de fuentes de rentas de los individuos:

- única renta independiente

- multirenta dependiente - independiente - independiente/dependiente El sistema de ponderadores calibrados obtenidos estima sin error4 el total de ingresos, deducciones e IRPF según las fuentes de rentas. A modo de ejemplo, en el siguiente gráfico se presenta la modificación de los ponderadores provenientes del diseño muestral (ponderadores originales) y los calibrados. Grafico1: Ponderadores calibrados respecto a los ponderadores originales

3 Estevao, V.; Särndal C. (2004) “Borrowing Strength Is Not the Best Technique Within a Wide Class of Design – Consistent Domain Estimators”. Journal of Official Statistics, Vol 20, No 4. 4 Es decir las estimaciones coinciden con la base de IRPF (Categoría II) – Opción Personal.

Page 8: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

8

Los sorteos de las muestras y el cálculo de los ponderadores calibrados de las mismas se llevan a cabo en el software libre R5 utilizando los paquetes Sampling6 y Survey7 respectivamente.

2. Diseño muestral IRPF (Categoría II) – Opción Núcleo Familiar 2.1 Marco Muestral El marco muestral corresponde a la base de IRPF – Categoría II Opción Núcleo Familiar correspondiente al año 2009. El tamaño del mismo es de 8.758 núcleos familiares declarados ante la DGI. La información contenida en el marco corresponde a datos demográficos de los integrantes del núcleo (sexo y edad), total de ingresos percibidos y total de deducciones por integrante, y monto devengado del impuesto.

2.2 Diseño El diseño es aleatorio estratificado con asignación proporcional. Los estratos del diseño son conformados en base a las edades de los integrantes que componen el núcleo familiar. Entonces, los estratos reconocen dos dimensiones:

- La edad del retenido. - La edad del cónyuge.

En base a lo anterior se construyeron nueve estratos, los cuales se conforman al utilizar tres tramos etáreos, menor de 35 años, entre 35 y 49 años y más de 50 años. Al igual que en los diseños anteriores, dicha estratificación no sigue ningún criterio de optimización. En cada uno de los estratos del diseño se seleccionó una muestra independiente bajo un muestreo aleatorio simple. El tamaño de muestra total es de 3.016 núcleos familiares. Cuadro 3: Tamaño de muestra por tramo de edad del cónyuge, según tramo de edad del retenido

Tramo de edad cónyuge Tramo de edad retenido Menor de 35 años 35 - 49 años 50 o más años

Menor de 35 años 378 54 17 35 - 49 años 733 596 85 50 o más años 553 129 471

Fuente: Dirección General de Impositiva

5 R Development Core Team (2009). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org. 6 Yves Tillé and Alina Matei (2009). sampling: Survey Sampling. R Packaged version 2.2. 7 T. Lumley (2009) "survey: analysis of complex survey samples". R package version 3.16.

Page 9: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

9

2.3 Ponderadores calibrados Al igual que para la muestra de de IRPF (Categoría II) – Opción Personal se utilizaron ponderadores calibrados, las variables auxiliares utilizadas son:

- Total de ingresos percibidos por el retenido y el cónyuge. - Total de deducciones del retenido y el cónyuge. - Total del impuesto devengado del núcleo familiar. - Tamaño de los estratos del diseño muestral.

Para este caso, no se utilizaron grupos de calibración debido a que el tamaño de muestra es pequeño respecto a la muestra de IRPF (categoría II) –opción personal, debido a que los ponderadores calibrados se alejaban considerablemente de los ponderadores provenientes del diseño muestral. Los ponderadores calibrados estiman sin error el total de ingresos y total de deducciones para los retenidos y los cónyuges, total de IRPF y la estructura de edades de los núcleos familiares respetando los tramos etáreos del cuadro 3.

3. Diseño muestral IASS 3.1 Marco Muestral El marco muestral corresponde a la base de datos de IASS del 2009. El tamaño del mismo es de 642.492 personas, que según las bases de datos de la DGI perciben rentas comprendidas en este impuesto. Las variables auxiliares contenidas en el marco corresponde a datos demográficos del informante (sexo y edad), el tipo de caja al que aporta, total de ingresos percibidos en el año y monto devengado del impuesto.

3.2 Diseño Al igual que en las muestras anteriores, el diseño muestral implementado es aleatorio y estratificado. Los estratos del diseño reconocen tres dimensiones:

- El sexo del individuo. - Tipo de Caja a la cual aporta el individuo: BPS, “demás cajas” (comprende a Caja

Militar, Caja Policial, Caja Bancaria, Caja de Profesionales) y “varias cajas” (si el individuo aporta a más de una caja).

Page 10: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

10

- Si el individuo es o no perceptor de pensión por fallecimiento de los padres (hasta los 21 años).

Teniendo en cuenta la interacción de las tres variables anteriormente descritas, se conformaron doce estratos. En cada uno de los mismos se selecciona de forma independiente una muestra aleatoria simple sin reposición. El tamaño de muestra total se definió teniendo como punto de partida la tasa de muestreo fijada para la muestra de IRPF - Categoría II Opción Personal, bajo los requisitos anteriormente descritos. El tamaño de muestra por estrato se asignó de manera proporcional, dado que estos estratos no presentan estructuras muy diferenciadas en las variables de interés, ajustando posteriormente en aquellos estratos en donde el tamaño de muestra no era lo suficientemente grande (utilizando la asignación proporcional). El tamaño de muestra es de 45.098 casos.

Cuadro 4: Tamaño de muestra por sexo y pensión según tipo de caja. Hombres Mujeres

Pensión por fallecimiento Pensión por fallecimiento Tipo de Caja Total SI NO SI NO

Total 45.098 901 16.888 702 26.607 BPS 38.926 741 13.699 542 23.944

Demás Cajas 3.592 40 2.440 40 1.072 Varias Cajas 2.580 120 749 120 1.591

Fuente: Dirección General de Impositiva

3.3 Ponderadores calibrados Las variables auxiliares utilizadas para la calibración son:

- Total de ingresos percibidos en el año. - Total del impuesto devengado.

- Si el monto devengado del impuesto de IASS es mayor que cero.

A su vez, dichas variables auxiliares se definieron para tres subpoblaciones (grupos de calibración) definidas por el tipo de caja. Entonces, el sistema de ponderadores obtenido estima sin error el total de ingresos, monto devengado del impuesto y el número de contribuyentes según el tipo de caja (BPS, Demás Cajas y Varias Cajas).

Page 11: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

11

Anexo 1. Conceptos básicos y calibración. En este anexo se presentan conceptos básicos de estimación en poblaciones finitas, el tipo de muestreo implementado en este documento. Luego se describe brevemente el método de estimación calibrada en general. Sea NkU ,...,,...,1 la población objeto de estudio, la cual tiene N elementos. De la población U se toma una muestra probabilística s , de tamaño sn , según un diseño cualquiera (.)p . El individuo k es incluido en la muestra con una probabilidad

0 skPk (diseño aleatorio). El inverso de la probabilidad de inclusión kka /1 es el ponderador muestral o ponderador del diseño del individuo k . Los individuos k y l son incluidos en la muestra con probabilidad 0y lkPkl (diseño medible) y sea

klkla /1 . La variable de interés se denota como y , y ky el valor que toma en el individuo k . En muestreo de poblaciones finitas, el objetivo es estimar el total de la variable de interés

Uk

kyt , o su media poblacional NyyUk

kU /

.

Bajo un diseño aleatorio, el estimador Horvitz-Thompson ( HTt̂ ) es insesgado para estimar

Uk

kyt y viene dado por

ksk

kHT yat

ˆ . (1)

Su varianza viene dada como

Uk Ul

lkkllkHT yyaaatV 1/)ˆ( . (2)

Un estimador insesgado de la misma es

sk sl

lkkllkHT yyaaatV )ˆ(ˆ . (3)

Bajo un diseño simple de tamaño n de una población de N individuos, el ponderador muestral es nNak / y )1(/)1( nnNNakl . El estimador Horvitz-Thompson es

sksk

kHT yNyat

ˆ , (4)

donde

sk

ks yny 1 es la media muestral de la variable y .

La varianza definida en (2) y el estimador de la misma en (3) toman la forma

122 )1()ˆ( nSfNtVUyHT , (5)

Page 12: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

12

122 )1()ˆ(ˆ nSfNtVSyHT , (6)

donde Nnf / es la tasa de muestreo,

Uk

Uky yyNSU

212 )()1( y

sk

sky yynSS

212 )()1( son la varianza poblacional y muestral respectivamente de la

variable y . La eficiencia del estimador Horvitz-Thompson recae en la elección de las probabilidades de inclusión que dan lugar a los ponderadores ka y los cuales deben contemplar en lo posible los valores que toman los individuos en las variables de interés. Dentro de está línea, los diseños estratificados permite probabilidades de inclusión diferentes (entre otras propiedades). La población U , se particiona en Hh UUU ,...,,...,1 , subpoblaciones llamadas estratos, donde hN es el tamaño del estrato h y

hUk

kh yt es el total de la variable y en el estrato

h . Entonces, se tiene que

H

hhNN

1 y

H

hhtt

1.

Dentro de cada estrato hU se selecciona una muestra aleatoria de forma independiente

hs , de tamaño hsn , bajo un diseño (.)hp . Entonces, el estimador Horvitz-Thompson para

el total de la variable y , es la suma de los estimadores poblacionales por estrato

H

h Skkk

H

hHTHT

h

hyatt

11

ˆˆ . (7)

La varianza del estimador viene dada por

H

h Uk Ullkkllk

H

hHTHT

h h

hyyaaatVtV

11

1/)ˆ(ˆ . (8)

De la misma forma, un estimador insesgado de la varianza es

H

h sk sllkkllk

H

hHTHT

h h

hyyaaatVtV

11

)ˆ(ˆˆˆ . (9)

El muestreo estratificado simple, consiste en seleccionar una muestra para cada estrato de tamaño hn bajo un diseño simple, luego el estimador Horvitz-Thompson viene dado como

hh S

H

hh

H

hHTHT yNtt

11

ˆˆ , (10)

donde

h

hsk

khS yny 1 es la media muestral en el estrato h .

Page 13: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

13

La varianza del estimador de la ecuación (8) toma la forma

H

hhyhh

H

hHTHT nSfNtVtV

Uhh1

122

1)1()ˆ(ˆ , (11)

donde

h

UhUk

Uhkhy yyNS 212 )()1( es la varianza poblacional del estrato h y hhh nNf /

es la tasa de muestreo en el estrato h . Finalmente, el estimador de la varianza de la ecuación (9) es

H

hhyhh

H

hHTHT nSfNtVtV

Shh1

122

1)1()ˆ(ˆˆˆ , (12)

donde

h

hShsk

Skhy yynS 212 )()1( es la varianza muestral en el estrato h .

Calibración Los estimadores calibrados tienen un rol preponderante en la estimación basada en el diseño. Los mismos bajo ciertas condiciones, permiten obtener estimadores de mayor precisión. El requisito fundamental es disponer de información auxiliar potente, es decir que, se encuentre correlacionada con las variables de interés, en donde los totales de las mismas son conocidos a nivel de la población. El objetivo es encontrar un nuevo sistema de ponderadores (ponderadores calibrados) que sea congruente con la información auxiliar, dicho sistema de ponderadores estima sin error los totales de las variables auxiliares utilizadas para su construcción. Lo anterior es una propiedad deseable, debido a que brinda coherencia a las estimaciones. Para estimar el total de la variable de interés y ,

Uk

kyt se cuenta con xt el vector de

totales poblacionales de las variables auxiliares. El estimador calibrado viene dado como

sk

kkcal ywt̂ , (13)

donde kw es el ponderador calibrado del individuo k perteneciente a la muestra s y depende de la información auxiliar utilizada y cumplen con

sk Uk

xkkkw txx , (14)

llamada ecuación de calibración, donde x es el vector de información auxiliar de dimensión J y kx el valor que toma x para el individuo k. Existen dos enfoques comúnmente utilizados para construir el nuevo sistema de ponderadores que cumplan con la ecuación (14): i) El de la minimización de la distancia8 y 8 Deville, J.C. y Särndal, C.E. (1992). Calibration Estimators in Survey Sampling. Journal of the American Statical Association 87, 376-382.

Page 14: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

14

(ii) el enfoque funcional9 (método optado en este trabajo). En ambos casos la expresión final del estimador es la misma aunque con distintos sistemas de ponderadores y por ende con distintas propiedades. Bajo el enfoque funcional, los ponderadores calibrados son definidos como

)'1( kkk aw zλ , (15)

donde hhk nNa / es el ponderador del diseño para el individuo k perteneciente al estrato h (bajo el diseño implementado en esté trabajo), kz es un vector instrumental (vector de instrumentos) con valores definidos para todos los individuos de la muestra y tiene la misma dimensión que el vector de información auxiliar kx y el vector λ es determinado utilizando las ecuaciones de calibración

sk Uk

xkkkw txx .

El estimador calibrado queda definido como

sk

kkksk

kkcal yaywt )'1(ˆ z ,

donde

1

''ˆ'

skkkkxHTx a xzttλ ,

y '

1111

'

1 ,...,,...,,...,,...,ˆ

H

hJhh

H

hjhh

H

hhh

sk skJkkjkk

skkkxHT xNxNxNxaxaxat ,

es el estimador Horvitz – Thompson bajo un muestreo estratificado simple para

Uk

kx xt , donde jhx es la media muestral en el estrato h para la j-ésima variable auxiliar.

El estimador calibrado puede escribirse como el estimador Horvitz – Thompson más un término de ajuste

Rtt ˆˆˆˆ xHTxHTcal tt ,

donde

skkkk

skkkk yaa zxzR

1'ˆ .

El estimador calibrado es aproximadamente insesgado, dado que el primer término corresponde al estimador Horvitz – Thompson el cual es insesgado para t y el segundo término (no lineal) es aproximadamente insesgado de cero.

9 Estevao.M. y Särndal. C (2000). A functional form approach to calibration. Journal of Oficial Statistics 16, 379-399.

Page 15: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

15

Dada la no linealidad del estimador calibrado, la aproximación de la varianza del mismo bajo los diseños muestrales implementados en este trabajo viene dada por

12

1

2 1ˆ

hEh

H

hhcal nSfNtAV

h, (16)

donde

h

hhUk

UkhE EENS 212 1 es la varianza poblacional en el estrato h de los

residuos poblacionales Rx kkk yE ' , donde

Ukkk

Ukkk yzxzR

1

y

h

hUk

khU ENE 1

es la media poblacional de los residuos en el estrato h . Un estimador de la varianza del estimador calibrado viene dado por

12

1

2 1)ˆ(ˆ

heh

H

hhcal nSfNtV

h, (17)

donde

h

hhsk

Skhe eenS 212 1 es la varianza muestral en el estrato h de los residuos

muestrales Rx ˆ'kkk ye ,

h

hSk

khS ene 1 es la media muestral de los residuos en el estrato

h . La eficiencia de los estimadores calibrados para la estimación en subconjuntos población (dominios) depende del nivel de desagregación de la información auxiliar utilizada en la ecuación de calibración, lo que permite un abanico amplio de formas de calibrar. Los ponderadores calibrados estiman sin error los totales de las variables auxiliares de los denominados grupos de calibración (subconjuntos de la población que pueden coincidir o no con el dominio de interés). Dado que un único sistema de ponderadores es utilizado para brindar estimaciones de todas las variables de interés así como para todos los subconjuntos que el investigador desee estudiar, la información auxiliar contenida en la ecuación de calibración debe estar desagregada lo mayor posible, siempre y cuando esto no signifique modificar demasiado los ponderadores originales. Entonces, la población U , es particionada en I grupos de calibración, denotados como

),...,1(, IiUiC , en donde el dominio de interés, puede: (i) coincidir con un grupo de

calibración, (ii) estar incluido en un único grupo de calibración o (iii) intersectar varios de ellos. Se define

iC la variable indicadora de pertenencia a la i -ésimo grupo de calibración y 1

ikC si el individuo k pertenece a iCU y 0 en otro caso.

Teniendo en cuenta lo definido anteriormente, el vector de información auxiliar utilizado para la calibración tiene dimensión JI y viene dado como

kkCkkCkkCk Iixxxx ,....,,...,

10

Page 16: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

16

y el vector de totales poblacionales es

1

,....,,....,0C iC ICUk Uk Uk

kkkx xxxt .

Para el cálculo de los ponderadores calibrados en esté trabajo el vector de instrumentos

kz se definió igual que el vector de información auxiliar k0x , lo cual coincide con el estimador de regresión asumiendo homoscedasticidad. Entonces, el ponderador calibrado para el individuo k es

k

skkkkxHTxkk aaw 0

1

0000ˆ1 xxxtt .

La varianza aproximada del estimador así como un estimador de la varianza se obtiene de reemplazar el vector de información auxiliar kx y el vector de instrumentos kz por el vector k0x en las ecuaciones (16) y (17) respectivamente.

Page 17: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

17

Anexo 2 Nota para los usuarios Los errores muestrales ocurren debido a que las inferencias acerca de la población son basadas en información obtenida de una muestra de la misma. El diseño muestral, la variabilidad de los datos y el tamaño de muestra efectivo determinan el error muestral. Adicionalmente, diferentes métodos de estimaciones conllevan a diferentes errores muestrales dado el diseño muestral implementado. El estimador de la varianza de la ecuación (17) requiere para su cálculo conocer los residuos muestrales Rx ˆ'kkk ye , así como las tasas de muestreo en los estratos. Aquellos que estén interesados en anexar a sus estimaciones una medida de precisión no podrán utilizar el estimador de la varianza anterior. Una expresión aproximada para la varianza del estimador del total

Uk

kyt puede

calcularse como

21

1 ˆ1ˆˆ

hsk

hhkk

H

hhhcal tnwynntV , (18)

donde

hsk

kkh ywt̂ .

La razón entre dos variables y , z , se define como

Ukk

Ukk yzR

1

y el estimador

calibrado de la misma es

skkk

skkkcal ywzwR

1

ˆ .

Una aproximación de la varianza del estimador se calcula como

21

12

ˆ1ˆˆ

hskrhhkk

H

hhh

skkkcal tnwrnnzwRV , (19)

donde kcalkk zRyr ˆ y

hsk

kkrh rwt̂ .

Finalmente, para la estimación del total de la variable y para un subconjunto de la población, se obtiene de reemplazar la variable y , por dy , la cual vale ky si el individuo k pertenece al subconjunto de interés y 0 en otro caso. Software como el R (Survey <svydesign> ), el SPSS (modulo de muestras complejas) o el Stata <svyset>, utilizan las ecuaciones (18) y (19) para calcular varianzas, indicando un diseño estratificado con reposición (ver diccionario de variables) con ponderadores kw (ver diccionario de variable).

Page 18: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

18

Anexo 3 Diccionario de variables

Muestra IRPF Categoría II - Personas Físicas Categorías Descripción de las

variables Nombre de la variable Código Descripción

Identificador Id Estrato del diseño muestral st Ponderador Ponderador

1 Única renta dependiente 2 Multirenta dependiente 3 Independiente

Fuentes de rentas Fuentes

4 Independiente/Dependiente Total de ingresos percibidos por el trabajador en el año

Ingresos $

Total de deducciones del trabajador en el año deduc $ Impuesto sobre la Renta de las Personas Físicas

IRPF $

Cantidad de empleos en relación de dependencia

nempleo N°

Actividad económica principal de la empresa

giro1

www.dgi.gub.uy - Información de uso frecuente - De interés para el Contribuyente

Actividad económica principal de la empresa

giro2

www.dgi.gub.uy - Información de uso frecuente - De interés para el Contribuyente

Actividad económica principal de la empresa

giro3

www.dgi.gub.uy - Información de uso frecuente - De interés para el Contribuyente

Actividad económica principal de la empresa

giro4

www.dgi.gub.uy - Información de uso frecuente - De interés para el Contribuyente

Actividad económica principal de la empresa

giro5

www.dgi.gub.uy - Información de uso frecuente - De interés para el Contribuyente

Actividad económica principal de la empresa

giro6

www.dgi.gub.uy - Información de uso frecuente - De interés para el Contribuyente

Edad edad Años 1 Hombre Sexo sexo 2 Mujer

Page 19: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

19

Muestra IRPF Categoría II - Núcleo Familiar

Categorías Descripción de las variables Nombre de la variable Código Descripción

Identificador del retenido Id_r Identificador del conyuge Id_c Estrato del diseño muestral st

Ponderador ponderador Total de ingresos percibidos en el año por el retenido

ingresos_r $

Total de ingresos percibidos en el año por el cónyuge

ingresos_c $

Total de deducciones del retenido en el año deduc_r $

Total de deducciones del cónyuge en el año deduc_r $

Impuesto sobre la Renta de las Personas Físicas IRPF_nf $

1 Hombre Sexo del retenido sexo_r

2 Mujer Edad del retenido edad_r Años

1 Hombre Sexo del cónyuge sexo_c

2 Mujer Edad del cónyuge edad_c Años

Page 20: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

20

Muestra IASS Categorías Descripción de las

variables Nombre de la variable Código Descripción

Identificador id Estrato del diseño muestral

st

Ponderador ponderador BPS

DEMAS CAJAS Tipo de caja caja VARIAS CAJAS

Total de Ingresos percibidos en el año ingresos

$

Impuesto de Asistencia a la Seguridad Social (IASS)

iass $

Edad edad Años 1 Hombre

Sexo sexo

2 Mujer

Page 21: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

21

Bibliografía Deville, J.C. y Särndal, C.E. (1992). Calibration Estimators in Survey Sampling. Journal of the American Statical Association 87, 376-382. Estevao, Victor M.; Särndal C.E (2004) “Borrowing Strength Is Not the Best Technique Within a Wide Class of Design – Consistent Domain Estimators”. Journal of Official Statistics, Vol 20, No 4. Estevao.M. y Särndal. C (2000). A functional form approach to calibration. Journal of Oficial Statistics 16, 379-399. Fuller, Wayne A. (2009). Sampling Statistics. John Wiley & Sons. Lumley, T. (2004) Analysis of complex survey samples. Journal of Statistical Software 9(1): 1- 19. Lumley, T. (2009) "Survey: analysis of complex survey samples". R packaged version 3.11-2. Särndal, C.E.; Swensson, B.; Wretman, J. (1992). Model Assisted Survey Sampling. New York: Springer-Verlag.

Page 22: Diseños muestrales Impuestos IRPF (Categoría II) e IASS

22