5. elementos de muestreo e intervalos de confianza - j. fierro (1)

10
1 Elementos de Muestreo e Intervalos de Confianza 1 El presente documento de trabajo tiene por objeto enfatizar, de un modo sencillo, algunos de los contenidos analizados en clases en relación con teoría de muestras e intervalos de confianza. Se recomienda profundizar cada uno de los aspectos aquí abordados con la bibliografía indicada como obligatoria para el curso, según se ha indicado en el programa. Por tratarse de un texto preliminar, mucho de lo que aquí se expone está sujeto a futuras correcciones y actualizaciones, constituyendo el primero de una serie de apuntes que serán entregados en el transcurso del semestre académico. 1. Diseño de la Muestra 1.1. Estadística descriptiva versus estadística inferencial En estadística se suele hacer referencia a la distinción entre estadística descriptiva y estadística inferencial, en donde esta última constituye la base para el diseño de muestras estadísticamente representativas. La estadística inferencial se encuentra en estrecha relación con la Teoría de la Decisión (prueba de hipótesis) y la Teoría de la Estimación (generalización de los resultados). A diferencia de la estadística descriptiva, en la estadística inferencial sí es posible generalizar los resultados desde la muestra hacia el universo de referencia, dentro de ciertos márgenes de error. Para que ello pueda ser llevado a cabo, las muestras deben ser estadísticamente representativas. Es decir, la muestra debe ser determinada mediante un procedimiento “probabilístico” que garantice a todos los individuos/observaciones del universo (o del marco muestral) la misma probabilidad de ser elegidos (selección aleatoria). Una muestra es considerada como estadísticamente representativa en la medida de que i) el procedimiento de selección de los casos ha sido realizado de modo aleatorio y, a su vez, ii) los parámetros de las variables en la muestra (medias, frecuencias o proporciones) son análogos al del universo de referencia. Para garantizar lo primero necesitamos profundizar un poco más sobre los diferentes tipos de muestreo existentes (ver a continuación punto 1.3). Lo segundo, en tanto, requiere más bien de la utilización de ciertas “variables marcadoras”, usualmente socio -demográficas (por ejemplo: sexo, edad y educación). Cuando se constatan diferencias entre los parámetros de la muestra y los del universo de referencia (en términos de las variables marcadoras), lo que corresponde llevar a cabo es un proceso de “ponderación”, de modo de evitar la sub- representación o la sobre-representación de ciertas categorías o grupos sociales. Por otra parte, dentro del análisis estadístico de datos se hace alusión al análisis descriptivoen términos de medidas de tendencia central (media, mediana y moda), de posición (cuartiles, quintiles, deciles, percentiles), de dispersión (desviación estándar, varianza) y tablas de frecuencias. No obstante ello, el análisis estadístico descriptivo puede llevarse a cabo tanto en muestras que son estadísticamente representativas como en aquellas que no lo son. Simplemente corresponde a una modalidad de analizar los datos, generalmente de modo univariado (y bivariado cuando se realizan tablas de contingencia). 1 Jaime Fierro, Ph.D. en Ciencia Política de la Universidad de Essex, Inglaterra. Actualizado al segundo semestre de 2010.

Upload: maria-constanza-saravia-bastias

Post on 23-Oct-2015

13 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 5. Elementos de Muestreo e Intervalos de Confianza - J. Fierro (1)

1

Elementos de Muestreo e Intervalos de Confianza1

El presente documento de trabajo tiene por objeto enfatizar, de un modo sencillo,

algunos de los contenidos analizados en clases en relación con teoría de muestras e

intervalos de confianza. Se recomienda profundizar cada uno de los aspectos aquí

abordados con la bibliografía indicada como obligatoria para el curso, según se ha

indicado en el programa. Por tratarse de un texto preliminar, mucho de lo que aquí se

expone está sujeto a futuras correcciones y actualizaciones, constituyendo el primero de

una serie de apuntes que serán entregados en el transcurso del semestre académico.

1. Diseño de la Muestra

1.1. Estadística descriptiva versus estadística inferencial

En estadística se suele hacer referencia a la distinción entre estadística descriptiva y

estadística inferencial, en donde esta última constituye la base para el diseño de

muestras estadísticamente representativas. La estadística inferencial se encuentra en

estrecha relación con la Teoría de la Decisión (prueba de hipótesis) y la Teoría de la

Estimación (generalización de los resultados). A diferencia de la estadística descriptiva,

en la estadística inferencial sí es posible generalizar los resultados desde la muestra

hacia el universo de referencia, dentro de ciertos márgenes de error. Para que ello pueda

ser llevado a cabo, las muestras deben ser estadísticamente representativas. Es decir, la

muestra debe ser determinada mediante un procedimiento “probabilístico” que garantice

a todos los individuos/observaciones del universo (o del marco muestral) la misma

probabilidad de ser elegidos (selección aleatoria).

Una muestra es considerada como estadísticamente representativa en la medida de que

i) el procedimiento de selección de los casos ha sido realizado de modo aleatorio y, a su

vez, ii) los parámetros de las variables en la muestra (medias, frecuencias o

proporciones) son análogos al del universo de referencia. Para garantizar lo primero

necesitamos profundizar un poco más sobre los diferentes tipos de muestreo existentes

(ver a continuación punto 1.3). Lo segundo, en tanto, requiere más bien de la utilización

de ciertas “variables marcadoras”, usualmente socio-demográficas (por ejemplo: sexo,

edad y educación). Cuando se constatan diferencias entre los parámetros de la muestra y

los del universo de referencia (en términos de las variables marcadoras), lo que

corresponde llevar a cabo es un proceso de “ponderación”, de modo de evitar la sub-

representación o la sobre-representación de ciertas categorías o grupos sociales.

Por otra parte, dentro del análisis estadístico de datos se hace alusión al “análisis

descriptivo” en términos de medidas de tendencia central (media, mediana y moda), de

posición (cuartiles, quintiles, deciles, percentiles), de dispersión (desviación estándar,

varianza) y tablas de frecuencias. No obstante ello, el análisis estadístico descriptivo

puede llevarse a cabo tanto en muestras que son estadísticamente representativas como

en aquellas que no lo son. Simplemente corresponde a una modalidad de analizar los

datos, generalmente de modo univariado (y bivariado cuando se realizan tablas de

contingencia).

1 Jaime Fierro, Ph.D. en Ciencia Política de la Universidad de Essex, Inglaterra. Actualizado al segundo

semestre de 2010.

Page 2: 5. Elementos de Muestreo e Intervalos de Confianza - J. Fierro (1)

2

1.2. Universo, marco muestral y muestra

El universo de referencia (población) corresponde al total de elementos de elementos a

partir del cual se levanta la información. La muestra, por su parte, constituye una

selección aleatoria de casos con el fin de caracterizar el conjunto de la población

(inferencia estadística).

Para extraer la muestra es necesario determinar un marco muestral (registro electrónico

o en papel), el cual no siempre existe o se ajusta adecuadamente al universo de

referencia. Cuando las diferencias entre el marco muestral y el universo son

importantes, se sugiere redefinir el universo de referencia. Y en el caso de no disponer

de un marco muestral, simplemente no es posible extraer una muestra estadísticamente

significativa.

En dicho proceso es necesario determinar la unidad de muestreo, la cual corresponde al

elemento o conjunto de elementos que se seleccionan en cada etapa del muestreo (por

ejemplo: comunas, manzanas y viviendas). En un diseño de una etapa coincide la

unidad de muestreo con el elemento. Sin embargo, lo usual es que exista más de una

etapa (muestreos polietápicos) y, por ende, estos coincidirán únicamente en la etapa

final (la unidad de muestreo con el elemento).

Por otra parte, insistir en el hecho de que existen potencialmente tantos universos de

referencia como unidades de análisis sean definidas. A su vez, si bien el universo

contiene a la unidad de análisis (unidad de estudio), la unidad de análisis no siempre se

corresponde con la unidad de observación (unidad de información). Este sería el caso,

por ejemplo, cuando un investigador está interesado en conocer acerca de ciertas

dinámicas o procesos que se dan al interior de la familia o de los partidos políticos.

Tanto la familia como los partidos políticos corresponden a la unidad análisis o de

estudio, cierto, pero uno no aplica una entrevista o una encuesta a una familia o a un

partido. Lo hacemos respecto de los individuos, ya sean estos miembros de una familia

o miembros del partido. Son ellos los que nos estregarán información relevante respecto

de la familia y del partido respectivamente. Es decir, constituyen las unidades de

observación, o lo que es lo mismo, las unidades de información.

1.3. Tipos de muestreo

1.3.1. Muestreos probabilísticos

En un muestreo probabilístico se intenta inferir desde la muestra hacia el universo de

referencia (o población), basado en la Teoría de Estimación. Todos los elementos tienen

una probabilidad conocida de ser elegidos, la cual varía entre 0 y 1. Si los elementos son

seleccionados sobre la base de una misma probabilidad de ser elegidos, entonces

tenemos una muestra auto-ponderada. En cambio, si el investigador decide a priori, por

ejemplo, seleccionar más individuos con determinadas características de los que

hubiesen sido inicialmente seleccionados, de acuerdo con su distribución de

probabilidad en la población, con el objeto de sobre-representar un grupo o una

categoría social. En tal caso, dicha muestra necesitará ser posteriormente ponderada.

Igual situación ocurriría cuando de un modo no intencional, en las llamadas variables

marcadoras, se producen diferencias en la distribución de las variables respecto del

universo de referencia (habría que ponderar).

Page 3: 5. Elementos de Muestreo e Intervalos de Confianza - J. Fierro (1)

3

Muestreo aleatorio simple (MAS)

MAS sin salto sistemático: los elementos son seleccionados directamente al azar a partir

de un registro del universo de referencia (marco muestral) que es usualmente

electrónico. La unidad de muestreo se corresponde con la unidad de observación. Se

trata también, de un muestreo auto-ponderado.

MAS con salto sistemático: a diferencia del anterior, los elementos son seleccionados a

partir de una fracción muestral (que es igual a: N/n) y de un punto de arranque (que

corresponde a un número sorteado al azar entre 0 y la fracción muestral). Luego de

seleccionado el primer caso, a partir del punto de arranque, se selecciona el segundo

caso simplemente sumando al punto de arranque la fracción muestral y así

sucesivamente (salto sistemático). Generalmente se utiliza cuando no se posee un

registro electrónico del marco muestral y se debe trabajar sobre algún tipo de registro

impreso.

Muestreo estratificado (ME)

Un estrato corresponde a un subconjunto de elementos de la muestra (n), cuya

característica fundamental es un cierto grado de homogeneidad respecto de la variable

de estratificación. Es decir, la varianza al interior de cada estrato debiera ser menor que

la varianza entre los estratos.

Es importante tener presente las características de la variable de estratificación porque

de ella depender los estratos que se generen. Así, por ejemplo, dentro de una

Universidad podemos estar interesados en conocer las percepciones de los distintos

estamentos en torno a los principales desafíos que enfrenta la institución. En este caso

cada estrato correspondería a un estamento, es decir, estudiantes, profesores,

administrativos y funcionarios. Sin embargo, si deseamos conocer el grado de

satisfacción con la educación recibida por los estudiantes, los estratos bien podrían

corresponder a las Facultades. Y, una vez calculada la muestra, habría que distribuir los

casos por facultades. Esto se puede realizar mediante tres procedimientos distintos.

ME con afijación igual: se divide la muestra por el total de estratos, correspondiendo a

cada estrato el mismo número de casos. Luego, para corregir la sub-representación o

sobre-representación de los estratos, hay que proceder a su ponderación en función del

peso de cada estrato.

ME con afijación proporcional: la muestra se asigna proporcionalmente al tamaño de

cada estrato (peso del estrato). La proporción de cada estrato se calcula dividiendo el

tamaño del estrato por el “N” total (Universo de referencia). Dicha proporción se

multiplica luego por el tamaño del “n” de la muestra. En este caso, la muestra resulta

auto-ponderada.

ME con afijación con afijación óptima: la muestra es asignada a cada estrato en función

del grado de homogeneidad o heterogeneidad de estos (varianza). Entre más

homogéneos los estratos, menos observaciones serán necesarias. En este tipo de

muestreo, también hay que realizar un proceso posterior de ponderación (según el peso

de cada estrato). Es decir, los “n” casos de la muestra son asignados tomando en

consideración el (i) peso y la (ii) varianza de cada estrato respecto de la varianza total.

Page 4: 5. Elementos de Muestreo e Intervalos de Confianza - J. Fierro (1)

4

Muestreo por conglomerados (MC)

A diferencia los estratos, los elementos que componen los conglomerados son muy

heterogéneos al interior de cada conglomerado y muy homogéneos entre ellos. Y puesto

que los conglomerados son muy parecidos entre sí es que resulta posible seleccionar

algunos conglomerados. Cuestión que jamás podríamos hacer en un ME. Y al igual que

en el caso del ME, necesitamos estar muy claros respecto de si nuestra variable central

del estudio configura conglomerados o no.

El muestreo por conglomerado bien pudiera ser auto-ponderado, pero por lo generar no

lo es. Usualmente también, los muestreos por conglomerados son polietápicos, por lo

cual hay varios pasos previos antes de seleccionar a la unidad de análisis u observación,

es decir, habría varias unidades de muestreo. Por ejemplo, en materia de estudios

opinión pública, tenemos a las comunas, las manzanas, los hogares y, finalmente, a los

individuos (mayores de 18 años). Hay, por lo tanto, cuatro etapas de selección o sub-

muestreo.

Por otra parte, no se requiere un registro que incluya a todos los elementos del universo

de referencia. Solamente de aquellos conglomerados que han sido seleccionados.

Debido a lo anterior, suele ser el más económico que los otros muestreos. Sin embargo,

los muestreos por conglomerado pueden incrementar el error en la medida de que los

elementos que conforman el conglomerado no sean lo suficiente heterogéneos.

1.3.1. Muestreos no probabilísticos

Los muestreos no probabilísticos se caracterizan por el hecho de que los elementos no

son seleccionados de modo aleatorio, introduciendo con ello un sesgo de selección

importante e inevitable. Por tanto, no es posible conocer el error de estimación del

parámetro poblacional en relación al resultado obtenido en la muestra.

Los muestreos no probabilísticos son muy comunes en los diseños de investigación

cualitativa, en donde no es posible generalizar los resultados más allá de los casos

estudiados. Este tipo de investigaciones son usualmente caracterizadas como estudios de

casos. Ejemplos de este tipo de muestreo son los de “sujetos tipo”, “bola de nieve” y

“por cuotas”, entre otros. Siendo este último muy utilizado en el marco de la

investigación cuantitativa. Es una estrategia común en las investigaciones cuantitativas,

con el objeto de abaratar los costos de un estudio, el realizar todas las fases iniciales de

modo probabilístico y la fase final (la de selección, por ejemplo, de los individuos)

mediante un sistema de cuotas. Las cuotas suelen ser fijadas en términos de edad y sexo

en función de su distribución en la población (universo de referencia). Esto significa,

por ejemplo, que se ha calculado un tamaño muestral, luego se han seleccionados

algunas comunas, dentro de esas comunas algunas manzanas, dentro de las manzanas

algunos hogares/viviendas, y dentro de cada hogar/vivienda se aplica una cuota según

sexo y edad. En otras palabras, cada encuestador tiene pre-asignado un número

determinado de encuestas a aplicar, en términos del sexo y la edad, en un determinado

sector (por ejemplo, manzanas). Sin embargo, al seleccionar a la persona a entrevistar

mediante una cuota y no de modo aleatorio, el muestreo deja de ser probabilístico en su

última etapa, introduciendo con ello un sesgo de selección que hace imposible

determinar el error muestral real.

Page 5: 5. Elementos de Muestreo e Intervalos de Confianza - J. Fierro (1)

5

1.5. Determinación del tamaño de la muestra

Como hemos visto hasta ahora, el cálculo del tamaño de la muestra dependerá

ciertamente del tipo de muestreo que deseemos realizar, pero también depende de si se

trata de muestras infinitas o muestras finitas. Hablamos de muestras infinitas toda vez

que el universo de referencia es superior a los 100.000 casos y, de muestras finitas,

cuando este es inferior a 100.000. La idea básica que está en juego aquí, es la noción de

que más allá de cierto punto no tiene sentido seguir aumentando el tamaño de la muestra

en función del tamaño del universo de referencia. En otras palabras, sobre los 100.000

casos el tamaño del universo de referencia no tiene prácticamente ninguna incidencia en

el tamaño de la muestra. Por otra parte, a medida que disminuye el tamaño del universo

de referencia por debajo de los 100.000 casos, este tiende a tener progresivamente un

mayor impacto sobre el tamaño de la muestra.

Cálculo de muestras para poblaciones infinitas en MAS

Para la determinación del cálculo de una muestra infinita necesitamos precisar los

siguientes aspectos: i) la varianza; ii) el error máximo admisible; y el iii) nivel de

confianza.

La varianza da cuenta del grado de homogeneidad o heterogeneidad de un conjunto de

observaciones y se simboliza como S2

. En donde:

n

xxS

2

2)(

Y, en el caso de las proporciones, S2

= P * Q. En la eventualidad de no conocer la

varianza (mediante alguna aproximación de estudios similares o de un pre-test), cosa

bastante común por lo demás, se asume que P = Q = 0.5, de lo cual obtenemos que S2

=

0.25. Dicha varianza corresponde al máximo grado de dispersión, es decir, a la máxima

heterogeneidad. Entre mayor sea la varianza, mayor será también el tamaño de la

muestra.

El error máximo admisible dice relación con el porcentaje de error asociado a la

estimación (ver estimación puntual a continuación en punto 2). Por lo general se trabaja

con errores de +/- 3% (que es el caso, por ejemplo, de las Encuestas Nacionales del

CEP). Sin embargo, en ciertos estudios que buscan enfatizar más bien tendencias

generales antes que la precisión en la estimación, se suele trabajar también con un error

máximo admisible del +/-5%.2 El error máximo admisible no solamente influye en

cálculo del tamaño de la muestra (a mayor error, menor tamaño muestral), sino también

en el cálculo del intervalo de confianza (ver a continuación punto 2).

Finalmente, el nivel de confianza, por su parte, se encuentra asociado al nivel de

significación, el cual, a su vez, se encuentra asociado a las puntuaciones Z en una tabla

de distribución normal. Es ya una convención trabajar, en el cálculo de muestras (y

pruebas de significación), con niveles de confianza del 95% ( = 0.05) y del 95,5% ( =

0.045) respectivamente. A un valor = 0.05, le corresponde un valor Z = +/- 1.96;

2 Véase, por ejemplo, algunos de los estudios realizados por la Fundación Futuro en la Región

Metropolitana.

Page 6: 5. Elementos de Muestreo e Intervalos de Confianza - J. Fierro (1)

6

mientras que a un = 0.045, le corresponde un Z = +/- 2. Y puesto que la curva de

distribución normal es de carácter simétrico, baste con considerar simplemente uno de

sus lados, es decir, Z/2. Por otra parte, no hay que olvidar que cuando trabajamos con

un nivel de confianza del 95% esto significa que si extrajésemos diferentes muestras

sucesivas, existe un 95% de probabilidad real de que el parámetro poblacional del

universo de referencia se encuentre dentro del intervalo de confianza (ver a

continuación punto 2). Dicho de otro modo, existe un 5% de probabilidad de que el

parámetro poblacional no se encuentre dentro del intervalo de confianza. No obstante lo

anterior, la interpretación más correcta sería que: “la extracción de sucesivas muestras

da lugar a que el 95% de los parámetros se encuentren en el intervalo definido.”3

La idea básica que subyace a la noción de intervalos de confianza dice relación con el

hecho de que si trabajásemos con toda la población conoceríamos el valor exacto de los

parámetros poblaciones. Sin embargo, cuando se trabaja con una muestra, solamente

podemos realizar una estimación de dichos parámetros dentro de ciertos niveles de

confianza.

La fórmula general para el cálculo de una muestra infinita es:

n = S2 __

e2 / Z

2/2

En donde:

n = Tamaño de la muestra

S2 = Varianza de la población (que es igual a P * Q en el caso de las proporciones)

Z/2 = Valor Z asociado al nivel de significación (en función del nivel de confianza)

e = Error máximo admisible

Ejemplo: supongamos que queremos calcular una muestra infinita en la cual la varianza

es desconocida,4 el nivel de confianza es del 95% y el error máximo admisible es del +/-

3%. En tal caso el cálculo del tamaño de la muestra sería:

n = 0.25______

(0.03)2 / (1.96)

2

n= 0.25_____

0.0009 / 3.8416

n= 0.25_____ = 1067

0.0002343

Por lo tanto, la muestra total estaría compuesta por 1067 casos.

Ejercicios: sobre la base del ejemplo anterior, calcule el “n” con las siguientes variantes.

Preguntas: P1. e = 5%; P2. Z/2 = 2; P3. S2 = 0.18

Respuestas: R1. n = 384; R2. n = 1111; R3. n = 768

3 Vivanco 2005: 46; Vivanco 2006: 158. 4 En caso de conocer la varianza se asume que P = Q = 0.5 y, por tanto, la varianza es máxima (0.25).

Page 7: 5. Elementos de Muestreo e Intervalos de Confianza - J. Fierro (1)

7

Cálculo de muestras para poblaciones finitas en MAS

Para el cálculo de muestras finitas es necesario introducir un factor de corrección que

considere el tamaño del universo de referencia. La fórmula anterior quedaría entonces

expresada en los siguientes nuevos términos:

n = S2 * N / (N-1)_ _

e2 / Z

2/2 + S

2 / (N-1)

En donde:

n = Tamaño de la muestra

S2 = Varianza de la población (que es igual a P * Q en el caso de las proporciones)

Z/2 = Valor Z asociado al nivel de significación (en función del nivel de confianza)

e = Error máximo admisible

N = Tamaño del universo de referencia

Ejemplo: supongamos que queremos calcular una muestra finita, para un universo de

5000 casos, en donde la varianza es desconocida, el nivel de confianza es del 95% y el

error máximo admisible es del +/-3%. Al reemplazar la fórmula tenemos que:

n = S2 * N / (N-1)_ _

e2 / Z

2/2 + S

2 / (N-1)

n = 0.25 * 5000 / (5000-1)_ _

(0.03)2 / (1.96)

2 + 0.25 / (5000-1)

n = 1250 / 4999_ _

0.0009 / 3.8416 + 0.25 / 4999

n = 0.25005____ _

0.0002343 + 0.0000500

n = 0.25005 = 879.53 880

0.0002843

La muestra total, en este ejemplo, estaría compuesta por 880 casos.

Ejercicios: sobre la base del ejemplo anterior, calcule el “n” con las siguientes variantes.

Preguntas: P1. e = 5%; P2. Z/2 = 2; P3. S2 = 0.21

Respuestas: R1. n = 357; R2. n = 909; R3. n = 760

Page 8: 5. Elementos de Muestreo e Intervalos de Confianza - J. Fierro (1)

8

Cálculo de muestras en ME

La lógica de cálculo es similar al del MAS, con la diferencia que debemos incluir en la

fórmula de calculo a los estratos. Y, a su vez, dependiendo del tipo de ME van a variar

también la modalidad de asignación de los casos a cada estrato.

La fórmula general puede ser expresada en los siguientes términos:

n = WhS2

h ___ ___

e2 / Z

2/2 + WhS

2h / N

En donde:

n = Tamaño de la muestra

Wh = Peso del estrato (n° casos estrato/n° total de casos)

S2

h = Varianza del estrato (que es igual a P * Q en el caso de las proporciones)

Z/2 = Valor Z asociado al nivel de significación (en función del nivel de confianza)

e = Error máximo admisible

N = Tamaño del universo de referencia

Ejemplo: supongamos que queremos calcular una muestra para un universo de 10000

casos en el cual se identifican 3 estratos (E). Cada estrato esta compuesto por: E1= 3000

casos, E2= 2000 casos y E3= 5000 casos. Sus respectivas varianzas son (S2): S

21 = 0.24,

S2

2 = 0.21 y S2

3 = 0.16. El nivel de confianza es de 95,5% y el error máximo admisible

es del +/-3%.

Antes de reemplazar los valores de la fórmula habría que hacer algunos cálculos previos

para determinar WhS2

h :

Estratos Wh WhS2

h WhS2

h

E1 3000/10000 = 0.3 0.3 * 0.24 = 0.072

0.194 E2 2000/10000 = 0.2 0.2 * 0.21 = 0.042

E3 5000/10000 = 0.5 0.5 * 0.16 = 0.080

Conocido WhS2

h = 0.194, estamos en condiciones de proseguir con la fórmula de

cálculo de la muestra:

n = _____ 0.194_ ________

(0.03)2 / (2)

2 + 0.194 / 10000

n = _____ 0.194_ _____

0.0009 / 4 + 0.194 / 10000

n = _____ 0.194_ _____

0.000225 + 0.0000194

n = 0.194_ _= 793.78 794

0.0002444

La muestra total estaría compuesta entonces por 794 casos.

Page 9: 5. Elementos de Muestreo e Intervalos de Confianza - J. Fierro (1)

9

Ejercicios: sobre la base del ejemplo anterior, calcule el “n” con las siguientes variantes.

Preguntas: P1. e = 5%; P2. Z/2 = 1,96; P3. N = 3000

Respuestas: R1. n = 301; R2. n = 765; R3. n = 670

Tipo de afijación

Hasta ahora solamente hemos calculado el tamaño total de la muestra para dicho. Lo

que nos queda es determinar el tipo de afijación a utilizar, para de este modo determinar

cuántos casos de los 846 corresponde a cada estrato.

Afijación igual: simplemente asignamos igual número de casos para cada estrato. Es

decir, 794/3 = 264.6 265 casos.

Afijación proporcional: asignamos los casos a cada estrato según el peso de cada

estrato. Esto es:

Estrato Wh * n

E1 0.3 * 794 238

E2 0.2 * 794 159

E3 0.5 * 794 397

Afijación óptima: los casos son asignados tomando en consideración el peso y la

varianza de cada estrato respecto de la varianza total. Es decir:

nh = WhS2h * n

WhS2

h

Estratos WhS2

h WhS2

h / WhS2

h nh

E1 0.3 * 0.24 = 0.072 0.072/ 0.194 = 0.3711 0.3711 * 794 295

E2 0.2 * 0.21 = 0.042 0.042/ 0.194 = 0.2164 0.2164 * 794 172

E3 0.5 * 0.16 = 0.080 0.080/ 0.194 = 0.4124 0.4124 * 794 327

Page 10: 5. Elementos de Muestreo e Intervalos de Confianza - J. Fierro (1)

10

2. Intervalos de Confianza

Cada vez que procesamos los datos de una encuesta y obtenemos, por ejemplo, un cierto

porcentaje en relación a las categorías de respuesta de una pregunta, dicho valor se

denomina estimación puntual. Sin embargo, si deseamos hacer una estimación desde la

muestra hacia el universo de referencia, en la estimación puntual hay que considerar el

error máximo admisible. Al incorporar el error, obtenemos un intervalo de confianza.

En otras palabras, el intervalo de confianza corresponde a un rango construido en torno

a la estimación puntual, el cual nos entrega información acerca del valor máximo y

mínimo dentro del cual se mueve dicha estimación en relación con el universo de

referencia.

Veamos un ejemplo, hipotético, sencillo. De acuerdo a los resultados de la Encuesta

CEP de Junio de 2009, frente a la pregunta: Si las elecciones presidenciales fueran el

próximo domingo, y los candidatos fueran los siguientes… ¿por quién votaría Ud.?, el

34% lo haría por Sebastián Piñera y el 29% por Eduardo Frei (considerando el total de

la muestra).5 Los valores aquí mencionados dan cuenta de la estimación puntual, que es

válida para la muestra, y nos indicaría que Sebastián Piñera tiene una clara ventaja sobre

Eduardo Frei. Sin embargo, al calcular el intervalo de confianza eso no es tan claro. De

hecho, Frei podría tener ventaja sobre Piñera.

Recordemos que el error muestral (error máximo admisible) del estudio es de +/- 3%.

Esto significa que el intervalo de confianza para Piñera se mueve entre el 37% (34% +

3%) y el 31% (34% - 3%), mientras que en el caso de Frei sería entre el 32% (29% +

3%) y el 26% (29% - 3%). Pues bien, ahora podemos observar que Frei podría

perfectamente tener el 32% de las preferencias y Piñera el 31%, según sus respectivos

intervalos de confianza. En estricto rigor, cualquiera de los dos candidatos podría tener

ventaja sobre el otro y, por ende, la interpretación inicial de la estimación puntual debe

ser ahora matizada: no hay una clara ventaja de uno sobre el otro. Cualquiera de los dos

podría técnicamente estar aventajando al otro. [Hoy sabemos que el resultado electoral

fue favorable a Piñera, pero no ese el punto que se intenta enfatizar aquí].

Lo anterior, en el marco de la encuesta del CEP, puede ser afirmado con un 95% de

confianza.

En suma, con un 95% de confianza podemos afirmar que:

Intervalo de Confianza = Estimación puntual +/- Error máximo admisible

Bibliografía Vivanco, Manuel (2006). “Diseño de muestras en investigación social”, en Manuel Canales

Cerón (Coordinador-Editor), Metodologías de Investigación Social (LOM, Santiago de

Chile), pp. 141-167.

Vivanco, Manuel (2005). Muestreo Estadístico. Diseño y Aplicaciones (Editorial Universitaria, Santiago de Chile).

Rodríguez, Jacinto (2005). “11. La muestra: teoría y aplicación”, en Manuel García Ferrando,

Jesús Ibáñez y Francisco Alvira, El Análisis de la realidad social. Métodos y técnicas de investigación social. 3° Edición (Alianza Editorial, Madrid), pp. 445-482.

5 Al considerar solamente a los inscritos, los valores son: 34% y 30% respectivamente.