muestreo al azar simple

V - MUESTREO AL AZAR SIMPLE - ESTIMACION Y TAMAO DE MUESTRA

164 - Introduccin al muestreo para estudiantes de ciencias sociales

Captulo V Muestreo al azar simple, estimacin y tamao de muestra (borrador)-

167

V - muestreo al azar simple - Estimacion y tamao de muestra

Repasando algunos conceptos, el muestreo al azar simple es el mtodo probabilstico ms sencillo y se caracteriza porque todas las muestra posibles de un universo determinado cuentan con la misma oportunidad de ser seleccionadas.

Ya vimos que el muestreo al azar simple puede realizase con o sin reposicin (MAScr o MASsr, respectivamente) y que el MASsr es, estadsticamente, ms eficiente que el MAScr, por lo que, cuando debemos elegir entre esos dos mtodos, debe utilizarse el segundo.

Pero la importancia del muestreo al azar simple radica ms en su utilidad terica y como elemento introductorio de los conceptos bsicos de muestreo que en su aplicacin prctica, ya que, pese a su sencillez, solo puede ser utilizado bajo determinadas condiciones, lo que lo hace poco recomendable en muchas de las investigaciones.

El muestreo al azar simple no es aconsejable cuando el costo de recoleccin del dato difiere en forma importante dependiendo de cuales sean los elementos seleccionados (a partir de la dispersin geogrfica o dificultades para su ubicacin). Por otro lado, el MASsr solo es aplicable cuando se dispone de un listado satisfactoriamente completo de los elementos de la poblacin.

Adems de estas consideraciones de carcter administrativo se debe considerar su menor eficiencia estadstica con relacin a otras alternativas de muestreo.

Las frmulas de clculo del MAScr se utilizan cuando se ha empleado este mtodo de seleccin o cuando las poblaciones son infinitas o su magnitud es desconocida o difcil de calcular. Pero, an cuando la seleccin es sin reposicin, las frmulas de clculo del MAScr tambin pueden ser usadas cuando se trata de poblaciones grandes y cuando la fraccin de muestreo es pequea, ya que en estas situaciones los resultados no difieren significativamente con los correspondientes al MASsr.

Siendo los clculos para el MAScr ms simples, veremos primero la estimacin y el clculo del tamao de muestra (y sus fundamentos) a partir del MAScr, para luego tratar, con mayor brevedad, los mecanismos a utilizar con el MASsr.

V.1 - Estimacin de la media mediante intervalo de confianza para MAScr

Contamos con una muestra al azar simple con reposicin de 120 empleados una dependencia estatal, que arroja una remuneracin media mensual de $1050 por todo concepto con cuasivarianza s2= 108.000. Queremos realizar una estimacin de la remuneracin media de todos los empleados mediante el establecimiento de dos valores (intervalo) entre de los que consideraremos comprendido el valor buscado. Y esto lo queremos hacer con una confianza del 90%, es decir, pretendemos que de cada cien muestras distintas que podran haberse extrado de la poblacin en estudio, noventa de ellas tengan valores que nos lleven a construir intervalos que contengan al promedio de la remuneracin del personal de la dependencia.

Salvo que realicemos un censo, nunca podremos saber con absoluta certeza el promedio de la remuneracin del personal y estaremos limitados por la variabilidad de los datos de una a otra muestra. Por supuesto, a medida que aumentamos el tamao de la muestra, ms seguros estaremos de contar con un dato cercano a la realidad, pero ello implica mayores costos y esfuerzos. Adems, a partir de determinada cantidad de casos, el incremento en la precisin y la confianza es despreciable.

Habitualmente, dependiendo de la finalidad con la que se releva la informacin, es suficiente contar con un dato con determinada aproximacin y que tenga una alta probabilidad de ser cierto. La determinacin del nivel de confianza y de la precisin son, entonces, arbitrarios. Estn sujetos a los objetivos de la investigacin y a los recursos disponibles. Supongamos, entonces, que el nivel de confianza del 90% satisface parte de estos objetivos.

La pregunta que debemos hacernos es cules son los valores dentro de los que se encuentra el 90% de todas las muestras que integran la distribucin muestral a la que pertenece nuestra muestra?

Por su tamao, la muestra pertenece a una distribucin muestral que puede ser tratada como normal. Primero debemos estimar la magnitud, en errores estndar, dentro de la cual se encuentra el 90% de las muestras con valores ms prximos al parmetro, para lo que consultamos la tabla de reas bajo la curva normal y observamos a cuantos errores estndar (puntaje z) equivale este porcentaje.

Como comentamos en el captulo anterior, al ser la curva normal simtrica, habitualmente la tabla presenta slo las reas correspondientes a los puntajes z positivos, teniendo los puntajes z negativos las mismas proporciones que los correspondientes valores positivos. Si este es el caso, debemos buscar a que puntaje z positivo corresponde el 45% (0,45) del rea bajo la curva normal dentro de las celdas interiores de la tabla.

Tabla de reas bajo la curva normal (fragmento)

z0,000,010,020,030,040,050,060,070,080,09

0,00000004000800120015901990239027903190359

............................................

1,64452446344744485449545054515452545354545

............................................

No encontramos el valor deseado (0,45), pero hallamos 0,4495 y 0,4505 que corresponden, respectivamente, a z=1,64 y z=1,65 (suma de los marginales de cada rea). Interpolando estos dos valores, determinamos que el valor z para un rea de 0,45 (45%) es 1,645. O, lo que es lo mismo, a 1,645 errores estndar.

Pero, a cuanto equivalen, en pesos, 1,645 errores estndar? Para calcularlo aprovechemos lo visto en el captulo anterior. Si MAScr, el estimador puntual del error estndar de la distribucin de medias muestrales es:

, remplazamos y...

Si un error estndar (1 z)= $30, entonces 1,645 errores estndar (1,645 z)...

1,645 ( $30= $ 49,35.

Esto significa que el 45% de todas las muestras posibles de n=120 con MAScr tendr una media aritmtica de ingresos mensuales no inferior a ( y no mayor a ( + $49,35, y otro 45% tendr una media no superior a ( y no inferior a ( ( $49,35.

Dicho de otra forma, el 90% de las muestras tienen medias que estan a una distancia que no excede los $49,35 de la media poblacional.

Si al valor medio de remuneracin mensual de nuestra muestra ($1.050) le restamos y sumamos estos $49,35, obtenemos dos valores: $1.000,65 y $1.099,35, que son los lmites inferior y superior, respectivamente, de nuestro intervalo de confianza. Y podemos afirmar que el valor medio de la remuneracin mensual de los empleados de la dependencia estatal se encuentra entre estos dos valores.

Se ajusta a la realidad esta conclusin? Si nuestra muestra est incluida dentro del 90% de muestras que no se aleja en una magnitud mayor a $49,35 de la media poblacional, s. Pero esto es algo que nunca sabremos, salvo que accedamos a los datos de toda la poblacin. An as, la conclusin es, estadsticamente, correcta, siempre y cuando aclaremos que nuestra muestra puede ser parte del 90% de muestras cuyas medias no se alejan en ( $49,35 del parmetro poblacional, pero tambin puede ser parte del 10% restante de muestras que tienen valores ms alejados y que, por ello, la conclusin tiene una probabilidad de no ser cierta. La probabilidad de certeza es lo que se conoce como nivel de confianza (k) y su complemento se denomina riesgo. Entonces, la enunciacin correcta (redondeando un poco las cifras) es: con una confianza (o nivel de confianza) de 90%, la remuneracin mensual media de los empleados es un valor que se halla entre $1.000 y $1.100.

Le estimacin mediante intervalos de confianza se expresa en la frmula general que vimos en el capitulo anterior.

Aplicando la frmula general de la estimacin a la estimacin de medias con MAScr, tenemos que...

...ya que, en este caso

el parmetro a estimar = (el estimador puntual del parmetro a estimar =

y el estimador puntual del error estndar del estimador =

El razonamiento de los parrafos previos no es ms que el desarrollo de la frmula, ya que...

...conclusin a la que habamos llegado antes.

Aunque no es habitual, en lugar de partir de un nivel de confianza podemos estar interesados en realizar la estimacin partiendo de un error de estimacin fijo, entendiendo como tal a la parte que sumamos y restamos a la estimacin puntual para construir el intervalo de confianza. Podemos considerar que el error de estimacin $49,35 es bajo para nuestros propsitos, que podemos permitirnos uno mayor y, por lo tanto, pretender una estimacin incrementando el nivel de confianza. A modo de ejemplo, establezcamos el error deseado en $ 75.

La pregunta a responder es, ahora, cul es la confianza con la que podemos realizar una estimacin con determinado error? o qu porcentaje de muestras tienen medias que no se alejan en valores absolutos (con prescindencia del signo) mayores a $75? a cuantos errores estndar equivalen $75 desde la media (puntaje z)? y cul es el rea bajo la curva normal que ello implica? Es decir...

, donde nuestra incgnita es

Ya estimamos puntualmente que = $30. Siendo el error de estimacin deseado (() $75...

A cuanto equivale este puntaje z en porcentaje de reas bajo la curva normal? A la inversa del procedimiento usado para establecer el error a partir de un nivel de confianza, buscamos primero los marginales de la tabla que sumados, nos den el valor z que nos interesa, y posteriormente nos fijamos, en su interseccin, el valor del rea resultante.


z0,000,010,020,030,040,050,060,070,080,09

0,00000004000800120015901990239027903190359

............................................

2,54938494049414943494546464848494949814952

............................................

El resultado equivale al 49,38% de las muestras a cada lado de la media de la distribucin muestral o al 98,76% considerando ambos lados. Nuestra conclusin ser, entonces, con un nivel de confianza del 98,76%, que el ingreso mensual medio de los empleados es un valor que se halla entre $975 y $1125 (importes que se obtienen al restar y sumar $75 al promedio de $1050 de nuestra muestra). Hemos perdido precisin, pero ganado confianza en la estimacin.

Cul de las dos estimaciones es conveniente usar? La de mayor precisin o la de mayor confianza? Habitualmente, de encontrarnos en la poco deseable situacin de tener que optar por uno u otro componente, se aconseja priorizar la confianza sobre la precisin. Pero todo depender de las implicancias finales, del tipo de decisiones a tomar a partir de la informacin obtenida.

V.2 - Estimacin del total mediante intervalo de confianza con MAScr

Y ello nos lleva a la estimacin de los totales. Cuanto significa, considerando a toda la poblacin, las estimaciones sobre medias aritmticas que calculamos, sabiendo que el total de empleados de esta organismo estatal es de 4.300 personas?.

Partiendo de una estimacin de medias ya realizada, el procedimiento para llegar al total consiste simplemente en multiplicar por el tamao de la poblacin todos los valores obtenidos.

medidaestimacin

individualTotal (estimacin individual x N)

media aritmtica$1.050$4.515.000

k=

90%lmite inferior del intervalo$1.000,65$4.302.795

lmite superior del intervalo$1.099,35$4.727.205

k=

98,76%lmite inferior del intervalo$975$4.192.500

lmite superior del intervalo$1125$4.837.500

Con lo que concluimos que, para una confianza del 90%, el total de la remuneracin mensual de todos los empleados del organismo estatal es un valor que est entre $4.302.795 y $4.727.205, o, para una confianza del 98,76, es un valor que est entre $4.192.500 y $4.837.500. Nos siguen pareciendo pequeos los intervalos de confianza?. Aunque, como se seal, depender de lo que se quiera hacer a partir de esta informacin, del tipo de decisiones a tomar y sus implicancias, a la luz de los totales las estimaciones nos parecen ahora poco precisas, los errores demasiado grandes, y buscamos disminuirlos reduciendo la confianza. Probamos entonces con una confianza del 85%, aplicando la frmula para la estimacin de totales (derivada tambin de la frmula general de estimacin) a partir de una confianza dada:

Sabiendo que z(k/2)=1,44...

Concluyendo que, para una confianza del 85%, el total de las remuneraciones es un valor que se encuentra entre $4.329.240 y $4.700.760.

Pero todava no estamos satisfechos con la precisin y deseamos construir una nueva estimacin por intervalo que considere un error de solo $100.000. Debemos calcular a cuantos errores estndar equivale el error de estimacin pretendido. Nuevamente la incognita es z(k/2).

Buscamos en la tabla de reas bajo la curva normal la que corresponde a este z y encontramos que debemos interpolar los valores para z=0,77 y z=0,78...


z0,000,010,020,030,040,050,060,070,080,09

0,00000004000800120015901990239027903190359

............................................

0,72580261226422673270427342764279428232852

............................................

...lo que nos da, aproximadamente, 28,1% (o 0,281) de las muestras a cada lado de la media de la distribucin muestral y el 56,2% hacia ambos lados.

Podemos afirmar ahora que el monto total de la remuneracin mensual de todos los empleados de es un valor que est entre $4.415.000 y $4.615.000. Es una conclusin mucho ms precisa que las anteriores, pero sucede que la probabilidad de equivocarnos (riesgo) con esta afirmacin es tan alta (43,8%) que la vuelve intil.

Evidentemente la nica solucin para obtener una estimacin ms ajustada con un nivel de confianza razonable, sin modificar la tcnica de seleccin, es aumentar el tamao de la muestra. Y esto nos lleva a la pregunta: cuntos casos debe tener la muestra para poder realizar estimaciones con un error y una confianza determinados? La respuesta la veremos al finalizar los mecanismos de estimacin.

V.3 - Estimacin de proporcin mediante intervalo de confianza con MAScr

La misma muestra nos dice que el 35% de los entrevistados son jefes o jefas de hogar. Queremos estimar, mediante intervalo, el porcentaje de empleados de la dependencia que cumplen esta condicin, con la misma confianza con la que estimamos la remuneracin media mensual (90%).

La lgica es la misma que para la media aritmtica. Volvemos a considerar la frmula general de estimacin mediante intervalo de confianza...

que, para proporciones, se expresa como:

Remplazando con los estimadores puntuales...

...y utilizando los valores que nos proporciona nuestra muestra...

...llegamos a la conclusin, con un 90% de confianza, que la proporcin de jefes o jefas de hogar entre los empleados es un valor que est entre 27,8% y 42,2%.

V.4 - Estimacin de la media mediante intervalo de confianza para MASsr

El razonamiento es similar que para el MAScr. Simplemente cambia la estimacin del error estndar (ver en el captulo anterior el punto Estimadores insesgados de la variabilidad de las distribuciones muestrales).

Siguiendo con los valores de la muestra de empleados con n=120, y remplazando en la frmula general de estimacin para intervalos de confianza...

Y llegamos a la conclusin que, para una confianza del 90%, la remuneracin media mensual de los empleados del organismo estatal est entre $1.001,30 y $1.098,70. El intervalo es ligeramente ms pequeo que el calculado bajo el supuesto de MAScr, cosa que no nos debera sorprender ya que a esta altura sabemos que el MASsr es ms eficiente que el MAScr.

V.5 - Estimacin del total mediante intervalo de confianza para MASsr

La frmula general de estimacin toma la forma:

V.6 - Estimacin de proporcin mediante intervalo de confianza con MASsr

La frmula general de estimacin toma la forma:

V.7 - Tamao de la muestra y tamao de la poblacin

Una apreciacin comn es considerar que el tamao de la poblacin tiene alta influencia en el tamao de muestra necesario para realizar estimaciones precisas y confiables.

Pero el lector, habiendo ya pasado por mecanismos de estimacin donde el tamao de la poblacin ni siquiera es considerado y por otros donde su importancia es irrelevante, si comparti esa idea al comenzar el libro, ya debera haberla descartado. Pero, por las dudas, a continuacin se brinda un ejemplo de poca rigurosidad matemtica que le ayudar a comprender intuitivamente el tema.

En una provincia se efectuarn elecciones para elegir gobernador y solo se presentan dos partidos, el partido X y el partido Z. El candidato del partido X desea realizar, en las cuatro localidades de su provincia, una campaa publicitaria en la va pblica para promocionar su postulacin. Escaso de recursos, resuelve concentrar la campaa en aquellas localidades donde la intencin de voto no le es favorable. Para poder estimar este dato, decide que se le pregunte a la primera persona que pase, a determinado horario y por la esquina norte de la plaza principal de cada ciudad, a qu partido piensa votar, asumiendo que esta nica opinin recogida expresa la opinin mayoritaria de la localidad.

El resultado del sondeo se refleja en el siguiente cuadro:

LocalidadABCD

Votantes2.00010.00050.000100.000

Respuesta (voto al partido ...)XZXZ

Cantidad de votantes que estn dispuestos a votar al partido Z1.1006.00040.00090.000

La tercera fila refleja el resultado de la nica respuesta que obtuvo en cada localidad.

A partir de ellas resuelve concentrar la campaa en las localidades B y D.

La ltima fila refleja un dato que este candidato no conoce, pero nosotros s, y es la cantidad de votantes que, en cada localidad, estn dispuestos a votarlo.

Cul es la posibilidad de que se haya equivocado en la conclusin para cada una de las localidades?

En la localidad D el 90% de los votantes est dispuesto a votar por un partido y el 10% a otro. Por lo tanto, el riesgo de que la nica opinin recogida al azar no represente a la mayora es del 10%. Con el mismo razonamiento, el riesgo en la localidad C es del 20%, en la localidad B del 40% y el la localidad A del 45%.

La muestra obtenida en cada una de las localidades tiene la misma magnitud (un caso). Sin embargo, el riesgo de equivocarse parece tener una relacin inversa con la cantidad de votantes. Para correr un riesgo menor, debera haber realizado ms casos en las localidades ms pequeas, lo que choca con la creencia que el tamao muestral est directamente relacionado con el tamao de la poblacin en estudio. Sucede que lo que est definiendo la magnitud del riesgo es la heterogeneidad de la poblacin. Cuanto ms homognea es una poblacin, es decir, cuanto ms se concentran en una sola categora las unidades de anlisis (para una variable dicotmica), menor es el riesgo que se corre al asumir que unos pocos datos pueden representar a la totalidad.

Esto no implica que el tamao de la poblacin no deba ser considerado junto con otros factores a la hora de calcular el tamao de la muestra, pero, como veremos ms adelante, tiene una importancia menor, a tal punto que solo se le presta atencin cuando la poblacin es pequea o cuando la fraccin de muestreo (cociente entre el tamao de la muestra y el tamao de la poblacin) es grande.

V.8 - El tamao de muestra (criterio estadstico) para MAScr

En los puntos anteriores empezamos a sospechar que la muestra de empleados con la que trabajamos es demasiado pequea, ya que, al parecer, las distintas estimaciones, an con una confianza relativamente baja, no son lo suficientemente precisas.

Una vez definidos los objetivos de la investigacin y el tipo de muestreo a utilizar, la primera pregunta que debera surgir es cul es el tamao mnimo de muestra necesario para cumplir con estos objetivos? Si estos puntos se hubieran atendido correctamente antes de seleccionar la muestra no nos encontraramos con la desagradable (y costosa) sorpresa de descubrir que la investigacin no satisface las expectativas.

Dejando de lado los motivos (y continuando con la poblacin de empleados pblicos que tomamos de ejemplo) supongamos que quienes dirigen la investigacin definen sus objetivos de acuerdo a los siguientes puntos:

Realizar una nueva encuesta por muestreo que permita estimar, mediante intervalos y con una confianza del 95,46%

(a) El promedio de la remuneracin mensual con un error no superior a $40.

(b) El total de la remuneracin mensual con un error no superior a $120.000.

(c) El porcentaje de jefes/as de hogar con un error no superior a 3 puntos porcentuales.

(d) Los porcentajes de empleados que trabajan en...

(d.1) Oficinas administrativas internas

(d.2) Atencin al pblico

(d.3) Direccin y secretaras

(d.4) Mantenimiento y servicios internos

... con un error no superior a 3 puntos porcentuales.

El marco muestral consiste en un listado de los nmeros de legajo, satisfactoriamente completo pero a los que no se les puede adjudicar atributo alguno ni asignar costos de recoleccin de datos diferenciados, por lo que se decide realizar un muestreo al azar simple. Una vez seleccionados los nmeros de legajo, los directores de la investigacin se abocarn a la tarea de identificar y localizar a los empleados correspondientes para realizar la entrevista, quedando simplemente bajo nuestra responsabilidad el determinar la cantidad necesaria de casos y seleccionarlos del listado.

Cmo dar respuesta a la solicitud?

Nuestra incognita es n (cantidad de casos). Debemos encontrar entonces alguna ecuacin donde aparezca n para despejala. Si conocemos la magnitud de los restantes valores, podemos realizar el clculo correspondiente.

En la frmula general de estimacin, el producto del error estndar por el puntaje z (correspondiente a la mitad de la confianza elegida) se conoce como error de estimacin ((), siendo el error de estimacin la parte que se suma y resta a la estimacin puntual del parmetro para establecer los lmites del intervalo de confianza.

Partamos entonces de esta igualdad. Pero, dnde est n? Escondida en el error estndar, ya que, para el MAScr, este equivale a la raz cuadrada de la varianza de la poblacin sobre la cantidad de casos que componen la distribucin muestral, es decir .

Entonces

Despejemos n paso por paso.

Donde n equivale a multiplicar el puntaje z (de la mitad de la confianza) por el desvo estndar de la poblacin, dividir este producto por el error de estimacin y elevar el resultado al cuadrado.

Como para todas las estimacions se solicita una confianza del 95,46%, el valor de z(k/2) es 2, ya que esta es la magnitud, en errores estndar, que corresponde a la mitad de la confianza (k 2 = 0.9546 2 = 0.4773).

V.8.A - Tamao de muestra (criterio estadstico) para la estimacin de proporciones con MAScr

Si pensamos en el tamao de muestra necesario para la estimacin de proporciones, ya tenemos otro valor para asignar (dado por los objetivos de la investigacin): el error de estimacin, y que es (=3 puntos porcentuales

Entonces,

Pero, ...qu valor le corresponde a , que para variables nominales u ordinales equivale a la raz cuadrada de P.Q? No tenemos dato alguno sobre cules pueden ser los valores de P y Q en nuestra poblacin, pero afortunadamente, para este tipo de variables, contamos con un valor mximo al que se llega cuando P=50 (o 0,5, si lo queremos expresar en proporciones). Si P=50, P.Q=2.500. Cualquier otro valor de P arrojar un producto P.Q menor, y como n se incrementa directamente en relacin a la magnitud de, el tomar el mximo valor que esta raz puede tener implica asumir una actitud conservadora, suponer la peor de las situaciones (mxima heterogeneidad) y, llegado el caso, calcular un tamao de n ms grande que el necesario si la la heterogeneidad de la poblacin fuera menor, lo que recin podremos saber despus de recoger la informacin.

Asumimos en este caso que P=50 (mxima heterogeneidad) para todas las categoras de las variables nominales a considerar y entonces:

Nuestra primera respuesta es que el tamao mnimo de muestra necesario para estimar el porcentaje de jefes/as de hogar y los porcentajes de empleados que trabajan en las distintas reas del organismo pblico, con un error no superior a 3 puntos porcentuales y una confianza de 95,46% es de 1.112 casos, si la seleccin se realiza mediante MAScr.

Si contamos con informacin confiable sobre las categoras de las variables consideradadas, por ejemplo, que ninguna de ellas tiene un P entre 36 y 64, lcitamente podemos valernos de esta informacin para calcular un tamao de muestra menor, ya que al ser una poblacin ms homognea requerir menos casos en la estimacin.

Con un P de 35 o 65, el clculo arroja un tamao de muestra...

...de 1.012 casos.

La distribucin de proporciones muestrales implica siempre una variable dicotmica, por lo que, estrictamente, el clculo del tamao de la muestra debe hacerse para cada una de las categoras de las variables en estudio, dicotomizndolas. Cuando la variable tiene ms de dos categoras se considerar el P de cada una de ellas por separado, pero como la que determina el tamao final es la categora que acusa mayor heterogeneidad (la que exige un tamao de muestra mayor) solo se considera a la que posee el P ms cercano a 50.

A modo de ejemplo, en el cuadro a continuacin se refleja, de una variable cualquiera, la estimacin de valores mximos y mnimos de P en todas sus categoras. Para el clculo del tamao de la muestra consideraremos, entre todos ellos, el valor de P ms cercano a 50 ( 0.5), que, en este caso, es 55 (P mnimo estimado de la categora C)

CategoraP estimadoP.Q

mnimomximo

A304055 ( 45=2475

B1525

C5565

D1020

E1020

Habitualmente esta informacin se desconoce o se la puede estimar razonablemente para las categoras de una sola variable, quedando el resto de las variables en estudio sin estimacin aceptable, por lo que en la prctica frecuentemente se opta por trabajar con la mxima heterogeneidad terica (P.Q = 50(50 = 2.500). Adems, la reduccin de casos no es importante si P no se aleja en demasa de 50.

Sin embargo, no son tan extraas las situaciones en que la variable en estudio es una sola, o al menos solo una la principal, sujetndose las estimaciones de las dems variables a las exigencias planteadas para la de mayor importancia. Ello sucede, por ejemplo, en los estudios pre-electorales de los das cercanos al escrutinio (o en los sondeos en boca de urna), donde la informacin derivada de las encuestas es de poca utilidad a los efectos del rediseo de la campaa y lo que se busca, simplemente, es monitorear los resultados de la misma o la evolucin de la intencin de voto, habitualmente con pretensiones de alta precisin.

Si a partir de estudios previos y recientes se puede establecer con cierta seguridad que ninguno de los partidos o candidatos obtendr una intencin de voto superior al 27% y se desea un error de estimacin no superior a un punto y medio, el realizar una mayor cantidad de casos de los necesarios desconociendo la mxima heterogeneidad posible no redundar en beneficios significativos y complicar el trabajo de campo, el que debe realizarse en muy poco tiempo dada la proximidad del acto electoral.

En estas circunstancias, trabajar bajo un supuesto de P.Q = 50 ( 50 implica seleccionar (mediante MAScr), para una confianza del 95,5% en las estimaciones posteriores, 4.445 casos, mientras que el trabajar bajo el supuesto de P ( Q = 27 ( 73 implica seleccionar 3.504 casos (para la misma confianza y mtodo de seleccin), siendo significativa la reduccin.

Repasando, el tamao de muestra para MAScr y variables nominales u ordinales se calcula mediante...

...donde

= puntaje z del rea correspondiente a la mitad de la confianza deseada en la curva normal tipificada.

= mximo valor estimado del desvo estndar() en cada categora de las variables en estudio, considerando por separado (dicotomizando) a cada una de las categoras.

= mximo error de estimacin deseado La frmula para el tamao de muestra con MAScr tambin puede expresarse como

, ms estrictamente,como

Al respecto, y a modo de recordatorio, vale una pequea aclaracin:

La letra e denota al error (no confudir con error estndar), que es la diferencia entre el valor observado en una muestra y la media de la distribucin muestral.La letra griega ( (delta minscula) hace referencia al error de estimacin, que es la magnitud que se suma y resta al estadstico observado en la muestra para obtener los lmites del intervalo de confianza. Este error de estimacin se obtiene multiplicando la estimacin puntual del error estndar (no confundir con error) por el puntaje z correspondiente a la mitad de la confianza deseada.

En la frmula del tamao de muestra el error absoluto de los valores que se encuentran a una determinada distancia de la media coincide con el error de estimacin deseado, si esta distancia, en errores estndar, corresponde al rea bajo la curva normal para la mitad de la distancia elegida.

La frmula para determinar el tamao de la muestra, en realidad, est respondiendo al siguiente interrogante: si de una poblacin con determinado error estndar () queremos construir una distribucin muestral donde una determinada distancia de la media () equivale a una cantidad determindada de errores estndar ( z ) cul debe ser el tamao de las muestras que la componenen?

Observes que tambin podemos despejar (y luego calcular n) a partir de la frmula para el clculo del puntaje z en la distribucin muestral, para un error absoluto:

V.8.B - Tamao de muestra (criterio estadstico) para la estimacin de la media aritmtica con MAScr

La frmula para calcular el tamao de muestra para estimar la media aritmtica es similar a la de las variables nominales u ordinales, reemplazando por , ya que...

La confianza deseada es la misma para todas las estimaciones y ya conocemos la magnitud de z(k/2) = 2. El mximo error de estimacin pretendido para la estimacin de la media de ingresos es $40, por lo que remplazamos ( por $40.

Pero la determinacin del valor de es un ahora un problema de difcil solucin, ya que normalmente desconocemos la varianza poblacional, es difcil establecer la mxima varianza posible y un clculo demasiado conservador nos puede llevar a un n demasiado alto.

De alguna forma hay que realizar una estimacin del desvo estndar de la poblacin, estimacin que debe ser estadsticamente conservadora (prudente, para decirlo de otra forma) evitando el riesgo que el tamao de n sea pequeo para los objetivos planteados, pero no demasiado conservadora para evitar tomar una muestra desmesuradamente grande.

El conocimiento de las variables a relevar por parte de los investigadores juega un papel importante. La probable magnitud del desvo estndar se puede obtener de estudios anteriores en la misma poblacin, de observar el comportamiento de la misma variable en poblaciones similares sobre las que contamos con datos muestrales o censales, o de la realizacin de un pequeo estudio previo para este fin (el que, de paso, nos puede servir para probar el instrumento de medicin), ya que para estimar la varianza de un parmetro no es necesaria una muestra demasiado grande. Tambin podemos trabajar con informacin confiable de variables que sabemos estrechamente asociadas a las variables en estudio. El buen juicio es, aqu tambin, ms relevante que cualquier frmula.

En el caso de que sea imposible obtener algn tipo de informacin sobre el desvo estndar en la poblacin existen algunas frmulas que reproducimos a continuacin (), pero a las que hay que emplear extremando los cuidados y solo como ltima instancia.

Si se puede suponer que la distribucin de la variable es rectangular (los valores tienen frecuencias similares y se distribuyen regularmente), una aproximacin al desvo estndar es:

0.29 ( (max(x)-min(x)(

Una distribucin como la reproducida a continuacin tiene un desvo estndar de 13,58.

xfxfxfxfxfxf

101016102710373044105110

111020402810381045105210

121022202910391046105310

142025303010423047105410

151026103440431050305510

Aunque algunos valores estn ausentes y las frecuencias no son idnticas, la distribucin tiene una cierta tendencia a la rectangularidad, como se puede observar en el grfico

Si aplicamos la aproximacin al desvo estndar propuesta, el resultado es:

0.29 ( (max(x)-min(x)( = 0.29 ( (55-10) = 0.29 ( (45) = 13,05, un valor bastante cercano al desvo de la poblacin. Algunos autores utilizan 0.30 en lugar de 0,29, lo que no cambia demasiado la cosa y arroja un valor ligeramente ms prudente.

Si la distribucin de la variable se puede

suponer triangular no simtrica,

la aproximacin al desvo estndar es

0.24 ( (max(x)-min(x)(

Si la distribucin de la variable se puede

suponer triangular simtrica, la aproximacin al desvo estndar es

0.20 ( (max(x)-min(x)(

Y si la distribucin de la variable se puede

suponer normal, la aproximacin al desvo estndar es

(max(x)-min(x)( ( 6

Estas aproximaciones no son demasiado confiables si max(x)-min(x) es muy grande o no se lo puede estimar con precisin. Si max(x)-min(x) es grande habr que estratificar a la poblacin (al respecto, ver el prximo captulo) y realizar los clculos para cada estrato.

Afortunadamente, en nuestro caso, contamos con un estudio previo: la muestra de 120 casos con MAScr. Ello nos permite una estimacin puntual de la varianza de la poblacin a partir de la cuasivarianza de la muestra: 108.000 y por lo tanto una estimacin puntual del desvo estndar de la poblacin calculando la raz cuadrada de la cuasivarianza muestral.

329

Valor que elevamos, por las dudas, a 350 (en forma arbitraria y para no perdernos en los vericuetos de las estimaciones de varianzas o desvos estndar mediante intervalos de confianza).

Teniendo en cuenta que el mximo error de estimacin deseado es de $40 aplicamos entonces la frmula para el tamao de la muestra con variables intervalares o de razones y...

...llegamos a la conclusin que el tamao de muestra necesario para cumplir con el objetivo de estimacin para la media es de 307 casos, si MAScr.

V.8.C - Tamao de muestra (criterio estadstico) para la estimacin del total con MAScr

Nos queda ahora calcular el tamao de muestra para la estimacin del total. La frmula para ello (excusndonos del desarrollo que la justifica, ya que es similar a los de las proporciones y medias) es:

Como ya conocemos los valores a aplicar, remplazamos...

...y concluimos que el tamao de muestra necesario, si MAScr, para estimar el total de la remuneracin de todos los empleados con un error que no supere los $120.000 y una confianza del 95,46% es 630 casos.

Tambin podramos haber calculado el tamao de la muestra usando la frmula para tamao de muestra para la estimacin de la media. En este caso, el valor de ( surge del cociente del error de estimacin para el total sobre la cantidad de miembros de la poblacin, lo que nos da ((T)N = 120.000 4.300 = 27,907, y entonces...

V.8.D - Tamao de muestra (criterio estadstico) para distintas variables u objetivos

Tenemos entonces tres tamaos de muestra diferentes:

Para estimacin decon nivel de confianzay mximo error de estimacinSi MAScr, necesitamos una muesta de ... casos

P jefes/as y

P reas de trabajo95,46%3%1.112

( remuneracin$40307

T remuneracin$120.000630

Evidentemente el tamao de muestra necesario para estimar P de acuerdo a los objetivos planteados es sobradamente grande para la estimacin de ( y T. Pero, salvo que se acuerde una solucin de compromiso sacrificando precisin en la estimacin de P, el tamao de muestra a seleccionar es de 1.112 casos, ya que es el nico que cumple acabadamente con la demanda.

V.9 - El tamao de muestra (criterio estadstico) para MASsr

Al igual que con el MAScr partimos de la relacion...

V.9.A - Tamao de muestra (criterio estadstico) para estimacin de proporciones con MASsr

...que para el MASsr y variables de nivel de medicin nominal u ordinal se expresa como (simplificando la notacin z(k/2) por z)...

y, despejando n...

( ( ( ( ( ( (

Entonces, recordando que la cantidad de empleados de nuestra poblacin objetivo es 4.300, y bajo el supuesto de mxima heterogeneidad para cualquiera de las categoras de las variables nominales u ordinales, calculamos el tamao de muestra necesario para realizar estimaciones mediante intervalos con una confianza del 95,5% y un mximo error de estimacin de 3 puntos porcentuales.

...siendo entonces el tamao necesario de 884 casos.Pero podemos simplificar estos clculos. Llegamos al mismo resultado si, partiendo del clculo del tamao de muestra con MAScr, al que denotaremos n0 (n sub cero), aplicamos la correccin:

Calculamos primero n0 (el tamao de muestra para MAScr).

y, luego, aplicando la correccin...

V.9.B - Tamao de muestra (criterio estadstico) para estimacin de medias con MASsr

Siguiendo el mismo razonamiento que para las proporciones con MASsr, despejamos n de...

...y llegamos a...

( ( ( ( ( (

(

Calculemos ahora el tamao de muestra necesario para los objetivos planteados, recordando que se pretende un mximo error de estimacin de $40 con una confianza del 95,46% y habiendo ya estimado el desvo estndar de la poblacin en $350 (todos los comentarios sobre la estimacin del desvo estndar realizados al tratar el tamao de muestra con MAScr se aplican al MASsr)

Al igual que con el MAScr, podemos simplificar los clculos aplicando la correccin:.

Calculamos primero n0 (el tamao de muestra para MAScr)...

...y luego, aplicando la correccin...

...estableciendo que el tamao mnimo de muestra que cumple con los objetivos planteados, si MASsr, es 286 casos.

V.9.C - Tamao de muestra (criterio estadstico) para la estimacin del total con MASsr

Cmo para el tamao de muestra para la estimacin del total el desarrollo es similar a los de las proporciones y medias, pasamos directamente a utilizar el factor de correccin::

siendo n0, para la estimacin de totales...

V.10 - Resumen de frmulas

V.10.A - Para estimacin mediante intervalos de confianzafrmula general

Medida a estimarSeleccin

MAScrMASsr

Media aritmticaIC((,k)=

TotalIC(T,k)=

ProporcinIC(P,k)=

donde...

ICintervalo de confianza

(parmetro

knivel de confianza

estimador puntual del parmetro

estimacin puntual del error estndar del estimador (o del error estndar de la distribucin muestral del estadstico)

(media aritmtica de la poblacin

media aritmtica de la muestra

Ttotal de la poblacin

z(k/2)puntaje z correspondiente al rea bajo la curva normal para la mitad de la confianza

pproporcin en la muestra

q1-p o, en porcentajes, 100-p

s2cuasivarianza muestral

ffraccin de muestreo (n/N)

ntamao de la muestra

Ntamao de la poblacin

1-fequivale a (N-n)/N

V.10.B - Para calcular el tamao mnimo de muestra requerido para una determinada confianza y un mximo error de estimacin deseado (criterio estadstico) Seleccin

MAScrMASsr

Media aritmtican=

Totaln=

Proporcinn=

donde...

Ntamao de la poblacin

Pproporcin en la poblacin

Q1-P o, en porcentajes, 100-P

desvo estndar de la poblacin

(mximo error de estimacin deseado

n0tamao de muestra para MAScr

Recordando que la varianza de una propocin es calculable mediante el artificio de asignar valor 1 al cumplimiento del atributo y 0 al no cumplimiento (o 100 y 0, si deseamos trabajar con porcentajes), y que el producto de P( Q coincide con esta varianza, por lo que su raz cuadrada arroja el valor del desvo estndar.

Apuntes para el Curso: Teora y Prctica del Muestreo (coordinador: Mitas, G.), abril 2002, Mecovi, Indec, Buenos Aires

_1150587714.unknown

_1150636133.unknown

_1150678102.unknown

_1150678231.unknown

_1150678260.unknown

_1157237150.unknown

_1157237669.unknown

_1157238803.unknown

_1157240645.unknown

_1157237538.unknown

_1150678261.unknown

_1150678278.unknown

_1150678258.unknown

_1150678259.unknown

_1150678244.unknown

_1150678251.unknown

_1150678184.unknown

_1150678222.unknown

_1150678164.unknown

_1150636976.unknown

_1150639098.unknown

_1150674537.unknown

_1150678060.unknown

_1150678069.unknown

_1150675246.unknown

_1150675536.unknown

_1150677764.unknown

_1150675328.unknown

_1150674759.unknown

_1150673211.unknown

_1150673632.unknown

_1150674529.unknown

_1150673612.unknown

_1150672759.unknown

_1150637422.unknown

_1150637667.unknown

_1150636978.unknown

_1150636854.unknown

_1150636974.unknown

_1150636975.unknown

_1150636973.unknown

_1150636958.unknown

_1150636792.unknown

_1150636835.unknown

_1150636439.unknown

_1150634034.unknown

_1150634326.unknown

_1150634944.unknown

_1150635540.unknown

_1150634353.unknown

_1150634324.unknown

_1150634325.unknown

_1150634198.unknown

_1150589498.unknown

_1150633892.unknown

_1150633936.unknown

_1150633878.unknown

_1150588176.unknown

_1150589357.unknown

_1150587868.unknown

_1149451649.unknown

_1149454530.unknown

_1150585260.doc

_1150587524.unknown

_1150587655.unknown

_1150587510.unknown

_1149521571.xlsGrfico6

100

98

96

94

92

90

88

86

84

82

80

78

76

74

72

70

68

66

64

62

60

58

56

54

52

50

48

46

44

42

40

38

36

34

32

30

28

26

24

22

20

18

16

14

12

10

Hoja1

1013.5805548588

1113.275

11

1113.05

12

14

14

14

15

16

20

20

20

22

22

22

25

25

25

25

26

27

28

29

30

34

34

34

34

37

37

37

38

39

42

42

42

42

42

43

44

45

46

47

50

50

50

50

51

52

53

54

55

xf

110100

21198

31296

94

41492

51590

61688

86

84

82

72080

78

82276

74

72

92570

102668

112766

122864

132962

143060

58

56

54

153452

50

48

163746

173844

183942

40

38

194236

204334

214432

224530

234628

244726

24

22

255020

265118

275216

285314

295412

305510

Hoja1


3

5

7

9

11

13

15

17

19

21

23

25

27

29

31

33

35

37

39

41

43

45

43

41

39

37

35

33

31

29

27

25

23

21

19

17

15

13

11

9

7

5

3

Hoja1

1013.5805548588

1113.275

11

1113.05

12

14

14

14

15

16

20

20

20

22

22

22

25

25

25

25

26

27

28

29

30

34

34

34

34

37

37

37

38

39

42

42

42

42

42

43

44

45

46

47

50

50

50

50

51

52

53

54

55

xf

11031

21152

31273

9

41411

51513

61615

17

19

21

72023

25

82227

29

31

92533

102635

112737

122839

132941

143043

45

43

41

153439

37

35

163733

173831

183929

27

25

194223

204321

214419

224517

234615

244713

11

9

25507

26515

27523

2853

2954

3055

Hoja1

_1149548748.unknown

_1149549053.unknown


10

12

14

16

18

20

22

24

26

28

30

32

34

36

38

40

42

44

46

48

50

52

54

56

58

60

62

64

66

68

70

72

74

76

78

80

82

84

86

88

90

92

94

96

98

100

Hoja1

1013.5805548588

1113.275

11

1113.05

12

14

14

14

15

16

20

20

20

22

22

22

25

25

25

25

26

27

28

29

30

34

34

34

34

37

37

37

38

39

42

42

42

42

42

43

44

45

46

47

50

50

50

50

51

52

53

54

55

xf

11010

21112

31214

16

41418

51520

61622

24

26

28

72030

32

82234

36

38

92540

102642

112744

122846

132948

143050

52

54

56

153458

60

62

163764

173866

183968

70

72

194274

204376

214478

224580

234682

244784

86

88

255090

265192

275294

285396

295498

3055100

Hoja1

_1149454624.unknown


10

10

10

20

10

10

40

20

30

10

10

10

10

10

40

30

10

10

30

10

10

10

10

10

30

10

10

10

10

10

Hoja1

1013.5805548588

1113.275

11

11

12

14

14

14

15

16

20

20

20

22

22

22

25

25

25

25

26

27

28

29

30

34

34

34

34

37

37

37

38

39

42

42

42

42

42

43

44

45

46

47

50

50

50

50

51

52

53

54

55

xf

11010

21110

31210

41420

51510

61610

72040

82220

92530

102610

112710

122810

132910

143010

153440

163730

173810

183910

194230

204310

214410

224510

234610

244710

255030

265110

275210

285310

295410

305510

Hoja1

_1149454568.unknown

_1149452314.unknown

_1149454059.unknown

_1149454439.unknown

_1149453964.unknown

_1149452138.unknown

_1149452287.unknown

_1149451682.unknown

_1149382865.unknown

_1149384795.unknown

_1149384944.unknown

_1149389352.unknown

_1149384825.unknown

_1149384943.unknown

_1149384817.unknown

_1149383773.unknown

_1149384757.unknown

_1149384186.unknown

_1149383509.unknown

_1149383609.unknown

_1149382967.unknown

_1149363060.unknown

_1149371175.unknown

_1149382856.unknown

_1149364118.unknown

_1149364594.unknown

_1149030969.unknown

_1149032822.unknown

_1149032913.unknown

_1149031060.unknown

_1149030055.unknown

_1149030762.unknown

_1149001919.unknown

muestreo al azar simple

Documents