muestreo al azar simple
DESCRIPTION
claseTRANSCRIPT
V - MUESTREO AL AZAR SIMPLE - ESTIMACION Y TAMAO DE MUESTRA
164 - Introduccin al muestreo para estudiantes de ciencias sociales
Captulo V Muestreo al azar simple, estimacin y tamao de muestra (borrador)-
167
V - muestreo al azar simple - Estimacion y tamao de muestra
Repasando algunos conceptos, el muestreo al azar simple es el mtodo probabilstico ms sencillo y se caracteriza porque todas las muestra posibles de un universo determinado cuentan con la misma oportunidad de ser seleccionadas.
Ya vimos que el muestreo al azar simple puede realizase con o sin reposicin (MAScr o MASsr, respectivamente) y que el MASsr es, estadsticamente, ms eficiente que el MAScr, por lo que, cuando debemos elegir entre esos dos mtodos, debe utilizarse el segundo.
Pero la importancia del muestreo al azar simple radica ms en su utilidad terica y como elemento introductorio de los conceptos bsicos de muestreo que en su aplicacin prctica, ya que, pese a su sencillez, solo puede ser utilizado bajo determinadas condiciones, lo que lo hace poco recomendable en muchas de las investigaciones.
El muestreo al azar simple no es aconsejable cuando el costo de recoleccin del dato difiere en forma importante dependiendo de cuales sean los elementos seleccionados (a partir de la dispersin geogrfica o dificultades para su ubicacin). Por otro lado, el MASsr solo es aplicable cuando se dispone de un listado satisfactoriamente completo de los elementos de la poblacin.
Adems de estas consideraciones de carcter administrativo se debe considerar su menor eficiencia estadstica con relacin a otras alternativas de muestreo.
Las frmulas de clculo del MAScr se utilizan cuando se ha empleado este mtodo de seleccin o cuando las poblaciones son infinitas o su magnitud es desconocida o difcil de calcular. Pero, an cuando la seleccin es sin reposicin, las frmulas de clculo del MAScr tambin pueden ser usadas cuando se trata de poblaciones grandes y cuando la fraccin de muestreo es pequea, ya que en estas situaciones los resultados no difieren significativamente con los correspondientes al MASsr.
Siendo los clculos para el MAScr ms simples, veremos primero la estimacin y el clculo del tamao de muestra (y sus fundamentos) a partir del MAScr, para luego tratar, con mayor brevedad, los mecanismos a utilizar con el MASsr.
V.1 - Estimacin de la media mediante intervalo de confianza para MAScr
Contamos con una muestra al azar simple con reposicin de 120 empleados una dependencia estatal, que arroja una remuneracin media mensual de $1050 por todo concepto con cuasivarianza s2= 108.000. Queremos realizar una estimacin de la remuneracin media de todos los empleados mediante el establecimiento de dos valores (intervalo) entre de los que consideraremos comprendido el valor buscado. Y esto lo queremos hacer con una confianza del 90%, es decir, pretendemos que de cada cien muestras distintas que podran haberse extrado de la poblacin en estudio, noventa de ellas tengan valores que nos lleven a construir intervalos que contengan al promedio de la remuneracin del personal de la dependencia.
Salvo que realicemos un censo, nunca podremos saber con absoluta certeza el promedio de la remuneracin del personal y estaremos limitados por la variabilidad de los datos de una a otra muestra. Por supuesto, a medida que aumentamos el tamao de la muestra, ms seguros estaremos de contar con un dato cercano a la realidad, pero ello implica mayores costos y esfuerzos. Adems, a partir de determinada cantidad de casos, el incremento en la precisin y la confianza es despreciable.
Habitualmente, dependiendo de la finalidad con la que se releva la informacin, es suficiente contar con un dato con determinada aproximacin y que tenga una alta probabilidad de ser cierto. La determinacin del nivel de confianza y de la precisin son, entonces, arbitrarios. Estn sujetos a los objetivos de la investigacin y a los recursos disponibles. Supongamos, entonces, que el nivel de confianza del 90% satisface parte de estos objetivos.
La pregunta que debemos hacernos es cules son los valores dentro de los que se encuentra el 90% de todas las muestras que integran la distribucin muestral a la que pertenece nuestra muestra?
Por su tamao, la muestra pertenece a una distribucin muestral que puede ser tratada como normal. Primero debemos estimar la magnitud, en errores estndar, dentro de la cual se encuentra el 90% de las muestras con valores ms prximos al parmetro, para lo que consultamos la tabla de reas bajo la curva normal y observamos a cuantos errores estndar (puntaje z) equivale este porcentaje.
Como comentamos en el captulo anterior, al ser la curva normal simtrica, habitualmente la tabla presenta slo las reas correspondientes a los puntajes z positivos, teniendo los puntajes z negativos las mismas proporciones que los correspondientes valores positivos. Si este es el caso, debemos buscar a que puntaje z positivo corresponde el 45% (0,45) del rea bajo la curva normal dentro de las celdas interiores de la tabla.
Tabla de reas bajo la curva normal (fragmento)
z0,000,010,020,030,040,050,060,070,080,09
0,00000004000800120015901990239027903190359
............................................
1,64452446344744485449545054515452545354545
............................................
No encontramos el valor deseado (0,45), pero hallamos 0,4495 y 0,4505 que corresponden, respectivamente, a z=1,64 y z=1,65 (suma de los marginales de cada rea). Interpolando estos dos valores, determinamos que el valor z para un rea de 0,45 (45%) es 1,645. O, lo que es lo mismo, a 1,645 errores estndar.
Pero, a cuanto equivalen, en pesos, 1,645 errores estndar? Para calcularlo aprovechemos lo visto en el captulo anterior. Si MAScr, el estimador puntual del error estndar de la distribucin de medias muestrales es:
, remplazamos y...
Si un error estndar (1 z)= $30, entonces 1,645 errores estndar (1,645 z)...
1,645 ( $30= $ 49,35.
Esto significa que el 45% de todas las muestras posibles de n=120 con MAScr tendr una media aritmtica de ingresos mensuales no inferior a ( y no mayor a ( + $49,35, y otro 45% tendr una media no superior a ( y no inferior a ( ( $49,35.
Dicho de otra forma, el 90% de las muestras tienen medias que estan a una distancia que no excede los $49,35 de la media poblacional.
Si al valor medio de remuneracin mensual de nuestra muestra ($1.050) le restamos y sumamos estos $49,35, obtenemos dos valores: $1.000,65 y $1.099,35, que son los lmites inferior y superior, respectivamente, de nuestro intervalo de confianza. Y podemos afirmar que el valor medio de la remuneracin mensual de los empleados de la dependencia estatal se encuentra entre estos dos valores.
Se ajusta a la realidad esta conclusin? Si nuestra muestra est incluida dentro del 90% de muestras que no se aleja en una magnitud mayor a $49,35 de la media poblacional, s. Pero esto es algo que nunca sabremos, salvo que accedamos a los datos de toda la poblacin. An as, la conclusin es, estadsticamente, correcta, siempre y cuando aclaremos que nuestra muestra puede ser parte del 90% de muestras cuyas medias no se alejan en ( $49,35 del parmetro poblacional, pero tambin puede ser parte del 10% restante de muestras que tienen valores ms alejados y que, por ello, la conclusin tiene una probabilidad de no ser cierta. La probabilidad de certeza es lo que se conoce como nivel de confianza (k) y su complemento se denomina riesgo. Entonces, la enunciacin correcta (redondeando un poco las cifras) es: con una confianza (o nivel de confianza) de 90%, la remuneracin mensual media de los empleados es un valor que se halla entre $1.000 y $1.100.
Le estimacin mediante intervalos de confianza se expresa en la frmula general que vimos en el capitulo anterior.
Aplicando la frmula general de la estimacin a la estimacin de medias con MAScr, tenemos que...
...ya que, en este caso
el parmetro a estimar = (el estimador puntual del parmetro a estimar =
y el estimador puntual del error estndar del estimador =
El razonamiento de los parrafos previos no es ms que el desarrollo de la frmula, ya que...
...conclusin a la que habamos llegado antes.
Aunque no es habitual, en lugar de partir de un nivel de confianza podemos estar interesados en realizar la estimacin partiendo de un error de estimacin fijo, entendiendo como tal a la parte que sumamos y restamos a la estimacin puntual para construir el intervalo de confianza. Podemos considerar que el error de estimacin $49,35 es bajo para nuestros propsitos, que podemos permitirnos uno mayor y, por lo tanto, pretender una estimacin incrementando el nivel de confianza. A modo de ejemplo, establezcamos el error deseado en $ 75.
La pregunta a responder es, ahora, cul es la confianza con la que podemos realizar una estimacin con determinado error? o qu porcentaje de muestras tienen medias que no se alejan en valores absolutos (con prescindencia del signo) mayores a $75? a cuantos errores estndar equivalen $75 desde la media (puntaje z)? y cul es el rea bajo la curva normal que ello implica? Es decir...
, donde nuestra incgnita es
Ya estimamos puntualmente que = $30. Siendo el error de estimacin deseado (() $75...
A cuanto equivale este puntaje z en porcentaje de reas bajo la curva normal? A la inversa del procedimiento usado para establecer el error a partir de un nivel de confianza, buscamos primero los marginales de la tabla que sumados, nos den el valor z que nos interesa, y posteriormente nos fijamos, en su interseccin, el valor del rea resultante.
Tabla de reas bajo la curva normal (fragmento)
z0,000,010,020,030,040,050,060,070,080,09
0,00000004000800120015901990239027903190359
............................................
2,54938494049414943494546464848494949814952
............................................
El resultado equivale al 49,38% de las muestras a cada lado de la media de la distribucin muestral o al 98,76% considerando ambos lados. Nuestra conclusin ser, entonces, con un nivel de confianza del 98,76%, que el ingreso mensual medio de los empleados es un valor que se halla entre $975 y $1125 (importes que se obtienen al restar y sumar $75 al promedio de $1050 de nuestra muestra). Hemos perdido precisin, pero ganado confianza en la estimacin.
Cul de las dos estimaciones es conveniente usar? La de mayor precisin o la de mayor confianza? Habitualmente, de encontrarnos en la poco deseable situacin de tener que optar por uno u otro componente, se aconseja priorizar la confianza sobre la precisin. Pero todo depender de las implicancias finales, del tipo de decisiones a tomar a partir de la informacin obtenida.
V.2 - Estimacin del total mediante intervalo de confianza con MAScr
Y ello nos lleva a la estimacin de los totales. Cuanto significa, considerando a toda la poblacin, las estimaciones sobre medias aritmticas que calculamos, sabiendo que el total de empleados de esta organismo estatal es de 4.300 personas?.
Partiendo de una estimacin de medias ya realizada, el procedimiento para llegar al total consiste simplemente en multiplicar por el tamao de la poblacin todos los valores obtenidos.
medidaestimacin
individualTotal (estimacin individual x N)
media aritmtica$1.050$4.515.000
k=
90%lmite inferior del intervalo$1.000,65$4.302.795
lmite superior del intervalo$1.099,35$4.727.205
k=
98,76%lmite inferior del intervalo$975$4.192.500
lmite superior del intervalo$1125$4.837.500
Con lo que concluimos que, para una confianza del 90%, el total de la remuneracin mensual de todos los empleados del organismo estatal es un valor que est entre $4.302.795 y $4.727.205, o, para una confianza del 98,76, es un valor que est entre $4.192.500 y $4.837.500. Nos siguen pareciendo pequeos los intervalos de confianza?. Aunque, como se seal, depender de lo que se quiera hacer a partir de esta informacin, del tipo de decisiones a tomar y sus implicancias, a la luz de los totales las estimaciones nos parecen ahora poco precisas, los errores demasiado grandes, y buscamos disminuirlos reduciendo la confianza. Probamos entonces con una confianza del 85%, aplicando la frmula para la estimacin de totales (derivada tambin de la frmula general de estimacin) a partir de una confianza dada:
Sabiendo que z(k/2)=1,44...
Concluyendo que, para una confianza del 85%, el total de las remuneraciones es un valor que se encuentra entre $4.329.240 y $4.700.760.
Pero todava no estamos satisfechos con la precisin y deseamos construir una nueva estimacin por intervalo que considere un error de solo $100.000. Debemos calcular a cuantos errores estndar equivale el error de estimacin pretendido. Nuevamente la incognita es z(k/2).
Buscamos en la tabla de reas bajo la curva normal la que corresponde a este z y encontramos que debemos interpolar los valores para z=0,77 y z=0,78...
Tabla de reas bajo la curva normal (fragmento)
z0,000,010,020,030,040,050,060,070,080,09
0,00000004000800120015901990239027903190359
............................................
0,72580261226422673270427342764279428232852
............................................
...lo que nos da, aproximadamente, 28,1% (o 0,281) de las muestras a cada lado de la media de la distribucin muestral y el 56,2% hacia ambos lados.
Podemos afirmar ahora que el monto total de la remuneracin mensual de todos los empleados de es un valor que est entre $4.415.000 y $4.615.000. Es una conclusin mucho ms precisa que las anteriores, pero sucede que la probabilidad de equivocarnos (riesgo) con esta afirmacin es tan alta (43,8%) que la vuelve intil.
Evidentemente la nica solucin para obtener una estimacin ms ajustada con un nivel de confianza razonable, sin modificar la tcnica de seleccin, es aumentar el tamao de la muestra. Y esto nos lleva a la pregunta: cuntos casos debe tener la muestra para poder realizar estimaciones con un error y una confianza determinados? La respuesta la veremos al finalizar los mecanismos de estimacin.
V.3 - Estimacin de proporcin mediante intervalo de confianza con MAScr
La misma muestra nos dice que el 35% de los entrevistados son jefes o jefas de hogar. Queremos estimar, mediante intervalo, el porcentaje de empleados de la dependencia que cumplen esta condicin, con la misma confianza con la que estimamos la remuneracin media mensual (90%).
La lgica es la misma que para la media aritmtica. Volvemos a considerar la frmula general de estimacin mediante intervalo de confianza...
que, para proporciones, se expresa como:
Remplazando con los estimadores puntuales...
...y utilizando los valores que nos proporciona nuestra muestra...
...llegamos a la conclusin, con un 90% de confianza, que la proporcin de jefes o jefas de hogar entre los empleados es un valor que est entre 27,8% y 42,2%.
V.4 - Estimacin de la media mediante intervalo de confianza para MASsr
El razonamiento es similar que para el MAScr. Simplemente cambia la estimacin del error estndar (ver en el captulo anterior el punto Estimadores insesgados de la variabilidad de las distribuciones muestrales).
Siguiendo con los valores de la muestra de empleados con n=120, y remplazando en la frmula general de estimacin para intervalos de confianza...
Y llegamos a la conclusin que, para una confianza del 90%, la remuneracin media mensual de los empleados del organismo estatal est entre $1.001,30 y $1.098,70. El intervalo es ligeramente ms pequeo que el calculado bajo el supuesto de MAScr, cosa que no nos debera sorprender ya que a esta altura sabemos que el MASsr es ms eficiente que el MAScr.
V.5 - Estimacin del total mediante intervalo de confianza para MASsr
La frmula general de estimacin toma la forma:
V.6 - Estimacin de proporcin mediante intervalo de confianza con MASsr
La frmula general de estimacin toma la forma:
V.7 - Tamao de la muestra y tamao de la poblacin
Una apreciacin comn es considerar que el tamao de la poblacin tiene alta influencia en el tamao de muestra necesario para realizar estimaciones precisas y confiables.
Pero el lector, habiendo ya pasado por mecanismos de estimacin donde el tamao de la poblacin ni siquiera es considerado y por otros donde su importancia es irrelevante, si comparti esa idea al comenzar el libro, ya debera haberla descartado. Pero, por las dudas, a continuacin se brinda un ejemplo de poca rigurosidad matemtica que le ayudar a comprender intuitivamente el tema.
En una provincia se efectuarn elecciones para elegir gobernador y solo se presentan dos partidos, el partido X y el partido Z. El candidato del partido X desea realizar, en las cuatro localidades de su provincia, una campaa publicitaria en la va pblica para promocionar su postulacin. Escaso de recursos, resuelve concentrar la campaa en aquellas localidades donde la intencin de voto no le es favorable. Para poder estimar este dato, decide que se le pregunte a la primera persona que pase, a determinado horario y por la esquina norte de la plaza principal de cada ciudad, a qu partido piensa votar, asumiendo que esta nica opinin recogida expresa la opinin mayoritaria de la localidad.
El resultado del sondeo se refleja en el siguiente cuadro:
LocalidadABCD
Votantes2.00010.00050.000100.000
Respuesta (voto al partido ...)XZXZ
Cantidad de votantes que estn dispuestos a votar al partido Z1.1006.00040.00090.000
La tercera fila refleja el resultado de la nica respuesta que obtuvo en cada localidad.
A partir de ellas resuelve concentrar la campaa en las localidades B y D.
La ltima fila refleja un dato que este candidato no conoce, pero nosotros s, y es la cantidad de votantes que, en cada localidad, estn dispuestos a votarlo.
Cul es la posibilidad de que se haya equivocado en la conclusin para cada una de las localidades?
En la localidad D el 90% de los votantes est dispuesto a votar por un partido y el 10% a otro. Por lo tanto, el riesgo de que la nica opinin recogida al azar no represente a la mayora es del 10%. Con el mismo razonamiento, el riesgo en la localidad C es del 20%, en la localidad B del 40% y el la localidad A del 45%.
La muestra obtenida en cada una de las localidades tiene la misma magnitud (un caso). Sin embargo, el riesgo de equivocarse parece tener una relacin inversa con la cantidad de votantes. Para correr un riesgo menor, debera haber realizado ms casos en las localidades ms pequeas, lo que choca con la creencia que el tamao muestral est directamente relacionado con el tamao de la poblacin en estudio. Sucede que lo que est definiendo la magnitud del riesgo es la heterogeneidad de la poblacin. Cuanto ms homognea es una poblacin, es decir, cuanto ms se concentran en una sola categora las unidades de anlisis (para una variable dicotmica), menor es el riesgo que se corre al asumir que unos pocos datos pueden representar a la totalidad.
Esto no implica que el tamao de la poblacin no deba ser considerado junto con otros factores a la hora de calcular el tamao de la muestra, pero, como veremos ms adelante, tiene una importancia menor, a tal punto que solo se le presta atencin cuando la poblacin es pequea o cuando la fraccin de muestreo (cociente entre el tamao de la muestra y el tamao de la poblacin) es grande.
V.8 - El tamao de muestra (criterio estadstico) para MAScr
En los puntos anteriores empezamos a sospechar que la muestra de empleados con la que trabajamos es demasiado pequea, ya que, al parecer, las distintas estimaciones, an con una confianza relativamente baja, no son lo suficientemente precisas.
Una vez definidos los objetivos de la investigacin y el tipo de muestreo a utilizar, la primera pregunta que debera surgir es cul es el tamao mnimo de muestra necesario para cumplir con estos objetivos? Si estos puntos se hubieran atendido correctamente antes de seleccionar la muestra no nos encontraramos con la desagradable (y costosa) sorpresa de descubrir que la investigacin no satisface las expectativas.
Dejando de lado los motivos (y continuando con la poblacin de empleados pblicos que tomamos de ejemplo) supongamos que quienes dirigen la investigacin definen sus objetivos de acuerdo a los siguientes puntos:
Realizar una nueva encuesta por muestreo que permita estimar, mediante intervalos y con una confianza del 95,46%
(a) El promedio de la remuneracin mensual con un error no superior a $40.
(b) El total de la remuneracin mensual con un error no superior a $120.000.
(c) El porcentaje de jefes/as de hogar con un error no superior a 3 puntos porcentuales.
(d) Los porcentajes de empleados que trabajan en...
(d.1) Oficinas administrativas internas
(d.2) Atencin al pblico
(d.3) Direccin y secretaras
(d.4) Mantenimiento y servicios internos
... con un error no superior a 3 puntos porcentuales.
El marco muestral consiste en un listado de los nmeros de legajo, satisfactoriamente completo pero a los que no se les puede adjudicar atributo alguno ni asignar costos de recoleccin de datos diferenciados, por lo que se decide realizar un muestreo al azar simple. Una vez seleccionados los nmeros de legajo, los directores de la investigacin se abocarn a la tarea de identificar y localizar a los empleados correspondientes para realizar la entrevista, quedando simplemente bajo nuestra responsabilidad el determinar la cantidad necesaria de casos y seleccionarlos del listado.
Cmo dar respuesta a la solicitud?
Nuestra incognita es n (cantidad de casos). Debemos encontrar entonces alguna ecuacin donde aparezca n para despejala. Si conocemos la magnitud de los restantes valores, podemos realizar el clculo correspondiente.
En la frmula general de estimacin, el producto del error estndar por el puntaje z (correspondiente a la mitad de la confianza elegida) se conoce como error de estimacin ((), siendo el error de estimacin la parte que se suma y resta a la estimacin puntual del parmetro para establecer los lmites del intervalo de confianza.
Partamos entonces de esta igualdad. Pero, dnde est n? Escondida en el error estndar, ya que, para el MAScr, este equivale a la raz cuadrada de la varianza de la poblacin sobre la cantidad de casos que componen la distribucin muestral, es decir .
Entonces
Despejemos n paso por paso.
Donde n equivale a multiplicar el puntaje z (de la mitad de la confianza) por el desvo estndar de la poblacin, dividir este producto por el error de estimacin y elevar el resultado al cuadrado.
Como para todas las estimacions se solicita una confianza del 95,46%, el valor de z(k/2) es 2, ya que esta es la magnitud, en errores estndar, que corresponde a la mitad de la confianza (k 2 = 0.9546 2 = 0.4773).
V.8.A - Tamao de muestra (criterio estadstico) para la estimacin de proporciones con MAScr
Si pensamos en el tamao de muestra necesario para la estimacin de proporciones, ya tenemos otro valor para asignar (dado por los objetivos de la investigacin): el error de estimacin, y que es (=3 puntos porcentuales
Entonces,
Pero, ...qu valor le corresponde a , que para variables nominales u ordinales equivale a la raz cuadrada de P.Q? No tenemos dato alguno sobre cules pueden ser los valores de P y Q en nuestra poblacin, pero afortunadamente, para este tipo de variables, contamos con un valor mximo al que se llega cuando P=50 (o 0,5, si lo queremos expresar en proporciones). Si P=50, P.Q=2.500. Cualquier otro valor de P arrojar un producto P.Q menor, y como n se incrementa directamente en relacin a la magnitud de, el tomar el mximo valor que esta raz puede tener implica asumir una actitud conservadora, suponer la peor de las situaciones (mxima heterogeneidad) y, llegado el caso, calcular un tamao de n ms grande que el necesario si la la heterogeneidad de la poblacin fuera menor, lo que recin podremos saber despus de recoger la informacin.
Asumimos en este caso que P=50 (mxima heterogeneidad) para todas las categoras de las variables nominales a considerar y entonces:
Nuestra primera respuesta es que el tamao mnimo de muestra necesario para estimar el porcentaje de jefes/as de hogar y los porcentajes de empleados que trabajan en las distintas reas del organismo pblico, con un error no superior a 3 puntos porcentuales y una confianza de 95,46% es de 1.112 casos, si la seleccin se realiza mediante MAScr.
Si contamos con informacin confiable sobre las categoras de las variables consideradadas, por ejemplo, que ninguna de ellas tiene un P entre 36 y 64, lcitamente podemos valernos de esta informacin para calcular un tamao de muestra menor, ya que al ser una poblacin ms homognea requerir menos casos en la estimacin.
Con un P de 35 o 65, el clculo arroja un tamao de muestra...
...de 1.012 casos.
La distribucin de proporciones muestrales implica siempre una variable dicotmica, por lo que, estrictamente, el clculo del tamao de la muestra debe hacerse para cada una de las categoras de las variables en estudio, dicotomizndolas. Cuando la variable tiene ms de dos categoras se considerar el P de cada una de ellas por separado, pero como la que determina el tamao final es la categora que acusa mayor heterogeneidad (la que exige un tamao de muestra mayor) solo se considera a la que posee el P ms cercano a 50.
A modo de ejemplo, en el cuadro a continuacin se refleja, de una variable cualquiera, la estimacin de valores mximos y mnimos de P en todas sus categoras. Para el clculo del tamao de la muestra consideraremos, entre todos ellos, el valor de P ms cercano a 50 ( 0.5), que, en este caso, es 55 (P mnimo estimado de la categora C)
CategoraP estimadoP.Q
mnimomximo
A304055 ( 45=2475
B1525
C5565
D1020
E1020
Habitualmente esta informacin se desconoce o se la puede estimar razonablemente para las categoras de una sola variable, quedando el resto de las variables en estudio sin estimacin aceptable, por lo que en la prctica frecuentemente se opta por trabajar con la mxima heterogeneidad terica (P.Q = 50(50 = 2.500). Adems, la reduccin de casos no es importante si P no se aleja en demasa de 50.
Sin embargo, no son tan extraas las situaciones en que la variable en estudio es una sola, o al menos solo una la principal, sujetndose las estimaciones de las dems variables a las exigencias planteadas para la de mayor importancia. Ello sucede, por ejemplo, en los estudios pre-electorales de los das cercanos al escrutinio (o en los sondeos en boca de urna), donde la informacin derivada de las encuestas es de poca utilidad a los efectos del rediseo de la campaa y lo que se busca, simplemente, es monitorear los resultados de la misma o la evolucin de la intencin de voto, habitualmente con pretensiones de alta precisin.
Si a partir de estudios previos y recientes se puede establecer con cierta seguridad que ninguno de los partidos o candidatos obtendr una intencin de voto superior al 27% y se desea un error de estimacin no superior a un punto y medio, el realizar una mayor cantidad de casos de los necesarios desconociendo la mxima heterogeneidad posible no redundar en beneficios significativos y complicar el trabajo de campo, el que debe realizarse en muy poco tiempo dada la proximidad del acto electoral.
En estas circunstancias, trabajar bajo un supuesto de P.Q = 50 ( 50 implica seleccionar (mediante MAScr), para una confianza del 95,5% en las estimaciones posteriores, 4.445 casos, mientras que el trabajar bajo el supuesto de P ( Q = 27 ( 73 implica seleccionar 3.504 casos (para la misma confianza y mtodo de seleccin), siendo significativa la reduccin.
Repasando, el tamao de muestra para MAScr y variables nominales u ordinales se calcula mediante...
...donde
= puntaje z del rea correspondiente a la mitad de la confianza deseada en la curva normal tipificada.
= mximo valor estimado del desvo estndar() en cada categora de las variables en estudio, considerando por separado (dicotomizando) a cada una de las categoras.
= mximo error de estimacin deseado La frmula para el tamao de muestra con MAScr tambin puede expresarse como
, ms estrictamente,como
Al respecto, y a modo de recordatorio, vale una pequea aclaracin:
La letra e denota al error (no confudir con error estndar), que es la diferencia entre el valor observado en una muestra y la media de la distribucin muestral.La letra griega ( (delta minscula) hace referencia al error de estimacin, que es la magnitud que se suma y resta al estadstico observado en la muestra para obtener los lmites del intervalo de confianza. Este error de estimacin se obtiene multiplicando la estimacin puntual del error estndar (no confundir con error) por el puntaje z correspondiente a la mitad de la confianza deseada.
En la frmula del tamao de muestra el error absoluto de los valores que se encuentran a una determinada distancia de la media coincide con el error de estimacin deseado, si esta distancia, en errores estndar, corresponde al rea bajo la curva normal para la mitad de la distancia elegida.
La frmula para determinar el tamao de la muestra, en realidad, est respondiendo al siguiente interrogante: si de una poblacin con determinado error estndar () queremos construir una distribucin muestral donde una determinada distancia de la media () equivale a una cantidad determindada de errores estndar ( z ) cul debe ser el tamao de las muestras que la componenen?
Observes que tambin podemos despejar (y luego calcular n) a partir de la frmula para el clculo del puntaje z en la distribucin muestral, para un error absoluto:
V.8.B - Tamao de muestra (criterio estadstico) para la estimacin de la media aritmtica con MAScr
La frmula para calcular el tamao de muestra para estimar la media aritmtica es similar a la de las variables nominales u ordinales, reemplazando por , ya que...
La confianza deseada es la misma para todas las estimaciones y ya conocemos la magnitud de z(k/2) = 2. El mximo error de estimacin pretendido para la estimacin de la media de ingresos es $40, por lo que remplazamos ( por $40.
Pero la determinacin del valor de es un ahora un problema de difcil solucin, ya que normalmente desconocemos la varianza poblacional, es difcil establecer la mxima varianza posible y un clculo demasiado conservador nos puede llevar a un n demasiado alto.
De alguna forma hay que realizar una estimacin del desvo estndar de la poblacin, estimacin que debe ser estadsticamente conservadora (prudente, para decirlo de otra forma) evitando el riesgo que el tamao de n sea pequeo para los objetivos planteados, pero no demasiado conservadora para evitar tomar una muestra desmesuradamente grande.
El conocimiento de las variables a relevar por parte de los investigadores juega un papel importante. La probable magnitud del desvo estndar se puede obtener de estudios anteriores en la misma poblacin, de observar el comportamiento de la misma variable en poblaciones similares sobre las que contamos con datos muestrales o censales, o de la realizacin de un pequeo estudio previo para este fin (el que, de paso, nos puede servir para probar el instrumento de medicin), ya que para estimar la varianza de un parmetro no es necesaria una muestra demasiado grande. Tambin podemos trabajar con informacin confiable de variables que sabemos estrechamente asociadas a las variables en estudio. El buen juicio es, aqu tambin, ms relevante que cualquier frmula.
En el caso de que sea imposible obtener algn tipo de informacin sobre el desvo estndar en la poblacin existen algunas frmulas que reproducimos a continuacin (), pero a las que hay que emplear extremando los cuidados y solo como ltima instancia.
Si se puede suponer que la distribucin de la variable es rectangular (los valores tienen frecuencias similares y se distribuyen regularmente), una aproximacin al desvo estndar es:
0.29 ( (max(x)-min(x)(
Una distribucin como la reproducida a continuacin tiene un desvo estndar de 13,58.
xfxfxfxfxfxf
101016102710373044105110
111020402810381045105210
121022202910391046105310
142025303010423047105410
151026103440431050305510
Aunque algunos valores estn ausentes y las frecuencias no son idnticas, la distribucin tiene una cierta tendencia a la rectangularidad, como se puede observar en el grfico
Si aplicamos la aproximacin al desvo estndar propuesta, el resultado es:
0.29 ( (max(x)-min(x)( = 0.29 ( (55-10) = 0.29 ( (45) = 13,05, un valor bastante cercano al desvo de la poblacin. Algunos autores utilizan 0.30 en lugar de 0,29, lo que no cambia demasiado la cosa y arroja un valor ligeramente ms prudente.
Si la distribucin de la variable se puede
suponer triangular no simtrica,
la aproximacin al desvo estndar es
0.24 ( (max(x)-min(x)(
Si la distribucin de la variable se puede
suponer triangular simtrica, la aproximacin al desvo estndar es
0.20 ( (max(x)-min(x)(
Y si la distribucin de la variable se puede
suponer normal, la aproximacin al desvo estndar es
(max(x)-min(x)( ( 6
Estas aproximaciones no son demasiado confiables si max(x)-min(x) es muy grande o no se lo puede estimar con precisin. Si max(x)-min(x) es grande habr que estratificar a la poblacin (al respecto, ver el prximo captulo) y realizar los clculos para cada estrato.
Afortunadamente, en nuestro caso, contamos con un estudio previo: la muestra de 120 casos con MAScr. Ello nos permite una estimacin puntual de la varianza de la poblacin a partir de la cuasivarianza de la muestra: 108.000 y por lo tanto una estimacin puntual del desvo estndar de la poblacin calculando la raz cuadrada de la cuasivarianza muestral.
329
Valor que elevamos, por las dudas, a 350 (en forma arbitraria y para no perdernos en los vericuetos de las estimaciones de varianzas o desvos estndar mediante intervalos de confianza).
Teniendo en cuenta que el mximo error de estimacin deseado es de $40 aplicamos entonces la frmula para el tamao de la muestra con variables intervalares o de razones y...
...llegamos a la conclusin que el tamao de muestra necesario para cumplir con el objetivo de estimacin para la media es de 307 casos, si MAScr.
V.8.C - Tamao de muestra (criterio estadstico) para la estimacin del total con MAScr
Nos queda ahora calcular el tamao de muestra para la estimacin del total. La frmula para ello (excusndonos del desarrollo que la justifica, ya que es similar a los de las proporciones y medias) es:
Como ya conocemos los valores a aplicar, remplazamos...
...y concluimos que el tamao de muestra necesario, si MAScr, para estimar el total de la remuneracin de todos los empleados con un error que no supere los $120.000 y una confianza del 95,46% es 630 casos.
Tambin podramos haber calculado el tamao de la muestra usando la frmula para tamao de muestra para la estimacin de la media. En este caso, el valor de ( surge del cociente del error de estimacin para el total sobre la cantidad de miembros de la poblacin, lo que nos da ((T)N = 120.000 4.300 = 27,907, y entonces...
V.8.D - Tamao de muestra (criterio estadstico) para distintas variables u objetivos
Tenemos entonces tres tamaos de muestra diferentes:
Para estimacin decon nivel de confianzay mximo error de estimacinSi MAScr, necesitamos una muesta de ... casos
P jefes/as y
P reas de trabajo95,46%3%1.112
( remuneracin$40307
T remuneracin$120.000630
Evidentemente el tamao de muestra necesario para estimar P de acuerdo a los objetivos planteados es sobradamente grande para la estimacin de ( y T. Pero, salvo que se acuerde una solucin de compromiso sacrificando precisin en la estimacin de P, el tamao de muestra a seleccionar es de 1.112 casos, ya que es el nico que cumple acabadamente con la demanda.
V.9 - El tamao de muestra (criterio estadstico) para MASsr
Al igual que con el MAScr partimos de la relacion...
V.9.A - Tamao de muestra (criterio estadstico) para estimacin de proporciones con MASsr
...que para el MASsr y variables de nivel de medicin nominal u ordinal se expresa como (simplificando la notacin z(k/2) por z)...
y, despejando n...
( ( ( ( ( ( (
Entonces, recordando que la cantidad de empleados de nuestra poblacin objetivo es 4.300, y bajo el supuesto de mxima heterogeneidad para cualquiera de las categoras de las variables nominales u ordinales, calculamos el tamao de muestra necesario para realizar estimaciones mediante intervalos con una confianza del 95,5% y un mximo error de estimacin de 3 puntos porcentuales.
...siendo entonces el tamao necesario de 884 casos.Pero podemos simplificar estos clculos. Llegamos al mismo resultado si, partiendo del clculo del tamao de muestra con MAScr, al que denotaremos n0 (n sub cero), aplicamos la correccin:
Calculamos primero n0 (el tamao de muestra para MAScr).
y, luego, aplicando la correccin...
V.9.B - Tamao de muestra (criterio estadstico) para estimacin de medias con MASsr
Siguiendo el mismo razonamiento que para las proporciones con MASsr, despejamos n de...
...y llegamos a...
( ( ( ( ( (
(
Calculemos ahora el tamao de muestra necesario para los objetivos planteados, recordando que se pretende un mximo error de estimacin de $40 con una confianza del 95,46% y habiendo ya estimado el desvo estndar de la poblacin en $350 (todos los comentarios sobre la estimacin del desvo estndar realizados al tratar el tamao de muestra con MAScr se aplican al MASsr)
Al igual que con el MAScr, podemos simplificar los clculos aplicando la correccin:.
Calculamos primero n0 (el tamao de muestra para MAScr)...
...y luego, aplicando la correccin...
...estableciendo que el tamao mnimo de muestra que cumple con los objetivos planteados, si MASsr, es 286 casos.
V.9.C - Tamao de muestra (criterio estadstico) para la estimacin del total con MASsr
Cmo para el tamao de muestra para la estimacin del total el desarrollo es similar a los de las proporciones y medias, pasamos directamente a utilizar el factor de correccin::
siendo n0, para la estimacin de totales...
V.10 - Resumen de frmulas
V.10.A - Para estimacin mediante intervalos de confianzafrmula general
Medida a estimarSeleccin
MAScrMASsr
Media aritmticaIC((,k)=
TotalIC(T,k)=
ProporcinIC(P,k)=
donde...
ICintervalo de confianza
(parmetro
knivel de confianza
estimador puntual del parmetro
estimacin puntual del error estndar del estimador (o del error estndar de la distribucin muestral del estadstico)
(media aritmtica de la poblacin
media aritmtica de la muestra
Ttotal de la poblacin
z(k/2)puntaje z correspondiente al rea bajo la curva normal para la mitad de la confianza
pproporcin en la muestra
q1-p o, en porcentajes, 100-p
s2cuasivarianza muestral
ffraccin de muestreo (n/N)
ntamao de la muestra
Ntamao de la poblacin
1-fequivale a (N-n)/N
V.10.B - Para calcular el tamao mnimo de muestra requerido para una determinada confianza y un mximo error de estimacin deseado (criterio estadstico) Seleccin
MAScrMASsr
Media aritmtican=
Totaln=
Proporcinn=
donde...
Ntamao de la poblacin
Pproporcin en la poblacin
Q1-P o, en porcentajes, 100-P
desvo estndar de la poblacin
(mximo error de estimacin deseado
n0tamao de muestra para MAScr
Recordando que la varianza de una propocin es calculable mediante el artificio de asignar valor 1 al cumplimiento del atributo y 0 al no cumplimiento (o 100 y 0, si deseamos trabajar con porcentajes), y que el producto de P( Q coincide con esta varianza, por lo que su raz cuadrada arroja el valor del desvo estndar.
Apuntes para el Curso: Teora y Prctica del Muestreo (coordinador: Mitas, G.), abril 2002, Mecovi, Indec, Buenos Aires
_1150587714.unknown
_1150636133.unknown
_1150678102.unknown
_1150678231.unknown
_1150678260.unknown
_1157237150.unknown
_1157237669.unknown
_1157238803.unknown
_1157240645.unknown
_1157237538.unknown
_1150678261.unknown
_1150678278.unknown
_1150678258.unknown
_1150678259.unknown
_1150678244.unknown
_1150678251.unknown
_1150678184.unknown
_1150678222.unknown
_1150678164.unknown
_1150636976.unknown
_1150639098.unknown
_1150674537.unknown
_1150678060.unknown
_1150678069.unknown
_1150675246.unknown
_1150675536.unknown
_1150677764.unknown
_1150675328.unknown
_1150674759.unknown
_1150673211.unknown
_1150673632.unknown
_1150674529.unknown
_1150673612.unknown
_1150672759.unknown
_1150637422.unknown
_1150637667.unknown
_1150636978.unknown
_1150636854.unknown
_1150636974.unknown
_1150636975.unknown
_1150636973.unknown
_1150636958.unknown
_1150636792.unknown
_1150636835.unknown
_1150636439.unknown
_1150634034.unknown
_1150634326.unknown
_1150634944.unknown
_1150635540.unknown
_1150634353.unknown
_1150634324.unknown
_1150634325.unknown
_1150634198.unknown
_1150589498.unknown
_1150633892.unknown
_1150633936.unknown
_1150633878.unknown
_1150588176.unknown
_1150589357.unknown
_1150587868.unknown
_1149451649.unknown
_1149454530.unknown
_1150585260.doc
_1150587524.unknown
_1150587655.unknown
_1150587510.unknown
_1149521571.xlsGrfico6
100
98
96
94
92
90
88
86
84
82
80
78
76
74
72
70
68
66
64
62
60
58
56
54
52
50
48
46
44
42
40
38
36
34
32
30
28
26
24
22
20
18
16
14
12
10
Hoja1
1013.5805548588
1113.275
11
1113.05
12
14
14
14
15
16
20
20
20
22
22
22
25
25
25
25
26
27
28
29
30
34
34
34
34
37
37
37
38
39
42
42
42
42
42
43
44
45
46
47
50
50
50
50
51
52
53
54
55
xf
110100
21198
31296
94
41492
51590
61688
86
84
82
72080
78
82276
74
72
92570
102668
112766
122864
132962
143060
58
56
54
153452
50
48
163746
173844
183942
40
38
194236
204334
214432
224530
234628
244726
24
22
255020
265118
275216
285314
295412
305510
Hoja1
_1149522592.xlsGrfico8
3
5
7
9
11
13
15
17
19
21
23
25
27
29
31
33
35
37
39
41
43
45
43
41
39
37
35
33
31
29
27
25
23
21
19
17
15
13
11
9
7
5
3
Hoja1
1013.5805548588
1113.275
11
1113.05
12
14
14
14
15
16
20
20
20
22
22
22
25
25
25
25
26
27
28
29
30
34
34
34
34
37
37
37
38
39
42
42
42
42
42
43
44
45
46
47
50
50
50
50
51
52
53
54
55
xf
11031
21152
31273
9
41411
51513
61615
17
19
21
72023
25
82227
29
31
92533
102635
112737
122839
132941
143043
45
43
41
153439
37
35
163733
173831
183929
27
25
194223
204321
214419
224517
234615
244713
11
9
25507
26515
27523
2853
2954
3055
Hoja1
_1149548748.unknown
_1149549053.unknown
_1149521649.xlsGrfico7
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
52
54
56
58
60
62
64
66
68
70
72
74
76
78
80
82
84
86
88
90
92
94
96
98
100
Hoja1
1013.5805548588
1113.275
11
1113.05
12
14
14
14
15
16
20
20
20
22
22
22
25
25
25
25
26
27
28
29
30
34
34
34
34
37
37
37
38
39
42
42
42
42
42
43
44
45
46
47
50
50
50
50
51
52
53
54
55
xf
11010
21112
31214
16
41418
51520
61622
24
26
28
72030
32
82234
36
38
92540
102642
112744
122846
132948
143050
52
54
56
153458
60
62
163764
173866
183968
70
72
194274
204376
214478
224580
234682
244784
86
88
255090
265192
275294
285396
295498
3055100
Hoja1
_1149454624.unknown
_1149520529.xlsGrfico1
10
10
10
20
10
10
40
20
30
10
10
10
10
10
40
30
10
10
30
10
10
10
10
10
30
10
10
10
10
10
Hoja1
1013.5805548588
1113.275
11
11
12
14
14
14
15
16
20
20
20
22
22
22
25
25
25
25
26
27
28
29
30
34
34
34
34
37
37
37
38
39
42
42
42
42
42
43
44
45
46
47
50
50
50
50
51
52
53
54
55
xf
11010
21110
31210
41420
51510
61610
72040
82220
92530
102610
112710
122810
132910
143010
153440
163730
173810
183910
194230
204310
214410
224510
234610
244710
255030
265110
275210
285310
295410
305510
Hoja1
_1149454568.unknown
_1149452314.unknown
_1149454059.unknown
_1149454439.unknown
_1149453964.unknown
_1149452138.unknown
_1149452287.unknown
_1149451682.unknown
_1149382865.unknown
_1149384795.unknown
_1149384944.unknown
_1149389352.unknown
_1149384825.unknown
_1149384943.unknown
_1149384817.unknown
_1149383773.unknown
_1149384757.unknown
_1149384186.unknown
_1149383509.unknown
_1149383609.unknown
_1149382967.unknown
_1149363060.unknown
_1149371175.unknown
_1149382856.unknown
_1149364118.unknown
_1149364594.unknown
_1149030969.unknown
_1149032822.unknown
_1149032913.unknown
_1149031060.unknown
_1149030055.unknown
_1149030762.unknown
_1149001919.unknown