libro osval

243
Prólogo C Omo nunca antes, la sociedad produce enormes cantidades de informa- ción, de ahí que a menudo sea llamada sociedad de la información y del conocimiento. Los gobiernos, las empresas privadas, las instituciones y los ciudadanos usan datos intensamente para tomar decisiones bajo situaciones inciertas: los partidos políticos quieren saber cuántos votos tendrán en las próximas elecciones, las empresas desean conocer sus consumidores poten- ciales, los investigadores a menudo (con frecuencia) deben estimar las áreas afectadas por una plaga, en fin, las aplicaciones son infinitas. En tanto no es posible evaluar todos los datos o la población total, es más factible y eficiente extraer una muestra que pueda validar estadísticamente y con una confianza aceptable los resultados para los datos o la población en su conjunto. ¿Por qué este libro? El interés por escribir este libro que el lector tiene en sus manos, surgió porque muchos administradores, estudiantes y profesionistas de nuestras in- stituciones académicas frecuentemente nos pedían apoyo para calcular tamaños de muestras, con el fin de fundamentar sus decisiones o incluso sus proyec- tos de investigación. El objetivo del libro es precisamente ayudar a elegir el esquema de muestreo apropiado, calcular el tamaño de muestra y hacer las estimaciones correspondientes, lo cual no es una tarea fácil para las personas que carecen de una formación intermedia o avanzada en estadística, además de que la mayoría de los libros de esta temática suelen ser poco accesibles. Estructura del libro El libro contiene una introducción general y seis capítulos adicionales que cubren conceptos básicos de estadística y los métodos de muestreo aleatorio simple, aleatorio estratificado, sistemático, por conglomerados en una etapa y de respuestas aleatorizadas; así mismo, por su naturaleza aplicada, el libro está acompañado por muchos ejemplos y ejercicios para que el lector prac- tique los conceptos aprendidos. Pero es preciso aclarar dos cosas. En primer lugar, todos los métodos de muestreo cubiertos en este libro suponen que el investigador ya aplicó una encuesta piloto. Y en segundo lugar, para todos los métodos resaltamos la estimación puntual y por intervalo de la media, la proporción y el total poblacioneal, hechando mano de la información recabada con la encuesta piloto. En el capítulo 1 la introducción general describe en términos globales los métodos que cubren a detalle los capítulos posteriores, y también incluye ejer- cicios a fin de que el lector adquiera la habilidad de seleccionar el método de muestreo apropiado para su investigación y domine conceptos fundamentales como confiabilidad, precisión, muestra preliminar o piloto, marco de muestreo . El capítulo 2 aborda los conceptos básicos de estadística y muestreo estadís- tico que serán útiles para entender las técnicas de muestreo y como obtener los valores de las tablas de la distribución normal estándar y t-student; entre otras cosas, el capítulo versa sobre poblaciones, muestras, escalas de medi- ción, parámetros y estimadores, sumatorias, variables aleatorias, la distribu- ción normal y t-Student, los tipos de muestreo y las características deseables

Upload: luis-fernando-castro-martinez

Post on 19-Oct-2015

164 views

Category:

Documents


0 download

TRANSCRIPT

  • Prlogo

    COmo nunca antes, la sociedad produce enormes cantidades de informa-cin, de ah que a menudo sea llamada sociedad de la informacin ydel conocimiento. Los gobiernos, las empresas privadas, las instituciones y losciudadanos usan datos intensamente para tomar decisiones bajo situacionesinciertas: los partidos polticos quieren saber cuntos votos tendrn en lasprximas elecciones, las empresas desean conocer sus consumidores poten-ciales, los investigadores a menudo (con frecuencia) deben estimar las reasafectadas por una plaga, en fin, las aplicaciones son infinitas. En tanto no esposible evaluar todos los datos o la poblacin total, es ms factible y eficienteextraer una muestra que pueda validar estadsticamente y con una confianzaaceptable los resultados para los datos o la poblacin en su conjunto.

    Por qu este libro?El inters por escribir este libro que el lector tiene en sus manos, surgi

    porque muchos administradores, estudiantes y profesionistas de nuestras in-stituciones acadmicas frecuentemente nos pedan apoyo para calcular tamaosde muestras, con el fin de fundamentar sus decisiones o incluso sus proyec-tos de investigacin. El objetivo del libro es precisamente ayudar a elegir elesquema de muestreo apropiado, calcular el tamao de muestra y hacer lasestimaciones correspondientes, lo cual no es una tarea fcil para las personasque carecen de una formacin intermedia o avanzada en estadstica, ademsde que la mayora de los libros de esta temtica suelen ser poco accesibles.

    Estructura del libroEl libro contiene una introduccin general y seis captulos adicionales que

    cubren conceptos bsicos de estadstica y los mtodos de muestreo aleatoriosimple, aleatorio estratificado, sistemtico, por conglomerados en una etapay de respuestas aleatorizadas; as mismo, por su naturaleza aplicada, el libroest acompaado por muchos ejemplos y ejercicios para que el lector prac-tique los conceptos aprendidos. Pero es preciso aclarar dos cosas. En primerlugar, todos los mtodos de muestreo cubiertos en este libro suponen que elinvestigador ya aplic una encuesta piloto. Y en segundo lugar, para todoslos mtodos resaltamos la estimacin puntual y por intervalo de la media, laproporcin y el total poblacioneal, hechando mano de la informacin recabadacon la encuesta piloto.

    En el captulo 1 la introduccin general describe en trminos globales losmtodos que cubren a detalle los captulos posteriores, y tambin incluye ejer-cicios a fin de que el lector adquiera la habilidad de seleccionar el mtodo demuestreo apropiado para su investigacin y domine conceptos fundamentalescomo confiabilidad, precisin, muestra preliminar o piloto, marco de muestreo. El captulo 2 aborda los conceptos bsicos de estadstica y muestreo estads-tico que sern tiles para entender las tcnicas de muestreo y como obtenerlos valores de las tablas de la distribucin normal estndar y t-student; entreotras cosas, el captulo versa sobre poblaciones, muestras, escalas de medi-cin, parmetros y estimadores, sumatorias, variables aleatorias, la distribu-cin normal y t-Student, los tipos de muestreo y las caractersticas deseables

  • de las encuestas.

    Los captulos 3 y 4 tratan sobre el muestreo aleatorio simple y estratifica-do, respectivamente. En el muestreo simple todas las muestras de tamao ntienen la misma probabilidad de ser elegidas, mientras que en el estratificadola poblacin total se divide en subpoblaciones o estratos con criterios clara-mente definidos. La idea central de la estratificacin es reducir el costo dela investigacin, porque muchas variables comparten caractersticas similarescomo gustos, sexo, hbitos alimenticios, ubicacin geogrfica, etc. De igualmanera para reducir costos, el captulo 5 presenta la tcnica del muestreo sis-temtico, donde la muestra se compone de unidades extradas dando saltos dek unidades de la poblacin. Otra ventaja de este mtodo es que slo se fija unintervalo de seleccin de las unidades muestrales y por ello se evita el uso demtodos de aleatorizacin complejos.

    Para finalizar, los captulos 6 y 7 cubren los mtodos de muestreo por con-glomerados en un etapa y de respuesta aleatorizada. El primer mtodo ayu-da a simplificar los muestreos exhaustivos cuando la poblacin es demasia-do grande y sus elementos comparten rasgos comunes. Por ejemplo, en lasencuestas nacionales de los clientes bancarios, de los usuarios de serviciospblicos o del control de calidad de ciertos medicamentos. Por su parte, elmtodo de respuesta aleatorizada, que se complementa con el aleatorio sim-ple o el estratificado, intenta resolver el problema de la falta de respuestas apreguntas sensibles como el uso de enervantes, relaciones sexuales o de otrandole. Adems, para este caso se presenta el procedimiento desarrollado porS. Warner (1965) para obtener respuestas difciles que ayuden estimar la pro-porcin de personas con la caracterstica de inters que se busca.

    AgradecimientosQueremos dar las gracias a todas las personas que influyeron positivamente

    en la realizacin de este libro. En especial, a nuestros alumnos de la Licen-ciatura en Informtica, de Ingeniera en Telemtica y los de la Facultad deCiencias de la Universidad de Colima, por su paciencia, tolerancia y sugeren-cias para mejorar los borradores. Tambin a los alumnos Martn Hugo del ToroGuzmn, Hugo Torres Lpez Y Henry Nicole Ramrez de la Facultad de Cien-cias, por su apoyo en la captura de la versin preliminar de los manuscritos.

    Los autoresColima, Mxico

  • ndice general

    1. Introduccin 1

    2. Conceptos bsicos de estadstica 32.1. Qu es la estadstica y para qu sirve? . . . . . . . . . . . . . . . 32.2. Poblacin y muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4. Qu es una medicin? . . . . . . . . . . . . . . . . . . . . . . . . . 62.5. Las escalas de medicin . . . . . . . . . . . . . . . . . . . . . . . . . 72.6. Parmetros y estimadores . . . . . . . . . . . . . . . . . . . . . . . 82.7. Sumatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.8. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.9. La distribucin normal . . . . . . . . . . . . . . . . . . . . . . . . . 112.10.La distribucin normal estndar . . . . . . . . . . . . . . . . . . . . 122.11.El Teorema Central del Lmite . . . . . . . . . . . . . . . . . . . . . 132.12.La distribucin t-Student . . . . . . . . . . . . . . . . . . . . . . . . 142.13.Los tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . 152.14.El marco de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . 172.15.Pasos a seguir en el diseo de una encuesta . . . . . . . . . . . . . 182.16.Las ventajas y desventajas del muestreo . . . . . . . . . . . . . . . 222.17.Las caractersticas deseables en una investigacin por muestreo . 232.18.Errores de las encuestas . . . . . . . . . . . . . . . . . . . . . . . . 242.19.Muestra preliminar o piloto . . . . . . . . . . . . . . . . . . . . . . . 242.20.La precisin de la estimacin . . . . . . . . . . . . . . . . . . . . . . 25

    2.20.1.Elementos para elegir la precisin o margen de error . . . . 262.21.Uso de tablas para la distribucin normal estndar y t-student . 28

    2.21.1.Distribucin normal estndar para n > 30 . . . . . . . . . . 282.21.2.Distribucin t-student para n 30 . . . . . . . . . . . . . . . 30

    3. Muestreo aleatorio simple 333.1. Tipos de muestreo aleatorio simple . . . . . . . . . . . . . . . . . . 343.2. Seleccin de una muestra aleatoria simple . . . . . . . . . . . . . . 353.3. Estimacin de la media poblacional . . . . . . . . . . . . . . . . . . 36

    3.3.1. Estimador de la media y del total muestral . . . . . . . . . . 373.3.2. Estimacin de la varianza . . . . . . . . . . . . . . . . . . . . 373.3.3. Estimacin por intervalo . . . . . . . . . . . . . . . . . . . . 383.3.4. Determinacin del tamao de la muestra . . . . . . . . . . . 403.3.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    3.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.5. La estimacin de una proporcin poblacional . . . . . . . . . . . . 52

    III

  • 3.5.1. La medicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.5.2. El estimador de la proporcin poblacional P y su relacin

    con el estimador de una media poblacional . . . . . . . . . 523.5.3. La varianza de la poblacin para una proporcin . . . . . . 533.5.4. Los intervalos de confianza . . . . . . . . . . . . . . . . . . . 543.5.5. El tamao de muestra requerido para estimar P . . . . . . 553.5.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    4. El muestreo aleatorio estratificado 654.1. Ventajas de utilizar MAE . . . . . . . . . . . . . . . . . . . . . . . . 664.2. Cmo seleccionar una muestra aleatoria estratificada? . . . . . . 674.3. La estimacin de la media poblacional . . . . . . . . . . . . . . . . 67

    4.3.1. El estimador de la varianza de la media estratificada . . . . 684.3.2. El intervalo de confianza para la estimacin de la media

    estratificada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694.3.3. El estimador del total estratificado . . . . . . . . . . . . . . 694.3.4. La varianza del estimador del total estratificado . . . . . . . 694.3.5. El intervalo de confianza . . . . . . . . . . . . . . . . . . . . 694.3.6. La determinacin del tamao de la muestra . . . . . . . . . 694.3.7. La asignacin de la muestra . . . . . . . . . . . . . . . . . . 71

    4.4. La seleccin de estratos . . . . . . . . . . . . . . . . . . . . . . . . . 724.4.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

    4.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874.6. La estimacin de la proporcin poblacional . . . . . . . . . . . . . 88

    4.6.1. El estimador de la proporcin y total poblacional . . . . . . 894.6.2. Los intervalos de confianza para la proporcin y total pobla-

    cional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 904.6.3. El tamao de muestra para estimar la proporcin estratifi-

    cada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 904.6.4. Asignacin de la muestra . . . . . . . . . . . . . . . . . . . . 914.6.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    4.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

    5. El muestreo sistemtico 1055.1. Tipos de poblacin por su estructura . . . . . . . . . . . . . . . . . 1075.2. Cmo seleccionar una muestra sistemtica? . . . . . . . . . . . . 1085.3. La estimacin de la media poblacional . . . . . . . . . . . . . . . . 110

    5.3.1. La varianza de la media y del total. . . . . . . . . . . . . . . 1105.3.2. El intervalo de confianza de la media y el total . . . . . . . . 1115.3.3. La seleccin del tamao de la muestra. . . . . . . . . . . . . 1115.3.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

    5.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1225.5. La estimacin de la proporcin poblacional . . . . . . . . . . . . . 124

    5.5.1. El estimador de la proporcin y el total . . . . . . . . . . . . 1245.5.2. La varianza estimada de la proporcin y el total sistemtico 1255.5.3. El intervalo de confianza para la proporcin y el total sis-

    temtico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

  • 5.5.4. La seleccin del tamao de muestra para la proporcin y eltotal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

    5.5.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1265.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

    6. El muestreo por conglomerados en una etapa 1396.1. Qu puede ser un conglomerado? . . . . . . . . . . . . . . . . . . 1406.2. Una comparacin con el muestreo estratificado . . . . . . . . . . . 1416.3. Acerca del tamao del conglomerado . . . . . . . . . . . . . . . . . 1426.4. La estimacin de una media y un total poblacional con M conocida143

    6.4.1. El estimador de la media poblacional . . . . . . . . . . . . . 1436.4.2. El estimador del total poblacional . . . . . . . . . . . . . . . 1446.4.3. La varianza estimada de yc y c . . . . . . . . . . . . . . . . . 1446.4.4. El intervalo de confianza de la media y el total . . . . . . . . 1446.4.5. La determinacin del tamao de muestra . . . . . . . . . . 1456.4.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

    6.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1606.6. La estimacin de la media y un total cuando se desconoce M . . . 162

    6.6.1. Qu sucede cuando se desconoce el tamao de la poblacinM? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

    6.6.2. El estimador de la media y el total poblacional . . . . . . . 1626.6.3. La varianza estimada de la media y del total. . . . . . . . . 1636.6.4. El intervalo de confianza de la media y del total. . . . . . . 1636.6.5. Los tamaos de muestra para estimar la media y el total . 163

    6.7. La estimacin de una proporcin poblacional . . . . . . . . . . . . 1646.7.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

    6.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

    7. El muestreo basado en el mtodo de respuesta aleatorizada 1757.1. Cundo se utiliza esta tcnica? . . . . . . . . . . . . . . . . . . . . 1767.2. Ventajas y desventajas . . . . . . . . . . . . . . . . . . . . . . . . . 1777.3. El modelo de respuesta aleatorizada bajo el MAS . . . . . . . . . . 177

    7.3.1. El estimador de la proporcin y el total poblacional . . . . 1797.3.2. La varianza estimada de los estimadores de la proporcin

    y del total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1797.3.3. El intervalo de confianza de la proporcin y el total . . . . . 1797.3.4. El tamao de la muestra para la proporcin y el total . . . 1807.3.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

    7.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1917.5. El modelo de respuesta aleatorizada bajo el MAE . . . . . . . . . 191

    7.5.1. El estimador de la proporcin y el total poblacional . . . . . 1927.5.2. La varianza de los estimadores de la proporcin y total

    poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1927.5.3. El intervalo de confianza para el promedio y total poblacional1927.5.4. El tamao de la muestra para estimar la proporcin y el total1937.5.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

    7.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2097.7. Alternativa al modelo de respuesta aleatorizada . . . . . . . . . . . 2117.8. Respuesta aleatorizada versin Horvitz bajo MAS . . . . . . . . . 212

  • 7.8.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2137.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2207.10.Respuesta aleatorizada versin Horvitz bajo MAE . . . . . . . . . 2227.11.Cul mtodo de respuesta aleatorizada es mejor? . . . . . . . . . 223

    A. Tablas de la distribucin normal estndar y de la distribucin t-student 225

  • ndice de figuras

    2.1. Forma de la distribucin normal para la variable estatura (Y ) con media90 cm. y DE=5 cm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.2. Forma de la distribucin normal estndar (Z), es decir, Z N( =0, 2 = 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    2.3. Comparacin de la distribucin normal estndar con las distribucionest-student con 1, 3, 5 y 10 gados de libertad . . . . . . . . . . . . . . . 15

    5.1. La dispersin del marco de muestreo de una poblacin aleatoria . . . . 1075.2. La dispersin del marco de muestreo de una poblacin ordenada . . . . 108

    A.1. Varianzas de distribuciones finitas (S2), en funcin de su forma yrango. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

    III

  • ndice de cuadros

    2.1. Ejemplo 1 para el uso de las tablas de la normal estndar . . . . 292.2. Ejemplo 2 para el uso de las tablas de la normal estndar . . . . 292.3. Ejemplo 3 para el uso de las tablas de la normal estndar . . . . 302.4. smallcaption . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.5. Ejemplo para el uso de las tablas de la distribucin t-student . . 31

    4.1. Plantas por hectrea infectadas . . . . . . . . . . . . . . . . . . . . 734.2. Faltas justificadas por ao. . . . . . . . . . . . . . . . . . . . . . . . 774.3. El ingreso promedio mensual (miles de pesos) de las familias chia-

    panecas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 804.4. El nmero de horas diarias que cada familia ve televisin . . . . . 844.5. Resultado del nmero ms probable de coliformes fecales por 100

    ml. de agua. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874.6. Calificaciones de los egresados de la Normal Superior . . . . . . . 884.7. Dao promedio a corazon de las tres sepas en porcentaje. . . . . 884.8. Porcentaje de tanino por kg. de nance. . . . . . . . . . . . . . . . . 89

    5.1. Esquema de un muestreo sistemtico . . . . . . . . . . . . . . . . 1065.2. El porcentaje de grasa por envase de leche ultrapasteurizada . . . 1125.3. El peso de los sacos de maz (Kg) . . . . . . . . . . . . . . . . . . . 1155.4. El porcentaje de sacarosa por planta . . . . . . . . . . . . . . . . . 1185.5. El nmero de microprocesadores daados por caja . . . . . . . . . 1205.6. Datos de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . 1235.7. Datos de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . 1235.8. Datos de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . 1245.9. Datos de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . 1245.10.Los alumnos satisfechos e insatisfechos. . . . . . . . . . . . . . . . 1265.11.Los colimenses que al menos en una ocasin se han enfermado

    de dengue. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1295.12.Los estudiantes que tienen licencia para conducir . . . . . . . . . 1315.13.Los asegurados que contrajeron gripe o tos por lo menos una vez

    en los ltimos seis meses . . . . . . . . . . . . . . . . . . . . . . . . 1345.15.Albailes que consumen cerveza . . . . . . . . . . . . . . . . . . . . 1365.16.Muestra de colchones. . . . . . . . . . . . . . . . . . . . . . . . . . 1375.17.colimenses que han visitado Francia. . . . . . . . . . . . . . . . . . 1375.18.colimenses que han visitado Palenque, Chiapas. . . . . . . . . . . 137

    6.2. El gasto en tiles escolares por estudiante (en pesos). . . . . . . . 1476.4. El contenido de carbohidratos por reja de refresco . . . . . . . . . 1516.5. Ejemplares comprados por familia. . . . . . . . . . . . . . . . . . . 154

    V

  • 6.6. Emigrantes de las 12 localidades. . . . . . . . . . . . . . . . . . . . 1576.7. Nivel de satisfaccin de los mdicos en cada hospital . . . . . . . 1616.8. Kg. de basura producidos por vivienda semanalmente. . . . . . . 1626.9. El total de cacahuates producidos por tramo . . . . . . . . . . . . 1656.10.El agua de coco por palmera (litros). . . . . . . . . . . . . . . . . . 1686.12.smallcaption . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1736.13.smallcaption . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

    A.1. Distribucin normal estndar acumulada. . . . . . . . . . . . . . . 226A.2. Puntos porcentuales de la distribucin t-student. . . . . . . . . . 227A.3. Tabla de nmeros aleatorios . . . . . . . . . . . . . . . . . . . . . . 229

  • Captulo 1

    Introduccin

    LOs cambios radicales en las tecnologas de la informacin y las telecomu-nicaciones han generado una enorme cantidad de informacin sin prece-dentes. La tecnologa est cambiando el mundo en que vivimos. La importanciade este cambio es comparable al de las revoluciones industriales de los siglosXVIII y XIX. En las dos ltimas dcadas, la Internet y las tecnologas de la in-formacin han transformado el funcionamiento de las empresas, los mtodosde aprendizaje de los estudiantes, los mtodos de investigacin de los cient-ficos y la forma en que los gobiernos prestan sus servicios a los ciudadanos.Las tecnologas digitales han demostrado ser un potente motor del crecimientoeconmico y de la competitividad. En general, estos cambios continuos y evo-lutivos han transformado a la sociedad, de una basada en la produccin deobjetos fsicos, a una donde el nfasis principal es la produccin e intercambiode informacin. Por consiguiente, se ha alterado no slo la interaccin humanacon la informacin, sino que tambin el comportamiento individual y colectivode los individuos (Danger, et. al., 1996 [8]), ya que exige cambios muy rpidosa los nuevos paradigmas.

    Los gobiernos, las empresas privadas, las instituciones, as como los ciu-dadanos, necesitan usar intensivamente informacin y datos para el anlisisde fenmenos y toma de decisiones en circunstancias de gran complejidad eincertidumbre. La informacin sobre la cantidad y calidad de un recurso paratomar tales decisiones pueden ser obtenidas mediante una evaluacin exhaus-tiva, esto es, cuantificar o calificar todo el recurso (poblacin). Sin embargo, enla mayora de las circunstancias no es posible o conveniente hacer la evalu-acin exhaustiva sobre toda la poblacin, principalmente por la carencia derecursos, por ello se justifica que gran parte de los conocimientos, actitudesy decisiones humanas estn basadas en el anlisis de informacin parcial, esdecir, en el estudio de muestras, concretamente en el uso del muestreo. Alhacer la evaluacin con solamente una fraccin de la poblacin o del recurso,se espera que las determinaciones hechas tambin pertenezcan a la poblacin,implcitamente se acepta esa suposicin, aunque siempre se corre el riesgo deque tal suposicin no sea totalmente cierta. El objetivo principal de las tcni-cas de muestreo es darle objetividad a ese riesgo.

    El uso del muestreo como un medio para obtener conocimiento y tomar de-cisiones, es algo normal y cotidiano en las actividades humanas. En estudios

    1

  • Captulo 1. Introduccin

    de mercado, el muestreo sirve para conocer las preferencias de los consumi-dores de cierto producto; en los estudios demogrficos y sociales, para conocerlos niveles de empleo y desempleo, los ingresos y niveles de escolaridad enlos habitantes de una ciudad o pas, la prevalencia y la incidencia de la dro-gadiccin, etc.; y en la industria, para el control de calidad en el proceso deproduccin. En fin, el muestreo se utiliza prcticamente en todas las reas delconocimiento.

    Sin embargo, elegir el esquema de muestreo, calcular el tamao de la mues-tra y realizar las estimaciones correspondientes no es una tarea fcil paratodas aquellas personas con poca formacin en estadstica. Por ello, este li-bro pretende ayudar a los investigadores, estudiantes y profesionales de lasdistintas reas del conocimiento que frecuentemente se encuentran con estosproblemas para que realicen sus actividades de una forma apropiada y eficaz.Adems, sirve en un primer curso de muestreo estadstico aplicado, dirigido aestudiantes de nivel licenciatura, en cualquier rea del conocimiento. El ma-terial no supone conocimientos profundos sobre matemticas o probabilidad ypor lo tanto, tampoco realizar demostraciones formales.

    Los objetivos centrales que persigue este documento son:

    Presentar la forma adecuada de seleccionar una muestra, lo que deno-minaremos diseos de muestreo, considerando las caractersticas de laspoblaciones de inters.

    Exponer las frmulas para calcular los estimadores.

    Exponer las frmulas adecuadas para calcular el tamao de una mues-tra para satisfacer las exigencias preestablecidas sobre la calidad de losestimadores.

    Proporcionar ejemplos ilustrativos para cada uno de los esquemas demuestreo para facilitar su comprensin.

    2

  • Captulo 2

    Conceptos bsicos de estadstica

    Que la estadstica es bella,no lo vengo a presumir.

    Slo requiere de entrega,para poderla sentir.

    OAML

    2.1. Qu es la estadstica y para qu sirve?

    EN la literatura existen numerosas definiciones de la estadstica. En lugarde hacer acopio de diversas definiciones y darnos a la tarea de comparar-las, sealando su ambigedad o insuficiencia, aceptaremos la siguiente:

    EstadsticaLa estadstica es la ciencia que se ocupa de los mtodos y pro-cedimientos para recoger, clasificar, resumir, hallar regularidades yanalizar los datos, siempre y cuando la variabilidad e incertidumbresea una causa intrnseca de los mismos; as como de realizarinferencias a partir de ellos, con la finalidad de ayudar a la toma dedecisiones y en su caso formular predicciones (Johnson, 1996).

    La estadstica sirve para:

    Describir las diferentes medidas en un conjunto de objetos me-diante el anlisis de algunos de sus elementos.

    Tomar decisiones sobre opciones diversas con informacin par-cial contenida en un conjunto de datos.

    Predecir el comportamiento de una medida o caracterstica, encondiciones no observadas.

    Los usos y aplicaciones son innumerables; sin embargo, stos se puedenresumir en algunos de los puntos ya descritos con la finalidad de inferir sobrela poblacin (estimacin y prueba de hiptesis).

    Como en todas las reas del conocimiento, el muestreo emplea una termi-

    3

  • Captulo 2. Conceptos bsicos de estadstica

    nologa especfica que define de manera apropiada los conceptos que se uti-lizan, por lo que es conveniente revisar algunos de ellos, en particular de la es-tadstica, y presentar la simbologa que se emplea en las tcnicas de muestreo.

    ConjuntoEs una coleccin de objetos definidos y distinguibles cuyanica propiedad indispensable es que sean identificados comopertenecientes a dicho conjunto. A cada uno de los objetos que loconstituyen se le llama elemento.

    Por ejemplo, todas las computadoras dentro de una empresa o laboratoriopueden constituir un conjunto; tambin los estudiantes y las sillas dentro deun saln de clases constituyen un conjunto. Cabe mencionar que no es unrequisito que los objetos sean de la misma naturaleza, aunque la mayora delos casos que involucra las tcnicas de muestreo los objetos suelen ser de lamisma clase, o al menos muy semejantes.

    2.2. Poblacin y muestra

    Como se dijo, las tcnicas de muestreo, y en general los mtodos estads-ticos, se aplican a un conjunto de datos propios de un conjunto de objetos.Denominamos poblacin al conjunto de objetos tanto como al conjunto de va-lores. El segundo es una funcin del primero, y aunque con frecuencia no sedistinguen explcitamente, el contexto en que se usa el trmino de poblacindeja en claro la referencia. En este libro se usar la poblacin, que se refiereal conjunto de mediciones que se hacen sobre una caracterstica de inters entodos y cada uno de los elementos del conjunto de objetos.

    Poblacin. Es una coleccin de objetos o de entes que se caracteri-zan por poseer o compartir ciertas caractersticas (propiedades) encomn.Muestra. Es un subconjunto de elementos o unidades, selecciona-dos con alguna tcnica, de la poblacin en estudio.

    La poblacin es el conjunto que incluye todas las partes constitutivas de unrecurso. As, la poblacin es un conjunto de nmeros que tienen las unidadesen que se hace la medicin.

    En general, en el anlisis no suelen incluirse las unidades de medicinde los valores de una variable, es decir, stos se analizan simplemente co-mo nmeros. Sin embargo, resulta conveniente recordar que los valores deuna variable siempre representan dimensiones fsicas o de otra naturaleza,como peso, volumen, longitud, etc., y que estas dimensiones son medidas enunidades como kilogramos, metros cbicos, centmetros, etc., por lo que losresultados del anlisis son coherentes si se usan las unidades de medicin, loque facilita enormemente su interpretacin.

    4

  • Por ejemplo, si el recurso son los estudiantes de la Universidad de Colima yla caracterstica de inters es su estatura promedio, la poblacin original sontodos los estudiantes, pero la poblacin a la que las tcnicas de muestreo sereferirn son el conjunto constituido por las estaturas de esos estudiantes, queestarn denominadas por el nmero que indica la dimensin y las unidadesen que se miden; por ejemplo 1.75 metros podra ser uno de los elementosconstitutivos del conjunto poblacin.

    El muestreo, en un sentido amplio, es un proceso que tiene como propsitoobtener conocimientos de las caractersticas generales de una poblacin, me-diante la muestra. En contraste, el censo es un proceso de revisin exhaustivode la poblacin, es decir, mide la caracterstica de inters de todas las unidadesde la poblacin.

    2.3. Variables

    Una variable es una caracterstica de los elementos de una poblacin y seobtiene con una medicin o una calificacin. La altura de los estudiantes esuna variable, tambin lo es la marca de computadoras porttiles que se en-cuentran en el mercado actual. El peso de cada silla o de cada estudiantetambin es una variable.

    Una variable continua, como su nombre lo indica, es aquella donde son posi-bles todos los valores dentro de un intervalo de los nmeros reales, al menostericamente, ya que prcticamente, por limitaciones de los instrumentos demedicin, muchos valores en ese intervalo no pueden ser observados. En gene-ral, este tipo de variables incluye mediciones en kilogramos, centmetros, etc.,cuya precisin puede ser incrementada indefinidamente, afinando ms y msel instrumento de medicin.

    Una variable discreta se puede medir en una escala que no incluye todos losvalores posibles de un intervalo de los nmeros reales. Ejemplos de este tipode variables son los conteos, el nmero de personas de un lugar, el nmero delibros en una biblioteca, entre otros.

    Las variables por atributos permiten la clasificacin en funcin de la pre-sencia de cierta propiedad en el elemento que desea evaluarse. La pertenenciaa un grupo tnico es un ejemplo de un atributo; podra haber un nmero va-riable de atributos, como tener varios grupos tnicos, lo que permitira hacerdiversos grupos y cada elemento pertenecera solamente a uno de esos gruposo clases.

    Las tcnicas de muestreo se aplican directamente a conjuntos de valoresmedidos en escalas apropiadas para variables continuas, discretas o de atribu-tos.

    Digamos que pudiera ser de inters describir econmica y socialmente lasfamilias del estado de Colima, para ello se aplica un cuestionario a cada fami-

    5

  • Captulo 2. Conceptos bsicos de estadstica

    lia con preguntas sobre su situacin socioeconmica, como ingreso mensual,el nmero de integrantes de la familia, el nmero de individuos que trabajan,el tipo de ocupacin, entre otras. El conjunto de mediciones de cualquiera deestas variables medidas es el sujeto de aplicacin de las tcnicas de muestreo.Otro ejemplo puede ser la determinacin de la calidad del aire en la Ciudadde Mxico, para ello se toman mediciones de diferentes contaminantes: el con-junto de las mediciones del contaminante es la variable a la que se aplican losconceptos del muestreo. Pueden ser muchas las variables que se midan, peroel muestreo que aqu estudiaremos es univariado, es decir, se toma solamenteuna variable a la vez; aunque el estudio incluya varias variables, el proceso serealiza sobre todas y no ms de una al mismo tiempo.

    Funcin es otro termin muy usado. Matemticamente, el concepto de fun-cin consta de tres elementos, dos conjuntos y una regla que asocia o vinculaa cada elemento del primer conjunto con uno y slo uno de los elementos delsegundo conjunto. Una lista de nombres y un grupo de estudiantes pueden seruna funcin si cada nombre de la lista corresponde a uno y slo uno de los es-tudiantes. Ntese que incluso todos los elementos del primer conjunto puedenestar vinculados al mismo elemento del segundo conjunto, pero lo que no esvlido es que un elemento del primer conjunto est vinculado con ms de unelemento del segundo. Las funciones que comnmente abordaremos en estetexto son funciones matemticas, en las que los conjuntos contienen nmerosy la regla de asociacin es una ecuacin.

    Hemos mencionado que en el muestreo nos interesan los valores medidosdel subconjunto muestra, que son seleccionados del conjunto poblacin. A es-tos valores se les denomina datos, es decir, un dato es el valor especfico quetiene la caracterstica de inters de un elemento de la poblacin. Convienemencionar que dato se puede referir a un valor conocido o existente pero quean no ha sido determinado. En este libro un dato es un valor que ya ha sidodeterminado.

    En el este contexto experimento es el procedimiento que permite obtenerun dato. Este procedimiento incluye dos cosas: la forma de elegir el objeto, yla determinacin del valor mediante algn mtodo.

    Es prioritario considerar la forma en que se decide el elemento que se obser-var. La determinacin del valor de la caracterstica es la medicin o la califi-cacin, que algunas veces representa un problema difcil y requiere tratamien-tos especficos. Este es el tema que abordaremos a continuacin.

    2.4. Qu es una medicin?

    La medicin es una tarea en la que la estadstica no interviene directa-mente, pero influye mucho en los resultados. Para hacer una medicin debenusarse las tcnicas adecuadas. En general la medicin es la determinacin delvalor de la caracterstica de inters de un elemento de la muestra.

    6

  • Para medir la altura de los estudiantes se emplean tcnicas muy distintasa las que miden la longitud de un virus o una bacteria; pero los mtodos es-tadsticos para analizar los datos de ambos casos pudieran ser los mismos.

    Las tcnicas de medicin son muy diversas y algunas son difciles de eje-cutar. La instrumentacin, seleccin y validez de las tcnicas de medicin sonmotivo de estudio de otras disciplinas, pero la comparacin entre tcnicas demedicin s son motivo de aplicacin de los mtodos estadsticos por lo que noabordaremos en este libro las tcnicas de medicin.

    2.5. Las escalas de medicin

    Las reglas que clasifican los datos en distintas categoras se denominan es-calas de medicin: nominal, ordinal, intervalo y proporcin (Siegel, 1977 [7]).

    Escala nominal

    La escala nominal se utiliza para clasificar a la poblacin en categoras. Porejemplo, los seres humanos se clasifican en hombres y mujeres; los colores seclasifican en rojo, azul, verde, etc. En este tipo de datos no existe una relacinde orden ni se pueden realizar operaciones aritmticas como suma, multipli-cacin, divisin o resta. Sin embargo, se pueden establecer frecuencias y pro-porciones, as como calcular la moda y establecer relaciones de equivalencia.Las propiedades de las relaciones de equivalencia son: reflexin: X=X; simetra:si X=Y entonces Y=X; y transicin: si X=Y y Y=Z, entonces X=Z. Las pruebasestadsticas no paramtricas son admisibles para datos con esta escala demedicin.

    Escala ordinal

    La escala ordinal clasifica y ordena las observaciones. Sin embargo, nopuede definirse una distancia entre las observaciones. Las relaciones admisi-bles en esta escala son: >, subteniente> sargento 3ro.> sargento1ro.> cabo. Un ltimo ejemplo es la llegada a la meta de un corredor en unacompetencia de 20 participantes: su clasificacin C es tal que C {1, 2, . . . , 20}.

    Las medidas que se pueden calcular en esta escala son: moda, frecuencia,coeficiente de contingencia y mediana. Las pruebas estadsticas admisiblespara un conjunto de datos de esta naturaleza son las no paramtricas, enparticular las estadsticas de rango, as como los coeficientes de correlacincon base en rangos, es decir, el coeficiente de Sperman y el de Kendall.

    7

  • Captulo 2. Conceptos bsicos de estadstica

    Escala de intervalo

    Esta escala incluye las dos anteriores; es decir, clasifica, ordena y ademsestablece la proporcin entre dos intervalos contiguos. Esta escala necesitauna unidad de medida y un punto cero arbitrario (no es el cero que pertenecea los reales). En esta escala la proporcin de dos intervalos cualesquiera esindependiente de la unidad de medida y del punto cero. Por ejemplo, la tem-peratura en grados Celsius o Farenheit se mide en una escala de intervalo, yaque la unidad de medida y el punto cero son arbitrarios.

    Las pruebas estadsticas admisibles son las paramtricas y las no paramtri-cas. Dentro de las tcnicas paramtricas se permite el clculo de medias, dela desviacin estndar, el coeficiente de correlacin de Pearson, etc. Las prue-bas estadsticas admisibles son las t-student y la F de Snedecor. Las nicasmedidas que no se pueden obtener son el coeficiente de variacin y la mediageomtrica, porque necesitan el cero de los nmeros reales.

    Escala de proporcin

    Adems de todas las caractersticas anteriores, la escala de proporcin ubi-ca al punto cero en el origen. En esta medida, adems de conocer la proporcin,se debe conocer la distancia entre dos puntos. Admite tambin todas las ope-raciones matemticas y de igual manera se pueden establecer relaciones deigualdad y orden. Las pruebas estadsticas admisibles son todas las pruebasparamtricas, as como todas las pruebas estadsticas anteriores mas el coefi-ciente de variacin y la media geomtrica. Ejemplo 1. El peso en kilogramos delos estudiantes del primer semestre de Ingeniera en Software de la Facultadde Telemtica de la Universidad de Colima. Ejemplo 2. El dimetro en metrosde una plantacin de parotas localizadas en Tecomn, Colima.

    2.6. Parmetros y estimadores

    ParmetrosSobre el conjunto poblacin se pueden definir funciones muy di-versas como el valor ms pequeo, el ms grande, el que ocupa laposicin central una vez que han sido ordenados ascendente o des-cendentemente, la suma de todos los valores despus de elevarlos alcuadrado, el valor que se repite el mayor nmero de veces y muchosotros ms. Todas esas funciones son parmetros. Los parmetrossuelen ser representados por letras griegas como , , .

    Existe un nmero infinito de parmetros para una poblacin dada; sin em-bargo, muchos no tienen utilidad, en cambio otros manifiestan el inters dela evaluacin. Por ejemplo, la suma de todos los valores correspondientes algasto de agua por familia en una localidad (poblacin), porque la suma repre-senta el gasto total de agua en dicha localidad. Por lo tanto, el promedio, eltotal, la varianza, la desviacin estndar, el coeficiente de variacin, la moda,

    8

  • la mediana, el porcentaje o proporcin son algunos ejemplos de parmetros.

    EstimadoresSon funciones que se pueden proponer para calcular o estimar losparmetros. Si se definen sobre el conjunto poblacin entonces seest calculando el parmetro; pero si esas funciones se definen paralos datos de una muestra, entonces se realiza una estimacin delparmetro. A ambos casos se les llamarn estimadores. Adems, acada parmetro le corresponde uno o ms estimadores. Existe unnmero infinito de estimadores, pero slo algunos tienen intersprctico.

    Aclaremos mejor la diferencia entre parmetro y estimador. Un estimador esuna funcin de los datos que sirve para calcular (en un censo) o estimar (en unmuestreo) un parmetro. Una definicin general del parmetro es una cons-tante que describe a la poblacin, usualmente en forma numrica, mientrasque un estimador es una funcin de los datos disponibles (muestra o censo)que se usa para estimar o calcular los parmetros.

    2.7. Sumatorias

    La sumatoria es muy importante para comprender mejor los conceptos de-trs del muestreo. Algunos parmetros y estimadores incluyen en su definicinla suma de varios valores o datos. Si se simboliza por yi a cualquiera de esosdatos, digamos el i-simo de ellos, y se tienen n datos, la suma de esos datosse simboliza empleando el operador de sumatoria (),

    y1 + y2 + + yn =n

    i=1

    yi

    Se puede combinar otras operaciones matemticas con la sumatoria; porejemplo, si se desea sumar el cuadrado de cada dato, la simbologa apropiadaes:

    y21 + y22 + + y2n =

    ni=1

    y2i

    El subndice seala una etiqueta que identifica a cada dato cuando steaparece en una lista. Es importante hacer notar que el subndice puede em-plear cualquier smbolo, aunque convencionalmente se emplean letras inter-medias minsculas del alfabeto como i, j, k, etc.; incluso los mismosdatos pueden usar subndices diferentes para indicar las operaciones apropi-adas. Asimismo, un smbolo de dato como y puede tener ms de un subndicecuando los datos tienen ms de dos criterios o sentidos de clasificacin, comopuede ser el caso de una tabla o una matriz que tiene renglones y columnas,como yij, donde i es el rengln y j la columna, o al revs. Si existen msde dos criterios de clasificacin podrn emplearse ms de dos subndices paraidentificar apropiadamente cada dato.

    9

  • Captulo 2. Conceptos bsicos de estadstica

    En otras ocasiones se emplear un subndice con algn otro smbolo, tal vezel de una variable, un parmetro o un estimador, para sealar que ese smbolopertenece al objeto identificado con la etiqueta que se usa como subndice. Porejemplo, y se refiere a la desviacin estndar de la variable (de los datos de) y.

    Veamos varios ejemplos sobre el uso de la sumatoria y los subndices. Enlos ejemplos, i puede tomar valores entre 1 y n, mientras que yi puede sercualquier valor de la variable y. Por decir, si estamos hablando de la variablengreso familiar en el estado de Colima (y), entonces yi representa el ingresoque tiene la familia i en el estado.

    Propiedades de las sumatorias

    a)n

    i=1

    c = c + c + c + + c = nc

    b)n

    i=1

    cyi = c(y1 + y2 + y3 + + yn) = cn

    i=1

    yi

    c)n

    i=1

    (xi + yi) = (x1 + y1) + (x2 + y2) + + (xn + yn)

    = x1 + y1 + x2 + y2 + + xn + yn

    = (x1 + x2 + x2 + + xn) + (y1 + y2 + + yn)

    =n

    i=1

    xi +n

    i=1

    yi

    d)n

    i=1

    yi =r

    i=1

    yi +n

    i=r+1

    yi, donde r es un nmero entero mayor que 1 y menor

    que n.Ejemplo:

    5i=1

    yi = (y1 + y2) + (y3 + y4 + y5)

    =2

    i=1

    yi +5

    i=2+1

    yi donde yi = cualquier valor

    2.8. Variable aleatoria

    El concepto de variable aleatoria se relaciona con una caracterstica o di-mensin que tienen las unidades muestrales de una poblacin, y que puedetomar diferentes valores, cada uno asociado a una unidad muestral. Esos va-lores posibles forman un conjunto, que a dicho conjunto se denomina espaciomuestral. As, una variable aleatoria Y es una funcin que va del espacio mues-tral (constituido por las unidades muestrales) a otro espacio muestral que sonlos nmeros reales o a un subconjunto de stos, que son todos los valores que

    10

  • puede tomar la variable bajo un experimento aleatorio.

    Por ejemplo, se desea saber si los miembros de un grupo de personas fumano no. El espacio muestral inicial es el grupo de personas y = yi y el segundoespacio muestral es S = { s, no}, que corresponde al hecho de que una personadada (yi) fume o no fume. Entonces podramos definir la funcin Y como unavariable aleatoria como sigue:

    y(yi) =

    {1 si yi = s fuma0 si yi = no fuma.

    Esta variable es conocida como la variable indicadora del conjunto yi y slotoma los valores 1 0.

    2.9. La distribucin normal

    Esta distribucin tiene gran importancia debido a que es un modelo ade-cuado para muchos sucesos naturales y por su sobresaliente papel en la teoraestadstica (Teorema Central del Lmite), puesto que sirve como punto de parti-da para el desarrollo de muchas tcnicas de inferencia (Mood, et al., 1974 [4]).Es importante mencionar que debido a que la distribucin normal es continua,solamente pueden calcularse probabilidades para intervalos que pertenecen alespacio muestral de Y , ya que para cualquier posible valor k de Y , P (Y = k) = 0.Aunque con la correccin por continuidad es posible calcular probabilidadespara cualquier posible valor k (Mood, et al., 1974 [4]). Decimos que una varia-ble aleatoria Y se distribuye normal si su funcin de densidad es:

    fY (y) =

    12pi2

    e(y)2

    22 si y R0 de otra forma.

    Donde:

    E[Y ] = < < V ar(Y ) = 2 2 > 0

    e y pi son las constantes conocidas.El lector debe notar que y 2 son los parmetros de la distribucin, es de-

    cir, Y N(, 2). Para ejemplificar la forma de la distribucin normal, supn-gase que se mide la estatura (Y ) en centmetros a una poblacin de nios de 5aos de edad y se encuentra que su promedio es de 90 cm. con una desviacinestndar (DE) de 5 cm., es decir, Y N( = 90, 2 = 25). La forma de la dis-tribucin se presenta en la figura 2.1.

    La distribucin normal tiene forma acampanada (Figura 2.1), con un solopico o moda que es igual a la mediana y media porque es una distribucinsimtrica en torno a este punto. Adems, cuando Y N( = 90, 2 = 25),el porcentaje de nios con una estatura entre 80 cm y 100 cm es de 95.45por ciento (rea sombreada en la figura 2.1). Los puntos en que cambia ladireccin de la concavidad de la campana se llaman puntos de inflexin, y

    11

  • Captulo 2. Conceptos bsicos de estadstica

    estn situados a una distancia de unidades por encima y por debajo de lamedia . El rea total bajo la curva es 1 100 por ciento, ya que es unadistribucin de probabilidad definida.

    70 75 80 85 90 95 100 105 110

    00.

    010.

    020.

    030.

    040.

    050.

    060.

    070.

    08

    Y

    Figura 2.1: Forma de la distribucin normal para la variable estatura (Y ) con media90 cm. y DE=5 cm.

    2.10. La distribucin normal estndar

    Sea Y una variable aleatoria distribuida N(, 2). Definamos la variablealeatoria Z = (Y )/, que tiene distribucin N(0, 1), es decir, es normal es-tndar porque su media es cero y su varianza es la unidad. Su funcin dedensidad es:

    fZ(z) =

    12pi

    ez2

    2 si z R

    0 de otra forma.

    La forma de la variable aleatoria Z se ilustra en la figura 2.2. Se puede veren la figura 2.2 que los valores con mayor ocurrencia de la variable aleato-ria Z estn entre -3.6 y 3.6, la media igual a la mediana es igual a cero y sudesviacin estndar igual a la varianza es uno. La importancia de esta funcinde densidad de probabilidad radica en que las probabilidades en cualquiermiembro de la familia, o sea, cualquier normal con media y varianza 2,puede calcularse con la distribucin normal estndar. La ventaja estriba enque tiene media cero y varianza uno (Mood, et al., 1974 [4]) y facilita el clculode probabilidades porque la variable aleatoria normal original es una funcinno integrable, por lo que la integracin se obtiene empleando tablas de la nor-mal estndar o con un software estadstico.

    12

  • -4 -2 0 2 4

    0.0

    0.1

    0.2

    0.3

    0.4

    Z

    NP 0V2 1

    Figura 2.2: Forma de la distribucin normal estndar (Z), es decir, Z N( = 0, 2 =1)

    2.11. El Teorema Central del Lmite

    El Teorema Central del Lmite es de gran importancia porque en l se basangran parte de los mtodos estadsticos. Este teorema provee una aproximacinefectiva a las probabilidades determinadas por sumas de variables aleato-rias independientes y explica la gran importancia de la distribucin normalen la teora de probabilidades. Su enunciado preciso es el siguiente: seanY1, Y2, . . . , Yn una muestra aleatoria de una funcin de probabilidades fY (y) (esdecir, variables aleatorias independientes e idnticamente distribuidas), conmedia Y y varianza 2Y . Sea Y = (Y1 + Y2 + + Yn)/n la media aritmtica de lasvariables aleatorias que integran la muestra. Para un tamao de muestra n, ladistribucin de la variable aleatoria Y es aproximadamente normal con mediaY y varianza 2Y /n, es decir,

    Y N(Y , 2Y /n), cuando n

    De acuerdo con el resultado anterior y estandarizando la variable aleatoria,la expresin puede escribirse como

    Y Y2Yn

    =Y Y

    y N(0, 1)

    El Teorema Central del Lmite establece que para un tamao de muestragrande, la distribucin de Y es aproximadamente normal, independientemente

    13

  • Captulo 2. Conceptos bsicos de estadstica

    de la funcin de probabilidades de la variable aleatoria Y (Mood, et al., 1974[4]).

    Para casi todas las poblaciones, la distribucin del muestreo de Y es aproxi-madamente normal si una muestra simple al azar es lo suficientemente grande,pero qu significa una muestra suficientemente grande? Esto depender de lanaturaleza de la poblacin muestreada y del grado de aproximacin a la dis-tribucin normal requerido.

    Cuando la poblacin muestreada tiene una distribucin de probabilidadnormal, no se requiere el teorema central del lmite. En este caso, utilizamosotro teorema que establece que si la poblacin muestreada es una distribucinde probabilidad normal, la distribucin de probabilidad de Y es exactamentenormal para cualquier tamao de muestra.

    Puesto que a menudo no conocemos el tipo de poblacin muestreada, elTeorema Central del Lmite nos dice la naturaleza de la distribucin de muestreode Y para una muestra razonablemente grande, al margen del tipo de distribu-cin que siga la poblacin.

    2.12. La distribucin t-Student

    Es importante mencionar que la distribucin t-student se public por primeravez en 1908, por el irlands W.S. Gosset. En esa poca Gosset trabajaba enuna cervecera irlandesa que desaprobaba la publicacin de trabajos de inves-tigacin. Por tal motivo Gosset public su trabajo con el seudnimo Student.Razn por la cual se le asigno el nombre a esta distribucin de t-student.

    Si Z es una variable N(0, 1) y 2 es una variable 2() (Ji cuadrada) inde-pendiente de Z, entonces la variable aleatoria definida por:

    t =Z2/

    tiene una distribucin t-student con grados de libertad (Mood, et al., 1974[4]). Su funcin de densidad es la siguiente:

    fT (t) =

    1pi

    [( + 1)/2]!

    [/2]!

    (t2

    + 1

    )(+1)/2si t

    0 de otra forma.

    La funcin de densidad t-student es simtrica con respecto a cero, como elcaso de la funcin de densidad normal estndar. Adems, para > 1, el valor

    esperado de t es cero, E[t] = 0; y para > 3, Var[t] =

    2 . Adems, note quecuando , Var[t] 1. De esta manera vemos que una variable aleatoriat-student tiene el mismo valor esperado que una variable aleatoria con dis-tribucin normal estndar. Por ello, la forma de ambas distribuciones es muy

    14

  • semejante. No obstante, una variable normal estndar siempre tiene varianzade 1, mientras que la varianza de una variable t-student es superior a 1. Estose puede apreciar en la Figura 2.3, donde se compara la distribucin normalestndar con la distribucione t-student con 1, 3, 5 y 10 grados de libertad. Esdecir, se observa que las dos funciones de densidad son simtricas respectoal origen, pero la distribucin t-student posee mayor masa de probabilidad enlos extremos. Sin embargo, desde el punto de vista prctico las diferencias en-tre estas dos distribuciones son relevantes cuando el tamao de muestra esmenor o igual a 30, . As, en el presente libro sugerimos obtener los valoresde tablas que se utilizan para los ejemplos y ejercicios de los captulos poste-riores, a partir de la distribucin t-student cuando el tamao de la muestrasea menor o igual a 30, de lo contrario obtenerlos de la distribucin normalestndar.

    -4 -2 0 2 4

    0.0

    0.1

    0.2

    0.3

    0.4

    -4 -2 0 2 4

    0.0

    0.1

    0.2

    0.3

    0.4

    -4 -2 0 2 4

    0.0

    0.1

    0.2

    0.3

    0.4

    -4 -2 0 2 4

    0.0

    0.1

    0.2

    0.3

    0.4

    -4 -2 0 2 4

    0.0

    0.1

    0.2

    0.3

    0.4

    t1

    t3

    t5

    t10

    NP 0V2 1

    Figura 2.3: Comparacin de la distribucin normal estndar con las distribucionest-student con 1, 3, 5 y 10 gados de libertad

    2.13. Los tipos de muestreo

    A manera de definicin, un mtodo de muestreo es una forma objetiva, ycomnmente cientfica, de seleccionar unidades que pertenecen a la poblacin.En este sentido el muestreo consiste en un conjunto de mtodos de muestreo,por medio de los cuales es posible hacer aseveraciones sobre los parmetrosde una poblacin apoyndose en la muestra.

    Ahora bien, para conocer una poblacin con base en la muestra recurrimosa dos procedimientos generales, que se diferencan en la manera de seleccionar

    15

  • Captulo 2. Conceptos bsicos de estadstica

    las unidades de la poblacin y el mtodo usado para determinar el tamao dela muestra. A tales procedimientos comnmente se les denomina muestreoprobabilstico y muestreo no probabilstico; cada uno de ellos engloba una se-rie de mtodos de muestreo (Rendn, 1997 [10]).

    Muestreo probabilstico. Comprende los mtodos que usan un mecanismoaleatorio para la seleccin de las unidades de la muestra. Cada unidad de lapoblacin tendr una probabilidad conocida de ser seleccionada, as como unaprobabilidad de ser incluida en la muestra; ninguna de tales probabilidades esigual a cero. Entonces, los mtodos de este tipo de muestreo establecen unaestructura probabilstica que es la base para desarrollar la teora del muestreo.Otra caracterstica importante en estos mtodos de muestreo es que la calidad,el error o la precisin de los estimadores puede ser determinada y expresada entrminos probabilsticos. Algunos mtodos de muestreo probabilstico son: elmuestreo aleatorio simple, el muestreo aleatorio estratificado, el muestreo sis-temtico con iniciacin aleatoria, el muestreo por conglomerados, el muestreode respuesta aleatorizada, etc. (Bradburn,1998 [5]). Este tipo de mtodos demuestreo se desarrollar ms adelante.

    Muestreo no probabilstico. Incluye los mtodos de muestreo donde la selec-cin de las unidades de la muestra se realiza por medios subjetivos o procedi-mientos no aleatorios; en consecuencia, no se tendr una estructura proba-bilstica para desarrollar una teora de muestreo, ni podr averiguarse la bon-dad de las estimaciones muestrales en trminos cuantitativos. De hecho, lacalidad de las estimaciones se establece con base en la intuicin y la experien-cia, o a travs de argumentos subjetivos, ya que la nica manera de cuan-tificar la bondad de los resultados sera teniendo la poblacin total. Aunque elmuestreo no probabilstico resulta inadecuado para el desarrollo de la teora,en ocasiones es la nica alternativa viable (Bradburn,1998 [5]). Adems, comolos mtodos de muestreo son de fcil aplicacin, los resultados se obtienencon mayor rapidez y no implica mucho gasto. Veamos a continuacin algunosejemplos de muestreo no probabilstico:

    Muestreo de juicio. Tambin se le conoce como muestreo de expertos omuestreo dirigido. Su caracterstica principal es la forma subjetiva conque son seleccionadas las unidades de la poblacin. Por el elemento sub-jetivo no hay una manera de cuantificar la bondad de los resultadosmuestrales. En este caso, el investigador observa toda la poblacin oparte de ella, y despus selecciona una muestra compuesta por una oms unidades que en su opinin son tpicas con respecto a la carac-terstica que se desea estudiar. Est claro que el investigador, al medirlas unidades de esta forma seleccionadas, puede derivar estimaciones delos parmetros de inte-rs; sin embargo, las estimaciones dependern dela seleccin subjetiva del investigador, de tal manera que otros investi-gadores podran seleccionar muestras distintas y calcular otras estima-ciones. Sucede lo mismo con las estimaciones que se apoyan en el anli-sis ocular de la poblacin de inters, porque no involucran la seleccinni la medicin objetiva de las unidades. Asimismo, puede pasar cuando

    16

  • confiamos en la opinin experta de personas quien uno supone son cono-cedoras de las caractersticas de una poblacin dada (Rendn, 1997 [10]).

    Muestreo de cuota. Este mtodo es ampliamente utilizado en las encuestasde opinin. Para su aplicacin, la poblacin se divide en grupos toman-do como base ciertas caractersticas generales. Una vez hechas las divi-siones, se tomar un nmero preestablecido de unidades al cual se ledenomina cuota y que satisfaga las caractersticas del grupo de inters.De este modo, la muestra total quedar integrada por la suma de todaslas cuotas. Por ejemplo, un investigador del observatorio vulcanolgicode la Universidad de Colima est interesado en conocer la opinin dela poblacin sobre un posible plan de emergencia frente a una eventualerupcin volcnica. El investigador podra dividir la poblacin en gruposdefinidos segn la edad, el sexo, el estado civil, etc.; y despus entrevistara cierto nmero (cuota) de personas de cada grupo, por ejemplo, en par-ques, salidas de las tiendas de autoservicio, las comunidades aledaas alvolcn, o en reas especficas de la ciudad (Rendn, 1997 [10]).

    Muestreo de voluntarios. Este mtodo se usa principalmente en aquellassituaciones donde sea difcil el proceso de medicin de las unidades. Porejemplo, si el proceso de medicin requiere de mucho tiempo, resultapenoso y desagradable, o implica una gran concentracin y esfuerzo men-tal, muchos individuos no desearn participar en el estudio. Por estas ra-zones, el mtodo consiste en integrar una muestra con aquellas unidadesque acepten formar parte de ella, es decir, una muestra de voluntarios(Rendn, 1997 [10]).

    Muestreo de unidades accesibles. Este mtodo se usa frecuentementecuando resulta difcil el acceso o la comunicacin a las unidades dela poblacin. En este caso, la muestra se restringe a una parte de lapoblacin, donde es fcil el acceso o comunicacin. Por ejemplo, parainspeccionar el maz a granel que es transportado en un barco, puedetomarse una muestra de maz a cierta profundidad de la parte superiordel barco (Rendn, 1997 [10]).

    Obsrvese que en los mtodos de muestreo probabilstico, para fundamen-tar una estructura probabilstica y desarrollar la teora de muestreo, se debedisponer de un marco de muestreo que permita la eleccin de las unidadesmediante un procedimiento aleatorio. No contar con un marco por lo tardadoe imprctico de su elaboracin, lleva a la necesidad de usar los mtodos demuestreo no probabilstico, con las desventajas que ya fueron mencionadas.

    2.14. El marco de muestreo

    El marco de muestreo, o marco muestral, est constituido por un listado,real o virtual, de todas las unidades de muestreo.

    17

  • Captulo 2. Conceptos bsicos de estadstica

    Unidad de muestreo o unidad muestralCada pieza acumulada constituye la poblacin. A veces son colec-ciones de elementos de la poblacin que cubren la poblacin com-pleta. En ocasiones las unidades de muestreo estn naturalmentedefinidas; en otras, se definen arbitrariamente por quien realiza elmuestreo.

    Idealmente, cada elemento de la poblacin debe estar incluido en una yslo una unidad muestral. Por eso, se dice que las unidades muestrales sonexcluyentes entre s y exhaustivas sobre la poblacin. No siempre se satisfacecabalmente esta condicin ideal y su aceptacin depende de las condicionesen que se suscite.

    A veces no todas las partes de la poblacin quedan incluidas en algunaunidad muestral, como en la evaluacin de recursos mediante parcelas demuestreo circulares. Podra ser intrascendente si las partes que quedan exclu-idas no presentan una caracterstica distintiva del resto de la poblacin y lasinferencias todava se pueden aceptar como aplicables a la poblacin. Sin em-bargo, en otras aplicaciones puede ser decisivo el hecho de no incluir algunaspartes de la poblacin en la muestra si esas partes excluidas se distinguen delas partes incluidas en alguna unidad de muestreo, y por lo tanto en el marco,entonces las estimaciones sern sesgadas, o bien solamente sern aplicablesa la poblacin definida por el propio marco de muestreo. Si en las CienciasSociales se aplica una encuesta telefnica a una cierta poblacin, debe quedarclaro que los resultados solamente son aplicables a la poblacin constitudapor las personas en hogares que tienen telfono y no a toda la poblacin, yaque tener telfono puede representar una diferencia importante.

    Hacer el listado de las unidades muestrales que conforman la poblacinparece una labor simple, pero en la prctica es una tarea muy complica-da, porque algunas poblaciones tienen caractersticas que demandarn tareasparticulares al momento de obtener el marco de muestreo.

    Decimos que el marco de muestreo es real o virtual porque en ocasiones sepuede tener fsicamente la lista de todas las unidades, mientras que en otrasbastara con tener la posibilidad de generarlo para lograr el objetivo propuesto.

    Entenderemos que el marco de muestreo contiene una identificacin nicao etiqueta para cada unidad de muestreo, como puede ser un nmero progre-sivo desde 1 hasta N , donde N representa el nmero total de unidades mues-trales de la poblacin. Adems es importante que se tenga el nombre completo,direccin, ocupacin, sexo, localizacin geogrfica de cada unidad de muestreopara facilitar el levantamiento de la encuesta cuando las unidades muestralesson individuos.

    2.15. Pasos a seguir en el diseo de una encuesta

    1. El planteamiento de objetivos

    18

  • Al empezar a disear un plan de muestreo o una encuesta, es importanteque se definan los objetivos, pues permitirn mantenerse en una lnea deinvestigacin sin perder tiempo con demasiados detalles.

    2. La poblacin bajo muestreo

    Es trascendental que se definan desde el principio las unidades mues-trales que sern tomadas en cuenta y se establezcan reglas claras paraque el encuestador las identifique al momento de ubicarlas y hacer lamedicin. Recurdese que la poblacin que se quiere muestrear debe co-incidir con la poblacin sobre la cual se desea tener informacin.

    3. La caracterstica de la realizacin de la encuesta o mediciones

    Es conveniente cerciorarse de que todos los datos sean pertinentes a laencuesta y que no se omitan datos esenciales. Particularmente, en el casode poblaciones humanas existe la tendencia a hacer un nmero excesivode preguntas innecesarias; ntese que un cuestionario demasiado largoproduce una baja general en la calidad de las respuestas, tanto en laspreguntas importantes como en las secundarias.

    4. El grado de precisin deseado

    Los resultados de una encuesta de muestreo siempre estn sujetos a unnivel de incertidumbre porque slo se mide una parte de la poblacin.Esta falta de certeza se puede reducir al aumentar la muestra y emplearmejores dispositivos de medicin. Sin embargo, esto suele costar tiempo ydinero. En consecuencia, la especificacin del grado de precisin deseadoes un paso decisivo en la preparacin de la encuesta o muestreo. Estepaso es responsabilidad de la persona que va a utilizar los datos, ya quees quien suele entender la magnitud del error tolerable de una encuestapara hacerla compatible con una buena decisin.

    5. Los mtodos de medicin

    Podemos escoger el mtodo de medicin y el mtodo de inspeccin de lapoblacin. Los datos del estado de salud de una persona se pueden obten-er de sus declaraciones, o de un examen mdico. La encuesta puede em-plear un cuestionario autoadministrado, entrevista en la que los entrevis-tadores simplemente lean un cuestionario prescrito o una entrevista noestructurada. La inspeccin puede hacerse por correo, visitas persona-les, telfono o una combinacin de los tres medios.

    Una parte importante del trabajo preliminar es la construccin de las for-mas de registro donde se asientan las preguntas y las respuestas. En loscuestionarios sencillos a veces es posible precodificar las respuestas, esdecir, colocarlas de tal modo que se puedan transferir rutinariamente auna computadora. De hecho, para la construccin de buenas formas deregistro se necesita preveer la estructura de las tablas de resmenes fi-nales para obtener las conclusiones.

    En seguida se enumeran algunos puntos que se deben de tomar en cuen-ta para el diseo de cuestionarios. Sin embargo, si usted va a escribir un

    19

  • Captulo 2. Conceptos bsicos de estadstica

    cuestionario, consulte Tanur (1993) y Blair y Presser (1993) dos referen-cias tiles sobre este tema, debido a que los puntos que aqu se presentanson muy generales:

    a) Decida lo que quiere escribir; ste es el paso ms importante pararedactar un cuestionario. Escriba los objetivos de su encuesta y seapreciso para que se motive a las personas de la muestra a respondersin problema alguno.

    b) Siempre verifique sus preguntas, antes de realizar la encuesta. Loideal es que las preguntas se verifiquen mediante una encuesta pilo-to. Pruebe con diferentes versiones de las interrogantes y preguntena los entrevistados en la prueba preliminar la forma en que interpre-taron las preguntas.

    c) Elabore las preguntas de manera sencilla y clara. Las preguntas quepueden parecerle claras podran no serlo para alguien que escuchatoda la pregunta por telfono o para otra persona con otro idiomamaterno. Belson (1981, 240) prob la pregunta "Qu proporcin detiempo que ve la televisin lo dedica a ver noticias?on 53 personas.Slo 14 de ellas interpretaron de manera correcta la palabra propor-cin como "porcentaje", "parte" o "fraccin". Otras las interpretaroncomo cuanto tiempo o cuales programas de noticias observa.

    d) Utilice preguntas especficas en lugar de preguntas generales, de serposible.

    e) Relacione las preguntas que elabore en el concepto de inters.

    f ) Decida si debe utilizar preguntas abiertas o cerradas.

    g) Informe sobre la pregunta que se plante realmente.

    h) Evite preguntas que induzca o motiven al entrevistado a decir lo queusted quiere escuchar.

    i) Utilice preguntas de opcin forzosa.

    j) Platee solo un concepto en cada pregunta.

    k) Preste atencin al efecto del orden de las preguntas.

    6. El marco de muestreo

    Antes de seleccionar la muestra, debemos dividir la poblacin en unidadesde muestreo. stas deben cubrir toda la poblacin y no traslaparse en elsentido de que todo elemento de la poblacin pertenezca a una y sola-mente una unidad. Algunas veces la unidad apropiada es obvia, en otrasno es sencillo escoger lo que ser la unidad de muestreo. En el muestreode los residentes de una ciudad, por ejemplo, la unidad puede ser unapersona, los miembros de una familia o las personas que viven en unamanzana. En el muestreo de una cosecha de limn la unidad puede serun lote, una parcela o un rea de terreno cuya forma y dimensiones sonnuestra eleccin.

    7. La seleccin de la muestra

    20

  • Existe actualmente una gran variedad de planes para seleccionar unamuestra. Por cada plan considerado se pueden hacer estimaciones deltamao de la muestra partiendo de un conocimiento del nivel de precisindeseado y la varianza de la poblacin. Los costos relativos y el tiempoempleado en cada plan se estudian antes de tomar una decisin (Lohr,2000 [9]).

    8. La encuesta piloto

    Es de gran utilidad probar el cuestionario y los mtodos de campo en pe-quea escala. Esto casi siempre ayuda a mejorar el cuestionario y puedeevitar otros problemas serios, por ejemplo, que el costo fuera ms que elesperado.

    9. La organizacin del trabajo de campo

    Las encuestas extensas tienen muchos problemas de orden administra-tivo. Se debe supervisar al personal y entrenarlo para que apliquen lasencuestas y los mtodos de medicin apropiadamente. De ah que sea tilun procedimiento de verificacin previo de la calidad de las respuestas.Se debe hacer un plan para manejar las respuestas en blanco, es decir,la falla del encuestador para obtener la informacin de ciertas unidadesmuestrales (Lohr, 2000 [9]).

    10. Resumen y anlisis de los datos

    Despus de realizar las encuestas deben revisarse los cuestionarios ob-tenidos con la esperanza de corregir errores o cuando menos desecharlos datos equivocados. Habr que decidir respecto al clculo en caso deomisin de respuestas o la eliminacin de datos durante la revisin. De-spus se hacen los clculos para las estimaciones. Como vimos, los mis-mos datos pueden servir para diferentes mtodos de estimacin.

    Un consejo prctico para la presentacin de los datos es informar acercade la magnitud esperada del error en las estimaciones ms importantes.Una de las ventajas del muestreo probabilstico es que se pueden hacertales enunciados (el error esperado).

    11. La informacin para encuestas futuras

    Cuanta ms informacin de una poblacin se tenga inicialmente, msfcil ser el diseo de una encuesta que arroje estimaciones adecuadas.Toda muestra obtenida es una gua potencial de futuros muestreos porlos datos que revela sobre las medias, las desviaciones estndares y la na-turaleza de la variabilidad de las medidas principales, as como los costoseconmicos. Las prcticas de muestreo avanzarn ms rpidamente si seprev lo necesario para reunir y registrar ese tipo de informacin.

    Hay otro aspecto importante en el que una muestra completa facilita laobtencin de otras posteriores: el encuestador habilidoso aprende a re-conocer los errores de ejecucin y a evitar que se repitan.

    21

  • Captulo 2. Conceptos bsicos de estadstica

    2.16. Las ventajas y desventajas del muestreo

    Las ventajas

    Aunque el objetivo del muestreo, al igual que muchas otras disciplinas, con-siste en emplear recursos mnimos para obtener determinada informacin,o bien en conseguir la mxima informacin con recursos prefijados (Brad-burn,1998 [5]).

    Los criterios generales para el uso de las tcnicas de muestreo se puedenresumir en los siguientes puntos:

    Se emplear el muestreo cuando la poblacin sea tan grande que el censoexceda las posibilidades del investigador.

    Se tomarn muestras cuando la poblacin sea suficientemente uniformecomo para que cualquier muestra d una buena presentacin de la mis-ma.

    Se tomarn muestras cuando el proceso de medida o investigacin de loscaracteres de cada elemento sea destructivo (consumo de un artculo parajuzgar su calidad, determinacin de una dosis letal, etctera.).

    Se utilizar el muestreo cuando las personas respondan con desagrado yas disminuir el nmero de elementos que sern encuestados.

    Se utilizarn las tcnicas de muestreo para reducir costos, considerandotanto el costo absoluto como el costo relativo (con relacin a la cantidadde informacin obtenida). Este criterio suele conocerse como el criterio deeconoma.

    El muestreo es conveniente cuando la precisin (el ajuste del valor esti-mado al valor real de la caracterstica en estudio) resulta ser muy buena.Este criterio suele conocerse con el nombre de criterio de calidad.

    El muestreo es conveniente cuando la formacin del personal y la inten-sidad de los controles y supervisin son onerosos.

    En general, el muestreo ser conveniente cuando constituya la solucinde mayor eficiencia en el sentido del costo-beneficio.

    Las desventajas

    A veces el muestreo no es muy conveniente (Bradburn,1998 [5]). Por ejemplo:

    Cuando se necesita informacin de todos los elementos que conforman lapoblacin.

    Cuando sea difcil cumplir con los requisitos de las tcnicas de muestreoprobabilstico.

    22

  • El muestreo exige menos trabajo material que una investigacin exhaus-tiva, pero ms refinamiento y preparacin (conocimientos adecuados delos diseadores y preparacin de los entrevistadores, inspectores y su-pervisores), lo que puede suponer un uso limitado.

    Cuando el costo por unidad, que es mayor en las encuestas que los cen-sos, aconseje desestimar los mtodos de muestreo.

    2.17. Las caractersticas deseables en una inves-tigacin por muestreo

    Las caractersticas ptimas a las cuales deberan ajustarse las investiga-ciones por muestreo, son las siguientes:

    Precisin: la proximidad al valor verdadero de las caractersticas poblacionalesestimadas.

    Pertinencia: la capacidad de los resultados estadsticos obtenidos por muestreopara completar la informacin faltante.

    Oportunidad: la utilidad de un estudio estadstico en funcin de su disponi-bilidad en el tiempo (puntualidad, rapidez y actualidad). En el caso de censosy grandes encuestas es aconsejable la publicacin de resultados preliminaresbasados en muestras o submuestras.

    Accesibilidad: aunque se disponga de un banco de datos informatizado, puedehaber dificultades legales para utilizarlo (la proteccin de la privacidad, el se-creto estadstico y la ley de la funcin estadstica pblica). La informacinobtenida por muestreo ha de ser totalmente accesible, as como tener en cuen-ta la legislacin vigente al momento del diseo del estudio por muestreo.

    Detalle y cobertura: la poblacin que posee datos extensos puede complemen-tar una investigacin exhaustiva con una muestra.

    Economa: las consideraciones sobre costos en las diferentes etapas de planifi-cacin, el levantamiento y procesamiento de datos, la evaluacin, el anlisis yla publicacin pueden indicar la inconveniencia de una investigacin exhaus-tiva. Luego, este criterio ha de tenerse siempre presente a la hora de planificaruna investigacin por muestreo.

    Integracin: Hay que tener una buena concepcin global de la informaciny una buena comparabilidad. La informacin obtenida en la investigacin pormuestreo ha de ser integrable y comparable con otras informaciones existenteso futuras.

    23

  • Captulo 2. Conceptos bsicos de estadstica

    2.18. Errores de las encuestas

    En general, en las encuestas puede haber varias fuentes de error (Brad-burn,1998 [5]), como las siguientes:

    1. Error de muestreo o de estimacin. Error al que estamos expuestos cuan-do slo se miden las unidades correspondientes a una muestra de lapoblacin, es decir, cuando slo se estudia una fraccin de la poblacin.Este error es particular para cada una de las muestras posibles de tamaon, y se define como la diferencia entre el valor del estimador y el valor delparmetro.

    2. Error de marco. Es el que se presenta debido a los problemas en la elabo-racin del marco de muestreo. Tales problemas ocurren al construir mar-cos incompletos, al no incluir todas las unidades de muestreo que son deinters, o bien al incluir unidades ajenas a la poblacin.

    3. Error de respuestas en blanco. Este error se presenta a consecuencia delas fallas u obstculos para medir algunas unidades de la muestra se-leccionada. As, la respuesta en blanco puede ocurrir por omisin o nolocalizacin de algunas unidades, as como por la renuncia o imposibili-dad de medir algunas unidades.

    4. Error de medicin. Ocurre al medir las caractersticas de una unidad. Sepresenta porque el mtodo de medicin puede estar sesgado o es impre-ciso y algunas veces, como en el caso de poblaciones humanas, algunascaractersticas son difciles de medir, ya sea porque la persona entrevis-tada no posee la informacin exacta o da una respuesta incorrecta a lacaracterstica de inters. Tal es el caso, por ejemplo, en la medicin del in-greso familiar, el padecimiento de cierta enfermedad, el nmero de abor-tos por persona, las ganancias obtenidas en el negocio anterior, etctera.

    5. Error de procesamiento. Es el error que se puede cometer en la edicin,codificacin y tabulacin de la informacin obtenida de la encuesta. Cuan-do la informacin se recolecta mediante una enumeracin total se estexpuesto a cometer los cuatro ltimos errores. Si la recoleccin se realizamediante un muestreo, entonces estaremos expuestos a los cinco erroresy en tal caso a los cuatro ltimos se les denomina errores no debidos almuestreo.

    2.19. Muestra preliminar o piloto

    Una muestra preliminar o piloto es una muestra que antecede a la definiti-va, cuya seleccin se hace de acuerdo a los lineamientos que marca el diseode muestreo que se utilizar en el estudio definitivo.

    La muestra preliminar juega un papel importante en el diseo de un estu-dio por muestreo, ya que ser la fuente de informacin ms inmediata para:

    24

  • 1. Tener una primera aproximacin de los costos que se involucran en elestudio.

    2. Tener una primera aproximacin del tiempo que se llevar en la real-izacin del estudio.

    3. Estimar los parmetros involucrados en la determinacin del tamao demuestra, usualmente la varianza y el coeficiente de variacin.

    4. Probar la factibilidad de: los mtodos de seleccin de las unidades mues-trales, la medicin de las variables y otros aspectos prcticos.

    5. Probar la factibilidad del cuestionario.

    6. Definir la precisin de los estimadores cuando no se tiene idea de losvalores entre los cuales sta (precisin) puede considerarse razonable.

    Algunos autores sugieren que la muestra preliminar podr considerarse co-mo parte de la muestra definitiva, solamente cuando los mtodos de seleccin,medicin, incluyendo el cuestionario, no hayan sufrido cambios o modifica-ciones severas.

    2.20. La precisin de la estimacin

    Cuando realizamos un estudio por muestreo es importante preguntarnoscul es la cantidad de error tolerable o la precisin de la estimacin?. Lapersona que utilizar los resultados del muestreo debe definir el error, puesconoce el fenmeno en cuestin y lo delicado de las conclusiones que se de-sprendan del anlisis. As, en el muestreo probabilstico es usual referirse a laprecisin de la estimacin en los trminos siguientes:

    a) Como un lmite mximo que se fija de antemano para la varianza, la desviacinestndar o el coeficiente de variacin del estimador. En este libro, este lmitemximo para todos los diseos de muestreo a estudiar se fijar en trminos dela desviacin estndar del parmetro de inters.

    b) Como un lmite mximo de error y una confiabilidad, ambos establecidosde antemano.

    De igual manera es comn denominar al error mximo como precisin delestimador, sta se define como:

    Precisin: es el alejamiento o distancia mxima que el investigador est dis-puesto a aceptar entre el estimador y el parmetro correspondiente (Cochran,1985 [1]). De este modo, denota al parmetro y su estimador; entonces, laprecisin del estimador, denotada por d, se define como:

    d = | |Esto significa que debemos especificar que y difieren en valor absoluto enuna cantidad menor que d.

    25

  • Captulo 2. Conceptos bsicos de estadstica

    Confiabilidad: es el grado de seguridad deseado en la precisin, y se mideen trminos de probabilidad, aunque se interpreta con base en el de muestreorepetido (Cochran, 1985 [1]). As,

    1 = confiabilidad,

    donde toma valores entre 0 y 1. La confiabilidad, generalmente, se expresaen porcentaje y los valores usuales son desde 80%, observndose con ms fre-cuencia 90% y 95%.

    El postulado probabilstico siguiente especifica la relacin entre los trminosprecisin y confiabilidad:

    P | | d = 1 ,

    que es igual aP d d = 1 (2.1)

    La ecuacin anterior indica que la probabilidad de que la diferencia entre elestimador y el parmetro tome valores dentro de un intervalo delimitado porlos valores d y d, es 1 . La determinacin de un lmite especfico con suconfiabilidad asociada (1 ) nos ayuda a comparar diseos diferentes (mto-dos de seleccin de la muestra) para especificar el procedimiento que d laprecisin deseada con un costo mnimo.

    2.20.1. Elementos para elegir la precisin o margen de error

    Para los investigadores no experimentados en el diseo de encuestas o es-tudios donde se necesitan muestras para hacer inferencia hacia la poblacinfijar la precisin es una labor confusa. Debido a que cuando por primera vez sepregunta a estas personas el grado de precisin deseado a menudo confiesanque nunca han considerado el asunto y que no tienen idea de la respuesta. Sinembargo, la eleccin adecuada de la precisin es fundamental para la toma dedecisiones acertadas por lo que a continuacin proporcionamos algunos ele-mentos para su determinacin.

    Si la variable a medir es dicotmica recomendamos una precisin menor delocho por ciento. Por ejemplo, si se desea estimar y comparar los porcenta-jes de personas que tienen diabetes en dos estados de la republica Mexicana,podramos elegir una precisin de cinco por ciento; sin embargo, si se tieneinformacin de que los porcentajes en ambos estados son muy similares parapoder tomar una decisin ms certera sobre si el porcentaje de diabticos entrelos estados es distinto debemos de elegir un porcentaje de error mas pequeodigamos 2.5%, para poder discriminar con mayor confiabilidad. Ahora, supon-ga que la secretara de Economa desea estimar en el pas el porcentaje defamilias que tienen ingresos menores de 2,000 pesos mensuales para conocerel porcentaje de familias que viven en extrema pobreza, por tanto en este casose puede elegir una precisin de 7% y con los resultados obtenidos se tendruna imagen bastante clara de el porcentaje de familias en esta situacin. Sin

    26

  • embargo, si la secretara de economa adems persigue implementar un pro-grama para subsidiar con 1000 pesos mensuales a cada una de las familias eneste estrato, por lo tanto una estimacin con un error de 7% puede provocarque al momento de implementar dicho programa el presupuesto para tal finno alcance, por lo que se sugiere un error ms pequeo.

    Si la variable respuesta es continua de igual manera recomendamos una pre-cisin menor del ocho por ciento del promedio verdadero o estimado. Estosignifica que para poder estimar la precisin del promedio o el total se necesitatener idea del valor verdadero del promedio o total verdadero, en caso de queno se tenga idea de estos se pueden estimar a partir de una muestra prelimi-nar (piloto). Por ejemplo, suponga que un nutrilogo desea estimar el promediode caloras consumidas de nios de 6 aos de edad en el estado de Colima, co-mo experto el sabe que el consumo promedio de caloras por nio debe ser de400. Por lo tanto, l puede elegir una precisin de 20 caloras, que representael 5% del promedio de consumo recomendado (d = 0.05 400 = 20). En estecaso el nutriologo es un experto y tiene una idea bastante clara del valor delpromedio, pero suponiendo que no tiene la mas remota idea de este valor, elpuede estimar este promedio con una muestra piloto y obtener su precisintambin multiplicando el 0.05 por el promedio de la muestra preliminar. Aho-ra, suponga que un investigador desea conocer el consumo promedio en pesosde energa elctrica por hogar en el estado X. Adems, suponga que no tienela mnima idea, por lo tanto l puede proceder a consultar a un experto en eltema o realizar un muestreo piloto y con base en esto tener una estimacintentativa del promedio. Suponga que ya obtuvo el promedio preliminar (500pesos mensuales por hogar), por lo tanto la precisin que utilizar para cal-cular su muestra definitiva ser igual a 25 que equivale al 5% del promediopreliminar d = 0.05 500 = 25. Si adems, el investigador desea comparar endicho estado los consumos promedios entre los distintos municipios que sabetienen un desarrollo econmico similar, quiz sea necesario una precisin mspequea. Pero, por el contrario suponga que si solo es de su inters compararlos municipios del norte, centro y sur que sabe que de antemano son distintosla precisin es aceptable.

    Por otro lado, si el parmetro que se desea estimar es el total ya sea a partir devariables dicotmicas o continuas se procede de igual forma y se recomiendaun error menor del 8% del total preliminar. Por ejemplo si se desea estimar eltotal de drogadictos en el estado de Colima para el ao 2008, para fijar la pre-cisin necesitamos una estimacin tentativa del total. Supongamos que estees de 5000, por lo tanto la precisin ser d = 0.055000 = 250, es decir el 5% deltotal preliminar. Esta forma de estimar la precisin del total es exactamente lamisma (d=(porcentaje/100)* valor preliminar del parmetro a estimar) que paraestimar la precisin para una proporcin o un promedio. Por lo tanto, el lectordebe siempre recordar que la precisin se debe de calcular para el parmetrode mayor inters en su investigacin ya que de lo contrario debe de determi-nar una precisin para cada parmetro y con ello obtener ms de un tamaode muestra lo cual adems de desgastarlo lo puede confundir. Tambin, hayque dejar claro que si se determina la precisin usando la expresin que pre-sentamos anteriormente, d=(porcentaje/100)* valor preliminar del parmetro a

    27

  • Captulo 2. Conceptos bsicos de estadstica

    estimar), el tamao de muestra requerido usando el mismo porcentaje de errorpara estimar la proporcin o total ser el mismo. Lo mismo ocurrir con eltamao de muestra para el promedio y el total.

    La forma que se sugiere para determinar la precisin tiene la ventaja de que esen trminos relativos no absolutos, esto facilita el proceso porque es fcil fijarun error en trminos de porcentaje ya que de esta manera uno tiene claro lamagnitud del error, mientras que tratar de fijar el error en trminos absolutoses complicado ya que un valor pequeo puede ser un error relativo (porcentaje)muy pequeo que requerir tamaos de muestras muy grandes o muy grandeque me proporcionara tamaos de muestra muy pequeos y resultados pococonfiables.

    Tambin es importante mencionar que el nivel de precisin se decidir porla cantidad de recursos disponibles para el estudio, ya que se pueden obtenerresultados muy confiables con precisiones muy bajas, pero esto implica ma-yores costos. Por otro lado, sugerimos en la medida de lo posible para estimarla precisin extraer una muestra piloto para obtener las estimaciones prelimi-nares de los parmetros, conocer la calidad del cuestionario, las dificultadesde los encuestadores, los problemas del marco de muestreo y detalles que nosauxilien en el diseo de la encuesta definitiva. Finalmente, tambin es impor-tante dejar claro que en la mayora de las encuestas donde se trabaja conpersonas los mrgenes de error mas usados son 3% y 5%, ya que garantizanresultados bastante confiables y con costos razonables.

    2.21. Uso de tablas para la distribucin normal es-tndar y t-student

    2.21.1. Distribucin normal estndar para n > 30

    Es conveniente mencionar que cuando el tamao de la muestra es mayora 30, los valores de la distribucin t-student son muy cercanos a los de ladistribucin normal estndar, por lo cul a menudo se utilizan los valores desta ltima distribucin en vez de la primera. Se debe tener presente que Zrepresenta a una variable aleatoria que tiene una distribucin normal, conmedia cero ( =0) y desviacin estndar uno ( = 1), mejor conocida comodistribucin de probabilidad normal estndar. Casi siempre se usa la letra Zpara indicar esta variable aleatoria normal especial. Como con otras variablesaleatorias continuas los clculos de probabilidad con cualquier distribucinnormal, se llevan a cabo determinando las reas bajo la grafica de la funcin dedensidad de probabilidad, por ejemplo supongamos que se requiere encontrar:

    I. La probabilidad de que una variable aleatoria de una distribucin normalestndar sea menor a 1.75, es decir, P (Z < 1.75). Para encontrar tal proba-bilidad hacemos uso del Cuadro A.1(Apndice A), en el cual nos ubicamosen la hilera correspondiente al valor de 1.70 de Z sobre la primer colum-na y en la columna correspondiente al valor de 0.05 de Z sobre la primerhilera, e interceptando la hilera y columna ya ubicadas, encontramos que

    28

  • la probabilidad correspondiente es igual a 0.9599. Lo anterior se muestraen el Cuadro 2.1.

    Cuadro 2.1: Ejemplo 1 para el uso de las tablas de la normal estndarZ

    Z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.090.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.53590.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753

    .

    .

    ....

    .

    .

    ....

    .

    .

    ....

    .

    .

    ....

    .

    .

    ....

    .

    .

    .1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633

    .

    .

    ....

    .

    .

    ....

    .

    .

    ....

    .

    .

    ....

    .

    .

    ....

    .

    .

    .3.80 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.99993.90 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

    Debido a la relacin existente, P (Z > Z0) = 1 P (Z < Z0), solamente seejemplifica el uso del Cuadro A.1 para obtener la probabilidad de que unavariable aleatoria normal estndar sea menor a un valor especifico Z0 .

    II. La probabilidad de que una variable aleatoria normal estndar se encuen-tre entre 1.64 y 1.98, esto es, P (1.64 < Z < 1.98). Encontrar P (1.64 < Z Z0) = 0.975. En este caso se procede de manera inversa quea I., es decir, ahora se tiene la probabilidad y se busca el valor de Z0. Por lotanto, se busca en el Cuadro A.1(Apndice A) el valor de probabilidad mscercano a 0.975 y se encuentra que ste es exactamente el mismo (0.975).En seguida se obtienen los valores de Z para ste valor de la columna ehilera en que se ubica (ver Cuadro 2.3). En este caso el valor de Z en lacolumna es de 0.06 y en la hilera 1.90, por lo que Z0 = 1.90 + 0.06 = 1.96.

    Sin embarg