dosier módulo viiiminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 ·...

67
Dosier módulo VIII

Upload: others

Post on 24-Jun-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Dosier módulo VIII

Page 2: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida
Page 3: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Módulo VIII

Page 4: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

1. Introduccion. 11.1. Contenido del Modulo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. ¿Como Desarrollar el Modulo?. . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2. Unidad I: Introduccion a la Estadıstica. 32.1. Definicion de Estadıstica y su Objeto de Estudio. . . . . . . . . . . . . . . . . 3

2.1.1. ¿Que es la Estadıstica?. . . . . . . . . . . . . . . . . . . . . . . . . . . 32.1.2. Estadıstica Descriptiva. . . . . . . . . . . . . . . . . . . . . . . . . . . 32.1.3. Estadıstica Inferencial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2. El Metodo de Investigacion Estadıstica. . . . . . . . . . . . . . . . . . . . . . 32.3. Instrumentos de Obtencion de Datos. . . . . . . . . . . . . . . . . . . . . . . 7

2.3.1. El Censo Nacional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3.2. El Cuestionario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4. Tipos de Variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.5. Escalas de Medicion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.6. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3. Unidad II: Estadıstica Descriptiva. 133.1. Tablas de Frecuencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.1.1. Problemas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.2. Representacion grafica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2.1. Problemas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3. Medidas de Tendencia Central. . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.3.1. La Media Aritmetica. . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3.2. La Media Geometrica (Mg). . . . . . . . . . . . . . . . . . . . . . 233.3.3. La Media Armonica (Ma). . . . . . . . . . . . . . . . . . . . . . . 243.3.4. La Mediana, (Me). . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.4. Medidas de Posicion: Cuartiles, Quintiles, Deciles y Percentiles. . . . . . . . . 253.5. Medidas de Variabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.6. Medidas de Forma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.7. Problemas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4. Unidad III: Inferencia Estadıstica. 394.1. Propiedades Deseables de los Estimadores Puntuales. . . . . . . . . . . . . . . 39

4.1.1. Estimacion Puntual. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.2. Distribuciones Muestrales Importantes. . . . . . . . . . . . . . . . . . . . . . . 40

4.2.1. Distribucion de la Media Muestral. . . . . . . . . . . . . . . . . . . . . 404.2.2. Distribucion de la Media para Muestras Pequenas. . . . . . . . . . . . 404.2.3. Problemas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.2.4. Distribucion de la Diferencia entre Las Medias de dos Muestras. . . . 42

4.3. Intervalos de Confianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

Page 5: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

4.3.1. Intervalos de Confianza de Medias y Proporciones. . . . . . . . . . . . 434.3.2. Intervalo de Confianza para la Media Poblacional, σ Conocida (n ≥ 30). 444.3.3. Intervalo de Confianza para la Media Poblacional, σ es Desconocida

(n ≥ 30). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.3.4. Intervalo de Confianza para Estimar la Diferencia de Medias Poblacio-

nales (µx − µy). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.3.5. Estimacion por Intervalo para Proporciones. . . . . . . . . . . . . . . . 464.3.6. Estimacion por Intervalo para Diferencias de Proporciones. . . . . . . 474.3.7. Estimacion de µ para Muestas Pequenas (n < 30). . . . . . . . . . . . 474.3.8. Intervalos de Confianza para Diferencia de Medias Poblacionales (n <

30). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.3.9. Intervalos de Confianza para una Proporcion Poblacional P (n < 30). 48

4.4. Contraste de Hipotesis Estadısticas. . . . . . . . . . . . . . . . . . . . . . . . 484.4.1. Definicion de Pruebas de Hipotesis y Tipos de Error. . . . . . . . . . . 484.4.2. Procedimiento para Probar Hipotesis Estadısticas. . . . . . . . . . . . 494.4.3. Prueba de Hipotesis para Muestras Grandes. . . . . . . . . . . . . . . 504.4.4. Prueba de Hipotesis para Muestras Pequenas y Distribucion t de Student. 52

5. Unidad IV: Distribuciones Bidimensionales. 555.1. Tablas de Contingencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.1.1. Contraste de Independencia de Caracteres. . . . . . . . . . . . . . . . 555.1.2. Distribuciones Marginales y Condicionales. . . . . . . . . . . . . . . . 57

5.2. Correlacion y Prediccion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.3. Modelos de Regresion lineal: Lınea de Tendencia. . . . . . . . . . . . . . . . . 595.4. Estimacion de los Parametros por Mınimos Cuadrados. . . . . . . . . . . . . 59

Page 6: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Cada dıa, todo ciudadano salvadoreno se ve enfrentado a informacion construida en ba-se a datos. Esta informacion utilizada de manera adecuada, le servira de fuente tanto paraentender los fenomenos que lo rodean, como para tomar decisiones de manera informada. Yasea en el papel de investigador, analizando datos y transformandolos en informacion, o comoreceptor de esta. Estar capacitado para hacer buenas preguntas, usar datos en forma inteli-gente, evaluar conjeturas basadas en ellos y formular conclusiones son habilidades basicas enla sociedad actual.

El profesor, como principal facilitador en la experiencia educativa de sus alumnos, debeestar capacitado para cear constantemente oportunidades para que los alumnos adquieran lasnuevas habilidades requeridas. El profesor debe involucar a sus alumnos desde muy tempranaedad en el manejo directo de datos, y que este proceso crezca en sofisticacion y complejidada medida que los alumnos progresan en sus estudios.

En general la Estadıstica es fundamental para muchas ramas de la ciencia desde la Me-dicina a la Economıa, pero sobre todo, es esencial para interpretar los datos que se obtienende la investigacion cientıfica. Es necesario leer e interpretar datos, producirlos, extraer con-clusiones, en resumen saber el significado de los datos. La Estadıstica es por lo tanto unaherramienta de trabajo profesional.

1.1. Contenido del Modulo.

En la Unidad I se inicia conociendo que es la Estadıstica, su objeto de estudio y cualesfueron sus orıgenes. Luego cuales son los pasos a seguir al desarrollar una investigacion es-tadıstica, en especial en el ambito educativo.

En la Unidad II se estudiara los conceptos basicos en estadıstica descriptiva. Las dife-rentes formas de ordenar y representar la informacion segun el tipo de variable de estudio yalgunas medidas que ayudan analizar la informacion y dar conclusiones.

La Unidad III es un estudio basico sobre inferencia estadıstica, estimacion de parametrosy algunos contrastes de hipotesis.

Para finalizar, en la Unidad IV, con el estudio de las distribuciones bidimensionales. Eltipo de dependencia o correlacion entre dos o mas variables. Ası como aplicacion de modelosde regresion lineal.

1.2. ¿Como Desarrollar el Modulo?.

La teorıa y las actividades de cada unidad se desarrollara durante dos sabados con 16horas presenciales de trabajo guiado por el formador, 8 horas virtuales y 6 horas de practicasde aula por parte de las y los docentes. El trabajo de cada semana debera organizarse por

1

Page 7: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

medio de una carta didactica. La idea basica es que el desarrollo de las unidades ha de progra-marse a base de actividades que han de realizar las y los docentes bajo la guıa del formadoraplicando una metodologıa activa, participativa y reflexiva. La metodologıa de cada jornadase dividira en tres partes:apertura, desarrollo y cierre.

La apertura se ha de iniciar socializando los objetivos de la jornada y centrando latematica, a fın de establecer un hilo conductor con el objetivo general del modulo y los obje-tivos de la unidad y contar con una vision global de la unidad que ayude a las y los docentesa familiarizarse con el tema a tratar. Luego se ha de pasar a diagnosticar las concepcionesy los conocimientos previos, a traves de preguntas iniciales relacionadas con aspectos de lavida cotidiana y la reflexion grupal sobre lo que se hace o no se hace en el aula en relacioncon los temas a desarrollar. Posteriormente,a manera de motivacion o sensibilizacion se hade hacer una introduccion historica de los conceptos de la unidad y presentar un problema osituacion en el que se ponga de manifiesto la utilidad de la tematica a desarrollar.

El desarrollo incluye la exposicion dialogada de la teorıa basica y demostracion de laspropiedades clave para lograr que los participantes desarrollen su razonamiento y pensamien-to matematico, y comprendan el significado de los contenidos matematicos escolares. Actoseguido se ha de plantear y resolver problemas representativos o ilustrativos que permitanvisualizar la utilizacion e importancia de los conceptos y las propiedades. Despues, se hade organizar a las y los docentes en equipos para dedicarse a resolver problemas clave dela unidad. Durante esta actividad el formador debe supervisar el trabajo de cada equipo yproporcionar las indicaciones o ayudas que sean requeridas. Es importante estimular el inter-cambio de ideas y la colaboracion entre los integrantes de los equipos.

El cierre se dedica a evaluar el aprendizaje grupal a traves de la socializacion de los tra-bajos de los equipos.Durante la socializacion el formador ha de reflexionar sobre lo presentadoy hacer las recomendaciones y correcciones pertinentes, ası como identificar los temas querequieren una retroalimentacion. Finalmente, se deben de asignar las tareas que deberan serentregadas la semana siguiente.Estas se pueden asignar de manera individual o por equipos.Asimismo se deben asignar las tareas o actvidades que deberan realizarse en el aula virtualy en las practicas de aula.

2

Page 8: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

2.1. Definicion de Estadıstica y su Objeto de Estudio.

2.1.1. ¿Que es la Estadıstica?.

La Estadıstica es una ciencia que estudia las caracterısticas de un conjunto de casos parahallar en ellos regularidades en el comportamiento, que sirven para describir el conjunto ypara efectuar predicciones.

La Estadıstica tiene por objeto recolectar, organizar, resumir, presentar y analizar datosrelativos a un conjunto de objetos, personas, procesos, etc. A traves de la cuantificacion y elordenamiento de los datos intenta explicar los fenomenos observados, por lo que resulta unaherramienta de suma utilidad para la toma de decisiones.

Bajo este contexto, la Estadıstica se divide en dos areas: Estadıstica Descriptiva yEstadıstica Inferencial.

2.1.2. Estadıstica Descriptiva.

Estadıstica Descriptiva.Permite organizar y presentar un conjunto de datos de manera que describan en forma precisalas variables analizadas haciendo rapida su lectura e interpretacion. Obviamente, la materiaprima de la Estadıstica Descriptiva la constituyen los datos, que son el resultado de las ob-servaciones y/o experimentos.

Ejemplos de Estadıstica Descriptiva.

1. Durante los ultimos dos dıas se ha informado de un total de cinco homicidios diarios.

2. La encuesta Gallup informa una ventaja de 5 % para el candidato de izquierda.

2.1.3. Estadıstica Inferencial.

Estadıstica Inferencial.Generaliza los resultados de una muestra a los de una poblacion total, es cuando de losdatos estadısticos obtenidos de una muestra se infiere o se deduce una observacion la cualse generaliza sobre la poblacion total. Para determinar la confiabilidad de la inferencia delos datos estadısticos de una muestra, se hace necesario comprobar la calidad de los datospara asegurar que lo que se observa en una muestra se observara tambien en la poblacion.Generalmente el analisis estadıstico inferencial se lleva a cabo para mostrar relaciones decausa y efecto, ası como para probar hipotesis, teorıas cientıficas, etc.

2.2. El Metodo de Investigacion Estadıstica.

Los metodos estadısticos son herramientas utiles para el desarrollo de investigacionescientıficas. El termino de investigacion cientıfica suele provocar en algunos estudiantes oprofesores, escepticismo, confusion y -a veces- molestia. Hay estudiantes que piensan que la

Introducción a la estadística

3

Page 9: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

investigacion cientıfica es algo que no tiene relacion con la realidad cotidiana y que solamentese acostumbra hacer en centros muy especializados e institutos con nombres largos y compli-cados. Tambien hay quien piensa que la investigacion cientıfica es propia de personas de edadavanzada, con pipa, lentes, barba y pelo canoso y despeinado. Incluso algunos consideran quela investigacion cientıfica es algo complicado, muy difıcil de aplicar y que requiere un talentoespecial.

Sin embargo, la investigacion cientıfica no es nada de esto. En primer lugar, tiene que vercon la realidad. En ella se abordan temas como las relaciones interpersonales, el ambientelaboral (clima en el trabajo), la violencia, la television, las enfermedades, las elecciones pre-sidenciales, las emociones humanas, factores asociados al rendimiento academico, la manerade vestirnos, la familia y otros mas que forman parte de lo cotidiano de nuestras vidas.

Ejemplos de investigaciones cotidianas:

1. Cuando nos gusta una persona que conocimos en alguna reunion o un salon de clases,tratamos de investigar si le podemos resultar atractivos.

2. Cuando un amigo esta enojado con nosotros, buscamos investigar las razones.

3. Cuando nos interesa un gran personaje historico, investigamos como vivio y murio.

4. Cuando buscamos empleo, nos dedicamos a investigar quien ofrece trabajo y en quecondiciones.

5. Cuando nos agrada una comida, nos interesa investigar los ingredientes.

La investigacion cientıfica es esencialmente como cualquier tipo de investigacion, solo quemas rigurosa y cuidadosamente realizada. Podemos definirla como un tipo de investigacion

sistematica, controlada, empırica, y crıtica, de proposiciones hipoteticas sobrelas presumidas relaciones entre fenomenos naturales.

Detallamos estos aspectos a continuacion:

Sistematica y controlada. Implica que hay una disciplina constante para hacer inves-tigacion cientıfica y que no se dejan los hechos a la casualidad.

Empırica. Significa que se basa en fenomenos observables de la realidad.

Crıtica. Quiere decir que se juzga constantemente de manera objetiva y se eliminan laspreferencias personales y los juicios de valor.

La investigacion cumple dos propositos fundamentales:

a) Producir conocimiento y teorıas (investigacion basica).

4

Page 10: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

b) Resolver problemas practicos (investigacion aplicada).

La investigacion es la herramienta para conocer lo que nos rodea y su caracter es univer-sal.

La investigacion cientıfica es un proceso que esta compuesto por una serie de etapas, lascuales se derivan unas de otras y al llevar a cabo un estudio o investigacion, no podemosomitir etapas ni alterar su orden. Muchos investigadores estan de acuerdo en que los pasosque pueden seguirse son los que se enumeran a continuacion:

Etapas en la investigacion.

1. Eleccion del tema.

2. Planteamiento del problema.

3. Definicion de objetivos.

4. Formulacion de hipotesis.

5. Definicion de la unidad de observacion y unidad de medida.

6. Determinacion de la poblacion y de la muestra.

7. Recoleccion de datos.

8. Clasificacion, ordenacion, tabulacion, presentacion, analisis de los resultados de la in-vestigacion

9. Publicacion de los resulados de la investigacion.

Algunas de las etapas mencionadas las consideramos a continuacion.

Eleccion del tema. Para la eleccion del tema se recomienda documentarse sobre el te-ma que se va a investigar leyendo las aportaciones de los autores mas importantes o trabajosafines. La cantidad y calidad de la informacion que se ha de recopilar dependera del tipo detrabajo y de la profundidad del mismo. Escoger en primer lugar, el campo amplio del trabajo,luego determinar el ambito preciso delimitado por espacio y tiempo.

Planteamiento del problema. Iniciemos con un ejemplo, no es un problema de inves-tigacion reducir los accidentes de transito, pero en cambio sı lo es responder a la pregunta¿cuales son las causas que producen los accidentes de transito? Con base a su respuesta esque podra resolverse el problema practico, pero es preciso hacer de partida esta distincionpara disipar frecuentes equıvocos. Como se habra observado, la formulacion de un problemaasume generalmente la forma de una pregunta, de alguna interrogante basica cuya respuestasolo se podra obtener despues de realizada la investigacion.

5

Page 11: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Formulacion de la Hipotesis.

En general el termino hipotesis se define como una respuesta probable de caracter tenta-tivo a un problema de investigacion y que es factible de verificacion empırica. La hipotesisexpresa la relacion entre dos o mas variables que son susceptibles de medicion. Una hipotesisplanteada correctamente debe poderse verificar o contrastar contra la evidencia empırica.

Una hipotesis se estructura con tres elementos:

1. Unidades de Analisis.Tambien conocidas como unidades de observacion y representan el objeto de estudio, sonejemplos, las personas, las empresas, los movimientos sociales, los fenomenos naturales,etc. que se someten a investigacion.

2. Las Variables.Son los atributos, caracterısticas o propiedades que presentan las unidades de analisisy que seran sometidas a medicion.

3. Enlaces Logicos.Son terminos de relacion o enlace entre las unidades de analisis y las variables, porejemplo, las expresiones: si el combustibles aumentas (Diesel y gasolina) entonces au-menta el precio de la canasta basica, existe relacion entre la estatura y el peso de unapersona, el gasto de un hogar depende de los ingresos, etc.

¿Que tipos de hipotesis hay ?La abundante literatura existente sobre metodologıa de la investigacion, describe una gran

variedad de tipos de hipotesis, sin embargo se pueden resumir en: hipotesis de investigacion,hipotesis de nulidad, hipotesis alternativa e hipotesis estadıstica.

1. Hipotesis de Investigacion.Se define como una aseveracion, conjetura o proposicion sobre las probables relacionesentre dos o mas variables. Tambien se les denomina hipotesis de trabajo. Con frecuenciase pueden expresar en forma descriptiva, correlacional, de causalidad (experimental),etc. dependiendo del proposito y naturaleza de la investigacion que se intenta desarro-llar.

2. Hipotesis de Nulidad.Este tipo de hipotesis expresa la ausencia de relacion, diferencia de grupos, causali-dad, etc. entre dos o mas variables. En un sentido son el opuesto de las hipotesis deinvestigacion. Tambien constituyen proposiciones acerca de la relacion entre variablessolamente que sirven para refutar o negar lo que afirma la hipotesis de investigacion.

3. Hipotesis Alternativa.Como su nombre lo indica, son posibilidades alternativas a la hipotesis nula, algunostextos la utilizan como hipotesis de investigacion.

6

Page 12: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

4. Hipotesis Estadısticas.Una hipotesis estadıstica expresa en terminos o sımbolos estadısticos los anteriores tiposde hipotesis.

En resumen, en toda investigacion cientıfica se plantean hipotesis que deben ser validadas ono a partir de los datos. Los contrastes de hipotesis estadısticas se presentan en el ultimocapıtulo de este documento.

2.3. Instrumentos de Obtencion de Datos.

2.3.1. El Censo Nacional.

Los Censos de Poblacion.

Segun las Naciones Unidas, un censo se define como Un conjunto de operaciones que consisteen reunir, elaborar y publicar datos demograficos, economicos y sociales, correspondientes atodos los habitantes de un paıs o territorio definido y referido a un momento determinado o aciertos perıodos de tiempo dados. El censo de poblacion constituye una actividad estadısticade gran utilidad para el paıs o territorio. Es la principal fuente de datos basicos sobre pobla-cion, necesarios para el adecuado funcionamiento de la gestion socioeconomica y polıtica deun pueblo.

Caracterısticas de los Censos:

1. Obtienen informacion secreta. La informacion desagregada debe ser de manejo confiden-cial, no es permitido por medio de la informacion censal identificar personas o viviendasespecıficas.

2. Disponen de patrocinio oficial. Todo el trabajo que conlleve la ejecucion del censo debeser auspiciado por el Estado, aunque la empresa ejecutora no sea gubernamental.

3. Territorio bien definido: El area o region comprendida por el censo debe estar claramentedefinida. Puede excluir algunas zonas por razones de accesibilidad o seguridad, perodebe senalarse explıcitamente sus lımites.

4. Poseen universalidad. Debe incluir a todos los miembros de la poblacion del territoriocensal sin omisiones ni repeticiones.

5. Definen claramente la unidad censal. En un censo de poblacion, la unidad censal es elindividuo, mientras que en un censo de vivienda la unidad censal es la vivienda. Sinembargo, la unidad de referencia en las boletas censales es el hogar.

6. Poseen la caracterıstica de simultaneidad. La poblacion total empadronada debe refe-rirse a un momento preciso en el tiempo. Por esta razon, los datos recolectados debenreferirse a una fecha especıfica o a un perıodo bien definido.

7

Page 13: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

7. Son Periodicos. Los censos deben ser realizados periodicamente. La recomendacion he-cha por la Division de Poblacion de las Naciones Unidas, senala que el perıodo entreun censo y otro sea de 10 anos y que los anos censales sean los terminados en 0. Estopermitirıa efectuar comparaciones internacionales.

¿Que tipo de informacion se puede recolectar en un censo de poblacion?.

1. Datos geograficos. Ubicacion de la persona en el momento censal, residencia habitual,tipo de localidad (urbana o rural) en que fue empadronada.

2. Datos demograficos. Informacion sobre el hogar y relacion de parentesco entre los miem-bros. Ademas sobre la edad, el genero, el estado conyugal y lugar de nacimiento. Fre-cuentemente se agrega sobre migracion y algunas preguntas tendientes a medir indirec-tamente la mortalidad y la fecundidad.

3. Datos educativos. En este ambito interesa el alfabetismo y el nivel de instruccion de laspersonas. Tambien se puede consultar sobre la asistencia actual a un centro educativo.

4. Datos sobre la actividad economica. Se consulta si la persona es economicamente activao inactiva. Ocupacion especıfica, rama de actividad economica a la que se dedica y sucategorıa ocupacional (patron, empleado asalariado, trabajador por cuenta propia, etc.)

5. Otros. Se acostumbra consultar sobre otras caracterısticas tales como: etnia, religion,idiomas, impedimentos fısicos, etc.

¿Cuales son los principales usos de la informacion censal?.

1. Determinar los cambios en la magnitud y composicion de la poblacion.

2. Proporciona las bases para las proyecciones de poblacion.

3. Fuente basica de los paıses en desarrollo para el estudio de la migracion.

4. Permite por medio de metodos indirectos estimar la fecundidad y la mortalidad.

5. Permite analizar interrelaciones entre las caracterısticas demograficas y socioeconomicasde individuos y hogares.

2.3.2. El Cuestionario.

Un instrumento de recoleccion de datos es, en principio, cualquier recurso de que puedavalerse el investigador para acercarse a los fenomenos y extraer de ellos informacion. Den-tro de cada instrumento concreto pueden distinguirse dos aspectos diferentes: una forma yun contenido. La forma del instrumento se refiere al tipo de aproximacion que establecemoscon lo empırico, a las tecnicas que utilizamos para esta tarea. En cuanto al contenido estequeda expresado en la especificacion de los datos concretos que necesitamos conseguir; serealiza, por lo tanto, en una serie de ıtems que no son otra cosa que los indicadores bajo la

8

Page 14: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

forma de preguntas, de elementos a observar, etc. De este modo, el instrumento sintetiza ensı toda la labor previa de investigacion: resume los aportes del marco teorico al seleccionardatos que corresponden a los indicadores y, por lo tanto, a las variables o conceptos utilizados;pero tambien expresa todo lo que tiene de especıficamente empırico nuestro objeto de estudio.

Es mediante una adecuada construccion de los instrumentos de recoleccion que la investi-gacion puede manifestar entonces la necesaria correspondencia entre teorıa y practica; es mas,podrıamos decir que es gracias a ellos que ambos terminos pueden efectivamente vincularse.Si en una investigacion ellos son defectuosos se produciran, inevitablemente, alguna de lasdos dificultades siguientes: o bien los datos recogidos no serviran para satisfacer las interro-gantes iniciales planteadas, o bien esos datos seran imposibles de obtener, vendran falseadoso distorsionados, etc., porque el instrumento no se adecua al tipo de hecho en estudio.

2.4. Tipos de Variables.

Variables.Definicion.Las variables son las caracterısticas observables de un objeto, problema o evento que se puededescribir segun un esquema de medicion bien definido. Cada rasgo o aspecto de una poblacionconstituye una variable. La edad de unas personas, su sexo, color de su piel, nacionalidad, sunivel de motivacion, niveles de ansiedad, el numero de nacimientos, numero de matrimonios,frecuencia de suicidios, estatura, peso, niveles de inteligencia, actitudes, entre muchas otras.

Clasificacion de las variables.

1. Variables Cualitativas. Son aquellas que se expresan en forma verbal como categorıaso atributos. Por ejemplo, el sexo, color, afiliacion polıtica, nacionalidad, motivacion, areaacademica o profesion de una persona.

2. Variables Cuantitativas. Son las que varıan en terminos de cantidad y se registrano expresan en forma numerica. Por ejemplo, edad, promedio academico, puntuacionesde examenes, frecuencia de delitos, temperatura, ingresos anuales o salarios por hora.

3. Variables Discretas. Son aquellas que solo adquieren un valor absoluto o especıficoque nunca cambian, toman valores enteros o infinitos numerables.

4. Variables Continuas. So aquellas que siempre son cuantitativas, son las que puedenasumir cualquier valor dentro de un intervalo. Por ejemplo, la edad, altura, peso, ındiceacademico.

En el campo de la investigacion, que se suele examinar las relaciones entre dos o masvariables al investigar un asunto o problema, se clasifican las variables como:

1. Variables Independientes. Son las caracterısticas controladas por el investigador yque se supone tendran efectos sobre otras variables.

9

Page 15: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

2. Variables Dependientes. Son las caracterısticas o aspectos que se alteran por conse-cuencia del control que ejerce el investigador sobre otras variables.

Estos dos ultimos tipos de variables suelen darse mas en estudios o investigaciones expe-rimentales, pero tambien podemos considerarlas en estudios descriptivos. Por ejemplo, en unestudio experimental se investiga si un nuevo medicamento mejora las condiciones del SIDA.Para tales efectos se seleccionaron 30 pacientes, de los cuales 15 recibıan el nuevo medica-mento (grupo experimental) y otros 15 continuaban con su tratamiento tradicional (grupocontrol). El nuevo medicamento viene a ser la variable independiente porque es la que losinvestigadores controlan y que luego examinaran sus efectos en la condicion del SIDA, la cualviene a ser la variable dependiente, porque es la condicion que se va alterar o quedar afectadapor el nuevo medicamento.

Datos: son los hechos que describen sucesos y entidades, en concreto es el valor que tomala variable.

2.5. Escalas de Medicion.

Una escala es un esquema especıfico para asignar numeros o sımbolos con el objeto dedesignar caracterısticas de una variable. Las escalas de medicion comunmente conocidas son:nominales, ordinales, de intervalos y de razon.

Tipos de Escala.

1. Nominal. Se clasifican las personas, eventos u objetos en categorıas. Ejemplo: Deno-minaciones religiosas, afiliacion polıtico partidista, codificaciones en la clasificacion deobjetos, pinturas, etc.

2. Ordinal. Se clasifican u ordenan las personas, objetos y eventos en determinada posi-cion. Ejemplos: Orden de llegada de atletas en una carrera, puntuaciones de una prueba,rangos militares, nivel de popularidad de estudiantes en una escuela.

3. De intervalo. Escala que posee unidades de igual magnitud. El punto cero de la escalaes arbitrario y no refleja la ausencia del atributo.

4. De razon. Escala que posee un punto cero absoluto (ausencia del atributo) e intervalosde igual magnitud.

Problema 2.1. 1. Establecer las diferencias entre variables cualitativas y cuantitativas.

2. Definir al menos dos ejemplos de variables cualitativas y de variables cuantitativas.

3. Establecer las diferencias entre variables discretas y continuas.

4. Definir al menos dos ejemplos de variables discretas y de variables continuas.

10

Page 16: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

2.6. Ejercicios.

1. En cierto estudio, se desea conocer las preferencias de los electores sobre los candidatosen una eleccion presidencial, con el objeto de realizar predicciones sobre el resultado dela eleccion. Elija cual serıa la mejor definicion de la poblacion de interes en este caso:

a) Todos los salvadorenos.

b) Todos los salvadorenos inscritos en algun partido polıtico.

c) Todos los salvadorenos mayores de 18 anos.

d) Todos los salvadorenos residentes en la Region Metropolitana

2. En cada una de las siguientes situaciones, identifique la muestra utilizada:

a) En un centro escolar se desea investigar el numero de hermanos que posee cadaalumno. Para esto se pregunta cuantos hermanos tienen a un grupo de 20 ninosdel centro escolar.

b) Se desea investigar el porcentaje de hogares en el paıs que han sido vıctima de unasalto durante el ultimo ano. Para esto se entrevistan a 1000 hogares elegidos en15 municipios diferentes del paıs.

3. Alumnos de septimo grado desean realizar una actividad para recaudar fondos para lacompra de varios juegos de mesa para donar a su centro escolar. Ellos deciden realizaruna encuesta y ası recolectar informacion sobre la preferencia de juegos de mesa detodos los ninos y ninas del centro escolar. Los encuestados fueron un grupo de alumnossentados en la cafeterıa.

a) ¿Cual es la poblacion en este contexto?

b) Describa las limitaciones de la muestra.

c) Explique una mejor manera de obtener una muestra representativa.

4. Senalar, en cada caso, que tipo de variable es, si es mas conveniente estudiar la poblaciono una muestra.

11

Page 17: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Variable Tipo de Variable Poblacion o Muestra

La estatura de los 20 alumnos de una clase

La talla de pantalones de los hombres deun Municipo de Chalatenango

Las aficiones deportivas de los alumnosde un instituto

El color de cabello de los alumnosde una clase

Numero de personas que viven en cadaapartamento de un edificio

Equipo de futbol preferido por cadaalumno de una clase

Temperaturas medidas en la ciudad deSan Miguel a lo largo del mes de marzo

El peso de cada uno de los 20 alumnosde una clase

5. Sus alumnos han mostrado interes por estudiar si hay diferencias entre los habitos deestudio de su grado, octavo A y el octavo B.

a) ¿Que variables cree usted que serıa interesantes que ellos recolectaran?

b) Para cada una de las variables propuestas en el literal anterior, indique si es cua-litativa, nominal u ordinal, o cuantitativa, discreta o continua.

c) ¿Que preguntas se podrıan generar para recolectar informacion sobre las variables?

12

Page 18: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

3.1. Tablas de Frecuencias.

Supongamos que hemos recogido un conjunto de n datos englobados en una variable X. La tabla que recoge de modo sistematico estos datos se denomina distribucion de frecuencias. La distribucion de frecuencias (simples o agrupadas en intervalos).Comunmente llamada tabla de frecuencias, se utiliza para hacer la presentacion de datos provenientes de las observaciones realizadas en el estudio, estableciendo un orden mediante la division en clases y registro de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realizacion de un mejor analisis e interpretacion de las caracterısticas que describen y que no son evidentes en el conjunto de datos brutos o sin procesar.

Tabla 1. Distribucion de frecuencias simple.Frecuencias Absolutas Frecuencias Relativas

Datos Simples Acumuladas Simples Acumuladas

x1 n1 N1 = n1 f1 = n1/n F1 = N1/n

x2 n2 N2 = n1 + n2 f2 = n2/n F2 = N1/n

......

......

...

xk nk Nk =∑k

i=1 ni fk = nk/n Fk = Nk/n

Totales∑k

i=1 ni = n∑k

i=1 fi = 1

Ejemplo 3.1. (Datos no agrupados).Se tiene los datos recopilados acerca de la variable X: numero de ausencias a clase que tienenlos estudiantes de una determina seccion.0, 1, 2, 2, 1, 3, 2, 1, 4, 2, 4, 3, 2, 0, 0, 2, 2, 3, 0, 3. ¿Que tipo de variable es esta?.Construccion de la tabla o distribucion de frecuencias simple.

Solucion:¿Que tipo de variable es esta?: Variable cuantitativa discreta.

Al tratarse de una variable discreta (un conteo siempre tomara valores enteros) y conpocos valores diferentes, no parece necesario crear clases para agrupar los datos. En este casok = 5 (son cinco los valores distintos de X: 0, 1, 2, 3 y 4).

Estadística descriptiva

13

Page 19: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Distribucion de frecuencias simple.Frecuencias Absolutas Frecuencias Relativas

Datos Simples Acumuladas Simples Acumuladas

0 4 4 0.2 0.2

1 3 7 0.15 0.35

2 7 14 0.35 0.7

3 4 18 0.2 0.9

4 2 20 0.1 1

Totales 20 1

Interpretacion de las distintas frecuencias:

n1 = 4 indica que hay 4 alumnos del grupo que no tienen ausencias.

n3 = 7 indica que hay 7 estudiantes del grupo que tienen 2 ausencias.

f4 = 0,20 indica que el 20 % de los estudiantes tienen 3 ausencias.

f5 = 0,10 indica que el 10 % de los estudiantes tienen 4 ausencias.

N2 = 7 indica que hay 7 estudiantes que tienen hasta (o como maximo) 1 ausencia

N3 = 18 indica que hay 18 estudiantes que tienen hasta 3 ausencias

F2 = 0,35 indica que el 35 % de los estudiantes tienen hasta 1 ausencia.

F3 = 0,70 indica que el 70 % de los estudiantes tienen hasta 2 ausencias.

Problema 3.1. Karen realizo una encuesta para conocer las mascotas favoritas de sus com-paneros de curso. Ella construyo una tabla con los datos que recolecto, pero se le rompio lahoja y perdio informacion. El trozo de hoja que Karen pudo rescatar fue:

¿Cuantos alumnos marcaron la preferencia Otras/No tiene? Justifique su respuesta.

Problema 3.2. En una colonia populosa de un Municipio de San Salvador, donde cadavivienda tiene unicamente dos habitaciones, se ha realizado un estudio en 34 hogares paraconocer el porcentaje de viviendas con hacinamiento (hacinamiento: tres o mas individuospor habitacion). A continuacion se presenta el numero de individuos por vivienda: 2, 4, 4, 8,6, 6, 7, 5, 7, 8, 9, 3, 2, 5, 8, 9, 9, 11, 10, 7, 7, 3, 5, 4, 8, 9, 11, 9, 8, 8, 5, 7, 3, 11.

14

Page 20: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

1. Obtenga una tabla de distribucion de frecuencias.

2. ¿Que porcentaje de viviendas se encuentran en situacion de hacinamiento?.

3. ¿Que porcentaje de hogares esta compuesto por 8 o menos miembros? .

4. ¿Que porcentaje de individuos vive en hogares con 8 o menos miembros? ¡¡¡OJO: Noconfundirla con el numeral 3.!!!

Agrupacion de los datos en clases.

La agrupacion de datos en clases incluye muchas cuestiones subjetivas, como facilidado conveniencias de agrupacion, diversidad de criterios o necesidades de la investigacion; eincluso puede depender de la propia naturaleza de los datos.

Se debe considerar tambien que la agrupacion de datos siempre conlleva un gradode perdida de informacion, pues ya no se cuenta con todos y cada uno de los valores de lavariable sino con los intervalos creados; no obstante, esta perdida de informacion en generalno es significativa para el analisis global. En tal sentido, cuando en la muestra existen muchosvalores diferentes y mucha variabilidad se recomienda, aun a costa de perder informacion,agrupar los datos en clases, en lo que se denomina distribucion de frecuencias agrupada enintervalos y los valores de la variable son tomados como las marcas de clases o puntos mediosde los intervalos. El numero de clases en que se dividen los datos no debe ser excesivo, esrecomendable trabajar un mınimo de 6 a un maximo de 15 clases o intervalos.

Tabla 2. Distribucion de frecuencias agrupadas en intervalos.Marca Frecuencias Absolutas Frecuencias Relativas

Clases de Clase Simples Acumuladas Simples Acumuladas

L0− < L1 x1 n1 N1 = n1 f1 = n1/n F1 = N1/n

L1− < L2 x2 n2 N2 = n1 + n2 f2 = n2/n F2 = N1/n

......

......

......

Lk−1− < Lk xk nk Nk =∑k

i=1 ni fk = nk/n Fk = Nk/n

Totales∑k

i=1 ni = n∑k

i=1 fi = 1

Cuando se trabaje con datos agrupados en clase vamos a recurrir al siguiente convenio:intervalos abiertos en el lımite superior y cerrados en el lımite inferior, ası: [Li−1;Li), que elvalor que cierra una clase es el mismo que abre la siguiente.

La forma de construir las tablas de frecuencias agrupadas puede variar por razones subje-tivas como mencionamos antes, sin embargo los pasos que suelen seguirse son los siguientes:

15

Page 21: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

1. Determinar el recorrido de la variable (R), definido como la diferencia entre el valormaximo y el mınimo de la variable: R = Xmax −Xmin

2. Definir el numero de intervalos o clases (6 ≤ k ≤ 15): La practica indica que menos de6 clases suele ser muy poco y que en general mas de 15 clases puede ser excesivo.

3. Determinar la amplitud o ancho de estos intervalos (c), como el cociente del recorrido delos datos entre la cantidad de clases que se decidio usar, aproximado convenientementey siempre por exceso: c ≈ R/k

4. Crear las clases, partiendo del valor mınimo observado (xmin) o un valor inferior, ysumando sucesivamente el ancho de clases (c) determinado.

5. Clasificar la variable en las distintas clases, obteniendo las frecuencias absolutas corres-pondiente (ni).

6. Calcular las restantes frecuencias deseadas: relativas (fi), absolutas acumuladas (Ni),relativas (fi) y relativas acumuladas (Fi).

7. Determinar las marcas de clases (Xi o punto medio de cada clase Pmi), valores querepresentaran a sus respectivas clases.

Ejemplo 3.2. Datos agrupados.

Los siguientes valores corresponden al registro del consumo de gasolina de una flota de50 taxis, en litros, un dıa dado: 46, 39, 34, 33, 32, 36, 41, 26, 32, 36, 43, 28, 30, 27, 32, 42,30, 31, 34, 41, 28, 30, 26, 21, 37, 39, 25, 33, 47, 28, 26, 23, 30, 43, 40, 36, 21, 38, 31, 38,29, 30, 48, 47, 23, 31, 24, 38, 35, 36.¿Que tipo de variable es esta?.Construir una tabla de frecuencias en 6 clases.

Solucion:¿Que tipo de variable es esta?.Aunque los datos observados son todos enteros la variable es continua, por su propia na-

turaleza (de hecho, un taxi podrıa haber consumido 24.75 litros de gasolina).

Ahora, construir la tabla de frecuencias:

Se tiene n = 50 taxis (tamano de la muestra).

Determinacion del recorrido: R = Xmax −Xmin = 48− 21 = 27.

Definicion del numero de clases a usar:Para 50 observaciones podrıan usarse 6, 7 u 8 clases, segun decision de quien va aorganizar los datos. Como se menciono anteriormente consideremos, en este caso k =6.

16

Page 22: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Determinacion del ancho de clases: c ≈ R/k = 27/6 = 4,5 ≈ 5

(El valor R/k = 4,5 se redondea a 5 porque no tendrıa sentido en este caso hacer losintervalos de amplitud decimal, ya que complicarıa, en vez de facilitar, la interpretaciony el trabajo con la informacion; observese que esta aproximacion fue a un valor superioral verdadero cociente, es decir, por exceso).

Creacion de las clases:

Se podrıa partir del valor Xmin = 21, pero resulta mas comodo comenzar ligeramentepor debajo de el, en 20, de manera que la primera clase sea desde 20 a 20 + c (ya setiene c = 5), o sea, de 20 hasta menor que 25; la segunda de 25 hasta menor que 30incluyendo el 25 (lımite inferior), y ası sucesivamente hasta la sexta clase (k = 6), queserıa desde 45 hasta menor que 50.

Determinacion de las marcas de clases Xi o Pmi:

Para el promedio de los lımites de clase se tiene que: Xi = (Li + Li−1) /2. Ası: X1 =(20 + 25)/2 = 45/2 = 22,5; X2 = (25 + 30)/2 = 55/2 = 25,5 y ası sucesivamente.

Clasificacion de la variable y calculo de las distintas frecuencias:

Tabla 2. Distribucion de frecuencias agrupadas en intervalos.Marca Frecuencias Absolutas Frecuencias Relativas

Clases de Clase Simples Acumuladas Simples Acumuladas

[Li−1;Li) Xi ni Ni fi Fi20 -< 25 22.5 5 5 0.10 0.1025 -< 30 27.5 9 14 0.18 0.2830 -< 35 32.5 15 29 0.30 0.5835 -< 40 37.5 11 40 0.22 0.8040 -< 45 42.5 6 46 0.12 0.9245 -< 50 47.5 4 50 0.08 1Totales n=50 1

Interpretacion de las distintas frecuencias:

• n2 = 9: indica que hay 9 taxis que consumieron entre 25 y 30 litros de gasolina, oque consumieron como promedio 27,5 litros (utilizando la marca de clases).

• f3 = 0,30: indica que el 30 % de los taxis consumieron entre 30 y 35 litros degasolina, o que consumieron 32,5 litros como promedio.

• N4 = 40: indica que 40 taxis consumieron menos de 40 litros de gasolina (Lasfrecuencias acumuladas se interpretan utilizando el lımite superior del intervalo,nunca con la marca de clases).

• F5 = 0,92: indica que el 92 % de los taxis consumio menos de 45 litros de gasolina.

17

Page 23: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Problema 3.3. Se considera la frecuencia con datos agrupados (Li−1− < Li;ni).

1. Se realiza una transformacion, obteniendose la nueva distribucion (kLi−1− < kLi;ni)(k numero real diferente de cero) ¿Que efecto produce esta transformacion sobre lasamplitudes y las densidades de frecuencia de los intervalos?.

2. Dada la distribucion transformada ((Li−1 + k)− < (Li + k);ni) (k numero real), rela-cionese sus densidades de frecuencia con las correspondientes en la distribucion inicial.

Problema 3.4. En un examen de Matematica aplicado a un grupo de alumnos se obtuvo lassiguientes calificaciones:

Notas FrecuenciasMenor que 2 6Menor que 4 14Menor que 6 21Menor que 8 31Menor que 10 40

Construir una tabla de frecuencias.

¿Que porcentaje de estudiantes aprobo el examen? (se aprueba con 6 o mas).

3.1.1. Problemas.

1. Una entidad bancaria dispone de 50 sucursales en el territorio nacional y ha observadoel numero de empleados que hay en cada una de ellas para un estudio posterior. Lasobservaciones obtenidas han sido: 12, 10, 9, 11, 15, 16, 9, 10, 10, 11, 12, 13,14,15, 11,11, 12, 16, 17, 17,16,16, 15, 14, 12, 11, 11, 11, 12, 12, 12, 15, 13, 14, 16, 15, 18, 19, 18,10, 11, 12, 12, 11, 13, 13, 15, 13, 11, 12.

a) Calcule la distribucion de frecuencias de la variable obteniendo las frecuenciasabsolutas, relativas y sus correspondientes acumuladas.

b) ¿Que proporcion de sucursales tiene mas de 15 empleados?

2. Investigados los precios por habitacion de 50 hoteles del paıs se ha obtenido los siguientesresultados (en cientos de dolares):7, 3, 5, 4, 5, 7, 4, 7.5, 8, 5, 5, 7.5, 3, 7, 10, 15, 5, 7.5, 12, 8, 4, 5, 3, 5, 10, 3, 4, 5, 7, 5,3, 4, 7, 4, 7, 5, 4, 7, 10, 7.5, 7, 8, 7.5, 7, 7.5, 8, 7, 7, 12, 8.a) ¿que tipo de variable es?b) Construya la distribucion de frecuencias para esta variable.

3. Realizada una encuesta en una region del paıs, se han agrupado los establecimientoshoteleros por el numero de cuartos, obteniendose la siguiente distribucion:

18

Page 24: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Cuartos No de hoteles Cuartos No de hoteles0 -< 100 25 400 -< 500 21100 -< 200 37 500 -< 600 13200 -< 300 12 600 -< 700 5300 -< 400 22 700 -< 800 3

Determine el numero de establecimientos hoteleros con mas de 300 cuartos.

Determine el porcentaje de establecimientos que tienen mas de 100 cuartos y hasta400.

¿Que tipo de variable es esta?

¿Por que, siendo ese el tipo de variable, la tabla de frecuencia es de esta forma?

4. Las edades de los empleados de una determinada empresa son las que aparecen en lasiguiente tabla:

Edad No de empleadosMenos de 25 22Menos de 35 70Menos de 45 121Menos de 55 157Menos de 65 184

Sabiendo que el empleado mas joven tiene 18 anos, escrıbase la distribucion de frecuen-cias para datos agrupados (amplitud del intervalo definida segun su conveniencia).

3.2. Representacion grafica.

Variables discretas.

Diagrama de Barras. Permite visualizar de forma sencilla la distribucion de unavariable cualitativa. Se dibuja sobre cada categorıa una barra (o rectangulo) cuya alturacoincida con la frecuencia absoluta o relativa de dicha clase.

Ejemplo 3.3. Para hacer un trabajo en casa sobre el medio ambiente, unos estudianteshan recogido informacion sobre el tiempo de descomposicion de varios tipos de basuraque la gente desecha:

Tipo de basura Tiempo de descomposicion

Cascara de banano 3 anos

Cascara de naranja 3 anos

Cajas de carton 0.5 anos

Chicles 25 anos

Periodicos unos pocos dıas

Vasos de plastico Mas de 100 anos

19

Page 25: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Un estudiante piensa en como representar los resultados mediante un diagrama de ba-rras. Dar una razon de por que no resulta adecuado un diagrama de barras para repre-sentar estos datos.

Diagrama de Pareto. Es como un diagrama de barras en el que se ordenan las clasesde mayor a menor frecuencia (absoluta o relativa). En la parte superior de la figurasuele trazarse una lınea que representa la suma de la frecuencia de cada clase y las quela preceden, esto se usa para identificar la minorıa de las caracterısticas que representanla mayorıa de casos.

Pictograma. Es una forma de representar las cantidades estadısticas por medio dedibujos, utilizando para ello objetos y figuras. Las figuras empleadas deben explicarsepor sı mismas.

Ejemplo 3.4. En la Figura 1 se representa el numero de arboles plantados cada mesdurante un ano.

Figura 1: Pictograma

Grafico de Sectores(o Circular). En el caso de variables cualitativas el diagramacircular se utiliza con mucha frecuencia. Consiste en representar sobre un cırculo losdiferentes atributos, mediante un sector circular de angulo proporcional a la correspon-diente frecuencia. El angulo de cada sector circular se calcula multiplicando por 360o

la frecuencia relativa. Si el numero de categorıas es excesivamente grande, la imagenproporcionada por el grafico de sectores no es lo suficientemente clara y por lo tanto lasituacion ideal es cuando hay alrededor de cuatro o cinco categorıas. Si hay demasiadascategorıas se recomienda el grafico de barras.

Representacion Grafica de Variables Continuas.

Histogramas y Polıgono de Frecuencias.

El histograma y el polıgono de frecuencias son las representaciones graficas usadas paradistribuciones de frecuencias agrupadas en intervalos. El histograma se construye dibujando

20

Page 26: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

en cada clase un rectangulo de base la amplitud del intervalo y de altura se representanlas frecuencias. Si desde el extremo superior de cada una de las barras que representan losintervalos de clase se hace una marca en el punto medio y luego se unen los puntos por lınearecta se obtiene el polıgono de frecuencias. El polıgono de frecuencias se lleva hasta el ejehorizontal en los extremos hasta los puntos que serıan los puntos medios si hubiera una claseadicional en cada extremo del histograma correspondiente. Esto permite que el area totalquede incluida. Es decir, el area total bajo el polıgono de frecuencias equivale al area bajo elhistograma.

3.2.1. Problemas.

1. Investigados los precios por habitacion de 50 hoteles del paıs se ha obtenido los siguientesresultados (en cientos de dolares):7, 3, 5, 4, 5, 7, 4, 7.5, 8, 5, 5, 7.5, 3, 7, 10, 15, 5, 7.5, 12, 8, 4, 5, 3, 5, 10, 3, 4, 5, 7, 5,3, 4, 7, 4, 7, 5, 4, 7, 10, 7.5, 7, 8, 7.5, 7, 7.5, 8, 7, 7, 12, 8.Elabore un grafico de barras.

2. Realizada una encuesta en una region del paıs, se han agrupados los establecimientoshoteleros por el numero de cuartos, obteniendose la siguiente distribucion:

Cuartos No de hoteles Cuartos No de hoteles0 -< 100 25 400 -< 500 21100 -< 200 37 500 -< 600 13200 -< 300 12 600 -< 700 5300 -< 400 22 700 -< 800 3

Construir un histograma y un polıgono de frecuencias.

3.3. Medidas de Tendencia Central.

Los promedios o medidas de posicion proporcionan valores tıpicos o representativos de lavariable en estudio. Podemos hablar de medidas de posicion centrales, como la media (arit-metica, geometrica y armonica), la mediana y la moda y medidas de posiciones no centrales,como los cuartiles, quintiles, deciles y percentiles.

3.3.1. La Media Aritmetica.

La media aritmetica es la medida de posicion mas utilizada (esta muy influenciada porlos valores extremos de la variable). Viene definida como la suma de los datos dividido por elnumero de ellos. Dependiendo de la naturaleza de los datos que pretendemos promediar, seraconveniente el uso de otro tipo de medidas, como son la media geometrica (Todos los datosson positivos y hay mucha dispersion; ejemplo: porcentajes, tasas de crecimiento, razones,numeros ındices, interes anual, inflacion, etc.) y la media armonica (resulta poco influidapor la existencia de determinados valores muy grandes que el conjunto de los otros, siendoen cambio sensible a valores muy pequenos), cuyas formulas se presentan en los siguientes

21

Page 27: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

apartados. Si a cada observacion se le asigna un valor diferente, dado en forma de peso, ya continuacion se calcula la media, nos encontramos con una media ponderada. La moda deun conjunto de valores es aquel valor que ocurre con mas frecuencia. Si todos los valores sondistintos, no hay moda, por otra parte, un conjunto de datos puede tener mas de una moda.

La media aritmetica es altamente sensible a cualquier cambio en los valores de ladistribucion. No es recomendable su uso cuando la variable esta dada en forma de tasas oporcentajes. La media es representativa del conjunto de datos si se quiere promediar canti-dades semejantes, que presentan variaciones dentro de un margen razonable.

Ejercicio.Demostrar las siguientes propiedades de la media aritmetica.

1. La media aritmetica de una constante es igual a la constante.

2. La media del producto de una constante por una variable, es igual a multiplicar a laconstante por la media de la variable.

3. La media de una variable mas (o menos) una constante sera igual a la media de lavariable, mas (o menos) la constante.

4. La media aritmetica de una muestra dividida en submuestras, es igual, a la media pon-derada de las submuestras, tomando como ponderacion los tamanos de las submuestras.Esto es,

x =

∑ki=1 xinin

donde n = n1 + n2 + ...+ nk

.

Problema 3.5. Dada una distribucion de frecuencias (xi, ni) cuya media es x, obtenga-se la media de la distribucion de frecuencias (axi + b, ni), donde a y b son numero realescualesquiera.

Ejemplo 3.5. Un inversionista tiene 1,200 acciones de un precio inferior a $ 3,490 dolaressiendo su valor promedio de $ 2,905; ademas, 800 acciones cuyo valor unitario es superior a$ 3,490 y su valor promedio de $ 4,275. Calcular el valor promedio de las 2,000 acciones.

Solucion:Observe que se tienen dos tipos de acciones, por lo tanto, debe calcularse una media

ponderada ası:

x =

∑2i=1 xinin

=1200(2905) + 800(4275)

2000= 3, 453.

El promedio de las 2000 acciones es de 3,453.

22

Page 28: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Datos Agrupados en Clases.

Al trabajar con datos tabulados debe tenerse en cuenta que cada valor de la variable(Xi) se repite una determinada cantidad de veces (ni), y por tanto, la expresion matematicaderivada de la definicion de la media debe modificarse, como se muestra, multiplicando cadavalor (o punto medio de clases) por su respectiva frecuencia. Ası:

x =

∑ki=1 Pmini

n

Problema 3.6. Se tiene los datos recopilados acerca de la variable X: numero de ausenciasa clase que tienen los estudiantes de una determina seccion.

Distribucion de frecuencias simpleFrecuencias Absolutas Frecuencias Relativas

Datos Simples Acumuladas Simples Acumuladas0 4 4 0.2 0.21 3 7 0.15 0.352 7 14 0.35 0.73 4 18 0.2 0.94 2 20 0.1 1

Totales 20 1

Calcular el promedio de inasistencias para los 20 estudiantes.

3.3.2. La Media Geometrica (Mg).

La media geometrica se define como la raız n-esima de la multiplicacion de los n valoresde la variable. Se utiliza cuando se quiere dar importancia a valores pequenos de la variableo cuando se desea obtener el promedio de valores que estan dados en progresion geometrica.

En el campo industrial y comercial se utiliza para obtener promedios sobre el crecimien-to o decrecimiento de una variable. Por ejemplo, un capital ahorrado a una tasa de interescompuesto, durante un periodo de tiempo.

Ejemplo 3.6. Supongase que las utilidades obtenidas por una companıa constructora encuatro proyectos fueron de 3, 2, 4 y 9 %, respectivamente. ¿ Cual es la media geometrica delas ganancias?.

Solucion:La media geometrica de las utilidades es: (2 ∗ 3 ∗ 4 ∗ 9)1/4 = 3,83 %.

La media aritmetica es 4.5 %. Aunque el valor 9 % no es muy grande, hace que la mediaaritmetica se incline hacia valores elevados. La media geometrica no se ve tan afectada porvalores extremos.

23

Page 29: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

3.3.3. La Media Armonica (Ma).

Iniciamos diciendo que el inverso de la media armonica es igual a la media aritmetica delinverso de los valores de la variable, esto es:

1

Ma=

∑ni=1

nixi

n=⇒ Ma =

n∑ni=1

nixi

Suele emplearse para promediar rendimientos, velocidades, tiempos. Le afectan mucho losvalores pequenos de la variable; por ello no debe emplearse en tal caso.

Ejemplo 3.7. Se sabe que dos obreros A y B, se tardan 50 y 40 minutos respectivamenteen reparar un par de zapatos. ¿Cual es el tiempo promedio requerido para reparar un par dezapatos?.

Solucion.

Ma =2

150 + 1

40

= 44,44min

El mayor uso de la media armonica es para calcular la velocidad promedio.

Ejemplo 3.8. Supongamos que la distancia entre dos ciudades, A y B, es de 80 kilometrosy entre B y C de 120 kilometros. Si un automovilista recorre de A a B a una velocidad de100Km/h y de B a C a una velocidad de 80Km/h. ¿Cual es la velocidad promedio?.

Solucion:

Ma = V m =200

80100 + 120

80

= 86,956Km/h

La Moda, (Mo).

Es una medida de posicion, menos importante que los promedios y su uso es bastante li-mitado. Se utiliza en distribuciones cuando la variable o el atributo presentan una frecuenciademasiado grande con respecto a las demas.

La moda define aquel valor de la variable o del atributo que presenta la mayor densidad,es decir, la mayor frecuencia.

Si se tiene un atributo o una variable con maxima frecuencia, la distribucion es unimodal.Si hay dos valores en la variable con la misma frecuencia maxima, la distribucion es bimodal.Si hay mas de dos, la distribucion es multimodal. Cuando ninguno de los valores que tomala variable se repite, no existe moda.

24

Page 30: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Si los intervalos de clases son de distinta amplitud, la frecuencia absoluta de cada in-tervalo (Li−1, Li] no es representativa, pero si lo es la correspondiente densidad de frecuen-cia di = ni

(Li−1,Li], que indica el numero de observaciones por cada unidad de amplitud de

(Li−1, Li]. Ası el intervalo modal es el de mayor densidad de frecuencia.

Datos Agrupados.

Una formula aproximada para la moda (Mo) cuando se tienen datos agrupados en clase,esta dada por:

Mo = Li−1 +

(ni+1

ni+1 + ni−1

)Ci donde Ci : es el ancho de clase

La formula anterior puede utilizarse cuando los intervalos de clases tienen la misma am-plitud. En caso que los intervalos no tengan la misma amplitud, es preciso conocer el intervalocon mayor densidad de frecuencia, la cual viene dada por: di = ni

Ci, y a continuacion se aplica

la siguiente formula:

Mo = Li−1 +

(di+1

di−1 + di+1

)Ci

3.3.4. La Mediana, (Me).

La mediana de una distribucion de frecuencia corresponde al valor, supuesto los datosordenados de menor a mayor, que deja a ambos lados el mismo numero de observaciones.Cuando calculamos la mediana en datos no agrupados, ordenamos las observaciones de menora mayor o viceversa. En su calculo se presentan dos casos: Cuando el numero de datoses impar: En este caso la mediana coincide con el dato central. Cuando los datos sonpares: La mediana sera el termino medio de los dos valores centrales.

Para datos agrupados en clases la formula de la mediana se puede obtener utilizando elfigura 2.

Por semejanza de triangulo, se tiene:

n/2−Ni−1

Me− Li−1=

niLi − Li−1

=⇒ Me = Li−1 +

(n/2−Ni−1

ni

)Ci

donde Ci es el ancho del intervalo i-esimo.

3.4. Medidas de Posicion: Cuartiles, Quintiles, Deciles y Percentiles.

Cuartiles. Dada una serie de valores X1, X2, X3, ..., Xn ordenados en forma creciente,los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partesporcentualmente iguales. Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundocuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo delcual queda un cuarto (25 %) de todos los valores de la sucesion (ordenada); el tercer cuartil,

25

Page 31: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Figura 2: Mediana

es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75 %) de los datos.

La forma de calcular las medidas de posicion (cuantiles) son analoga a la de la mediana:Primero se calcula la posicion del cuantil, por ejemplo la posicion del primer cuartil es 1*(n)/4y para el tercer cuartil 3*(n)/4.

Quintiles.La posicion del i-esimo quintil es i*n/5. El primer quintil. Separa a la muestra dejando al20 % de los datos a su izquierda. El segundo quintil. Es el valor que indica que el 40 % de losdatos son menores. El tercer quintil. Indica que el 60 % de los datos son menores que el. Elcuarto quintil. Separa al 80 % de los datos inferiores del otro 20 %.

Deciles.Son 9 valores que distribuyen en diez tramos iguales, la serie de datos, ordenada de formacreciente o decreciente, en los que cada uno de ellos concentra el 10 % de los resultados. Suformula aproximada para la posicion del decil i-esimo es i*n/10, donde la i toma valores del1 al 9.

De forma analoga se definen los Percentiles, teniendo presente que ahora la serie dedatos se divide en 100 partes iguales. La posicion del i-esimo percentil es i*n/100, donde lai toma valores del 1 al 99. El i % de la muestra son valores menores que el y el (100-i) %restante son mayores.

Ejemplo 3.9. Las notas finales del Modulo de Teorıa del Numero son las siguientes: 6.7,8.2, 8.9, 7.9, 8.1, 7.6, 8.5, 7.3, 8.6, 8.8, 8.8, 7.7, 8.2, 7.7, 7.1, 9.0, 8.5, 9.3, 8.8, 8.1, 8.4,6.9, 9.2, 8.2, 8.6, 7.0. ¿Calcule el percentil 90?

26

Page 32: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Solucion.

1. Ordenar los datos de menor a mayor:

6.7, 6.9, 7.0, 7.1, 7.3, 7.6, 7.7, 7.7, 7.9, 8.1, 8.1, 8.2, 8.2, 8.2, 8.4, 8.5, 8.5, 8.6, 8.6, 8.8,8.8, 8.8, 8.9, 9.0, 9.2, 9.3.

2. La posicion del percentil 90 es: 90(26)100 = 23,4, el cual se encuentra entre las calificaciones

8.9 y 9.0.

3. El percentil 90 es el promedio de 8.9 y 9.0, es decir, P90=(8.9+9.0)/2 = 8.95.

4. Conclusion: Solo hay 3 profesores (alumnos) que tienen notas arriba del percentil 90,que equivale al 10 % de los estudiantes.

Problema 3.7. Utilizando observaciones recolectadas en todas sus sucursales, un banco de-termino que el primer cuartil de tiempos de espera de sus clientes en la fila es de 3 minutos,y el tercer cuartil es de 8 minutos. Para cada una de las siguientes aseveraciones, indique sison siempre verdaderas. En caso de no serlo, justifique.

1. Aproximadamente, la mitad de las personas debe esperar entre 3 y 8 min.

2. La mediana es(3 + 8)

2= 5,5 min.

3. Aproximadamente, el 25 % de las personas debe esperar, al menos, 8 min.

4. No es posible obtener los quintiles a partir de esta informacion.

Problema 3.8. Para cada una de las siguientes aseveraciones, indique si es verdadera ofalsa. En caso de ser falsa, indique por que.

1. El percentil 25 corresponde a un valor tal que aproximadamente un 25 % de los valoresdel conjunto de datos son menores o iguales a el.

2. El segundo cuartil corresponde a la media.

3. El percentil 75 tambien se conoce como tercer cuartil.

4. Los cuartiles Q1, Q2yQ3, dividen al conjunto de datos en 3 grupos de aproximadamenteigual tamano.

5. El segundo quintil es un valor tal que, aproximadamente, un 40 % de los datos es menoro igual a el.

6. Tambien se conoce como segundo quintil a un grupo consistente en un 20 % del conjuntode datos, que contiene los valores entre los percentiles 20 y 40.

7. Un cuartil siempre corresponde a un valor en el conjunto de datos.

27

Page 33: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Calculo de Cuantiles para Datos Agrupados en Clases.

El calculo es similar al de la mediana, hay que empezar calculando el intervalo cuya fre-cuencia acumulada sea igual o mayor que el valor jn/k, y a continuacion aplicar la siguienteformula:

Qj,k = Li−1 +

(jn/k −Ni−1

ni

)Ci

donde k = 4 (j = 1, 2, 3) para los cuartiles, k = 10 (j = 1, 2, . . . , 9) para los deciles, k=100(j= 1, 2, . . . , 99) para los percentiles.

Ejemplo 3.10. El ejemplo 1.3 se refiere al registro de consumo de gasolina de una flota de50 taxis y se obtuvo la siguiente tabla de frecuencias:

Tabla 2. Distribucion de frecuencias agrupadas en intervalos.Marca Frecuencias Absolutas Frecuencias Relativas

Clases de Clase Simples Acumuladas Simples Acumuladas

[Li−1;Li) Xi ni Ni fi Fi20 -< 25 22.5 5 5 0.10 0.1025 -< 30 27.5 9 14 0.18 0.2830 -< 35 32.5 15 29 0.30 0.5835 -< 40 37.5 11 40 0.22 0.8040 -< 45 42.5 6 46 0.12 0.9245 -< 50 47.5 4 50 0.08 1Totales n=50 1

¿Calcular el decil 7?

Solucion:

1) Calcular la posicion del Decil 7, esto es: 7(50)/10 = 35.

2) Buscar la primera frecuencia acumulada mayor o igual que 35 (Posicion del Decil 7),esta se encuentra en la clase 35− < 40 (Clase del Decil 7), cuya frecuencia acumulada es 40.

3) Aplicar la formula del decil 7.

D7 = Li−1 +

(7(50)/10−Ni−1

ni

)Ci = 35 +

(35− 29

11

)5 = 37,73

Recordar que para datos agrupados se tienen aproximaciones de las medidas de posicion.Se interpreta que solo el 30 % de los taxis consumen mas de 37 litros de gasolina.

3.5. Medidas de Variabilidad.

Las medidas de dispersion estudian la separacion existente entre los diversos valores quetoma la variable. Se dividen en medidas de dispersion absoluta y relativa. Las absolutas sue-

28

Page 34: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

len hacer referencia a un promedio, y permiten estudiar su representatividad. Este tipo demedidas depende de las unidades, lo que es un inconveniente para realizar comparacionesentre poblaciones. En este sentido, las medidas de dispersion relativas no dependen de lasunidades y permiten comparar variabilidad entre poblaciones.

Desviacion Absoluta Media. Se define como la media aritmetica de los valores abso-lutos de las diferencias de los datos a la media, es decir:

DxA =1

n

n∑i=1

|xi − x|ni

La media aritmetica es mas representativa de los datos cuanto menor sea Dx.

Desviacion Mediana. Se define como la media aritmetica de los valores absolutos delas desviaciones de la variable respecto a la mediana, es decir:

DMe =1

n

n∑i=1

|xi −Me|ni

La mediana es mas representativa de los datos cuanto menor sea DMe.

Varianza, Desviacion Tıpica y Coeficiente de Variacion.

La varianza es una medida de dispersion que sirve para estudiar la representatividad dela media. Viene definida como la media de las diferencias cuadraticas de las puntuacionesrespecto a su media aritmetica. Normalmente a partir de la varianza se obtiene la desviaciontıpica o estandar y se define como la raız cuadrada positiva de la varianza, a continuacion sepresentan dichas formulas:

S2 =1

n

k∑i=1

(xi − x)2 ni =⇒ S =

√√√√ 1

n

k∑i=1

(xi − x)2 ni

Una varianza grande es indicativa de que la media no es representativa, mientras que unavarianza pequena indica que la media es un buen representante de los datos. Con el objeto detener una medida de dispersion similar a la varianza, pero que venga medida en las mismasunidades de la variable, es recomendable utilizar la desviacion tıpica.

Ejemplo 3.11. La relacion entre la varianza de una variable X y la de una nueva variabledefinida como Y = a+ bX es: S2

Y = b2S2X .

Solucion.Tenemos que Y = a+ bX, entonces la varianza muestral de Y esta dada por:

S2Y =

1

n

n∑i=1

(Yi − Y

)2=

1

n

n∑i=1

(a+ bxi − a− bx)2 =1

n

n∑i=1

b2 (xi − x)2 = b2S2X

29

Page 35: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

de donde S2Y = b2S2

X lo que muestra que la varianza es invariante por cambio de origen, no asıpor cambio de escala. Por lo tanto, si a los datos de la distribucion le sumamos una cantidadconstante la varianza no se modifica y si multiplicamos por una constante, la varianza quedamultiplicada por el cuadrado de esa constante.

Problema 3.9. Los gastos mensuales en pan de una familia en los ultimos cinco meses hansido: 15,20,25 y 30 dolares.

1. Calcula la media y la desviacion tıpica de estas cantidades.

2. Si el precio del pan sube un 10 % y la familia sigue consumiendo igual, ¿cual sera lamedia y la desviacion tıpica de los gastos actuales?

Problema 3.10. Un fumador, alarmado por los efectos negativos que el tabaco tiene para lasalud, ha decidido dejar de fumar en un plazo de cuatro semanas por el metodo de fumar cadadıa la mitad de lo que ha fumado el mismo dıa de la semana anterior. Ha hecho hecho unaestadıstica durante una semana anotando los cigarros fumados cada dıa; el resultado apareceen la tabla siguiente:

Lunes Martes Miercoles Jueves Viernes Sabado Domingo

12 12 16 16 24 24 8

1. Calcula la media y la desviacion tıpica del numero de cigarros que fuma diariamente.

2. A partir de los resultados anteriores, calcule cuanto valdran la media y la desviaciontıpica de los cigarros que fumara esta persona en cada una de las cuatro semanassiguientes si lleva a cabo el plan que se propone.

En ocasiones puede interesar comparar la dispersion de dos muestras y la desviacion tıpicano ser valida, si las dos muestras tienen unidades diferentes. Para evitar este inconveniente

se define el coeficiente de variacion CV =S

x.

Este coeficiente expresa el numero de veces que la desviacion tıpica contiene a la mediaaritmetica. Cuanto mayor sea CV , menor es la representatividad de x.

Problema 3.11. El CV no depende de cambios de escala y origen de la variable. Es decir,si Y = a+ bX entonces CVX = CVY .

3.6. Medidas de Forma.

Este tipo de medidas permiten conocer la forma de la distribucion sin necesidad de recurrira su representacion grafica. Existen dos tipos de medidas de forma: asimetrıa y curtosis. Paraclasificar la distribucion segun estas medidas, se establece en ambos casos una tipologıa de

30

Page 36: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

distribuciones. Una variable se dice que es simetrica si al doblar la distribucion respecto a uneje (centro de simetrıa), las frecuencias coinciden. Caso contrario se dice que la distribucion esasimetrica positiva o negativa, dependiendo que la rama larga de la distribucion se encuentraen el sentido positivo o negativo del eje de las x. La medida mas popular de asimetrıa es elcoeficiente de asimetrıa de Fisher, que viene dado por:

g1 =m3

S3=

1n

∑ki=1 (xi − x)3 ni(

1n

∑ki=1 (xi − x)2 ni

)3/2

Su interpretacion es:

1. Si g1 = 0, la distribucion es simetrica.

2. Si g1 > 0, la distribucion es asimetrica positiva

3. Si g1 < 0, la distribucion es asimetrica negativa.

Problema 3.12. El coeficiente de asimetrıa es invariante frente a cambios de origen y deescala, es decir, si Y = a+ bX entonces g1(X) = g1(Y ).

Curtosis. El coeficiente de curtosis trata de estudiar la concentracion de frecuenciasen la zona central de la variable, de modo que variables con curtosis alta (leptocurticas)tienen forma alargada y variables con curtosis baja tienen forma aplanada (platicurticas). Lacomparacion se realiza respecto a una distribucion moderada como es la distribucion normal(mesocurtica). El coeficiente de curtosis viene dado por:

g2 =m4

S4− 3 =

1n

∑ki=1 (xi − x)4 ni(

1n

∑ki=1 (xi − x)2 ni

)2 − 3

Su interpretacion es la siguiente:

1. Si g2 = 0, la distribucion es mesocurtica o normal.

2. Si g2 > 0, la distribucion es leptocurtica o por encima de la distribucion normal.

3. Si g2 < 0, la distribucion es platicurtica o por debajo de la normal.

Problema 3.13. El coeficiente de curtosis es invariante frente a cambios de origen y deescala, es decir, si Y = a+ bX entonces g2(X) = g2(Y ).

Ejemplo 3.12. Las calificaciones de un grupo de estudiantes de Sociologıa General fueronlas siguientes: 6.7, 6.9, 7.0, 7.1, 7.3, 7.6, 7.7, 7.7, 7.9, 8.1, 8.1, 8.2, 8.2, 8.2, 8.4, 8.5, 8.5,8.6, 8.6, 8.8, 8.8, 8.8, 8.9, 9.0, 9.2, 9.3, 7.5, 5.5, 10, 6.0, 6.5, 9.6, 9.7, 7.2, 7.6, 7.8, 7.5,8.5, 9.3, 7.7, 6.5, 8.3, 8.2, 9.3, 9.2, 9.4, 6.2, 8.2, 8.0, 7.3, 7.2, 9.6.

31

Page 37: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

A partir de los datos anteriores se obtuvo: Asimetrıa= - 0.342; Curtosis = - 0.297. ¿Quepuede decir de la forma de la distribucion de los datos?. ¿Los datos son aproximadamentenormal?. Si ademas se obtuvo: Percentil 80 = 9.07 y Percentil 90 = 9.37. ¿Como interpretaestos resultados?

Solucion.

1. La asimetrıa es de -0.342: Indica que los datos estan ligeramente sesgados hacia laizquierda.

2. La curtosis es de -0.297: La distribucion tiene un apuntamiento parecido a la normal(Mesocurtica)

3. El percentil 80 es de 9.07: Indica que el 20 % de los estudiantes obtuvieron calificacionesarriba de 9.07.

4. El percentil 90 es de 9.37: Indica que el 10 % de los estudiantes obtuvieron calificacionesarriba de 9.37.

3.7. Problemas.

1. El siguiente grafico resume el gusto por la Matematica de un grupo de estudiantes.

a) ¿Que medidas de centralizacion pueden utilizarse?.

b) Construya la tabla de frecuencia simple.

2. En una clase hay 25 chicas. La estatura media de las chicas es 130 cm.

a) Escribir Verdadera o Falsa para cada una de las siguientes afirmaciones.

32

Page 38: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Afirmacion Verdadera o Falsa

Si una de las chicas de la clase mide 132 cm, tiene quehaber una chica de 128 cm de estatura.La estatura de la mayorıa de las chicas es de 130 cm.

Si se ordenan las chicas de la mas baja a la mas alta,entonces la estatura de la que ocupa la posicion centraltiene que ser igual a 130 cm.La mitad de las chicas de la clase deben medir menos de130 cm, y la otra mitad deben medir mas de 130 cm.

b) Se encontro un error en la estatura de una estudiante. Era de 120 cm en lugar de145 cm. ¿Cual es la estatura media correcta de las chicas de la clase?.

3. Senala que afirmacion no es cierta:

a) La varianza siempre es mayor que la media aritmetica.

b) La media aritmetica de un conjunto de valores es siempre mayor o igual que elmınimo de esos valores.

c) La desviacion tıpica es una medida de dispersion

4. La nota en Matematicas de un adolescente se encuentra en el percentil 95 en el grupode alumnos de su curso. Eso significa:

a) Que ha obtenido mas nota que el 95 % de sus companeros.

b) Que ha reprobado.

c) Que ha sacado una nota superior o igual a un 9,5.

5. Las medias aritmetica, geometrica y armonica de dos numeros enteros positivos distintosson numeros enteros. Hallar el menor valor posible para la media aritmetica.

6. El numero de los contratos formalizados por los 20 trabajadores del departamento deventas de una promotora inmobiliaria durante el pasado ano han sido:

10 10 30 18 32 21 32 32 29 28

21 21 30 15 28 22 24 28 18 21

a) Calculese el numero medio de contratos formalizados por trabajador.

b) Obtengase el numero total de ventas del departamento.

7. Dada una distribucion de frecuencias (xi, ni), compruebese que el inverso de la me-dia armonica, H, es igual a la media aritmetica de los inversos de los valores de ladistribucion.

33

Page 39: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

8. En una nueva zona de expansion de la ciudad, la constructora Roble esta construyendocasas, apartamentos de dos habitaciones y duplex.

El precio por metro cuadrado de la ceramica del piso de las cocinas en las casas es de42 dolares, en los apartamentos con dos habitaciones es de 30 dolares y en los duplexes de 24 dolares y el coste total de los suelos de cocina en cada tipo de viviendas es de35 994, 21 600 y 10 080 dolares respectivamente.

Calculese el precio medio por metro cuadrado de ceramica del suelo de las cocinas entoda la obra.

9. Una empresa dedicada al transporte de viajeros cuenta con 100 vehıculos para largosrecorridos.

El pasado ano la distribucion del numero de kilometros recorridos, en miles, por losvehıculos se recoge en la siguiente tabla.

Kilometros Recorridos 100 120 160 230 250

No de vehıculos 20 10 60 5 5

a) ¿Que numero de kilometros recorre la mayorıa de vehıculos?.

b) Hallese el numero mınimo de kilometros que tiene que recorrer un vehıculo paraestar dentro del 50 por ciento de los que mas kilometros recorren.

10. Dada la distribucion de frecuencias (xi, ni), cuya media y desviacion tıpica son x y S,respectivamente, obtengase la media y la desviacion tıpica de la distribucion tipificada(xi − xS

, ni

).

11. En una empresa con dos plantas, A y B, se producen diariamente 2,000 piezas en Ay 3,200 en B. Si la productividad media es de 20 por obrero en A y de 16 piezas porobrero en B, determinar la productividad media para toda la empresa.

12. El siguiente polıgono de frecuencias acumuladas (figura 3) representa la distribucionde la cantidad, en kilogramos, de carne picada que se ha vendido diariamente en unacarnicerıa en un cierto periodo.

a) Hallese la cantidad media vendida diariamente.

b) Calculese la cantidad maxima de carne que se ha vendido el 42.5 por ciento de losdıas que menos se ha vendido.

13. En un estudio hecho a cuatro equipos de baloncesto se han obtenido las siguientesmedias y desviaciones tıpicas de las alturas de sus jugadores medidas en centımetros:

34

Page 40: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Figura 3: Polıgono de Frecuencias Acumuladas

Equipo A B C D

x 198.5 198.1 193 193.4

σ 9.7 3.9 4.6 8.1

Y sus graficas, pero sin ordenar son las siguientes :

Asocia cada grafica al equipo correspondiente y razona la respuesta.

14. El servicio municipal de agua de una ciudad esta realizando un estudio con objeto deuna privatizacion. Entre otros datos se ha obtenido que el consumo de agua, en metros

35

Page 41: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

cubicos, de las 2000 familias de dicha ciudad durante el ultimo trimestre del ano es elque se presenta en el siguiente grafico 4:

Figura 4: Comsumo de agua y numero de familias

a) Calculese la cantidad media trimestral consumida por familia.

b) Sabiendo que el precio promedio por metro cubico de agua es de 50 ctvs. de dolar yque, cada trimestre se paga una cantidad fija de 2 dolares por alquiler del contadory 6 dolares en concepto de aguas negras, ¿cual ha sido el importe medio por familiaabonado dicho trimestre?.

c) ¿Cual es el maximo consumo del 35 por ciento de las familias que menos consu-men?.

15. De un grupo de 100 obreros en una fabrica, 40 trabajan en el dıa y 60 en la noche. Sesabe que el salario promedio anual de los 100 obreros es de 8,700 dolares y que los delturno de dıa reciben en promedio 800 dolares menos que los trabajadores nocturnos.¿Cual es el salario promedio anual en cada grupo?.

16. En un supermercado trabajan 35 mujeres, con un salario promedio mensual de 650dolares y 15 hombres, en promedio ganan un 12 por ciento mas que las mujeres ¿Cuales el salario promedio de los empleados del supermercado?.

17. Durante un mes se construyeron 134 Km. de carretera en la siguiente forma: 3.6 porciento del total en la primera semana; 15.3 por ciento del total en la segunda semana;7.6 por ciento en la tercera semana; 24.5 por ciento en la cuarta semana y en la ultimasemana el 49 por ciento. La construccion promedio por dıa en cada semana fue de:0.9Km/d, 3.4Km/d, 1.7Km/d, 5Km/d y 10Km/d, respectivamente. Hallar la medidade tendencia central que mejor represente el promedio de esta distribucion y calcularsu promedio.

18. La media aritmetica de tres numeros es 7, su mediana es 6 y su media geometrica es3√

216. Con los tres numeros calcular la media armonica.

19. Se sabe que la media aritmetica de dos numeros es 5 y la media geometrica es 4. ¿Cuales la media armonica?

36

Page 42: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

20. Las ciudades A, B y C son equidistantes entre sı. Un automovilista viaja de A a B a 30Km/h de B a C a 40 Km/h y de C a A a 50 Km/h. Determine el promedio de velocidadpara el viaje completo.

21. El 1 de mayo de 2004 se depositaron en concepto de ahorro 50,000 dolares en un banco al6 por ciento de interes anual, capitalizados semestralmente. Obtener la cantidad mediadepositada por el banco en la cuenta en concepto de intereses , entre el 1 de mayo de2004 y el 31 de octubre de 2008, suponga que no se hicieron retiros durante el periodo.

22. Una companıa requiere los servicios de un tecnico especializado. De los expedientespresentados, se han seleccionado 2 candidatos: A y B, los cuales reunen los requisitosmınimos requeridos. Para decidir cual de los 2 se va a contratar, los miembros del juradodeciden tomar 7 pruebas a cada uno de ellos. Los resultados se dan a continuacion:

Pruebas 1 2 3 4 5 6 7

Puntaje obtenido por A 57 55 54 52 62 55 59

Puntaje obtenido por B 80 40 62 72 46 80 40

a) Halle e interprete la media, mediana y moda de los dos candidatos.

b) Estadısticamente ¿Cual de los candidatos debe ser contratado? Fundamente surespuesta.

23. Se toman las medidas de 80 personas las que tienen estatura media de 1.6 mt. y des-viacion estandar de 3.4 cm. Posteriormente se verifico que la media usada tenıa 4 cm.de menos. Rectifique los estadıgrafos (estadısticos) mencionados.

24. El salario promedio anual en una ciudad es de 8,000 dolares con una varianza de 1,000dolares ¿Cuales seran la nueva media y la nueva varianza si se efectuan los siguientescambios?:

a) Se aumenta 810 dolares a todos

b) Se aumenta el 15 por ciento de su salario a cada trabajador

c) Si se duplican los sueldos.

25. En un examen 20 alumnos del curso A obtienen una media de 60 puntos y desviacionestandar de 20 puntos. En el curso B los alumnos obtienen una media de 80 y desviacionestandar de 16. Ante un reclamo se decide subir un 5 por ciento mas 5 puntos adicionalesa todos los alumnos del curso A, en cambio como hubo muchas copias en el curso B sedecidio disminuir la quinta parte de la calificacion. Despues de los mencionados ajustes¿Cual es el puntaje medio de los 50 alumnos?.

26. Una empresa dedicada al cultivo y explotacion de naranjos posee 5 fincas. La produccionde naranjas y el rendimiento medio por hectarea para cada una de las fincas estan dados

37

Page 43: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

en la siguiente tabla. Calcular el rendimiento medio por hectarea para el total de las 5fincas.

Fincas 1 2 3 4 5

Produccion (Tn) 15 5 20 8 30

Rendimiento (Tn/He) 9 2 10 4 20

27. Se tienen tres ciudades A, B y C. La distancia que hay de B a C es el triple de ladistancia de A a B; y la distancia de C a A es el doble de la distancia de B a C. Unautomovilista viaja de A a B a 70 Km/h de B a C a 75 Km/h y de C a A 85 Km/h.Determine el promedio de velocidad para el viaje completo.

28. Supongamos que se tienen dos variables aleatorias X, Y, para la variable X se conoce lamedia, varianza y coeficiente de asimetrıa, la variable Y esta definida por yi = a+ bxi,el tamano de la muestra es n (a y b son constantes positivas). Calcular:

a) La media y la desviacion estandar de Y.

b) Comparar el coeficiente de asimetrıa de ambas variables.

38

Page 44: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

La Inferencia Estadıstica es la parte de la Estadıstica encargada de estudiar metodos parala obtencion de conclusiones generales en la poblacion o poblaciones objeto de investigacion,a partir de la informacion que proporciona una muestra.

La inferencia estadıstica se divide en: estimacion de parametros y pruebas de hipotesis.

Existen dos tipos de estimaciones para parametros; puntuales y por intervalo.

4.1. Propiedades Deseables de los Estimadores Puntuales.

4.1.1. Estimacion Puntual.

Una estimacion puntual es un unico valor estadıstico y se usa para estimar un parametro.El estadıstico usado se denomina estimador.

Por tanto los estimadores puntuales son las medidas descriptivas numericas aplicadas alas caracterısticas de las unidades de la muestra. La estimacion hace referencia a los valoresnumericos de los parametros poblacionales desconocidos, a los cuales se llega mediante unamuestra.

Por ejemplo, la media muestral x es un estimador puntual de la media poblacional µ, ladesviacion muestral s estima a la desviacion poblacional σ y la proporcion muestral es unestimador puntual de la proporcion poblacional P.

La distancia entre el estimador y el parametro a estimar puede medirse mediante el errorcuadratico medio, que se define como el valor esperado del cuadrado de la diferencia entre elestimador y el parametro.

ECM(θ) = E[θ − θ]2

El ECM puede escribirse como: ECM(θ) = VAR[θ] + [θ − E(θ)]2; una es la varianza del

estimador y la otra el cuadrado del sesgo.

Caracterısticas Deseables de los Estimadores.

Insesgado. Un estimador es insesgado (o centrado) si la esperanza del estimador coin-cide con el parametro a estimar E(θ) = θ.

Consistencia. Se dice que un estimador es consistente si se aproxima cada vez mas alvalor del parametro a medida que se aumenta el tamano de la muestra.

P [(θ − θ) > ε]→ 0; si n→∞, ε→ 0

Eficiencia. Un estimador sera eficiente cuando su varianza sea menor, ya que se con-centra mas alrededor del verdadero valor del parametro.

Inferencia estadística

39

Page 45: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Suficiencia. Se dice que un estimador es suficiente si se utiliza toda la informacionrelevante contenida en una muestra para la estimacion del parametro.

4.2. Distribuciones Muestrales Importantes.

4.2.1. Distribucion de la Media Muestral.

Cuando el muestreo se realiza a partir de una poblacion que sigue una distribucion normal,la distribucion de la media de la muestra tiene las siguientes propiedades:

1. La distribucion de X sera normal (es combinacion lineal de variables normales)

2. La media µx, de la distribucion de X sera igual a la media de la poblacion de la cualse seleccionaron las muestras.

3. La varianza, σ2x , de la distribucion de X sera igual a la varianza de la poblacion dividida

entre el tamano de la muestra.

Teorema 4.1. Teorema del Lımite Central.Dada una poblacion de cualquier forma funcional no normal con una media µ y varianzafinita σ2, la distribucion muestral de X, calculada a partir de muestras de tamano n de dichapoblacion, sera casi normal con media µ y varianza σ2/n, cuando la muestra es muy grande.Matematicamente se tiene:

X ∼ N

(µ,σ2

n

)Obviamente se tiene que estandarizar la media muestral para trabajar con la N(0, 1), esto

es:

Z =X − µσ/√n

Observe que el teorema del lımite central permite tomar muestras a partir de poblacionescon distribucion no normal y garantizar que se obtengan aproximadamente los mismos resul-tados que si la poblacion tuviera una distribucion normal, siempre que se tome una muestramuy grande.

4.2.2. Distribucion de la Media para Muestras Pequenas.

Sea X1, X2, . . . , Xn una muestra de una poblacion normal con media µ y varianza finitaσ2, si la varianza es conocida, aunque la muestra sea pequena (n < 35), se tiene que:

X ∼ N

(µ,σ2

n

)

40

Page 46: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Ahora, si la varianza es desconocida la distribucion de X queda indeterminada en laexpresion anterior, por lo que requiere obtener una nueva distribucion, para ello, recordar

que (n−1)S2

σ2 ∼ χ2n−1, definamos la variable T como:

T =

X−µσ/√n√S2

σ2

∼ tn−1

Realizando operaciones y simplificando en la expresion anterior se tiene:

T =X − µS/√n

∼ tn−1

En resumen, si la varianza es desconocida para la estandarizacion de la media muestralse utiliza la distribucion t-Student. Este resultado se utilizara mucho en el desarrollo de in-tervalos de confianza y contraste de hipotesis.

Ejemplo 4.1. Suponga que en una poblacion grande de seres humanos, la dimension deldiametro craneal sigue una distribucion aproximadamente normal, con una media de 185.6mm. y una desviacion estandar de 12.7 mm. ¿Cual es la probabilidad de que una muestraaleatoria de tamano 10 de esta poblacion tenga una media mayor que 190mm.?

Solucion.

P (X > 190) = P(Z > 190−185,6

12,7/√

10

)= P (Z > 1,1) = 0,1357

Por lo tanto, se puede decir que la probabilidad de que la muestra de tamano 10 tenga unamedia mayor que 190mm. es 0.1357.

4.2.3. Problemas.

1. Si la media y desviacion estandar de la concentracion de hierro en el suero en hombressanos es de 120 y 15 microgramos por cada 100 ml. respectivamente, ¿cual es la pro-babilidad de que una muestra aleatoria de 50 hombres normales tenga una media entre115 y 125 microgramos por cada 100 ml.

2. Si las concentraciones de acido urico en hombres adultos normales siguen una distri-bucion aproximadamente normal, con una media y desviacion estandar de 5.7 y 1 mg.por ciento, respectivamente, encuentre la probabilidad de que una muestra de tamano9 proporcione una media:

a) Mayor que 6

b) Entre 5 y 6

c) Menor que 5.2

41

Page 47: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

3. Para cierto sector amplio de la poblacion en un ano determinado, suponga que el numeromedio de dıas de incapacidad es de 5.4, con una desviacion estandar de 2.8 dıas. En-cuentre la probabilidad de que una muestra aleatoria de tamano 49 de esa poblaciontenga una media:

a) Mayor a 6 dıas

b) Entre 4 y 6 dıas

c) Entre 4.5 y 5.5 dıas.

4. El tiempo que tarda una persona resolviendo el examen de admision a la UES tieneuna distribucion normal con media 3 horas. Se sabe que la probabilidad de que unamuestra de 20 estudiantes tarden en promedio mas de 3 horas con 15 minutos es del5 %. Determinar la desviacion estandar de la duracion del examen.

4.2.4. Distribucion de la Diferencia entre Las Medias de dos Muestras.

Con frecuencia, el interes en una investigacion se dirige hacia dos poblaciones. Especıfica-mente, puede ser que un investigador desee saber algo acerca de la diferencia entre las mediasde dos poblaciones. En una investigacion, por ejemplo, el investigador tal vez deseara sabersi es razonable concluir que dos medias poblacionales son diferentes.

Lo que se pretende es calcular la distribucion de la diferencia entre las medias de lasmuestras. Suponga que se tienen dos poblaciones independientes, con medias y varianzasfinitas, µ1 y µ2 y σ2

1 y σ22, respectivamente. Sean X1, X2, . . . , Xn1 y Y1, Y2, . . . , Yn2 las muestras

de la poblacion 1 y 2, respectivamente, entonces:

E(X − Y ) = µ1 − µ2, V (X − Y ) =σ2

1n1

+σ2

2n2

Ahora, por el teorema del lımite central si las muestras son grandes (n1, n2 > 30) se tieneque:

X − Y ∼ N(µ1 − µ2,

σ21n1

+σ2

2n2

)Nuevamente se tiene que estandarizar la diferencia de medias muestrales para trabajar

con la N(0, 1), esto es:

Z = (X−Y )−(µ1−µ2)√σ2

1n1

+σ2

2n2

Ahora, supongamos que las varianzas son desconocidas pero iguales σ21 = σ2

2 = σ2

y se tienen las cuasi-varianzas muestrales S21 y S2

2 , pero como las varianzas poblacionales soniguales se requiere tener un unico estimador, para ello, definamos el siguiente estimador dela varianza comun:

S2p =

(n1−1)S21+(n2−1)S2

2n1+n2−2

42

Page 48: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Se puede demostrar que(n1+n2−2)S2

p

σ2 tiene una distribucion Chi-cuadrado con n1 +n2− 2grados de libertad. Ası la variable aleatoria T definida por:

T =

(X−Y )−(µ1−µ2)√σ2

1n1

+σ2

2n2√

S2p

σ2

∼ tn1+n2−2

Ahora, sustituyendo σ21 y σ2

2 por σ2, este ultimo se sustituye por su estimador S2p y

simplificando en la expresion anterior, se tiene:

T = (X−Y )−(µ1−µ2)

Sp√

1n1

+ 1n2

∼ tn1+n2−2

En resumen, si las varianzas son desconocidas pero iguales, para la estandarizacion de ladiferencia de medias muestrales se utiliza la distribucion t-Student. Este resultado se utilizaramucho en el desarrollo de intervalos de confianza y contraste de hipotesis.

Problema 4.1. Suponga que se tienen dos poblaciones de individuos. Una de ellas (la po-blacion 1) ha experimentado alguna enfermedad que se considera esta asociada con retrasomental, y la otra (la poblacion 2) no ha experimentado tal enfermedad. Se cree que la distribu-cion de calificaciones de inteligencia de cada una de las poblaciones presenta una distribucionaproximadamente normal con una desviacion estandar de 20. Suponga, tambien, que se to-ma una muestra de 15 individuos de cada poblacion y se calcula en cada muestra la mediade las calificaciones de inteligencia, con los siguientes resultados: x1 = 92 y x2 = 115. Sino hay diferencia entre las dos poblaciones con respecto a la media real de las calificacionesde inteligencia ¿cual es la probabilidad de que la diferencia de las medias sea mayor de 15puntos?.

Problema 4.2. Suponga que se establecio que para cierto tipo de pacientes el tiempo promediode visita domiciliaria hecha por una enfermera es de 45 minutos con una desviacion estandarde 15 minutos, y para un segundo tipo de paciente, el promedio de visita domiciliaria es de30 minutos con una desviacion estandar de 20 minutos. Si la enfermera visita al azar a 32pacientes del primer tipo y 40 del segundo tipo, ¿cual es la probabilidad de que el tiempopromedio de visita domiciliaria difiera entre los dos grupos por 20 minutos o mas?.

4.3. Intervalos de Confianza.

4.3.1. Intervalos de Confianza de Medias y Proporciones.

No siempre resulta conveniente realizar la estimacion puntual, debido a que no proporcionasuficiente informacion acerca del parametro de interes, ya que un solo numero puede noresultar muy significativo, es decir, que no puede estimar con exactitud el valor del parametrode la poblacion. Sin embargo, no se puede considerar que un estimador puntual obtenido apartir de una muestra grande, llegue a ser exactamente igual al valor del parametro de la

43

Page 49: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

poblacion. Por esta razon resulta mas conveniente determinar un intervalo dentro del cual seesperara que se encuentre el valor del parametro, a este metodo se le conoce como estimacionpor intervalo.

A los estimadores por intervalo generalmente se les llama intervalos de confianza, estecontiene un conjunto de valores posibles del parametro a estimar, obtenidos a partir de lamuestra aleatoria de la cual se determina el estadıstico de interes. Para llevar a cabo laestimacion por intervalo es necesario conocer: el nivel de confianza y el error estandar.

4.3.2. Intervalo de Confianza para la Media Poblacional, σ Conocida (n ≥ 30).

Si se dispone de una poblacion que tiene una variable aleatoria X con distribucion N(µ, σ)y con σ conocida, y anteriormente se estudio que la distribucion muestral de las medias co-rresponde a:

X ∼ N(µ, σ√

n

)Se quiere estimar la media poblacional µ a partir de la media muestral x, obteniendo para

ello un intervalo de forma que tenga una probabilidad alta de que la media poblacional estaen dicho intervalo.

Tipificando la expresion anterior:

Z = X−µσ√n∼ N(0, 1)

Si se fija una probabilidad α, se puede obtener −z y z que limitan un area de valor1 − α.Al despejar µ se obtiene el intervalo de confianza para la media poblacional. En elsiguiente grafico se ilustra esta situacion:

Figura 5: Intervalo de confianza para µ con σ conocido

De un total de k muestras seleccionadas de una poblacion, se definen k medias aritmeticas,que constituyen el 100 % de medias, de las cuales con una de ellas se estima µ con un nivelde confianza de (1− α)100 % .

44

Page 50: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Si el nivel de confianza fuese del 95 % en el siguiente grafico se muestra como se comportaranlos intervalos construidos por cada media muestral al estimar a µ.

Figura 6: Interpretacion del nivel de confianza en un intervalo para la media de una distri-bucion normal.

Ejemplo 4.2. Una institucion gubernamental realizo una encuesta para estimar el gastopromedio que los fumadores invierten en cigarrillos durante una semana. Un muestra de 49fumadores revelo que el gasto promedio es de $20.00 con una desviacion de $ 5.00.

1. ¿Cual es el estimador puntual de la media poblacional?.

2. Utilizando un nivel de confianza del 95 %, determinar el intervalo de confianza para µ, interprete el resultado.

3. Suponga que la muestra es de 64 fumadores, con base a la informacion del ejemplo,determine el estimador puntual y el intervalo de confianza.

4.3.3. Intervalo de Confianza para la Media Poblacional, σ es Desconocida (n ≥30).

Sustituimos el valor de σ por la desviacion estandar de la muestra s y los lımites delintervalo de µ se encuentran mediante la expresion:

x± Zα/2 s√n

Ejemplo 4.3. De un grupo de 300 estudiantes de nuevo ingreso en un Instituto Nacional,se seleccionaron de manera aleatoria 30 calificaciones de Matematica, las que a continuacionse presentan:

45

Page 51: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

71 49 78 58 82 53 75 73 58 7457 70 76 62 71 54 62 86 58 8650 73 64 68 56 45 72 65 87 56

Construya un intervalo de confianza del 99 % para la calificacion promedio de la poblacion.

4.3.4. Intervalo de Confianza para Estimar la Diferencia de Medias Poblaciona-les (µx − µy).

Se puede aplicar un argumento similar en lo planteado anteriormente para desarrollar el in-

tervalo de confianza para estimar a (µx−µy), es necesario definir la varianza V (x−y) = σ2xnx

+σ2y

ny, si se conoce las variancias poblacionales, en caso de no conocerlas se sustituyen por las des-

viaciones muestrales V (x− y) = s2xnx

+s2yny

.

El intervalo de confianza para la diferencia de medias se expresan como sigue:

x− y ± zα/2√

s2xnx

+s2yny

Ejemplo 4.4. En un estudio para comparar los pesos promedio de ninos y ninas de sextogrado en una escuela primaria se selecciono una muestra aleatoria de 20 ninos y otra de25 ninas. Se sabe que tanto para ninos como para ninas los pesos siguen una distribucionnormal. El promedio de los pesos de todos los ninos de sexto grado de esa escuela es de 90libras y su desviacion estandar es de 8 libras, mientras que el promedio de los pesos de todaslas ninas del sexto grado de esa escuela es de 80 libras y su desviacion estandar es de 6 libras.

Encuentre el intervalo de confianza de la diferencia de los pesos promedio de los ninos yninas con un nivel de confianza del 99 %.

4.3.5. Estimacion por Intervalo para Proporciones.

Si el estadıstico es la proporcion de exitos en una muestra de tamano n ≥ 30 extraıdade una poblacion binomial en la que P es la proporcion de exito (es decir, la probabilidad deexito), los lımites de confianza para P vienen dados por p± zα/2σp donde p es la proporcionde exitos en la muestra de tamano n. El intervalo de confianza del (1−α)100 % para estimaruna proporcion P , se expresa como:

p− zα/2σp < P < p+ zα/2σp

Donde σp es el error estandar de la proporcion, el cual mide la variabilidad en la distri-bucion de muestreo de la proporcion muestral se representa como:

σp =√

pqn

Ejemplo 4.5. Un partido polıtico pretende conocer la intencion de voto de cara a las proximaselecciones. Para ello encarga un sondeo sobre un total de 230 personas, de las que 69 contestanque votaran.

1. Hallar un intervalo de confianza del 90 % para la verdadera proporcion poblacional.

2. Encuentre un intervalo de confianza del 99 % para la proporcion poblacional.

46

Page 52: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

4.3.6. Estimacion por Intervalo para Diferencias de Proporciones.

Un intervalo de confianza para la diferencia de proporciones se obtiene aplicando la formu-la siguiente:

px − py ± zα/2√

pxqxnx

+py qyny

Ejemplo 4.6. Una muestra aleatoria de 400 adultos y 600 adolescentes que ven un ciertoprograma de television. 100 adultos y 300 adolescentes dijeron que les gustaba. Hallar loslımites de confianza del 95 % y del 99 % para la diferencia de proporciones de todos los adultosy adolescentes que ven el programa y les gusta.

4.3.7. Estimacion de µ para Muestas Pequenas (n < 30).

Si la muestra es pequena (n < 30) sus valores promedios se aproximan a una distribuciont-student. Para construir intervalos de confianza para la media poblacional µ, con muestraspequenas normalmente distribuidas, debe utilizarse la distribucion t- student, la cual es si-milar a la normal, pero su forma depende del tamano n de muestra.

El intervalo de confianza para µ se encuentra utilizando la expresion:

P{x− t(α/2;n−1)s√n≤ µ ≤ x+ t(α/2;n−1)

s√n} = 1− α

Ejemplo 4.7. Los ingresos mensuales de las familias de una comunidad se encuentran distri-buidos normalmente. De esta se selecciona una muestra de 16 familias para estimar el ingresopromedio mensual. De la informacion de la muestra se obtuvo una desviacion estandar de$12 y una media de $300.

1. Encuentre un intervalo de confianza del 95 % para el ingreso promedio de las familiasde la comunidad.

2. Encuentre un intervalo de confianza del 99 % para el ingreso promedio de las familiasde la comunidad.

3. ¿Que conclusion realiza de los resultados obtenidos en a) y b)?.

4.3.8. Intervalos de Confianza para Diferencia de Medias Poblacionales (n < 30).

Los intervalos de confianza para la diferencia de medias poblacionales en muestras pe-quenas normalmente distribuidas, utilizan la distribucion t- student y se calculan aplicandola expresion siguiente:

(x− y)± t(α/2;n−1)

√s2xnx

+s2yny

47

Page 53: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Ejemplo 4.8. Una muestra de tamano 10 de una poblacion de mujeres presenta una alturamedia de 156cm. y una muestra de 12 hombres de otra poblacion presenta una altura mediade 160 cm. Sabiendo que ambas poblaciones son normales con desviaciones de 5cm. y 7cm.respectivamente.

1. Determine el intervalo para diferencias de las medias poblacionales para el 90 % deconfianza.

2. ¿Que conclusion realiza al respecto de las alturas de las mujeres y hombres?.

4.3.9. Intervalos de Confianza para una Proporcion Poblacional P (n < 30).

Los intervalos de confianza para proporciones se obtienen mediante la formula siguiente:

p± t(α/2;n−1)

√pqn

Ejemplo 4.9. La oficina gubernamental de salud desea realizar una campana a fin de dismi-nuir el porcentaje de funcionarios publicos que tienen el habito de fumar en horas de trabajo,para ello decide realizar una investigacion por muestreo a 28 funcionarios, encontrando que16 de ellos fuman.

1. Determinar el intervalo de confianza del 90 % con respecto a la proporcion de funcio-narios que fuman.

2. Determinar el intervalo de confianza del 99 % con respecto a la proporcion de funcio-narios que fuman.

4.4. Contraste de Hipotesis Estadısticas.

4.4.1. Definicion de Pruebas de Hipotesis y Tipos de Error.

Definicion 4.1. “La prueba de hipotesis es un procedimiento que se basa en la evidencia delas muestras y en la teorıa de probabilidad para determinar si la hipotesis es un enunciadorazonable”1.

TIPOS DE HIPOTESIS ESTADISTICAS.

Hipotesis nula (H0) : Es una afirmacion respecto del valor de un parametro de lapoblacion.

Hipotesis alternativa(H1): Es una afirmacion que se acepta si los datos de la muestraproporcionan evidencia suficiente de que la hipotesis nula es falsa.

TIPOS DE ERROR.En la prueba de hipotesis existen dos tipos de error:

1 Douglas Lind. Estadıstica para Administracion y Economıa.Mexico D.F, Editorial Mc. Graw Hill, 2005,pag. 318.

48

Page 54: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Error tipo I(α): Es la probabilidad de rechazar la hipotesis nula, cuando esta es verda-dera.

Error tipo II (β): Es la probabilidad de aceptar la hipotesis nula, cuando esta es falsa.

En el cuadro (1) se observan las consecuencias al tomar decisiones con respecto a pruebasde hipotesis.

Cuadro 1: Resumen de las decisiones que el investigador puede tomar en la prueba de hipote-sis.

Estado de la Hipotesis nula DECISION DEL INVESTIGADORAcepta H0 Rechaza H0

H0 es verdadera Decision correcta Error tipo IH0 es falsa Error tipo II Decision correcta

4.4.2. Procedimiento para Probar Hipotesis Estadısticas.

Para probar hipotesis estadısticas se deben seguir los siguientes pasos:

Paso 1 : Formular las hipotesis estadısticas.H0: Hipotesis nula.H1: Hipotesis alternativa.

Paso 2 : Eleccion de la prueba de hipotesis con su modelo estadıstico.Toda prueba de hipotesis estadıstica esta asociada a un modelo estadıstico de acuerdoal tamano de muestra y dependiendo del parametro poblacional en el que se basa laprueba de hipotesis estadıstica.

Los modelos estadısticos que generalmente se utilizan en la prueba de hipotesis parame-tricas son las distribuciones normales, t-student y chi-cuadrado.

Paso 3 : Calcular el estadıstico de prueba.Es el valor que se calcula en funcion de los datos de la muestra y se utiliza paradeterminar si se va a rechazar la hipotesis nula.

Paso 4 : Seleccionar el nivel de significancia.El nivel de significancia: es la probabilidad de rechazar la hipotesis nula cuando esta esverdadera.

Al realizar la prueba de hipotesis se tiene como proposito aceptar o rechazar la hipotesisnula, para esto debe elegirse de acuerdo a criterios especıficos del investigador un margende riesgo de equivocarse al rechazar la hipotesis nula cuando esta es verdadera.

Generalmente se eligen valores α ∈ [0,01, 0,05] este valor se utilizara para determinarla region crıtica o de rechazo de H0.

Paso 5 : Establecer la region crıtica o de rechazo(formular la regla de decision).Esta formada por un conjunto de valores para los cuales se rechazara la hipotesis nula.

49

Page 55: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Paso 6 : Toma de decisiones.

La decision de aceptar o rechazar la hipotesis nula se basa en el estadıstico de pruebacalculado a partir de los datos de la muestra.

Si el valor calculado del estadıstico se localiza en la region de rechazo, se rechaza lahipotesis nula y se acepta la hipotesis alternativa. Pero si el valor del estadıstico no seencuentra en la region de rechazo, entonces, se acepta la hipotesis nula y, es decir no setiene suficiente evidencia para rechazar la hipotesis nula.

Cualquier decision que se toma esta sujeta a cierto margen de incertidumbre ya que lainferencia se realiza a partir de una muestra.

4.4.3. Prueba de Hipotesis para Muestras Grandes.

Prueba de hipotesis para µ en muestras grandes.Resulta conveniente aplicar este metodo de prueba cuando la hipotesis sobre el problema enestudio, esta enfocado a realizar inferencias respecto a la media de la poblacion y los datosobtenidos en la investigacion cumplen con las siguientes condiciones:

1. El tamano de la muestra es grande y proviene de una poblacion normalmente distribui-da.

2. Desviacion estandar de la poblacion desconocida.

Procedimiento:

1. Formulacion de la hipotesis.H0: µ = µ0 (µ0 es la constante hipotetica para la media poblacional).H1: Puede tomar una de las hipotesis alternativas siguientes:

Unilateral derecha Unilateral izquierda Bilateralµ > µ0 µ < µ0 µ 6= µ0

2. Calcular el estadıstico de prueba:

z = x−µ0s√n

3. Elegir el nivel de significancia, si no ha sido especificado.

4. Encontrar la region de rechazo asociada al nivel de significancia y utilizando las tablasde la distribucion normal.

La region crıtica o de rechazo dependera del tipo de hipotesis alternativa formuladapara el problema en estudio.A continuacion mencionamos los diferentes hipotesis alternativas con sus correspon-dientes regiones de rechazo.

50

Page 56: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Cuadro 2: Prueba de hipotesis para µ

Hipotesis nula H0 Hipotesis alternativa H1 Region de rechazo de H0µ = µ0 µ > µ0 Z > Zα

µ < µ0 Z < −Zαµ 6= µ0 Z > Zα/2 o Z < −Zα/2

5. Tomar la decision correspondiente basada en el estadıstico de prueba y la region crıtica.

Ejemplo 4.10. La direccion medica de una clınica toma una muestra aleatoria de 500 me-diciones acerca del tiempo de hospitalizacion, resultando una media muestral de 5.4 dıas yuna desviacion estandar de 3.1 dıas. La direccion medica supone que el promedio de tiempode hospitalizacion es mayor de 5 dıas. Apoya esta informacion la hipotesis con un nivel designificancia del 0.05.

Prueba de Hipotesis para una Proporcion en Muestras Grandes.Este metodo de prueba se puede aplicar cuando la hipotesis sobre el problema en estudio, estaenfocado a realizar inferencias respecto a la proporcion de la poblacion y los datos obtenidosen la investigacion cumplen con las siguientes condiciones:

El tamano de la muestra es grande y proviene de una poblacion normalmente distribui-da.

Que la variable aleatoria tenga solamente dos posibles resultados.

Cuando el interes del investigador sea probar que una parte o proporcion de la muestratenga un valor especifico.

Procedimiento:

1. Formulacion de la hipotesisH0: P = P0 (donde P0 es la constante hipotetica para la proporcion poblacional).H1: Puede tomar una de las hipotesis alternativas siguientes:

Unilateral derecha Unilateral izquierda BilateralP > P0 P < P0 P 6= P0

2. Calcular el estadıstico de prueba.

z = P−P0√p(1−p)n

3. Elegir el nivel de significancia, si no ha sido especificado.

51

Page 57: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

4. Encontrar la region de rechazo asociada al nivel de significancia y utilizando las tablasde la distribucion normal.

La region crıtica o de rechazo dependera del tipo de hipotesis alternativa formuladapara el problema en estudio.

Cuadro 3: Prueba de hipotesis para P .

Hipotesis nula H0 Hipotesis alternativa H1 Region de rechazo de H0P = P0 P > P0 Z > Zα

P < P0 Z < −ZαP 6= P0 Z > Zα/2 o Z < −Zα/2

5. Tomar la decision correspondiente basada en el estadıstico de prueba y la region crıtica.

Ejemplo 4.11. Por estadısticas que se tienen, se ha podido establecer que mas del 40 % delos jovenes toman regularmente Coca-Cola, cuando tienen sed. Una muestra aleatoria de 450jovenes revelo que 207 de ellos solıan tomar dicha bebida cuando tenıan sed. ¿Cual podra sersu conclusion al nivel del 1 % de significancia acerca de lo que muestran las estadısticas?.

4.4.4. Prueba de Hipotesis para Muestras Pequenas y Distribucion t de Student.

Prueba de Hipotesis para una Media Poblacional en Muestras Pequenas.Este es otro de los metodos de inferencia estadıstica cuando se quiere probar la media de unapoblacion. Las condiciones a considerar para utilizar este metodo de prueba son las siguientes:

El tamano de la muestra es pequena (n < 30) y proviene de una poblacion normalmentedistribuida.

Se desconoce la varianza poblacional, la cual se estima mediante la varianza muestral.

Procedimiento:

1. Formulacion de la hipotesis.H0: µ = µ0 (µ0 es la constante hipotetica para la media poblacional)H1: Puede tomar una de las hipotesis alternativas siguientes:

Unilateral derecha Unilateral izquierda Bilateralµ > µ0 µ < µ0 µ 6= µ0

2. Calcular el estadıstico de prueba:

t = x−µ0s√n

3. Elegir el nivel de significancia, si no ha sido especificado.

52

Page 58: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

4. Encontrar la region de rechazo asociada al nivel de significancia y utilizando las tablasde la distribucion t de student.

La region crıtica o de rechazo dependera del tipo de hipotesis alternativa formuladapara el problema en estudio.

Cuadro 4: Prueba de hipotesis para µ en muestras pequenas

Hipotesis nula H0 Hipotesis alternativa H1 Region de rechazo de H0µ = µ0 µ > µ0 t > tα,n−1

µ < µ0 t < −tα,n−1µ 6= µ0 t > tα/2,n−1 o t < −tα/2,n−1

5. Tomar la decision correspondiente basada en el estadıstico de prueba y la region crıtica.

Ejemplo 4.12. Una distribuidora de gas ofrece a sus clientes el servicio en un maximo deespera de 48 horas. Se toma una muestra de seis hogares que hicieron pedidos y se encontrolo siguiente: 24,20, 60, 72, 40, 30 horas de espera.¿Se puede creer lo ofrecido por la distri-buidora?.

Prueba de Hipotesis para una Proporcion en Muestras Pequenas.Este metodo de prueba se puede utilizar bajo las siguientes condiciones:

El tamano de la muestra es pequena y proviene de una poblacion normalmente distri-buida.

Que la variable aleatoria tenga solamente dos posibles resultados.

Cuando el interes del investigador sea probar que una parte o proporcion de la muestratenga un valor especifico.

Procedimiento:

1. Formulacion de la hipotesis.H0: P = P0 (P0 es la constante hipotetica para la media poblacional)H1: Puede tomar una de las hipotesis alternativas siguientes:

Unilateral derecha Unilateral izquierda BilateralP > P0 P < P0 P 6= P0

2. Calcular el estadıstico de prueba:

t = p−P0√p(1−p)n

3. Elegir el nivel de significancia, si no ha sido especificado.

53

Page 59: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

4. Encontrar la region de rechazo asociada al nivel de significancia y utilizando las tablasde la distribucion t de student.

La region crıtica o de rechazo dependera del tipo de hipotesis alternativa formuladapara el problema en estudio.

Cuadro 5: Prueba de hipotesis para P en muestras pequenas

Hipotesis nula H0 Hipotesis alternativa H1 Region de rechazo de H0P = P0 P > P0 t > tα,n−1

P < P0 t < −tα,n−1P 6= P0 t > tα/2,n−1 o t < −tα/2,n−1

5. Tomar la decision correspondiente basada en el estadıstico de prueba y la region crıtica.

Ejemplo 4.13. El Gerente de una corporacion de ahorros argumenta que menos del 30 % delos clientes poseen un saldo superior a los $50,000. Desea confirmar tal apreciacion, medianteuna muestra aleatoria a 20 clientes elegidos al azar, de los cuales 8 tienen saldo superior a los$50,000. Con un nivel de confianza del 5 %.¿Se podra decir que menos del 30 % de ahorrantestienen saldos superiores a la afirmacion hecha por el gerente?.

54

Page 60: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Supongamos que en una poblacion, y para un conjunto de n individuos, se miden dos caracteres X e Y :

(x1, y1), (x2, y2) · · · , (xn, yn)

En este caso tenemos una variable estadıstica bidimensional o distribucion bidimensional de frecuencias, la cual representaremos por (X, Y). Cuando se cuenta con una gran cantidad de datos, un modo de presentar la distribucion bidimensional es a traves de una tabla de doble entrada de la forma:

X \ Y y1 y2 . . . yj . . . yk Totalx1 n11 n12 . . . n1j . . . n1k n1+x2 n21 n22 . . . n2j . . . n2k n2+...

......

......

xi ni1 ni2 . . . nij . . . nik ni+...

......

......

...xl nl1 nl2 . . . nlj . . . nlk nl+

Total n+1 n+2 . . . n+j . . . n+k n

Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso deuna dimension. En el caso de que las dos variables sean atributos, la tabla anterior recibe elnombre de tabla de contingencia. A continuacion se presentan las tablas de contingenciay posteriormente las distribuciones marginales y condicionales para variables numericas.

5.1. Tablas de Contingencia.

Muy a menudo los datos de un estudio estadıstico se presentan agrupados en categorıassiendo el objeto comparar sus frecuencias con un cierto patron o entre ellas, para ver si esposible concluir que la poblacion tiene determinadas caracterısticas. En definitiva se van arealizar contrastes de independencia de caracteres, en el que se juzga la independencia de dosvariables observadas en los individuos de una poblacion.

5.1.1. Contraste de Independencia de Caracteres.

Para realizar el contraste de independencia entre dos caracteres de los individuos de unapoblacion, se supone que cada individuo puede clasificarse en a modalidades de un primeratributo A y en b modalidades segun otro criterio B. Los n individuos de una muestra apa-recen, por tanto, clasificados en una tabla de contingencia de la forma:

A \ B 1 2 3 . . . b1 n11 n12 n13 . . . n1b n1.2 n21 n22 n23 . . . n2b n2.3 n31 n32 n33 . . . n3b n3....

......

......

...a ni1 ni2 ni3 . . . nab na.

n,1 n,2 n,3 . . . n.b n

Distribuciones bidimensionales

55

Page 61: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

En este documento se utilizara indistintamente ni. = ni+ =∑k

j=1 nij o n.j = n+j =∑li=1 nij . El interes es conocer si existe dependencia entre dos caracterısticas A y B de una

poblacion, en donde cada una de ellas presentan a y b categorıas, respectivamente. Para ellose pretende contrastar la hipotesis:

H0: A y B son independientes H1: A y B no son independientes.

Si designamos por pij : la probabilidad de que un elemento de la muestra presente lascaracterısticas Ai y Bj , es decir, pij = P (Ai∩Bj) = pi.p.j para cualquier i, j. Los estimadoresmaximo verosımiles de pi. y p.j son:

pi. = ni.n , i = 1, 2, ..., a, p.j =

n.jn , j = 1, 2, ..., b.

El estadıstico de Pearson que se utiliza para realizar este contraste es el siguiente:

χ2 =

a∑i=1

b∑j=1

(Oij − Eij)2

Eij=

a∑i=1

b∑j=1

(nij − ni.n.j

n

)2ni.n.jn

≈ χ2(a−1)(b−1)

y tiene una distribucion χ2 con (a − 1)(b − 1) grados de libertad. Se rechaza H0 si elestadostico de Pearson es mayor que χ2

(a−1)(b−1),1−α.

Ejemplo 5.1. Para estudiar la dependencia entre la practica de algun deporte y la depresion,se selecciono una muestra aleatoria simple de 100 jovenes, con los siguientes resultados:

Deportista \ Depresion NO SISI 38 9 47

NO 31 22 5369 31 100

Realice el contraste de hipotesis con α = 0,05.

Solucion.Las hipotesis son:

H0: La depresion es independiente de la practica de algun deporte.H1: La depresion depende de la practica de algun deporte.El estadıstico de prueba esta dado por:

χ2 =∑2

i=1

∑2j=1

(nij−

ni.n.jn

)2

ni.n.jn

y toma el valor de:

χ2 =(38− 47∗69

100 )2

47∗69100

+(9− 47∗31

100 )2

47∗31100

+(31− 53∗69

100 )2

53∗69100

+(22− 53∗31

100 )2

53∗31100

= 5,823

56

Page 62: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

El estadıstico χ2 tiene una distribucion χ21 (Chi-cuadrado con 1 grado de libertad), ası que

el valor de la χ21,0,05 = 3,841 (Valor de la tabla Chi-cuadrado). Como el valor del estadıstico

χ2 = 5,823 es mayor que el valor de tabla χ21,0,05 = 3,841 se rechaza la independencia, es

decir, que la depresion depende de si realizas algun tipo de deporte.

5.1.2. Distribuciones Marginales y Condicionales.

Dada una variable estadıstica bidimensional, las distribuciones marginales permiten es-tudiar de un modo aislado cada una de las componentes. A partir de una tabla de dobleentrada, las distribuciones de frecuencias marginales se obtienen sumando las frecuencias dela tabla por filas y por columnas.

Las distribuciones condicionadas permiten estudiar el comportamiento de una de las va-riables cuando la otra permanece constante. Vienen dadas por:

Una distribucion de frecuencias bidimensional es el conjunto de valores de la va-riable (X, Y), junto con sus correspondientes frecuencias. Se denota por (xi, yj , nij) o bien(xi, yj , fij), segun se utilicen las frecuencias conjuntas absolutas o relativas.

La frecuencia relativa conjunta, marginales y condicionales vienen dadas por: fij =nijn ;

fi. = ni.n o bien f.j = n.j

n ; y fi/j =ni/jn.j

=fijf.j

o bien fj/i =nj/ini.

=fijfi.

, respectivamente.

Dada una distribucion de frecuencias (xi, yj ; fij), las variables X e Y son estadısticamenteindependientes, si para cualesquiera i y j, se cumple: fij = fi.f.j o bien fi/j = fi. o fj/i = f.j .

57

Page 63: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

5.2. Correlacion y Prediccion.

Para hacer un estudio conjunto de dos variables cuantitativas X e Y, supondremos quedisponemos de una muestra de n pares de observaciones de X e Y:

(x1, y1), (x2, y2) · · · , (xn, yn)

Antes de hacer cualquier calculo, conviene representar en el plano los pares de valoresobtenidos. Con esto obtenemos una nube de puntos ( diagrama de dispersion), que nospuede dar una idea visual de las posibles relaciones existentes.

Figura 7: Diagrama de dispersion

Cuando se observa el comportamiento conjunto de dos variables, el objetivo principales determinar si existe o no algun tipo de variacion conjunta o covariacion entre ellas. Lacovarianza muestral, ayuda a cuantificar la asociacion entre dos variables. La covarianzamuestral se define como:

Cov(X,Y ) = Sxy =1

n

n∑i=1

(xi − x) (yi − y) =1

n

n∑i=1

xiyi − xy

Interpretacion:

1. Si la Cov(X,Y ) > 0, existe una tendencia a que mayores observaciones de una de lasvariables se correspondan con mayores observaciones de la otra variable.

2. Si Cov(X,Y ) < 0, existira una tendencia a que mayores observaciones de una variablese correspondan con menores observaciones de la otra variable.

3. Si Cov(X,Y ) = 0, no se puede concluir que no exista relacion entra ambas variables,pero se puede decir que no existe relacion lineal entre las variables.

Si suponemos que Cov(X,Y ) 6= 0, es decir, que existe relacion lineal entre las variables;la pregunta que surge es ¿Como de grande es la relacion entre X e Y y como cuantificarla? Elcoeficiente de correlacion lineal es un valor que permite estudiar el grado de dependencialineal existente entre X e Y. Viene definido por:

58

Page 64: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

r =Cov(X,Y )

SxSy=

1n

∑ni=1 (xi − x) (yi − y)√

1n

∑ni=1 (xi − x)2 1

n

∑ni=1 (yi − y)2

Una propiedad importante del coeficiente de correlacion es que no depende de cambiosde origen y escala, y su valor siempre esta comprendido entre -1 y 1 (−1 ≤ r ≤ 1).

De modo que valores de r cercanos a 1 indican una dependencia lineal positiva entre lasdos variables, y valores de r cercanos a -1 indican dependencia lineal negativa. Cuando elvalor de r esta cercano a cero, no existe dependencia lineal entre X e Y. Esto ultimo puedeser, bien porque X e Y son variables independientes, o bien porque la dependencia existenteentre ambas variables es de otro tipo diferente al lineal.

5.3. Modelos de Regresion lineal: Lınea de Tendencia.

En este tipo de regresion se desea caracterizar el efecto lineal de una unica variableexplicativa sobre la variable respuesta. Los pasos para efectuar un analisis son los siguientes:

1. Representacion grafica de datos.

2. Planteamiento del modelo.

3. Estimacion de la ecuacion de prediccion.

4. Examen de la adecuacion del modelo lineal.

El modelo de regresion lineal simple tiene un solo regresor X (variable independiente) quetiene una relacion con una respuesta Y (variable dependiente), donde la relacion es una lınearecta. Este modelo de regresion lineal poblacional es:

Y = β0 + β1X + ε

Donde la ordenada al origen β0 y la pendiente β1 son constantes desconocidas, y ε es unacomponente aleatorio del error. Se supone que los errores tienen promedio cero y varianzaconstante desconocida. Ademas se suele suponer que los errores no estan correlacionados.Esto quiere decir que el valor de un error no depende del valor de cualquier otro error.

5.4. Estimacion de los Parametros por Mınimos Cuadrados.

La idea de la recta de regresion es sencilla: intentamos encontrar la recta que mejor re-presente a la nube de puntos, en el sentido de minimizar la suma de los cuadrados de lasdistancias verticales de los diferentes punto de la nube a la recta.

Definicion. La recta de regresion de Y sobre X es la recta y = a + bx, donde a y bson los estimadores mınimos cuadraticos de β0 y β1, respectivamente. El criterio de mınimoscuadrados es:

mınS(β0, β1) = mınβ0,β1

∑ni=1 ε

2i = mınβ0,β1

∑ni=1(yi − β0 − β1xi)

2

59

Page 65: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Derivando con respecto a β0 y β1, e igualando a cero, se obtienen las expresiones para ay b, esto es:

a = y − Cov(x,y)Sx

x b = Cov(x,y)S2x

Por tanto, la recta de regresion de Y sobre X es:

y = a+ bx = y − Cov(x,y)S2x

x+ Cov(x,y)S2x

x

La diferencia entre el valor observado yi y el valor ajustado correspondiente yi se llamaresidual, matematicamente el iesimo residual es: ei = yi−yi = yi−(a+bxi), i = 1, 2, · · · , n,ei tiene un papel importante para investigar la adecuacion del modelo de regresion ajustado,ya que debe cumplir los supuestos de los errores del modelo.

Coeficiente de Determinacion (r2).

La cantidad r2 = SCRegSCT = 1− SCRes

SCT se llama coeficiente de determinacion, donde:

SCRes =

n∑i=1

e2i =

n∑i=1

(yi − yi)2 ; SCT =

n∑i=1

(yi − y)2

r2: se interpreta como la proporcion de la variacion explicada por la variable independien-te x, toma valores entre cero y 1.

Por otra parte, la suma de cuadrados de regresion esta dada por:

SCReg =n∑i=1

(yi − y)2

y se verifica que:

SCT =∑n

i=1(yi − y)2 = SCReg + SCRes =n∑i=1

(yi − y)2 +

n∑i=1

(yi − yi)2

Ejemplo 5.2. Se tienen las puntuaciones por acceso a un servicio medico (X) y el gradode salud (Y ) de 15 personas. Se supone que el grado de salud depende del acceso al serviciomedico. Los datos se presentan en la siguiente tabla:

Puntuacion Puntuacion Puntuacion Puntuacion Puntuacion Puntuacionpor acceso por salud por acceso por salud por acceso por salud

3 2 7 5 2 26 6 8 7 4 313 9 13 10 5 41 1 10 8 11 94 5 3 4 9 8

60

Page 66: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

Realizar un diagrama de dispersion, a fin de observar la relacion entre las variables X,Y .Es evidente la relacion lineal entre el grado de salud y el acceso al servicio medico. Para

medir el grado de relacion lineal entre X e Y , se obtiene el coeficiente de correlacion:

r = 152,2√(215,6)(115,73)

= 0,964

Este valor se interpreta como, el 96.4 % de los datos estan correlacionados linealmente yde manera positiva. Ahora, se ajustara el modelo de regresion lineal (modelo de prediccion),el cual esta dado por:

y = a+ bx = 0,8744 + 0,7059x

A partir de este modelo se obtienen las puntuaciones de salud previstas, y, y con ello lassiguientes medidas:

1. Suma de cuadrados de regresion SCReg =

n∑i=1

(yi − y)2 = 107,4322

2. Suma de cuadrados residuales SCRes =n∑i=1

e2i =

n∑i=1

(yi − yi)2 = 8,2898

3. Utilizando estos dos resultados se tiene que: SCT =n∑i=1

(yi− y)2 = 107,4322+8,2898 =

115,772.

Ahora, dividiendo por n − 2 la suma de cuadrados residuales y luego obtener la raızcuadrada, se tiene:√

SCRes

n− 2=

√∑ni=1 e

2i

n− 2=

√∑ni=1(yi − yi)2

n− 2=

√8,2898

15− 2= 0,7985

61

Page 67: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:... · 2019-06-28 · Unidad III: Inferencia Estad stica. 39 ... las variables analizadas haciendo r apida

este valor se interpreta como la medida del error total en la prediccion de las puntuaciones deun grupo de n sujetos, ya que este valor es pequeno, es decir, 0.7985, el modelo es aceptablepara predecir. Sin embargo, la medida que se utiliza para indicar la bondad del modelo es elcoeficiente de determinacion, esto es:

r2 = SCRegSCT = 1− SCRes

SCT = 1− 8,2898115,772 = 0,928

Esto significa que aproximadamente el 93 % de la variacion de las puntuaciones de sa-lud estuvo relacionada con las puntuaciones de acceso a servicios medicos del individuo. Porotra parte, tambien significa que aproximadamente el 7 % de esta variacion no se explica porel acceso a servicios medicos y, por consiguiente, debe atribuirse a otros factores desconocidos.

62