antologia 3ro. lia estadistica

48
Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa - ESTADISTICA El principal propósito de esta guía es orientar a los estudiantes que cursan sus estudios en el sistema mixto, que se caracteriza, entre otras cosas, porque ellos son los principales responsables de su propio aprendizaje. Como es este sistema cada alumno debe estudiar por su cuenta, en los tiempos y lugares que más le convengan, se vuelve necesaria una guía que le ayude a lograr los objetivos de aprendizaje y que le facilite el acceso a los materiales didácticos (libros, publicaciones, audiovisuales, etcétera) que requiere. Por estas razones, se han estructurado estas guías básicamente en cuatro grandes partes: 1. Información general de la asignatura 2. Panorama de la asignatura 3. Desarrollo de cada una de las unidades 4. Bibliografía A su vez, estas cuatro partes contienen las siguientes secciones: 1. La información general de la asignatura que incluye: portada, características oficiales de la materia, índice de contenido de la guía y los nombres de las personas que han participado en la elaboración del material. 2. El panorama de la asignatura contiene el objetivo general del curso, el temario oficial (que incluye solamente el título de cada unidad), el temario detallado de todas las unidades y el esbozo de la materia, en el cual se presenta un panorama general del contenido de la asignatura, incluyendo sus elementos más importantes. 3. Por su parte, el desarrollo de cada unidad que está estructurado en los siguientes apartados: Objetivo particular de la unidad Temario detallado de la unidad que es, simplemente, la parte del temario detallado global que corresponde a cada unidad Presentación de la unidad. Contenido de la unidad, dividido por sesiones. - 1 –

Upload: daniel-gerardo-saldana-garcia

Post on 04-Aug-2015

115 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

ESTADISTICA

El principal propósito de esta guía es orientar a los estudiantes que cursan sus estudios en el sistema mixto, que se caracteriza, entre otras cosas, porque ellos son los principales responsables de su propio aprendizaje.

Como es este sistema cada alumno debe estudiar por su cuenta, en los tiempos y lugares que más le convengan, se vuelve necesaria una guía que le ayude a lograr los objetivos de aprendizaje y que le facilite el acceso a los materiales didácticos (libros, publicaciones, audiovisuales, etcétera) que requiere. Por estas razones, se han estructurado estas guías básicamente en cuatro grandes partes:

1. Información general de la asignatura2. Panorama de la asignatura3. Desarrollo de cada una de las unidades4. Bibliografía

A su vez, estas cuatro partes contienen las siguientes secciones:

1. La información general de la asignatura que incluye: portada, características oficiales de la materia, índice de contenido de la guía y los nombres de las personas que han participado en la elaboración del material.

2. El panorama de la asignatura contiene el objetivo general del curso, el temario oficial (que incluye solamente el título de cada unidad), el temario detallado de todas las unidades y el esbozo de la materia, en el cual se presenta un panorama general del contenido de la asignatura, incluyendo sus elementos más importantes.

3. Por su parte, el desarrollo de cada unidad que está estructurado en los siguientes apartados:

Objetivo particular de la unidad

Temario detallado de la unidad que es, simplemente, la parte del temario detallado global que corresponde a cada unidad

Presentación de la unidad. Contenido de la unidad, dividido por sesiones.

Bibliografía especifica sugerida. Contiene indicaciones precisas de dónde encontrar el material que se requiere estudiar para abarcar el contenido de la unidad. En esta bibliografía específica se detalla en qué secciones, capítulos y/o páginas del libro o libros sugeridos se encuentra el material a revisar.

Actividades complementarias de aprendizaje. Esta sección contiene también sugerencias sobre otras actividades, aparte del estudio del material básico o de la realización de las prácticas o ejercicios fundamentales, que se pueden llevar a cabo para reforzar los conocimientos y/o habilidades adquiridas e incluye, como ejercicio inicial, la elaboración de un mapa conceptual, que es un resumen gráfico de los contenidos de la unidad y que tiene como objetivo principal ayudar a reflexionar, comprender, relacionar y asimilar los principales conceptos de la

- 1 –

Page 2: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

unidad. En un apéndice del final de la guía se exponen diversas ideas sobre cómo elaborar estos mapas conceptuales.

Cuestionario de autoevaluación. Estos cuestionarios son un conjunto de preguntas sobre los contenidos esenciales que conforman cada unidad y que pretenden permitir que el estudiante, mediante sus respuestas, se dé cuenta del grado de dominio logrado en el estudio y, con ello, de la medida en que alcanzó los objetivos. En otras palabras, este cuestionario le debe permitir al alumno decidir si ya aprendió lo suficiente como para estar en posibilidades de presentar el examen correspondiente para acreditar la unidad. Al final de la guía se incluyen las respuestas de estos cuestionarios de autoevaluación.

Finalmente la última división gruesa de la guía contiene las bibliografías básica y complementaria que están contempladas en el temario oficial, así como también una “bibliografía adicional” que no está en el temario oficial pero que ha sido sugerida por algún profesor.

Esperamos que esta guía cumpla con su cometido y, en todo caso, deseamos invitar a los lectores, tanto profesores como alumnos, a que nos hagan llegar todo comentario o sugerencia que permita mejorarla.

Características de la asignatura

ESTADISTICALicenciatura: Informática AdministrativaSemestre: 3º Área: AdministrativaRequisitos: Ninguno

Objetivo general de la asignatura

El estudiante debe:

El estudiante obtendrá los elementos necesarios para analizar aspectos estadísticos de los sistemas que incluyen componentes aleatorios para la toma de decisiones.

Temario oficial (18 asesorías)

1- Distribuciones muestrales

2- Teoría de la estimación

3- Prueba de Hipótesis

4- Regresión y Correlación Lineal

- 2 –

Page 3: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

Temario detallado

1. Distribuciones muestrales

1.1. Introducción.1.2.Tipos de muestra (aleatorio simple, sistemático, estratificado y conglomerado) 1.3.Distribución muestral de medias1.4.Teorema del límite central.1.5.Distribución muestral de la media con varianza conocida1.6.Distribución muestral de la media con varianza desconocida1.7.Distribución muestral de la proporción.1.8.Distribución muestral de la diferencia de medias.1.9. .Distribución muestral de la diferencia de proporciones.

2. Teoría de la estimación2.1. Introducción2.2.Estimación y propiedades de los estimadores.2.3.Estimación por intervalo.2.4. Intervalo de confianza para la media con varianza conocida y desconocida.2.5. Intervalo de confianza para una proporción y diferencia de proporciones.

3. Prueba de Hipótesis3.1.Conceptos de la teoría de prueba de hipótesis.3.2.Errores tipo I y II.3.3.Prueba de hipótesis para una media con varianza conocida y desconocida.3.4.Prueba de hipótesis para una proporción y diferencia de proporciones.3.5.Prueba de hipótesis para diferencia de medias con varianzas conocidas y

desconocidas.3.6.Prueba de hipótesis para una varianza3.7.Prueba de hipótesis para una razón de varianzas.3.8.Prueba de bondad de ajuste.

4. Análisis de Regresión Lineal

4.1.Análisis de regresión lineal con una variable independiente.4.2.Relaciones entre variables.4.3.Modelos de regresión y sus usos.4.4.Estimación de la función de regresión.

4.4.1. Método de mínimos cuadrados.4.4.2. Estimadores de mínimos cuadrados.4.4.3. Estimación de la varianza de los errores.

4.5.5.5 Inferencias en el análisis de regresión.4.5.1. Inferencias respecto a alfa y beta.4.5.2. Intervalos de confianza para la función de regresión y valores observados.

4.6.5.6 Medidas descriptivas de la asociación entre (x) y (y) en el modelo de regresión.

- 3 –

Page 4: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

1. Distribuciones muestrales

1.1. Introducción.1.2.Tipos de muestra (aleatorio simple, sistemático, estratificado y conglomerado) 1.3.Distribución muestral de medias1.4.Teorema del límite central.1.5.Distribución muestral de la media con varianza conocida1.6.Distribución muestral de la media con varianza desconocida1.7.Distribución muestral de la proporción.1.8.Distribución muestral de la diferencia de medias.1.9. .Distribución muestral de la diferencia de proporciones.

Objetivos Particulares

Al término de la unidad, el alumno debe:1. Conocer la importancia de las distribuciones de muestreo2. Determinar el tamaño de una muestra3. Explicar el Teorema del Límite Central4. Calcular probabilidades en una distribución muestral de la media y de la

diferencia de medias5. Calcular probabilidades en una distribución muestral de proporciones

SESION 1

1.1 Introducción

Concepto de distribución de muestra

La comprensión del concepto de la distribución de muestreo es fundamental para el correcto entendimiento de la inferencia estadística. Una distribución de la población es la distribución de la totalidad de las medidas individuales de una población, en tanto que una distribución muestral es la distribución de los valores individuales incluidos en la muestra.

La distribución de muestreo se refiere a la distribución de los diferentes valores que una estadística muestral o estimador, podría adoptar en muchas muestras del mismo tamaño. Así, aunque por lo general disponemos únicamente de una muestra aleatoria a subgrupo racional, reconocemos que la estadística muestral particular que determinamos, como la media o mediana de la muestra, no es exactamente igual al respectivo parámetro de la población. Mas a un el valor de una estadística muestral variará de una muestra a otra, a causa de la variabilidad del muestreo aleatorio, o error de muestreo.

Las razones de la utilización del muestreo son:

o Estudiar toda la población tomaría mucho tiempo

o El costo de estudiar todos los elementos de la población, a menudo es muy alto

- 4 –

Page 5: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

o Casi siempre, los resultados de la muestra son adecuados

o La naturaleza destructiva de ciertas pruebas

o La imposibilidad física de revisar todos los elementos.

1.2 Tipos de muestra

Los tipos de muestreo que estudiaremos son:- Muestreo Aleatorio Simple- Muestreo Aleatorio Sistemático- Muestreo Aleatorio Estratificado- Muestreo por Conglomerados

Muestreo Aleatorio Simple: Es el que más se usa. Es una muestra seleccionada de modo que cada elemento o persona en la población tiene la misma oportunidad de resultar seleccionado.

Muestreo Aleatorio Sistemático: Se selecciona un punto de inicio aleatorio y después se elige cada k miembro de la población. Primero se calcula k, que es el resultado de dividir el tamaño de la población entre el tamaño de la muestra. Antes de utilizar este muestreo, debemos observar con cuidado el orden físico de la población. Cuando el orden físico se relaciona con la característica de la población, entonces no se debe utilizar el muestreo aleatorio sistemático.

Muestreo Aleatorio Estratificado: Cuando una población se divide en subgrupos, llamados estratos, y selecciona al zar un elemento en cada estrato

Muestreo por conglomerados: Se utiliza a fin de reducir el costo del muestreo de una población dispersa en una región geográfica extensa. En este muestreo una población se divide en grupos o conglomerados utilizando los límites naturales geográficos o de otros tipos. Luego, los grupos se seleccionan al azar y se recopila una muestra al elegir en forma aleatoria elementos en cada grupo.

1.3 Distribución de muestreo de la media

Cuando en la inferencia estadística acerca de una media poblacional se emplea la media de una sola muestra es útil conocer el valor esperado y la variabilidad por esperar de una muestra a otra.

El siguiente ejemplo describe la construcción de una distribución muestral de medias:

Tartus Industries cuenta con 7 empleados de producción (se considera como la población). En la siguiente tabla se proporcionan los ingresos por hora de cada empleado).

a) ¿Cuál es la media de la población?b) ¿Cuál es la distribución muestral de medias para muestras de tamaño 2?c) ¿Cuál es la media de la distribución muestral de medias?

- 5 –

Page 6: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

EmpleadoIngresos por hora

(Dólares)Joe 7Sam 7Sue 8Bob 8Jan 7Art 8Ted 9

Respuesta:

a) La media de la población:

b) Distribución muestral de medias: Para llegar a esta distribución, todas las muestras posibles de tamaño 2 se seleccionaron sin reemplazos en la población, y se calcularon sus medias. Hay 21 muestras posibles que se obtuvieron mediante la fórmula de combinatoria:

, donde n es el número de elementos de la población y k es el tamaño de la muestra.En la siguiente tabla se ilustran las 21 medias de muestras de todas las muestras posibles de tamaño 2 que se pueden extraer de la población. Estas 21 muestras se utilizan para construir una distribución de probabilidad que es la distribución muestral de medias:

Muestra

EmpleadosGananciaspor hora

MediaMuestr

aEmpleados

Gananciaspor hora

Media

1 Joe, Sam 7,7 7.00 12 Sue, Bob 8,8 8.002 Joe, Sue 7,8 7.50 13 Sue, Jan 8,7 7.503 Joe, Bob 7,8 7.50 14 Sue, Art 8,8 8.004 Joe, Jan 7,7 7.00 15 Sue, Ted 8,9 8.505 Joe, Art 7,8 7.50 16 Bob, Jan 8,7 7.506 Joe, Ted 7,9 8.00 17 Bob, Art 8,8 8.007 Sam, Sue 7,8 7.50 18 Jan, Art 8,9 8.508 Sam, Bob 7,8 7.50 19 Jan, Art 7,8 7.509 Sam, Jan 7,7 7.00 20 Jan, Ted 7,9 8.0010 Sam, Art 7,8 7.50 21 Art, Ted 8,9 8.5011 Sam, Ted 7,9 8.00

Distribución muestral de medias para n=2

Media de la muestra Número de medias Probabilidad7,00 3 0.14297,50 9 0.42858,00 6 0.28578,50 3 0.1429

21 1.0000

- 6 –

Page 7: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

d) La media de la distribución muestral de medias se obtiene al sumar las diversas medias de la muestra y dividiendo la suma entre el número de muestras:

La distribución de muestreo de la media se describe determinando la media de dicha distribución, la cual es el valor esperado E(X) la desviación estándar de la distribución de las medias muéstrales, designada como . Dado que esta desviación estándar es indicativa de la exactitud de la estadística muestral como estimador de una media poblacional, suele recibir el nombre de error estándar de la media. Cuando los parámetros de la población o proceso son conocidos, el valor esperado y error estándar de la distribución de muestreo de la media son:

Otro Ejemplo: Supongamos que la media de una población muy grande es µ=50.0 y que la desviación estándar es σx=12.0. Determinamos la distribución de muestreo de las medias muéstrales para un tamaño de muestra n=36, en términos del valor esperado y el error estándar de la distribución, de la siguiente manera:

Cuando el muestreo se basa en una población finita de tamaño limitado, se dispone de un factor de corrección por finitud para la correcta determinación del error estándar. El efecto de este factor de corrección es siempre es reducir el valor que de otra forma se calcularía. La corrección es insignificante y puede omitirse cuando n<0.05N; esto es, cuando el tamaño de la muestra es inferior al 5% del tamaño de la población. La fórmula del error estándar de la media con el factor de corrección por finitud incluido es:

El factor de corrección en la formula anterior es el factor bajo la raíz cuadrada que se ha añadido a la formula básica del error estándar de la media. Este medio factor de corrección puede añadirse a todas las formulas de error estándar para la media.Si la desviación estándar de la población o proceso es desconocida, el error estándar de la media puede estimarse usando la desviación estándar de la muestra como estimador de la desviación de la población. Para diferenciar este error estándar estimado del preciso basado

en una conocida, se le designa con el símbolo ), la fórmula del error estándar estimado de la media es:

Ejemplo: un auditor toma una muestra aleatoria de tamaño n=16 de un conjunto de N=16 de un conjunto de N= 1500 cuentas se desconoce. Sin embargo, la desviación estándar de la muestra es s=$57.00. Determinar el valor del error estándar de la distribución de muestreo de la media de la siguiente manera:

1.4 TEOREMA DEL LÍMITE CENTRAL

- 7 –

Page 8: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

Este Teorema, tiene amplia aplicación a la distribución muestral de medias. Nos permite utilizar la distribución normal de probabilidad a fin de crear intervalos de confianza para la media de la población y efectuar pruebas de hipótesis.

El Teorema del Límite Central establece, que para muestras aleatorias grandes, la forma de la distribución muestral de medias se aproxima a una distribución de probabilidad normal. Esta aproximación es más precisa para muestras grandes que para muestras pequeñas. Podemos razonar acerca de la distribución muestral de medias sin ninguna información acerca de la forma de la distribución de la población de la que se toma la muestra. O sea, el teorema es verdadero para todas las distribuciones.

El enunciado del teorema dice así:

Si todas las muestras de un tamaño en particular se seleccionan de cualquier población, la distribución muestral de medias se aproxima a una distribución normal. Esta aproximación mejora con muestras más grandes.

Actividades complementarias de aprendizaje1. Exponga un ejemplo aplicado a cada método de muestreo.2. Investigue qué es un error de muestreo

Cuestionario de autoevaluación

1. Enumere los motivos para realizar un muestreo de población2. Una población está formada por los cuatro valores siguientes: 12, 12. 14 y 16

a. Enumere todas las muestras de tamaño 2 y calcule la media de cada muestrab. Calcule la media de la distribución muestral de medias y la media de la población. Compare los dos valoresc. ¿Qué importancia tiene el teorema Central del Límite?

3. A cada empleado nuevo se le da un número de identificación. Los archivos de personal se ordenan en secuencia empezando por el empleado número 0001. Para tomar una muestra de los empleados, se seleccionó primero el número 0453, etc, se convirtieron en miembros de la muestra. A este tipo de muestreo se le llama:a) Muestreo Aleatorio simpleb) Muestreo aleatorio estratificado

- 8 –

Page 9: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

c) Muestres estratificadod) Muestro por conglomerados

SESION 2

1.5Distribución muestral de la media con varianza conocida

- 9 –

Page 10: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

Si la distribución de muestreo de la media tiene una distribución normal, ya sea porque la población tiene distribución normal o por la aplicación del teorema central del límite, podemos determinar probabilidades en relación con los posibles valores de la media muestral, dado que conocemos la media y desviación estándar de la población. El proceso es análogo a la determinación de probabilidades para observaciones individuales mediante el uso de la distribución normal. El valor asignado a la media muestral el que se convierte en un valor de z a fin de emplear la tabla de probabilidades normales.

En esta fórmula de conversión se hace uso del error estándar de la media, cuando se conoce la desviación estándar poblacional, porque éste es la desviación estándar de la variable . Así, la formula de conversión es:

Donde: es el error estándar de la

media

Ejemplo: un auditor toma una muestra aleatoria de tamaño n=36 de una población de 1000 cuentas por cobrar. El valor medio de las cuentas por cobrar para la población es µ=$260.00, con la desviación estándar de la población σ=$45,00.

¿Cuál es la probabilidad de que la media muestral sea inferior a $250.00?

Aparece la curva de probabilidad. La distribución de muestreo es descrita por la media y el error estándar:

Por lo tanto:

Ejemplo: en referencia al ejemplo anterior ¿Cuál es la probabilidad de que la media muestral se encuentre a no más de $15.00 de la media de la población?

1.6Distribución muestral de la media con varianza desconocida

- 10 –

Page 11: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

Hay ocasiones en que deseamos hacer inferencias acerca de la población, pero no sabemos mucho acerca de esta. En este caso resulta útil el teorema del límite central. Sabemos que para cualquier forma de distribución de la población, si seleccionamos una muestra lo suficientemente grande, la distribución de muestreo de la media de la muestra seguirá una distribución normal. La teoría estadística ha señalado que las muestras de por lo menos 30 elementos no son lo suficientemente grandes como para permitirnos suponer que la distribución de muestreo sigue la distribución normal. A menudo no conocemos el valor de la desviación estándar poblacional. De nuevo, como la muestra es de por lo menos 30, calculamos la desviación estándar de la población, con la desviación estándar de la muestra. Por lo que utilizamos la fórmula siguiente:

Donde, es el error estándar de la media

Actividades complementarias de aprendizaje

1. Señale las dos condiciones fundamentales para que la distribución de muestreo siga la distribución de probabilidad normal

Cuestionario de autoevaluación

1. Una gran población de saldos de cuentas tiene distribución normal, el saldo medio es de 4150.00 con desviación estándar de %35.00. ¿Cuál es la probabilidad de que la media de muestra aleatoria de tamaño 40 tenga un saldo que exceda de $160.00?

2. Se sabe que el valor en dólares de los montos de ventas de un producto de consumo específico durante el último año tienen una distribución normal con media de $3400 por establecimiento de ventas al detalle, con una desviación estándar muestral de $200. Si el producto es manejado por un gran número de establecimientos ¿Cuál es la probabilidad de que la media muestral de una muestra de tamaño 35 sea:

a. Mayor a $ 3 500?b. Entre $3 500 y $3 450

SESION 3

Distribución muestral de proporciones

Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos investigar la proporción de artículos defectuosos o la proporción de alumnos reprobados en la muestra. La distribución muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribución se genera de igual manera que la distribución muestral de medias, a excepción de que al extraer las muestras de la población se calcula el estadístico proporción (p=x/n en donde "x" es el número de éxitos u observaciones de interés y "n" el tamaño de la muestra) en lugar del estadístico media.

- 11 –

Page 12: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

Una población binomial está estrechamente relacionada con la distribución muestral de proporciones; una población binomial es una colección de éxitos y fracasos, mientras que una distribución muestral de proporciones contiene las posibilidades o proporciones de todos los números posibles de éxitos en un experimento binomial, y como consecuencia de esta relación, las afirmaciones probabilísticas referentes a la proporción muestral pueden evaluarse usando la aproximación normal a la binomial, siempre que np 5 y n(1-p) 5. Cualquier evento se puede convertir en una proporción si se divide el número obtenido entre el número de intentos.

La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de proporciones está basada en la aproximación de la distribución normal a la binomial. Esta fórmula nos servirá para calcular la probabilidad del comportamiento de la proporción en la muestra.

A esta fórmula se le puede agregar el factor de corrección de si se cumple con las

condiciones necesarias

Generación de la Distribución Muestral de Proporciones

Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artículos defectuosos. Se van a seleccionar 5 artículos al azar de ese lote sin reemplazo. Genere la distribución muestral de proporciones para el número de piezas defectuosas.

Como se puede observar en este ejercicio la Proporción de artículos defectuosos de esta población es 4/12=1/3. Por lo que podemos decir que el 33% de las piezas de este lote están defectuosas.

El número posible de muestras de tamaño 5 a extraer de una población de 12 elementos es 12C5=792, las cuales se pueden desglosar de la siguiente manera:

Artículos Buenos

Artículos Malos

Proporción de artículos defectuoso

Número de maneras en las que se puede obtener la muestra

1 4 4/5=0.8 8C1*4C4=8

2 3 3/5=0.6 8C2*4C3=112

- 12 –

Page 13: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

3 2 2/5=0.4 8C3*4C2=336

4 1 1/5=0.2 8C4*4C1=280

5 0 0/5=0 8C5*4C0=56

Total 792

Para calcular la media de la distribución muestral de proporciones se tendría que hacer la sumatoria de la frecuencia por el valor de la proporción muestral y dividirla entre el número total de muestras. Esto es:

Como podemos observar la media de la distribución muestral de proporciones es igual a la Proporción de la población.

También se puede calcular la desviación estándar de la distribución muestral de proporciones:

La varianza de la distribución binomial es , por lo que la varianza de la distribución

muestral de proporciones es: . Si se sustituyen los valores en esta fórmula tenemos

que: y la desviación sería

Este valor no coincide con el de 0.1681, ya que nos falta agregar el factor de corrección para una población finita y un muestreo sin reemplazo:

Un ejemplo: Un medicamento para malestar estomacal tiene la advertencia de que algunos usuarios pueden presentar una reacción adversa a él, más aún, se piensa que alrededor del 3% de los usuarios tienen tal reacción. Si una muestra aleatoria de 150 personas con malestar

- 13 –

Page 14: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

estomacal usa el medicamento, encuentre la probabilidad de que la proporción de la muestra de los usuarios que realmente presentan una reacción adversa, exceda el 4%.

Datos:n=150 personas P=0.03 p= 0.04P(p>0.04) = ?

Existe una probabilidad del 17% de que al tomar una muestra de 150 personas se tenga una proporción mayor de 0.04 presentando una reacción adversa

Actividades complementarias de aprendizaje

1. Realice un resumen del tema2. ¿Cuándo usamos el factor de corrección?

Cuestionario de autoevaluación 1. Se sabe que la verdadera proporción de los componentes defectuosos fabricados

por una firma es de 4%, y encuentre la probabilidad de que una muestra aleatoria de tamaño 60 tenga:a. Menos del 3% de los componentes defectuosos. b. Más del 1% pero menos del 5% de partes defectuosas.

SESION 4

1.8 Distribución muestral de la diferencia de media

- 14 –

Page 15: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

A continuación presentaremos a dos poblaciones que son distintas, la primera con tiene una media de , con una desviación estándar , y la segunda con media y desviación estándar

. Se toma una muestra aleatoria de tamaño n1 de la primera población y una muestra independiente aleatoria de tamaño n2 de la segunda población; se calcula la media muestral para cada muestra y la diferencia entre dichas medias. La colección de todas esas diferencias se llama distribución muestral de las diferencias entre medias .

Se sabe que la distribución es aproximadamente normal para tamaños de muestras mayores o iguales a 30, par ambas muestras. Si las poblaciones son normales, entonces la distribución muestral de medias es normal sin importar los tamaños de las muestras.

La fórmula que se utilizará para el cálculo de probabilidad de las diferencias de medias muestrales:

Donde,

Ejemplo:

Los productores de computadoras personales compran determinados componentes a dos compañías. Los componentes de la compañía A tienen una vida media de 7.2 años con una desviación estándar de 0.8 años, mientras que los de la B tienen una vida media de 6.7 años con una desviación estándar de 0.7. Determine la probabilidad de que una muestra aleatoria de 34 componentes de la compañía A tenga una vida promedio de al menos un año más que la de una muestra aleatoria de 40 componentes de la compañía B.

Datos:

- 15 –

Page 16: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

Actividades complementarias de aprendizaje

1. Realice un resumen del tema

Cuestionario de autoevaluación

1. Se sabe que la verdadera proporción de los componentes defectuosos fabricados por una firma es de 4%, y encuentre la probabilidad de que una muestra aleatoria de tamaño 60

2-. Se prueba el rendimiento en km/L de 2 tipos de gasolina, encontrándose una desviación estándar de 1.23km/L para la primera gasolina y una desviación estándar de 1.37km/L para la segunda gasolina; se prueba la primera gasolina en 35 autos y la segunda en 42 autos. Promedio de rendimiento de la gasolina uno sea de 5km/l y para la gasolina dos sea de 5.3 km por litro

a. ¿Cuál es la probabilidad de que la primera gasolina de un rendimiento promedio mayor de 0.45km/L que la segunda gasolina?

b. ¿Cuál es la probabilidad de que la diferencia en rendimientos promedio se encuentre entre 0.65 y 0.83km/L a favor de la gasolina 1?.

- 16 –

Page 17: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

SESION 5

Distribución muestral de la diferencia de proporciones.

Muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse utilizando proporciones o porcentajes. A continuación se citan algunos ejemplos:

Educación.- ¿Es mayor la proporción de los estudiantes que aprueban matemáticas que las de los que aprueban inglés?

Medicina.- ¿Es menor el porcentaje de los usuarios del medicamento A que presentan una reacción adversa que el de los usuarios del fármaco B que también presentan una reacción de ese tipo?

Administración.- ¿Hay diferencia entre los porcentajes de hombres y mujeres en posiciones gerenciales.

Ingeniería.- ¿Existe diferencia entre la proporción de artículos defectuosos que genera la máquina A a los que genera la máquina B?

Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos proporciones muestrales, la distribución muestral de diferencia de proporciones es aproximadamente normal para tamaños de muestra grande (n1p1 5, n1q1 5,n2p2 5 y n2q2 5). Entonces p1 y p2 tienen distribuciones muestrales aproximadamente normales, así que su diferencia p1-p2 también tiene una distribución muestral aproximadamente normal.

La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia de proporciones es:

Ejemplo:Los hombres y mujeres adultos radicados en una ciudad grande del norte difieren en sus opiniones sobre la promulgación de la pena de muerte para personas culpables de asesinato. Se cree que el 12% de los hombres adultos están a favor de la pena de muerte, mientras que sólo 10% de las mujeres adultas lo están. Si se pregunta a dos muestras aleatorias de 100 hombres y 100 mujeres su opinión sobre la promulgación de la pena de muerte, determine la probabilidad de que el porcentaje de hombres a favor sea al menos 3% mayor que el de las mujeres.Datos:PH = 0.12PM = 0.10nH = 100nM = 100p (pH-pM 0.03) = ? 

Se recuerda que se está incluyendo el factor de corrección de 0.5 por ser una distribución binomial y se está utilizando la distribución normal.

- 17 –

Page 18: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

Se concluye que la probabilidad de que el porcentaje de hombres a favor de la pena de muerte, al menos 3% mayor que el de mujeres es de 0.4562.

Actividades complementarias de aprendizaje

1. Realice un resumen del tema

Cuestionario de autoevaluación

1. Una encuesta del Boston College constó de 320 trabajadores de Michigan que fueron despedidos entre 1979 y 1984, encontró que 20% habían estado sin trabajo durante por lo menos dos años. Supóngase que tuviera que seleccionar otra muestra aleatoria de 320 trabajadores de entre todos los empleados despedidos entre 1979 y 1984. ¿Cuál sería la probabilidad de que su porcentaje muestral de trabajadores sin empleo durante por lo menos dos años, difiera del porcentaje obtenido en la encuesta de Boston College, en 5% o más?

- 18 –

Page 19: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

2. Teoría de la estimación2.1. Introducción2.2.Estimación y propiedades de los estimadores.2.3.Estimación por intervalo.2.4. Intervalo de confianza para la media con varianza conocida y desconocida.2.5. Intervalo de confianza para una proporción y diferencia de proporciones.2.6. Intervalo de confianza para diferencias de medias con varianza conocida y

desconocida.

Objetivos Particulares

Al término de la unidad, el alumno debe:

1. Definir el término Estimación puntual2. Definir el término Nivel de Confianza

3. Elaborar intervalos de confianza para la media y para la proporción

4. Elaborar intervalos de confianza para la diferencia de medias y diferencia de proporciones

5. Determinar el tamaño de muestra para la estimación de medias y de proporciones de una población.

SESION 62.1 Introducción

En casi todas las situaciones, la población es numerosa o es difícil identificar a todos sus miembros, de modo que necesitamos manejar una muestra. En otras palabras no conocemos el parámetro poblacional y, por tanto, queremos estimar el valor a partir de un estadístico de la muestra. Considere el siguiente ejemplo de negocio:

1-. El turismo es una fuente importante de ingresos para muchos países y para polos importantes en México, como por ejemplo, Cancún. Suponga que la Secretaría de Turismo de este estado quiere un estimado de la cantidad media que gastan los turistas que visitan Cancún. Por lo que 500 turistas se seleccionan al azar en el momento que salen del país y se les preguntan los detalles de los gastos que hicieron durante su visita a este polo turístico. La cantidad media que gasta la muestra de 500 turistas es un estimado del parámetro poblacional desconocido. Es decir la media de la muestra sirve como estimado de la media poblacional.

El objetivo principal de la estadística inferencial es la estimación, esto es que mediante el estudio de una muestra de una población se quiere generalizar las conclusiones al total de la misma. Como vimos en la sección anterior, los estadísticos varían mucho dentro de sus distribuciones muestrales, y mientras menor sea el error estándar de un estadístico, más cercanos serán unos de otros sus valores.

- 19 –

Page 20: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

La inferencia estadística está casi siempre concentrada en obtener algún tipo de conclusión acerca de uno o más parámetros (características poblacionales). Para hacerlo, se requiere que un investigador obtenga datos muestrales de cada una de las poblaciones en estudio. Entonces, las conclusiones pueden estar basadas en los valores calculados de varias cantidades muestrales

2.2 Estimación y propiedades de los estimadores.

Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo. Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro. El estadístico usado se denomina estimador.

Un estimador puntual es un estadístico que se calcula a partir de la información de la muestra y que se utiliza para calcular el parámetro de una población. En la siguiente tabla se exponen los parámetros poblacionales y sus respectivos estimadores.

Parámetro de la población EstimadorMedia μDiferencia entre la media de dos poblaciones μ1 - μ2

Proporción π pDiferencia entre las proporciones de dos poblaciones π1 – π2 p1 - p2

Varianza σ2 s2

Desviación estándar σ s

Aunque la media muestral es útil como estimador de insesgado de la media de la población, no hay manera de expresar el grado de exactitud de un estimador puntual. La probabilidad de que la media muestral sea exactamente correcta como estimador de la media de la población es de p(x)=0.

Un intervalo de confianza para la media es un rango de valores creado a partir de los datos de la muestra, de modo que el parámetro poblacional es probable que ocurra dentro de ese rango en una probabilidad específica. Esta última se llama Nivel de Confianza.

Por ejemplo, calculamos que el ingreso anual promedio para los trabajadores de la construcción es de $65000. El rango de esta estimación puede ser de $61000 a $69000. Podemos describir la confianza que tenemos en que el parámetro de la población se encuentre en el intervalo haciendo una declaración de probabilidad. Podemos decir, por ejemplo, que estamos 90% seguros de que el ingreso anual medio de los trabajadores de la construcción es entre $61000 y $69000.

En otras palabras el intervalo de confianza es un intervalo estimado construido en relación con la media muestral por medio del cual puede especificar la verosimilitud de que el intervalo incluya el valor de la media poblacional.

- 20 –

Page 21: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

2.3 Estimación por intervalo.

Un estimado puntual, por ser un sólo número, no proporciona por sí mismo información alguna sobre la precisión y confiabilidad de la estimación. El estimado puntual nada dice sobre lo cercano que esta de la media poblacional. Una alternativa para reportar un solo valor del parámetro que se esté estimando es calcular e informar todo un intervalo de valores factibles, un estimado de intervalo o intervalo de confianza (IC).

Un intervalo de confianza para la media es un rango de valores creado a partir de los datos de la muestra, de modo que el parámetro poblacional es probable que ocurra dentro de ese rango en una probabilidad específica. Esta última se llama Nivel de Confianza.

Por ejemplo, calculamos que el ingreso anual promedio para los trabajadores de la construcción es de $65000. El rango de esta estimación puede ser de $61000 a $69000. Podemos describir la confianza que tenemos en que el parámetro de la población se encuentre en el intervalo haciendo una declaración de probabilidad. Podemos decir, por ejemplo, que estamos 90% seguros de que el ingreso anual medio de los trabajadores de la construcción es entre $61000 y $69000.

Cuanto mayor sea el nivel de confianza podremos creer que el valor del parámetro que se estima está dentro del intervalo.

Actividades complementarias de aprendizaje

1. Realice un resumen del tema

Cuestionario de autoevaluación

1. Comente las diferencias entre un estimador puntual y un estimador por intervalos.

2. Investigue cuáles son los factores que determinan el ancho de un intervalo de confianza.

3. Los puntos extremos de un intervalo de confianza se llaman:a) Niveles de confianzab) Las estadísticas de pruebac) Los grados de confianzad) Los límites de confianza

SESION 7

- 21 –

Page 22: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

Intervalo de confianza para la media con varianza conocida y desconocida.

La información desarrollada acerca de la forma de la distribución muestral de medias, es decir, la distribución de muestreo de , nos permite ubicar un intervalo que tiene una probabilidad específica de contener la media poblacional . Para muestras razonablemente grandes, los resultados del teorema del límite central nos permiten afirmar lo siguiente:

1. Del total de las medias de las muestras de una población 95% estarán a 1.96 desviaciones estándar de la media poblacional .

2. Del total de las medias de las muestras 99% se encontrarán a desviaciones estándar de la media poblacional.

La desviación estándar a la que nos referimos es la desviación estándar de la distribución muestral de medias. Por lo regular, se conoce como error estándar. A los intervalos calculados de esta manera se les llama Intervalo de Confianza de 95% e intervalo de confianza de 99%. El nivel de confianza asociado con un intervalo de confianza indica el porcentaje de tales intervalos que a largo plazo incluyen el parámetro que está siendo estimado.Los intervalos de confianza se elaboran por lo general con el estimador insesgado en un punto medio del intervalo..Cuando está garantizado el uso de la distribución normal de la probabilidad, el intervalo de confianza para la media se determina mediante:

O cuando la de la población se desconoce mediante:

Los intervalos de confianza de usos más frecuentes son los intervalos de confianza de 90%, 95% y 99%. Los valores de z requeridos junto con estos intervalos están dados en la siguiente tabla:

z (Número de unidades de desviación estándar

respecto a la media)

Proporción de área en el intervalo ó

1.645 0.901.960 0.952.580 0.99

Ejemplo. Durante una semana dada, una muestra aleatoria de 30 empleados por hora seleccionada de un gran número de empleados de una gran manufacturera tiene un salario muestral de =$180.00, con una desviación estándar muestral de s=$14.00. Estimamos el salario medio de todos los empleados por hora de la empresa con una estimación por intervalo tal como para que podamos tener confianza de 95% de que el intervalo incluye el valor de la media de la población de la siguiente manera:

Donde =$180.00 y

- 22 –

Page 23: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

De este modo, podemos afirmar que el nivel de salarial medio de la totalidad de los empleados es de entre $174.98 y $185.02, con un nivel de confianza de 95% en esta estimación.

Otro ejemplo: La American Management Association quiere tener información sobre el ingresos medio de los gerentes intermedios en la industria detallista. Una muestra aleatoria de 256 gerentes revela una media muestral de $45420. la desviación estándar de esta muestra es de $2050. La asociación busca las respuestas a las preguntas siguientes:

a) ¿Cuál es la media poblacional?b) ¿Cuál es el rango razonable de valores para la media poblacional? c) ¿Qué significan estos resultados?

De acuerdo al teorema del límite central, si tenemos muestras grandes, la distribución de las medias de estas seguirá la distribución normal.

a) La media de la muestra es un estimador puntual de la media poblacional desconocida.

b)

c) ¿Qué significa?: Supongamos que seleccionamos varias muestras de 256 gerentes, quizás varios cientos. Para cada muestra, calculamos la media y la desviación estándar y luego creamos un intervalo de confianza del 95%. O sea podemos esperar que alrededor del 95% de estos intervalos contengan el ingreso anual medio de la población.

DETERMINACIÓN DEL TAMAÑO DE MUESTRA REQUERIDO PARA LA ESTIMACIÓN DE LA MEDIA.

Supongamos que se especifica el tamaño deseado de un intervalo de confianza y el nivel de confianza asociado con él. Si es conocida σ o puede estimarse, el tamaño de muestra requerido con base en el uso de la distribución normal es:

Z es el valor de utilizado para el nivel de confianza especificado.

σ Es la desviación estándar de la población.E es el error de muestreo de más o menos permitido en el intervalo.

Ejemplo. Un analista de un departamento de personal desea estimar el número de horas de capacitación al año para los supervisores de la compañía con un margen de error inferior a 3.0 horas y confianza de 90%. Con base en datos procedentes de otras divisiones, el analista estima que la desviación estándar de las horas de capacitación es de σ=20.0 hr. El tamaño de muestra mínimo requerido es:

Distribución t e intervalo de confianza para la media

Anteriormente utilizamos una distribución normal estándar para expresar el nivel de confianza. Pero si tenemos una muestra menor a 30 y no conocemos la desviación estándar poblacional,

- 23 –

Page 24: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

entonces el teorema del límite central no resuelve esta situación. En estas condiciones, el procedimiento estadístico correcto consiste en reemplazar la distribución normal estándar por la distribución t. Esta distribución presenta las siguientes características, y se basan en la suposición de que la población de interés es normal, o casi normal:

1. Es una distribución continua, al igual que la normal.2. Es simétrica y tiene forma de campana, al igual que la normal.3. No hay una sola distribución t, sino más bien, una familia de distribuciones t. Todas

tienen una media de 0, pero sus desviaciones estándar difieren según el tamaño de la muestra, n. Hay una distribución t para u tamaño de muestra 20, otra para un tamaño de muestra de 22 y así, sucesivamente.

4. La distribución t es más extendida y plana en el centro que la distribución normal estándar. Sin embargo, conforme aumenta el tamaño de la muestra, la distribución t se asemeja más a la distribución normal estándar, debido a que los errores al utilizar s para estimar σ disminuyen con las muestras más grandes.

Esta distribución está asociada con los grados de libertad (gl) para un intervalo de confianza para la media de la población con base en una muestra de tamaño n, gl=n-1.

Los grados de libertad indican el número de valores “libres de variar” en la muestra que sirve de base al intervalo de confianza. A primera vista, parecería que todos los valores de la muestra son siempre libres de variar en sus valores medidos. Pero la diferencia de la distribución t en comparación como la z es que se requiere que tanto la media muestral como la desviación estándar muestral se fijen como estimadores paramétricos a fin de un intervalo de confianza para medir la población.

El uso de la distribución t para inferencia sobre la media de la población es adecuada cuando σ es desconocida y la distribución de muestreo de la media es normal. Con gl el intervalo de confianza para la estimación de la media de la población cuando resulta adecuado el uso de la distribución t es:

Ejemplo: el ciclo medio de vida operativa de una muestra aleatoria de n=10 focos es de =4000 horas, con la desviación estándar muestral s=200 hrs. Se supone que el ciclo de vida operativa de los focos es general tiene una distribución aproximadamente normal. Estimamos el ciclo medio de la vida operativa de la población de focos de la que fue tomada esta muestra, aplicando un intervalo de confianza de 95%, en esta forma:

Donde =4000 horas:

¿CÓMO DETERMINAR CUÁNDO UTILIZAR LA DISTRIBUCIÓN NORMAL O LA DISTRIBUCION t?

- 24 –

NONO

NO

SI

SI

SI

¿La población es normal?

¿n es 30 ó más?¿Se conoce la

desviación estándar de la

población?

Utilice una prueba no paramétrica

Utilice la distribución normal

estándar

Utilice la distribución t

Utilice la distribución normal

estándar

Page 25: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

Actividades complementarias de aprendizaje

1. Realice un resumen del tema

Cuestionario de autoevaluación

1. Un analista de un departamento de personal selecciona aleatoriamente los expedientes de 16 empleados por hora y determina que el índice salarial medio por hora es de $9.50. Se suponen que los índices salariales de la compañía siguen una distribución normal. Si se sabe que la desviación estándar de los índices salariales es de $1.00, estime el índice salarial medio de la empresa con un intervalo de confianza del 99%.

2. El diámetro medio de una muestra de 12 varillas cilíndricas incluidas en un embarque es de 2.345mm, con una desviación estándar muestral de 0.048 mm. Se supone que la distribución de los diámetros de la totalidad de las varillas incluidas en el embarque es aproximadamente normal. Determine el intervalo de confianza del 95% para la estimación del diámetro medio de todas las varillas incluidas en el embarque.

3. El diámetro medio de una muestra de 100 varillas cilíndricas incluidas en un embarque es de 2.345mm, con una desviación estándar muestral de 0.048 mm. Se supone que la distribución de los diámetros de la totalidad de las varillas incluidas en el embarque es aproximadamente normal. Determine el intervalo de confianza del 90% para la estimación del diámetro medio de todas las varillas incluidas en el embarque.

- 25 –

Page 26: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

SESION 8

2.5 Intervalo de confianza para una proporción y diferencia de proporciones

La proporción es una fracción, razón o porcentaje que indica la parte de la muestra o la población que tiene un rasgo de interés en particular.

La proporción de la población se identifica como , y se refiere al porcentaje de éxito de la población. Para desarrollar un intervalo de confianza para una proporción, necesitamos cumplir con las suposiciones siguientes:

1. Se cumple las condiciones binomiales: a. La información de la muestra es el resultado de los conteosb. Solo hay dos resultados posibles, éxito o fracaso.c. La probabilidad de éxito sigue siendo la misma de un ensayo a otrod. Los ensayos son independientes.

- 26 –

Page 27: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

2. Los valores y deben ser mayores o iguales a 5. esta condición nos permite recurrir al teorema del límite central y utilizar la distribución normal estándar, es decir, z, para completar un intervalo de confianza.

Para desarrollar un intervalo de confianza para una proporción de la población se usa la siguiente fórmula: ,

Donde:

o lo que es igual:

Ejemplo 3. Una empresa de investigación de mercado contacta a una muestra aleatoria de 100 varones en una comunidad extensa y determina que una proporción muestral de 0.40 prefiere las navajas de afeitar fabricadas por el cliente de esa empresa sobre todas las demás marcas. El intervalo de confianza de 95% para la proporción de todos los varones de la comunidad que prefieren las navajas de afeitar del cliente de la empresa se determina de la siguiente manera:

Por lo tanto, con una confianza de 95% estimamos la proporción de todos los varones de la comunidad que prefieren las navajas del cliente de la empresa con un valor entre 0.30 y 0.50.

Determinación del tamaño de muestra requerido para la estimación de la proporción.

Una preocupación que surge a menudo al diseñar un estudio estadístico es: ¿Cuántos elementos debe tener en una muestra?. Si la muestra es demasiado grande, se gasta mucho dinero en recopilar la información. Y si por el contrario es demasiado pequeña, las conclusiones restantes serán inciertas. El tamaño apropiado de la muestra depende de tres factores:

El nivel de confianza deseadoEl margen de error que el investigador va a tolerarLa variabilidad en la población que se estudia

Antes de recolectar una muestra, el tamaño mínimo requerido puede determinarse especificando el nivel de confianza requerido y el error de muestreo aceptable y haciendo una estimación inicial de , la proporción poblacional desconocida:

Z es el valor usando el intervalo de confianza especificado, es la estimación inicial de la proporción poblacional y E es el error de muestreo “de mas o de menos” permitido en el intervalo.

- 27 –

Page 28: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

Si no es posible determinar el estimado de , se le deberá estimar en 0.50. Esta estimación es conservadora en tanto que representa el valor para el que se requeriría del tamaño de muestra mayor. Con base en este supuesto, la formula general para el tamaño de muestra se simplifica en esta forma:

Ejemplo 4: en referencia al problema anterior, supongamos que con anterioridad a la recolección de los datos se especifico que la estimación del intervalo de 95% debía tener un margen de error inferior a ±0.05 y que no se hizo el juicio preliminar alguno sobre el probable valor de . El tamaño de muestra es mínimo por recolectar es:

Intervalos de confianza para la diferencia entre dos proporciones.

Para estimar la diferencia entre las proporciones de las poblaciones, el estimador puntual insesgado de . El intervalo de confianza para la estimación de la diferencia entre dos proporciones poblacionales es: El error estándar de la diferencia entre las proporciones se determina por medios de esta fórmula:

Ejemplo 5. En el ejemplo 3 se indico que una proporción de 0.40 varones de una muestra aleatoria de 100 de una comunidad extensa prefirió navajas de afeitar del cliente de la empresa sobre todas las demás. En otra comunidad extensa 60 varones de una muestra aleatoria de 200 prefieren las navajas del cliente de la empresa. El intervalo de confianza de 90% para la diferencia en la proporción de varones de las dos comunidades que prefieren las navajas del cliente de la empresa es:

Donde:

Actividades complementarias de aprendizaje

1. Realice un resumen del tema

- 28 –

Page 29: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

Cuestionario de autoevaluación

1. Se calcula que una población tiene una desviación estándar de 10. Queremos estimar la media de la población en dos unidades de error máximo permisible, con un nivel de confianza del 95%. ¿Qué tan grande debe ser la muestra?

2. .El dueño de una estación de gas quería determinar la proporción de clientes que usan tarjetas de crédito o débito para pagar la gasolina en el área de bombas. Entrevistó a 100 clientes y descubrió que 80% pagaron en el área de bombas.

a) Desarrolle un intervalo de confianza del 95% para la proporción de la poblaciónb) Interprete los resultados

3.Cierta empresa compra tazas de plástico para imprimirles logotipos de eventos deportivos, graduaciones, cumpleaños y otras ocasiones especiales. El propietario, recibió un envío importante esta mañana. Para asegurarse de la calidad del envío, seleccionó una muestra aleatoria de 300 tazas y descubrió 15 unidades defectuosas.

a) ¿Cuál es la proporción estimada de tazas defectuosas en la población?

SESION 9

Intervalo de confianza para diferencias de medias con varianza conocida y desconocida.

A menudo es necesario estimar la diferencia entre dos medias poblacionales, como la diferencia entre los niveles salariales de dos empresas. El intervalo de confianza se elabora en forma similar al usado para la estimación de la media, excepto que el error estándar pertinente para la distribución de muestreo es el error estándar de la diferencia entre medias. El uso de la distribución normal se basa en las mismas condiciones que en el caso de la distribución de muestreo de media, salvo que están implicadas dos muestras. La fórmula empleada para estimar la diferencia entre dos medias poblacionales con intervalos de confianza:

O cuando se conocen las desviaciones estándar de las poblaciones, el error estándar de la diferencia entre medias es:

Cuando se desconocen las desviaciones estándar de las poblaciones, el error estándar estimado de la diferencia entre medias dado el uso apropiado de la distribución normal es:

Ejemplo 1: el salario medio semanal de una muestra de n=30 empleados de una gran empresa

manufacturera es =$280.00, con una desviación estándar muestral de s=$14.00. En otra gran empresa, una muestra aleatoria de n=40 empleados por hora tiene un salario medio semanal de $270.00, con una desviación estándar muestral de s=$10.00. El intervalo de

- 29 –

Page 30: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

confianza de 99% para la estimación de la diferencia entre los niveles salariales medios semanales de las dos empresas es:

Donde:

Así, podemos afirmar que el salario promedio semanal de la primera empresa es mayor que el promedio de la segunda empresa por un monto de entre $2.23 y $17.7, con una confianza de 99% en esta estimación por intervalo.

Distribución t e intervalos de confianza para la diferencia de dos medias.

El uso de la distribución t en conjunción con una muestra es necesario cuando:

1) Se desconocen las desviaciones estándar de σ de la población.

2) Las muestras son pequeñas (n<30). Si las muestras son grandes, los valores t pueden ser aproximados por la muestra estándar z.

3) Se supone que las poblaciones tienen una distribución aproximadamente normal.

Cuando se usa la distribución t para definir intervalos de confianza para la diferencia entre dos medias, no para inferencias sobre solo una media poblacional, por lo general se requiere del siguiente supuesto adicional:

4) las dos varianzas poblacionales (desconocidas) son iguales = .

El primer paso para determinar el error estándar de la diferencia entre medias cuando procede el uso de la distribución t es combinar las dos varianzas muestrales:

El error estándar de la diferencia entre las muestras basado en el uso de la varianza

combinada estimada es 2

Con gl =n1 + n2 -2 el intervalo de confianza es:

- 30 –

Page 31: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

Ejemplo 2: en relación con la muestra aleatoria de n1=10 focos, el ciclo de vida de los focos es

1=4600 horas con s1 =250 hr. El ciclo de vida y la desviación estándar de una muestra de

n2=8 focos de otra marca son 2=4600 hrs y s2 = 200 hrs. Se supone que el ciclo de vida de ambas marcas tiene una distribución normal.

El intervalo de confianza de 90% para estimar la diferencia entre el ciclo medio de vida útil de las dos marcas de focos es:

Se puede afirmar con confianza de 90% que la primera marca de focos tiene una vida media superior a la de la segunda marca en un monto de entre 410 y 790 hrs.

Actividades complementarias de aprendizaje

1. Realice un resumen del tema

Cuestionario de autoevaluación

1.

- 31 –

Page 32: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

3. Prueba de Hipótesis3.1.Conceptos de la teoría de prueba de hipótesis.3.2.Errores tipo I y II.3.3.Prueba de hipótesis para una media con varianza conocida y desconocida.3.4.Prueba de hipótesis para una proporción y diferencia de proporciones.3.5. Prueba de hipótesis para diferencia de medias con varianzas conocidas y desconocidas.

Objetivos ParticularesAl término de la unidad, el alumno debe:

1. Definir una hipótesis2. Describir el procedimiento para la prueba de hipótesis3. Realizar una prueba de hipótesis para la media con varianza conocida y

desconocida4. Definir los errores tipo I y tipo II5. realizar una prueba de hipótesis para la proporción.6. Realizar una prueba de hipótesis para la diferencia de medias y de proporciones

SESION 10

Conceptos de la teoría de prueba de hipótesis.Errores tipo I y tipo II

El propósito de la prueba de hipótesis es determinar si el valor supuesto de un parámetro poblacional, como la media de la población, debe aceptarse como viable con base en evidencias muestrales.

Una hipótesis es una declaración acerca de la población. La información se usa para determinar si la afirmación es razonable. Las hipótesis que nos compete son las estadísticas y la definimos:Hipótesis: Es una afirmación acerca de un parámetro de la población que se desarrolla para

propósitos de prueba.

Prueba de Hipótesis: Procedimiento basado en las evidencias de la muestra y la teoría de la probabilidad para determinar si la hipótesis es una información razonable.

- 32 –

Page 33: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

Hay un procedimiento de 5 pasos que sistematiza la prueba de una hipótesis, al llegar al paso 5 estamos en condiciones de rechazar o no:

PASO 1-. Establecer la Hipótesis Nula (H0) y la Hipótesis Alternativa (H1).

La “H” mayúscula significa hipótesis y el subíndice “cero” implica “sin diferencias”. Por lo general hay un “no” en la hipótesis nula, que quiere decir que no hay cambios. En términos generales la hipótesis nula se desarrolla para los propósitos de las pruebas; y esta se rechaza o no se rechaza. La hipótesis nula es una afirmación que no se rechaza a menos que la información de la muestra ofrezca evidencias convincentes de que es falsa.

Es necesario aclarar que si la hipótesis nula no se rechaza con base en los datos de la muestra, no podemos decir que la hipótesis nula sea verdadera, o sea, el hecho de no rechazar una hipótesis no prueba que H0 sea verdadera, significa que no rechazamos H0. Para probar que la hipótesis nula es verdadera, es preciso que el parámetro poblacional sea conocido. La hipótesis nula siempre va a contener el signo de igual que, ya que como dijimos anteriormente es la hipótesis que se va a probar, y se necesita un valor específico para incluirlo en nuestros cálculos.

Por otro lado, la Hipótesis Alternativa ( H1) describe sus conclusiones en caso de rechazar la Hipótesis Nula. Se expresa como H1. también se conoce como hipótesis de investigación. La hipótesis alternativa se acepta si los datos de la muestra nos proporcionan suficientes evidencias estadísticas de que la hipótesis nula es falsa.

En general, se define:

Hipótesis Nula (H0): Afirmación acerca de un parámetro de la población.

Hipótesis Alternativa (H1): Afirmación que se acepta si los datos de la muestra proporciona suficiente evidencia de que la hipótesis nula sea falsa.

PASO 2-. Seleccionar un nivel de significanciaEl nivel de significancia es la probabilidad de rechazar la hipótesis nula cuando es verdadera.Este nivel de significancia se expresa con la letra griega , en ocasiones se le conoce como nivel de riesgo. En términos generales se toma la decisión de usar el nivel 0.05 (nivel del 5%) o

- 33 –

PASO 1

-Establecer la hipótesis

nula y alternativa

PASO 2

-Seleccionar un nivel de

significancia

PASO 3

-Identificar la estadística

de prueba

PASO 4

-Formular una regla de

decisión

PASO 5

-Tomar una muestra,

llegar a una decisión

-No Rechazar H0

-Rechazar H0

-Aceptar H1

Page 34: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

el nivel 0.01 (nivel 1%), o cualquier otro nivel entre 0 y 1.Por lo regular el nivel 0.05 se selecciona para los proyectos de investigación del consumidor, el nivel 0.01 para el aseguramiento de la calidad y el 0.10 para encuestas políticas.

Ejemplo: suponga que una empresa que fabrica computadoras personales utiliza gran cantidad de tarjetas con circuitos impresos. Los proveedores participan en una licitación y el que presenta la cotización más baja obtiene un contrato considerable. Suponga que el contrato especifica que si el departamento de aseguramiento de la calidad del fabricante de computadoras tomará una muestra de todos los envíos que llegan. Si más de 6% de las tarjetas de la muestra no cumple con las normas, el envío se rechaza. La hipótesis nula es que el envío de tarjetas contiene 6% o menos tarjetas que no cumplen con las normas. La hipótesis alternativa es que más del 6% de las tarjetas están defectuosas.Una muestra de 50 tarjetas de circuitos que se recibieron el 21 de julio reveló que 4 de ellas, es decir, 8%, no cumplía con las normas. El envío se rechazó porque excedía el máximo de 6% de tarjetas que no cumplen con las normas. Si en realidad el envío no cumplía con las normas, la decisión de regresar las tarjetas al proveedor fue correcta. Sin embargo, suponga que las 4 tarjetas seleccionadas en la muestra de 50 eran las únicas que no cumplían con las normas en un envío de 4000 tarjetas. Entonces solo el 1% eran defectuosas (4/4000=0.001). En ese caso, menos del 6% de todo el envío no cumplía con las normas y rechazarlo fue un error. En término de la prueba de hipótesis, rechazamos la hipótesis nula de que el envío cumplía con las normas cuando deberíamos haber aceptado la hipótesis nula. Al rechazar la hipótesis nula, cometimos un error tipo I, la probabilidad de cometer este error es .

Error Tipo I ( ): Rechazar la hipótesis nula, H0; cuando es verdadera.

Error Tipo II ( ): Aceptar la hipótesis nula, H0; cuando es falsa.

En el ejemplo del fabricante de computadoras personales, se cometería un Error Tipo II, si con el desconocimiento del fabricante, un envío de tarjetas contiene 15% de tarjetas que no cumplen con las normas, y sin embargo, lo aceptara.

La siguiente tabla resume las decisiones que el investigador podría tomar y sus posibles consecuencias:

Hipótesis NulaInvestigador

AceptaH0

RechazaH1

H0 es verdadera Decisión correcta Error Tipo I

H0 es falsa Error Tipo II Decisión Correcta

PASO 3-. Seleccionar el Estadístico de Prueba

Es un valor, determinado a partir de la información de una muestra, que se utiliza para determinar si se va a rechazar la hipótesis nula.

- 34 –

Page 35: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

En la prueba de hipótesis para la media cuando se conoce la desviación estándar poblacional o si el tamaño de muestra es grande, la estadística de prueba z se calcula de la siguiente forma:

El valor z se basa en la distribución de muestreo de , que

sigue la distribución normal cuando la muestra es razonablemente grande con una media ( )

igual a y una desviación estándar , que es igual a . Así podemos determinar lsi la

diferencia entre y es estadísticamente significativa al encontrar el número de desviaciones estándar que separan a de .

PASO 4- . Formular la regla de decisión

Una regla de decisión es una afirmación de las condiciones específicas en las que la hipótesis nula se rechaza y aquellas en las que se acepta. La región o área de rechazo define la ubicación de todos esos valores que son tan grandes o tan pequeños que la probabilidad de su ocurrencia bajo una hipótesis nula verdadera es más bien remota.

PASO 5- Tomar una decisión

En este paso de calcula el estadístico de prueba, comparándolo con el valor crítico y tomando la decisión de rechazar o no la hipótesis nula.

El valor crítico es el punto divisor entre la región en la que la hipótesis nula se rechaza y aquella en la que se acepta.

Recordemos que en un aprueba de hipótesis, sólo una de las dos decisiones es posible: aceptar o rechazar la hipótesis nula. En lugar de aceptar algunos investigadores prefieren expresar “no rechazar la hipótesis nula” o “decidimos no rechazar la hipótesis nula”.

- 35 –

Page 36: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

- 36 –

Page 37: Antologia 3ro. Lia Estadistica

Antología de Estadística - 3er Semestre de Licenciatura en Informática Administrativa -

bibliografia

http://www.itchihuahua.edu.mx/academic/industrial/estadistica1/cap01b.html

- 37 –