la inferencia estadistica

35
Módulo 1 Unidad 1 Lectura 1 Inferencia Estadística Materia: Herramientas Matemáticas V – Estadística II Profesora: Mgter. Verónica Herrero

Upload: arielgom

Post on 10-Jul-2015

288 views

Category:

Economy & Finance


3 download

TRANSCRIPT

Page 1: La inferencia estadistica

 

Módulo 1

Unidad 1

Lectura 1

Inferencia Estadística

Materia: Herramientas Matemáticas V – Estadística II

Profesora: Mgter. Verónica Herrero

Page 2: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 2  

 

Unidad 1: Estimadores

1.1. Estimación

La mayoría de las aplicaciones actuales de la Estadística se relacionan con la obtención de conclusiones referidas a la población a partir de la evidencia recogida en una muestra correspondiente a una pequeña porción de casos, en situaciones prácticas como las siguientes:

• Analizar la evolución del total de desempleados en las grandes ciudades de un país

• Medir el gasto promedio de las familias en cierto rubro de interés • Cuantificar la variabilidad de un producto surgido de cierto proceso

industrial estandarizado. • Conocer el porcentaje de votantes que prefieren a cierto candidato

con anterioridad a una elección

Las técnicas correspondientes a la Inferencia estadística permiten dar respuesta a estos interrogantes, utilizando sólo una pequeña porción de casos de la población de interés. Para los objetivos de información propuestos como ejemplos previamente, podrían tomarse muestras de las poblaciones:

• Seleccionando individuos residentes en las ciudades de interés, y registrando su estado ocupacional.

• Obteniendo por muestreo un conjunto de familias, y consultándolas sobre el gasto en ese rubro.

• Estudiando por muestreo la característica de análisis de un grupo de productos elaborados en tal sistema.

• Indagando a un conjunto representativo de votantes del lugar en cuestión.

Como primer paso en este estudio de la Estadística inferencial, nos detendremos en este módulo en las diferentes técnicas que permiten dar considerado plausible acerca de un valor de un parámetro poblacional de interés (tales como la media poblacional, la varianza poblacional, la proporción poblacional, o las diferentes entre medias o entre proporciones).

Bibliografía Básica

Para cumplir con los objetivos de la Unidad 1 del programa, es necesario profundizar en los temas desarrollados en el Capítulo 9 y 10 del texto de Bibliografía Básica. (Berenson & Levine, 1996), relacionándolos con los comentarios, ejemplos y recomendaciones de las lecturas del módulo.

Capítulos: 9 y 10 (Apartados 10.1, 10.2, 10.3, 10.4, 10.5, 10.6, 10.7, 10.8,10.9)

Page 3: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 3  

 

1.1.1 Parámetros y estadígrafos

En primer lugar, recordemos la diferencia entre Parámetro y Estadígrafo.

Los parámetros son las medidas de resumen poblacionales que permiten describir el conjunto de datos analizados. Ejemplos de parámetros son la media poblacional, la varianza poblacional, etc.

Los estadígrafos son las medidas análogas obtenidas a partir de datos muestrales. Este tipo de medida incluye a la media muestral, la varianza muestral, la proporción muestral, entre otras. Estos valores, también conocidos como estimadores, se utilizan para proporcionar una idea del valor de la medida poblacional correspondiente, pero considerando sólo datos muestrales.

1.1.1.1 Estimadores: características de un buen estimador

Comenzaremos estudiando la media muestral, el estimador natural de la media poblacional, que es la medida de tendencia central más utilizada. La medida a su vez, es la medida más adecuada para describir un conjunto de datos que se distribuye siguiendo el modelo normal.

Las tres propiedades que nos interesa destacar de la media muestral como estimador de la media poblacional son:

1. Imparcialidad (insesgada) 2. Eficiencia 3. Consistencia

Imparcialidad

Decimos que un estimador es imparcial o insesgado cuando su valor esperado coincide con el parámetro poblacional que estima.

En el caso de la media muestral, esta propiedad se demuestra muy fácilmente con unos pocos pasos algebraicos:

Page 4: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 4  

 

Partiendo de la fórmula de cálculo de la media muestral, estudiada en el curso anterior de estadística:

n

xx

n

ii∑

== 1

La esperanza o valor esperado de la media muestral es:

⎥⎥⎥⎥

⎢⎢⎢⎢

=∑=

n

xExE

n

ii

1)(

Como la esperanza de una constante es la constante, resulta:

n

xExE

n

ii ⎥⎦

⎤⎢⎣

=∑=1)(

Como la esperanza de una suma es igual a la suma de las esperanzas:

n

xExE

n

ii ⎥⎦

⎤⎢⎣

=∑=1

)()(

Y como sabemos que la esperanza de la variable estudiada es �:

nnxE μ.)( =

Simplificando resulta:

μ=)(xE

Page 5: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 5  

 

Eficiencia

Un estimador es eficiente si en promedio se acerca más al parámetro estimado que cualquier otro estimador.

La media muestral cumple este requisito para la media poblacional, ya que tiene la mínima varianza entre los estimadores de la media poblacional.

Consistencia

Decimos que un estimador es consistente si a medida que se aumenta el tamaño de la muestra, el estimador se aproxima sistemáticamente al valor del parámetro poblacional.

Al aumentar el tamaño de la muestra, cada vez, las diferencias entre la media muestral y la media poblacional se van haciendo más reducidas.

El cumplimiento de estas propiedades hace de la media muestral el mejor estimador de la media poblacional.

Error estándar de la media

Es intuitivamente fácil de visualizar que a medida que mayor es la muestra (es decir, más elementos de la población se incluyen para estimar la media muestral), menor será la dispersión de los valores respecto de la media muestra, ya que el efecto de un valor extremo tiende a diluirse a medida que más elementos se toman en consideración para el cálculo.

Por esto, la desviación estándar de la media muestral, conocido como error estándar de la media, se relaciona de la siguiente manera con la desviación estándar poblacional:

nx

σ =

Error estándar de la media

Es el nombre que recibe la desviación estándar de la media muestral. Es decir, es la desviación estándar de la distribución de muestreo de la media.

Page 6: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 6  

 

Como puede observarse, la fórmula anterior refleja la relación indicada entre la dispersión de la muestra y el tamaño muestral.

Distribución en el muestreo de la proporción

Para las variables categóricas, en las cuales es registra la posesión o no de una característica, el parámetro poblacional de interés es la proporción, que indica justamente qué parte de la población posee una característica.

Por ejemplo, si en una población de 10.000 individuos, 2400 tiene ojos claros, decimos que

NXP =

100002400

=P

es la proporción de individuos con ojos claros en la población.

Donde X es la cantidad de casos de la población que tienen la característica, conocidos habitualmente como “éxitos”. N es el tamaño de la población.

El estimador de P será p, la proporción muestral. Para obtener p:

nxp =

Donde x es la cantidad de “éxitos” en la muestra, y n es el tamaño de la muestra.

Como puede observarse la proporción se ubica en el intervalo [0,1], siendo los extremos del intervalo las situaciones extremas en las que ningún individuo posee la característica o bien, cuando la poseen todos. Estos dos casos extremos son los que implican la menor dispersión entre los individuos (ya que por tener o por no tener la característica, los individuos

Distribución de muestreo de un estimador

La distribución de probabilidades de los valores posibles que puede asumir un estadístico muestral, calculados a partir de muestras del mismo tamaño y extraído en forma aleatoria de la misma población, se llama distribución muestral de ese estadístico.

Por ejemplo, puede ser la distribución de muestreo de la media como vimos en el punto anterior, o de la proporción, entre otros.

Page 7: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 7  

 

se parecen), y en cambio, la mayor dispersión ocurre en los valores intermedios (cuando p=0,5), ya que es máxima la cantidad de individuos que difieren de p.

nPP

p)1( −

La distribución muestral de la proporción sigue una distribución binomial, que puede aproximarse a la normal cuando se cumplen las siguientes condiciones:

5>np

y

5)1( >− pn

Estas condiciones implican requerimientos de muestras de tamaño considerables para las estimaciones de proporciones.

Muestreo de poblaciones finitas

Cuando se selecciona una muestra, debe establecerse con precisión cuál fue el mecanismo con el que se procedió a escoger a los elementos que componen la muestra.

El diseño básico que está implícito en muchos de los desarrollos estadísticos supone que los elementos fueron seleccionados “con reemplazo”. Esto implica que una vez que se seleccionó un individuo o elemento, éste vuelve a formar parte de los casos seleccionables, por lo que la probabilidad de selección de los distintos casos no cambia a medida que se va construyendo la muestra.

En diversas situaciones de aplicación de muestreo esto no ocurre de esta manera por diferentes razones. Por ejemplo, cuando realizamos una encuesta para un estudio de mercado, no tiene demasiado sentido encuestar dos veces al mismo individuo en un estudio; incluso en ocasiones, como las

Page 8: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 8  

 

aplicaciones para control de calidad, pueden implicar la destrucción del caso seleccionado en la muestra, tal como cuando se analiza la duración de una pieza, por lo que difícilmente en tales casos usemos un muestreo con reposición.

En todas estas situaciones debemos introducir una corrección a las fórmulas que ajuste la diferente probabilidad de selección que tienen los sucesivos casos que integran la muestra.

Esta corrección se conoce como factor de corrección para poblaciones finitas (fcpf) y se obtiene a través del siguiente cociente:

1−−

=N

nNfcpf

Con esta fórmula se ajusta tanto el error estándar de la media muestral:

1−−

=N

nNnx

σ

como el error estándar de la proporción muestral:

1)1(

−−−

=N

nNn

PPpσ

El fcpf siempre será menor que 1, lo cual implica que en este tipo de muestreo, las estimaciones surgidas de este tipo de muestreo resultan más exactas, o lo que es lo mismo tienen menos dispersión en el muestreo.

Preguntas de reflexión:

• ¿Por qué usamos los estimadores habituales para estimar la media poblacional o la proporción poblacional?

• ¿Cómo se comporta el error estándar si tomamos muestras más grandes?

• ¿Qué debe verificarse para que la proporción muestral se distribuya normal? ¿Qué implicancias tiene para la muestra?

• ¿Por qué se usa el fcpf? ¿Cómo afecta al error estándar?

Factor de Corrección para poblaciones finitas

Dado que este factor será siempre menor que 1, su aplicación reducirá el error estándar, haciendo las estimaciones más exactas.

Page 9: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 9  

 

1.1.1.2 Estimación puntual y por intervalos

Hasta ahora hemos visualizado el proceso de estimación simplemente como proporcionar un valor único que sirva como referencia indicativa del valor que suponemos que alcanza el parámetro poblacional de interés. En definitiva, como se indica en Berenson y Levine (p. 344):

“La estimación puntual consiste en una sola estadística de muestra que se utiliza para estimar el valor verdadero del parámetro de la población”.

Tabla: Estimadores puntuales

Parámetros Estimadores puntuales más usuales

Media poblacional

Media muestral

Proporción poblacional

Proporción muestral

Varianza poblacional Varianza muestral

Sin embargo, debido con este procedimiento no estamos aprovechando realmente la potencialidad de conocer con qué probabilidad de acertar hacemos nuestra afirmación. Debemos considerar la variabilidad posible que es propia de un estimador, ya que el valor de éste dependerá de la muestra que haya sido seleccionada.

Para tener en cuenta esta característica, la estimación por intervalos considera justamente las distribuciones en el muestreo de los respectivos estimadores.

Cuando obtengamos un intervalo, estaremos considerando una determinada confianza de estimar acertadamente el parámetro.

Page 10: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 10  

 

En definitiva vamos a poder decir, a través del intervalo, con una confianza establecida por el investigador (por ejemplo para la estimación de la media poblacional) que un intervalo a partir de la estimación puntual más / menos un cierto margen de error o error de muestreo, atrapa al verdadero valor del parámetro. Los intervalos en este caso tendrán la siguiente estructura:

±x margen de error

Estimación por intervalo de la media

Caso: Desviación estándar conocida

Por el Teorema del límite central (que Ud. conoce la materia previa, pero recordaremos más adelante en el módulo), sabemos que es posible determinar qué porcentaje de las medias muestrales se ubican a determinada distancia de la media de la población, teniendo en cuenta la distribución de la medias muestrales.

Si bien tenemos en cuenta ese razonamiento, permanentemente en las diferentes investigaciones que llevemos a cabo, tomaremos una única muestra, a partir de la cual haremos la estimación, considerando lo que probabilísticamente podemos deducir de la distribución de muestreo de la media.

La idea de este tipo de estimación es considerar que la muestra que fue seleccionada nos proporciona una de las medias muestrales posibles, que con una probabilidad 1-a, se encuentra a una distancia de

nZ xσ

α2

1−

con respecto del valor de la media poblacional.

Donde, 2

1 α−

Z es el valor de la tabla estandarizada normal, que tiene

acumulado hasta ese valor 2

1 α− de probabilidad. Este valor se denomina

Bibliografía Básica

Capítulo 9: Repaso de conceptos como distribución de muestreo y Teorema Central del Límite.

Capítulo 10: Desarrollo de los procedimientos para estimación de la media y la proporción.

Error de muestreo de la media

Es la diferencia entre la media de la muestra y la media de la población. Su fórmula es:

nZ xσ

α2

1−

Observe que debe diferenciarse del error estándar de la media,

dado que debe multiplicarse por Z.

Page 11: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 11  

 

valor crítico de la distribución. Algunos de los valores críticos más usados, correspondientes a los niveles de confianza (1-α) usuales, son:

(1-α) 2

1 α−

Z

95%

1,96

99%

2,575

90%

1,645

Por lo tanto a través de la construcción de un intervalo de confianza, con un nivel de confianza de 1-α, podemos decir que la media poblacional es atrapada por el intervalo:

[ ] ⎥⎦

⎤⎢⎣

⎡+−=

−− nZx

nZxLSLI xx σσ

αα2

12

1;,

Donde LI = límite inferior y LS= límite superior.

Si se tomaran todas las muestras posibles de tamaño n de la población bajo estudio, en el (1-α)% de los intervalos surgidos de tales estimaciones de la media poblacional, la media poblacional (que es fija aunque desconocida para nosotros) quedaría incluida en tales intervalos. Como destacamos antes, ya que en cualquier estimación trabajaremos con una muestra al azar, podemos decir que la probabilidad de que se cumpla la condición detallada es (1-α).

Tabla de la distribución normal

Es importante que Ud. pueda manejar con suficiente solvencia la tabla de la distribución normal. En el anexo del módulo tiene disponible una tabla y en los anexos del texto de bibliografía básica otra con un formato diferente. Verifique cuál le resulta más práctica para trabajar. A modo de ejercitación, intente encontrar los valores críticos más usados que se presentan en la tabla a la derecha.

Page 12: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 12  

 

Veamos un ejemplo:

Deseamos estimar la altura promedio de una población de estudiantes varones de esta Universidad.

Utilizaremos para ello una muestra aleatoria de 10 estudiantes. Los valores obtenidos de la medición de la altura son:

Caso Altura (en cm.)

1 162

2 176

3 169

4 165

5 171

6 172

7 169

8 168

9 175

10 167

De un estudio previo se conoce que la varianza de esta población es 16 cm2.

¿Cómo podemos estimar la altura promedio?

En primer lugar veamos una estimación puntual de la media, que va a estar dada por la media muestral.

n

xx

n

ii∑

== 1

cmx 4,169=

Page 13: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 13  

 

Para obtener el intervalo de confianza suponemos que la variable aleatoria se distribuye normal, y calculamos cada uno de los valores que indicamos. Trabajaremos con un 1-α=0,95.

96,12

1=

−αZ

4=xσ

10=n

Por lo tanto el intervalo que surge será:

[ ] [ ]879,171;920,166, =LSLI

Y podemos expresar la conclusión: Con un nivel de confianza del 95%, la altura promedio de los varones de la población de estudiantes de la Universidad es atrapada por el intervalo [166,92 cm; 171,88 cm].

Como puede analizarse a partir del ejemplo, el intervalo que surge depende de la muestra que ha sido seleccionada, en el caso de haber elegido a otros estudiantes y no a esos, el resultado de la media muestra podría haber sido distinto, y en consecuencias también el intervalo obtenido.

Estimación por intervalo de la media

Caso: Desviación estándar desconocida

Page 14: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 14  

 

En general, cuando no se dispone de información referida a la media poblacional, tampoco resulta conocido el valor de la varianza poblacional. Si tal es la situación, no podemos aplicar la distribución normal para la estimación por intervalos de la media poblacional.

Para solucionar esta situación, se aplica la distribución t, que presentaremos, para calcular el intervalo de confianza.

Distribución t de Student1

La distribución t de Student fue estudiada por William Gosset (1876-1937) quien se ocupaba de tareas de control de calidad en la fábrica de cervezas Guiness, en Irlanda.

Figura: Comparación de la distribución t y la normal estándar para diferentes grados de libertad

                                                            1 La nota que se indica está basada en: http://www.matematicasvisuales.com/html/probabilidad/varaleat/tstudent.html. En este sitio se pueden realizar visualizaciones de las diferentes distribuciones que estudiaremos en este módulo, simplemente ajustando los parámetros de las mismas. En la página http://www.matematicasvisuales.com/html/probabilidad/varaleat/tstudentprob.html pueden calcularse y compararse las respectivas probabilidades de la tabla normal y la tabla t de Student.

Distribución t con 2 grados de libertad 

Gráfico de la distribución normal: línea roja 

Gráfico de la distribución t: azul 

Tabla de la distribución t

Es importante que Ud. pueda manejar con suficiente solvencia la tabla de la distribución t de Student. En el anexo del módulo tiene disponible una tabla. Más adelante en el módulo se explica cómo trabajar con la tabla.

Page 15: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 15  

 

Fuente: Elaboración propia en base a herramienta de simulación provista por: http://www.geogebra.org/en/upload/files/Juan%20de%20Jesus%20Sandoval/la_distribucion_normal_t_student.html

Desarrolló trabajos acerca de esta distribución que le permitiera analizar muestras pequeñas. Debido a ciertas restricciones que le imponía la fábrica, no pudo publicar sus trabajos con su nombre y usó el seudónimo de Student, dado que consideró que su aporte podría servir a otros.

La distribución t, en realidad está conformada por una familia de variables aleatorias continuas. Esta familia se diferencia entre sí de acuerdo con un parámetro que se denomina "grados de libertad".

Distribución t con 5 grados de libertad 

 

Distribución t con 15 grados de libertad 

 

Distribución t con 30 grados de libertad 

Observar cómo prácticamente no hay diferencia entre ambas distribuciones. 

Page 16: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 16  

 

La distribución t es similar a la distribución normal estándar: tiene forma de campana, su media es 0 y es simétrica. Su varianza es mayor que 1. Cuanto más grados de libertad posee, más cercana a 1 es la varianza y más se aproxima la distribución t de Student a la normal estándar. Si trabajamos con más de 30 grados de libertad, se considera despreciable la diferencia entre la t de Student y la normal estándar.

Para buscar valores de t en la tabla se procede de manera similar a la correspondiente a la búsqueda en la tabla normal estándar. En este caso deberán considerarse los grados de libertad (indicados en las filas de las tablas).

Por ejemplo, si queremos buscar el t (con 25 grados de libertad) que acumula 0,90 de probabilidad hasta ese valor, en primer lugar ubicamos la fila que corresponde a esos grados de libertad. Como la tabla que presentamos en este caso señala las probabilidades a la derecha del valor respectivo, se debe seleccionar el valor de t asociado con una probabilidad a la derecha de 0,10. A continuación recuadramos el valor de t buscado.

Page 17: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 17  

 

En otras ocasiones, como ya han aprendido para la distribución normal, queremos conocer cuál es la probabilidad acumulada hasta determinado valor de la variable aleatoria. Podemos querer saber qué probabilidad hay de que una variable t, con 17 grados de libertad sea menor o igual a 2,1098. Nuevamente, buscamos en la tabla la fila correspondiente a los grados de libertad que nos interesan. Luego, entre los valores de la fila, identificamos el valor que nos interesa. En este caso, la columna donde se ubica el 2,1098 nos señala que la probabilidad de obtener un número mayor a ese valor de t es 0,025. Por lo tanto, la probabilidad acumulada hasta ese número será su complemento: 1 – 0,025 = 0,975.

Para los diversos problemas en los cuales es requieren valores de t o probabilidades asociadas con valores de la variable t se pueden utilizar las tablas que indicamos a continuación. Existen diversas tablas publicadas. La única recomendación importante para el uso es considerar cuidadosamente qué probabilidad están informando, y hacer uso de la propiedad de simetría de la distribución t (que se debe aplicar de manera análoga a la de la distribución normal, ya conocida del curso anterior).

Estadística I…

En el curso anterior se ha estudiado la distribución normal, sus parámetros y la manera de obtener probabilidades en la tabla correspondiente. Su Ud. no recuerda esos conceptos y procedimientos deberá repasarlos a partir del material de ese curso.

Page 18: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 18  

 

Figura: Valores de la Tabla t (según la probabilidad de la cola superior)

Fuente: Anderson , David y Sweeney, (2008) Dennis J. Estadística para administración y economía. 10ª edición. Cengage Learning. México.

Page 19: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 19  

 

Figura: Valores de la Tabla t (según la probabilidad de la cola superior) – Continuación

Page 20: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 20  

 

Las distribuciones t de Student son parecidas a la normal. Se pueden utilizar para hacer estimaciones de la media cuando se desconoce la varianza (situación que de más está decirlo es la habitual) y se usan muestras pequeñas.

Los intervalos así obtenidos son, no podría ser de otra manera, más grandes y menos precisos que los que se obtendrían si conocemos la varianza en una distribución normal.

Si la variable aleatoria X es normal, el estadístico:

ns

x μ−

Se distribuye t con n-1 grados de libertad.

Para buscar valores de probabilidad o de la variable aleatoria en la tabla t, se deben considerar los grados de libertad de la variable que se está analizando.

Grados de libertad

La idea de grados de libertad remite a la cantidad de valores de una muestra que podrían asumir cualquier valor. Si nosotros conocemos o calculamos en función de tales datos un estadístico, podemos perder grados de libertad o valores que pueden variar, del total de datos disponibles de la muestra. El Diccionario de metodología estadística (Gonzalo Gonzalvo Maynar, 1978, Morata Ed., Madrid) indica que cuando un estadístico se usa en la estimación de un parámetro poblacional, los grados de libertad dependen de las restricciones impuestas sobre las observaciones: cada restricción hace perder un grado de libertad.

Tabla de la distribución t

En el punto 10.3 del texto de Berenson & Levine (1996) se desarrolla el tema de estimación de un intervalo de confianza de la media cuando la desviación estándar es desconocida. Le recomendamos que siga con detalle los ejemplos propuestos en el texto, verificando si llega a los mismos resultados.

Page 21: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 21  

 

Estimación del intervalo de confianza

El intervalo de confianza para la media se construirá según el siguiente esquema:

Nivel de confianza: (1-α)%

Límites del intervalo:

Inferior:

nstx

n 1;2

1 −−− α

Superior:

nstx

n 1;2

1 −−+ α

Veamos un ejemplo:

Repitamos el ejercicio vinculado con la altura promedio de una población de estudiantes varones de esta Universidad, pero ahora suponiendo que no conocemos la varianza poblacional.

Supongamos que estimamos con los datos de la muestra la varianza muestral, s2 = 16,16 cm2.

Trabajaremos con un 1-α=0,95.

cmx 4,169=

Page 22: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 22  

 

02,4=s

10=n

Por lo tanto el intervalo que surge será:

[ ] [ ]26,172;52,166, =LSLI

La conclusión en este caso será: Con un nivel de confianza del 95%, la altura promedio de los varones de la población de estudiantes de la Universidad es atrapada por el intervalo [166,52 cm; 172,26 cm].

Si comparamos el resultado con el caso de varianza conocida (a pesar de la pequeña diferencia de varianzas implicadas), el intervalo que surge de considerar que no conocemos la varianza implica un intervalo más amplio (menos preciso), lo cual está asociado con un mayor margen de seguridad debido a que no conocemos el verdadero valor de la varianza.

2622,22

1;9=

−αt

Page 23: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 23  

 

Estimación por intervalo de la proporción

En el caso de datos categóricos también podemos aplicar estimación por intervalos de la proporción poblacional de casos que poseen cierta característica.

Tal como señalamos en el caso de la estimación puntual, la base de la estimación va a estar dada por la proporción muestral.

La propiedad que permite hacer uso de la distribución normal en este caso es la aproximación de la distribución binomial a la normal cuando se verifican las condiciones:

P.n≥5

y

(1-P).n≥5

Con esta premisa, los límites del intervalo van a estar dados por:

[ ] ⎥⎦

⎤⎢⎣

⎡ −+

−−=

−− nppZp

nppZpLSLI )1(;)1(,

21

21 αα

Donde:

Bibliografía Básica

En el punto 10.6 del texto de Berenson & Levine (1996) se desarrolla el tema de estimación de un intervalo de confianza para la proporción. Le recomendamos que siga con detalle los ejemplos propuestos en el texto, verificando si llega a los mismos resultados.

Page 24: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 24  

 

normalóndistribuciladecríticovalorZmuestraladetamañon

lpoblacionaproporciónPmuestralproporciónp

====

Veamos un ejemplo de estimación de una proporción poblacional.

En un estudio de opinión pública, en el cual se quiere estimar la proporción de votantes que elegirán a un candidato, se realiza una encuesta a una muestra representativa de votantes. El tamaño de la muestra es 400 casos.

Tras procesar las encuestas se obtiene que 178 individuos están seguros que elegirán al candidato en cuestión en la elección.

¿Cómo se estima la proporción de electores que tendrá el candidato en la elección, con un nivel de confianza del 99%?

La estimación puntual que surge de la proporción muestral es:

445,0400178

=

=

p

p

Veamos si se cumplen las condiciones para aproximar la distribución binomial a la distribución normal.

n . p = 400 . 0,445

= 178

n (1-p) = 400 . 0,555

= 222

En ambos casos se cumple la condición.

Page 25: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 25  

 

Ahora procedamos a estimar el intervalo de confianza:

[ ] ⎥⎦

⎤⎢⎣

⎡ −+

−−=

−− nppZp

nppZpLSLI )1(;)1(,

21

21 αα

El estadístico Z que tiene acumulada una probabilidad de 0,995,

576,22

1=

−αZ

[ ] ⎥⎦

⎤⎢⎣

⎡ −+

−−=

400)445,01(445,0576,2445,0;

400)445,01(445,0576,2445,0, LSLI

[ ] [ ]51,0;38,0, =LSLI

Como conclusión, podemos decir que con un nivel de confianza del 99%, el intervalo [0,38; 0,51] atrapa el verdadero valor poblacional de la proporción de votantes que tienen decidido votar al candidato. Observe que, dependiendo de los porcentajes de otros candidatos, esto podría significar que pierda la elección (si obtiene un porcentaje inferior al 50% de los votos, algún otro candidato puede alcanzar un porcentaje mayoritario) o bien que gane (si obtiene un valor mayor al 50% de los votos), en ambos casos, con el nivel de confianza definido, que siendo tan elevado, le permite estar casi seguro de que el resultado se encuentra en el intervalo estimado.

Page 26: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 26  

 

Resumen de casos de estimación

La siguiente figura resume los casos presentados de estimación por intervalos.

Figura:

Fuente: Elaboración propia

¿Cuándo aplicar cada estadístico?

• Como mencionamos, para estimar el intervalo para la media poblacional, se aplica distribución normal, en caso de distribución normal de la variable de estudio, o en su defecto, si la muestra es superior a 30 casos.

• El uso de la distribución t en la estimación por intervalos de la media poblacional es un requisito cuando desconocemos la varianza poblacional, con distribución de la variable de estudio normal si la muestra es menor a 30 casos, y es recomendable, en idénticas condiciones, aún cuando la muestra es mayor. De hecho, los paquetes estadísticos, usan las pruebas t, en los casos en los que se necesita estimar la varianza.

Anexo de Ejercitación

Además de los ejemplos presentados en la lectura y el texto básico, Ud. encontrará en el anexo del módulo una guía de ejercicios y sus respectivas soluciones. Le recomendamos que realice toda la ejercitación posible para identificar con claridad las situaciones en las que se aplica cada prueba estudiada.

Page 27: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 27  

 

• Para la estimación de la proporción poblacional, debe verificarse que

tanto p.n≥5 y (1-p).n≥5.

Determinación del tamaño de la muestra

Hasta ahora, se ha estudiado el modo de realizar la estimación de parámetros poblacionales a partir de una muestra de tamaño n. Sin embargo, una cuestión fundamental en la estadística inferencial es determinar cuál es el tamaño de muestra óptimo para lograr resultados dentro de un error máximo tolerable, minimizando los recursos empleados.

1. Determinación del tamaño de la muestra para la media La fórmula que permite obtener el tamaño adecuado de la muestra para la estimación de la media es la siguiente:

Esta fórmula se obtiene despejando la fórmula del error de muestreo “e”. Esto puede verse con detenimiento en el punto 10.7 del texto de Berenson & Levine (1996). Como se observa, son datos necesarios para el cálculo: conocer el nivel de confianza deseado (a partir del cual se obtiene Z), tener en cuenta el error máximo permitido o aceptable en cada caso (e) y la desviación estándar de la población (posiblemente a partir de datos históricos o conocidos por la experiencia del investigador)

2. Determinación del tamaño de la muestra para la proporción

La fórmula que permite obtener el tamaño adecuado de la muestra para la estimación de la proporción es la siguiente:

 

Al igual que en el caso anterior, esta fórmula se desprende de la expresión del error de muestreo (en este caso para la proporción). Además de los datos sobre el nivel de confianza deseado y el error máximo tolerable, debe conocerse alguna estimación o dato histórico sobre para p. De lo contrario, una regla práctica consiste en darle a p el valor 0,5. De esta manera, la expresión p (1-p) será la mayor posible, al igual que el tamaño de muestra determinado.

3. Determinación del tamaño de la muestra para la poblaciones finitas.

Bibliografía Básica

Le recomendamos que revise en detalle este tema en el texto de Berenson y Levine (1996). Los puntos 10.7, 10.8 y 10.9 desarrollan estos conceptos. Preste atención a los ejemplos allí propuestos.

Si se cuenta con una estimación de p…

En este caso, la regla práctica indica que se utilizará un valor de p=0,5 dado que es un criterio conservador (que dará un mayor valor de la varianza y del tamaño de la muestra.

Ver Berenson & Levine (1996) punto 10.8

Page 28: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 28  

 

Tal como se estudió en los casos anteriores la fórmula para obtener el tamaño de la muestra se obtiene despejando n de la fórmula del error (en el que se utilizará el factor de corrección por población finita. (Ver punto 10.9 del texto).

1.1.2 Concepto de Distribución de muestreo

Dada una población, si se consideran todas las muestras posibles de un mismo tamaño, n, para las que se calcula un estadístico determinado (por ejemplo, la media o la proporción), la distribución de los resultados obtenidos de esas muestras recibe el nombre de distribución de muestreo.

Un resultado fundamental para la Inferencia estadística:

Si bien este tema fue desarrollado en Estadística I, es muy importante recordarlo, ya que es un concepto fundamental para la Inferencia estadística, del cual se nutren los contenidos de este y los siguientes módulos.

1.1.2.1 Teorema Central del límite

Este resultado nos indica que:

Cuando el tamaño es suficientemente grande, la distribución de la variable aleatoria media muestral puede aproximarse a la distribución normal. Y esta relación es válida, cualquiera sea la distribución de los datos de la variable original.

Por ejemplo, si estamos interesados en analizar la media de ingresos en cierta población, aún cuando la distribución de ingresos en esa población no sea normal, si tomamos muestras suficientemente grandes, la distribución en el muestreo de las medias muestrales de ingresos, tendrán una forma aproximadamente normal.

Analicemos un ejemplo:

Bibliografía Básica

Le recomendamos que revise en detalle este tema en el texto de Berenson y Levine (1996). El Capítulo 9, también estudiado en Estadística I, trata el tema de la distribución de muestreo y el Teorema Central del Límite.

Page 29: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 29  

 

Analizamos la supervivencia adulta en una pequeña población rural. Uno de los datos que analizamos es el número de hermanos tenidos en promedio. Consideremos la siguiente tabla que indica el número de hermanos tenidos por todos los residentes.

Tabla: Datos de análisis

Caso Número de hermanos

Caso Número de hermanos

1 8 26 4

2 4 27 2

3 1 28 6

4 5 29 4

5 2 30 3

6 6 31 1

7 4 32 7

8 6 33 3

9 4 34 5

10 2 35 2

11 5 36 4

12 3 37 5

13 2 38 9

14 6 39 4

15 2 40 3

16 1 41 5

17 4 42 4

18 5 43 3

19 4 44 1

20 3 45 4

21 7 46 5

22 4 47 6

23 5 48 3

24 2 49 8

25 4 50 3

La información que proveemos en la tabla anterior corresponde a los 50 residentes mayores de 40 años del paraje.

Page 30: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 30  

 

Vamos a analizar qué hubiéramos estimado si las muestras hubieran sido de tamaños: 3, 5 y 7 casos. Para ejemplificar, tomamos 10 muestras de cada tamaño, de entre todas las posibles de ese tamaño.

• Tamaño 3

Muestra Casos seleccionados

1 24 14 7

2 37 4 49

3 11 41 48

4 21 7 8

5 6 50 30

6 10 40 48

7 4 26 34

8 3 11 17

9 47 40 9

10 31 47 11

• Tamaño 5

Muestra Casos seleccionados

1 9 45 21 14 15

2 33 41 33 16 38

3 34 49 22 35 17

4 49 30 17 15 8

5 39 21 35 2 28

6 11 26 40 24 45

7 42 5 31 23 19

8 19 38 46 50 6

9 37 33 31 8 48

10 34 46 33 46 37

• Tamaño 7

Page 31: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 31  

 

Muestra Casos seleccionados

1 40 41 20 14 7 17 8

2 32 30 50 23 45 21 4

3 13 37 30 4 2 13 22

4 1 17 35 10 25 19 28

5 17 14 2 42 6 28 31

6 41 9 27 36 10 14 20

7 38 1 36 2 18 38 48

8 18 7 48 35 6 46 17

9 2 23 39 14 33 19 48

10 8 13 49 20 27 48 34

Ahora, para muestra, calculemos la media muestral:

• Tamaño 3

Muestra Valores de los casos de la

muestra seleccionada

Media muestral

1 2 6 4 4

2 5 5 8 6

3 5 5 3 4,33

4 7 4 6 5,67

5 6 3 3 4

6 2 3 3 2,67

7 5 4 5 4,67

8 1 5 4 3,33

9 6 3 4 4,33

10 2 6 5 4,33

Page 32: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 32  

 

• Tamaño 5

Muestra Valores de los casos de la muestra seleccionada

Media muestral

1 4 4 7 6 2 4,6

2 3 5 6 1 9 4,8

3 5 8 4 2 4 4,6

4 8 3 4 2 6 4,6

5 4 7 2 4 6 4,6

6 5 4 3 2 4 3,6

7 4 2 1 5 4 3,2

8 4 9 5 3 6 5,6

9 5 3 1 6 3 3,6

10 5 5 3 5 5 4,6

• Tamaño 7

Muestra Valores de los casos de la muestra seleccionada

Media muestral

1 3 5 3 6 4 4 6 4,43

2 7 3 3 5 4 7 5 4,86

3 2 5 3 5 4 2 4 3,57

4 8 4 2 2 4 4 6 4,28

5 4 6 4 4 6 6 1 4,43

6 5 4 2 4 2 6 3 3,71

7 9 8 4 4 5 9 8 6,71

8 5 4 3 2 6 5 4 4,14

9 2 5 4 6 3 4 3 3,86

10 6 2 8 3 2 3 5 4,14

Veamos a continuación cómo se distribuyen las medias muestrales obtenidas en cada tamaño de muestra, a través de histogramas de frecuencia:

Figura: distribución de medias muestrales de muestras de tamaño 3

Page 33: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 33  

 

Figura: distribución de medias muestrales de muestras de tamaño 5

Figura: distribución de medias muestrales de muestras de tamaño 7

Page 34: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 34  

 

A partir de este ejemplo, ¿qué reflexión puede hacer, teniendo en cuenta el Teorema del Límite central, vinculada con la media muestral que se analiza de una muestra en particular (y el tamaño de una muestra que se considere), y la probabilidad de aproximarse lo más posible al verdadero valor del parámetro poblacional de interés?

Bibliografía Lectura 1 Berenson & Levine (1996). Estadística para administración y economía. Sexta Edición. Ed. Prentice Hall Hispanoamericana. México.

www.uesiglo21.edu.ar

Page 35: La inferencia estadistica

 

  

                                                    Materia: Herramientas Matemáticas V (Estadística II)  Profesora: Mgter. Verónica Herrero | 35