tema 6: introducción a la inferencia estadística (1ª...
Post on 28-Sep-2018
220 Views
Preview:
TRANSCRIPT
Tema 6: Introducción a la inferencia estadística
(1ª parte)
1. Planteamiento y objetivos
2. Estadísticos y distribución muestral
Muestreo y muestras aleatorias simples
La distribución de la media en el muestreo
La distribución de la varianza
3. Estimadores puntuales
4. Estimadores por intervalos
Lecturas recomendadas:
Capítulos 19 a 21 del libro de Peña y Romo (1997).
INTRODUCCIÓN
En muchos casos se desea obtener información estadıstica sobre
poblaciones numerosas
• Situación laboral de las personas en edad de trabajar en España
• Precipitación anual en la Comunidad de Madrid
Puede ser imposible (por falta de recursos) obtener la información
relativa a todos los individuos
Se estudia una muestra representativa de la población
• Un subconjunto de la población que permita obtener información
fiable sobre el total de dicha población
Cómo seleccionar una muestra
. Tamaño reducido
. Ausencia de sesgos
. Facilidad en la definición de la muestra
• Conclusiones obtenidas de la muestra son válidas para la población
Mejor alternativa: Muestras aleatorias simples
• Cada miembro de la población tiene la misma probabilidad de
pertenecer a la muestra
• La selección se realiza de manera independiente: La
selección de un individuo concreto no afecta a la probabilidad
de seleccionar cualquiera de los otros
• En la práctica, selección basada en números aleatorios
. Facilidad en la definición de la muestra
Planteamientos y objetivos
Estadística Descriptiva: la edad media de una muestra de 20 votantes
del PP es de 55 con desviación típica 5.
Modelo Probabilístico: La edad de un votante del PP sigue una
distribución normal N( , 2)
Inferencia: Predecimos que = 55. Rechazamos la posibilidad de que
< 50.
Inferencia
Partiendo de la distribución de la variable aleatoria en la
muestra
Obtener información sobre distribución de la variable en la
población
Valores de interés: cálculo de estadísticos para la media
varianza y proporciones
Ejemplo
Población compuesta por 24 individuos
Variable aleatoria de interés: Tiempo para completar una
consulta médica.
Datos en la Población 5,1 1,0 0,9 3,8 10,2 2,1 9,5 4,5
1,0 2,2 1,5 4,8 1,6 8,8 4,3 1,0
9,0 5,1 0,2 2,3 0,8 7,8 7,7 1,5
Promedio en la población: 4,0
Muestra 1
Muestra seleccionada, tamaño 7:
Muestra 3,8 9,5 4,8 1,6 0,2 0,8 1,5
Estadístico de interés: promedio de la muestra 3,1
Error (sesgo) relativo: (4,0 − 3,1)/4,0 = 0,225
Cambios en el muestreo
Selecciones alternativas de los elementos de la muestra
Aumento del tamaño de la muestra
Cambios en el tamaño muestral
Si a la muestra del ejemplo anterior le añadimos nuevos
elementos, el promedio muestral cambia
Se aproxima al valor de la media poblacional
A medida que aumentamos el tamaño de la muestra
el promedio muestral es más parecido al promedio de la
población
Ejemplo de muestreo
Si seleccionamos las primeras 7 observaciones obtenemos un
promedio de la muestra igual a 5,8:
Muestra 5,1 1,0 0,9 3,8 18,2 2,1 9,5
Si consideramos todas las selecciones posibles de 7
observaciones (346104 posibilidades)
Cada posible muestra de tamaño 7
tiene distinta media
La media es una variable
El valor promedio (la media) de todas ellas es 4, idéntico
al valor promedio de la población
Estadísticos y distribución muestral
Distintas muestras tienen
distintas medias. Antes de
obtener la muestra, la media es
una variable.
La media y varianza de la media
son
Si N es suficientemente grande,
la distribución de la media es
Normal
Para ver como varia la media de distintas muestras:
http://www.stat.tamu.edu/~west/ph/sampledist.html
Estadística Aplicada al Periodismo
El valor esperado de la media de la muestra es
la media de la población
Estimamos la media de la población a partir de la media de la
muestra
La variabilidad de la media muestral
La varianza de la media muestral nos dice si el error puede ser
grande o pequeño
El valor de la varianza decrece si n aumenta
Podemos reducir el error aumentando el tamaño de la muestra
Distribución de la media muestral
El teorema central del límite
Distribución de la media muestral
Si cumple ciertas condiciones
Dada una muestra aleatoria simple, de tamaño n, obtenida de una
variable aleatoria X, no necesariamente normal, con media y
varianza conocida, se cumple que
La distribución de la media muestral se parece a una distribución
Normal para muestras grandes
Estimadores puntuales
Usamos X como estimador de la media poblacional m.
Dada una muestra, el valor de la media es la estimación
de la media de la población m.
Buenas propiedades estadísticas: insesgado, eficiente,
etc.
Igualmente S2 (cuasivarianza) es un estimador razonable
de la varianza de la población.
Estimadores por intervalos
Queremos calcular un intervalo donde estemos bastante seguros de
que esté la media poblacional
Intervalo ancho: muy impreciso
Intervalo pequeño: más probabilidad de cometer un error.
Indicar un rango de valores entre los cuales tiene que estar el parámetro
con un cierto grado de confianza, es lo que se pretende con la creación
de un intervalo de confianza
Con los datos muestrales se calculan los extremos del intervalo que
cambiará con las distintas muestras
Interpretación
Si construimos muchos intervalos con el mismo método y el
mismo nivel de confianza del 95%, la probabilidad de que el
intervalo contenga al parámetro expresa la proporción de
intervalos que efectivamente incluyen al parámetro: 95 de los
100 construidos
Si hemos construido un solo intervalo de 95% de confianza, no es
correcto decir que la probabilidad de que esté m dentro, es de
95%.
Un intervalo de 95% de confianza para la media de
una población normal (varianza conocida)
Dada una muestra, x1,…xN, un intervalo de 95% de confianza para m es
¿De dónde viene 1.96?
¿Cómo sería un
intervalo de 90% de
confianza?
Ejemplos
1. En una muestra de 20 catalanes, su sueldo medio era de €
2000 mensuales. Suponiendo que la desviación típica de los
sueldos en Cataluña es de € 500, hallar un intervalo de 95% de
confianza para el sueldo medio en Cataluña.
2. En una muestra de 10 estudiantes universitarios, la altura
media era de 170cm. Suponiendo que la desviación típica de
las alturas de los españoles es de 5cm, hallar un intervalo de
99% de confianza para la altura media.
Un intervalo de 95% de confianza para una
proporción
Dada una muestra de tamaño N con proporción muestral p que es un caso
particular de media muestral
Ejemplos
3. En una muestra aleatoria de 100 votantes, 45 de ellos votaron al PSOE
en las últimas elecciones. Usar esta información para estimar la
proporción de los votantes en España que votaron al PSOE. Dar una
estimación puntual y un intervalo de confianza de 95%.
4. 20 personas en una muestra de 30 americanos están a favor de la
pena de muerte. Estimar la proporción de la población americana que
esté a favor y dar un intervalo de 90%.
Otros intervalos de confianza útiles
1. Un intervalo de 95% de confianza para la media de una población
normal (varianza desconocida)
2. Un intervalo de 95% de confianza para la diferencia de las medias de
dos poblaciones normales (varianzas conocidas)
3. Un intervalo de 95% de confianza para la diferencia de las medias de
dos poblaciones normales (varianzas desconocidas pero iguales)
4. Un intervalo de 95% de confianza para la diferencia de las medias de
dos poblaciones normales (varianzas desconocidas y no iguales)
top related