estimaciÓn - albergue de alojamientos de la uva · 2 tema 7: estimaciÓn por intervalos 7.1....
TRANSCRIPT
1
ESTIMACIÓN
TEMA 5: Estimación puntual I. Propiedades de los estimadores
TEMA 6: Estimación puntual II. Métodos de estimación puntual
TEMA 7: Estimación por intervalos
CONTRASTES DE HIPÓTESIS
TEMA 8: Contrastes paramétricos
TEMA 9: Contrastes no paramétricos
MODELOS DE REGRESIÓN
TEMA 10: Introducción a la Econometría
2
TEMA 7: ESTIMACIÓN POR INTERVALOS
7.1. Concepto de intervalo de confianza
7.2. Métodos de construcción de intervalos ⇒ 7.2.1. Método del pivote 7.2.2. Intervalos aproximados para E(X)
7.3. I.C. en una población normal ⇒ 7.3.1. I.C. para µ con varianza conocida 7.3.2. I.C. para µ con varianza desconocida 7.3.3. I.C. para la varianza
7.4. I.C. en dos poblaciones normales
MUESTRAS INDEPENDIENTES: 7.4.1. I.C. para µ1-µ2 (σ1,σ2 conocidas) 7.4.2. I.C. para µ1-µ2 (σ1=σ2 desconocidas) 7.4.3. I.C. para µ1-µ2 (σ1≠σ2 desconocidas) 7.4.4. I.C. para cociente de varianzas
MUESTRAS PAREADAS : I.C. para µ1-µ2
7.5. Intervalos de confianza para proporciones
3
POBLACIÓN/MODELO XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX MUESTRA
ANTECEDENTES Inferencia Estadística: Tenemos una muestra (x1,...,xn). A partir de ella
¿qué conclusiones podemos sacar del modelo que los genera?.
Ejemplo: Urna con bolas rojas/negras ⇒ ¿Inferencias sobre p=p(Roja)?
xxxx
Modelo: Xi=⎩⎨⎧
−→→
pp1Negraocurresi0
Rojaocurresi1 → v.a. i=1,…,n
Realización de la muestra: (x1,...,xn)=(1,1,0,1,0,…,0,1)⇒ ¿ p̂ ? ¿p<0.5?
Estimación puntual: proponer un valor plausible para el parámetro
desconocido, p, calculado como una función de la muestra,
p̂ = p̂ (X1,...,Xn).
4
7.1. CONCEPTO DE INTERVALO DE CONFIANZA
Objetivo: no proporcionar sólo una estimación puntual del parámetro p,
sino un rango de posibles valores para p, entre los cuales “confiamos” se hallará el verdadero valor del parámetro.
⇓ “más vale acertar aproximadamente que equivocarse completamente”
⇓ límite inferior: estimador “por defecto”
límite superior: estimador “por exceso”
⇓ ENCUESTAS
5
0.95
Definición:
Sea (X1,...,Xn) m.a.s. de una distribución F(x;θ)
p( )X,...,X(ˆ)X,...,X(ˆ n12n11 ϑ≤θ≤ϑ )=1-α
¡¡ [ 1ϑ̂ , 2ϑ̂ ] es aleatorio: depende de la muestra !!
Ejemplo: (X1,...,X50) m.a.s. de una distribución N(µ,σ) ⇒
n/
_Xσ
µ− → N(0,1)
-1.96 -1.96
Caso particular: σ=10 ⇒ 0.95=p(-1.96≤50/10
X µ− ≤1.96)=p(X -2.77≤µ≤X +2.77)
6
Interpretación:
El intervalo [X -2.77,X +2.77] es ALEATORIO: depende de la muestra
(X1,...,X50). Al cambiar la muestra (otro valor X ) cambiaría el intervalo.
Con una muestra concreta, (x1,...,x50), con su media muestral,
p.e. x =70 ⇒ intervalo numérico. 70±2.77= [67.23, 72.77] ¡contendrá o no a µ!
p.e. x =68 ⇒ intervalo numérico. 68±2.77= [65.23, 70.77] ¡contendrá o no a µ!
Esto nunca lo sabremos, pero tenemos un nivel de confianza grande, 95%,
en que lo contendrá.
¿Qué significa un nivel de confianza 0.95?
⇒ Si tomáramos todas las muestras de tamaño n=50 posibles y
construyéramos con cada una de ellas el intervalo [ x -2.77, x +2.77], el 95%
de estos intervalos contendría el verdadero valor de µ.
8
Confianza y precisión (poca longitud):
Aumentar el nivel de confianza ⇒ ampliar el intervalo (más probable
acertar apostando por un rango amplio de valores) ⇒ información
irrelevante pero certera ⇒ poca precisión.
mayor nivel confianza ⇔ menor precisión
menor nivel confianza ⇔ mayor precisión
Solución:
Fijar (1-α) y buscar I.C. longitud mínima
9
7.2. MÉTODOS DE CONSTRUCCIÓN DE INTERVALOS
7.2.1. Método del pivote ⇒ PIVOTE: T(X1,...,Xn;θ)
Función de la muestra y del parámetro θ
Continua y estrictamente monótona en θ
Distribución muestral conocida que no depende del parámetro
Fijado 1-α, encontrar a,b tales que: p( a≤ T(X1,...,Xn;θ) ≤ b ) = 1-α
y luego despejar θ ⇒ p( 1ϑ̂ (X1,...,Xn;a) ≤ θ ≤ 2ϑ̂ (X1,...,Xn;b) )= 1-α
¿Cómo elegir a y b? Para que el intervalo sea de longitud mínima
Si distribución de T simétrica, dejando α/2 a ambos lados
10
1-α α/2α/2
Ejemplo: (X1,...,Xn) m.a.s. de una N(µ,σ), con σ conocido ⇒ PIVOTE:
n/Xσ
µ− → N(0,1)
-zα/2 0 zα/2
1-α = p(-zα/2≤ n/Xσ
µ− ≤zα/2)=p(X -zα/2 nσ ≤µ≤X +zα/2 n
σ )
⇒ Intervalo de Confianza 100(1-α)%: X± zα/2 nσ ⇒ Simétrico, longitud =2 zα/2 n
σ
L depende de: (1) α ⇒ (1-α)↑ ⇒ zα/2↑ ⇒ más longitud ⇒ menos precisión
(2) n : si n aumenta ⇒ disminuye L ⇒mayor precisión
(3) σ : si σ aumenta ⇒ aumenta L
11
1-α
7.2.2. Intervalos aproximados para la media
Sea (X1,...,Xn) m.a.s. de X con E(Xi)=µ y Var(Xi)=σ2
Teorema central del límite: ⇒ )1,0(N~n/
Xn ∞→σ
µ−
1-α ≅ p(-zα/2≤ n/Xσ
µ−≤zα/2)=p(X -zα/2 n
σ≤µ≤X +zα/2 n
σ )
-zα/2 0 zα/2
I.C. aproximado para E(X) = [X - zα/2 nσ , X + zα/2 n
σ ]
Mejor cuanto mayor n y más simétrica la distribución de X
NOTA: si σ desconocida ⇒ sustituir por σ̂ consistente ⇒otra fuente de “error”
I.C. aproximado = [X - zα/2 nσ̂ , X + zα/2 n
σ̂ ] ¡ más impreciso que el anterior!
12
7.3. INT. CONFIANZA EN UNA POBLACIÓN NORMAL
(X1,...,Xn) m.a.s. de una distribución N(µ,σ)
7.3.1. Intervalo de confianza para µ con σ conocida
PIVOTE (I.b): n/
Xσ
µ− → N(0,1)
[X - zα/2 nσ
, X + zα/2 nσ
] = (X ± zα/2 nσ )
Simétrico respecto a X con margen de error E=zα/2 nσ
Determinación del tamaño de la muestra ⇒ n = 2E
2α/2z 2σ
13
1-α α/2α/2
7.3.2. Intervalo de confianza para µ con σ desconocida
PIVOTE (I.c): n/
X
cSµ− → tn-1, con Sc = ∑
=−
−n 2
i1i
)( XX1n1
-tα/2 0 tα/2
1-α = p(-t α/2≤ n/XcS
µ−≤t α/2)=p(X -t α/2 n
cS≤µ≤X +t α/2 n
cS ) ⇒ X ± tα/2 ncS
Simétrico respecto a X con margen de error E= tα/2 ncS
Determinación del tamaño de la muestra n = 2
2α/2
E2cSt
14
Ejemplo: Peña (2001, p. 326)
El director de una empresa ha anunciado que el
año pasado los salarios crecieron un promedio del
3.5%. Un grupo de trabajadoras toma una muestra
de los incrementos salariales que han recibido 11
mujeres obteniendo los siguientes datos:
3%,3%,5%,1%,1%,2%,1%,1%,5%,2%,2%.
Intervalo de confianza para el aumento salarial
medio de las mujeres de esta empresa.
Datos: n=11; X =2,36; Sc = ∑ −=−
n2
i1i
)( XX1n
1 =1,5
(1-α)x100=90% ⇒ t α/2 = t10,0.95 =1,812
µ ∈ [2,36 ± 1,1211
1,5 ] = [2,36 ± 0.51] ⇒ [1.85; 2.87]
No incluye el valor 3,5% entre los “más” probables
(1-α)x100=95% ⇒ t α/2 = t10,0.975 =2,228
µ ∈ [2,36 ± 2,22811
1,5 ] = [2,36 ± 1.01] ⇒ [1.35; 3.37]
No incluye el valor 3,5% entre los “más” probables
15
1-α α/2α/2
7.3.4. Intervalo de confianza para la varianza σ2
PIVOTE (I.d): 2XS2
nσ → 2
1-nχ , con 2XS =
n
XXn
2i
1i)(∑ −
=
a b
p(a ≤ 2XS2
nσ ≤ b)= p( 2
XSbn ≤ σ2 ≤ 2
XSan
)= 1-α
16
1-α α/2α/2
7.4. INT. CONFIANZA DOS POBLACIONES NORMALES
MUESTRAS INDEPENDIENTES
X11,...,X1n1 m.a.s. de una X1 ~N(µ1,σ1) independientes X21,...,X2n2 m.a.s. de una X2 ~N(µ2,σ2) 7.4.1. Intervalo de confianza para µ1-µ2 (σ1,σ2 conocidas)
-zα/2 0 zα/2
)z
nn
)()XX(z(p122
2
22
1
21
2121αα ≤
σ+
σµ−µ−−
≤−=α− ⇒ (µ1-µ2)∈ ⎥⎦
⎤⎢⎣
⎡ σ+
σ±− α
2
22
1
2121
nnz)X 2X(
PIVOTE (II.a): )1,0(N
nn
)()XX(
2
22
1
21
2121 →σ
+σ
µ−µ−−
17
7.4.2. Intervalo de confianza para µ1-µ2 (σ1=σ2)
PIVOTE (II.b): 2nnt
nn2nn
SnSn)()XX(
21
21
222
211
2121
2111XX
−+→
+−+
+
µ−µ−−
⎥⎥⎦
⎤
⎢⎢⎣
⎡
−++
±−∈µ−µ +α21 nn
112nn
SnSnt)XX()(
21
2X2
2X1
2/212121
7.4.3. Intervalo de confianza para µ1-µ2 (σ1≠σ2)
PIVOTE (II.c): υ→
+
µ−µ−−t
n
S
n
S)()XX(
2
22C
1
21C
2121 ~ N(0,1) si n1,n2 grandes
(µ1-µ2)∈ ⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
+±− α21221 n
Sn
St)XX(
2C
2C 21
18
RESUMEN: Intervalo de confianza para µ1-µ2 (MUESTRAS INDEPENDIENTES)
7.4.1. Con σ1,σ2 conocidas)
(µ1 - µ2) ∈⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡ σ+
σ±− α
2
22
1
21
nnz)XX 2/21(
7.4.2. Con σ1=σ2 desconocidas
⎥⎥⎦
⎤
⎢⎢⎣
⎡
−++
±−∈µ−µ +α21 nn
112nn
SnSnt)XX()(
21
2X2
2X1
2/212121
7.4.3. Con σ1≠σ2 desconocidas
(µ1 - µ2) ∈ ⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
+±− α21221 n
Sn
St)XX(
2C
2C 21
19
Ejemplo: (Newbold, 1998, pp. 263-264)
Para una muestra de 96 fumadores, el nº medio
de horas mensuales de absentismo laboral fue
de 2,15 con una desviación típica de 2,09 horas
al mes. En una muestra independiente de 206 no
fumadores resultó una media de 1,69 horas con
una desviación típica de 1,91 horas al mes.
I.C. al 99% para la diferencia de medias
Datos:
Fumadores: 1X =2.15, n1=96, S1=2.09, Sc1=2.101
No fumadores: 2X =1.69, n2=206, S2=1.91, Sc2=1.915
n1,n2 grandes ⇒ tυ~ N(0,1) ⇒ tα/2≅z0.005=2.575
VARIANZAS DISTINTAS:
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
+±−20696
2,5751,69)(2,1522 1,9152,101 ⇒ [-0.19, 1.11]
VARIANZAS IGUALES:
⎥⎦
⎤⎢⎣
⎡−+
+±− + 20696
11220696
206x1.9196x2.092,5751.69)(2.1522
⇒ [-0.27, 0.99] ⇒ El valor µ1-µ2=0 ∈ intervalos
20
1-αα/2α/2
7.4.4. Intervalo de confianza para 22
21 σσ /
PIVOTE (II.d):
1n,1nFS
S212
1
22
22C
21C
−−→σ
σ
a b
⎟⎟⎠
⎞⎜⎜⎝
⎛≤
σσ
≤=⎟⎟⎠
⎞⎜⎜⎝
⎛≤
σσ
≤=α− 2C
2C
22
21
2C
2C
21
22
2C
2C
2
1
2
1
2
1
SS
a1
SS
b1pb
SS
ap1
21
DATOS PAREADOS
(X1,Y1)...(Xn,Yn) m.a.s. de Normal bidimensional ⎟⎠⎞⎜
⎝⎛
ii
YX →N2 ⎟
⎠
⎞⎜⎝
⎛⎟⎠⎞
⎜⎝⎛
σσρσσρσσ
⎟⎠⎞⎜
⎝⎛µµ
2221
2121
2
1
donde E(Xi)=µ1, E(Yi)=µ2, Var(Xi)= 21σ , Var(Yi)= 2
2σ
7.3.2.5. Intervalo de confianza para µ1-µ2
Diferencias ⇒ Di=Xi-Yi → N(µD,σD), con µD=µ1-µ2
Una sóla muestra D1,D2,...,Dn de una N(µD,σD)
⇒ Intervalo de Confianza para µD ⇒ PIVOTE (I.c): n/
D
D
D
Sµ− → tn-1
1-α = p(-t α/2≤n/
D
D
D
Sµ− ≤t α/2)=p(D∈D±t α/2 n
DS ), donde n
n
i1iD
D∑
= = y SD = 1n
n2
i1i
)DD(
−
∑ −=
22
Ejemplo: (Casas, 1996, pp. 248-249) Datos del consumo de gasolina por 1000 km de una muestra aleatoria de 9 cohes con dos carburantes X e Y. Suponiendo normalidad para los consumos, hallar intervalo de confianza al 99% para la diferencia de medias.
Coche Xi Yi Di= Xi-Yi 1 2 3 4 5 6 7 8 9
132 139 126 114 122 132 142 119 126
124 141 118 116 114 132 145 123 121
8 -2 8 -2 8 0 -3 -4 5
∑==
n
i1iDD
n1 =2; SD = ∑ −
=−
n2
i1i
)DD(1n
1 =5.17
(1-α)x100=99% ⇒ t n-1, α/2 = t8,0.005 =3.355
[2 - 3.355x9
5,17 , 2 + 3.355x9
5,17 ]=[-3.781, 7.781]
Al 95% ⇒ t α/2 = t8,0.075 =2.306
[2 – 2.306x9
5,17 , 2 + 2.306x9
5,17 ]=[-1.974, 5.974]
23
7.4. INTERVALOS DE CONFIANZA PARA PROPORCIONES 7.4.1. Intervalo de confianza (aproximado) para la proporción p
Sea X1,..., Xn m.a.s de una Bernoulli b(p) ⇒ Xi=⎩⎨⎧
−→→
pp1)fracaso(Aocurresi0
)éxito(Aocurresi1
p̂ =_X =
n
Xn
1i i∑= = proporción “muestral” de éxitos
Teorema Central límite: )1,0(N)1(
ˆn ~∞→−
−
npp
pp
Difícil despejar p: ⇒ Sustituimos por estimador p̂ =_X consistente
)1,0(~)ˆ1(ˆ
ˆN
npp
ppn ∞→−
−
1-α=⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛
≤−−
≤ α/2zα/2z-
npp
ppp)ˆ1(ˆ
ˆ = ⎟⎠
⎞⎜⎝
⎛ −+≤≤
−n
ppppn
pppp )ˆ1(ˆˆ)ˆ1(ˆˆ α/2α/2 zz- ⇒ n
ppp )ˆ1(ˆˆ −± α/2z
24
Determinación del tamaño de la muestra Determinar el tamaño muestral n para tener una precisión determinada
nppp )ˆ1(ˆˆ −
± α/2z
Es un intervalo de la forma p̂ ±E ⇒ centrado en p̂ y simétrico con un margen de error ±E:
E = npp )ˆ1(ˆ −
α/2z ⇒ n= 2
2α/2
Ez )X1(X −
El máximo de X (1-X ) es 1/4 que corresponde a p̂=1- p̂=0.5 (hipótesis más desfavorable de máxima indeterminación p=q=0.5)
⇒ n= 2
2α/2
Ez4
25
Ejemplo:
En un determinado país se celebrarán próximamente elecciones
generales y sólo se presentarán dos candidaturas A y B. Un mes antes
de las elecciones se ha realizado una encuesta de intención de voto a
100 individuos y se han obtenido los siguientes resultados: el 42%
prefiere al candidato A, el 50% prefiere a B y el 8% no contesta.
(a) Hallar un I.C: para la proporción de individuos que votarán A (95%).
(b) Si se hubieran hecho 4000 entrevistas y los % de resultados
hubieran sido los mismos, ¿cuál habría sido el I.C.?
(c) ¿Cuál debería ser el tamaño muestral necesario para poder estimar
con una precisión de ±1% y una fiabilidad del 95%?
26
7.4.2. Intervalo de confianza para la diferencia de proporciones
(X1,...,Xn1) m.a.s de b(p1)
(X1,...,Xn2) m.a.s de b(p2)
Teorema Central límite: 1p̂ ))1(,(N1
111~n n
ppp −∞→ ; 2p̂ ))1(,(N
2
222~n n
ppp −∞→
Independientes ⇓
21 ˆˆ pp − ))1()1(,(N~ 22
1
1121n 2n
ppn
ppp-p −+
−∞→
Difícil despejar p1-p2: ⇒ Sustituimos p1, p2 por estimadores consistentes
PIVOTE: )1,0(N
)ˆ1(ˆ)ˆ1(ˆ)()ˆˆ(
2
22
1
11
2121 →−
+−
−−−
npp
npp
pppp
⇒ (p1–p2)∈ ⎥⎦
⎤⎢⎣
⎡ −+
−±−
21 npp
npppp )ˆ1(ˆ)ˆ1(ˆ
)2ˆ1̂( 2211α/2z
independientes