versión clase

40
Tema 1. Inferencia estad´ ıstica para una poblaci´on Contenidos I Inferencia estad´ ıstica I Estimadores puntuales I Estimaci´ on de la media y la varianza de una poblaci´ on I Estimaci´ on de la media de la poblaci´ on mediante intervalos de confianza I Intervalos de confianza para la media de una poblaci´ on normal con varianza conocida I Intervalos de confianza para la media en muestras grandes I Intervalos de confianza para la proporci´ on en una poblaci´ on I Intervalos de confianza para la media de una poblaci´ on normal con varianza desconocida I Estimaci´ on de la varianza de la poblaci´ on mediante intervalos de confianza I Intervalos de confianza para la varianza de una poblaci´ on normal

Upload: phamnhi

Post on 11-Feb-2017

228 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: versión clase

Tema 1. Inferencia estadıstica para una poblacion

Contenidos

I Inferencia estadıstica

I Estimadores puntualesI Estimacion de la media y la varianza de una poblacion

I Estimacion de la media de la poblacion mediante intervalos deconfianza

I Intervalos de confianza para la media de una poblacion normal convarianza conocida

I Intervalos de confianza para la media en muestras grandesI Intervalos de confianza para la proporcion en una poblacion

I Intervalos de confianza para la media de una poblacion normal convarianza desconocida

I Estimacion de la varianza de la poblacion mediante intervalos deconfianza

I Intervalos de confianza para la varianza de una poblacion normal

Page 2: versión clase

Tema 1. Inferencia estadıstica para una poblacion

Objetivos de aprendizajeAl final de este tema debieras ser capaz de:

I Estimar parametros de la poblacion desconocidos a partir de datosmuestrales

I Construir intervalos de confianza para los parametros de la poblaciondesconocidos a partir de datos muestrales:

I En el caso de una distribucion normal: intervalos de confianza para lamedia y la varianza de la poblacion

I En muestras grandes: intervalos de confianza para la media de lapoblacion y la proporcion

I Interpretar el significado de un intervalo de confianza

I Entender el efecto del tamano muestral, el nivel de confianza, etcsobre la longitud del intervalo de confianza

I Calcular un tamano muestral necesario para controlar la longitud deun intervalo de confianza

Page 3: versión clase

Tema 1. Inferencia estadıstica para una poblacion

ReferenciasI Newbold, P. “Estadıstica para Administracion y Economıa”

I Capıtulos 7 y 8 (8.1-8.6)

I Ross, S. “Introduccion a la Estadıstica”I Capıtulo 8

Page 4: versión clase

Inferencia Estadıstica: palabras clave (i)

I Poblacion: el conjunto de toda la informacion numerica relativa auna cantidad de interes.

I Identificaremos el concepto de poblacion con el de una variablealeatoria X .

I La ley o distribucion de la poblacion es la distribucion de X , FX .

I Muestra: un subconjunto observado (por ejemplo, de tamano n) devalores de la poblacion.

I Representada como una coleccion de n variables aleatoriasX1,X2, . . . ,Xn, tıpicamente

iid (independientes e identicamente distribuidas) .

I Parametro: una constante que caracteriza a X o FX .

Page 5: versión clase

Inferencia Estadıstica: palabras clave (ii)

I Inferencia estadıstica: el proceso mediante el que se llega aconclusiones sobre una poblacion a partir de las medidas o lasobservaciones realizadas sobre una muestra de individuos de lapoblacion.

I Estadıstico: una variable aleatoria definida como una funcion de unamuestra aleatoria, Y = f (X1,X2, . . . ,Xn)

I Estimador de un parametro: una variable aleatoria, por ejemplo T ,funcion de una muestra aleatoria, T = T (X1,X2, . . . ,Xn), que seemplea para aproximar (estimar) el valor de un parametro de lapoblacion desconocido.

I Estimacion: una realizacion concreta del estimador, por ejemplo T ,correspondiente a una muestra observada, x1, x2, . . . , xn, y queproporciona una aproximacion al valor del parametro de interes.

Page 6: versión clase

Inferencia estadıstica: ejemplo

Queremos conocer Tenemos n copias Tenemos nµX = E[X ] de X valores observados de

X1, X2, . . . , Xn

X1, X2, . . . , Xn ∼ F x1, x2, . . . , xn

X ∼ F ⇒ Muestra ⇒ Muestra observada

⇓ ⇓ ⇓Estimador de µX (variable aleatoria) Estimacion de µX (un numero)

µX = E[X ] ⇐ X ⇐ xValor esperado de X Media muestral Media muestral

Page 7: versión clase

Estimadores puntuales: introduccion

I Un estimador puntual de un parametro de una poblacion es unafuncion, por ejemplo T , de la informacion muestralX n = (X1, . . . ,Xn) que toma un valor numerico.

I Ejemplos de parametros de poblaciones, estimadores y estimaciones:

Parametro Estimador: Estimacion:poblacion T (X n) notacion notacion

Media pobl. µX media muestralX1+...+Xn

n X = µX xProp. pobl. pX prop. muestral pX px

Var. pobl. σ2X var. muestral

Pi X2

i −n(X )2

n σ2X σ2

x

Var. pobl. σ2X quasi var. muestral

Pi X2

i −n(X )2

n−1 = nn−1 σ

2X s2

X s2x

. . . . . . . . . . . .

En general, θX . . . θX θx

Page 8: versión clase

Estimadores puntuales: propiedades (i)

¿Que caracterısticas querrıamos que tuviese un estimador?

I Ausencia de sesgo. Esta propiedad se da cuando un estimador tienesesgo igual a cero. ¿Que es el sesgo? El sesgo es la diferencia entreel valor esperado del estimador y el valor del parametro de interes.

Sesgo[θX ] = E[θX ]− θX

Poblacion Estimador Estimador insesgadoparametro T (X n) Sesgo Insesgado? de mınima varianza?

Media pobl. µX X E[X ]− µX = 0 Sı Sı, si X normalProp. pobl. pX pX E[pX ]− pX = 0 Sı Sı

Var. pobl. σ2X σ2

X E[σ2X ]− σ2

X 6= 0 No No

Var. pobl. σ2X s2

X E[s2X ]− σ2

X = 0 Sı Sı, si X normal

En general, θX θX E[θX ]− θX A menudo Rara vez

Page 9: versión clase

Estimadores puntuales: propiedades (ii)

I Eficiencia. Se mide por la varianza del estimador. Un estimador conmenos varianza es mas eficiente.

I La eficiencia relativa de dos estimadores insesgados θX ,1 y θX ,2 paraun parametro θX se define como

Eficiencia relativa(θX ,1, θX ,2) =Var[θX ,1]

Var[θX ,2]

Nota:I En algunos casos se emplea la definicion inversa.I En todo caso, un estimador con menor varianza es mas eficiente.

Page 10: versión clase

Estimadores puntuales: propiedades (iii)

I Un criterio mas general para seleccionar estimadores (incluyendoestimadores insesgados y sesgados) es el error cuadratico medio,definido como

ECM[θX ] = E[(θX − θX )2] = Var[θX ] + (Sesgo[θX ])2

Nota:I El error cuadratico medio de un estimador insesgado es igual a su

varianza.I Un estimador con menor ECM es mejor.I El estimador insesgado de mınima varianza tiene la menor

varianza/ECM entre todos los estimadores.

I Como encontrar una buena definicion para un estimador T?I En algunos casos se conoce un estimador optimo: estimador

insesgado de mınima varianzaI Si no es ası, existen distintos metodos de construccion de

estimadores que proporcionan resultados razonables, por ejemplo:I Estimacion maximo verosımilI Metodo de momentos

Page 11: versión clase

Estimacion puntual: ejemplo

Ejemplo: 7.1 (Newbold) Las ratios precio-beneficio para una muestraaleatoria de diez acciones negociadas en la bolsa de NY en un dıaconcreto fueron

10 16 5 10 12 8 4 6 5 4

Emplee un procedimiento de estimacion insesgado para obtenerestimaciones puntuales para los siguientes parametros de la poblacion:media, varianza, proporcion de valores que exceden 8.5.

x =80

10= 8

s2x =

782− 10(8)2

10− 1= 15,78

px =1 + 1 + 0 + 1 + 1 + 0 + 0 + 0 + 0 + 0

10= 0,4

Page 12: versión clase

Estimacion puntual: ejemplo

Ejemplo: Sea µX = 2n(n+1)

(X1 + 2X2 + . . .+ nXn) un estimador de la media dela poblacion basado en una MAS X n. Compare este estimador con la mediamuestral, X .

Sabemos que X es un estimador insesgado de µX , con varianzaσ2

Xn

.µX tambien es insesgado:

E[µX ] = E

"2

n(n + 1)(X1 + 2X2 + . . . + nXn)

#

=2

n(n + 1)(E[X1] + 2E[X2] + . . . + nE[Xn ])

=id

2

n(n + 1)(µX + 2µX + . . . + nµX )

=2µX

n(n + 1)

n(n+1)/2z }| {(1 + 2 + . . . + n) = µX

⇒ Sesgo[µX ] = 0

Y su varianza/ECM es:

V[µX ] = V

"2

n(n + 1)(X1 + 2X2 + . . . + nXn)

#

=indep.

2

n(n + 1)

!2(V[X1] + 22V[X2] + . . . + n2V[Xn ])

=id

4

n2(n + 1)2σ

2X

n(n+1)(2n+1)/6z }| {(12 + 22 + . . . + n2)

=2(2n + 1)

3n(n + 1)σ

2X

ECM[µX ] = V[µX ] + 02 =2(2n + 1)

3n(n + 1)σ

2X

Eficiencia relativa(X , µX ) =σ2

X/n2(2n+1)3n(n+1)

σ2X

=3(n + 1)

2(2n + 1)

Puede verse que para n ≥ 2 este cociente es menor que 1, y por tanto X es un

estimador mas eficiente para µX .

Page 13: versión clase

De estimaciones puntuales a estimacion por intervalos deconfianza

I Hasta ahora hemos considerado la estimacion puntual de unparametro desconocido de una poblacion que, partiendo de unaMAS de n observaciones de X , proporciona una aproximacionrazonable para ese parametro desconocido.

I Una estimacion puntual no tiene en cuenta la variabilidad delproceso de estimacion, debida entre otras causas a:

I El tamano muestral - una muestra mayor debiera proporcionar unainformacion mas precisa sobre el parametro de la poblacion.

I Variabilidad en la poblacion - una muestra de una poblacion conmenos varianza debiera proporcionar estimaciones mas precisas

I Que se conozcan otros parametros de la poblacion.I etc

Estas limitaciones pueden tratarse mediante el uso de estimaciones porintervalos de confianza, esto es, un metodo que proporciona un intervalode valores al que es probable que pertenezca el valor del parametro.

Page 14: versión clase

Estimadores por intervalos de confianza e intervalos deconfianza

Sea X n = (X1,X2, . . . ,Xn) una MAS de una poblacion X con funcion dedistribucion FX que depende de un parametro desconocido θ.Un estimador por intervalos de confianza de θ con un nivel de confianza(1− α) = 100(1− α) % es un intervalo (T1(X n),T2(X n)) que satisface

P (θ ∈ (T1(X n),T2(X n)) = 1− α

Interpretacion: tenemos una probabilidad (1− α) de que el parametrodesconocido de la poblacion pertenecera a (T1(X n),T2(X n)).Un intervalo de confianza para θ con un nivel de confianza 1− α es elvalor observado del estimador por intervalos de confianza,

(T1(xn),T2(xn))

Interpretacion: podemos tener una confianza de (1− α) de que el valordel parametro desconocido de la poblacion estara en (T1(xn),T2(xn)).Niveles de confianza habituales

α 0.01 0.05 0.10100(1− α) % 99 % 95 % 90 %

Page 15: versión clase

Obteniendo un estimador por intervalos de confianza:procedimiento

1. Se busca una cantidad (aleatoria) relacionada con el parametrodesconocido θ y con la muestra X n, C (X n, θ), cuya distribucion seaconocida y no dependa del valor del parametro - esta cantidad seconoce como la cantidad pivotal o el pivote para θ

2. Se pueden usar los cuantiles 1− α/2 y α/2 de esa distribucion, y ladefinicion del estimador por intervalos de confianza, para plantear laecuacion

P(

doble desigualdad︷ ︸︸ ︷1− α/2 cuantil<C (X n, θ)<α/2 cuantil) = 1− α.

3. Para obtener los extremos del estimador por intervalo de confianza,T1(X n) y T2(X n), se resuelve la doble desigualdad en θ.

4. El intervalo de confianza al 100(1−α) % para θ es (T1(xn),T2(xn)).

Page 16: versión clase

Intervalo de confianza para la media de la poblacion,poblacion normal con varianza conocida

1. Sea X n una MAS de tamano n obtenida de X . Bajo los supuestos:I X sigue una distribucion normal con parametros µX y σ2

X

I σ2X es conocida (muy poco realista)

2. La cantidad pivotal para µX es:

X − µX

σ/√

n∼ N(0, 1)

Nota: la desviacion tıpica de X , σX/√

n, (o de cualquier otroestadıstico) se conoce como su error estandar

Page 17: versión clase

Intervalo de confianza para la media de la poblacion,poblacion normal con varianza conocida

3. Si z1−α/2 y zα/2 son los cuantilessuperiores (1− α/2) y (α/2) dela distribucion N(0, 1), tenemos

P(z1−α/2 < Z < zα/2) = 1− α

Densidad normal estandarSi Z ∼ N(0, 1) entoncesE[Z ] = 0, V[Z ] = 1

1 − αα2

α2

● ●

z1−α2

= − zα2

zα2

4. Se tiene que P(

−zα/2︷ ︸︸ ︷z1−α/2 <

Z︷ ︸︸ ︷X − µX

σX/√

n< zα/2) = 1− α

Page 18: versión clase

Intervalo de confianza para la media de la poblacion,poblacion normal con varianza conocida

5. Resolvemos la doble desigualdad para µX :

−zα/2 < X−µXσX /√

n< zα/2

−zα/2σX√

n< X − µX < zα/2

σX√n

−zα/2σX√

n− X < −µX < −X + zα/2

σX√n

zα/2σX√

n+ X > µX > X − zα/2

σX√n

para obtener el estimador por intervalos de confianza

(

T1(X n)z }| {X − zα/2

σX√n,

T2(X n)z }| {X + zα/2

σX√n

)

6. El intervalo de confianza es:

IC1−α(µX ) =

„x − zα/2

σX√n, x − zα/2

σX√n

«=

„x ∓ zα/2

σX√n

«

Page 19: versión clase

Ejemplo: calculo de un intervalo de confianza para µXEjemplo: 8.2 (Newbold) Un proceso industrial produce bolsas de azucarrefinado. Los pesos de las bolsas siguen una distribucion normal con desviaciontıpica igual a 12 g. Una muestra aleatoria de venticinco bolsas tiene un pesopromedio de 198 g. Encuentre un intervalo de confianza al 95 % para el pesopromedio en la poblacion de las bolsas de azucar fabricadas con este proceso.

Poblacion:X = ”peso de una bolsa (en g)”X ∼ N(µX , σ

2X = 122)

' MAS: n = 25

Muestra: x = 198

Area= 0.025

z0.025 = 1.96

Objetivo: IC0,95(µX ) =“x ∓ zα/2

σX√n

”σX = 12

n = 25 x = 198

1− α = 0,95 ⇒ α/2 = 0,025

zα/2 = z0,025 = 1,96

IC0,95(µX ) =

„198∓ 1,96

12√25

«= (198∓ 4,7)

= (193,3, 202,7)

Interpretacion: Podemos tener unaconfianza del 95 % de que µX

esta en (193,3, 202,7)

Page 20: versión clase

Interpretacion frecuentista del IC: nivel de confianza

En este ejemplo simulado se han generado 150 muestras de tamano n = 50, de

una distribucion X ∼ N(µX = −5, σ2X = 12) y se construyeron 150 IC1−α(µX )

con α = 0,1 y otros 150 intervalos con α = 0,01.µX esta en aprox. 150(0,9) = 135 interv.

(pero no en 150(0,1) = 15)

(1− α) = 0,9, n = 50

−6.0 −5.5 −5.0 −4.5 −4.0

050

100

150

Intervalo de confianza

Indi

ce

| | || |||| || ||| || ||||||| | || ||| | |||| ||| || || || | ||| || || ||| || | | || || |||| | || || ||| || | || || || || | || | ||| ||||

|| | || || | || | ||| | ||| ||| || | ||| || | |||| || || | || | |||| | |||| || ||

µX esta en aprox. 150(0,99) = 148,5 interv.(pero no en 150(0,01) = 1,5)

(1− α) = 0,99, n = 50

−6.0 −5.5 −5.0 −4.5 −4.00

5010

015

0Intervalo de confianza

Indi

ce| | || |||| || ||| || |||

|||| | || ||| | |||| ||| || || || | ||| || || ||| || | | || || |||| | || || ||| || | || || || || | || | ||| |||||| | || || | || | ||| | ||| ||| || | ||| || | |||| || || | || | |||| | |||| || ||

La longitud del intervalo, L = x +zα/2σ√

n−“x − zα/2σX√

n

”= 2

zα/2σX√n

, aumenta

al aumentar el nivel de confianza (a igualdad de otros valores). ¿Por que?

Page 21: versión clase

Interpretacion frecuentista del IC: tamano muestralConstruimos ahora 150 muestras de tamano n = 50 y otras 150 de tamano

n = 200, de una distribucion X ∼ N(µX = −5, σ2X = 12) .

µX en aprox. 150(0,9) = 135 interv.(pero no en 150(0,1) = 15)

(1− α) = 0,9, n = 50

−6.0 −5.5 −5.0 −4.5 −4.0

050

100

150

Intervalo de confianza

Indi

ce

| | || |||| || ||| || ||||||| | || ||| | |||| ||| || || || | ||| || || ||| || | | || || |||| | || || ||| || | || || || || | || | ||| ||||

|| | || || | || | ||| | ||| ||| || | ||| || | |||| || || | || | |||| | |||| || ||

µX en aprox. 150(0,9) = 135 interv.(pero no en 150(0,1) = 15)

(1− α) = 0,9, n = 200

−6.0 −5.5 −5.0 −4.5 −4.0

050

100

150

Intervalo de confianzaIn

dice

| | ||| || || ||| |||| |||

| | ||||||| || ||| || |||

|| ||| || || | ||| | | || || | ||||| | |||||||| || | || || || | || ||| || | ||| | || | |||

|| ||| || ||| | || || | ||| |||| |||| | ||| ||| || | ||| | || || ||||

|

La longitud de los intervalos decrece cuando el tamano muestral aumenta(suponiendo que los demas valores no cambien). ¿Por que?

Pregunta: ¿Cual es el efecto del valor de σ sobre la longitud?

Page 22: versión clase

Ejemplo: estimacion del tamano muestralEjemplo: 8.14 (Newbold) La longitud de las barras de acero fabricadas en unproceso industrial siguen una distribucion normal con desviacion tıpica 1.8 mm.El encargado del proceso desea obtener un intervalo de confianza al 99 % paradicha longitud, con un tamano menor o igual a 0.5 mm a cada lado de la mediamuestral. ¿Que tamano muestral serıa necesario para tener esta propiedad?

Poblacion:X = “longitud de la barra (en mm)”X ∼ N(µX , σ

2X = 1,82)

' MAS: n =?

IC0,99(µX ):

longitudz }| {2zα/2σ√

n≤ 2(0,5) = 1

Area= 0.005

z0.005 = 2.575

Objetivo: n tal que longitud IC ≤ 1

2zα/2σ√

n≤ 1

√n ≥ 2zα/2σ

n ≥ 22z2α/2σ

2

n ≥ (22)(2,5752)(1,82)

= 85,93

Para satisfacer la peticion delencargado se necesitarıa unamuestra de tamano al menosigual a 86 observaciones.

Page 23: versión clase

Intervalo de confianza para la media de la poblacion enmuestras grandes

1. Sea X n una MAS de tamano n de X . Bajo las hipotesis:I X sigue una distribucion (no necesariamente normal) con parametrosµX y σ2

X

I el tamano muestral n es grande (n ≥ 30)

2. La cantidad pivotal para µX basada en el Teorema Central delLımite es

X − µX

σX/√

n∼approx. N(0, 1)

Page 24: versión clase

Intervalo de confianza para la media de la poblacion enmuestras grandes

3. Por tanto, si z1−α/2 y zα/2 sonlos cuantiles superiores (1− α/2)y (α/2) de N(0, 1), tenemos

P(z1−α/2 < Z < zα/2) = 1− α

Densidad normal estandar1 − α

α2

α2

● ●

z1−α2

= − zα2

zα2

4. Imponemos la condicion P(

−zα/2︷ ︸︸ ︷z1−α/2 <

Z︷ ︸︸ ︷X − µX

σX/√

n< zα/2) = 1− α

Page 25: versión clase

Intervalo de confianza para la media de la poblacion enmuestras grandes

5. Resolvemos la doble desigualdad para µX :

−zα/2 <X − µX

σX/√

n< zα/2

para obtener el estimador por intervalos de confianza

(

T1(X n)︷ ︸︸ ︷X − zα/2

σX√n,

T2(X n)︷ ︸︸ ︷X + zα/2

σX√n

)

6. El intervalo de confianza es:

IC1−α(µX ) = (x − zα/2σx√n, x + zα/2

σx√n

)

Page 26: versión clase

Intervalo de confianza para la proporcion en la poblacionen muestras grandes

Aplicacion de ICs para la media en muestras grandesSea X n, n ≥ 30, una MAS de una distr. Bernoulli con parametro pX

(µX = E[X ] = pX y σX =√

pX (1− pX )). La proporcion muestral pX esun caso especial de media muestral con observaciones cero-uno, pX = X .

Por tanto, del TCL,

pX − pX√p(1− p)/n︸ ︷︷ ︸σX/√

n

∼approx. N(0, 1) Este resultado sigue siendo

valido si la desviacion tıpica de lapoblacion se estima (no se conoce)

pX − pXpp(1− p)/

√n| {z }

σX/√

n

∼approx. N(0, 1)

En muestras grandes, el intervalo de confianza para pX es:

IC1−α(pX ) =

(px − zα/2

√px(1− px)

n, px + zα/2

√px(1− px)

n

)

Page 27: versión clase

Ejemplo: calculo de un intervalo de confianza para pX

Ejemplo: 8.6 (Newbold) A una muestra aleatoria de 344 ejecutivos de compras se les realizo lapregunta “¿Cual es la polıtica de su empresa en relacion con los regalos que su personal decompras pueda recibir de sus proveedores?” 83 de estos ejecutivos respondieron que cadaempleado podıa tomar su propia decision. Calcule un intervalo de confianza al 90 % para laproporcion en la poblacion de los ejecutivos que dan libertad sobre estos regalos a sus empleados.

Poblacion:X = 1 si un ejecutivo permite tomardecisiones a su personal y 0 en otro casoX ∼ Bernoulli(pX )

' MAS: n = 344 grande

Muestra: px = 83344 = 0,241

Area= 0.05

z0.05 = 1.645

Objetivo: IC0,9(pX ) =

px ∓ zα/2

rpx (1−px )

n

!

px = 0,241 n = 344

1 − α = 0,9 ⇒ α/2 = 0,05

zα/2 = z0,05 = 1,645

IC0,9(pX ) =

0@0,241 ∓ 1,645

s0,241(1 − 0,241)

344

1A= (0,241 ∓ 0,038)

= (0,203, 0,279)

Interpretacion: Podemos tener una confianzadel 90 % de que la proporcion de ejecutivosque permiten tomar sus propias decisiones asus empleados, pX , esta en (0,203, 0,279)

Page 28: versión clase

Intervalo de confianza para la media de la poblacion:poblacion normal con varianza desconocida

1. Sea X n una MAS de tamano n de X . Bajo las hipotesis:I X sigue una distribucion normal con parametros µX y σ2

X

I σ2X es desconocida (muy realista)

2. La cantidad pivotal para µX es

X − µX

sX/√

n∼ tn−1

Page 29: versión clase

Intervalo de confianza para la media de la poblacion:poblacion normal con varianza desconocida

3. Si tn−1;1−α/2 y tn−1;α/2 son los cuantilessuperiores (1− α/2) y (α/2) de unadistribucion t de Student con n − 1 gradosde libertad (gl), tenemos

P(tn−1;1−α/2 <

∼ tn−1z}|{T < tn−1;α/2) = 1− α

Densidad t de Student Recuerda: si T ∼ tn, E[T ] = 0, V[T ] = n

n−2

1 − αα2

α2

● ●

tn−1 ; 1−α2

= − tn−1 ; α2tn−1 ; α2

4. Imponemos la condicion

P(

−tn−1;α/2︷ ︸︸ ︷tn−1;1−α/2 <

T ∼ tn−1︷ ︸︸ ︷X − µX

sX/√

n< tn−1;α/2) = 1− α

Page 30: versión clase

Intervalo de confianza para la media de la poblacion:poblacion normal con varianza desconocida

5. Resolvemos la doble desigualdad para µX :

−tn−1;α/2 < X−µX

sX/√

n< tn−1;α/2

y obtenemos el estimador por intervalos de confianza

(

T1(X n)︷ ︸︸ ︷X − tn−1;α/2

sX√n,

T2(X n)︷ ︸︸ ︷X + tn−1;α/2

sX√n

)

6. El intervalo de confianza es:

IC1−α(µ) = (x − tn−1;α/2sx√n, x − tn−1;α/2

sx√n

)

Page 31: versión clase

Ejemplo: calcular un intervalo de confianza para µXEjemplo: 8.4 (Newbold) Se ha medido el consumo de combustible en unamuestra aleatoria de seis coches del mismo modelo, obteniendo en mpg: 18.6,18.4, 19.2, 20.8, 19.4, 20.5. Calcule un intervalo de confianza al 90 % para elconsumo medio, suponiendo que la poblacion sigue una distribucion normal.

Poblacion: X = ”mpg de un cochede este modelo”X ∼ N(µX , σ

2X )

σ2X desconocida

' MAS: n = 6 pequena

Muestra: x = 116,96

= 19,4833

s2x =

2282,41− 6(19,4833)2

6− 1= 0,96

Area= 0.05

t5 ; 0.05 = 2.015

Objetivo: IC0,9(µX ) =“x ∓ tn−1;α/2

sx√n

”sx =

p0,96 = 0,98

n = 6 x = 19,48

1− α = 0,9 ⇒ α/2 = 0,05

tn−1;α/2 = t5;0,05 = 2,015

IC0,9(µX ) =

„19,48∓ 2,105

0,98√6

«= (19,48∓ 0,81)

= (18,67, 20,29)

Interpretacion: Tenemos unaconfianza del 90 % de que elconsumo promedio de este modelo,µX , estara entre 18.67 y 20.29 mpg

Page 32: versión clase

Ejemplo: calcular un intervalo de confianza para µXEjemplo: 8.4 (cont.) en Excel: Ir al menu: Datos, submenu: Analisis deDatos, escoger la funcion: Estadıstica Descriptiva.Columna A datos en amarillo (media muestral, semilongitud tn−1;α/2

sx√n

,

extremo inferior (celda: D3-D16), extremo superior (celda: D3+D16)).

Datos

Media muestral

Semilongitud IC

Page 33: versión clase

Distribuciones t de Student y χ2 (chi-cuadrado)I Sabemos que T ∼ tn si T = Z√

χ2n/n

, donde Z ∼ N(0, 1) y χ2n sigue una

distribucion chi-cuadrado con gl = n, y ambas son independientes.

I Tambien, χ2n es la distribucion de la suma de los cuadrados de n variables

aleatorias N(0, 1) independientes.

I Por ejemplo, la cuasi varianza muestral reescalada sigue una distribucionchi cuadrado con n − 1 grados de libertad.

(n − 1)s2X

σ2X

=

Pni=1(Xi − X )2

σ2X

=nX

i=1

„Xi − X

σX

«2

∼ χ2n−1

¿Por que n − 1 y no n?

Si conociesemos el valor de µX , elnumero de grados de libertad serıan, porque tendrıamos n variablesaleatorias iid Xi−µX

σX

Si tenemos que estimar µX medianteX , los gl son n − 1, porque solotenemos n− 1 variables aleatorias iidXi−XσX

(si se conocen los valores den − 1 de ellas, se puede deducirfacilmente el valor de la restante)

Decimos que empleamos un grado de libertad en el calculo de µX

Page 34: versión clase

Distribuciones t de Student y χ2 (chi-cuadrado)

Densidades de t y N(0, 1)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

N(0,1)gl=10gl=5gl=3

Densidades de χ2

0 10 20 30 40

0.00

0.05

0.10

0.15

gl=20gl=15gl=10gl=5

Page 35: versión clase

Intervalo de confianza para la varianza de la poblacion,poblacion normal

1. Sea X n una MAS de tamano n de X . Bajo las hipotesis:I X sigue una distribucion normal con varianza σ2

X

2. La cantidad pivotal para σ2X es

(n − 1)s2X

σ2X

∼ χ2n−1

Page 36: versión clase

Intervalo de confianza para la varianza de la poblacion,poblacion normal

3. Por tanto, si χ2n−1;1−α/2 y χ2

n−1;α/2 sonlos cuantiles superiores (1− α/2) y(α/2) de una distribucion chi-cuadradocon n − 1 grados de libertad, tenemos

P(χ2n−1;1−α/2 < χ2

n−1 < χ2n−1;α/2) = 1− α

Densidad chi-cuadradoRecuerda: E[χ2

n] = n, V[χ2n] = 2n

1 − αα2

α2

● ●

χn−1 ; 1−α2

2 χn−1 ; α22

4. Imponemos la condicion P(χ2n−1;1−α/2 <

χ2n−1z }| {

(n − 1)s2X

σ2< χ2

n−1;α/2) = 1− α

Page 37: versión clase

Intervalo de confianza para la varianza de la poblacion,poblacion normal

5. Resolvemos la doble desigualdad para σ2X :

χ2n−1;1−α/2 <

(n−1)s2X

σ2X

< χ2n−1;α/2

1

χ2n−1;1−α/2

>σ2

X

(n−1)s2X>

1

χ2n−1;α/2

(n − 1)s2X

χ2n−1;1−α/2

> σ2X >

(n − 1)s2X

χ2n−1;α/2

y obtenemos el estimador por intervalos de confianza((n − 1)s2

X

χ2n−1;α/2

,(n − 1)s2

X

χ2n−1;1−α/2

)6. El intervalo de confianza es:

IC1−α(σ2X ) =

((n − 1)s2

x

χ2n−1;α/2

,(n − 1)s2

x

χ2n−1;1−α/2

)

Page 38: versión clase

Ejemplo: calcular un intervalo de confianza para σ2X y σX

Ejemplo: 8.8 (Newbold) Una muestra aleatoria de quince pastillas para el dolorde cabeza tiene una cuasi desviacion tıpica de 0.8 % en la concentracion delingrediente activo. Calcule un IC al 90 % para la varianza de la poblacion paraestas pastillas. Obtenga tambien un IC para la desviacion tıpica de la poblacion.

Poblacion:X = concentracion delingrediente activo en una pastilla(in %)”X ∼ N(µX , σ

2X )

' MAS: n = 15

Muestra: sx = 0,8

Area= 0.05

Area= 0.05

● ●

χ14 ; 0.952

=6.57

χ14 ; 0.052

=23.68

Objetivo: IC0,9(σ2X ) =

0@ (n−1)s2x

χ2n−1;α/2

,(n−1)s2

xχ2

n−1;1−α/2

1A

s2x = 0,82 = 0,64 n = 15

1− α = 0,9 ⇒ α/2 = 0,05

χ2n−1;1−α/2 = χ2

14;0,95 = 6,57

χ2n−1;α/2 = χ2

14;0,05 = 23,68

IC0,9(σ2X ) =

„14(0,64)

23,68,

14(0,64)

6,57

«= (0,378, 1,364)⇒

IC0,9(σX ) = (p

0,378,p

1,364)

= (0,61, 1,17)

Para obtener IC(σX ) aplicamos√

a los

extremos de IC(σ2X )

Page 39: versión clase

Formulas para intervalos de confianza

Resumen para una poblacion

I Sea X n una muestra aleatoria simple de una poblacion X con media µX yvarianza σ2

X

Parametro Hipotesis Cantidad pivotal (1 − α) Intervalo Conf.

Datos normalesVarianza conocida

X−µXσX /√

n∼ N(0, 1) µX ∈

„x − zα/2

σX√n, x + zα/2

σX√n

«

Media Datos no normalesMuestra grande

X−µXσX /√

n∼approx. N(0, 1) µX ∈

„x − zα/2

σx√n, x + zα/2

σx√n

Datos BernoulliMuestra grande

pX−pXqpX (1−pX )/n

∼approx. N(0, 1) pX ∈

px ∓ zα/2

rpx (1−px )

n

#

Datos normalesVarianza descono-cida

X−µXsX /√

n∼ tn−1 µX ∈

„x − tn−1,α/2

sx√n, x + tn−1,α/2

sx√n

«

Varianza Datos normales(n−1)s2

Xσ2

X

∼ χ2n−1 σ2

X ∈

0@ (n−1)s2x

χ2n−1;α/2

,(n−1)s2

xχ2

n−1;1−α/2

1ADesv. tıpica Datos normales

(n−1)s2X

σ2X

∼ χ2n−1 σX ∈

0@vuut (n−1)s2x

χ2n−1;α/2

,

vuut (n−1)s2x

χ2n−1;1−α/2

1A

Page 40: versión clase

Intervalos de confianza para la media de la poblacion:¿Que usar cuando?

X ∼ distribucion con media µX y desviacion tıpica σX

↙X ∼ normal

↙σ conocida

↓basada en z(exacta)

↘σ desconocida

↓basada en t(exacta)

↘X � normal

↙n pequena

↓metodos masalla de Est II

↘n grande

↓basada en z(aprox. TCL)