conceptos bÁsicos de - unet

28
CONCEPTOS BÁSICOS DE ESTADISTICA INFERENCIAL

Upload: others

Post on 27-Jul-2022

13 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CONCEPTOS BÁSICOS DE - UNET

CONCEPTOS BÁSICOS DE

ESTADISTICA INFERENCIAL

Page 2: CONCEPTOS BÁSICOS DE - UNET

Población

Muestra

Individuo Cada parámetro poblacional le corresponderá un estadístico de la muestra, que constituirá una estimación del primero.

Parámetros

Estadístico

Un estimador es una regla, a menudo expresada como una formula, que indica como calcular el valor de una estimación con base en las

mediciones contenidas en una muestra.

Estimador

Definición

X

µN

n

Cuando se seleccionan muestras aleatorias simples de tamaño n de una población, la distribución muestral de la media muestral puede aproximarse mediante una distribución normal a medida que el tamaño de la muestra se hace grande.

X

TEOREMA DEL LÍMITE CENTRAL

Page 3: CONCEPTOS BÁSICOS DE - UNET
Page 4: CONCEPTOS BÁSICOS DE - UNET

Consideremos una caja con tarjetas, cada una con un número. Suponemos que la población tiene μ = 10 y σ= 4. Extraemos muestras de tamaño n = 9 (con reemplazamiento):

9.99

8714158128134=⇒

++++++++= XX

33.99

5 11 5 6 12 12 2 1417=⇒

++++++++= XX

Muestra i): 4, 13, 8, 12, 8, 15, 14, 7, 8

Muestra ii): 17, 14, 2, 12, 12, 6, 5, 11, 5.

Tras una serie de 10 muestras obtenemos

8.11y 0.9,5.11,2.10,2.9,6.9,9.10,9.9,3.9,9.9=X1 2 3 4 5 6 7 8 9 10

13.10=X

97.0=σ

33.19

4==⇒= XX n

σσσ

Teorema del límite central, se puede establecer que seguirá una distribución asintóticamente normal.

X

Page 5: CONCEPTOS BÁSICOS DE - UNET

Estimación puntual de parámetros

La estimación de parámetros

Cómo se puede realizar la estimación de las características de una población a partir del estudio de una muestra aleatoria extraída de la misma. Queremos disponer de un buen estimador, en el sentido de que proporcione una estimación lo más precisa posible del parámetro poblacional.

Propiedades que definen un buen estimador

Diremos que un estimador A de un parámetro poblacional α es insesgado, o centrado, si su media, o esperanza matemática, coincide con el parámetro poblacional. Es decir

( ) αµ == AAE

La media aritmética es un estimador insesgado de la media de una población. S2 es un estimador insesgado de la varianza.

X

Estimadores buenos y malos Una estimación puntual es el valor concreto que toma el estimador puntual en una muestra en particular

método de la máxima verosimilitud.

Page 6: CONCEPTOS BÁSICOS DE - UNET

Si se tienen dos estimadores A1, A2 de un parámetro poblacional, se dice que A1 es más eficiente que A2 si su varianza es menor. Es decir

2221 AA σσ <

Para la estimación de la media poblacional, los estimadores media aritmética y mediana Me son insesgados, pero la media es más eficiente que la mediana (su varianza es menor).

X

Se dice que un estimador es consistente cuando, al crecer el tamaño muestral, se aproxima asintóticamente al valor del parámetro poblacional y su varianza se hace nula. Es decir

0 ; 2limlim ==∞→∞→

Ann

A σα

La media aritmética (por ejemplo) es un estimador consistente pues la varianza de su distribución muestral se puede expresar por . nX

22 σσ =

Un estimador ideal ha de ser insesgado y con una eficacia máxima

Bondad de un estimador puntual

Distancia entre un estimador y su parámetro AA −= ˆε

Eficiente

Consistente

Page 7: CONCEPTOS BÁSICOS DE - UNET

A AA

Valores esperados y errores estándar de algunos estimadores puntuales comunes

( ) 22 σ=SE

es un estimador insesgado para 2S 2σ

El valor esperado de la varianza muestral es la varianza poblacional

Page 8: CONCEPTOS BÁSICOS DE - UNET

Estimación por intervalos de confianza

Generalmente, una estimación puntual no proporciona un valor exacto del parámetro poblacional a determinar. En la mayoría de los casos, no tendremos información sobre la precisión de tal estimación, de forma que su valor único no nos informa sobre la probabilidad de que se encuentre cerca o lejos del valor verdadero.

En vez de calcular un único estimador, se determinan dos estimadores que serán los límites inferior ( ) y superior ( ) (o límites de confianza) de un intervalo de confianza . A esta pareja de valores se le llama estimador por intervalo.

( ) ( ).,,, ; ,,, 21222111 nn XXXfLXXXfL ==

Al valor concreto que toma el intervalo aleatorio en una muestra en particular se le llama estimación por intervalo.

1L 2L [ ]21 , LLI =

El nivel de confianza es la probabilidad de que a priori el verdadero valor del parámetro quede contenido en el intervalo.

Page 9: CONCEPTOS BÁSICOS DE - UNET

Probabilidad de que el intervalo aleatorio cubra el verdadero valor del parámetro poblacional

( ) αβ −=<< 121 LLP

se le llama nivel de confianza

Intervalo de confianza del .

α−1

( ) %1001 α−[ ]21 , LL

Es la probabilidad de seleccionar una muestra concreta que conduzca a un intervalo que contenga al parámetro poblacional

β

Page 10: CONCEPTOS BÁSICOS DE - UNET

Intervalos de confianza para la media Supongamos en primer lugar que la población en estudio sigue una distribución normal y que como estimador puntual de la media poblacional se usa la media muestral .

( )σµ,NXµ

Varianza poblacional conocida: 2σ

Si la población es normal, la media muestral sigue una distribución normal y varianza µµ =X nX

22 σσ =

El intervalo de confianza del para la media ( ) %1001 α−

ασµσαα −=

+<<− 1

22 nzX

nzXP

El intervalo de confianza de nivel para la media de una distribución normal de varianza conocida es

( )α−1

válido para un población infinita o en un muestreo con reemplazamiento .

2

±=

nzXI σ

α

Si el muestreo es sin reemplazamiento en una población finita de tamaño

.12

−−

±=N

nNn

zXI σα

N

n

XZσ

µ−=

Page 11: CONCEPTOS BÁSICOS DE - UNET

En cualquier libro de estadística, estas tablas se encuentran al final de los mismos. Para nuestros ejemplos he tomado una fotografía de la región de interés.

Page 12: CONCEPTOS BÁSICOS DE - UNET

Muestra i): 4, 13, 8, 12, 8, 15, 14, 7, 8

Muestra ii): 17, 14, 2, 12, 12, 6, 5, 11, 5.

05.095.01 =⇒=− αα 96.1025.02

== zzα025.0205.0

2==

α

9.99

8714158128134=⇒

++++++++= XX

Ejercicio: Consideremos una caja con tarjetas, cada una con un numero. Suponemos que la población tiene µ=10 y σ=4 . Calcule el intervalo de confianza para la media de las dos primeras muestras (usar nivel de confianza de 0.95)

33.99

5 11 5 6 12 12 2 1417=⇒

++++++++= XX

.2

±=

nzXI σ

α[ ]6.29.9

9496.19.9 ±=⇒

±= II

[ ]6.23.99

496.133.9 ±=⇒

±= II

De cada 100 muestras, en el 95% de ellas el intervalo de confianza así calculado incluiría al valor real.

[ ]2.114.6 ±=I

[ ]9.11,7.6=I

Page 13: CONCEPTOS BÁSICOS DE - UNET

Varianza poblacional desconocida y 2σ 30>n

Cuando la muestra es grande, la desviación típica muestral suele ser un estimador muy preciso de σ

,122

αµ αα −=

+<<−

nSzX

nSzXP .

2

±=

nSzXI α

S

Varianza poblacional desconocida y 2σ 30<n

Cuando las muestras son pequeñas la varianza muestral puede variar considerablemente de muestra a muestra, por lo que la aproximación anterior no se considera válida. En estos casos, el intervalo confianza se puede construir recordando que la variable

sigue una distribución de Student con grados de libertad 1−nt

.11,21,2

αµ αα −=

+<<−

−− nSzX

nStXP

nn

El intervalo de confianza de nivel para la media de una distribución normal de varianza conocida y muestra pequeña es

( )α−1

,1,2

±=

− nStXI

es la abscisa de la distribución que deja a su derecha un área igual . 1,2 −ntα 2

αt

( )1

2

12

−== ∑ =

Nxx

ssk

i i

Page 14: CONCEPTOS BÁSICOS DE - UNET

nt ,α0

( )2

12

21

2,

21

1+

+

=

n

tnn

tfβ

En cualquier libro de estadística, estas tablas se encuentran al final de los mismos. Para nuestros ejemplos he tomado una fotografía de la región de interés.

Page 15: CONCEPTOS BÁSICOS DE - UNET

Ejercicio 2: Calcular los intervalos de confianza para la media en el ejemplo anterior suponiendo que la varianza es desconocida.

Muestra i): 4, 13, 8, 12, 8, 15, 14, 7, 8

Muestra ii): 17, 14, 2, 12, 12, 6, 5, 11, 5.

9.9=X

( )1

2

12

−== ∑ =

Nxx

ssk

i i ( ) 89.11061.341.881.1601.2661.341.461.361.981.3429

1=++++++++=−∑ =i i xx

72.38

89.1102 =⇒== SSS

306.205.0 8,025.01,2==⇒=

−tt

nαα

,1,2

±=

− nStXI

nα ,972.3306.329.9

±=I [ ],9.29.9 ±=I

lo que nos conduce a un intervalo mayor que en el ejemplo anterior, (7.0,12.8), lo cual es lógico porque hemos introducido una nueva fuente de incertidumbre al haber tenido que estimar la varianza (al no ser ahora conocida).

[ ]8.33.9 ±=I

que también es un intervalo mayor (5.5,13.1).

Page 16: CONCEPTOS BÁSICOS DE - UNET

En virtud del teorema del límite central, la distribución muestral de la media tiende asintóticamente a la normal cualquiera que sea la población de partida.

,2

±=

nSzXI α

Para muestras grandes de cualquier población, el intervalo de confianza para la media es aproximadamente

donde se ha supuesto que es un buen estimador de si la muestra es grande S σ

Page 17: CONCEPTOS BÁSICOS DE - UNET

Intervalos de confianza para la diferencia de medias Supongamos que se tienen dos poblaciones normales y ( )11 ,σµN ( )22 ,σµN

Vamos a estudiar cómo se puede determinar un intervalo de confianza para la diferencia de medias a partir de muestras aleatorias independientes de tamaños y extraídas de cada población respectivamente.

1n 2n21 µµ −

Varianzas poblacionales y conocidas: 21σ 2

Hemos visto que un buen estimador puntual para la diferencia de medias es la diferencia de medias muestrales . 21 XX −

( ) ( ) ασσ

µµσσ

αα −=

+++<−<+−− 1

2

22

1

21

22121

2

22

1

21

221 nn

zXXnn

zXXP

El intervalo de confianza de nivel para la para la diferencia de medias de dos distribuciones normales de varianzas conocidas es

( )α−1

( ) .2

22

1

21

221

+±−=

nnzXXI σσ

α

Page 18: CONCEPTOS BÁSICOS DE - UNET

Ejemplo: Determinar el intervalo de confianza para la diferencia de medias de las dos primeras muestras del Ejemplo 1. Suponer la varianza poblacional conocida.

Muestra i): 4, 13, 8, 12, 8, 15, 14, 7, 8 9.91 =X

Muestra ii): 17, 14, 2, 12, 12, 6, 5, 11, 5. 3.92 =X

4 9 11 == σn

4 9 22 == σn

( ) .2

22

1

21

221

+±−=

nnzXXI σσ

α

( ) .94

9496.13.99.9

22

+±−=I [ ].7.36.0 ±=I

El intervalo de confianza es (−3.1,4.3).

21 nn =

960.1025.0 =z

Page 19: CONCEPTOS BÁSICOS DE - UNET

Varianzas poblacionales y desconocidas y (con ) 21σ 2

2σ 21 nn ≅3021 >+ nn

Generalmente no se conocerán a priori los valores de las varianzas poblacionales. Sin embargo, cuando las muestras son grandes, ya se ha visto como las varianzas muestrales son generalmente una buena aproximación a las varianzas poblacionales.

El intervalo de confianza

( ) ( ) αµµ αα −=

+++<−<+−− 1

2

22

1

21

22121

2

22

1

21

221 n

SnSzXX

nS

nSzXXP

( ) .2

22

1

21

221

+±−⇒

nS

nSzXXP α

Varianzas poblacionales y desconocidas y (muestras pequeñas ) 21σ 2

2σ 21 σσ =

( ) ( ) αµµ αα −=

+++<−<+−− 11111

2122121

21221 nn

StXXnn

StXXP pp

El intervalo de confianza de nivel para la diferencia de medias de dos poblaciones normales de varianzas desconocidas pero iguales es

( )α−1

( ) .11

212,2

2121

+±−=

−+ nnStXXI pnnα

representa una estimación puntual de la varianza común , calculándose como una media ponderada, con el número de grados de libertad, de las dos varianzas observadas

σ2pS

( ) ( )2

11

21

222

2112

−+−+−

=nn

SnSnS p

( ) .2

22

1

21

221

+±−=

nS

nSzXXI α

Page 20: CONCEPTOS BÁSICOS DE - UNET

Varianzas poblacionales y desconocidas y (muestras pequeñas ) 21σ 2

2σ 21 σσ ≠

( ) ( ) αµµ αα −=

+++<−<+−− 1

2

22

1

21

,22121

2

22

1

21

,221 n

SnStXX

nS

nStXXP

ff

( ) ( )

2

22

1

21

2121

nS

nS

XXt

+

−−−=

µµ

.2

11 2

2

2

22

1

2

1

21

2

2

22

1

21

+

++

+

=

nnS

nnS

nS

nS

f

El intervalo de confianza de nivel para la diferencia de medias de dos poblaciones normales de varianzas desconocidas s es

( )α−1

( ) .2

22

1

21

,221

+±−=

nS

nStXXI

Para calcular los intervalos de confianza anteriores se ha supuesto que las poblaciones de partida son normales. Como consecuencia del teorema del límite central, para cualesquiera distribuciones de partida la distribución muestral de la diferencia de medias puede aproximarse por una normal siempre que el tamaño de las muestras sea suficientemente grande.

Page 21: CONCEPTOS BÁSICOS DE - UNET

Calcular el intervalo de confianza para la diferencia de medias en dos métodos distintos empleado por Michelson para determinar la velocidad de la luz (expresamos la velocidad como c = x + 299000 km/s). •Método i): 850, 740, 900, 1070, 930, 850, 950, 980; n1=8 • Método ii): 883, 816, 778, 796, 682, 711, 611, 599, 1051, 781, 578, 796; n2=12

Tenemos n1+ n2 < 30. Supondremos σ1=σ2

75.9081 =X 8 1.99 11 == nS83.7562 =X 12 5.133 22 == nS

( ) ( )2

11

21

222

2112

−+−+−

=nn

SnSnS p

( ) ( )2128

5.1331121.9918 222

−+×−+−

=pS 3.1212 =pS

( ) .11

212,2

2121

+±−=

−+ nnStXXI pnnα ( ) .

121

813.121101.28.7568.908

+×±−=I

[ ].116152 ±=I

Por otro lado, si usamos α = 0.05, tenemos (tablas). El intervalo será entonces 101.218,025.0 =t

El intervalo de confianza solicitado es entonces (36,268) km/s (+299000).

Page 22: CONCEPTOS BÁSICOS DE - UNET

Varianzas poblacionales y desconocidas y (con ) 21σ 2

2σ 21 σσ ≠3021 <+ nn

Se puede demostrar que la variable anterior sigue aproximadamente una distribución t de Student con f grados de libertad, donde f es el entero más próximo a la aproximación de Welch

( ) ( )2

2

22

1

21

2121 −+

+

−−+=

nS

nS

XXt µµ

2

11 2

2

2

22

1

2

1

21

2

2

22

1

21

+

++

++

=

nn

S

nn

S

nS

nS

f

El intervalo de confianza de nivel para la diferencia de medias de dos poblaciones normales de varianzas desconocidas es

( )α−1

( )

++±+=

2

22

1

21

,221 n

SnStXXI

Muestras pequeñas

Page 23: CONCEPTOS BÁSICOS DE - UNET

Ejemplo: Repetir el ejemplo anterior, suponiendo ahora que 21 σσ ≠

2

11 2

2

2

22

1

2

1

21

2

2

22

1

21

+

++

++

=

nn

S

nn

S

nS

nS

f 208.19 ≈=f

086.220,025.0 =t

( )

++±+=

2

22

1

21

221 ,

nS

nStXXI fα

( )

++±+=

125.133

81.99086.28.7568.908

22

I

El intervalo de confianza es ahora (43,261) km/s (+299000).

Tabla

Page 24: CONCEPTOS BÁSICOS DE - UNET

Intervalos de confianza para datos apareados

( )211 ,σµN

En los apartados anteriores siempre que se ha trabajado con dos poblaciones se ha supuesto que éstas eran independientes. Vamos a suponer ahora que se tienen dos poblaciones normales, , y de las que se extraen dos muestras que no son independientes. ( )2

22 ,σµN

Consideraremos la situación en la cual las muestras no se extraen de forma independiente de cada población, sino que cada muestra consiste en la medida de una característica en los mismos elementos de una población. Por ejemplo, supongamos que sobre los elementos de una muestra se mide cierta variable, después se aplica un determinado tratamiento a la muestra y, sobre los mismos elementos, se vuelve a medir la misma variable (ej. Temperatura antes y después de aplicar un tratamiento)

A este tipo de experimentos se le llama de observaciones pareadas. El objetivo en este caso es calcular un intervalo de confianza para la diferencia de medias en dichas muestras. Para ello se consideran las diferencias entre los valores de las variables en cada uno de los elementos de la muestra. Para plantear el problema se asume que estas diferencias son los valores de una nueva variable aleatoria .

21 µµ −

D

( )nixxd ii ,,2,1 21 =−=

( ),

211 21

nxx

nd

dn

i in

i i ∑∑ ==−

==( )

.12

nddn

i id

∑ =−

,12

212

αµµ αα −=

+<−<−

nSzD

nSzDP DD

Page 25: CONCEPTOS BÁSICOS DE - UNET

intervalo de confianza de nivel para la diferencia de medias de observaciones pareadas con puede expresarse como

( )α−1

30>n

.2

±=

nSzDI D

α

30<n

., 12

±= − n

StDI Dnα

Page 26: CONCEPTOS BÁSICOS DE - UNET

Se aplica un proceso para aumentar el rendimiento en 10 fabricas muy diferentes (no dejar tomarse el bocadillo a media mañana). Los rendimientos (en ciertas unidades, como toneladas/día) antes y después son:

Antes : 13 22 4 10 63 18 34 6 19 43

Después: 15 22 2 15 65 17 30 12 20 42

Calcular el intervalo de confianza para el aumento del rendimiento.

Si definimos las diferencias como

,1,2 tt XXD −=

1,1,6,4,1,2,5,2,0,2 −−−−=iD

1X

2X

8.01081 === ∑ =

nD

Dn

i i ( )08.3

11

2

=⇒−

−= ∑ =

D

n

i iD S

nDD

S

[ ]2.28.01008.3262.28.0, 1

2±=

±=⇒

±= − I

nStDI D

Calcular el intervalo de confianza para el aumento del rendimiento.

Como el numero de datos es menor que 30, usamos (tablas). 262.29,025.0 =t

es decir, (−1.4,3.0).

( )nixxd ii ,,2,1 21 =−=

Page 27: CONCEPTOS BÁSICOS DE - UNET

Determinación del tamaño de la muestra

Hasta ahora siempre se ha supuesto conocido el tamaño de la muestra . En el diseño de experimentos, en ocasiones el problema principal es la determinación del tamaño muestral requerido para obtener la estimación de los parámetros poblacionales con una determinada precisión.

n

El intervalo de confianza vendrá entonces dado por

Longitud del intervalo es Es inversamente proporcional al tamaño de la muestra l

±=

nzXI σ

α2

.22 n

zl σα=

Es decir, si se utiliza como una estimación de , puede tenerse una confianza del de que, en una muestra del tamaño anterior, el error no excederá a un valor . ∈

X ( ) %1001 α−µ

Para poder aplicar la expresión anterior es necesario conocer previamente σ

.2

2

22

∈=

σαzn

Page 28: CONCEPTOS BÁSICOS DE - UNET

¿Cuál ha de ser el tamaño de la muestra para poder determinar la media con un error de 0.5?

Ejercicio: Consideremos una caja con tarjetas, cada una con un numero. Suponemos que la población tiene µ=10 y σ=4 . Calcule el intervalo de confianza para la media de las dos primeras muestras (usar nivel de confianza de 0.95)

.2

2

22

∈=

σαzn

En este caso 96.1025.0 =z

4=σ

5.0∈=

.5.0

496.1 2

22 ×=n 24686.245 ≈=n