Download - Distribuciones muestrales.ppt [Modo de compatibilidad]...Distribución muestral deDistribución muestral de x 0,3 0,3 DATOS ORIGINALES MEDIAS MUESTRALES 0,2 a relativa 0,2 i a relativa

Distribuciones muestralesBiometría

1

Biometría

¿Qué tienen en común estos ejemplos?

2

Inferencia estadísticaN

Población o universo es el conjunto de todaslas unidades de interés Normalmente es

N

las unidades de interés. Normalmente es demasiado grande para poder abarcarla. El estudio de toda la población se denomina censo.

n

Muestra es un subconjunto suyo al que tenemos acceso y sobre el que realmente

n

y qhacemos las observaciones (mediciones)

La inferencia estadística consiste en generalizarglas conclusiones extraídas de una muestrasobre la población

3

Parámetros y estimadoresParámetro: Es una cantidad numérica calculada sobre la población Estimador: Es una cantidad numérica calculada sobreEstimador: Es una cantidad numérica calculada sobre la muestra

¿Y en los ejemplos?

Población Muestra

Pero ¿y cómo generalizamos? ¿podemos equivocarnos?

PoblaciónParámetro

MuestraEstimador

4

Pero ¿y cómo generalizamos? ¿podemos equivocarnos? Necesitamos manejar probabilidades

POBLACIÓNUna situación supuesta

41 44 34 42 5354 41 61 44 4452 59 36 57 61

POBLACIÓNContamos con una población integrada por 100 individuos; es decir N=100La media de la población es 50; es

60 53 54 43 4857 43 51 51 5232 45 55 36 4749 42 38 71 46

pdecir µ=50La variabilidad de la población es de 10; es decir σ = 10

Histograma

49 42 38 71 4654 27 55 45 4246 45 58 53 4342 54 44 39 49

PROMEDIO μ =50DESVÍO STD σ =10

0,20

0,25

0,30

ativ

a

62 54 36 61 5957 43 63 47 4932 56 44 44 5349 45 52 58 59

0 05

0,10

0,15

frecu

enci

a re

la

42 67 58 32 3948 37 49 47 6452 33 35 51 4145 47 46 55 42

520 25 30 35 40 45 50 55 60 65 70 75 80x

0,00

0,0545 47 46 55 4243 50 61 47 6757 49 57 52 47

POBLACIÓNY si sacamos una muestra?

41 44 34 42 5354 41 61 44 4452 59 36 57 61

MUESTRA 5

41 44 34 42 5354 41 61 44 4452 59 36 57 61

POBLACIÓN

60 53 54 43 4857 43 51 51 5232 45 55 36 4749 42 38 71 46

MUESTRA n = 560 53 54 43 4857 43 51 51 5232 45 55 36 4749 42 38 71 46

44 52 47 33 42

PROMEDIO = 43 6 x49 42 38 71 4654 27 55 45 4246 45 58 53 4342 54 44 39 49

49 42 38 71 4654 27 55 45 4246 45 58 53 4342 54 44 39 49

El promedio de la muestra no coincide con el de la población…

PROMEDIO = 43.6 x

62 54 36 61 5957 43 63 47 4932 56 44 44 5349 45 52 58 59

62 54 36 61 5957 43 63 47 4932 56 44 44 5349 45 52 58 59

La diferencia entre el valor muestral y el poblacional se denomina error muestral. En este caso EM 43 6 50 6 442 67 58 32 39

48 37 49 47 6452 33 35 51 4145 47 46 55 42

42 67 58 32 3948 37 49 47 6452 33 35 51 4145 47 46 55 42

En este caso, EM=43.6-50= -6.4Es el costo que pagamos por no haber efectuado un censo

6

45 47 46 55 4243 50 61 47 6757 49 57 52 47

45 47 46 55 4243 50 61 47 6757 49 57 52 47


POBLACIÓNY si sacamos otra muestra?

41 44 34 42 5354 41 61 44 4452 59 36 57 61

41 44 34 42 5354 41 61 44 4452 59 36 57 61

POBLACIÓN

MUESTRA 560 53 54 43 4857 43 51 51 5232 45 55 36 4749 42 38 71 46

60 53 54 43 4857 43 51 51 5232 45 55 36 4749 42 38 71 46

61 45 38 67 51MUESTRA n = 5

PROMEDIO = 52 4 x EM=52 4-50= 2 449 42 38 71 4654 27 55 45 4246 45 58 53 4342 54 44 39 49

49 42 38 71 4654 27 55 45 4246 45 58 53 4342 54 44 39 49

PROMEDIO = 52.4 xLos parámetros se calculan sobre los N

valores de la población, por lo tanto no

EM 52.4 50 2.4

62 54 36 61 5957 43 63 47 4932 56 44 44 5349 45 52 58 59

62 54 36 61 5957 43 63 47 4932 56 44 44 5349 45 52 58 59

cambian a menos que cambie la población, son constantes.

Los estimadores se calculan sobre n alores m estrales por lo tanto arían42 67 58 32 39

48 37 49 47 6452 33 35 51 4145 47 46 55 42

42 67 58 32 3948 37 49 47 6452 33 35 51 4145 47 46 55 42

valores muestrales, por lo tanto varían de muestra en muestra y por lo tanto son variables aleatorias.

7

45 47 46 55 4243 50 61 47 6757 49 57 52 47

45 47 46 55 4243 50 61 47 6757 49 57 52 47


POBLACIÓN

Si repitiésemos este proceso muchas veces, ¿qué

41 44 34 42 5354 41 61 44 4452 59 36 57 61

POBLACIÓN , ¿qcomportamiento esperaríamos para los 75.287.520 promedios muestrales posibles?

60 53 54 43 4857 43 51 51 5232 45 55 36 4749 42 38 71 46

MUESTRAS n = 5

muestrales posibles?

44 52 47 33 42 1x49 42 38 71 4654 27 55 45 4246 45 58 53 4342 54 44 39 49

61 45 38 67 51

44 52 47 33 42

51 54 50 33 71

2x

3x62 54 36 61 5957 43 63 47 4932 56 44 44 5349 45 52 58 59

41 58 49 34 49

. . . . . . . . . . . 3

75287520x. . .

42 67 58 32 3948 37 49 47 6452 33 35 51 4145 47 46 55 42

?8

45 47 46 55 4243 50 61 47 6757 49 57 52 47


Distribuciones muestralesDefinición: La distribución muestral de un estimador es la distribución de probabilidades de todos los posibles valores de un estimador que se pueden obtener extrayendo “infinitas” muestras aleatorias de tamaño n de la población.

La distribución de un estimador, como la de cualquier variable aleatoria, se pueden caracterizar por:

tendencia centraltendencia central variabilidadfunción de probabilidad

Las distribuciones muestrales de los estimadores pueden ser:

9aproximadas mediante técnicas de simulación derivadas matemáticamente

Volviendo al ejemplo

Distribución muestral de xDistribución muestral de x

0,30,3 MEDIAS MUESTRALESDATOS ORIGINALES

0,2

a re

lativ

a

0,2

ia re

lativ

a

0,1

frecu

enci

0,1

frecu

enci

20 30 40 50 60 70 80Media(n=5)

0,020 30 40 50 60 70 80

x

0,0

10


Distribución muestral de xDistribución muestral de

¿Y si promediamos todas las medias muestrales?

x

¿ p

=xµ ESTIMADORINSESGADO

µ¿Cuál será la variabilidad de las medias muestrales?

σ nσEl desvío estándar de un estimador se conoce como

=xσ nσEl desvío estándar de un estimador se conoce como

error estándar y da idea de la precisión en la estimación

11

Distribución muestral de xDistribución muestral de

¿Cuál será la distribución de probabilidades de ?

xx¿ p

0,3 0,30,3MEDIAS MUESTRALES0,3

DATOS ORIGINALES

DISTR

0,2

ia re

lativ

a

0,2

a re

lativ

a

0,2

a re

lativ

a

DISTR. NORMAL

0,2

a re

lativ

a

DISTR. NORMAL

0,1

frecu

enci

0,1

frecu

enci

a

0,1

frecu

enci

a

0,1

frecu

enci

20 30 40 50 60 70 80x

0,020 30 40 50 60 70 80

Media(n=5)

0,020 30 40 50 60 70 80

Media(n=5)

0,0

20 30 40 50 60 70 80x

0,0

12


PROMEDIO =50ERROR STD =4.5

xµxσ

0 4

¿Y si los datos originales no siguen una distribución normal?

0,2

0,3

ativ

a

0,3

0,4

elat

iva

DATOS ORIGINALES

μ =50σ =40 0,2

0,3

ativ

a

MEDIAS MUESTRALES

μ =50σ =9

0,1

0,2

frecu

enci

a re

la

0,1

frecu

enci

a re σ =40

0,1

frecu

enci

a re

l σ 9

DISTR. NORMAL!

25 35 45 55 65 75 85Media(n=20)

0,00 50 100 150 200 250

X

0,025 35 45 55 65 75 85

Media(n=20)

0,0

ando

…

( )

0,2

0,3

ativ

a

0,2

0,3

ativ

a

0,2

0,3

elat

iva

10

ampl

ia

0,1

frecu

enci

a re

l

n=200,1

frecu

enci

a re

la

n = 50,1

frecu

enci

a re n=10

130 50 100 150 200 250Media(n=20)

0,00 50 100 150 200 250Media(n=5)

0,0

0 50 100 150 200 250Media(n=10)

0,0

Teorema central del límiteTeorema central del límite

Si de una población con distribución no normalSi de una población con distribución no normal o desconocida con media µ y desvío estándar σ se extraen infinitas muestras aleatorias de t ñ d d ll l l l ltamaño n y a cada una de ellas se le calcula el promedio , se demuestra que dicho promedio se comporta según una variable aleatoria

xse comporta según una variable aleatoria continua con distribución normal si n es lo suficientemente grande

14

¿A qué consideramos un n “lo fi i t t d ”?suficientemente grande”?

Si la variable original es normal, entonces será xg ,normal, para cualquier nSi la variable original es aproximadamente simétrica

i d l t t d á di t ib ióx

x

x

y unimodal, entonces tenderá a una distribución aproximadamente normal para n relativamente bajosSi la variable original es marcadamente asimétrica,

x

Si la variable original es marcadamente asimétrica,entonces n deberá ser de mayor para que la distribución de sea normalx

15

En resumen:Distribución muestral de cuando σ es conocidoxst buc ó uest a de cua do σ es co oc do

1. La media de es:

x

x µµx =2. El desvío estándar de (EE) es:3. Si el tamaño de la muestra es lo suficientemente

grande o es normal la distribución de es

x nx σσ =

grande o x es normal, la distribución de es normal

x

Por lo tanto es posible calcular probabilidades utilizando: µx −

16nµxz

σ=

¿Es útil conocer la distribución de un estimador?de un estimador?

Nos permite calcular probabilidades ⇒ es la clave para hacer inferencia!hacer inferencia!

Por ejemplo: – Se sabe que el peso de la placenta de embarazos

normales a término sigue una distribución normal con un promedio de 500g y un desvío estándar de 50g.

– Se determinó el peso de la placenta en 50 partos a p p ptérmino de madres fumadoras elegidas al azar y se obtuvo un promedio de 480g.

– ¿Cuál es la probabilidad de que la media muestral sea– ¿Cuál es la probabilidad de que la media muestral sea de 480g o menor?

17

0,008

DATOS ORIGINALES0,057

MEDIAS MUESTRALES

0,004

0,006

,si

dad

0,029

0,043

sida

d

0,000

0,002

Den

0,000

0,014

Den

250 375 500 625 750

Peso de la placenta250 375 500 625 750

peso medio de 50 placentas

0,000

PROMEDIO μ =500DESVÍO STD 50

PROMEDIO =500xµDESVÍO STD σ =50 ERROR STD =50/√50=7

xxσ

=< )480(xP 0020)862( =F P l< )480(xP

86.2500480=

−=

−=

µxz

002.0)86.2( =F P-valor

18

7xσ

¿Qué necesitamos para hacer i f i ?inferencia?

una muestra aleatoriaobservaciones independientesun tamaño de muestra lo suficientemente grande

19

Algunas dudas que surgen…Algunas dudas que surgen…

¿es necesario sacar muchas (infinitas)¿es necesario sacar muchas (infinitas) muestras para poder aplicar el TCL?¿A mayor n más cerca del parámetro estará ¿ y pmi estimador?¿A mayor n menor variabilidad de los datos?¿ y

20

Distribución muestral de cuando el desvío tá d bl i l d id

xestándar poblacional es desconocido

En la práctica es habitual que TODOS los parámetros poblacionales sean desconocidos, es decir que ni elpoblacionales sean desconocidos, es decir que ni el promedio μ ni el desvío estándar poblacional σ son conocidos!Como se desconoce σ se utiliza su estimador s →

xmayor incertidumbreNo es correcto utilizar la distribución normal para

nµxz

σ−

=

µx −Se demuestra que la media muestral en estos casos ajusta a una distribución conocida como t de Student

21nsµxtGL =

Distribución t de StudentTiene forma acampanada como la normal estándar, pero su dispersión es mayor (es más aplanada). Esto se debe a que al desconocer σ hay mayor incertidumbreEs simétrica con respecto al cero, es decir que µ=0 No se trata de una única curva, sino de infinitas curvas, cada una caracterizada por un parámetro denominado grados de p p glibertad (GL)Los GL indican la cantidad de datos independientes, es decir el número de observaciones de la variable menos el número de restricciones que verificanLos GL dependen del tamaño de la muestra y en este caso valen n-1yA medida que aumentan los GL más se asemeja a la normal estándar (porque s converge a σ)

22

(p q g )

Distribución muestral de xcuando no se conoce σ

1. La media de es:2. El desvío estándar (EE) de es:

xxµµx =

nsx =σ3. Si el tamaño de la muestra es lo

suficientemente grande o x es normal, la distribución de es t de Student con n 1xdistribución de es t de Student, con n-1 grados de libertadPor lo tanto es posible calcular probabilidades

x

Por lo tanto es posible calcular probabilidades utilizando:

µxt −=

23nstn =−1

Download - Distribuciones muestrales.ppt [Modo de compatibilidad]...Distribución muestral deDistribución muestral de x 0,3 0,3 DATOS ORIGINALES MEDIAS MUESTRALES 0,2 a relativa 0,2 i a relativa

Top Related