Distribuciones muestralesBiometría
1
Biometría
¿Qué tienen en común estos ejemplos?
2
Inferencia estadísticaN
Población o universo es el conjunto de todaslas unidades de interés Normalmente es
N
las unidades de interés. Normalmente es demasiado grande para poder abarcarla. El estudio de toda la población se denomina censo.
n
Muestra es un subconjunto suyo al que tenemos acceso y sobre el que realmente
n
y qhacemos las observaciones (mediciones)
La inferencia estadística consiste en generalizarglas conclusiones extraídas de una muestrasobre la población
3
Parámetros y estimadoresParámetro: Es una cantidad numérica calculada sobre la población Estimador: Es una cantidad numérica calculada sobreEstimador: Es una cantidad numérica calculada sobre la muestra
¿Y en los ejemplos?
Población Muestra
Pero ¿y cómo generalizamos? ¿podemos equivocarnos?
PoblaciónParámetro
MuestraEstimador
4
Pero ¿y cómo generalizamos? ¿podemos equivocarnos? Necesitamos manejar probabilidades
POBLACIÓNUna situación supuesta
41 44 34 42 5354 41 61 44 4452 59 36 57 61
POBLACIÓNContamos con una población integrada por 100 individuos; es decir N=100La media de la población es 50; es
60 53 54 43 4857 43 51 51 5232 45 55 36 4749 42 38 71 46
pdecir µ=50La variabilidad de la población es de 10; es decir σ = 10
Histograma
49 42 38 71 4654 27 55 45 4246 45 58 53 4342 54 44 39 49
PROMEDIO μ =50DESVÍO STD σ =10
0,20
0,25
0,30
ativ
a
62 54 36 61 5957 43 63 47 4932 56 44 44 5349 45 52 58 59
0 05
0,10
0,15
frecu
enci
a re
la
42 67 58 32 3948 37 49 47 6452 33 35 51 4145 47 46 55 42
520 25 30 35 40 45 50 55 60 65 70 75 80x
0,00
0,0545 47 46 55 4243 50 61 47 6757 49 57 52 47
POBLACIÓNY si sacamos una muestra?
41 44 34 42 5354 41 61 44 4452 59 36 57 61
MUESTRA 5
41 44 34 42 5354 41 61 44 4452 59 36 57 61
POBLACIÓN
60 53 54 43 4857 43 51 51 5232 45 55 36 4749 42 38 71 46
MUESTRA n = 560 53 54 43 4857 43 51 51 5232 45 55 36 4749 42 38 71 46
44 52 47 33 42
PROMEDIO = 43 6 x49 42 38 71 4654 27 55 45 4246 45 58 53 4342 54 44 39 49
49 42 38 71 4654 27 55 45 4246 45 58 53 4342 54 44 39 49
El promedio de la muestra no coincide con el de la población…
PROMEDIO = 43.6 x
62 54 36 61 5957 43 63 47 4932 56 44 44 5349 45 52 58 59
62 54 36 61 5957 43 63 47 4932 56 44 44 5349 45 52 58 59
La diferencia entre el valor muestral y el poblacional se denomina error muestral. En este caso EM 43 6 50 6 442 67 58 32 39
48 37 49 47 6452 33 35 51 4145 47 46 55 42
42 67 58 32 3948 37 49 47 6452 33 35 51 4145 47 46 55 42
En este caso, EM=43.6-50= -6.4Es el costo que pagamos por no haber efectuado un censo
6
45 47 46 55 4243 50 61 47 6757 49 57 52 47
45 47 46 55 4243 50 61 47 6757 49 57 52 47
PROMEDIO μ =50DESVÍO STD σ =10
POBLACIÓNY si sacamos otra muestra?
41 44 34 42 5354 41 61 44 4452 59 36 57 61
41 44 34 42 5354 41 61 44 4452 59 36 57 61
POBLACIÓN
MUESTRA 560 53 54 43 4857 43 51 51 5232 45 55 36 4749 42 38 71 46
60 53 54 43 4857 43 51 51 5232 45 55 36 4749 42 38 71 46
61 45 38 67 51MUESTRA n = 5
PROMEDIO = 52 4 x EM=52 4-50= 2 449 42 38 71 4654 27 55 45 4246 45 58 53 4342 54 44 39 49
49 42 38 71 4654 27 55 45 4246 45 58 53 4342 54 44 39 49
PROMEDIO = 52.4 xLos parámetros se calculan sobre los N
valores de la población, por lo tanto no
EM 52.4 50 2.4
62 54 36 61 5957 43 63 47 4932 56 44 44 5349 45 52 58 59
62 54 36 61 5957 43 63 47 4932 56 44 44 5349 45 52 58 59
cambian a menos que cambie la población, son constantes.
Los estimadores se calculan sobre n alores m estrales por lo tanto arían42 67 58 32 39
48 37 49 47 6452 33 35 51 4145 47 46 55 42
42 67 58 32 3948 37 49 47 6452 33 35 51 4145 47 46 55 42
valores muestrales, por lo tanto varían de muestra en muestra y por lo tanto son variables aleatorias.
7
45 47 46 55 4243 50 61 47 6757 49 57 52 47
45 47 46 55 4243 50 61 47 6757 49 57 52 47
PROMEDIO μ =50DESVÍO STD σ =10
POBLACIÓN
Si repitiésemos este proceso muchas veces, ¿qué
41 44 34 42 5354 41 61 44 4452 59 36 57 61
POBLACIÓN , ¿qcomportamiento esperaríamos para los 75.287.520 promedios muestrales posibles?
60 53 54 43 4857 43 51 51 5232 45 55 36 4749 42 38 71 46
MUESTRAS n = 5
muestrales posibles?
44 52 47 33 42 1x49 42 38 71 4654 27 55 45 4246 45 58 53 4342 54 44 39 49
61 45 38 67 51
44 52 47 33 42
51 54 50 33 71
2x
3x62 54 36 61 5957 43 63 47 4932 56 44 44 5349 45 52 58 59
41 58 49 34 49
. . . . . . . . . . . 3
75287520x. . .
42 67 58 32 3948 37 49 47 6452 33 35 51 4145 47 46 55 42
?8
45 47 46 55 4243 50 61 47 6757 49 57 52 47
PROMEDIO μ =50DESVÍO STD σ =10
Distribuciones muestralesDefinición: La distribución muestral de un estimador es la distribución de probabilidades de todos los posibles valores de un estimador que se pueden obtener extrayendo “infinitas” muestras aleatorias de tamaño n de la población.
La distribución de un estimador, como la de cualquier variable aleatoria, se pueden caracterizar por:
tendencia centraltendencia central variabilidadfunción de probabilidad
Las distribuciones muestrales de los estimadores pueden ser:
9aproximadas mediante técnicas de simulación derivadas matemáticamente
Volviendo al ejemplo
Distribución muestral de xDistribución muestral de x
0,30,3 MEDIAS MUESTRALESDATOS ORIGINALES
0,2
a re
lativ
a
0,2
ia re
lativ
a
0,1
frecu
enci
0,1
frecu
enci
20 30 40 50 60 70 80Media(n=5)
0,020 30 40 50 60 70 80
x
0,0
10
PROMEDIO μ =50DESVÍO STD σ =10
Distribución muestral de xDistribución muestral de
¿Y si promediamos todas las medias muestrales?
x
¿ p
=xµ ESTIMADORINSESGADO
µ¿Cuál será la variabilidad de las medias muestrales?
σ nσEl desvío estándar de un estimador se conoce como
=xσ nσEl desvío estándar de un estimador se conoce como
error estándar y da idea de la precisión en la estimación
11
Distribución muestral de xDistribución muestral de
¿Cuál será la distribución de probabilidades de ?
xx¿ p
0,3 0,30,3MEDIAS MUESTRALES0,3
DATOS ORIGINALES
DISTR
0,2
ia re
lativ
a
0,2
a re
lativ
a
0,2
a re
lativ
a
DISTR. NORMAL
0,2
a re
lativ
a
DISTR. NORMAL
0,1
frecu
enci
0,1
frecu
enci
a
0,1
frecu
enci
a
0,1
frecu
enci
20 30 40 50 60 70 80x
0,020 30 40 50 60 70 80
Media(n=5)
0,020 30 40 50 60 70 80
Media(n=5)
0,0
20 30 40 50 60 70 80x
0,0
12
PROMEDIO μ =50DESVÍO STD σ =10
PROMEDIO =50ERROR STD =4.5
xµxσ
0 4
¿Y si los datos originales no siguen una distribución normal?
0,2
0,3
ativ
a
0,3
0,4
elat
iva
DATOS ORIGINALES
μ =50σ =40 0,2
0,3
ativ
a
MEDIAS MUESTRALES
μ =50σ =9
0,1
0,2
frecu
enci
a re
la
0,1
frecu
enci
a re σ =40
0,1
frecu
enci
a re
l σ 9
DISTR. NORMAL!
25 35 45 55 65 75 85Media(n=20)
0,00 50 100 150 200 250
X
0,025 35 45 55 65 75 85
Media(n=20)
0,0
ando
…
( )
0,2
0,3
ativ
a
0,2
0,3
ativ
a
0,2
0,3
elat
iva
10
ampl
ia
0,1
frecu
enci
a re
l
n=200,1
frecu
enci
a re
la
n = 50,1
frecu
enci
a re n=10
130 50 100 150 200 250Media(n=20)
0,00 50 100 150 200 250Media(n=5)
0,0
0 50 100 150 200 250Media(n=10)
0,0
Teorema central del límiteTeorema central del límite
Si de una población con distribución no normalSi de una población con distribución no normal o desconocida con media µ y desvío estándar σ se extraen infinitas muestras aleatorias de t ñ d d ll l l l ltamaño n y a cada una de ellas se le calcula el promedio , se demuestra que dicho promedio se comporta según una variable aleatoria
xse comporta según una variable aleatoria continua con distribución normal si n es lo suficientemente grande
14
¿A qué consideramos un n “lo fi i t t d ”?suficientemente grande”?
Si la variable original es normal, entonces será xg ,normal, para cualquier nSi la variable original es aproximadamente simétrica
i d l t t d á di t ib ióx
x
x
y unimodal, entonces tenderá a una distribución aproximadamente normal para n relativamente bajosSi la variable original es marcadamente asimétrica,
x
Si la variable original es marcadamente asimétrica,entonces n deberá ser de mayor para que la distribución de sea normalx
15
En resumen:Distribución muestral de cuando σ es conocidoxst buc ó uest a de cua do σ es co oc do
1. La media de es:
x
x µµx =2. El desvío estándar de (EE) es:3. Si el tamaño de la muestra es lo suficientemente
grande o es normal la distribución de es
x nx σσ =
grande o x es normal, la distribución de es normal
x
Por lo tanto es posible calcular probabilidades utilizando: µx −
16nµxz
σ=
¿Es útil conocer la distribución de un estimador?de un estimador?
Nos permite calcular probabilidades ⇒ es la clave para hacer inferencia!hacer inferencia!
Por ejemplo: – Se sabe que el peso de la placenta de embarazos
normales a término sigue una distribución normal con un promedio de 500g y un desvío estándar de 50g.
– Se determinó el peso de la placenta en 50 partos a p p ptérmino de madres fumadoras elegidas al azar y se obtuvo un promedio de 480g.
– ¿Cuál es la probabilidad de que la media muestral sea– ¿Cuál es la probabilidad de que la media muestral sea de 480g o menor?
17
0,008
DATOS ORIGINALES0,057
MEDIAS MUESTRALES
0,004
0,006
,si
dad
0,029
0,043
sida
d
0,000
0,002
Den
0,000
0,014
Den
250 375 500 625 750
Peso de la placenta250 375 500 625 750
peso medio de 50 placentas
0,000
PROMEDIO μ =500DESVÍO STD 50
PROMEDIO =500xµDESVÍO STD σ =50 ERROR STD =50/√50=7
xxσ
=< )480(xP 0020)862( =F P l< )480(xP
86.2500480=
−=
−=
µxz
002.0)86.2( =F P-valor
18
7xσ
¿Qué necesitamos para hacer i f i ?inferencia?
una muestra aleatoriaobservaciones independientesun tamaño de muestra lo suficientemente grande
19
Algunas dudas que surgen…Algunas dudas que surgen…
¿es necesario sacar muchas (infinitas)¿es necesario sacar muchas (infinitas) muestras para poder aplicar el TCL?¿A mayor n más cerca del parámetro estará ¿ y pmi estimador?¿A mayor n menor variabilidad de los datos?¿ y
20
Distribución muestral de cuando el desvío tá d bl i l d id
xestándar poblacional es desconocido
En la práctica es habitual que TODOS los parámetros poblacionales sean desconocidos, es decir que ni elpoblacionales sean desconocidos, es decir que ni el promedio μ ni el desvío estándar poblacional σ son conocidos!Como se desconoce σ se utiliza su estimador s →
xmayor incertidumbreNo es correcto utilizar la distribución normal para
nµxz
σ−
=
µx −Se demuestra que la media muestral en estos casos ajusta a una distribución conocida como t de Student
21nsµxtGL =
Distribución t de StudentTiene forma acampanada como la normal estándar, pero su dispersión es mayor (es más aplanada). Esto se debe a que al desconocer σ hay mayor incertidumbreEs simétrica con respecto al cero, es decir que µ=0 No se trata de una única curva, sino de infinitas curvas, cada una caracterizada por un parámetro denominado grados de p p glibertad (GL)Los GL indican la cantidad de datos independientes, es decir el número de observaciones de la variable menos el número de restricciones que verificanLos GL dependen del tamaño de la muestra y en este caso valen n-1yA medida que aumentan los GL más se asemeja a la normal estándar (porque s converge a σ)
22
(p q g )
Distribución muestral de xcuando no se conoce σ
1. La media de es:2. El desvío estándar (EE) de es:
xxµµx =
nsx =σ3. Si el tamaño de la muestra es lo
suficientemente grande o x es normal, la distribución de es t de Student con n 1xdistribución de es t de Student, con n-1 grados de libertadPor lo tanto es posible calcular probabilidades
x
Por lo tanto es posible calcular probabilidades utilizando:
µxt −=
23nstn =−1