la estadística inferencial - uam.es j.f. casanova estadística inferencial 19 estimación con...

6
1 Estadística inferencial J.F. Casanova Estadística inferencial 2 La Estadística inferencial DEFINICIÓN Estadística Inferencial (o Estadística Analítica): Es la que se ocupa de obtener conclusiones sobre las poblaciones a partir de la información recogida en las muestras. J.F. Casanova Estadística inferencial 3 La Estadística inferencial Características (1) Extrapolación , generalización Muestra conocida Población desconocida Conclusiones no absolutamente seguras, sino con cierto nivel de confianza o probabilidad de error, así como un margen de error. Tiene en cuenta el efecto del “azar J.F. Casanova Estadística inferencial 4 La Estadística inferencial Características (2) Se considera la más realista y válida para el intercambio de información entre investigadores o para su publicación Depende del tipo de muestreo En adelante supondremos muestreo aleatorio simple J.F. Casanova Estadística inferencial 5 La Estadística inferencial Partes de la Estadística inferencial Estimación de parámetros Contraste de hipótesis J.F. Casanova Estadística inferencial 6 La Estadística inferencial Estimación de parámetros Consiste en buscar los valores más probables de un parámetro en la población (por ejemplo, la media) . Como la población es desconocida, no se puede dar un valor totalmente seguro, sino un intervalo en el que probablemente se hallará, llamado Intervalo de confianza .

Upload: vandien

Post on 11-Apr-2018

231 views

Category:

Documents


4 download

TRANSCRIPT

1

Estadística inferencial

J.F. Casanova Estadística inferencial 22

La Estadística inferencial

DEFINICIÓN

Estadística Inferencial

(o Estadística Analítica):

Es la que se ocupa de obtener

conclusiones sobre las poblaciones a

partir de la información recogida en las

muestras.

J.F. Casanova Estadística inferencial 33

La Estadística inferencial

Características (1)

Extrapolación, generalización

Muestra conocida Población desconocida

Conclusiones no absolutamente seguras, sino con cierto nivel de confianza o probabilidad de error, así como un margen de error.

Tiene en cuenta el efecto del “azar”

J.F. Casanova Estadística inferencial 44

La Estadística inferencial

Características (2)

Se considera la más realista y válida para el intercambio de información entre investigadores o para su publicación

Depende del tipo de muestreo

En adelante supondremos muestreo aleatorio simple

J.F. Casanova Estadística inferencial 55

La Estadística inferencial

Partes de la Estadística inferencial

Estimación de parámetros

Contraste de hipótesis

J.F. Casanova Estadística inferencial 66

La Estadística inferencial

Estimación de parámetros

Consiste en buscar los valores más

probables de un parámetro en la población

(por ejemplo, la media).

Como la población es desconocida, no se

puede dar un valor totalmente seguro, sino

un intervalo en el que probablemente se

hallará, llamado Intervalo de confianza.

2

J.F. Casanova Estadística inferencial 77

La Estadística inferencial

Estimación de parámetros

El Intervalo de confianza irá acompañado

de la probabilidad de que el parámetro esté

en él (Nivel de confianza), o bien, su

complementaria (Probabilidad de error).

Dentro del Intervalo de confianza uno de

los valores se considera como Estimación

óptima.

J.F. Casanova Estadística inferencial 88

La Estadística inferencial

Contraste de hipótesis

Consiste en decidir si una afirmación es

cierta o no en la población, siempre en

términos probabilísticos.

Tipos de contrastes más frecuentes:

• Comparación de Muestras

• Asociación entre Variables

J.F. Casanova Estadística inferencial 99

La Estadística inferencial Relación entre Estimación de parámetros y

Contraste de hipótesis

Frecuentemente un mismo problema puede

resolverse por las dos técnicas. Ejemplo:

• Las medias de dos muestras pueden

compararse mediante una estimación

de su diferencia.

• La asociación entre dos variables

puede analizarse estimando un

parámetro que mida dicha asociación.

J.F. Casanova Estadística inferencial 10

Estimación de parámetros

CONCEPTOS Y OBJETIVOS

PROCEDIMIENTOS DE CÁLCULO

Muestras grandes

Estimación de la media

Estimación de la proporción

Muestras pequeñas

Estimación de la media

Estimación de la proporción

J.F. Casanova Estadística inferencial 1111

Estimación de parámetros ¿Qué supondríamos sobre valores desconocidos

basándonos en los que conocemos?

Vamos a empezar usando el “Sentido común”.

Ejemplo: estimación de la media de la

población.

El valor será parecido al de la muestra.

Cuanto mayor sea la muestra, más seguro es

que se parezca su media a la de la población.

Tan probable es que el valor poblacional sea

superior como inferior al de la muestra.

J.F. Casanova Estadística inferencial 1212

Estimación de parámetros ¿Cómo respondemos a la pregunta de cuál es el

valor de un parámetro?

(Por ejemplo, para la media)

Estadística Descriptiva: un solo número.

Estadística Inferencial: tres números.

estimación óptima

error de estimación

nivel de confianza

(o probabilidad de error)

3

J.F. Casanova Estadística inferencial 1313

Estimación de parámetros ¿Cómo respondemos a la pregunta de cuál es el

valor de un parámetro?

Esos tres números generan el Intervalo de

Confianza.

Es un intervalo en el que tenemos cierto nivel

de seguridad (“nivel de confianza”) de que esté

incluido el valor real de la población.

Sus límites superior e inferior se obtienen

usualmente sumando y restando al valor de la

estimación óptima el error de estimación.

J.F. Casanova Estadística inferencial 1414

Estimación de parámetros Ejemplo de Intervalo de Confianza

Estimación

óptima

L. I. L. S.

2’5% 2’5%95%

J.F. Casanova Estadística inferencial 1515

Estimación de parámetros

Obtención del Intervalo de Confianza.

Lo habitual es tomar uno centrado: La

probabilidad de que el parámetro tome un valor

superior a él es la misma que la de que sea

inferior (áreas iguales en los extremos

externos).

J.F. Casanova Estadística inferencial 1616

Estimación de parámetros

Cálculo del Intervalo de Confianza

La distribución del parámetro depende:

Del tipo de parámetro

De la distribución de los datos.

Para muestras grandes, el cálculo puede

simplificarse.

Veremos cómo estimar medias y proporciones

J.F. Casanova Estadística inferencial 1717

Estimación con muestras grandes

Cálculo del Intervalo de Confianza

Recordemos que el “Sentido común” nos decía:

El valor será parecido al de la muestra: más

probables los valores próximos a la media

muestral que los alejados de ella.

Es igual de probable que el valor de la

población sea mayor o menor que el de la

muestra.

Por tanto la distribución de probabilidad del

parámetro tenderá a ser simétrica y acampanada.

J.F. Casanova Estadística inferencial 1818

Estimación con muestras grandes

Cálculo del Intervalo de Confianza

Eso está demostrado matemáticamente:

Teorema Central del Límite

(Ley de los Grandes Números)

“La distribución de las medias obtenidas al

repetir infinitas veces un experimento con

muestras del mismo tamaño es

aproximadamente una Curva de Gauss, si el

tamaño muestral es suficientemente grande.”

4

J.F. Casanova Estadística inferencial 1919

Estimación con muestras grandes

Estimación de la media

Cuando n ≥ 30, al repetir el experimento, las

medias obtenidas siguen aproximadamente una

distribución Normal

cuya media es la de la población

y cuya desviación típica es el llamado “error

estándar de la media”,

donde P es la desviación típica de la población.n

σs P

x

J.F. Casanova Estadística inferencial 2020

Estimación con muestras grandes

Estimación de la media

De ahí se puede deducir que la distribución de los

valores probables de la media de la población es

aproximadamente la Normal, centrada en la media

muestral y que tiene como desviación típica el

error estándar de la media.

J.F. Casanova Estadística inferencial 2121

Estimación con muestras grandes

Estimación de la media

Pero la desviación típica de la población, P,

usualmente es desconocida.

Como estimación de la desviación típica de la

población se usa habitualmente la llamada cuasi

desviación típica de la muestra (S), que se calcula

igual que la desviación típica, pero poniendo en el

denominador n-1 en lugar de n.

J.F. Casanova Estadística inferencial 2222

Estimación con muestras grandes

Estimación de la media

Una vez que sabemos cuál es la distribución de

probabilidad, podemos seleccionar los límites

(inferior y superior) del Intervalo de confianza que

abarquen la probabilidad correspondiente al Nivel

de confianza que queremos utilizar.

J.F. Casanova Estadística inferencial 2323

Estimación con muestras grandes

Estimación de la media

Obtención de un Intervalo de confianza centrado,

al Nivel de confianza del 95% (el más habitual) en

la distribución Normal:

Se toman como extremos los puntos cuya distancia de

la media sea 1’96 veces la desviación típica

Estos límites pueden expresarse así:

]96'1,96'1[ xx sxsx

xsx 96'1

J.F. Casanova Estadística inferencial 2424

Estimación con muestras grandes

Detalles sobre la Estimación de parámetros

Para el Nivel de confianza del 99%, se sustituye el

1’96 por el 2’58.

Para el del 99’9%, se sustituye por el 3’29.

Como el error estándar es inversamente

proporcional al cuadrado del tamaño muestral:

Doble de precisión

Cuatro veces más individuos

(La precisión estadística es cara).

5

J.F. Casanova Estadística inferencial 2525

Estimación con muestras grandes

Ejemplo

En un grupo de 100 insuficientes hepáticos

aleatoriamente escogidos se midió el

urobilinógeno expulsado al día en la orina,

encontrándose una media de 450 g y una cuasi

desviación típica de 60 g.

Se desea saber con seguridad del 99% entre qué

límites se halla el valor medio para todos los

afectados por dicha enfermedad.

J.F. Casanova Estadística inferencial 2626

Estimación con muestras grandes

Ejemplo

error estándar de la media:

intervalo de confianza al 99%:

6·58'245058'2:(99%) I.C. xsx

6100

60

n

Ssx

465'5) (434'5, = 15'5450:(99%) I.C.

J.F. Casanova Estadística inferencial 2727

Estimación con muestras grandes

Estimación de la proporción

Cuando n ≥ 100, al repetir el experimento, las

proporciones obtenidas siguen aproximadamente

una distribución Normal

centrada en la proporción de la muestra, p

y cuyo error estándar es:

n

p)-p·(1sp

J.F. Casanova Estadística inferencial 2828

Estimación con muestras pequeñasEstimación de la media

1) Datos que proceden de una distribución Normal

Cuando los datos siguen una distribución Normal,

las medias en el muestreo siguen la distribución t

de Student.

Su forma es también simétrica y acampanada y

depende de la media, la desviación típica y,

además, de un nuevo parámetro, llamado número

de grados de libertad, (g.l.)

El número de grados de libertad en este caso es

n - 1.

J.F. Casanova Estadística inferencial 2929

Estimación con muestras pequeñasEstimación de la media

1) Datos que proceden de una distribución Normal

Para calcular un intervalo de confianza, en vez de

multiplicar el error estándar por los valores de la

curva normal, lo haremos por el valor que

aparezca en las tablas de la t de Student.

Al crecer el número de grados de libertad (por

tanto, el tamaño de la muestra), la t de Student se

aproxima a la distribución Normal.

3030

Estimación con muestras pequeñas

Tablas de la t de Student

6

J.F. Casanova Estadística inferencial 3131

Estimación con muestras pequeñas

Ejemplo

Grupo de 9 individuos, con media de 91 y una

cuasi desviación típica de 12

Intervalo de confianza al 95%:

4·306'291:(95%) I.C. xstx

49

12

n

Ssx

100'22) (81'78, = 9'2291:(95%) I.C.

8.l.g

J.F. Casanova Estadística inferencial 3232

Estimación con muestras pequeñasEstimación de la media

2) Datos que NO proceden de una distribución Normal

Si la distribución de los datos es próxima a la

Normal, se puede usar este mismo método (el de la

t de Student).

Si no es próxima a la Normal, aplicar una

transformación de los datos (cambio de variable)

para lograr una que sí se aproxime.

Si no se puede aplicar ninguna de estas dos

soluciones, no se calcula el Intervalo de Confianza.

J.F. Casanova Estadística inferencial 3333

Estimación con muestras pequeñas

Estimación de la proporción

Cuando n < 100, la aproximación a la Normal no

es válida: Se requiere utilizar la distribución real,

que este caso es la Binomial.

Para obtener los Intervalos de confianza sin tener

que hacer cálculos extensos, se pueden emplear

tablas que dependen de n y de p.