metodologÍa de investigaciÓn titular: agustín salvia mÓdulo 4: teorema del lÍmite central,...

METODOLOGÍA DE INVESTIGACIÓN

Titular: Agustín Salvia

MÓDULO 4: TEOREMA DEL LÍMITE CENTRAL, DISTRIBUCIONES Y TEST DE HIPÓTESIS

SEMINARIO DE POSGRADO

Las muestras se usan para poder inferir las características que tiene una o más variables en la población. Pero para poder inferir debemos conocer el comportamiento que presentan diferentes muestras con respecto a los parámetros de la población. El modelo que surge de estas muestras se denomina distribución muestral.

TEOREMA DEL LÍMITE CENTRAL

Dado un muestreo aleatorio de una población con media μ y varianza σ2, la media de la variable aleatoria cuando n (tamaño de la muestra) es suficientemente grande es aproximadamente normal con media μ y varianza σ2/n.

DISTRIBUCIÓN MUESTRAL

1) Si el tamaño de la muestra n es suficientemente grande (n > 30) la distribución normal de las medias será aproximadamente normal. No importa si la población es normal, sesgada u uniforme.

2. La media de la población y la media de todas las posibles muestras son iguales. Si la población es grande y un gran número de muestras son seleccionadas de esa población entonces la media de las medias muestrales se aproximará a la media poblacional.

3. En la medida que aumente el n muestral (aumente el número de muestras) la variabilidad disminurá.

DISTRIBUCIÓN MUESTRAL

DISTRIBUCIONES MUESTRALES

OTRAS DISTRIBUCIONES MUESTRALES

T DE STUDENT

BINOMIAL

CHI CUADRADO

DISTRIBUCIÓN T DE STUDENT

- La distribución t surge, en la mayoría de los estudios estadísticos prácticos, cuando la desviación típica de una población se desconoce y debe ser estimada a partir de los datos de la muestra.

- Es simétrica y unimodal, con media en 0

- Es una familia de curvas, en función de los llamados “grados de libertad” (n-1). Es decir, hay una distribución t de Student con 1 gl, una distribución t de Student con 2 gl, etc., según tamaño de la muestra.

-A medida que aumentan los grados de libertad, la distribución tiende más y más a una distribución normal estandarizada.

(Empleo: pruebas de contraste de 2 medias, entre otros)

http://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica

DISTRIBUCIONES T DE STUDENT

http://upload.wikimedia.org/wikipedia/commons/c/cf/Student_densite_best.JPG

DISTRIBUCIÓN BINOMIAL

Supongamos que un experimento aleatorio tiene las siguientes características:

-En cada prueba del experimento sólo son posibles dos resultados: el suceso A (éxito) y su contrario`A (fracaso).

-El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente.

-La probabilidad del suceso A es constante, la representamos por p, y no varía de una prueba a otra. La probabilidad de `A es 1- p y la representamos por q .

-El experimento consta de un número n de pruebas. Todo experimento que tenga estas características diremos que sigue el modelo de la distribución Binomial.

La variable binomial es una variable aleatoria discreta, sólo puede tomar los valores 0, 1, 2, 3, 4, ..., n suponiendo que se han realizado n pruebas.

DISTRIBUCIÓN BINOMIAL

http://upload.wikimedia.org/wikipedia/commons/f/fd/BinDistApprox_large.png

DISTRIBUCIÓN CHI-CUADRADO

-Nunca adopta valores menores de 0

-Es asimétrica positiva

-Es una familia de curvas, en función de los llamados “grados de libertad”. Es decir, hay una distribución chi-cuadrado con 1 gl, una distribución chi-cuadrado con 2 gl, etc.

- A medida que aumentan los grados de libertad, la distribución se hace más y más simétrica.

Empleo: En pruebas de bondad de ajuste (para comparar las puntuaciones predichas con las observadas), entre otras.

2

DISTRIBUCIONES CHI CUADRADO

TEORIA DE LA DECISIÓN

TEST DE HIPÓTESIS

EJEMPLOS

Un contraste o test de hipótesis es una técnica de Inferencia Estadística que permite comprobar si la información que proporciona una muestra observada concuerda (o no) con la hipótesis estadística formulada y, por tanto, se puede aceptar (o no) la hipótesis formulada.

Una hipótesis estadística es cualquier conjetura sobre una o varias características de interés de un modelo de probabilidad. Una hipótesis estadística puede ser:

Paramétrica: es una afirmación sobre los valores de los parámetros poblacionales desconocidos para una distribución aproximadamente normal.

No Paramétrica: es una afirmación sobre alguna característica estadística de la población en estudio cuando las variables no son métricas o su distribución no es normal o no es conocida.

Teoría de la decisión o prueba de hipótesis

Teoría de la decisión o prueba de hipótesis

La hipótesis que se contrasta se denomina hipótesis nula y se denota por H0. Si se rechaza la hipótesis nula es porque se asume como correcta una hipótesis complementaria, la cual se denomina hipótesis alternativa y se denota por H1. Al realizar cualquier contraste de hipótesis estadístico se deben seguir las siguientes etapas:

- Plantear el contraste de hipótesis definiendo la hipótesis nula (H0, hipótesis que se desea contrastar), y la hipótesis alternativa (H1, cualquier forma de negación de la hipótesis nula ).

- Seleccionar un estadístico de prueba o contraste a partir de la información que proporciona la muestra y la hipótesis H0.

- Determinar el nivel de significancia (probabilidad de error siendo H0 cierta o falsa), tipo de error y tamaño de la muestra que tendrá la

prueba.

- Definir la zona de rechazo y establecer la decisión.

Contraste o test de hipótesis

Se denomina nivel de significación de un contraste a la probabilidad de cometer un error en la decisión según sea H0 cierta (error tipo I) o falsa (error de tipo II).

El nivel de significación lo elige el experimentador y tiene por ello la ventaja de tomarlo tan pequeño como desee (normalmente se toma = 0'05, 0'01 o 0'001).

1)Error de tipo I: se rechaza la hipótesis nula cuando es cierta2)Error de tipo II: se acepta la hipótesis nula cuando es falsa

DECISIÓN REALIDAD MEJOR VIEJO MEJOR

NUEVO

MANTENERVIEJO MÉTODO ACIERTO ERROR TIPO II

MANTENERNUEVO MÉTODO ERROR TIPO I ACIERTO

Pruebas de decisión estadísticaPruebas de decisión estadística

Estandarización del procedimiento de decisión estadísticaEstandarización del procedimiento de decisión estadística

1- 1- Formulación de hipótesis estadísticaFormulación de hipótesis estadística

HH1: 1: hipótesis de trabajo o alternativa HH0: 0: hipótesis nula

2- Elección de la prueba estadística adecuada para contrastar H02- Elección de la prueba estadística adecuada para contrastar H0

3 –Especificar un nivel de significación o zona de rechazo de 3 –Especificar un nivel de significación o zona de rechazo de HH0 0

4 –Decisión estadística de rechazo o no de 4 –Decisión estadística de rechazo o no de

HH0 0


• Se utilizan para definir si cierta propiedad supuesta en la población se confirma en la muestra.

• El caso típico consiste en extraer una muestra aleatoria y someter a prueba la hipótesis de que dicha muestra se ha extraído de una población que presenta una distribución específica.

Ejemplo: A fin de mejorar el rendimiento en matemáticas de los alumnos de una escuela de 400 alumnos se brinda un curso de apoyo en contraturno. Al finalizar el curso se conoce el rendimiento alcanzado sólo por 300 de los alumnos. Se desea conocer si esa muestra es representativa de la población escolar o está sesgada por algún factor.

Sospecha1:Sospecha1: la muestra de 300 alumnos no es representativa de la población porque los alumnos más pequeños son los que no han realizado la evaluación

Sospecha2:Sospecha2: la muestra de 300 alumnos no es representativa de la población porque son los alumnos pobres los que no han realizado la evaluación

Sospecha3:Sospecha3: la muestra de 300 alumnos no es representativa de la población porque los alumnos del primer ciclo no han realizado la evaluación


• Las pruebas de hipótesis permiten poner a prueba esas sospechas y responder a los siguientes interrogantes

¿Existe una diferencia significativa de posición ¿Existe una diferencia significativa de posición (tendencia central) entre la muestra y la población?(tendencia central) entre la muestra y la población?

¿Existe una diferencia significativa entre la media de edad de los alumnos de toda la escuela y la de los 300 que resolvieron la evaluación?

Es necesario conocer la media de la población en la variable edadEs necesario conocer la media de la población en la variable edad



Sospecha1:Sospecha1: la muestra de 300 alumnos no es representativa de la población porque los alumnos más pequeños son los que no han realizado la evaluación

HH0: 0: no hay diferencias estadísticamente

significativas entre la media de edad de la muestra difiere de la media de edad de la población

HH1:1:la media de edad de la

muestra difiere de la media de edad de la población (una cola)

Media de edad de la Media de edad de la población : 9 añospoblación : 9 años

Formulación de hipótesis estadísticaFormulación de hipótesis estadística

Prueba T Prueba T StudentStudent

¿Existe una diferencia significativa entre las ¿Existe una diferencia significativa entre las proporciones observadas en la muestra y las proporciones observadas en la muestra y las que cabría esperar según la distribución de la que cabría esperar según la distribución de la población?población?


¿Existe una diferencia significativa entre la proporción de alumnos pobres que componen el total de la población y la de aquellos que realizaron la evaluación?

Es necesario conocer la proporción de al menos una de las dos Es necesario conocer la proporción de al menos una de las dos categorías (pobre / no pobre) en la poblacióncategorías (pobre / no pobre) en la población


Sospecha 2:Sospecha 2: la muestra de 300 alumnos no es representativa de la población porque son los alumnos pobres los que no han realizado la evaluación

HH1:1:la proporción de niños pobres en la

muestra es menor a la del total de la población

HH0: 0: no hay diferencias estadísticamente

significativas entre la proporción de niños pobres en la muestra y la proporción de niños pobres en la población

Proporción de niños pobres en la Proporción de niños pobres en la población: 0,3población: 0,3


Distribución Distribución BinomialBinomial

¿Existe una diferencia significativa entre las ¿Existe una diferencia significativa entre las frecuencias esperadas bajo algún principio o frecuencias esperadas bajo algún principio o modelo y las observadas en la muestra? modelo y las observadas en la muestra?


¿Existe una diferencia significativa entre la cantidad de alumnos del primer segundo y tercer ciclo que participan de la muestra asumiendo que en la población estas partes son iguales?

Es necesario definir el principio o modelo de comparación. El Es necesario definir el principio o modelo de comparación. El principio más usado en estadística es el de la distribución principio más usado en estadística es el de la distribución

democráticademocrática

HH1:1:el número de niños de 1°, 2° y 3°

ciclo que participan de la muestra difiere del de la población donde son iguales (1/3 cada ciclo)

HH0: 0: no hay diferencias

estadísticamente significativas entre el número de alumnos de la muestra y el de la población según ciclo.

Sospecha3:Sospecha3: la muestra de 300 alumnos no es representativa de la población porque la cantidad de alumnos del primer ciclo que ha realizado la evaluación es menor que la cantidad de alumnos del 2° y 3° que la han realizado

1° ciclo 1/3 1001° ciclo 1/3 100

2° ciclo 1/3 1002° ciclo 1/3 100

2° ciclo 1/3 1002° ciclo 1/3 100

Frecuencias esperadas bajo hipótesis nula



Prueba XPrueba X2 2

Pruebas de decisión estadísticaPruebas de decisión estadísticaEspecificar un nivel de significación o zona de rechazo de Especificar un nivel de significación o zona de rechazo de HH0 0

Para definir si las diferencias entre los resultados encontrados y los esperados bajo la hipótesis nula son

pequeños

equivalentes

Muy grandes

Deben fijarse niveles de probabilidad tal que sucesos con probabilidad menor a dicho

nivel induzcan a rechazar HH0 0

Nivel de significatividad Nivel de significatividad : : probabilidad de equivocarse cuando la HH0 0 es cierta (error tipo I)

Cuando esa probabilidad es muy baja puedo rechazar la HH0 0 al nivel de significación Por lo general 0,010,01 o 0,050,05

metodologÍa de investigaciÓn titular: agustín salvia mÓdulo 4: teorema del lÍmite central,...

Documents