56208141-unidad-4-canul_1

Upload: ian-miller

Post on 14-Apr-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/30/2019 56208141-unidad-4-canul_1

    1/10

    4 PRUEBAS DE HIPTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOSNUMRICOS.

  • 7/30/2019 56208141-unidad-4-canul_1

    2/10

    4.1 PRUEBA DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMRICOS.

    La prueba de hiptesis para dos muestras es casi semejante a la prueba de una sola muestra es decir que

    este captulo se tomaran dos muestras aleatorias para determinar si proviene de una misma poblacin o a su

    vez de poblaciones iguales.

    As mismo puedo entender que en el caso de que se den las dos poblaciones iguales, se esperara que la

    media entre las dos medias mustrales sea cero.

    En el caso que existan poblaciones independientes, estas son iguales a la suma de dos variables

    individuales.

    Por ende las muestras deben ser suficientemente grandes para que la distribucin de las medias mustrales

    siga una distribucin normal.

    As mismo constituyo que para realizar una comparacin de poblaciones con muestras pequeas es

    necesario tener en cuanta las siguientes suposiciones: las dos muestras provienen de poblaciones

    independientes, de igual manera las desviaciones estndar de las dos poblaciones son iguales, as mismo las

    poblaciones muestreadas siguen una distribucin normal.

    Como consiguiente tenemos que el nmero de grados de libertad en la prueba es igual al nmero total de

    elementos muestreados, menos el nmero de muestras.Existen casos en que las muestras no son independiente sino son dependientes o que a su ves estas estn

    relacionadas entre si

    Por tal razn puedo entender que existen dos tipos de muestras dependientes,

    1.- las que se caracterizan por una medicin, una intervencin de cierto tipo y esta a su ves otra medicin.

    2.- existe una formacin de pares de las observaciones correspondientes.

    La inferencia estadstica se ocupa de la obtencin de conclusiones en relacin a un gran nmero de sucesos,

    en base a la observacin de una muestra obtenida de ellos.

    Los mtodos de la estadstica inferencial sealan los procedimientos que se han de seguir para poder extraer

    conclusiones vlidas y fiables, a partir de la evidencia que suministra las muestras.

    Dos son los problemas que trata de resolver la estadstica inferencial en torno a las pruebas estadsticas: 1

    determinar si es probable que un valor obtenido a partir de una muestra pertenece realmente a una poblacin;

    2 determinar, en trminos de probabilidad, si las diferencias observadas entre dos muestras significan que

    las poblaciones de las que se han obtenido las muestras son realmente diferentes.

    A partir de ambas determinaciones se desarrollan los fundamentos de las pruebas de decisin estadsticas o

    pruebas de hiptesis (en ingls, test of hypothesis).

    Existen dos tipos de tcnicas estadsticas inferenciales: las paramtricas y las aparamtricas. Las primeras

    establecen un buen nmero de restricciones sobre la naturaleza de la poblacin de la que se obtiene los

    datos, siendo los los valores numricos de la poblacin. Las segundas, llamadas tambin de

    , no exigen tantas restricciones sobre la naturaleza de la poblacin, ya que atienden

    ms a la ordenacin de los datos que a su valor numrico.

    4.2 distribuciones normal y t de estudent.

  • 7/30/2019 56208141-unidad-4-canul_1

    3/10

    Distribucin Normal

    DISTRIBUCION NORMAL La distribucin normal es muy importante por lo siguiente:

    Esta distribucin es frecuentemente utilizada en las aplicaciones estadsticas. Su propio nombre indica su

    extendida utilizacin, justificada por la frecuencia o normalidad con la que ciertos fenmenos tienden a

    parecerse en su comportamiento a esta distribucin.

    Muchas variables aleatorias continuas presentan una funcin de densidad cuya grfica tiene forma de

    campana.

    En otras ocasiones, al considerar distribuciones binomiales, tipo B(n,p), para un mismo valor de p y valores

    de n cada vez mayores, se ve que sus polgonos de frecuencias se aproximan a una curva en "forma de

    campana".

    En resumen, la importancia de la distribucin normal se debe principalmente a que hay muchas variables

    asociadas a fenmenos naturales que siguen el modelo de la normal

    Caracteres morfolgicos de individuos (personas, animales, plantas,...) de una especie, p.ejm. tallas, pesos,

    envergaduras, dimetros, permetros,...

    Caracteres fisiolgicos, por ejemplo: efecto de una misma dosis de un frmaco, o de una misma cantidad de

    abono.

    Caracteres sociolgicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos,

    puntuaciones de examen.

    Caracteres psicolgicos, por ejemplo: cociente intelectual, grado de adaptacin a un medio,...

    Errores cometidos al medir ciertas magnitudes.

    Valores estadsticos muestrales, por ejemplo : la media.

    Otras distribuciones como la binomial o la de Poisson son aproximaciones normales, ...

    Y en general cualquier caracterstica que se obtenga como suma de muchos factores.

    En probabilidad y estadstica, la distribucin t (de Student) es una distribucin de probabilidad que surge delproblema de estimar la media de una poblacin normalmente distribuida cuando el tamao de la muestra es

    pequeo.

    Aparece de manera natural al realizar la prueba t de Student para la determinacin de las diferencias entre

    dos medias muestrales y para la construccin del intervalo de confianza para la diferencia entre las medias de

    dos poblaciones cuando se desconoce la desviacin tpica de una poblacin y sta debe ser estimada a partir

    de los datos de una muestra.

  • 7/30/2019 56208141-unidad-4-canul_1

    4/10

    4.3 pruebas de significancia

    Las pruebas de significancia estadstica son un procedimiento que brinda un criterio objetivo para calificar las

    diferencias que se presentan al comparar los resultados de dos muestras, con el objetivo de explicar si dichas

    diferencias se mantienen dentro de los lmites previstos por el diseo estadstico (un error y una confianza

    esperados) o si, por el contrario, la diferencia entre ellas resulta lo suficientemente grande como para inferir

    que ha ocurrido un cambio real en el indicador. Estas pruebas son importantes porque con frecuencia se

    tiende a analizar los datos de una encuesta por muestreo probabilstico como si fueran los datos provenientes

    de un censo. De ah que muchas veces se asume la diferencia en el valor de un indicador, de un trimestre

    con respecto a otro, como si fuera una diferencia real cuando no necesariamente es as.

    En estadstica, un resultado se denomina estadsticamente significativo cuando no es probable que haya sido

    debido al azar. Una "diferencia estadsticamente significativa" solamente significa que hay evidencias

    estadsticas de que hay una diferencia; no significa que la diferencia sea grande, importante, o significativa en

    el sentido estricto de la palabra.

    El nivel de significacin de un test es un concepto estadstico asociado a la verificacin de una hiptesis. En

    pocas palabras, se define como la probabilidad de tomar la decisin de rechazar la hiptesis nula cuando sta

    es verdadera (decisin conocida como error de tipo I, o "falso positivo"). La decisin se toma a menudo

    utilizando el valor P (o p-valor): si el valor P es inferior al nivel de significacin, entonces la hiptesis nula es

    rechazada. Cuanto menor sea el valor P, ms significativo ser el resultado.

    En otros trminos, el nivel de significatividad de un contraste de hiptesis es una probabilidad P tal que la

    probabilidad de tomar la decisin de rechazar la hiptesis nula - cuando sta es verdadera - no es mayor que

    P.

    4.4 comparacin de dos muestras independientes: pruebas t para las diferencias entre dos medias.

    Para comparar las medias de dos muestras procedentes de dos poblaciones normales e independientes, se

    utiliza el procedimiento Prueba T para muestras independientes, y para ello, se selecciona:

    A continuacin se abre una ventana con los siguientes campos:

    Contrastar variables: donde se han de introducir las variables que se van a analizar, es decir, aquellas

    variables sobre las que se va a contrastar si hay o no, diferencias de grupos.

    Variable de agrupacin: aqu se debe introducir la variable que se utiliza para definir los grupos de sujetossobre los que se estudian las diferencias. Entonces el sistema activa el botn definir grupos y al presionarlo

    aparece una ventana donde se introducen los valores de la variable que definen los dos grupos de sujetos a

    comparar, o el valor de la variable que har de corte para definir dichos grupos. Si el valor de la variable para

    un individuo es menor o igual que el valor especificado, el individuo pertenecer al primer grupo, y en caso

    contrario, al segundo.

  • 7/30/2019 56208141-unidad-4-canul_1

    5/10

    Opciones: presionando este botn se obtiene una ventana donde se especifica igual que en la seccin

    anterior el nivel de confianza para el intervalo y la forma de tratar los valores missing.

    . Vamos a comprobar si existen diferencias significativas entre los tiempos medios de dedicacin a la

    docencia, para los profesores asociados y los titulares de universidad de profesores2.sav. Para ello,

    seleccionamos el procedimiento prueba t para muestras independientes, y elegimos la variable tiemdoc para

    llevarla al campo contrastar variables. Seguidamente seleccionamos como variable agrupacin la variable

    categora, presionamos el botn definir grupos, y tecleamos un 1 en el primer grupo y un 3 en el segundo. por

    ltimo pulsamos continuar y aceptar para ejecutar el procedimiento.

    Uno de los anlisis estadsticos ms comunes en la prctica es probablemente el utilizado para comparar dos

    grupos independientes de observaciones con respecto a una variable numrica. Como ejemplo,

    consideremos los datos que se muestran en la correspondientes a 75 individuos con sobrepeso sometidos a

    dos dietas alimenticias distintas, de modo que se desea comparar el peso de los individuos que iniciaron cada

    una de las dietas.

    Como ya se ha adelantado, la aplicacin de un contraste paramtrico requiere la normalidad de las

    observaciones para cada uno de los grupos. La comprobacin de esta hiptesis puede realizarse tanto por

    mtodos grficos (por medio de histogramas, diagramas de cajas o grficos de normalidad) como mediante

    tests estadsticos5 (test de Kolmogorov-Smirnov, test de Shapiro-Wilks). Un nmero suficiente de

    observaciones (digamos mayor de 30) como ocurre en el ejemplo planteado justifica, no obstante, la

    utilizacin del mismo test. As mismo, este tipo de metodologa exigir que la varianza en ambos grupos de

    observaciones sea la misma. En primer lugar se desarrollar el test t de Student para el caso en el que se

    verifiquen ambas condiciones, discutiendo posteriormente el modo de abordar formalmente el caso en el que

    las varianzas no sean similares.

    Bajo las hiptesis de normalidad e igual varianza la comparacin de ambos grupos puede realizarse en

    trminos de un nico parmetro como el valor medio, de modo que en el ejemplo planteado la hiptesis departida ser, por lo tanto:

    H0: La media de peso inicial es igual en ambos grupos

    Se denotar por {X1, X2,...,Xn} e {Y1,Y2,...,Ym} al peso observado en cada uno de los sujetos sometidos a la

    dieta A y a la dieta B respectivamente. En general no se exigir que coincida el nmero de observaciones en

    cada uno de los grupos que se comparan, de modo que en el ejemplo n=40 y m=35.

    El t test para dos muestras independientes se basa en el estadstico:

  • 7/30/2019 56208141-unidad-4-canul_1

    6/10

    4.5 pruebas de Fisher para varianzas y de igualdad de las varianzas de dos poblaciones normales.

    Ejemplos para comparar varianzas Cuando la comparacin es entre varianzas, que es un parmetro de

    dispersin, entonces se trabaja con el test F de R. A. Fisher. Si se tienen dos muestras y se quiere

    determinar si sus dispersiones se pueden considerar como idnticas o como diferentes, el mtodo que sedebe seguir es como sigue: Se calculan las varianzas respectivas de las dos muestras, por lo que es

    necesario primero estimar las desviaciones tpicas o estndar, ya que la varianza es el cuadrado de la

    desviacin tpica. 1) Luego que se conocen las dos varianzas de las muestras, se establece una relacin

    dividiendo la que tenga mayor valor con la que tenga menor valor y esa es la relacin F. Igualmente para

    cada muestra se calcula su grado de libertad , o sea: el nmero de datos menos la unidad. 2) Ahora se debe

    comparar el valor calculado de F con los valores de la Tabla de Fisher, segn los nmeros de grados de

    libertad, a fin de observar el nivel de significacin, para poder aceptar o no la hiptesis nula. Cuando el valor

    de F calculado para las muestras es superior al valor F de la Tabla de Fisher, se puede admitir que el

    resultado es ms significativo que el nivel de significacin elegido. En seguida aplicaremos el mtodo con un

    ejemplo: Se utilizan dos mens en un restaurante urbano para medir el grado de aceptacin por parte de loscomensales y saber si los dos mens se pueden o no utilizar indiferentemente. Para ello se ejecutan 5

    pruebas con el Men A y 7 pruebas con el Men B, calificando con puntos las respuestas de los clientes

    (desde 0 grado de aceptacin, hasta el grado 10 el cual indica un mximo puntaje de aceptacin). Veamos

    los datos siguientes: Valores para las cinco pruebas con el men A, 4,5,6,5,5 ( y llevados al cuadrado son,

    16,25,36,25,25); los valores para las siete pruebas con el Men B son: 3, 4, 5, 4,2,0,0 (y sus valores al

    cuadrado son: 9,16,25,16,4,0,0) Al estimar la varianza para el Men A nos arroja 0,50 y para el Men B nos

    arroja 3,95. Ahora podemos establecer la relacin entre las varianzas para estimar la F emprica: F = 3,95 /

    0,5 = 7,90. Vamos a la Tabla F de Fisher y observamos los diferentes niveles de significacin para Valores

    Crticos de F, o sea: Niveles de significacin: 20% 10% 5% 1% 0,1% Valor crtico de F: 2,5; 4,0; 6,2; 15,2;

    50,5 Ahora bien si comparamos el valor obtenido de las muestras igual a F=7,98, podemos decir que se

    ubicara en la Tabla de Fisher entre 5% y 1%, porque es mayor que 6,2 y menor que 15,2. Entonces,podemos rechazar la Hiptesis Nula que dira que las dos varianzas son iguales, y admitir la Hiptesis

    Alternativa o de Trabajo, la cual dira que las dos varianzas son diferentes, debido a la baja probabilidad de

    que sean las mismas. El dueo del restaurante tendra que saber que puede utilizar los dos mens de una

    manera indiferente. Tambin se pueden comparar datos de venta de un mismo producto turstico en dos

    pases emisivos distintos, para saber si existe diferencia significativa entre sus dos varianzas (si son las

    mismas o son diferentes) y tomar una decisin de venta ms racional.

    4.6 comparaciones de dos muestras pareadas.

    Las muestras apareadas se obtienen usualmente como distintas observaciones realizadas sobre los mismos

    individuos. Un ejemplo de observaciones pareadas consiste en considerar a un conjunto de n personas a las

    que se le aplica un tratamiento mdico y se mide por ejemplo el nivel de insulina en la sangre antes (X) y

    despus del mismo (Y). En este ejemplo no es posible considerar aX eY como variables independientes ya

    que va a existir una dependencia clara entre las dos variables.

  • 7/30/2019 56208141-unidad-4-canul_1

    7/10

    Si se quiere contrastar si hay diferencia entre las poblaciones, llamemos di a la

    diferencia entre las observaciones antes y despus. El concepto de prueba pareada se puede extender a

    comparaciones de ms de dos grupos y hablaremos entonces de bloques de m elementos (tantos elementos

    por bloque como grupos o tratamientos), siendo por tanto una pareja un caso particular de bloque de 2

    elementos. Hablaremos de este tipo de diseos ms adelante, cuando dediquemos algn artculo al anlisis

    de la varianza, que es la prueba que se utiliza para comparar ms de dos grupos. En estas tcnicas de

    formacin de bloques el investigador deja de ser un mero observador, para pasar a "disear" el estudio o

    experimento, y es una metodologa de gran utilidad en muchos tipos de trabajos de investigacin en diversas

    reas, desde la agricultura donde se inici, a la medicina, biologa, e ingeniera. El fundamento en el que se

    basan es en suponer que el bloque es ms homogneo que el conjunto, por lo que restringiendo las

    comparaciones entre tratamientos al interior de los bloques se espera obtener una mayor precisin.

    4.7 modelo totalmente aleatorio: anlisis de varianza de un factor.

    En estadstica, el anlisis de la varianza (ANOVA, segn terminologa inglesa) es una coleccin de modelosestadsticos y sus procedimientos asociados, en el cual la varianza est particionada en ciertos componentes

    debidos a diferentes variables explicativas.

    Las tcnicas iniciales del anlisis de varianza fueron desarrolladas por el estadstico y genetista R. A. Fisher

    en los aos 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "anlisis de varianza de

    Fisher", debido al uso de la distribucin F de Fisher como parte del contraste de hiptesis.

    Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren diferencias

    incomparables en el material o grupo experimental. El ejemplo ms simple es el de estimar la media

    desconocida de una poblacin compuesta de individuos diferentes y en el que esas diferencias se mezclan

    con los errores del instrumento de medicin.

    Este modelo se supone cuando el investigador est interesado por una poblacin de niveles, tericamente

    infinitos, del factor de estudio, de los que nicamente una muestra al azar (t niveles) estn presentes en el

    experimento.

    El anlisis de la varianza permite contrastar la hiptesis nula de que las medias de K poblaciones (K >2) son

    iguales, frente a la hiptesis alternativa de que por lo menos una de las poblaciones difiere de las dems en

    cuanto a su valor esperado. Este contraste es fundamental en el anlisis de resultados experimentales, en los

    que interesa comparar los resultados de K 'tratamientos' o 'factores' con respecto a la variable dependiente o

    de inters.

    El Anova requiere el cumplimiento los siguientes supuestos:

  • 7/30/2019 56208141-unidad-4-canul_1

    8/10

    Las poblaciones (distribuciones de probabilidad de la variable dependiente correspondiente a cada factor) son

    normales.

    Las K muestras sobre las que se aplican los tratamientos son independientes.

    Las poblaciones tienen todas igual varianza (homoscedasticidad).

    El ANOVA se basa en la descomposicin de la variacin total de los datos con respecto a la media global

    (SCT), que bajo el supuesto de que H0 es cierta es una estimacin de obtenida a partir de toda la

    informacin muestral, en dos partes:

    Variacin dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersin de los valores de cada

    muestra con respecto a sus correspondientes medias.

    Variacin entre muestras (SCE) o Inter-grupos, cuantifica la dispersin de las medias de las muestras con

    respecto a la media global.

    4.8 seleccin del tamao de muestra para estimar la diferencia de dos medias.En ocasiones interesa definir un intervalo de valores tal que permita establecer cules son los valores mnimo

    y mximo aceptables para la diferencia entre las medias de dos poblaciones. Pueden darse dos situaciones

    segn las muestras sean o no independientes; siendo en ambos casos condicin necesaria que las

    poblaciones de origen sean normales o aproximadamente normales:

    MUESTRAS INDEPENDIENTES

    Si puede suponerse que las varianzas de ambas poblaciones son iguales, el intervalo de confianza para la

    diferencia de medias poblacionales est centrado en la diferencia de las medias muestrales, siendo sus

    lmites superior e inferior:

    t /2 es el valor crtico correspondiente al grado de confianza 1- de la distribucin t de Student con n1+ n2-2

    grados de libertad y es una estimacin de la desviacin tpica comn a

    ambas poblaciones obtenida a partir de las varianzas de las dos muestras. En la prctica si n1 y n2 son

    moderadamente grandes, el valor crtico

    t /2 se aproxima, como ya se ha visto anteriormente, a los valores de la distribucin normal.

    Si las varianzas poblacionales no pueden suponerse iguales los lmites del intervalo de confianza son:

  • 7/30/2019 56208141-unidad-4-canul_1

    9/10

    El valor crtico t /2 corresponde a una distribucin t cuyos grados de libertad se calculan en base a ambos

    tamaos muestrales y a las desviaciones tpicas de cada grupo segn la correccin propuesta por Dixon y

    Massey:

    Para obtener el intervalo de confianza en ambos casos la secuencia es:

    Analizar

    Comparar medias

    Prueba T para muestras independientes

    Los grupos pueden definirse en funcin de una variable cuantitativa o de una cualitativa. Si la variable de

    agrupacin presenta slo dos valores o modalidades, entonces se debe seleccionar Usar valores

    especificados e indicar la modalidad que define el grupo 1 y la del grupo 2. Si la variable tiene ms de 2

    valores o modalidades se elige la opcin Punto de corte indicando el valor de la variable que induce una

    particin en dos grupos, uno de los cuales estar formado por todos los casos con valores menores que el

    especificado y el otro por el resto de casos.

    Al aceptar se obtienen:

    - resultados de la prueba de Levene para contrastar la igualdad de varianzas *

    - resultados de la prueba T para contrastar la igualdad de medias

    - intervalo de confianza para la diferencia de medias al 95% por defecto.

    Si se quiere cambiar el grado de confianza del intervalo, antes de aceptar hay que modificarlo con el botn

    Opciones.

    MUESTRAS DEPENDIENTES. En este caso las muestras estn formadas por parejas de valores, uno de

    cada poblacin y el estadstico se obtiene a partir de las diferencias de los valores de las dos variables

    correspondientes a cada caso o di que se define como di= xi-yi.

    Para contrastar la hiptesis de igualdad de medias y obtener el intervalo de confianza la secuencia es:

    Analizar

    Comparar medias

    Prueba T para muestras independientes

  • 7/30/2019 56208141-unidad-4-canul_1

    10/10

    4.9 aplicaciones