PLANTE
AMIENTO
DE
HIPÓTE
SIS E
N MÁS D
E
DOS POBLA
CIONES
RE
ST A
UR
AN
TE
S 2
PLANTEAMIENTO DE HIPÓTESIS EN MÁS DE DOS POBLACIONES
Algunas veces se consideran problemas en que debemos decidir si las diferencias observadas entre más de dos medias se pueden atribuir al azar o si existen diferencias reales entre las medias de las poblaciones de las que se obtuvieron las muestras.
Y esto se estudia cuando por ejemplo lo que queremos conocer sobre la base de datos muéstrales, si en realidad existe alguna diferencia:
en la efectividad de 3 métodos de enseñanza de una lengua extranjera, o quizás
queremos comparar la producción promedio por caballería de distintas variedades de arroz.
Un investigador agrícola pudiera estar interesado en saber que tipo de fertilizante da mejores rendimientos,
ó sí en determinado laboratorio médico se desea evaluar el efecto de diferentes medicamentos en la presión sanguínea. El método que utilizamos para este propósito es un instrumento estadístico poderoso conocido como ANALISIS DE VARIANZA.
PLANTEAMIENTO DE HIPÓTESIS EN MÁS DE DOS POBLACIONES
FORMULARIO
1: 2
2
0 D
E
SESE
H 1: 2
2
1 D
E
SESE
H
k
i
k
iiji
k
ii
k
i
ni
jij nindondeyyTTTdonde
nT
y111
2
1 1
2
2
122
n
N i
k
ii
T
22 T
22 T
insesgadoestimadorunesSEdondeyykn
S D
ni
jiijD
222
1
2 1
22
2
2
1221
2
2
011
E
i
k
iii
E
k
iii
E
SElaentonces
yquecasoesteenesqueyaciertanulahipótesislabajoinsesgadoserásóloy
desesgadoestimadorunesquelopork
nSEsudonde
k
yynS
2
11 1
2
1 1
2
k
iii
k
i
ni
jiij
k
i
ni
jij yynyyyy
122
k
SCCMS
kn
SCCMS E
EED
DD
FUENTE DE VARIACIÓN
SUMA DE CUADRADOS
GRADOS DE LIBERTAD
CUADRADO MEDIO
ESTADÍSTICO
ENTRE GRUPO
2
1
K
Iii yyn k – 1
1nSCE F0 = 2
2
D
E
S
S
k
i
ni
jiij yy
1
2
1
n – k kn
SCD
DENTRO DE GRUPO
TOTAL
K
i
ni
jij yy
1 1
2 N - 1
INTRODUCCION
Una hipótesis estadística es una asunción relativa a una o varias poblaciones, que puede ser cierta o no. Las hipótesis estadísticas se pueden contrastar con la información extraída de las muestras y tanto si se aceptan como si se rechazan se puede cometer un error.
Student y Ronald Fisher iniciaron una nueva era en el estudio de las distribuciones muéstrales. Ronald Aylmer Fisher encontró en muestras procedentes de una población normal, la distribución del coeficiente de correlación, los coeficientes de regresión, los coeficientes de correlación múltiple y de proporción de variables conocida por el nombre de F.
Esta distribución de probabilidad se usa como estadística prueba en varias situaciones. Se emplea para probar si dos muestras provienen de poblaciones que poseen varianzas iguales. Esta prueba es útil para determinar si una población normal tiene una mayor variación que la otra y también se aplica cuando se trata de comparar simultáneamente varias medias poblacionales. La comparación simultánea de varias medias poblacionales se conoce como análisis de varianza (ANOVA). En ambas situaciones, las poblaciones deben ser normales y los datos tener al menos la escala de intervalos.
ANÁLISIS DE VARIANZA
El análisis de varianza, como técnica de lo que trata es: si se está estudiando la característica cuyos valores dependen de varias clases de efectos que operan simultáneamente, poder decidir si tales efectos son debido al azar o si realmente son diferentes.
Esta técnica de lo que trata es de expresar una medida de la variación total de un conjunto de datos como una suma de términos, que se pueden atribuir a fuentes o causas específicas de variación; pues bien esta descomposición de la varianza total se denomina: Identidad fundamental. Ella junto a la formación del estadístico de prueba, se refleja en una tabla llamada “Tabla de Análisis de Varianza”, que resume los principales aspectos teóricos prácticos de la técnica.
Hay un corolario que plantea que:
Si “k” poblaciones se unen y las varianzas de las “k” poblaciones son iguales a 2 se tiene que:
2
122
n
N i
k
ii
T
Por lo tanto si todas las medias son iguales entonces:
22 T , mientras que si alguna es diferente, se puede concluir que 22 T
De modo que una comparación de varianza puede conducir a una conclusión sobre la igualdad de medias poblacionales.
El método que se utiliza es a través de los estimadores de 2.
Hay un Teorema que plantea que:
Si dos o más muestras proceden de una misma población o de diferentes poblaciones, pero con igual varianza, entonces un estimador insesgado de 2 podrá obtenerse a través de la siguiente expresión:
insesgadoestimadorunesSEdondeyykn
S D
ni
jiijD
222
1
2 1
A esta varianza se le da el nombre de Varianza dentro del grupo.
Hay otro Teorema, bajo las mismas condiciones que el anterior que plantea que
otro estimador de 2 es:
22
2
2
1221
2
2
011
E
i
k
iii
E
k
iii
E
SElaentonces
yquecasoesteenesqueyaciertanulahipótesislabajoinsesgadoserásóloy
desesgadoestimadorunesquelopork
nSEsudonde
k
yynS
Este estimador es conocido como varianza entre grupos.
Esta situación que expresan estos estimadores se pudiera representar gráficamente de la siguiente forma:
Para H0 cierta: Para H0 falsa:
x 1 ________ x 1
x x
3 x 2 3
x 2
1 2 3 1 2 3
En este caso las i no son iguales pero los elementos de las 3 poblaciones si casi iguales sus valores están cercanos son muy diferentes y originan medias muestrales muy diferentes.
Si estamos en caso de H0 falsa, y se nos presenta esta situación se diferencia en la suma de cuadrado entre grupo esta diferencia, mientras que si estamos en el caso de H0 cierta la diferencia entre los grupos es mínima.
En el caso de la SC, dentro de los grupos lo que hace es comparar cada elemento de la muestra con la media de su propio grupo, para una u otra conclusión de la hipótesis nula, su cálculo no se refleja, el valor es el mismo.
Como ya dijimos, el análisis de varianza consiste en dividir la suma de cuadrado total en dos fuentes de variación y proceder al análisis de las mismas, estas son la variación dentro del grupo y la variación entre grupos. Como son variaciones la vamos a expresar como sumas de cuadrados, es decir:
SCT = SCD + SCE
__ __ __ __
(Yij - Y) = (Yij - Yi) + (Yi – Y)
Representando estas la variación total que es igual a la variación dentro del grupo más la variación entre grupos, gráficamente se representa de la siguiente forma:
_ . yij - yi .
. _
_ . yij -y
y1 .
_ _ .
yi - y . _
Y
.
.
_ .
y2 .
Si elevamos al cuadrado ambos miembros, y sumamos por “j” e “i”, llegamos a la Identidad Fundamental, planteada anteriormente.
2
11 1
2
1 1
2
k
iii
k
i
ni
jiij
k
i
ni
jij yynyyyy donde se considera:
Suma de Suma de Suma de
Cuadrado Cuadrado Cuadrado
Total Dentro del Grupo Entre Grupo
De la misma forma resulta de gran importancia en el Análisis de varianza, la relación entre los grados de libertad (que ya se habló de ellos en el Tema anterior).
Si se aplica el valor esperado en ambos miembros se obtienen, bajo el supuesto de H0 cierto de que, los grados de libertad asociados a estas sumas de cuadrados serán:
(n – 1) = (n – k) + (k – 1) Esto es, Para la SCT, = para la SCD y para la SCE
Si dividimos las Sumas de Cuadrados entre los grados de libertad, se obtendrán
los estimadores de 2 planteados, es decir la varianza total 2TS la varianza dentro
del grupo 2DS , y la varianza entre grupo 2
ES . También estos cocientes se
denominan Cuadrados Medios.
122
k
SCCMS
kn
SCCMS E
EED
DD
Debido a que el cálculo de varianzas entre y dentro de grupos hay varios pasos, se acostumbra a dar al grupo completo de resultados en una tabla conocida como tabla de análisis de varianza (ANOVA). Esta tabla incluye las fuentes de variación, las sumas de los cuadrados(es decir las variaciones), los grados de libertad, las varianzas(es decir los cuadrados medios) y el valor del estadístico de prueba que veremos más adelante.
FUENTE DE VARIACIÓN
SUMA DE CUADRADOS
GRADOS DE LIBERTAD
CUADRADO MEDIO
ESTADÍSTICO
ENTRE GRUPO
2
1
K
Iii yyn k – 1
1nSCE F0 = 2
2
D
E
S
S
k
i
ni
jiij yy
1
2
1
n – k kn
SCD
DENTRO DE GRUPO
TOTAL
K
i
ni
jij yy
1 1
2 N - 1
Vamos a ver un Ejemplo:
Los datos siguientes corresponden al Costo de Producción de un producto fabricado bajo tecnologías diferentes. Realice una prueba estadística a un = 0.05 para decidir si existen diferencias entre las tecnologías, que puedan afectar los Costos.
Tecnología Yi j ni Ti Ti2 Ti
2/ni Y2i j
A 7 4 6 4 9 5 30 900 180 49 16 36 16 81 198
B 2 4 5 6 3 5 20 400 80 4 16 25 36 9 90
C 7 8 7 11 7 5 40 1600 320 49 64 49 121 49 332
15 90 580 620
Hay que tener en cuenta que el subíndice i, representa las filas, y el j las columnas.
Se prepara la tabla atendiendo a lo que se necesita a partir de las formulas abreviadas planteadas, únicamente hay que tener en cuenta que los niveles se deben planteara en el sentido de fila.
Resumiendo: n = 15; T = 90; k = 3; n1 = n2 = n3 = 5
Luego:
n
TYSC
k
i
ni
jijT
2
1 1
2
= 620 – 902/15 = 620 – 8100/15 = 620 – 540 = 80
SCE = n
T
n
Tk
i i
i2
1
2
= 580 – 540 = 40
SCD =
k
i i
ik
i
ni
jij n
Ty
1
2
1 1
2 = 620 – 580 = 40 o también utilizando la identidad
fundamental y en ella se despeja SCD, esto es:
SCT = SCD + SCE SCD = SCT – SCE = 80 – 40 = 40
Y ya estamos en condiciones de plantear la tabla de análisis de varianza, para el cálculo del estadístico de Prueba.
ANOVA
Fuente de Variación
Suma de Cuadrado
Grados de Libertad
Cuadrado medio
Estadístico de Prueba
Entre grupo
Dentro grupo
40
40
2
12
20
3.33
06.63.3
200 F
Total 80 14
H0: 321
H1: alguna i diferente
= 0.05
2
2
D
E
S
S = 6.06
W: 2
2
D
E
S
S F1-
(k – 1; n – k) = 2
2
D
E
S
S Fo.95
(2, 12) = 2
2
D
E
S
S 3.89
RR
3.89
R:D:/ Rechazo H0 F0 3.89
No Rechazo H0 F0 3.89
D/ F0 = 6.06 3.89 Rechazo H0 que aceptamos H1 lo que nos indica que existen diferencias significativas entre los costos de producción para por lo menos
una tecnología a un = 0.05
Si quisiéramos saber cual o cuales tecnologías son diferentes se pudiera completar el análisis con una prueba T’Student de diferencia de media, probando dos a dos dichas tecnologías.
Esta prueba de la homogeneidad de las varianzas fue desarrollada por Barttlet, y se basa en el cálculo de un cociente, el cuál se denota por M/C.
se utiliza para comprobar uno de los supuestos del análisis de varianza, si se quiere, el más importante, que es el de varianza constante(conocido por Homocedasticidad)
Así las hipótesis a plantear serían:
H0: 22
221 k
H1: alguna 2i diferente
Y el estadístico de prueba será el cociente M/C que es un estadístico que mide la variabilidad entre las varianzas muestrales ya que:
2
1
2 ln1ln i
k
iiD SnSknM
Donde
kn
SnS
k
iii
D
1
2
2
1 y
2
12
1
i
k
iiji
i n
YYS
Se puede observar que si las 2iS difieren poco entre sí el valor de M, será pequeño
y si suponemos que la 2iS son iguales, entonces M tomará el valor cero.
Demostración:
2
1
2 ln1ln i
k
iiD SnSknM
si 2iS son iguales, entonces se trata como una
constante y se saca fuera de la sumatoria.
k
iii
k
iii
nSkn
nSknM
1
21
2
1ln1
ln
Como knnk
ii
01
1
M=(n – k)
knSkn
knSi
i
22
lnln
M= (n- k) ln 2iS - (ln 2
iS ) n- k
M = 0
Veamos el cálculo del estadístico de Prueba: M/C
M = 1 +
k
i i knnk 1
1
1
1
13
1
Barttlet demostró que el estadístico M sigue aproximadamente una distribución 2,
con k-1 grados de libertad para (ni – 1) 4, y se divide entre una cantidad C, como la planteada anteriormente; el cociente mejora la aproximación, y es más preciso que si utilizáramos solamente M.
La expresión de M, puede transformarse para trabajar con logaritmos comunes.
M = 2.3026 210
1
210 log1log i
k
iiD SnSkn
se debe aclarar que se puede
aplicar tanto logaritmo comunes como naturales.
La región crítica estará dada por: 121/: kCMW que gráficamente quedará representada de la siguiente
forma:
R no R. RR
)1(2
1
k
UTILIDAD
Esta distribución de probabilidad se usa en estadística como prueba en varias situaciones. Se emplea para probar si dos muestras provienen de poblaciones que poseen varianzas iguales. Esta prueba es útil para determinar si una población normal tiene una mayor variación que la otra y también se aplica cuando se trata de comparar simultáneamente varias medias poblacionales. La comparación simultánea de varias medias poblacionales se conoce como análisis de varianza (ANOVA). En ambas situaciones, las poblaciones deben ser normales y los datos tener al menos la escala de intervalos.