análisis de varianza con spss

27
AUTORES Msc. JORGE ACOSTA PISCOYA. Licenciado En Estadística Msc. DEBORA MEJIA PACHECO. Licenciado En Estadística DOCENTES ASCRITOS AL DEPARTAMENTO DE ESTADISTICA DE LA UNPRG LAMBAYEQUE 2010 ACARGO DE LA ASIGNATURA DE: ESTADÍSTICA

Upload: universidad-nacional-pedro-ruiz-gallo-de-lambayeque

Post on 23-Jun-2015

674 views

Category:

Education


4 download

DESCRIPTION

Análisis de Varianza de un Factor utilizando SPSS

TRANSCRIPT

Page 1: Análisis de varianza con spss

AUTORES Msc. JORGE ACOSTA PISCOYA. Licenciado En Estadística

Msc. DEBORA MEJIA PACHECO. Licenciado En Estadística DOCENTES ASCRITOS AL DEPARTAMENTO DE ESTADISTICA

DE LA UNPRG – LAMBAYEQUE 2010

ACARGO DE LA ASIGNATURA DE:

ESTADÍSTICA

Page 2: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

2

Análisis de varianza.

Es una técnica estadística para comparar si son iguales las medias de

más de dos poblaciones mediante el análisis y la comparación de diversos

tipos de varianzas muéstrales insesgados.

El nombre de análisis de varianza (ANOVA) que se da a esta prueba de

varias medias, proviene del hecho que este método se basa en la

comparación de varianzas estimadas de las diversas fuentes.

Cada método de análisis de varianza esta asociada a un modelo

matemático especifico. Si el modelo es de una variable, se denomina de

clasificación simple o de un solo factor, si son de dos variables, el modelo se

denomina de clasificación simple doble o de dos factores.

1.- Análisis de varianza de un Factor: Diseño completamente

Aleatorizado. Sea X una característica que se mide en K poblaciones ( o

tratamientos) diferentes con medias respectivas k ,...,, 21 y varianzas

respectivas 22

2

2

1 ,...,, k .

Las suposiciones del ANOVA son:

1.- Las K poblaciones son independientes (o las K muestras

independientes).

2.- Cada población tiene distribución normal, ),( 2

iN

3.- Las K varianzas son iguales a la varianza común 2

Las K poblaciones juntas constituyen una población mayor cuya media µ se

define por:

K

k

i

i 1

Para cada ki ,...,2,1 sea inii xxx ,...,, 21 , una muestra aleatoria simple de

tamaño ni escogida de la i-esima población.

Estas K muestran constituyen los subgrupos que se suponen pues son

independientes.

En el modelo de clasificación de un solo factor completamente

aleatorizado los valores ijx de las K muestras (j-ésima observación de la i-

Page 3: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

3

ésima muestra j = 1, 2,…, ni; i = 1, 2,…, k) se registran en un arreglo

tabular como el de la siguiente tabla:

Datos de K muestras aleatorias independientes.

TRATAMIENTOS

1 2 …. I …. k

x11 x12 …. xi1 …. xk1 x21 x22 …. xi2 …. xk2

. . …. . …. .

. . ….. . ….. .

. . ….. . …… .

X1n1 x2n2 …. Xini …. xknk

TOTAL T1. T2. Ti. … TK. T..

ni n1 n2 ni … nk n

MEDIAS .1x .2x .ix … .kx ..x

En donde:

..T : es la suma de los datos de la muestra i

.iT : es el total de datos de las k muestras.

nnnn k ...21 , es el total de observado de las k muestras.

.ix , es la media muestral i (estimación insesgada da la media i )

..x , media total muestral (estimación insesgada de la media )

2.- EL MODELO DEL ANAVA:

Cada observación ijx (i=1,2,…,k; j=1,2,…,ni) de la muestra se

expresa en la forma:

ijijx

ij : mide la desviación del dato observado ijx con respecto a la

media i esta desviación se denomina también error o residuo.

Dado a que la variable aleatoria ijx son independientes y tienen

una distribución normal ),( 2iN las ij son también variables aleatorias

independientes y tienen una distribución normal ),0( 2N .

Cada media i se desvía de la media total con cantidad

ii , que se denomina efecto del i-ésimo tratamiento, observe que:

Page 4: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

4

k

i

i

1

0

El modelo de clasificación simple o de un factor completamente

aleatorizado es:

ijiijiijx

Donde: i=1,2,…,k; j=1,2,…,ni , nni ,

Las variables aleatorias ijx son independientes y ),( 2N

Las variables aleatorias ij son independientes y ),0( 2N

Es la media total y ii , es el efecto del tratamiento.

3.- LA HIPOTESIS ANOVA:

La hipótesis nula consiste en afirmar que las medias de las k

poblaciones o tratamientos son iguales:

0...: 210 kH

La hipótesis alternativa es:

Caso1: :1H No Todas las medias son iguales.

Caso2: :1H Al menos una de las i no son iguales a cero

Regla de decisión:

Rechazar 0H si Fcal. > C. En el modo p

Si p = P[F>Fcal.], se rechaza la hipótesis nula, si p

TABLA ANOVA DE UN FACTOR COMPLETAMENTE ALEATORIZADO

Fuente de

Variación

Suma de

Cuadrados

Grados de

Libertad

Cuadrado

Medios

Razón F

calculada

* Tratamientos

(columnas)

* Error

SCC

SCE

k-1

n-k

1

K

SCCCMC

kn

SCECME

CME

CMCFcal

TOTAL SCT n-1

Región Crítica

Page 5: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

5

SCC : Suma de cuadrado de las columnas o entre tratamientos.

SCE : Suma de cuadrado del error o dentro de tratamientos. SCT : Suma del cuadrado del total.

CMC : cuadrado medios para la columna. CME : cuadrados medios para el error.

Fcal : El valor de F calculado.

k

i

n

j

k

i

n

j

ijij

i i

CxxxSCT1 1 1 1

22

.. ; Donde n

TC

2

..

k

i i

ik

i

n

j

k

i

iii Cn

TxxnxxSCC

i

1

2

.

1 1 1

2

.

2

... ..

SCCSCTSCE

Ejemplo1.- Una compañía desea comparar cuatro tipos de neumáticos.

Se asigno aleatoriamente los neumáticos a seis automóviles semejantes.

La duración de los neumáticos en miles de kilómetros se da en la tabla

siguiente:

N1 N2 N3 N4

55 63 48 59

53 67 50 68

50 55 59 57

60 62 50 66

55 70 47 71

65 75 61 73

Al nivel de significancia del 5%

(a) ¿Se puede concluir que existe alguna diferencia en los rendimientos

medios de los tipos de neumáticos?

(b) si se rechaza la hipótesis nula, utilice la prueba t para probar si la

duración media de los neumáticos tipo 1 es distinta a la duración

media de los neumáticos de tipo 4?

SOLUCION

Primera solución por el método tradicional sin utilizar spss

Page 6: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

6

(a)

N1 N2 N3 N4

55 63 48 59

53 67 50 68

50 55 59 57

60 62 50 66

55 70 47 71

65 75 61 73

T.. 338 392 315 394 T.. = 1439

ni 6 6 6 6 n = 24

.ix 56.33 65.33 52.5 65.67 ..x = 59.96

P.1) 43210 : H

:1H No todas las medias son iguales.

P.2) 05.0

P.3) Estadígrafo de Prueba:

knkFCME

CMCFcal ,1 g.l.

k = 4

n = 24

P.4) Región crítica:

R.R : [3.10,+∞>

P.5) Calculo del estadígrafo de prueba.

04167.8628024

143922

.. n

TC

46.78104167.862806

394315392338 2222

1

2

.

k

i i

i Cn

TSCC

4

1

6

1

2 96.155004167.8628087831i j

ij CxSCT

5.76946.78196.1550 SCCSCTSCE

F0.95,3,20 = 3.10

Page 7: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

7

TABLA ANOVA

Fuente de

Variación

Suma de

Cuadrados

Grados de

Libertad

Cuadrado

Medios

Razón F

calculada

* Tipos de

Neumáticos

* Error

781.46

769.5

3

20

260.4867

38.475

6.77

TOTAL 1550.96 23

P.6) Decisión: como el valor del F calculado es mayor que el F

tabular (6.77>3.10) se Rechaza la hipótesis nula con un nivel de

significancia del 5%, es decir no todos los rendimientos medios de

los neumáticos son iguales.

(b) P.1) 410 : H

411 : H

P.2) 05.0

P.3) Estadígrafo de Prueba:

lgt

nnCME

xxt .)10(

11

.

41

4.1

P.4) Región de Rechazo:

P.5) Calculo del estadígrafo de prueba:

61.2

6

1

6

1*475.38

67.6533.56

t

P.6) Decisión: con un nivel de significancia del 5% se rechaza H0,

es decir el rendimiento del tipo de neumático 1 es diferente

al rendimiento del tipo de neumático 4.

-2.228 2.228 t0.975,10

R:R <-∞,-2.228] U [2.228, +∞>

Page 8: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

8

Solución con spps, primero ingresamos los datos, creamos tres

variables, como se muestra:

Como son cuatro tipos de Neumáticos, procedemos a etiquetar la

variable como se muestra:

Como se prueban los neumáticos en seis diferentes tipos de Autos,

etiquetamos la variable Autos.

Page 9: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

9

Creamos una tercera variable llamada duración, la cual la tenemos

que ponderar, seleccionamos el menú datos y ponderar casos:

Page 10: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

10

Seleccionamos Ponderar casos mediante frecuencias y Aceptar,

luego nos vamos al menú analizar, Estadísticas descriptivas y

tablas de contingencia y seleccionamos las variables como se

muestra:

Clic en aceptar y la vista de resultados nos muestra la siguiente

tabla:

Page 11: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

11

Tabla de contingencia Auto * Neumático

Auto Neumático

Total Neumática 1 Neumático 2 Neumático 3 Neumático 4

Auto 1 55 63 48 59 225

Auto 2 53 67 50 68 238

Auto 3 50 55 59 57 221

Auto 4 60 62 50 66 238

Auto 5 55 70 47 71 243

Auto 6 65 75 61 73 274

Total 338 392 315 394 1439

Como se puede apreciar esta tabla es igual a la tabla de la data

original

Para poner a su estado original la base de datos, nos vamos a datos,

ponderar casos y hacemos clic en restablecer, y clic en Aceptar :

Luego seleccionamos la opción analizar, comparación de medias y

seleccionamos Medias:

Page 12: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

12

Seleccionamos las variables correspondientes a analizar y clic en

aceptar y la ventana de vista de resultados nos proporciona la

siguiente información:

Informe

Frecuencias

Neumático Media N Desv. típ.

Neumático 1 56,33 6 5,354

Neumático 2 65,33 6 6,947

Neumático 3 52,50 6 5,958

Neumático 4 65,67 6 6,439

Total 59,96 24 8,212

Antes de realizar el ANAVA hay que verificar los requisitos, primero

hacemos la prueba de normalidad, seleccionamos analizar,

Estadísticos Descriptivos y explorar,

Page 13: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

13

Clic en gráficos y aparece la siguiente ventana, donde

seleccionamos gráficos con prueba de Normalidad y continuar:

Luego clic en Aceptar, y la vista de Resultados nos proporciona la

siguiente información:

Pruebas de normalidad

Neumático Kolmogorov-Smirnova Shapiro-Wilk Estadístico gl Sig. Estadístico gl Sig.

duración Neumático 1 ,265 6 ,200* ,940 6 ,662

Neumático 2 ,149 6 ,200* ,990 6 ,990

Neumático 3 ,329 6 ,041 ,823 6 ,094

Neumático 4 ,187 6 ,200* ,923 6 ,526

a. Corrección de la significación de Lilliefors

*. Este es un límite inferior de la significación verdadera.

Escogemos la Prueba de shapiro-wilk, dado a que las muestras son

pequeñas (n<50) observamos que todos los valores de significancia

obtenidos por la prueba de normalidad son mayores al nivel de

significancia de prueba 0.05, por lo tanto existe normalidad en las

muestras de la duración de los diversos tipos de neumáticos.

Page 14: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

14

Segundo requisito homogeneidad de varianzas, primero lo hacemos

gráficamente, seleccionamos el menú de gráficos, cuadro de

dialogo antiguo, seleccionamos BARRAS ERROR, aparece la

siguiente ventana:

Seleccionamos Simple y clic en definir

En variable ingresamos la duración y en el eje de categoría

Neumáticos, en las barras representan seleccionamos Error típico

de la media multiplicada por 2 y aceptar

Page 15: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

15

Gráficamente observamos que la duración de los cinco tipos de

neumáticos es homogénea, el punto es el valor de la media y se

extiende a 2 veces el valor de la desviación estándar hacia la

izquierda y hacia la derecha.

Estadísticamente probamos la homogeneidad de las varianzas,

menú analizar, comparación de medias y ANOVA de un factor

Page 16: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

16

Clic en opciones, seleccionamos Estadísticos Descriptivos, Prueba

de homogeneidad de las varianzas y gráficos de medias:

Clic en continuar y Aceptar , la vista de Resultados nos proporciona

las siguiente información:

1. Una tabla de las estadísticas Descriptivas de los diferentes tipos

de neumáticos.

Descriptivos

duración

N Media Desviaci

ón típica

Error

típico

Intervalo de confianza

para la media al 95%

Mínimo Máximo

Límite

inferior

Límite

superior

Neumático 1 6 56,33 5,354 2,186 50,71 61,95 50 65

Neumático 2 6 65,33 6,947 2,836 58,04 72,62 55 75

Neumático 3 6 52,50 5,958 2,432 46,25 58,75 47 61

Neumático 4 6 65,67 6,439 2,629 58,91 72,42 57 73

Total 24 59,96 8,212 1,676 56,49 63,43 47 75

Page 17: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

17

2. La prueba de homogeneidad de varianzas, donde el resultado de

significancia del estadístico de Levene es mayor que el nivel de

significancia de la prueba (0.908>0.05) por lo tanto se acepta la

hipótesis nula, es decir existe homogeneidad en las varianzas de

la duración de los 5 tipos de neumáticos.

Prueba de homogeneidad de varianzas

duración

Estadístico de Levene gl1 gl2 Sig.

,181 3 20 ,908

3. El gráfico de medias, donde se observa que el neumático 3, es el

que tiene el menor rendimiento promedio de duración y el tipo de

neumático 4 es el que tiene el mayor rendimiento promedio de

duración.

Page 18: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

18

4. La tabla de Análisis de Varianza

ANOVA

Frecuencias

Suma de

cuadrados

gl Media

cuadrática

F Sig.

Inter-grupos 781,458 3 260,486 6,770 ,002

Intra-grupos 769,500 20 38,475

Total 1550,958 23

Como el valor del p< (0.002<0.05) se rechaza H0 es decir no

todas las medias son iguales.

Para saber cuales de las medias no son iguales seleccionamos el menú

analizar, comparación de medias y ANOVA de un factor

Seleccionamos la opción POST HOC, dado a que ya se probo que las

varianzas son iguales seleccionamos la prueba de SHEFFE y clic en

continuar y aceptar

Page 19: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

19

La vista de resultados nos proporciona los siguientes resultados:

(I) Neumático Sig.

(J) Neumático

Neumático

1

Neumático

2

Neumático

3

Neumático

4

Neumático 1 ,132 ,767 ,112

Neumático 2 ,132 ,017 1,000

Neumático 3 ,767 ,017 ,014

Neumático 4 ,112 1,000 ,014

Observamos que la diferencia significativa esta entre el tipo de

neumático 2 con el tipo de neumático 3 y el tipo de neumático 3

con el tipo de neumático 4.

Page 20: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

20

2.- El gerente de compras de la empresa “Moda” desea comparar la velocidad

de cuatro máquinas de marcas diferentes con el fin de adquirir la más veloz

para su uso en una confección específica. Para esto observo los tiempos

que cada máquina utiliza para producir 6 unidades de la confección en

forma aleatoria. Los tiempos que cada máquina utiliza para producir 6

unidades de la confección en forma aleatoria. Los tiempos registrados en

segundos se presentan en la tabla:

Máquina

1 2 3 4

55 60 64 42

46 58 62 45

45 68 51 52

73 58 57 44

50 63 65 42

63 52 68 56

Totales Ti. 332 359 367 281 T..=1339

ni=r 6 6 6 6 n=24

Media .ix 55.33 59.83 61.17 46.83 ..x =55.79

Solución:

43210 : H

:1H No todas las medias son iguales.

Utilizando SPSS para darle solución, creamos nuestra base de datos,

luego en la barra de menú seleccionamos Analizar, comparación de

Medias y la opción medias introducimos las variables

correspondientes:

Page 21: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

21

La ventana de Resultados nos proporciona la siguiente información:

Informe

Tiempo

Máquina Media N Desv. típ.

Máquina 1 55,33 6 10,893

Máquina 2 59,83 6 5,382

Máquina 3 61,17 6 6,178

Máquina 4 46,83 6 5,811

Total 55,79 24 8,973

Antes de realizar el ANAVA hay que verificar los requisitos, primero

hacemos la prueba de normalidad, seleccionamos analizar,

Estadísticos Descriptivos y explorar

Luego seleccionamos la opción gráficos y pedimos que realice la

prueba de Normalidad y la vista de resultados nos proporciona la

siguiente información:

Page 22: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

22

Pruebas de normalidad

Máquina Kolmogorov-Smirnova Shapiro-Wilk

Estadístico gl Sig. Estadístico gl Sig.

Tiempo Máquina 1 ,188 6 ,200* ,908 6 ,426

Máquina 2 ,200 6 ,200* ,972 6 ,908

Máquina 3 ,220 6 ,200* ,934 6 ,614

Máquina 4 ,290 6 ,124 ,838 6 ,126

a. Corrección de la significación de Lilliefors

*. Este es un límite inferior de la significación verdadera.

Escogemos la Prueba de shapiro-wilk, dado a que las muestras son

pequeñas (n<50) observamos que todos los valores de significancia

obtenidos por la prueba de normalidad son mayores al nivel de

significancia de prueba 0.05, por lo tanto existe normalidad en los

tiempos de confección empleado por los diferentes tipos de máquinas.

Verificamos el Segundo requisito homogeneidad de varianzas, primero

lo hacemos gráficamente, seleccionamos el menú de gráficos, cuadro

de dialogo antiguo, seleccionamos BARRAS ERROR, aparece la

siguiente ventana:

Seleccionamos Simple y clic en definir

Page 23: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

23

En variable ingresamos el tiempo y en el eje de categoría Máquina, en

las barras representan seleccionamos Error típico de la media

multiplicada por 2 y aceptar

Page 24: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

24

Gráficamente observamos que la duración de los cinco tipos de

neumáticos es homogénea, el punto es el valor de la media y se

extiende a 2 veces el valor de la desviación estándar hacia la

izquierda y hacia la derecha, observamos también que el tiempo

empleado en la confección por la máquina uno presenta mayor

dispersión.

Estadísticamente probamos la homogeneidad de las varianzas,

menú analizar, comparación de medias y ANOVA de un factor

Clic en opciones, seleccionamos Estadísticos Descriptivos, Prueba

de homogeneidad de las varianzas y gráficos de medias:

Page 25: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

25

Clic en continuar y Aceptar , la vista de Resultados nos proporciona

las siguiente información:

1. La prueba de homogeneidad de varianzas, donde el resultado de

significancia del estadístico de Levene es mayor que el nivel de

significancia de la prueba (0.216>0.05) por lo tanto se acepta la

hipótesis nula, es decir existe homogeneidad en las varianzas de

los tiempos empleados en la confección por los cuatro tipos de

máquina.

Prueba de homogeneidad de varianzas

Tiempo

Estadístico de Levene gl1 gl2 Sig.

1,622 3 20 ,216

2. Comprobado los requisitos realizamos la interpretación del

Análisis de Varianza

ANOVA

Tiempo Suma de

cuadrados

gl Media

cuadrática

F Sig.

Inter-grupos 754,125 3 251,375 4,579 ,013

Intra-grupos 1097,833 20 54,892

Total 1851,958 23

Como el valor del p< (0.013<0.05) se rechaza H0 es decir no

todas las medias son iguales.

3. En el gráfico de medias, se observa que la máquina 3, es el que

tiene el mayor rendimiento promedio en el tiempo empleado en la

confección de prendas de vestir y el tipo de máquina 4 es el que

tiene menor rendimiento promedio en el tiempo empleado en la

confección de prendas de vestir.

Page 26: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

26

Como se rechazo la hipótesis nula, Para saber cuales de las medias no

son iguales seleccionamos el menú analizar, comparación de medias y

ANOVA de un factor

Seleccionamos la opción POST HOC, dado a que ya se probo que las

varianzas son iguales seleccionamos la prueba de SHEFFE y clic en

continuar y aceptar

Page 27: Análisis de varianza con spss

Autor: Jorge Acosta Piscoya & Débora Mejía Pacheco

27

La vista de resultados nos proporciona los siguientes resultados:

(I) Máquina Sig.

(J) Máquina

Máquina

1

Máquina

2

Máquina

3

Máquina

4

Máquina 1 ,776 ,610 ,297

Máquina 2 ,776 ,992 ,051

Máquina 3 ,610 ,992 ,028

Máquina 4 ,297 ,051 ,028

Observamos que la diferencia significativa esta entre el tipo de

Máquina 3 con el tipo de máquina 4.