4+an%c3%a1lisis+de+varianza
TRANSCRIPT
ANOVA (análisis de varianza)
1
Sofía A. López MSc.3
ANOVA
Introducción: Se aplica cuando se desea hacer una “prueba de hipótesis de
mas de dos poblaciones”. Ejemplos: Probar diferencias entre la cantidad de esperada de unidades no
conformes de 3 líneas de producción. Evaluar diferencias entre el tiempo de demora de 5 proveedores Determinar diferencia en el tiempo de respuesta de 3 reactivos.
ANOVA Con las pruebas de hipótesis se pueden comparar dos
poblaciones o procesos. En esta sección, se presentan diseños experimentales que se
utilizan cuando el objetivo es comparar más de dos niveles en un factor.
Ejemplos: Comparar tres o más máquinas. Varios proveedores Cuatro procesos Tres materiales Cinco dosis de fármaco Cuatro dietas de alimentación
ANOVA
Por le general el interés del experimentador esta centrado en comparar los tratamientos en cuanto a sus medias poblacionales.
No olvidar que también es importante compararlos con respecto a sus varianzas.
La Metodología
Ejemplo La tabla adjunta muestra el lead
time de cuatro proveedores de la misma materia prima.
Se puede decir que existe diferencia en el lead time de los proveedores?
El black belt se encuentra en un programa de reducción de proveedores. Qué proveedor de los existentes seleccionaría?
O1 O2 O2 O4
1,93 2,55 2,4 2,33
2,38 2,72 2,68 2,40
2,20 2,75 2,31 2,28
2,25 2,70 2,28 2,25
Herramienta
Es recomendable utilizar el mismo
número de repeticiones
observadas en cada tratamiento, a menos
que hubiera alguna razón para no hacerlo.
Análisis de Varianza en un Solo Sentido
kj
ikijii
kj
kj
kj
TTTT
yyyy
yyyy
yyyy
yyyy
kj
..........
......
..................
......
......
......
......21
21
21
333231
222221
111211
Tratamientos o Poblaciones que se desea comparar
Totales/columnaNúmero
Medias
n1 n2 … nj … nk N
Y.1 Y.2 … Y.j … Y.k Y..
Análisis de Varianza en un Solo Sentido
kj
ikijii
kj
kj
kj
TTTT
yyyy
yyyy
yyyy
yyyy
kj
..........
......
..................
......
......
......
......21
21
21
333231
222221
111211
Tratamientos o Poblaciones que se comparan
Totales/columnaNúmero
Medias
n1 n2 … nj … nk N
Y.1 Y.2 … Y.j … Y.k Y..
Cualitativos o Cuantitativos
Análisis de Varianza en un Solo Sentido El número de tratamientos o poblaciones es determinado por el
investigador y dependen del problema. El número de observaciones por tratamiento (n) debe escogerse
con base en la variabilidad que se espera observar en los datos. En general se recomienda entre 5 y 30 mediciones (repeticiones) en cada
tratamiento. Ejemplo:
Se usa n=10 cuando las mediciones dentro de cada tratamiento tienen un comportamiento consistente.
Se recomienda n = 30 cuando las mediciones muestran bastante dispersión. Cuando es costoso o tardado realizar las pruebas para cada tratamiento se
puede seleccionar un número menor de repeticiones.
12
Análisis de Varianza en un Solo Sentido
:
.
...:
1
210
H
vs
H kµµµ ==
Si la hipótesis nula es verdadera, toda la variabilidad se debe al azar.
Por lo menos una es distinta
Ecuación Fundamental del Análisis de Varianza (Niveles del Factor Fijo)
∑ ∑∑ ∑∑ ∑ = == == =−+−=− k
j
n
i jij
k
j
n
i j
k
j
n
i ijjjj YYYYYY
1 1
2.1 1
2...1 1
2.. )()()(
Suma de cuadrados de las desviaciones de la gran media
Suma de cuadrados de las desviaciones entre los tratamientos
Suma de cuadrados de las desviaciones dentro de tratamientos
Tabla ANOVA (Niveles del Factor Fijo)Fuente df SS MS F Valor p
Tratamiento k-1 SS tratamientos
SS tratamientos/(k-1)
P(F(ν1, ν2)≥f)
Error N-k SS error SS error/(N-k)
TOTAL N-1 SS total
error
ostratamient
MS
MSf =
Ejemplo La tabla adjunta muestra el lead
time de cuatro proveedores de la misma materia prima.
Se puede decir que existe diferencia en el lead time de los proveedores?
El black belt se encuentra en un programa de reducción de proveedores. Qué proveedor de los existentes seleccionaría?
O1 O2 O3 O4
1,93 2,55 2,4 2,33
2,38 2,72 2,68 2,40
2,20 2,75 2,31 2,28
2,25 2,70 2,28 2,25
Verificación de Supuestos del Modelo
Revisión del Modelo Los supuestos del modelo lineal, en términos de los residuos
son: Los εij siguen una distribución normal con media cero. Los εij son independientes entre si. Los residuos de cada tratamiento tienen la misma varianza
σ2.
En la práctica no se espera que las suposiciones del modelo sean satisfechas exactamente. El análisis de puntos que no cumplen las suposiciones.
Análisis gráfico de los supuestos
Para verificar normalidad del error
Independencia
Homogeneidad de Varianzas
Análisis de respuestas Gráfico ANOVA
Qué ocurre si el modelo no es adecuado? Qué ocurre si no se cumplen las suposiciones del
modelo? Considere un modelo distinto. Transforme los datos a fin de lograr normalidad.
Después de ANOVA… qué?
Comparaciones o pruebas de rango múltiples
23
Análisis de Varianza en un Solo Sentido Ejemplo:
Se desea evaluar la influencia del proveedor de la materia prima en el nivel de residuos (ppm) del proceso en su fase inicial. La tabla adjunta resume los datos de seis muestras tomadas a los 4 proveedores existentes.
2. Los proveedores difieren de manera significativa en cuanto al residuo que deja su materia prima?
3. Qué proveedor o proveedores se deben seleccionar para garantizar el menor nivel de residuos?1. Realice el análisis gráfico y las pruebas que soporten su respuesta.
24
Proveedor Residuo (ppm)A 264 260 258 241 262 255B 208 220 216 200 213 206C 220 263 219 225 230 228D 217 226 215 227 220 222
Análisis de Varianza en un Solo Sentido Ejemplo: Se desea investigar el efecto del pH en el crecimiento de cierto microorganismo en
un medio específico. Para ello se realiza un experimento, teniendo como punto de partida la misma cantidad de microorganismos. Se hacen 5 repeticiones y se obtienen los resultados que se muestran en la tabla adjunta. Se puede afirmar que el nivel 3 de pH logra el menor crecimiento?Se puede decir que el nivel 2 de pH logra el mayor crecimiento?Analice la validez del modelo.
Crecimiento en %
Nivel de pH 1 Nivel de pH 2 Nivel de pH 3
77 72 76
81 58 85
71 74 82
76 66 80
80 70 77
14 Tiempo de reacción Se desea determinar el efecto de un medicamento X (en
miligramos) en el tiempo de reacción de una persona Y (en milisegundos) luego de un estímulo.
La información adjunta muestra los resultados luego de 3 observaciones por dosis del medicamento.
Se puede concluir que existe efecto por el medicamento? Realice el análisis gráfico y el ANOVA.
Prueba Kruskal Wallis
Kruskal Wallis
Caso en que se comparan más de dos grupos. La distribución de los datos no es normal. Aplicación de estadística no paramétrica.
Evaluación de rendimiento de masa Como parte del proyecto
DMAIC, el analista desea evaluar el efecto de tres tratamiento en el rendimiento de masa.
La tabla adjunta registra la información de la mezcla.
Se puede concluir que el rendimiento difiere de acuerdo a los tratamientos? Utilice los gráficos y pruebas
adecuadas para soportar su conclusión.
Rendimiento de masa
Tratamientos
15,1 113 1
16,2 324,9 113,2 113,8 313,1 2
33 212,9 211,9 1
17 312,8 214,7 3
12 215 3
26,5 3
Tablas de Contingencia
Tablas de Contingencia Definen si la distribución de observaciones en atributos
es independiente en los grupos. Atributos
Se cuentan (no se miden) Hipótesis
Ho: los factores participantes son independientes.
vsH1: los factores participantes estan relacionados.
.
15 Evaluación de satisfacción al cliente La empresa posee 6 puntos de venta directos en
diferentes zonas de la ciudad. El departamento se servicio al cliente ha colocado una
encuesta donde el cliente debe indicar su grado de satisfacción con el servicio del punto de venta.
La escala es la siguiente: 1: pobre, 2: bajo la media, 3: sobre la media, 4: bueno, 5: excelente. La tabla adjunta muestra el cómputo de las encuestas por establecimiento. Se puede decir que la satisfacción del cliente difiere por
localidad? Qué sugiere para mejorar la satisfacción del cliente en el punto
de venta.?
Regresión
Regresión Varios procedimientos pueden seguir el ANOVA si se
detecta la presencia de efectos. El análisis de regresión sirve para determinar un modelo
matemático que permita predecir la magnitud de la variable de respuesta a partir de los valores de las variables independientes.
Solo las importantes! Relaciones:
Lineal Cuadrática Polinomio de alto orden
De qué forma se pueden revisar
estas relaciones?
Regresión El modelo de regresión simple tiene la forma:
Donde:
εββ
1
0: La intercepción
: La pendiente
: El error aleatorio.
Regresión Hipótesis nulas presentes:
La X no tiene efecto sobre la Y.
1
0
ββ : es constante
: es cero
16 Tiempo de descarga de producto en puntos de venta Al realizar el análisis de Pareto del tiempo de descarga de
camiones de productos en puntos de venta, se pudo observar que el tamaño de la orden (en cajas) es un factor influyente. Realice el análisis gráfico de la relación entre las variables. Defina el modelo de regresión Verifique las hipótesis Revise los supuestos del modelo
14 Tiempo de reacción Se desea determinar el efecto de un medicamento X (en
miligramos) en el tiempo de reacción de una persona Y (en milisegundos) luego de un estímulo.
La información adjunta muestra los resultados luego de 3 observaciones por dosis del medicamento.
Se puede concluir que existe efecto por el medicamento? Realice el análisis gráfico y el ANOVA. Utilice la cantidad de medicamento para predecir el tiempo de
reacción de la persona al estímulo. Realice el análisis gráfico de la relación entre las variables. Defina el modelo de regresión Verifique las hipótesis Revise los supuestos del modelo