ud 5 –introducción a la inferencia estadística
TRANSCRIPT
![Page 1: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/1.jpg)
DEIOAC – Estadística Fuente: Romero, R.; Zúnica, L. R. Métodos estadísticos en ingeniería. I.S.B.N 84-9705-727-9
UD 5 – Introducción a la Inferencia Estadística
![Page 2: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/2.jpg)
Contenido- UD5 Introducción a la Inferencia Estadística -
5.4. Introducción a la Regresión Lineal5.4. Introducción a la Regresión Lineal
2.2. Estadística Descriptiva Bidimensional - 22.2. Estadística Descriptiva Bidimensional - 2
5.3 Introducción al Análisis de la Varianza
5.2 Inferencia básica en poblaciones normales
5.1 Distribuciones en el muestreo5.1 Distribuciones en el muestreo
![Page 3: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/3.jpg)
5.3 - ANOVAAnálisis de la Varianza(ANalysis Of VAriance)
![Page 4: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/4.jpg)
Contenidos
1. Idea Intuitiva del ANOVA
2. ANOVA con un sólo factor controlado
2.1. Un ejemplo
2.2. Descomposición de la Suma de Cuadrados.
Test F
2.3. Intervalos LSD
2.4. Análisis de residuos
3. ANOVA con más de un factor. Factores cuantitativos
4. Ejemplos y ejercicios
![Page 5: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/5.jpg)
Idea intuitiva del ANOVA
Técnica estadística muy poderosa para el estudiodel efecto de uno o más factores sobre la mediade una variable
Idea básica: descomponer la variabilidad totalobservada en unos datos en las partes asociadas acada factor estudiado más una parte residual, conla que después se compararán las primeras
Técnica básica para el estudio de observacionesque dependen de varios factores, siendo laherramienta fundamental en el análisis de losModelos de Regresión Lineal y de Diseño deExperimentos
![Page 6: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/6.jpg)
Idea intuitiva del ANOVA
Ejemplo intuitivo
Efecto del tipo de algoritmo y del nivel de tráficoen la red de interconexión de un multicomputador,sobre la latencia de los mensajes enviados por la red
Veamos unos resultados hipotéticos en algunos casos extremos:
![Page 7: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/7.jpg)
Ejemplo intuitivo ALTURA
1 2 3
ALG
ORIT
MO
1 20 20 20 20 20 20
2 20 20 20 20 20 20
Factor 2
Factor 1
2 variantes: 2algoritmos diferentes
3 niveles: 3 niveles de
TRÁFICO en la red
Valor observado: LATENCIA(media) de los mensajes enviados utilizando el algoritmo 2 con un nivel de tráficointermedio (2) en la red
TRÁFICO
![Page 8: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/8.jpg)
Ejemplo intuitivo TRÁFICO
1 2 3
ALG
ORIT
MO
1 20 20 20 20 20 20
2 20 20 20 20 20 20
Latencia media = 20La suma de los cuadrados de las desviaciones de cada valor observado de la LATENCIA con respecto a su media:
( ) ( ) ( ) ( )2 2 2 2020 20 20 20 20 20ikj
ikj
x x− = + + + =− − − …
Suma de Cuadrados Total (SCT)
Caso A
Nada influye
SCTotal=0
![Page 9: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/9.jpg)
( ) ( ) ( ) ( )2 2 2 230020 25 20 25 30 25ikj
ikj
x x− = + + + =− − − …
Ejemplo intuitivo TRÁFICO
1 2 3
ALG
ORIT
MO
1 20 20 20 20 20 20
2 30 30 30 30 30 30
Latencia media = 25
Caso B
SCT=300 Hay variabilidad.
Al “analizar la varianza” se observa que la variabilidad se debe sólo al efecto del tipo de algoritmo utilizado
El factor algoritmo influye sobre la mediade la latencia de los mensajes
SCTotal=SCalgoritmo
![Page 10: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/10.jpg)
( ) ( ) ( )2 2 250020 30 25 30 40 30TOTAL
SC = + + + =− − −…
Ejemplo intuitivo TRÁFICO
1 2 3
ALG
OR
ITM
O 1 20 20 25 25 30 30
2 30 30 35 35 40 40
Latencia media = 30
Caso C
SCT=500 Hay variabilidad
Al “analizar la varianza” se observa que la variabilidad se debe tanto al efecto del algoritmo como al efecto del nivel de
tráfico en la red
El factor algoritmo y el factor nivel de tráfico de la red influyensobre el promedio de la latencia de los mensajes No hay interacción entre ambos factores. El efecto del tráfico es lineal
SCTotal=SCalgoritmo+SCtráfico
![Page 11: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/11.jpg)
TRÁFICO
1 2 3
ALG
ORIT
MO
1 20 20 25 25 30 30
2 30 30 35 35 50 50
( ) ( ) ( )2 2 2
1066 6720 31 67 25 31 67 50 31 67TOTALSC '' ' '= + + + =− − −…
Ejemplo intuitivo
Latencia media = 31’67
Caso D
SCT=1066’67 Hay variabilidad
Al “analizar la varianza” se observa que la variabilidad se debe tanto al efecto del tipo de algoritmo como al efecto del
nivel de tráfico de la red y a su interacción
El factor algoritmo, el factor tráfico y su interaccióninfluyen sobre el promedio de la latencia. El efecto del nivel detráfico sobre la latencia media de los mensajes es mayor utilizando elalgoritmo 2 que el 1
SCTotal=SCalgoritmo+SCtráfico+ SCInteracción
![Page 12: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/12.jpg)
TRÁFICO
1 2 3
ALG
ORIT
MO
1 19 21 27 24 28 32
2 30 31 36 33 47 51
( ) ( ) ( )2 2 2
100119 31 6 21 31 6 51 31 6TOTALSC ' ' '= + + + =− − −…
Ejemplo intuitivo
Latencia media = 31’6
Caso E
Único realista
SCT=1001 Hay variabilidad
Se observa que la variabilidad se debe tanto al efecto del algoritmo como al efecto del nivel de tráfico y a su
interacción, así como al de los factores no controlados
El factor algoritmo, el factor tráfico y su interacción, así como otros factores no controlados o no tenidos en cuenta influyen sobre el promedio de la latencia de los mensajes
SCTotal=SCalgoritmo+SCtráfico+ SCInteracción + SCResidual
![Page 13: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/13.jpg)
Grados de libertad (gl)
SCT glT = nº de datos – 1 SCF glF = nº de variantes –1 SCInteracción producto de los gl de los factores que interaccionan
SCR glR= glT - glF - glinter
En el ejemplo:
SCT 12 - 1= 11 gl
SCalgoritmo 2 – 1 = 1 gl
SCtráfico 3 – 1 = 2 gl
SCalgoritmoXtráfico 1 x 2 = 2 gl
SCR 11 – 5 = 6 gl
En paralelo a esta descomposición de la SCTotal se realiza una descomposición de los “grados de libertad” totales en los grados de libertad asociados a cada término
![Page 14: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/14.jpg)
Significación de un efecto
La comparación de la “varianza” asociada acada efecto con la varianza residual permiteestudiar si dicho efecto es o no significativo
Estas varianzas se estiman dividiendo cadasuma de cuadrados por sus grados de libertad,obteniéndose unos estadísticos a los que sedenomina Cuadrados Medios:
SCCM
g .l=
![Page 15: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/15.jpg)
Test F
El CMTotal es la varianza de los datos observados(no se suele calcular)
El CMResidual es una estimación de la σ2 existenteen las poblaciones muestreadas, asumiendo lamisma σ2 para todas las poblaciones (o unaestimación del promedio de dichas varianzas, en elcaso de que difieran de unas poblaciones a otras)
El CM asociado a cada efecto: es otra estimación de la σ2 independiente de la
del CMResidual, si el efecto no existe en lapoblación
tiende a ser mayor que σ2, si existe un efectoreal poblacional
![Page 16: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/16.jpg)
Test F
Si no existe un efecto real del factor a nivelpoblacional el CMfactor será muy parecido alCMresidual
glF,glR
CMFF ratio F
CMR− = ≈
La F-ratio será muy parecida a 1 con unadistribución F de Fisher con los grados delibertad correspondientes
El factor no influye sobre la media de la respuesta
![Page 17: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/17.jpg)
Test F
Si existe un efecto real del factor a nivelpoblacional el CMfactor >>> CMresidual
La F-ratio será demasiado elevada para ser una Fde Fisher con los grados de libertadcorrespondientes
El factor influye sobre la media de la respuesta
,glF glR
CMFF
CMR>>
![Page 18: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/18.jpg)
Test F
Los programas estadísticos no muestran losvalores críticos de la distribución F manejada. En sulugar, utilizan el p-value asociado (en ladistribución manejada, porcentaje de valores
mayores que el correspondiente estadístico
calculado) Prob (Fglf, glr > Fratio) = p-value
Cuanto menor sea este p-value más fuerte será laevidencia respecto a la existencia poblacional delefecto correspondiente
![Page 19: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/19.jpg)
Contenidos
1. Idea Intuitiva del ANOVA
2. ANOVA con un sólo factor controlado
2.1. Un ejemplo
2.2. Descomposición de la Suma de Cuadrados.
Test F
2.3. Intervalos LSD
2.4. Análisis de residuos
3. ANOVA con más de un factor. Factores cuantitativos
4. Ejemplos y ejercicios
![Page 20: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/20.jpg)
ANOVA con un factor. EjemploUna factoría de motores tiene 2 proveedores de loscigüeñales que mecaniza. Un tercer proveedorofrece sus cigüeñales algo más carosargumentando sus mejores propiedades dinámicas,concretamente que su equilibrado dinámico(número de gramos de material que hay queeliminar hasta conseguir que el centro de gravedadde la pieza coincida con el eje de giro) es menor.
La factoría decide hacer una prueba comparando10 cigüeñales del nuevo proveedor (código=1) con10 de cada uno de sus 2 proveedores tradicionales(códigos 2 y 3). Los resultados obtenidos serecogen en la siguiente tabla:
![Page 21: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/21.jpg)
Ejemplo Proveedores cigüeñales
Factor estudiado PROVEEDOR
Variantes del factor 1 2 3
Resultados obtenidos
Equilibrado dinámico (grs)
23 35 50
28 36 43
21 29 36
27 40 34
95 43 45
41 49 52
37 51 52
30 28 43
32 50 44
36 52 34
![Page 22: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/22.jpg)
Ejemplo Proveedores cigüeñales
¿Hay evidencia suficiente respecto a lasuperioridad de los cigüeñales del nuevoproveedor para cambiar a éste, pese al precioligeramente más elevado?
CUESTIÓN CLAVE
El ejemplo que consideramos es un caso particular deDiseño de Experimentos:
se estudia el efecto de un único factor (el proveedor) con3 variantes (los 3 proveedores a comparar) sobre lamedia de la variable respuesta (el equilibrado dinámico,que debe ser el menor posible)
(Más adelante consideraremos el efecto de varios factores en el análisis)
![Page 23: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/23.jpg)
Ejemplo Proveedores cigüeñales
Experimento:Factores: PROVEEDORVariantes: Prov. 1, 2, 3Variable respuesta: Equilibrado Dinámico (EQUIDINA)
Objetivo: ¿existen diferencias entre losequilibrados dinámicos medios en loscigüeñales de los 3 proveedores?
0 1 2 3
1 1 2 3i j
H : m m m
H : i, j ;i j / m m ;i, j : , ,
= =
∃ ≠ ≠
ANOVA
![Page 24: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/24.jpg)
Descomposición de la Suma de Cuadrados. Test F
Descomposición de la variabilidad total:
Variabilidad Total en los
datos=
Variabilidad debida a diferencias entre
proveedores(efecto del factor
proveedor)
+Variabilidad residual(diferencias dentro de
cada proveedor)
¿Cómo se obtiene...?
![Page 25: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/25.jpg)
Ejemplo Proveedores cigüeñales
PROVEEDORES
1 2 3
23 35 50
28 36 43
21 29 36
27 40 34
95 43 45
41 49 52
37 51 52
30 28 43
32 50 44
36 52 34
37 41.3 43.3medias
40.53
Media de todos los
datos
![Page 26: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/26.jpg)
Ejemplo Proveedores cigüeñales
Cuantificación de la variabilidad:
Variabilidad Total en los
datos=
Variabilidad debida a diferencias entre
proveedores(efecto del factor
proveedor)
+Variabilidad residual(diferencias dentro de
cada proveedor)
Suma de Cuadrados Total
SCT
Suma de Cuadrados
FactorSCF
Suma de Cuadrados ResidualSCR
![Page 27: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/27.jpg)
Ejemplo Proveedores cigüeñales
PROVEEDORES
1 2 3
23 35 50
28 36 43
21 29 36
27 40 34
95 43 45
41 49 52
37 51 52
30 28 43
32 50 44
36 52 34
37 41.3 43.3 40.53
Suma de Cuadrados Total (SCT):
(23– 40.53)2 + (28– 40.53)2 + ... +
(36– 40.53)2 + (35– 40.53)2 + ... +
(44– 40.53)2 + (34– 40.53)2 = 5465
Suma de los cuadrados de las desviaciones de cada dato con respecto a la media general
![Page 28: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/28.jpg)
Ejemplo Proveedores cigüeñales
PROVEEDORES
1 2 3
23 35 50
28 36 43
21 29 36
27 40 34
95 43 45
41 49 52
37 51 52
30 28 43
32 50 44
36 52 34
37 41.3 43.3 40.53
Suma de Cuadrados Factor (SCF):
10 x (37– 40.53)2
+ 10 x (41.3– 40.53)2 +
+ 10 x (43.3– 40.53)2 = 207
Suma de los cuadrados de las desviaciones de la media de cada proveedor con respecto a la media general
![Page 29: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/29.jpg)
(23– 37)2 + ... + (36– 37)2 +
(35– 41.3)2 + ... + (52– 41.3)2 +
(50– 43.3)2 + ... + (34– 43.3)2 = 5258
Suma de los cuadrados de las desviaciones de cada dato con respecto a la media del proveedor correspondiente
Ejemplo Proveedores cigüeñales
PROVEEDORES
1 2 3
23 35 50
28 36 43
21 29 36
27 40 34
95 43 45
41 49 52
37 51 52
30 28 43
32 50 44
36 52 34
37 41.3 43.3 40.53
Suma de Cuadrados Residual (SCR):
![Page 30: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/30.jpg)
Grados de libertad (gl)
SCT glT = nº de datos – 1SCF glF = nº de variantes –1SCR glR= glT - glF
En el ejemplo:
SCT 30 - 1= 29 glSCF 3 – 1 = 2 glSCR 29 – 2 = 27 gl
![Page 31: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/31.jpg)
Significación de un efecto
La comparación de la SC asociada a cada efectocon la SCresidual permite estudiar si dicho efectoes o no significativo
Para llevar a cabo dicha comparación, cada sumade cuadrados SC se divide por sus grados delibertad, obteniéndose unos estadísticos a losque se denomina Cuadrados Medios:
SCCM
g .l=
![Page 32: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/32.jpg)
Test F
Si el CMfactor es muy parecido al CMresidual
glF,glR
CMFF ratio F
CMR− = ≈
La F-ratio será muy parecida a 1, con unadistribución F de Fisher con los grados delibertad correspondientes
0 1 2 3Aceptamos H :m m m= =
No hay diferencias significativas entre los proveedores
(El factor no tiene un efecto real a nivel poblacional)
![Page 33: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/33.jpg)
Test F
Si el CMfactor >>> CMresidual
La F-ratio será demasiado elevada para ser unaF de Fisher con los grados de libertadcorrespondientes
Sí hay diferencias significativas entre los proveedores, con respecto al valor medio del equilibrado dinámico
de los cigüeñales
Al menos uno de los tres proveedores tiene una media diferente a la de los otros dos
(Existe un efecto real del factor a nivel poblacional)
0 1 2 3Rechazamos H :m m m= =
![Page 34: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/34.jpg)
¿Cómo estudiar si el efecto de un factor es o no significativo?
VARIABILIDAD RESIDUAL (CMR) VARIABILIDAD FACTOR (CMF)
m2
σ
m1
σ
m3
σ
m1= m2 = m3
σ
1C M RC M F C M RC M F ≈≈1
C M RC M F C M RC M F >>>>
![Page 35: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/35.jpg)
Si no es cierta H0 (al menos uno de los tresproveedores tiene una media diferente a la de losotros dos) la Fratio (o la Fcalculada) tiende a sermayor que una F2, 27
La H0 se contrasta, por tanto, viendo si el valorobtenido para la F-ratio es “demasiado grande”para ser una F de Fisher, lo que viene cuantificadopor el p-value correspondiente que no es más quela Prob(F2,27 > Fratio). Si dicho p-value es inferior alriesgo de 1ª especie α con el que se trabaja(generalmente se opera con α= 0.05), o sea si laFratio excede al valor crítico de una F2, 27 para dichaprobabilidad α, se considera que el efecto delfactor será significativo
Test F (Conclusión)
![Page 36: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/36.jpg)
Ejemplo Proveedores cigüeñales
Tabla resumen del ANOVA
Origen Variación
Suma de Cuadrados
Grados Libertad
Cuadrado Medio
F ratio
Total 5465 29 - -
Proveedor 207 2 103’5 0’532
Residual 5258 27 194’7 -
Riesgo de 1ª especie: α=0’05
Tabla: F2,27(5%) = 3’35 >> 0’532Aceptamos H0
¡NO HAY DIFERENCIAS SIGNIFICATIVAS ENTRE PROVEEDORES!
![Page 37: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/37.jpg)
Test F (p-value)
Distribucion F 2,27
x
den
sity
0 1 2 3 4 5
0
0,2
0,4
0,6
0,8
1
1,2
f=3,35
F-ratio=0,53
(P_value=0,59) > (α=0,05) Aceptamos H0
TEST F Comparando la P_value con α Gráficamente
α=0’05
2,27 ratio 2,27P(F F ) P(F 0,53
P _ value
)
0,59
≥ = ≥ =
= =
α 0,05=2,27/ P(F > f) = 0,05
![Page 38: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/38.jpg)
DEIOAC – Estadística – etsinfDEIOAC – Estadística – etsinf
Construcción Tabla resumen del ANOVA
Origen Variación
Suma de Cuadrados
Grados Libertad
Cuadrado Medio
F ratio
Total SCT glT - -
Factor SCF glF CMF=SCF/glF CMF/CMR
Residual SCR glR CMR=SCR/glR -
1) Establecer Riesgo de 1ª especie: α2) Buscar valor f en Tabla:
3) Comparar f con el F ratio
4) Aceptar o Rechazar H0 NO hay/SI hay diferencias significativas entre los tratamientos
αF Rgl ,glf / P(F > f) = α
Resolución del Test o contraste¡OJO!α NO se
divide por 2
![Page 39: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/39.jpg)
Ejemplo Proveedores cigüeñales
Analysis of Variance for EQUIDINA - Type III Sums of Squares--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value--------------------------------------------------------------------------------MAIN EFFECTS A:PROVEEDO 207,267 2 103,633 0,53 0,5934
RESIDUAL 5258,2 27 194,748--------------------------------------------------------------------------------TOTAL (CORRECTED) 5465,47 29
--------------------------------------------------------------------------------All F-ratios are based on the residual mean square error.
Los resultados se sintetizan en la Tabla Resumen del Anova, proporcionada por Statgraphics
El p-value es superior a 0.05 � ¡el efecto delproveedor sobre la media del equilibrado dinámicoNO es significativo!, es decir es admisible la
H0: m1 = m2 = m3
![Page 40: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/40.jpg)
Contenidos
1. Idea Intuitiva del ANOVA
2. ANOVA con un sólo factor controlado
2.1. Un ejemplo
2.2. Descomposición de la Suma de Cuadrados.
Test F
2.3. Intervalos LSD
2.4. Análisis de residuos
3. ANOVA con más de un factor. Factores cuantitativos
4. Ejemplos y ejercicios
![Page 41: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/41.jpg)
Análisis de residuos
Tiene una gran importancia práctica completarcualquier análisis de datos reales con un estudio de los residuos de los datos. En estos residuos, se refleja el efecto de todos los factores no controlados que pueden haber afectado a los resultados obtenidos
El Statgraphics calcula los residuos automáticamente y permite guardarlos en una variable que por defecto denomina RESIDUALS
También proporciona diferentes representaciones gráficas de los mismos
![Page 42: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/42.jpg)
Análisis de residuos
El “cumplimiento” de las tres hipótesis básicas del ANOVA: Normalidad, Independencia, Homocedasticidad (igualdad de varianzas de las poblaciones) se puede “comprobar” a partir de diferentes tipos de análisis realizados sobre los residuos
Permite detectar datos anómalos o pautas de variabilidad sospechosas
Los residuos deben ser independientes, presentar distribución normal y tener de media 0. La varianza de los residuos es la varianza residual (CMR del ANOVA)
![Page 43: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/43.jpg)
Análisis de residuos
Residuos: diferencia entre cada dato y la media del tratamiento que se ha aplicado para obtener dicho datoObjetivo: Validar análisis previosEjemplo:
37 423 1− = −
91 7415 3' '− =Primer valor
observado del equilibrado
dinámico del prov. 1
Media del equilibrado dinámico de la
muestra del prov. 1
Residuo 1
El residuo de una observaciónrecoge el efecto que sobre dichaobservación han tenido todos losfactores no incluidos en elexperimento
![Page 44: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/44.jpg)
Análisis de residuos
Residual Plot for EQUIDINAR
ES
IDU
OS
PROVEEDOR
1 2 3
-60
-40
-20
0
20
40
60
Residual Plot for EQUIDINAR
ES
IDU
OS
PROVEEDOR
1 2 3
-60
-40
-20
0
20
40
60 Los residuos deben estar alrededor de cero, distribuidos más o menos de manera uniforme
Dato anómalo: la 5ª observación del prov. 1 debe ser 35, no 95
¡Una observación anómala puede invalidar por completo todas las conclusiones de un análisis!
![Page 45: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/45.jpg)
Estudiando los datos introducidos, con los que haoperado el programa, se observa que el 5º dato delproveedor 1 se ha introducido como 95, en vez de 35que era su valor correcto
Análisis de residuos
Si se vuelve a realizar el ANOVA ...
Factor estudiado PROVEEDOR
Variantes del factor 1 2 3
Resultados obtenidos
Equilibrado dinámico (grs)
23 35 50
28 36 43
21 29 36
27 40 34
35 43 45
41 49 52
37 51 52
30 28 43
32 50 44
36 52 34
![Page 46: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/46.jpg)
Ejemplo Proveedores (sin dato anómalo)
Tabla resumen del ANOVA
Origen Variación
Suma de Cuadrados
Grados Libertad
Cuadrado Medio
F ratio
Total 2409’46 29 - -
Proveedor 871’26 2 435’6 7’64
Residual 1538’2 27 56’97 -
Riesgo de 1ª especie: α=0’05
Tabla: F2,27(5%) = 3’35 << 7’64Rechazamos H0
¡SI HAY DIFERENCIAS SIGNIFICATIVAS ENTRE PROVEEDORES!
![Page 47: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/47.jpg)
Ejemplo Proveedores cigüeñales
Distribucion F 2,27
x
den
sity
0 1 2 3 4 5
0
0,2
0,4
0,6
0,8
1
1,2
3.35
α=0’05
Aceptación Rechazo
7’6
Rechazamos H0
TEST F (Gráficamente)
![Page 48: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/48.jpg)
Analysis of Variance for EQUIDINA - Type III Sums of Squares--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value--------------------------------------------------------------------------------MAIN EFFECTS A:PROVEEDO 871,267 2 435,633 7,65 0,0023
RESIDUAL 1538,2 27 56,9704--------------------------------------------------------------------------------TOTAL (CORRECTED) 2409,47 29
--------------------------------------------------------------------------------All F-ratios are based on the residual mean square error.
Ejemplo Proveedores cigüeñalesSe recoge a continuación el cuadro resumen del ANOVA, obtenido una vez corregido el dato erróneo
Las conclusiones son ahora distintas, detectándose un efecto significativo estadísticamente (p-value = 0.0023) del factor Proveedor. (Obsérvese que un único dato anómalo, de un total de 30, había conducido en una FRatio catorce veces menor que la correcta)
![Page 49: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/49.jpg)
Comparación de medias Si el test F resulta significativo:
¿Es mejor el Proveedor 1 que el 2 y el 3?
¿Son mejores el 1 y el 2 que el 3, no habiendodiferencias entre los primeros?
...
Estudiar entre qué proveedores existendiferencias significativas
Un valor significativo de la Fratio sólo indicaría que almenos una de las tres medias difiere de lasrestantes, pero no precisa cuáles son las quedifieren entre sí
Comparación de medias
![Page 50: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/50.jpg)
Intervalos LSD (Least Signficative Difference) son intervalos para la media de cada tratamiento.
Intuitivamente, se calculan como la mitad del intervalo de confianza para la diferencia de medias, pero no corresponde a un intervalo de confianza para las medias.
Interpretación práctica:
Comparación de medias. Intervalos LSD
La diferencia entre la media de dos tratamientos no será significativa si los respectivos
intervalos LSD se solapan.
![Page 51: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/51.jpg)
Intervalos LSD
¿Entre qué proveedores existen diferencias significativas con respecto al equilibrado dinámico?
Means and 95,0 Percent LSD Intervals
PROVEEDOR
EQ
UID
INA
1 2 3
27
31
35
39
43
47
Means and 95,0 Percent LSD Intervals
PROVEEDOR
EQ
UID
INA
1 2 3
27
31
35
39
43
47
Los intervalos se solapan: entre los prov 2 y 3 no hay diferencias significativas del eq. dinámico
Pero entre el prov. 1 y el 2 ó el 3 si hay diferencias significativas
27'53,34'47
37'83,44'77
39'83,46'77
![Page 52: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/52.jpg)
Ejemplo Proveedores (con dato anómalo)
Means and 95,0 Percent LSD Intervals
PROVEEDOR
EQ
UID
INA
1 2 3
30
32
34
36
38
40
42
44
46
48
50
¿Entre que tratamientos existen diferencias significativas con respecto al equilibrado dinámico?
Los 3 intervalos se solapan: no hay diferencias significativas del eq. dinámico entre los proveedores
![Page 53: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/53.jpg)
Análisis de residuos
1 2 3
Residual Plot for EQUIDINA
-14
-9
-4
1
6
11
16
resi
dual
PROVEEDOR
1 2 3
Residual Plot for EQUIDINA
-14
-9
-4
1
6
11
16
resi
dual
PROVEEDOR
![Page 54: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/54.jpg)
Contenidos
1. Idea Intuitiva del ANOVA
2. ANOVA con un sólo factor controlado
2.1. Un ejemplo
2.2. Descomposición de la Suma de Cuadrados.
Test F
2.3. Intervalos LSD
2.4. Análisis de residuos
3. ANOVA con más de un factor. Factores cuantitativos
4. Ejemplos y ejercicios
![Page 55: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/55.jpg)
Ejemplo 2: ANOVA con 2 factores
Objetivo: analizar el efecto que sobre el tiempomedio de respuesta de un sistema informático tienen dos factores :
Factor cualitativo: FICHEROS con 3 variantescodificadas como 1, 2 y 3 I=3
Distribución de los ficheros en los discos.
Factor cuantitativo: BUFFERS con 3 niveles10, 20, 30 J=3Número de buffers en el sistema.
![Page 56: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/56.jpg)
Tratamientos y pruebas
Cada uno de los 9 tratamientos (9 combinaciones posibles) se ha probado 2 veces N=2
Plan Factorial Equilibrado y replicado
Cada prueba consistió en un día completo: obteniéndose los tiempos medios de respuesta evaluados para un proceso estándar consistente en la
compilación de un determinado programa en lenguaje C.
Los resultados se recogen en la siguiente tabla:
![Page 57: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/57.jpg)
Resultados
BUFFERS
10 20 30
1 2’72’4
2’02’2
1’81’6
2 3’13’2
2’72’5
2’21’9
3 3’73’9
2’93’2
3’53’8
FICH
ERO
S
![Page 58: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/58.jpg)
Sumas de Cuadrados y g.l.
FicherosSC 5= '914(nº de variantes – 1) ↔
(I – 1)=(3-1)=2 g.l.
BuffersSC 1= '688(nº de niveles– 1) ↔
(J – 1)=(3-1)=2 g.l.
Suma de Cuadrados Total SCT=8'74
(nº de datos– 1) ↔ (IxJxN – 1)=(3x3x2 - 1)=17 g.l.
Suma de Cuadrados Factores
![Page 59: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/59.jpg)
Sumas de Cuadrados y g.l.
=FicherosxBuffersSC 0'875
(I – 1)x(J – 1) ↔ (3-1)x(3-1) = 2x2 = 4 g.l.
Suma de Cuadrados Interacción
SC Factor i x Factor j = SCFixFj
… Más adelante veremos con más detalle qué representan las interacciones entre factores.
![Page 60: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/60.jpg)
Sumas de Cuadrados y g.l. Suma de Cuadrados Residual
pResidual El fTotaSC SC-S =C
Residual =8'74-(5'914+1'568+0'875)=SC 0'265
SCT 18-1=17 g.l. SCFICHEROS 3-1=2 g.l. SCBUFFERS 3-1=2 g.l. SCFICHxBUFF 2x2=4 g.l.
8 g.l
SCR 17-8=9 g.l. Suficientes
Los g.l de los que disponemos serían:
![Page 61: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/61.jpg)
Tabla Resumen del ANOVAOrigen
VariaciónSC g.l. CM F
ratioF_tabla α=0’05
Total 8’743
FICHEROS 5’914
BUFFERS 1’688
FICHxBUFF 0’876
Residual
![Page 62: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/62.jpg)
Tabla Resumen del ANOVAOrigen
VariaciónSC g.l. CM F
ratioF_tabla α=0’05
Total 8’743 17 - -
FICHEROS 5’914 2 2’957 100’433 4’26 = F2,9
BUFFERS 1’688 2 0’844 28’66 4’26 = F2,9
FICHxBUFF 0’876 4 0’219 7’437 3’63 = F4,9
Residual 0’265 9 0’029
>>>
• Los efectos simples de FICHEROS y BUFFERS resultan significativos, pues su Fratio es mayor que el valor en tablas de una F2,9
(α=0,05) .
• Por el mismo motivo, también es significativo el efecto de la interacción FICHEROSxBUFFERS (F4,9
α)
![Page 63: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/63.jpg)
Means and 95,0 Percent LSD Intervals
FICHEROS
TM
RE
SP
1 2 3
2
2,2
2,4
2,6
2,8
3
3,2
3,4
3,6
3,8
Análisis efecto FICHEROS: Intervalos LSD
1X 2'116=
2X 2'6=
3X 3'5=
Para el promedio de BUFFERS ensayados, con la distribución de FICHEROS 1 se obtienen Tiempos medios de Respuesta significativamente menores que para la distribución 2, y a su vez para ésta se tienen Tiempos de Respuesta significativamente más pequeños que para la configuración 3.
![Page 64: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/64.jpg)
Means and 95,0 Percent LSD Intervals
FICHEROS
TM
RE
SP
1 2 3
2
2,2
2,4
2,6
2,8
3
3,2
3,4
3,6
3,8
Efecto simple de un factor
El efecto simple de un factor se define sobre el promedio de las condiciones estudiadas de los restantes factores
1X 2'116=
2X 2'6=
3X 3'5=
=X 2'74
Media general
= − == − =
F3 3X
3,
X
2,745
Ef
0,76
El efecto simple de la distribución de FICHEROS 3 hace aumentar el Tiempo MEDIO DE RESPUESTA en 0,76
![Page 65: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/65.jpg)
Efecto de la interacción doble
Cuando se estudia más de un factor, aparece el concepto de INTERACCIÓN.
• Puede ser doble, triple, etc, según sea entre dos, tres, … factores. El estudio de interacciones de orden superior a 3 son difíciles de interpretar y rara vez tienen sentido.
• Aparece cuando el efecto de un determinado factor es diferente según el nivel (o variante) considerada del otro factor.
![Page 66: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/66.jpg)
Ejemplos de efectos simples e interacciones dobles
Factor A- +
B a nivel -
B a nivel +
Resultado
A Bx + +
A Bx + −
A Bx − +
A Bx − −
A no tiene efecto B tiene efectoNo hay interacción
Resultado
Factor A- +
A Bx + −
A Bx + +
A Bx − +
A Bx − −
A tiene efecto B tiene efectoNo hay interacción
A tiene efecto B tiene efectoLigera interacción
Fuerte interacción(carece de sentido hablar de efectos simples)
Resultado
Factor A- +
A Bx + −
A Bx + +
A Bx − +
A Bx − −
Factor A- +
Resultado
A Bx + +
A Bx + −
A Bx − +
A Bx − −
![Page 67: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/67.jpg)
Efecto de la interacción doble
El efecto de la interacción existe porque el efecto del factor Buffers es distinto para las diferentes variantes de ficheros
Interaction Plot
BUFFERS
1,6
2
2,4
2,8
3,2
3,6
4T
MR
ES
P
10 20 30
FICHEROS123
![Page 68: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/68.jpg)
Factores cuantitativos: Introducción
Factores Cualitativos Cuantitativos
Factores cualitativos: Tipo de procesador en cierto sistema
Tipo de procedimiento de análisis utilizado en determinado laboratorio
Tipo de proveedor del cableado de red
Tipo de material utilizado en la fabricación de cierto producto
Topología de la red
.......
![Page 69: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/69.jpg)
Factores cuantitativos: Introducción
Factores Cualitativos Cuantitativos
Factores cuantitativos: Tamaño de la memoria caché Cantidad de abono utilizado en cierto cultivo Velocidad de agitación de una mezcla en un proceso
químico Cantidad de pegamento utilizado en un proceso de
adhesivado Nivel de carga de un sistema informático Número de procesadores en un multicomputador Nivel de presión ejercida en cierto proceso ...........
![Page 70: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/70.jpg)
Factores cuantitativos : Introducción
Factores cuantitativos: si su efecto resulta significativo en el ANOVA ……
No tiene sentido comprobar entre qué niveles del factor existen diferencias significativas
Sino si se observa algún tipo de pautas en esas diferencias
Interesa estudiar la naturaleza del efecto del factor sobre la media de la vble. respuesta
![Page 71: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/71.jpg)
Factores cuantitativos
EJEMPLO: Estudio de PRESTACIONES de un multicomputador
• Analizar la LATENCIA de los mensajes de una red deinterconexión en función del TRÁFICO (tasa deinyección de mensajes) de esa red.
• Se ensayan 4 ó 5 niveles de tráfico diferentes y semide la latencia media. ANOVA: TRÁFICOsignificativo.
Cuestión Clave:
¿Existen diferencias significativas en la LATENCIA MEDIA de los mensajes con “poco” y “mucho”
TRÁFICO?
![Page 72: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/72.jpg)
Factores cuantitativos
EJEMPLO: Estudio de PRESTACIONES de un multicomputador
• Analizar la LATENCIA de los mensajes de una red enfunción del TRÁFICO (tasa de inyección de mensajes)de esa red.
• Se ensayan 4 ó 5 niveles de tráfico diferentes y semide la latencia media. ANOVA: TRÁFICOsignificativo.
Cuestión Clave:
¿Cómo evoluciona la LATENCIA MEDIA de los mensajes a medida que aumenta o disminuye el
nivel de TRÁFICO?
DEIOAC – EST
![Page 73: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/73.jpg)
Es obvio que a medida que aumenta el tráfico también aumenta la latencia media, pero cómo ...
¿En la misma proporción a medida que
aumenta el el nivel de TRÁFICO?
EFECTO LINEAL
Tráfico
Latencia media
EJEMPLO: Estudio del TRUOGHPUT
A medida que aumenta el el nivel de TRÁFICO, ¿son mayores los incrementos
de la latencia media?
EFECTO CUADRÁTICO
Tráfico
Latencia media
![Page 74: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/74.jpg)
Factores cuantitativos
EJEMPLO: Estudio de PRESTACIONES de un multicomputador
• Es obvio que a medida que aumenta el tráfico también aumenta la latencia media, pero cómo ...
A medida que aumenta el nivel de
TRÁFICO, ¿son menores los
incrementos de la latencia media?
EFECTO CUADRÁTICOTráfico
Latencia media
![Page 75: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/75.jpg)
EJEMPLO: Buffers y Ficheros
No tiene sentido decir que para 10 buffers el TM de Respuesta es mayor y que entre 20 y 30 buffers no hay diferencia, obteniéndose los menores TM de respuesta (aunque se ha de tener en cuenta).
10 20 30
Means and 95,0 Percent LSD Intervals
BUFFERS
2,2
2,4
2,6
2,8
3
3,2
3,4
TM
RE
SP
Lo importante es si se aprecia o no una posible relación lineal o cuadrática para, en el caso de que ésta fuera significativa, obtener la expresión matemática correspondiente y obtener el número óptimo de ficheros, que puede ser no se haya contemplado en el experimento.
![Page 76: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/76.jpg)
NOTA sobre Condiciones Operativas Óptimas¿Qué número de buffers y qué protocolo se deberían usar para que el TM de Respuesta fuera el menor?
Interactions and 95,0 Percent LSD Intervals
BUFFERS
1,5
1,7
1,9
2,1
2,3
2,5
2,7
2,9
3,1
3,3
3,5
3,7
3,9
4,1
TM
RE
SP
10 20 30
FICHEROS123
COO
Nº buffers = 30
Distribución de Ficheros = 1 o 2
Pero entre la distribución de Ficheros 1 y 2 NO hay diferencias
significativas
Cuanto menor, mejor
![Page 77: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/77.jpg)
Fact. cuantitativos. Combinación de efectos
ZCuadrática
<0 0 >0
ZLineal
<0
0
>0
![Page 78: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/78.jpg)
Factores cuantitativos: Ejemplo1
Con el fin de estudiar el comportamiento de unsistema informático, y tratar de minimizar eltiempo medio de utilización de CPU, se hallevado a cabo un experimento para conocer laposible influencia que la carga pueda tener sobredicho tiempo.
Se han ensayado 3 niveles de carga (50, 100 y 150Mflops/seg.) y se ha medido el tiempo medio deutilización de CPU en segundos. Cada tratamientose ha probado 5 veces en diferentes ejecuciones .
Los resultados del experimento se recogen en lasiguiente tabla:
![Page 79: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/79.jpg)
Factores cuantitativos: Ejemplo1
Factor: Carga Niveles: 3 (50, 100 y 150 Mflops/seg) Variable respuesta:Tiempo medio de Utilización CPU (seg)
CARGA (Mflops/s)50 100 15038 54 63
40 47 65
42 52 57
37 53 58
43 49 62
T1= 200 T2= 255 T3= 305 TG=760
140=X
251X = 3
61X =
![Page 80: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/80.jpg)
Objetivo: estudiar si el factor CARGA afecta a lavariable respuesta “Tiempo medio de utilización
de CPU”
Factores cuantitativos: Ejemplo1
0 50 100 150
1 50 100 150i j
H : m m m
H : i, j ;i j / m m i, j : , ,
= = ∃ ≠ ≠
Hipótesis a contrastar:
ANOVA
![Page 81: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/81.jpg)
2 2
2
,
2
1
76038506,67
15
1209,33
1103,33
106
ij
i j
Ii
i i
TG
N
x
SG
SG
SGT
SCT
SN
SC
CF
FR TC SCS
=
= = =
= − =
= − =
= − =
Factores cuantitativos: Ejemplo1
1103,33551,66
2
1068,83
12
551,66_ 62,45
8,8_
3
SC SCFCM
gl glF
SCR
glR
CMFF ratio
CMR
CMF
CMR
F ratio
= = = =
= = =
= = =
![Page 82: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/82.jpg)
Factores cuantitativos: Ejemplo1
Tabla resumen del ANOVA
Origen Variación
Suma de Cuadrados
Grados Libertad
Cuadrado Medio
F ratio
Total 1209’33 14 - -
CARGA 1103’33 2 551’66 62’45
Residual 106 12 8’83 -
Riesgo de 1ª especie: α=0’05
Tabla: F2,12(5%) = 3’88 << 62’45Rechazamos H0
¡SÍ HAY DIFERENCIAS SIGNIFICATIVAS ENTRE LOS NIVELES DE CARGA!
![Page 83: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/83.jpg)
50 100 150
Medias y 95,0% de Fisher LSD
CARGA
37
42
47
52
57
62
67
TC
PU
Factores cuantitativos: Ejemplo1
A medida que aumenta la CARGA el tiempo medio de utilización de CPU crece linealmente.
![Page 84: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/84.jpg)
Factores cuantitativos: Ejemplo1
A medida que aumenta la CARGA el tiempo medio de utilización de CPU crece linealmente.
Carga
Tiempo CPU
![Page 85: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/85.jpg)
Contenidos
1. Idea Intuitiva del ANOVA
2. ANOVA con un sólo factor controlado
2.1. Un ejemplo
2.2. Descomposición de la Suma de Cuadrados.
Test F
2.3. Intervalos LSD
2.4. Análisis de residuos
3. ANOVA con más de un factor. Factores cuantitativos
4. Ejemplos y ejercicios
![Page 86: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/86.jpg)
Ejercicios
A continuación tienes dos ejercicios adicionales a
las explicaciones de esta tercera parte de la Unidad
Didáctica 5.
Intenta responder a las diferentes preguntas que
se plantean en los dos ejercicios.
Recuerda que puedes consultar ejercicios resueltos
de ANOVA, tanto en el documento de Ejercicios
resueltos UD5_3 como en los diferentes exámenes
resueltos de la asignatura que se encuentran en la
carpeta de Recursos de PoliformaT.
No te olvides aclarar las posibles dudas con tu
profesor.
![Page 87: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/87.jpg)
Ejercicio 1
Con el objeto de analizar el comportamiento de los sistemas
de memoria caché en un tipo de multiprocesador se plantea
llevar a cabo un estudio de la influencia de dos de las
características más importantes de estos sistemas (Nº de
procesadores y protocolo) sobre las prestaciones de los
mismos (3 niveles y 3 variantes).
Cada uno de los 9 tratamientos se ensayó 3 veces,
midiéndose en cada prueba la tasa de fallos (%) de los
sistemas de memoria producida por la ejecución de un
determinado programa tipo.
Los datos obtenidos se recogen en la siguiente tabla:
![Page 88: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/88.jpg)
Ejercicio 1
CPU’s
Para mantener la coherencia entre las memorias necesitamos
un protocolo
![Page 89: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/89.jpg)
Ejercicio 1
PROTOCOLO (PROT)
MSI MESI DRAGON
Nº
DE
PR
OC
ES
AD
OR
ES
(NP
RO
)
2
25,80 30,00 35,25
26,25 32,25 33,17
24,60 33,75 37,01
4
32,40 40,05 48,45
28,80 37,35 47,70
30,90 37,05 45,75
6
19,05 20,10 14,70
15,60 19,95 16,65
14,70 21,90 20,10
DATOS ADICIONALES
SCT = 2601,63
SCPROT = 376,06
SCPROTxNPRO = 212,62
CMNPRO = 976,62
![Page 90: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/90.jpg)
Ejercicio 1
a) ¿Cuál es la variable respuesta?, ¿cuáles son losfactores?, indica de qué tipo son.
b) Construye la tabla resumen del ANOVA e indicaqué efectos han resultado significativos y por qué(α=0,05). Explica los cálculos realizados.
c) Analiza el efecto del tipo de protocolo utilizadomediante los intervalos LSD que se acompañan, eindica qué porcentaje de fallos se ha obtenido, enpromedio, para cada variante.
![Page 91: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/91.jpg)
Ejercicio 1d) Estudia la naturaleza del efecto del número de
procesadores a nivel descriptivo mediante loscorrespondientes gráficos de medias. ¿Existenindicios de una posible relación lineal o cuadrática(positiva o negativa) entre el porcentaje de fallosde los sistemas de memoria y el número deprocesadores? Justifica la respuesta.
e) Interpreta gráficamente los gráficos de lainteracción entre el tipo de protocolo y el númerode procesadores.
![Page 92: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/92.jpg)
Ejercicio 1: Tabla Resumen del ANOVA
109
Source Sum of Squares Df Mean Square F-Ratio P-Value
MAIN EFFECTS
A:NPRO 1953,24 2 976,62 294,41 0,0000
B:PROT 376,06 2 188,03 56,68 0,0000
INTERACTIONS
AB 212,619 4 53,2287 16,02 0,0000
RESIDUAL 59,7099 18 3,3172
TOTAL
(CORRECTED) 2601,63 26
OrigenVariación
SC g.l. CM Fratio
F_tablaα=0’05
Total 2601,63 - -
NPROC 976,62 = F
PROTO 376,06 = F
NPROxPROT 212,62 = F
Residual
![Page 93: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/93.jpg)
Ejercicio 1: Intervalos LSD
PROTOCOLO
DRAGON MESI MSI
Medias y 95,0% de Fisher LSD
23
25
27
29
31
33
35
Tasa_fa
llo
s
Para el promedio del número de procesadores estudiados, existendiferencias significativas en el promedio de la tasa de fallosresultante con los tres protocolos analizados.
A falta de estudiar la interacción, el protocolo MSI proporciona unvalor de la tasa de fallos significativamente más bajo que losotros dos protocolos.
![Page 94: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/94.jpg)
Ejercicio 1: Intervalos LSD
Nº PROCESADORES
2 4 6
Medias y 95,0% de Fisher LSD
17
21
25
29
33
37
41T
asa_fa
llo
s
A medida que aumenta el número de procesadores (y para elpromedio de los protocolos analizados) aumenta la tasa promedio defallos y luego disminuye, dando lugar a una tendencia o pautacuadrática negativa.
A falta de estudiar la interacción, trabajar con 6 procesadores conducea un valor medio de la tasa de fallos significativamente menor.
![Page 95: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/95.jpg)
Ejercicio 1: Interacción doble
Nº PROCESADORES
Interacciones y 95,0% de Fisher LSD
10
20
30
40
50
Tasa_fa
llo
s
2 4 6
PROTODRAGONMESIMSI
El paso de 4 a 6 procesadores proporciona una disminución en la tasamedia de fallos más marcada con el protocolo DRAGON que con los otrosdos protocolos analizados. En estos dos últimos, el comportamiento de latasa promedio de fallos conforme aumenta el número de procesadores esmuy similar, proporcionando MSI en todos los casos valores más bajos dela tasa de fallos.
Sería adecuado trabajar con 6 procesadores y el protocolo MSI con el finde reducir la tasa media de fallos.
![Page 96: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/96.jpg)
Ejercicio 1: Interacción doble
PROTOCOLO
Gráfico de Interacciones
16
26
36
46
56
Tasa_fa
llo
s
DRAGON MESI MSI
NPRO246
Nº PROCESADORES
Gráfico de Interacciones
16
26
36
46
56
Tasa_fa
llo
s
2 4 6
PROTODRAGONMESIMSI
![Page 97: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/97.jpg)
Ejercicio 2
Se ha llevado a cabo un diseño de experimentos con el
objeto de conocer la posible influencia de dos tipos de
puerto de conexión (codificados como A y B) y de tres
niveles de memoria RAM (64, 128 y 192), sobre los
tiempos medios de transmisión de un servidor. Los
resultados del experimento, expresados en segundos por
Mb de información, son los que se indican a continuación:
RAM
64 128 192
Conexión
A
5,462
5,769
5,615
3,308
3,923
4,231
2,692
2,923
3,077
B
6,154
6,538
6,077
5,231
5,307
5,538
4,307
4,615
4,692
![Page 98: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/98.jpg)
Ejercicio 2
a) Realizar un ANOVA para estudiar qué efectosresultan significativos sobre el tiempo medio detransmisión del servidor, teniendo en cuenta losdos factores en estudio y su interacción (α=0,1).
NOTA: SCT= 24,0078; SCCONX=7,295;CMRAM=7,493; CMR=0,0683.
b) Indicar cuál de los dos tipos de puerto resultamás interesante. Justifica el procedimientoutilizado para llegar a la decisión adoptada.
![Page 99: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/99.jpg)
Ejercicio 2
c) Estudia la naturaleza del factor memoria anivel descriptivo mediante los correspondientesgráficos de medias. ¿Existen indicios de unaposible relación lineal o cuadrática (positiva onegativa) entre el tiempo medio de transmisióny el tamaño de memoria? Justifica la respuesta.
d) Interpreta gráficamente los gráficos de lainteracción entre el tipo de conexión y eltamaño de memoria.
e) ¿Con qué tipo de conexión y cantidad de RAM sedebería trabajar con el fin de obtener el menortiempo medio de transmisión?. Justifica larespuesta.
![Page 100: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/100.jpg)
Ejercicio 2: Tabla Resumen del ANOVA
117
OrigenVariación
SC g.l. CM Fratio
F_tablaα=0’05
Total 24,0078 - -
CONX 7,295 = F
RAM 7,493 = F
CONXxRAM = F
Residual 0,0683
![Page 101: UD 5 –Introducción a la Inferencia Estadística](https://reader035.vdocuments.co/reader035/viewer/2022071623/62d269fdee19aa0e6c22aef4/html5/thumbnails/101.jpg)
Ejercicio 2Means and 90,0 Percent LSD Intervals
CONX
TM
TR
AN
SM
A B
4
4,3
4,6
4,9
5,2
5,5
Means and 90,0 Percent LSD Intervals
RAM
TM
TR
AN
SM
64 128 192
3,5
4
4,5
5
5,5
6
6,5
Interaction Plot
RAM
TM
TR
AN
SM
CONXA
B
2,8
3,8
4,8
5,8
6,8
64 128 192