Implantación de programas de mejora Seis Sigma
Regresión 1
Análisis de Regresión y Correlación con MINITAB
Primeras definiciones y conceptos de la regresión
El análisis de la regresión es una técnica estadística que se utiliza para estudiar la relación entre variables o factores cuantitativosreferidos a un mismo grupo de unidades observadas.
Se trata de comprobar estadísticamente si tal relación es posible, y de serlo, expresarlo matemáticamente mediante una ecuación.
Su uso más frecuente es el de la predicción de resultados de una de ellas para valores fijos de las otras.
Implantación de programas de mejora Seis Sigma
Regresión 2
Primeras definiciones y conceptos de la regresión
Cuando se cree que algunas de las variables pueden causar ( o almenos explicar) los cambios observados en otra, a éstas se les llama variables explicativas (X’s)
La que mide el resultado del estudio se le llama variable respuesta(Y)
Se intentará establecer una ecuación de la forma Y=g(x)
Metodología de un análisis de regresión
1. Representar los datos en un gráfico
2. Identificar su aspecto y sus desviaciones
3. Descripciones numéricas que informen sobre los datos y su posible relación
4. Descripción matemática resumida del aspecto general del problema
Implantación de programas de mejora Seis Sigma
Regresión 3
1. Representación de los datos
La manera de mostrar gráficamente los datos observados en un gráfico es a través de un diagrama de dispersión.Y, la respuesta se marca en el eje vertical; la X, variable explicativa, en el eje horizontal. Cada observación, es un puntodel gráfico
2. Identificación del aspecto del diagrama de dispersión
El aspecto general del gráfico viene dado por la dirección, forma y fuerza del mismo:
Dirección: positiva o negativa
Forma: disposición de los puntos (rectilínea o curvilínea)
Fuerza: cuanta más amorfa sea la disposición de los puntos en el gráfico, menor su relación
Implantación de programas de mejora Seis Sigma
Regresión 4
2. Identificación del aspecto del diagrama de dispersión
Es interesante en esta primera identificación del aspecto del gráfico, identificar observaciones atípicas (aquellas que se distinguen del aspecto general del gráfico)
El diagrama de dispersión sólo muestra el aspecto general de la relación entre las dos variables.
En situaciones no muy evidentes, un simple cambio de escala puede hacernos cambiar la forma de pensar.
Edad
Tiem
po
48464442403836343230
450
400
350
300
Scatterplot of Tiempo vs Edad
2. Identificación del aspecto del diagrama de dispersión
Implantación de programas de mejora Seis Sigma
Regresión 5
3. Descripciones numéricas
Se necesita una medida numérica que complemente al gráfico y que, independientemente de las dimensiones de los valores de lasvariables, nos informe sobre la fuerza de la relación existente.Una medida es el Coeficiente de correlación
Características del coeficiente de correlación de Pearson
r utiliza valores estandarizados, luego no le influyen las unidades: tomaría el mismo valor aunque se cambiara de unidad de medida.
r se ve afectada por las observaciones atípicas
Una r positiva (negativa)indica una relación positiva (negativa)entre las variables.
Valores de r cercanos al 0 indican una relación lineal muy débil. La fuerza de la relación lineal aumenta a medida que r se aleja del 0 y se acerca al +1 o al –1.
Implantación de programas de mejora Seis Sigma
Regresión 6
Ejemplos reales
180170160150
95
90
85
80
75
Temperatura150 160 170 180
75
80
85
90
95
Temperatura150 160 170 180
75
80
85
90
95
Temperatura
Situación 1 Situación 2 Situación 3
r = 0,983 r = 0,887 r = 0,230p-value: 0,000 p-value: 0,000 p-value: 0,108
Un valor de r distinto de 0 no implica relación lineal
Es necesario que sea “significativamente distinto de cero”
Coeficiente de correlación: Precaución
El coeficiente de correlación de Pearson sólo mide relación LINEAL
0 10 20 30
0
100
200
r = 0,5 pero ...
Relación casi perfecta,aunque no lineal.
Implantación de programas de mejora Seis Sigma
Regresión 7
4. Descripción matemática de la forma del gráfico
Si la correlación entre las dos variables indica una relación fuerte, sería muy interesante poder “resumir” el gráfico en forma de unaecuación matemática.
En el caso de una forma lineal, a la recta que ajusta la nube depuntos se le llama recta de regresión.
Esta recta se calcula teniendo en cuenta dos cosas:Puesto que describe un cambio en la respuesta a medida que cambia la otra variable, se necesita tener presente esta distinción a la hora de calcularla.Puesto que ninguna recta puede pasar exactamente por todos los puntos, se necesita una manera de construirla que asegure su paso tan cerca de todos los puntos como sea posible.
4. Descripción matemática de la forma del gráfico
Edad
Tiem
po
48464442403836343230
450
400
350
300
250
S 38,3533R-Sq 37,1%R-Sq(adj) 35,0%
Fitted Line PlotTiempo = - 1550 + 95,80 Edad
- 1,193 Edad**2
Implantación de programas de mejora Seis Sigma
Regresión 8
Modelo de regresión simple
Modelo teórico para la población:
y = β0 + β1x + ε
ε ~ N (0, σ)
Recta ajustada:(a partir de una muestra)
xbby 10 +=
xi X
Y
yi observado
recta la de predicción iy
distancia entre lo real y lo que se predice
)xx(ssr
yyx
y −⋅
+=
Modelo de regresión simple
La pendiente de la recta , b1, representa la tasa de cambio, es decir, la cantidad en que cambia cuando x aumenta en una unidad.
x
y1 s
srb
⋅=
y
1
b1
b0
xbby 10 +=
x
y
Implantación de programas de mejora Seis Sigma
Regresión 9
Modelo de regresión simple
r2, representa la fracción de la variación de Y que se explica por la regresión de Y sobre X y sirve de medida de bondad de la regresión para explicar la respuesta.
La parte de la variable Y que no es explicada por el modelo se llama residual.
Una vez dibujada la recta de regresión, existe un valor residual para cada dato: yye −=
Modelo de regresión simple
iii yye −=
ei
Implantación de programas de mejora Seis Sigma
Regresión 10
Análisis de los residuos
La disposición de los residuos sirve para comprobar si la recta sirve para ajustar los datos
Dibujando sus valores en el eje de ordenadas frente a las predicciones deben presentar una forma uniforme , centrada en el valor 0, a lo largo de toda la recta, sin que aparezca ningun valor extraño
Inferencia para la regresión lineal
150 160 170 180
75
85
95
Temperatura
Ren
di2
Rendi2 = 10,2163 + 0,447563 Temperatura
S = 2,01711 R-Sq = 78,6 % R-Sq(adj) = 78,2 %
Regression
95% CI
95% PI
Regression Plot
Intervalo para la recta
Intervalo para las predicciones
Implantación de programas de mejora Seis Sigma
Regresión 11
Regresión no lineal
La relación entre x e y no tiene porqué ser lineal.
Los softwares informáticos ajustan los datos a curvas no lineales (exponenciales, parabólicas, etc.) y calculan el valor de r2 para medir la fuerza de esa relación.
Edad
Tiem
po
48464442403836343230
450
400
350
300
250
S 38,3533R-Sq 37,1%R-Sq(adj) 35,0%
Fitted Line PlotTiempo = - 1550 + 95,80 Edad
- 1,193 Edad**2
Regresión múltiple
La regresión múltiple expresa el valor de la variable dependiente Y, como función de las variables independientes X1, X2, ...,Xk
La más simple es la regresión lineal y el modelo al que se debieran ajustar los datos es:
ikiki22i11i X...XXY εβββα ++++++=
Implantación de programas de mejora Seis Sigma
Regresión 12
Regresión múltiple
Comprobar si el rendimiento de un proceso químico depende,además de la temperatura de la presión a la que se realiza.
Regresión múltiple lineal: Interpretación de resultados
Regression Analysis: Rendi versus
Presion; Temperatura
The regression equation is
Rendi = 48,9 + 1,84 Presion + 0,208 Temperatura
Predictor Coef SE Coef T P
Constant 48,941 2,709 18,07 0,000
Presion 1,8437 0,4699 3,92 0,001
Temperat 0,20807 0,01562 13,32 0,000
S = 0,7947 R-Sq = 90,8% R-Sq(adj) = 89,9%
Desviación tipo de los residuoss2y±
Media de calidad del ajuste
Pruebas de significaciónpara los coeficientes
Implantación de programas de mejora Seis Sigma
Regresión 13
Coeficiente de correlación múltiple
El r2 proporciona, al igual que en el caso simple, una medida de la fuerza de la relación entre Y y sus predicciones, a partir del modelo de regresión propuesto (plano de regresión)Se pueden definir también, coeficientes de correlación parciales, rYXi , miden la relación entre Y y Xi eliminando los efectos del resto de Xj
Regresión múltiple lineal: Interpretación de resultados
∑∑
−
−−== 2
ii
2ii22
)yy(
)yy(1rR
Al igual que en el caso simple, pueden calcularse intervalos de confianza para los coeficientes del plano
También al igual que en el caso simple, será necesaria la comprobación de la adecuidad del modelo con el análisis y estudio de sus residuos: éstos deben de ser normales, centrados en 0 y con variabilidad constante.
Regresión múltiple lineal: Inferencias
Implantación de programas de mejora Seis Sigma
Regresión 14
Ejemplo práctico con MINITAB
Deducir una ecuación que relacione el tiempo marcado por una atleta (en minutos) en una carrera de triatlón con los siguientes posibles factores:
Edad del deportistaPeso del deportistaExperiencia en la práctica del triatlón, en añosKilómetros en carrera en entrenamientosKilómetros en bicicleta en entrenamientosKilómetros nadadndo en entrenamientosConsumo de oxígeno corriendoConsumo de oxígeno en bicicletaCosumo de oxígeno nadando
Ejemplo práctico con MINITAB
Implantación de programas de mejora Seis Sigma
Regresión 15
Ejemplo práctico con MINITAB
Para la Regresión Simple: Stat/Regression/Fitted Line Plot
Residual
Per
cent
1000-100
99,9
99
90
50
10
1
0,1
Fitted Value
Res
idua
l
380360340320
100
50
0
-50
-100
Residual
Freq
uenc
y
80400-40-80
16
12
8
4
0
Observation Order
Res
idua
l
65605550454035302520151051
100
50
0
-50
-100
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Residual Plots for Tiempo
Edad
Tiem
po
48464442403836343230
450
400
350
300
S 44,7224R-Sq 13,0%R-Sq(adj) 11,7%
Fitted Line PlotTiempo = 205,2 + 3,585 Edad
Edad
Tiem
po
48464442403836343230
450
400
350
300
250
S 38,3533R-Sq 37,1%R-Sq(adj) 35,0%
Fitted Line PlotTiempo = - 1550 + 95,80 Edad
- 1,193 Edad**2
Residual
Per
cent
100500-50-100
99,9
99
90
50
10
1
0,1
Fitted Value
Res
idua
l
360340320300280
100
50
0
-50
Residual
Freq
uenc
y
100806040200-20-40
16
12
8
4
0
Observation Order
Res
idua
l
65605550454035302520151051
100
50
0
-50
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Residual Plots for Tiempo
Implantación de programas de mejora Seis Sigma
Regresión 16
Ejemplo práctico con MINITAB
Lo más habitual en la práctica es querer establecer una relaciónentre una variable respuesta (Y) y varias explicativas (X’s)
Para la Regresión Múltiple, existen varias opciones:Stat/Regression/RegressionStat/Regression/Best SubsetsStat/Regression/Stepwise
Ejemplo práctico con MINITAB
Regression Analysis: Tiempo versus Edad; Peso; ... The regression equation is Tiempo = 486 + 3,41 Edad + 0,347 Peso - 21,4 Experiencia + 0,702 EnCarrera - 0,173 EnBici - 1,37 EnNatacion - 3,36 COCarrera - 1,38 COBici + 0,893 CONatacion Predictor Coef SE Coef T P Constant 486,3 114,5 4,25 0,000 Edad 3,410 1,091 3,13 0,003 Peso 0,3470 0,7862 0,44 0,661 Experien -21,424 3,697 -5,80 0,000 EnCarrer 0,7025 0,2771 2,54 0,014 EnBici -0,17251 0,06920 -2,49 0,016 EnNataci -1,3727 0,9566 -1,43 0,157 COCarrer -3,3550 0,8338 -4,02 0,000 COBici -1,3845 0,9098 -1,52 0,134 CONataci 0,8934 0,9217 0,97 0,337 S = 22,70 R-Sq = 80,4% R-Sq(adj) = 77,2% Analysis of Variance Source DF SS MS F P Regression 9 116566 12952 25,14 0,000 Residual Error 55 28339 515 Total 64 144905 Unusual Observations Obs Edad Tiempo Fit SE Fit Residual St Resid 19 36,0 408,00 359,05 10,03 48,95 2,40R 32 37,0 407,00 364,39 10,96 42,61 2,14R 36 37,0 325,00 367,72 8,39 -42,72 -2,03R R denotes an observation with a large standardized residual
¡¡Cuidado!!
Bondad del ajuste
Linealidad significativa
Ejemplo con la opción Stat/Regression/Regression
Implantación de programas de mejora Seis Sigma
Regresión 17
Ejemplo práctico con MINITAB
Realizar un análisis de regresión multivariante tiene el siguiente inconveniente: si dos variables X están muy relacionadas entre sí y aportan mucho a la hora de conocer Y, una de ellas tendrá un p-valor grande y la otra no. Pero, de eliminar una ¿cuál eliminaríamos? Una la conozco, pero no sé con cual está correlacionada....
Posibilidades:Representar gráficamente las relaciones: Gráfico matrizCalcular los coeficientes de correlación entre las variables
Ejemplo práctico con MINITAB
Implantación de programas de mejora Seis Sigma
Regresión 18
Ejemplo práctico con MINITAB
Tiempo
484032 807060 5,02,50,0 906030 450300150 20100 706050 706050 605040
420
360
300
Edad
48
40
32
Peso
80
70
60
Experiencia
5,0
2,5
0,0
EnCarrera
90
60
30
EnBici
450
300
150
EnNatación
20
10
0
CoCarrera
70
60
50
CoBici
70
60
50
CoNatación
Matrix Plot of Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; ...
Ejemplo práctico con MINITAB
Implantación de programas de mejora Seis Sigma
Regresión 19
Ejemplo práctico con MINITAB
Correlations: Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; EnNatación; Co
Tiempo Edad Peso Experien EnCarrer EnBici EnNataci CoCarrer CoBici
Edad 0,361
Peso 0,249 0,342
Experien -0,436 0,414 0,254
EnCarrer -0,469 -0,288 -0,090 0,349
EnBici -0,492 -0,356 -0,091 0,137 0,792
EnNataci -0,430 -0,419 0,132 -0,005 0,479 0,691
CoCarrer -0,695 -0,306 -0,506 0,183 0,255 0,147 0,160
CoBici -0,647 -0,441 -0,474 0,146 0,376 0,323 0,090 0,695
CoNataci -0,596 -0,635 -0,340 0,134 0,478 0,415 0,380 0,548 0,652
Ejemplo práctico con MINITAB
Cuando existen muchas variables X que pueden influir en la respuesta Y, estas opciones pueden resultar complicadas de interpretar.
¿Cómo resuelve este problema MINITAB?Stepwise:crea un modelo paso a paso, eligiendo primero la variable X que mejor explica la Y, añadiendo después una a una, otras X quejunto con las anteriores aporten información. Para, cuando no encuentra ninguna más de las que quedan fuera que añada informaciónBest Subsets: Crea subconjuntos de n variables X que mejor explican Y
Implantación de programas de mejora Seis Sigma
Regresión 20
Ejemplo práctico con MINITAB
Step 1 2 3 4 5
Constant 687,9 709,7 704,1 532,8 516,1
CoCarrer -5,68 -5,20 -4,82 -3,96 -4,09
T-Value -7,67 -8,24 -8,37 -6,81 -7,45
P-Value 0,000 0,000 0,000 0,000 0,000
EnBici -0,203 -0,187 -0,128 -0,242
T-Value -5,15 -5,24 -3,51 -4,69
P-Value 0,000 0,000 0,001 0,000
Experien -10,7 -16,9 -20,8
T-Value -3,94 -5,56 -6,61
P-Value 0,000 0,000 0,000
Edad 3,03 3,53
T-Value 3,56 4,32
P-Value 0,001 0,000
EnCarrer 0,80
T-Value 2,96
P-Value 0,004
S 34,5 29,1 26,2 24,0 22,6
R-Sq 48,31 63,82 71,15 76,17 79,25
R-Sq(adj) 47,49 62,65 69,73 74,59 77,50
C-p 84,4 42,8 24,1 12,0 5,3
Implantación de programas de mejora Seis Sigma
Regresión 21
Ejemplo práctico con MINITAB
Response is Tiempo
E E E C C
x n n o o
p C E N C C N
e a n a a o a
E P r r B t r B t
d e i r i a r i a
a s e e c c e c c
Vars R-Sq R-Sq(adj) C-p S d o n r i i r i i
1 48,3 47,5 84,4 34,482 X
1 41,8 40,9 102,6 36,578 X
2 63,8 62,6 42,8 29,081 X X
2 58,8 57,4 57,0 31,050 X X
3 71,3 69,9 23,8 26,117 X X X
3 71,2 69,7 24,1 26,177 X X X
4 76,2 74,6 12,0 23,987 X X X X
4 75,1 73,5 14,9 24,500 X X X X
5 79,3 77,5 5,3 22,573 X X X X X
5 76,9 75,0 11,9 23,801 X X X X X
6 79,5 77,4 6,7 22,631 X X X X X X
6 79,5 77,3 6,8 22,651 X X X X X X
7 80,1 77,6 7,0 22,506 X X X X X X X
7 79,7 77,2 8,1 22,721 X X X X X X X
8 80,4 77,6 8,2 22,535 X X X X X X X X
8 80,1 77,3 8,9 22,687 X X X X X X X X
9 80,4 77,2 10,0 22,699 X X X X X X X X X
Implantación de programas de mejora Seis Sigma
Regresión 22
Ejemplo práctico con MINITAB
Regresión-Stepwise: crea un modelo paso a paso, eligiendo primero la variable X que mejor explica la Y, añadiendo después una a una, otras X que junto con las anteriores aporten información. Para cuando no encuentra ninguna más, de las que quedan fuera que añada información
Inconveniente: el modelo es muy dependiente de la primera elegida (la que más información aporta por si sola, pero puede no ser la mejor paratrabajar con ella)
Ejemplo práctico con MINITAB
Regresión Best Subsets: Crea subconjuntos de n variables X que mejor explican Y
Inconvenientes: No dice cual es la mejor opción, luego hay que decidirse.Su lista se basa en el valor R2, luego habrá que comprobar si las variables del modelo son significativas
Implantación de programas de mejora Seis Sigma
Regresión 23
Ejemplo práctico con MINITAB
Si elegimos el modelo con 5 variables (R2=77,5%) y hacemos regresión multivariante:The regression equation is
Tiempo = 516 + 3,53 Edad - 20,8 Experiencia + 0,796 EnCarrera - 0,242 EnBici
- 4,09 CoCarrera
Predictor Coef SE Coef T P
Constant 516,10 54,51 9,47 0,000
Edad 3,5335 0,8188 4,32 0,000
Experien -20,752 3,141 -6,61 0,000
EnCarrer 0,7958 0,2689 2,96 0,004
EnBici -0,24185 0,05154 -4,69 0,000
CoCarrer -4,0886 0,5490 -7,45 0,000
S = 22,57 R-Sq = 79,3% R-Sq(adj) = 77,5%
Analysis of Variance
Source DF SS MS F P
Regression 5 114844 22969 45,08 0,000
Residual Error 59 30062 510
Total 64 144905
Ejemplo práctico con MINITAB
¿Qué pasaría con el de 6 variables añadiendo “Ennatación”?
The regression equation is
Tiempo = 521 + 3,39 Edad - 20,6 Experiencia + 0,758 EnCarrera - 0,215 EnBici
- 4,07 CoCarrera - 0,582 EnNatación
Predictor Coef SE Coef T P
Constant 520,92 55,06 9,46 0,000
Edad 3,3875 0,8434 4,02 0,000
Experien -20,612 3,157 -6,53 0,000
EnCarrer 0,7583 0,2742 2,77 0,008
EnBici -0,21535 0,06217 -3,46 0,001
CoCarrer -4,0746 0,5512 -7,39 0,000
EnNataci -0,5823 0,7581 -0,77 0,446
S = 22,65 R-Sq = 79,5% R-Sq(adj) = 77,3%
Implantación de programas de mejora Seis Sigma
Regresión 24
Ejemplo práctico con MINITAB
¿Y qué pasaría con el de 4 variables quitando “Encarrera”?The regression equation is
Tiempo = 533 + 3,03 Edad - 16,9 Experiencia - 0,128 EnBici - 3,96CoCarrera
Predictor Coef SE Coef T P
Constant 532,77 57,62 9,25 0,000
Edad 3,0256 0,8508 3,56 0,001
Experien -16,867 3,033 -5,56 0,000
EnBici -0,12825 0,03655 -3,51 0,001
CoCarrer -3,9574 0,5815 -6,81 0,000
S = 23,99 R-Sq = 76,2% R-Sq(adj) = 74,6%
Analysis of Variance
Source DF SS MS F P
Regression 4 110381 27595 47,96 0,000
Residual Error 60 34524 575
Total 64 144905
Ejemplo práctico con MINITABAntes de dar por válido el estudio y con las opciones elegidas se deberán analizar los residuos:
Implantación de programas de mejora Seis Sigma
Regresión 25
Ejemplo práctico con MINITAB
Residual
Per
cent
80400-40-80
99,9
99
90
50
10
1
0,1
Fitted Value
Res
idua
l
450400350300250
50
25
0
-25
-50
Residual
Freq
uenc
y
6040200-20-40
12
9
6
3
0
Observation Order
Res
idua
l65605550454035302520151051
50
25
0
-25
-50
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Residual Plots for Tiempo