Download - Análisis de Regresión y Correlación con MINITAB - … · Regression 95% CI 95% PI Regression Plot Intervalo para la recta ... La más simple es la regresión lineal y el modelo

Implantación de programas de mejora Seis Sigma

Regresión 1

Análisis de Regresión y Correlación con MINITAB

Primeras definiciones y conceptos de la regresión

El análisis de la regresión es una técnica estadística que se utiliza para estudiar la relación entre variables o factores cuantitativosreferidos a un mismo grupo de unidades observadas.

Se trata de comprobar estadísticamente si tal relación es posible, y de serlo, expresarlo matemáticamente mediante una ecuación.

Su uso más frecuente es el de la predicción de resultados de una de ellas para valores fijos de las otras.


Regresión 2

Primeras definiciones y conceptos de la regresión

Cuando se cree que algunas de las variables pueden causar ( o almenos explicar) los cambios observados en otra, a éstas se les llama variables explicativas (X’s)

La que mide el resultado del estudio se le llama variable respuesta(Y)

Se intentará establecer una ecuación de la forma Y=g(x)

Metodología de un análisis de regresión

1. Representar los datos en un gráfico

2. Identificar su aspecto y sus desviaciones

3. Descripciones numéricas que informen sobre los datos y su posible relación

4. Descripción matemática resumida del aspecto general del problema


Regresión 3

1. Representación de los datos

La manera de mostrar gráficamente los datos observados en un gráfico es a través de un diagrama de dispersión.Y, la respuesta se marca en el eje vertical; la X, variable explicativa, en el eje horizontal. Cada observación, es un puntodel gráfico

2. Identificación del aspecto del diagrama de dispersión

El aspecto general del gráfico viene dado por la dirección, forma y fuerza del mismo:

Dirección: positiva o negativa

Forma: disposición de los puntos (rectilínea o curvilínea)

Fuerza: cuanta más amorfa sea la disposición de los puntos en el gráfico, menor su relación


Regresión 4


Es interesante en esta primera identificación del aspecto del gráfico, identificar observaciones atípicas (aquellas que se distinguen del aspecto general del gráfico)

El diagrama de dispersión sólo muestra el aspecto general de la relación entre las dos variables.

En situaciones no muy evidentes, un simple cambio de escala puede hacernos cambiar la forma de pensar.

Edad

Tiem

po

48464442403836343230

450

400

350

300

Scatterplot of Tiempo vs Edad



Regresión 5

3. Descripciones numéricas

Se necesita una medida numérica que complemente al gráfico y que, independientemente de las dimensiones de los valores de lasvariables, nos informe sobre la fuerza de la relación existente.Una medida es el Coeficiente de correlación

Características del coeficiente de correlación de Pearson

r utiliza valores estandarizados, luego no le influyen las unidades: tomaría el mismo valor aunque se cambiara de unidad de medida.

r se ve afectada por las observaciones atípicas

Una r positiva (negativa)indica una relación positiva (negativa)entre las variables.

Valores de r cercanos al 0 indican una relación lineal muy débil. La fuerza de la relación lineal aumenta a medida que r se aleja del 0 y se acerca al +1 o al –1.


Regresión 6

Ejemplos reales

180170160150

95

90

85

80

75

Temperatura150 160 170 180

75

80

85

90

95

Temperatura150 160 170 180

75

80

85

90

95

Temperatura

Situación 1 Situación 2 Situación 3

r = 0,983 r = 0,887 r = 0,230p-value: 0,000 p-value: 0,000 p-value: 0,108

Un valor de r distinto de 0 no implica relación lineal

Es necesario que sea “significativamente distinto de cero”

Coeficiente de correlación: Precaución

El coeficiente de correlación de Pearson sólo mide relación LINEAL

0 10 20 30

0

100

200

r = 0,5 pero ...

Relación casi perfecta,aunque no lineal.


Regresión 7

4. Descripción matemática de la forma del gráfico

Si la correlación entre las dos variables indica una relación fuerte, sería muy interesante poder “resumir” el gráfico en forma de unaecuación matemática.

En el caso de una forma lineal, a la recta que ajusta la nube depuntos se le llama recta de regresión.

Esta recta se calcula teniendo en cuenta dos cosas:Puesto que describe un cambio en la respuesta a medida que cambia la otra variable, se necesita tener presente esta distinción a la hora de calcularla.Puesto que ninguna recta puede pasar exactamente por todos los puntos, se necesita una manera de construirla que asegure su paso tan cerca de todos los puntos como sea posible.

4. Descripción matemática de la forma del gráfico

Edad

Tiem

po

48464442403836343230

450

400

350

300

250

S 38,3533R-Sq 37,1%R-Sq(adj) 35,0%

Fitted Line PlotTiempo = - 1550 + 95,80 Edad

- 1,193 Edad**2


Regresión 8

Modelo de regresión simple

Modelo teórico para la población:

y = β0 + β1x + ε

ε ~ N (0, σ)

Recta ajustada:(a partir de una muestra)

xbby 10 +=

xi X

Y

yi observado

recta la de predicción iy

distancia entre lo real y lo que se predice

)xx(ssr

yyx

y −⋅

+=


La pendiente de la recta , b1, representa la tasa de cambio, es decir, la cantidad en que cambia cuando x aumenta en una unidad.

x

y1 s

srb

⋅=

y

1

b1

b0

xbby 10 +=

x

y


Regresión 9


r2, representa la fracción de la variación de Y que se explica por la regresión de Y sobre X y sirve de medida de bondad de la regresión para explicar la respuesta.

La parte de la variable Y que no es explicada por el modelo se llama residual.

Una vez dibujada la recta de regresión, existe un valor residual para cada dato: yye −=


iii yye −=

ei


Regresión 10

Análisis de los residuos

La disposición de los residuos sirve para comprobar si la recta sirve para ajustar los datos

Dibujando sus valores en el eje de ordenadas frente a las predicciones deben presentar una forma uniforme , centrada en el valor 0, a lo largo de toda la recta, sin que aparezca ningun valor extraño

Inferencia para la regresión lineal

150 160 170 180

75

85

95

Temperatura

Ren

di2

Rendi2 = 10,2163 + 0,447563 Temperatura

S = 2,01711 R-Sq = 78,6 % R-Sq(adj) = 78,2 %

Regression

95% CI

95% PI

Regression Plot

Intervalo para la recta

Intervalo para las predicciones


Regresión 11

Regresión no lineal

La relación entre x e y no tiene porqué ser lineal.

Los softwares informáticos ajustan los datos a curvas no lineales (exponenciales, parabólicas, etc.) y calculan el valor de r2 para medir la fuerza de esa relación.

Edad

Tiem

po

48464442403836343230

450

400

350

300

250

S 38,3533R-Sq 37,1%R-Sq(adj) 35,0%


- 1,193 Edad**2

Regresión múltiple

La regresión múltiple expresa el valor de la variable dependiente Y, como función de las variables independientes X1, X2, ...,Xk

La más simple es la regresión lineal y el modelo al que se debieran ajustar los datos es:

ikiki22i11i X...XXY εβββα ++++++=


Regresión 12

Regresión múltiple

Comprobar si el rendimiento de un proceso químico depende,además de la temperatura de la presión a la que se realiza.

Regresión múltiple lineal: Interpretación de resultados

Regression Analysis: Rendi versus

Presion; Temperatura

The regression equation is

Rendi = 48,9 + 1,84 Presion + 0,208 Temperatura

Predictor Coef SE Coef T P

Constant 48,941 2,709 18,07 0,000

Presion 1,8437 0,4699 3,92 0,001

Temperat 0,20807 0,01562 13,32 0,000

S = 0,7947 R-Sq = 90,8% R-Sq(adj) = 89,9%

Desviación tipo de los residuoss2y±

Media de calidad del ajuste

Pruebas de significaciónpara los coeficientes


Regresión 13

Coeficiente de correlación múltiple

El r2 proporciona, al igual que en el caso simple, una medida de la fuerza de la relación entre Y y sus predicciones, a partir del modelo de regresión propuesto (plano de regresión)Se pueden definir también, coeficientes de correlación parciales, rYXi , miden la relación entre Y y Xi eliminando los efectos del resto de Xj

Regresión múltiple lineal: Interpretación de resultados

∑∑

−

−−== 2

ii

2ii22

)yy(

)yy(1rR

Al igual que en el caso simple, pueden calcularse intervalos de confianza para los coeficientes del plano

También al igual que en el caso simple, será necesaria la comprobación de la adecuidad del modelo con el análisis y estudio de sus residuos: éstos deben de ser normales, centrados en 0 y con variabilidad constante.

Regresión múltiple lineal: Inferencias


Regresión 14

Ejemplo práctico con MINITAB

Deducir una ecuación que relacione el tiempo marcado por una atleta (en minutos) en una carrera de triatlón con los siguientes posibles factores:

Edad del deportistaPeso del deportistaExperiencia en la práctica del triatlón, en añosKilómetros en carrera en entrenamientosKilómetros en bicicleta en entrenamientosKilómetros nadadndo en entrenamientosConsumo de oxígeno corriendoConsumo de oxígeno en bicicletaCosumo de oxígeno nadando



Regresión 15


Para la Regresión Simple: Stat/Regression/Fitted Line Plot

Residual

Per

cent

1000-100

99,9

99

90

50

10

1

0,1

Fitted Value

Res

idua

l

380360340320

100

50

0

-50

-100

Residual

Freq

uenc

y

80400-40-80

16

12

8

4

0

Observation Order

Res

idua

l

65605550454035302520151051

100

50

0

-50

-100

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data

Residual Plots for Tiempo

Edad

Tiem

po

48464442403836343230

450

400

350

300

S 44,7224R-Sq 13,0%R-Sq(adj) 11,7%

Fitted Line PlotTiempo = 205,2 + 3,585 Edad

Edad

Tiem

po

48464442403836343230

450

400

350

300

250

S 38,3533R-Sq 37,1%R-Sq(adj) 35,0%


- 1,193 Edad**2

Residual

Per

cent

100500-50-100

99,9

99

90

50

10

1

0,1

Fitted Value

Res

idua

l

360340320300280

100

50

0

-50

Residual

Freq

uenc

y

100806040200-20-40

16

12

8

4

0

Observation Order

Res

idua

l

65605550454035302520151051

100

50

0

-50





Regresión 16


Lo más habitual en la práctica es querer establecer una relaciónentre una variable respuesta (Y) y varias explicativas (X’s)

Para la Regresión Múltiple, existen varias opciones:Stat/Regression/RegressionStat/Regression/Best SubsetsStat/Regression/Stepwise


Regression Analysis: Tiempo versus Edad; Peso; ... The regression equation is Tiempo = 486 + 3,41 Edad + 0,347 Peso - 21,4 Experiencia + 0,702 EnCarrera - 0,173 EnBici - 1,37 EnNatacion - 3,36 COCarrera - 1,38 COBici + 0,893 CONatacion Predictor Coef SE Coef T P Constant 486,3 114,5 4,25 0,000 Edad 3,410 1,091 3,13 0,003 Peso 0,3470 0,7862 0,44 0,661 Experien -21,424 3,697 -5,80 0,000 EnCarrer 0,7025 0,2771 2,54 0,014 EnBici -0,17251 0,06920 -2,49 0,016 EnNataci -1,3727 0,9566 -1,43 0,157 COCarrer -3,3550 0,8338 -4,02 0,000 COBici -1,3845 0,9098 -1,52 0,134 CONataci 0,8934 0,9217 0,97 0,337 S = 22,70 R-Sq = 80,4% R-Sq(adj) = 77,2% Analysis of Variance Source DF SS MS F P Regression 9 116566 12952 25,14 0,000 Residual Error 55 28339 515 Total 64 144905 Unusual Observations Obs Edad Tiempo Fit SE Fit Residual St Resid 19 36,0 408,00 359,05 10,03 48,95 2,40R 32 37,0 407,00 364,39 10,96 42,61 2,14R 36 37,0 325,00 367,72 8,39 -42,72 -2,03R R denotes an observation with a large standardized residual

¡¡Cuidado!!

Bondad del ajuste

Linealidad significativa

Ejemplo con la opción Stat/Regression/Regression


Regresión 17


Realizar un análisis de regresión multivariante tiene el siguiente inconveniente: si dos variables X están muy relacionadas entre sí y aportan mucho a la hora de conocer Y, una de ellas tendrá un p-valor grande y la otra no. Pero, de eliminar una ¿cuál eliminaríamos? Una la conozco, pero no sé con cual está correlacionada....

Posibilidades:Representar gráficamente las relaciones: Gráfico matrizCalcular los coeficientes de correlación entre las variables



Regresión 18


Tiempo

484032 807060 5,02,50,0 906030 450300150 20100 706050 706050 605040

420

360

300

Edad

48

40

32

Peso

80

70

60

Experiencia

5,0

2,5

0,0

EnCarrera

90

60

30

EnBici

450

300

150

EnNatación

20

10

0

CoCarrera

70

60

50

CoBici

70

60

50

CoNatación

Matrix Plot of Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; ...



Regresión 19


Correlations: Tiempo; Edad; Peso; Experiencia; EnCarrera; EnBici; EnNatación; Co

Tiempo Edad Peso Experien EnCarrer EnBici EnNataci CoCarrer CoBici

Edad 0,361

Peso 0,249 0,342

Experien -0,436 0,414 0,254

EnCarrer -0,469 -0,288 -0,090 0,349

EnBici -0,492 -0,356 -0,091 0,137 0,792

EnNataci -0,430 -0,419 0,132 -0,005 0,479 0,691

CoCarrer -0,695 -0,306 -0,506 0,183 0,255 0,147 0,160

CoBici -0,647 -0,441 -0,474 0,146 0,376 0,323 0,090 0,695

CoNataci -0,596 -0,635 -0,340 0,134 0,478 0,415 0,380 0,548 0,652


Cuando existen muchas variables X que pueden influir en la respuesta Y, estas opciones pueden resultar complicadas de interpretar.

¿Cómo resuelve este problema MINITAB?Stepwise:crea un modelo paso a paso, eligiendo primero la variable X que mejor explica la Y, añadiendo después una a una, otras X quejunto con las anteriores aporten información. Para, cuando no encuentra ninguna más de las que quedan fuera que añada informaciónBest Subsets: Crea subconjuntos de n variables X que mejor explican Y


Regresión 20


Step 1 2 3 4 5

Constant 687,9 709,7 704,1 532,8 516,1

CoCarrer -5,68 -5,20 -4,82 -3,96 -4,09

T-Value -7,67 -8,24 -8,37 -6,81 -7,45

P-Value 0,000 0,000 0,000 0,000 0,000

EnBici -0,203 -0,187 -0,128 -0,242

T-Value -5,15 -5,24 -3,51 -4,69

P-Value 0,000 0,000 0,001 0,000

Experien -10,7 -16,9 -20,8

T-Value -3,94 -5,56 -6,61

P-Value 0,000 0,000 0,000

Edad 3,03 3,53

T-Value 3,56 4,32

P-Value 0,001 0,000

EnCarrer 0,80

T-Value 2,96

P-Value 0,004

S 34,5 29,1 26,2 24,0 22,6

R-Sq 48,31 63,82 71,15 76,17 79,25

R-Sq(adj) 47,49 62,65 69,73 74,59 77,50

C-p 84,4 42,8 24,1 12,0 5,3


Regresión 21


Response is Tiempo

E E E C C

x n n o o

p C E N C C N

e a n a a o a

E P r r B t r B t

d e i r i a r i a

a s e e c c e c c

Vars R-Sq R-Sq(adj) C-p S d o n r i i r i i

1 48,3 47,5 84,4 34,482 X

1 41,8 40,9 102,6 36,578 X

2 63,8 62,6 42,8 29,081 X X

2 58,8 57,4 57,0 31,050 X X

3 71,3 69,9 23,8 26,117 X X X

3 71,2 69,7 24,1 26,177 X X X

4 76,2 74,6 12,0 23,987 X X X X

4 75,1 73,5 14,9 24,500 X X X X

5 79,3 77,5 5,3 22,573 X X X X X

5 76,9 75,0 11,9 23,801 X X X X X

6 79,5 77,4 6,7 22,631 X X X X X X

6 79,5 77,3 6,8 22,651 X X X X X X

7 80,1 77,6 7,0 22,506 X X X X X X X

7 79,7 77,2 8,1 22,721 X X X X X X X

8 80,4 77,6 8,2 22,535 X X X X X X X X

8 80,1 77,3 8,9 22,687 X X X X X X X X

9 80,4 77,2 10,0 22,699 X X X X X X X X X


Regresión 22


Regresión-Stepwise: crea un modelo paso a paso, eligiendo primero la variable X que mejor explica la Y, añadiendo después una a una, otras X que junto con las anteriores aporten información. Para cuando no encuentra ninguna más, de las que quedan fuera que añada información

Inconveniente: el modelo es muy dependiente de la primera elegida (la que más información aporta por si sola, pero puede no ser la mejor paratrabajar con ella)


Regresión Best Subsets: Crea subconjuntos de n variables X que mejor explican Y

Inconvenientes: No dice cual es la mejor opción, luego hay que decidirse.Su lista se basa en el valor R2, luego habrá que comprobar si las variables del modelo son significativas


Regresión 23


Si elegimos el modelo con 5 variables (R2=77,5%) y hacemos regresión multivariante:The regression equation is

Tiempo = 516 + 3,53 Edad - 20,8 Experiencia + 0,796 EnCarrera - 0,242 EnBici

- 4,09 CoCarrera


Constant 516,10 54,51 9,47 0,000

Edad 3,5335 0,8188 4,32 0,000

Experien -20,752 3,141 -6,61 0,000

EnCarrer 0,7958 0,2689 2,96 0,004

EnBici -0,24185 0,05154 -4,69 0,000

CoCarrer -4,0886 0,5490 -7,45 0,000

S = 22,57 R-Sq = 79,3% R-Sq(adj) = 77,5%

Analysis of Variance

Source DF SS MS F P

Regression 5 114844 22969 45,08 0,000

Residual Error 59 30062 510

Total 64 144905


¿Qué pasaría con el de 6 variables añadiendo “Ennatación”?

The regression equation is

Tiempo = 521 + 3,39 Edad - 20,6 Experiencia + 0,758 EnCarrera - 0,215 EnBici

- 4,07 CoCarrera - 0,582 EnNatación


Constant 520,92 55,06 9,46 0,000

Edad 3,3875 0,8434 4,02 0,000

Experien -20,612 3,157 -6,53 0,000

EnCarrer 0,7583 0,2742 2,77 0,008

EnBici -0,21535 0,06217 -3,46 0,001

CoCarrer -4,0746 0,5512 -7,39 0,000

EnNataci -0,5823 0,7581 -0,77 0,446

S = 22,65 R-Sq = 79,5% R-Sq(adj) = 77,3%


Regresión 24


¿Y qué pasaría con el de 4 variables quitando “Encarrera”?The regression equation is

Tiempo = 533 + 3,03 Edad - 16,9 Experiencia - 0,128 EnBici - 3,96CoCarrera


Constant 532,77 57,62 9,25 0,000

Edad 3,0256 0,8508 3,56 0,001

Experien -16,867 3,033 -5,56 0,000

EnBici -0,12825 0,03655 -3,51 0,001

CoCarrer -3,9574 0,5815 -6,81 0,000

S = 23,99 R-Sq = 76,2% R-Sq(adj) = 74,6%

Analysis of Variance

Source DF SS MS F P

Regression 4 110381 27595 47,96 0,000

Residual Error 60 34524 575

Total 64 144905

Ejemplo práctico con MINITABAntes de dar por válido el estudio y con las opciones elegidas se deberán analizar los residuos:


Regresión 25


Residual

Per

cent

80400-40-80

99,9

99

90

50

10

1

0,1

Fitted Value

Res

idua

l

450400350300250

50

25

0

-25

-50

Residual

Freq

uenc

y

6040200-20-40

12

9

6

3

0

Observation Order

Res

idua

l65605550454035302520151051

50

25

0

-25

-50




Download - Análisis de Regresión y Correlación con MINITAB - … · Regression 95% CI 95% PI Regression Plot Intervalo para la recta ... La más simple es la regresión lineal y el modelo

Top Related