tema 1 regresi´on lineal simple · 4 estad´ıstica ii 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200...

61
Tema 1 Regresi´on lineal simple 1.1. Introducci´on Nuestro objetivo es obtener un modelo que permita establecer relaciones entre dos variables: la variable y (variable dependiente, respuesta o de inter´ es ) y la variable x (variable independiente, predictora o explicativa ). Si es posible establecer una relaci´ on determinista entre las variables, es decir, de la forma y = f (x), entonces la predicci´on no tiene ning´ un error. Por ejemplo, un circuito el´ ectrico compuesto por una alimentaci´on de 10 voltios conectada a una resistencia de 5 ohmios dar´a lugar a una intensidad de I=V/R=10/5=2 amperios. El error obtenido al medirla es despreciable, por lo que mediciones sucesivas obtendr´an siempre intensidades de dos amperios. Como se observa en el gr´afico, todos los puntos se ajustan a la perfecci´on a la ınea recta. R=5 constante 0 5 10 15 20 25 30 35 0 2 4 6 8 Intensidad (A) Diferencia de potencial (V)

Upload: duongthien

Post on 10-Jun-2019

236 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 1

Regresion lineal simple

1.1. Introduccion

Nuestro objetivo es obtener un modelo que permita establecer relaciones entre dosvariables: la variable y (variable dependiente, respuesta o de interes) y la variable x(variable independiente, predictora o explicativa).

Si es posible establecer una relacion determinista entre las variables, es decir,de la forma y = f(x), entonces la prediccion no tiene ningun error. Por ejemplo,un circuito electrico compuesto por una alimentacion de 10 voltios conectada a unaresistencia de 5 ohmios dara lugar a una intensidad de I=V/R=10/5=2 amperios. Elerror obtenido al medirla es despreciable, por lo que mediciones sucesivas obtendransiempre intensidades de dos amperios.

Como se observa en el grafico, todos los puntos se ajustan a la perfeccion a lalınea recta.

R=5 constante

0

5

10

15

20

25

30

35

0 2 4 6 8

Intensidad (A)

Dif

eren

cia

de

po

ten

cial

(V

)

Page 2: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

2 Estadıstica II

Sin embargo, en la mayorıa de las ocasiones, las relaciones entre las variables nosson desconocidas o los errores de medicion no son negligibles. Bajo estas circunstan-cias de relacion no determinista, la relacion puede expresarse como

y = f(x) + u,

donde u es una perturbacion desconocida (una variable aleatoria). La presencia deese error aleatorio significa que dos observaciones identicas para x pueden dar lugara observaciones distintas para y (y viceversa). De particular interes en este curso sonaquellos modelos en los que la funcion f(x) es lineal:

y = β0 + β1x + u.

La variable y varıa linealmente con la variable x, pero no queda totalmente expli-cada por ella a causa de la presencia del error u. Los parametros β0 y β1 se denominancoficientes de regresion; en particular, β0 es el intercepto y β1 es la pendiente.

Consideremos el siguiente diagrama de dispersion que muestra los distintos pesosy alturas de un grupo de personas.

Estatura (cm)

Peso

(kg

)

155 160 165 170 175 180 185 190

44

51

58

65

72

79

86

93

100

Aunque las personas mas altas tienden a tener mayor peso que las bajas, nopodemos establecer una relacion determinista entre las variables peso y altura. Vemosque existe una relacion entre ambas, pero que esta no es exacta.

El objetivo de un modelo de regresion es encontrar una relacion entre las variablesque se ajuste lo mejor posible a los datos. En el caso de un modelo de regresion linealsimple, el objetivo es encontrar la recta de regresion

y = β0 + β1x.

Por ejemplo, supongamos que la recta de regresion es y = −100+x. Eso significaque se estima que una persona cuya estatura es de 180 cm va a pesar 80 kg. Ob-viamente, esto no es siempre cierto: existen personas que miden 180 cm y no pesan80 kg y al reves.

Page 3: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 1. Regresion lineal simple 3

Estatura (cm)

Peso

(kg

)

150 160 170 180 190

44

54

64

74

84

94

104

La diferencia entre el valor yi de una variable (p.ej., peso) y su estimacion yi esel residuo ei:

ei = yi − yi.

Graficamente, es la distancia vertical entre una observacion y su estimacion a travesde la recta de regresion.

1.2. Hipotesis del modelo

Para ser valido, el modelo de regresion lineal simple necesita que se satisfaganlas siguientes hipotesis:

1. linealidad,

2. homogeneidad,

3. homocedasticidad,

4. independencia,

5. normalidad.

1.2.1. Linealidad

Si pretendemos ajustar una lınea recta a un conjunto de datos es fundamentalque estos tengan un aspecto compatible con el de una recta.

Page 4: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

4 Estadıstica II

0

5

10

15

20

25

0 5 10 15 20 25

0

100

200

300

400

500

600

0 5 10 15 20 25

A menor linealidad, peor representacion mediante una recta de regresion.

Para comprobar la linealidad, representamos graficamente la nube de puntosasociada al conjunto de observaciones {(xi, yi)}n

i=1.

Si los datos son no lineales, tal vez sea posible encontrar una relacion de los mis-mos que nos permite aceptar la hipotesis de linealidad para los datos transformados.

1.2.2. Homocedasticidad

La varianza de los errores es constante:

V ar(ui) = σ2, i = 1, . . . , n.

Graficamente, significa que la nube de puntos de los datos tiene una anchura maso menos constante a lo largo de la recta de regresion. En este caso, se dice que losdatos son homocedasticos ; en caso contrario, se dice que son heterocedasticos.

0

5

10

15

20

25

0 5 10 15 20 25

0

2

4

6

8

10

12

14

16

0 1 2 3 4 5 6

1.2.3. Homogeneidad

Las perturbaciones tienen esperanza nula: E(ui) = 0, i = 1, . . . , n.

Esto significa que el ajuste que se va a hacer esta centrado respecto de los datos.

Page 5: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 1. Regresion lineal simple 5

1.2.4. Independencia

Las perturbaciones {ui}ni=1 son variables aleatorias independientes.

1.2.5. Normalidad

Los errores tienen una distribucion normal: ui ≡ N(0, σ2). Es decir, se distribuyensiguiendo una campana de Gauss.

Esta suposicion es perfectamente razonable en virtud del teorema del lımite cen-tral: si una variable es suma de muchas otras mas pequenas, entonces se distri-buira normalmente.

Como consecuencia, yi ≡ N(β0 + β1xi, σ2).

Observacion: Bajo las hipotesis de normalidad, la incorrelacion y la independenciade las variables ui son equivalentes.

1.3. Estimacion de los parametros

Buscamos los parametros β0 y β1 que mejor se adapten a nuestros datos.

0

100

200

300

400

500

600

700

800

0 50 100 150 200 250

1.3.1. Metodo de maxima verosimilitud

Puesto que yi ≡ N(β0 + β1xi, σ2), entonces su funcion de densidad es

f(yi) =1√

2πσ2· exp

(−(yi − β0 − β1xi)

2

2σ2

)

Page 6: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

6 Estadıstica II

y su funcion de maxima verosimilitud es

L(β0, β1, σ2) =

1

(2πσ2)n2

exp

n∑

i=1

(yi − β0 − β1xi)2

2σ2

.

A continuacion derivamos parcialmente respecto de las variables β0, β1 and σ2.

∂ ln L∂β0

= 0,

∂ ln L∂β1

= 0,

∂ ln L∂σ2 = 0.

Las dos primeras ecuaciones se denominan ecuaciones normales de la regresion.

∂ ln L∂β0

= 1σ2

n∑

i=1

(yi − β0 − β1xi).

∂ ln L∂β1

= 1σ2

n∑

i=1

xi(yi − β0 − β1xi).

∂ ln L∂σ2 = − n

2σ2 + 12σ4

n∑

i=1

(yi − β0 − β1xi)2.

Igualando a cero obtenemos que los estimadores β0, β1 y σ2 deben satisfacer

n∑

i=1

yi = nβ0 + β1

n∑

i=1

xi, (1.1)

n∑

i=1

xiyi = β0

n∑

i=1

xi + β1

n∑

i=1

x2i , (1.2)

σ2 =

n∑

i=1

(yi − β0 − β1xi)2

n=

n∑

i=1

e2i

n. (1.3)

Comenzamos trabajando la ecuacion (1.1):

ny = nβ0 + nβ1x;

y = β0 + β1x;

Page 7: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 1. Regresion lineal simple 7

β0 = y − β1x.

Seguimos con (1.2):nxy = nβ0x + nβ1x2;

xy =(y − β1x

)x + β1x2 = xy − β1x

2 + β1x2;

xy − xy = β1

(x2 − x2

);

SX,Y = β1S2X ;

β1 =SX,Y

S2

X

.

Finalmente, sustituyendo β0 y β1 en (1.3), se obtiene que

σ2 = S2Y

(1 − S2

X,Y

S2

XS2

Y

).

Por ultimo, evaluando la matriz hessiana con los valores obtenidos para los esti-madores, se comprueba que se trata de un mınimo (local).

Algunas propiedades que se derivan para estos estimadores son las siguientes:

1. La recta de regresion simple pasa por la media muestral de los datos (x, y).

2. La pendiente de la recta es proporcional a la covarianza entre las variables.

3. Como y = β0 + β1x, entonces

yi = y + β1(xi − x), i = 1, . . . , n.

1.3.2. Metodo de mınimos cuadrados

En este caso se busca que sea mınima la suma de los cuadrados de las distanciasverticales entre los puntos y sus estimaciones a traves de la recta de regresion.

0

2

4

6

8

10

12

14

16

0 2 4 6 8 10

Page 8: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

8 Estadıstica II

La suma de los cuadrados de los residuos es

S(β0, β1) =n∑

i=1

(yi − β0 − β1xi)2.

Al minimizar, obtenemos los mismos estimadores para los parametros que en elmetodo de maxima verosimilitud bajo la hipotesis de normalidad, pues

ln L(β0, β1, σ2) = −n

2ln (2πσ2) − 1

2σ2

n∑

i=1

(yi − β0 − β1xi)2

y las derivadas parciales de S(β0, β1) nos llevan a las ecuaciones normales ya cono-cidas

n∑

i=1

ei = 0,n∑

i=1

eixi = 0.

1.3.3. Estimacion de la varianza

Hemos visto que el estimador maximo verosımil es

σ2 =

n∑

i=1

e2i

n.

Sin embargo, se puede comprobar que E(σ2) = (n−2)σ2

n, por lo que el estimador no

es insesgado. En su lugar, usaremos la varianza residual

S2R =

n∑

i=1

e2i

n−2,

que sı es insesgado.

Page 9: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 1. Regresion lineal simple 9

1.4. Propiedades de los estimadores

1.4.1. Coeficientes de regresion

Normalidad

Al ser yi = β0 + β1xi + ui, entonces yi ≡ N(β0 + β1xi, σ2). Obtendremos que los

estimadores β0 y β1 se distribuyen normalmente por ser combinaciones lineales devariables normales.

β1 =n∑

i=1

(xi − x)(yi − y)

nS2X

=n∑

i=1

(xi − x)yi

nS2X

−n∑

i=1

(xi − x)y

nS2X

.

Comon∑

i=1

(xi − x)y

nS2X

=y

nS2X

n∑

i=1

(xi − x) = 0,

entonces

β1 =n∑

i=1

(xi − x)yi

nS2X

=n∑

i=1

wiyi,

con wi = xi−xnS2

X

.

Ahora

β0 = y − β1x =n∑

i=1

yi

n− x

n∑

i=1

wiyi =n∑

i=1

(1

n− xwi

)yi.

Luego β0 y β1 son combinaciones lineales de variables normales e independientes.En consecuencia, tambien siguen una distribucion normal.

Esperanza

Veremos que tanto β0 como β1 son estimadores centrados.

E(β1) = E

(n∑

i=1

wiyi

)=

n∑

i=1

wiE(yi) =n∑

i=1

wi(β0 + β1xi) =

= β0

n∑

i=1

wi + β1

n∑

i=1

wixi = β0 · 0 + β1 · 1 = β1.

Page 10: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

10 Estadıstica II

E(β0) = E

[n∑

i=1

(1

n− xwi

)yi

]=

n∑

i=1

(1

n− xwi

)E(yi) =

=n∑

i=1

(1

n− xwi

)(β0 + β1xi) = β0 +

n∑

i=1

(1

n− xwi

)+ β1

n∑

i=1

(1

n− xwi

)xi =

= β0(1 − x · 0) + β1(x − x · 1) = β0.

Ası pues, β0 y β1 son estimadores insesgados.

Varianza

Como las variables yi son independientes, entonces

V ar(β1) = V ar

(n∑

i=1

wiyi

)=

n∑

i=1

w2i V ar(yi) =

n∑

i=1

w2i σ

2 =

= σ2

n∑

i=1

(xi − x)2

n2 (S2X)2)

= σ2 S2X

n2 (S2X)2)

=σ2

nS2X

.

La varianza de β1 mide el error que cometemos al estimar la pendiente de larecta. Disminuira si:

aumenta n, es decir, se tiene una muestra de mayor tamano;

aumenta S2X , es decir, los puntos estan mas dispersos.

V ar(β0) =n∑

i=1

(1

n− xwi

)2

V ar(yi) = σ2

n∑

i=1

(1

n− xwi

)2

=

σ2

n∑

i=1

(1

n2+ x2w2

i −2

nxwi

)= σ2

(1

n+ x2

n∑

i=1

w2i −

2

nx

n∑

i=1

wi

)=

σ2

(1

n+ x2 · 1

nS2X

+ 0

)=

σ2

n

(1 +

x2

S2X

).

Sin embargo, la varianza σ2 suele ser un dato desconocido, por lo que se defineel error estandar estimado siguiente como medida de precision de la estimacion delos coeficientes:

Page 11: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 1. Regresion lineal simple 11

S(β0) =

√S2

R

n

(1 + x2

S2

X

), S(β1) =

√S2

R

nS2

X

.

1.5. Inferencia respecto a los parametros

Despues de estimar los valores de los parametros es conveniente analizar el gradode precision de la estimacion. Para ello nos valdremos de dos herramientas:

- intervalos de confianza y

- contrastes de hipotesis.

1.5.1. Intervalos de confianza

Recordemos que si β ≡ N(β, σ2), entonces un intervalo de confianza para β anivel de confianza 1 − α viene dado por

β ± z1−α/2

√σ2,

con P (N(0, 1) > z1−α/2) = α/2.

Sabemos que

β0 ≡ N

(β0,

σ2

n

(1 +

x2

S2X

))

y

β1 ≡ N

(β1,

σ2

nS2X

).

Pero como σ2 no es desconocida, la estimamos mediante S2R. En consecuencia, los

intervalos de confianza se obtienen ahora para una variable aleatoria con varianzadesconocida y son

β0 ± tn−2,1−α/2

√S2

R

n

(1 + x2

S2

X

)

y

β1 ± tn−2,1−α/2

√S2

R

nS2

X

Page 12: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

12 Estadıstica II

para β0 y β1, respectivamente.

Se demuestra (no lo haremos) teniendo en cuenta que

n∑

i=1

e2i

σ2≡ χ2

n−2 y

βi−βi√V ar(βi)√

S2

R

σ2

≡ tn−2.

Observacion: Si se tiene mas de 30 observaciones y se quiere un nivel de confianzadel 95 % (α=0.05), entonces tn−2,1−α/2 ≈ 2. Ası, los intervalos de confianza seran

βi ± 2S(βi).

O sea, hay (aproximadamente) una probabilidad del 95 % de que el parametro βi

se encuentre en el intervalo(βi − 2S(βi), βi + 2S(βi)

).

Cuanto mas estrecho sea este intervalo, mejor sera la estimacion. Si el intervalode confianza contiene el valor cero, entonces no podemos descartar la posibilidad deque β1 (la pendiente) sea cero, es decir, que las variables X e Y no esten relacionadas(linealmente).

1.5.2. Contraste de hipotesis

Un modo de comprobar si β1 es cero es comprobar si el cero es un valor admisiblepara el intervalo de confianza. Otro metodo es realizar el contraste de hipotesis

H0 : β1 = 0,H1 : β1 6= 0.

Bajo la hipotesis nula, se tiene que β1

S(β1)≡ tn−2, por lo que la region de rechazo

de la hipotesis nula es ∣∣∣∣∣β1

S(β1)

∣∣∣∣∣ > tn−2,1−α/2.

De nuevo, si n > 30 y α = 0.05, entonces podemos aceptar que β1 = 0 sien el contraste obtenemos un valor para el estadıstico que este entre -2 y 2. Encaso contrario, podemos asegurar que β1 no es nula para ese nivel de confianza (lasvariables X e Y sı estan relacionadas linealmente).

Page 13: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 1. Regresion lineal simple 13

Muchos programas estadısticos lo que hacen es devolver el p-valor del contraste,que se define como el mınimo nivel de significacion que rechaza la hipotesis nula enfavor de la alternativa. En este caso,

p-valor = P

(∣∣∣∣∣β1

S(β1)

∣∣∣∣∣ > tn−2,1−α/2

).

Si el p-valor es menor o igual que el nivel de confianza α, entonces se rechaza lahipotesis nula.

1.5.3. Contraste de regresion y descomposicion de la variabilidad

El contraste de regresion estudia la posibilidad de que la recta teorica tengapendiente nula (β1 = 0). Aunque acabamos de ver ese contraste, vamos a tratarloahora desde el punto de vista del analisis de la varianza. Mas adelante, en el modelode regresion lineal multiple, se mostrara el interes de este contraste.

La Variabilidad Total (VT) del modelo esn∑

i=1

(yi − y)2 y podemos descomponerla

de la siguiente manera:

V T =n∑

i=1

(yi−y)2 =n∑

i=1

(yi−yi+yi−y)2 =n∑

i=1

(yi−yi)2+

n∑

i=1

(yi−y)2+2n∑

i=1

(yi−yi)(yi−y)

Ahora se tiene que

n∑

i=1

(yi − yi)(yi − y) =n∑

i=1

ei · β1(xi − x) = β1

(n∑

i=1

eixi − xn∑

i=1

ei

)= 0,

por lo que

V T = V E + V NE,

con

VT = variabilidad total =n∑

i=1

(yi − y)2,

VE = variabilidad explicada =n∑

i=1

(yi − y)2,

VNE = variabilidad no explicada =n∑

i=1

(yi − yi)2 =

n∑

i=1

e2i .

Page 14: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

14 Estadıstica II

Si VE es pequena, la recta de regresion no explica bien la variabilidad de losdatos.

No podemos comparar VE y VNE porque, en general, desconocemos su distribu-cion. Pero se puede demostrar que si β1 = 0, entonces

V E

V NE/(n − 2)≡ F1,n−2 (distribucion F de Snedecor).

Fuentes de Suma de Grados de Varianza Test Fvariacion cuadrados libertad

VEn∑

i=1

(yi − y)2 1 S2e

S2e

S2

R

VNEn∑

i=1

(yi − yi)2 n − 2 S2

R

VTn∑

i=1

(yi − y)2 n − 1

Tabla 1.1: Tabla ANOVA

1.5.4. Coeficiente de determinacion

El coeficiente de determinacion R2 describe en que medida la variable x describela variabilidad de y.

R2 =V E

V T=

n∑

i=1

(yi − y)2

(n∑

i=1

yi − y)2

=

n∑

i=1

(yi − y)2

nS2Y

.

A mayor valor, mayor es la relacion entre las variables.

1.6. Prediccion

En un modelo de regresion hay dos objetivos fundamentales:

- conocer la relacion entre la variable respuesta y la explicativa,

Page 15: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 1. Regresion lineal simple 15

- utilizar el modelo ajustado para predecir el valor de la variable respuesta.

En este segundo punto surgen dos tipos de situaciones en funcion de la preguntaque queramos responder:

1. Estimacion de la respuesta media: “¿Cual es el peso medio de las personas quemiden 180 cm de estatura?”

2. Prediccion de una nueva observacion: “Sabiendo que una persona mide 180 cm,¿cual es su peso esperado?”

En ambos caso el valor estimado se obtiene mediante la recta de regresion. Porejemplo, si esta es y = x − 100, entonces para x0 = 180 cm obtendremos un pesoy0 = 80 kg. No obstante, la precision de las estimaciones es diferente.

En el primer caso, el intervalo de confianza es

y0 ± tn−2,1−α/2

√S2

R

(1n

+ (x0−x)2

nS2

X

).

En el segundo obtendremos un intervalo mas amplio denominado intervalo deprediccion:

y0 ± tn−2,1−α/2

√S2

R

(1 + 1

n+ (x0−x)2

nS2

X

).

Este intervalo tiene mayor amplitud (menos precision) porque no buscamos pre-decir un valor medio sino un valor especıfico.

1.7. Diagnosis mediante residuos

Despues de haber obtenido la recta de regresion, hay que comprobar si se cumplenlas hipotesis iniciales.

1.7.1. Linealidad

Con el grafico de dispersion X-Y vemos si los datos iniciales presentan una estruc-tura lineal. Esta es una comprobacion que realizamos antes de comenzar el analisisde regresion.

Page 16: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

16 Estadıstica II

Despues de obtener los parametros de regresion, estudiaremos el grafico de resi-duos frente a valores predichos. Este grafico debe presentar un aspecto totalmentealeatoria, sin estructura alguna.

Valores predichos

Residuos

0 200 400 600 800

-1,8

-0,8

0,2

1,2

2,2

Si tienen algun tipo de estructura, entonces no se satisface la hipotesis de linea-lidad.

Valores predichos

Residuos

0 100 200 300

-6

-4

-2

0

2

4

6

1.7.2. Homocedasticidad

Al analizar los residuos , tambien hay que verificar que su varianza sea mas omenos constante. Nos seran utiles los graficos de residuos frente a valores ajustadosy de residuos frente a X.

X

Residuos

0 40 80 120 160 200

-9

-6

-3

0

3

6

9

Valores predichos

Residuos

0 50 100

-9

-6

-3

0

3

6

9

Page 17: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 1. Regresion lineal simple 17

1.7.3. Independencia

Esta hipotesis es muy importante. Aunque existen contrastes para comprobarla(contraste de Durbin-Watson), no profundizaremos en ese aspecto.

Simplemente hay que tener en cuenta que si los datos son temporales (por ejem-plo, combustible utilizado y rendimiento en dıas sucesivos), entonces no debe em-plearse un modelo de regresion lineal.

1.7.4. Normalidad

Mediante un histograma o un grafico probabilıstico normal de los residuos pode-mos verificar si estos se distribuyen normalmente.

Residuos

Frecuencia

-1,9 -0,9 0,1 1,1 2,1 3,1

0

5

10

15

20

25

-1,8 -0,8 0,2 1,2 2,2

0.1

1

5

20

50

80

95

99

99,9

1.7.5. Transformaciones de los datos

En ocasiones, no se satisfacen las hipotesis exigidas por el modelo y es necesariotransformar los datos de tal forma que los datos transformados satisfagan dichashipotesis. Algunas transformaciones frecuentes son las siguientes:

Forma funcional que Transformacionrelaciona y con x apropiadaExponencial: y = aebx y′ = ln yPotencia: y = axb y′ = ln y, x′ = ln xRecıproca: y = a + b

xx′ = 1

x

Hiperbolica: y = xa+bx

y′ = 1y, x′ = 1

x

1.8. Apendice

1. Si Yi es una variable aleatoria con funcion de densidad f(yi|θ), donde θ es unparametro desconocido, e {y1, . . . , yn} es una observacion de {Yi}, entonces la

Page 18: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

18 Estadıstica II

funcion de verosimilitud asociada a la observacion es

L(θ|y) =n∏

i=1

f(θ|yi).

2. Varianza muestral de una variable X:

S2X =

n∑

i=1

(xi − x)2

n= x2 − x2.

3. Covarianza muestral de dos variables X e Y :

SX,Y =

n∑

i=1

(xi − x)(yi − y)

n= xy − xy.

4. Si wi = xi−xnS2

X

, entonces:

i)n∑

i=1

wi = 0,

ii)n∑

i=1

wixi = 1.

Demostracion:

i)

n∑

i=1

wi =n∑

i=1

xi − x

nS2X

=1

S2X

n∑

i=1

xi

n−

n∑

i=1

x

n

=1

S2X

(x − x) = 0.

ii)

n∑

i=1

wixi =n∑

i=1

(xi − x

nS2X

)xi =

1

S2X

n∑

i=1

x2i

n− x

n∑

i=1

xi

n

=x2 − x2

S2X

=S2

X

S2X

= 1.

5. Esperanza y varianza de combinaciones lineales de variables aleatorias.

i) Si a ∈ R y X es una variables aleatoria, entonces

E(aX) = aE(X),

V ar(aX) = a2V ar(X).

Page 19: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 1. Regresion lineal simple 19

ii) Si a1, . . . , an ∈ R y X1, . . . , Xn son variables aleatorias, entonces

E

(n∑

i=1

aiXi

)=

n∑

i=1

aiE(Xi).

iii) Si a1, . . . , an ∈ R y X1, . . . , Xn son variables aleatorias independientes,entonces

V ar

(n∑

i=1

aiXi

)=

n∑

i=1

a2i V ar(Xi).

Como las distribuciones normal y t de Student son simetricas respecto delorigen, entonces zα = −z1−α y tn,α = −tn,1−α.

Page 20: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante
Page 21: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 2

Regresion lineal multiple

2.1. Introduccion

Hasta ahora hemos estudiado un modelo en el que hay una unica variable expli-cativa. Sin embargo, es razonable pensar que puedan existir varias variables indepen-dientes xi que contribuyan a explicar la variable dependiente y. Es entonces cuandose utiliza el modelo de regresion lineal multiple

y = β0 + β1x1 + · · · + βkxk + u.

Si tenemos n observaciones {(xi1, . . . , xik)}ni=1, entonces

yi = β0 + β1xi1 + · · · + βkxik + ui, i = 1, . . . , n.

2.2. Hipotesis del modelo

El modelo de regresion lineal multiple requiere diversas condiciones analogas alas del modelo de regresion lineal simple.

2.2.1. Linealidad

Los datos deben satisfacer una relacion lineal

yi = β0 + β1xi1 + · · · + βkxik.

21

Page 22: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

22 Estadıstica II

Si hay solo dos variables explicativas,

yi = β0 + β1xi1 + β2xi2,

entonces los datos deben estar aproximadamente contenidos en un plano. Para treso mas variables explicativas, la ecuacion de regresion es un hiperplano y no podemosvisualizar los datos graficamente.

2.2.2. Homocedasticidad

La varianza debe ser constante: V ar(ui) = σ2, i = 1, . . . , n.

2.2.3. Homogeneidad

La perturbacion tiene esperanza nula: E(ui) = 0, i = 1, . . . , n.

2.2.4. Independencia

Las perturbaciones ui son independientes entre sı.

2.2.5. Normalidad

Las perturbaciones ui tienen distribucion normal: ui ≡ N(0, σ2), i = 1, . . . , n.

En consecuencia, yi ≡ N(β0 + β1xi1 + · · · + βkxik, σ2), ı = 1, . . . , n.

2.2.6. Otras hipotesis

Hipotesis adicionales son:

El numero de datos n es mayor que k + 1.

Ninguna variable explicativa es una combinacion lineal de las demas, es decir,las variables xi son linealmente independientes.

Page 23: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 2. Regresion lineal multiple 23

2.3. Forma matricial del modelo

El modelo puede expresarse mediante matrices de la forma siguiente:

Y = Xβ + U,

con

Y =

y1

y2...

yn

, X =

1 x11 . . . x1k

1 x21 . . . x2k...

.... . .

...1 xn1 . . . xnk

, β =

β0

β1...

βk

, U =

u1

u2...

un

.

Con esta notacion matricial:

U ≡ N(0n, σ2In), Y ≡ N(Xβ, σ2In).

2.4. Estimacion de los parametros

Buscamos estimar los parametros de regresion β0, β1, . . . , βk.

Como consecuencia de las hipotesis del modelo, van a coincidir los estimadoresobtenidos mediante los metodos de maxima verosimilitud y mınimos cuadrados.

2.4.1. Coeficientes de regresion

Calculemos β0, . . . , βk mediante mınimos cuadrados:

L(β0, β1, . . . , βk) =n∑

i=1

(yi − β0 − β1xi1 − · · · − βkxik)2.

Derivando parcialmente, {β0, β1, . . . , βk} es la solucion de

∂L

∂βj

= 0, j = 0, . . . , k;

0 = ∂L∂β0

= −2n∑

i=1

(yi − β0 − β1xi1 − · · · − βkxik,

0 = ∂L∂βj

= −2n∑

i=1

(yi − β0 − β1xi1 − · · · − βkxik)xij, j = 1, . . . , k.

Page 24: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

24 Estadıstica II

Llamando ei = yi − yi = yi − β0 − β1xi1 − βkxik, entonces

n∑

i=1

ei = 0,

n∑

i=1

euixij = 0, j = 1, . . . , k.

Estas ecuaciones podemos resolverlas si trabajamos con la expresion matricialdel modelo: Y = Xβ + U . Ası,

L(β) = (Y − Xβ)t(Y − Xβ) = Y tY − 2Y tXβ + βtX tXβ.

Derivando parcialmente esta expresion:

0 =∂L

∂β= −2X tY + 2X tXβ;

X tXβ = X tY ;

β = (X tX)−1X tY.

2.4.2. Varianza

Para estimar la varianza usaremos la varianza residual :

S2R =

n∑

i=1

e2i

n−k−1.

Este estimador es insesgado para σ2. Se puede demostrar que

n∑

i=1

e2i

σ2 ≡ χ2n−k−1.

2.4.3. Comentarios

Como y = β0 +∑k

i=1 βixi e y = β0 +∑k

i=1 βixi, entonces y− y =∑k

i=1 βi(xi− xi).

Si

Y = Y − Y =

y1 − y...

yn − y

, b =

β1...

βk

y

Page 25: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 2. Regresion lineal multiple 25

X =

x11 − x1 . . . x1k − xk

x21 − x1 . . . x2k − xk...

. . ....

xn1 − x1 . . . xnk − xk

,

entonces Y = Xb.

Sean ahora SX,X = 1nX tX y SX,Y = 1

2X tY , es decir, SX,X es la matriz de varianzas

y covarianzas de las variables explicativas y SX,Y el vector de covarianzas entre lasvariables explicativas y la variables respuesta. Se tiene que

Y = Xb;

X tY = X tXb;

b = (X tX)−1X tY = S−1X,XSX,Y .

Si las variables xi son incorreladas, entonces SXX es una matriz diagonal y seresulta que

bi = βi =Cov(y, xi)

V ar(xi),

coincidiendo con el coeficiente de regresion obtenido para el modelo de regresionlineal simple.

2.5. Propiedades de los estimadores

2.5.1. Normalidad

Sabemos que Y = Xβ + U tiene una distribucion normal, Y ≡ N(Xβ, σ2In).Como β = (X tX)−1X tY , entonces β es una funcion lineal de Y . En consecuencia,tambien se distribuye normalmente.

2.5.2. Esperanza

El estimador β es insesgado para β.

E(β) = E[(X tX)−1X tY

]= (X tX)−1X tE(Y ) = (X tX)−1X tXβ = β.

Page 26: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

26 Estadıstica II

2.5.3. Varianza

V ar(β) = V ar[(X tX)−1X tY

]= (X tX)−1X tV ar(Y )X(X tX)−1 =

= (X tX)−1X tσ2X(X tX)−1 = σ2(X tX)−1.

En concreto,

V ar(βi = σ2 (X tX)−1ii ,

Cov(βi, βj) = σ” (X tX)−1ij .

Ası, βi ≡ N(βi, σ2(X tX)−1

ii ).

Sin embargo, la varianza σ2 suele ser desconocida. Por lo tanto, definimos el errorestandar estimado como

S(βi) =√

(X tX)−1ii S2

R.

2.6. Inferencia

Puede resultar interesante realizar contrastes de hipotesis y obtener intervalos deconfianza para cada coeficiente de regresion. Ası podemos determinar la influenciade cada variable explicativa sobre el modelo de regresion.

2.6.1. Contrastes para los coeficientes de regresion

Estamos interesados en saber si la variable xi afecta o no a la respuestas (en cuyocaso convendrıa eliminarla del modelo). Para ello realizamos el contraste

H0 : βi = 0H1 : βi 6= 0.

Sabemos que βi ≡ N(βi, σ2(X tX)−1

ii ), por lo que βi−βi√σ2(XtX)−1

ii

≡ N(0, 1).

Page 27: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 2. Regresion lineal multiple 27

Como σ2 no suele conocerse, en su lugar empleamos la varianza residual S2R.

Puesto que(n−k−1)S2

R

σ2 ≡ χ2n−k−1, entonces el siguiente estimador sigue una distribu-

cion tn−k−1:

N(0, 1)√χ2

n−k−1

n−k−1

=βi − βi√

S2R(X tX)−1

ii

=βi − βi

S(βi).

Ahora, bajo la hipotesis nula se tiene que βi

S(βi)≡ tn−k−1. Por lo tanto, si

∣∣∣∣∣βi

S(βi)

∣∣∣∣∣ > tn−k−1,1−α/2,

entonces rechazamos que βi pueda ser cero. En concreto, si n > 30 y α = 0.05,entonces tn−k−1,1−α/2 ≈ 2.

2.6.2. Intervalos de confianza

Puesto que βi−βi

S(βi)≡ tn−k−1, se tiene que

P

(−tn−k−1,1−α/2 ≤

βi − βi

S(βi)≤ tn−k−1,1−α/2

)= 1 − α;

P(βi − tn−k−1,1−α/2S(βi) < βi < βi + tn−k−1,1−α/2S(βi

).

Ası que(βi − tn−k−1,1−α/2S(βi), βi + tn−k−1,1−α/2S(βi)

)es un intervalo de con-

fianza para βi con nivel de confianza 1 − α. Analogamente a lo ya visto, si n > 30 yα = 0.05, el intervalo puede aproximarse por βi ± 2S(βi).

2.6.3. Contraste de regresion

Al igual que sucede en el modelo de regresion lineal simple, se tiene la relacionV T = V E + V NE, donde

VT = variabilidad total =n∑

i=1

(yi − y)2,

VE = variabilidad explicada =n∑

i=1

(yi − y)2,

VNE = variabilidad no explicada =n∑

i=1

(yi − yi)2 =

n∑

i=1

e2i .

Page 28: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

28 Estadıstica II

El contraste de regresion establece si existe relacion lineal entre la variable res-puesta y los coeficientes de regresion:

H0 : β1 = β2 = · · · = βk = 0,H1 : ∃j ∈ {1, . . . , k} / βj 6= 0.

Por una parte, sabemos que V NEσ2 ≡ χ2

n−k−1. Por otra parte, se puede demostrarque V E

σ2 ≡ χ2k. En consecuencia,

V E/k

V NE/(n − k − 1)≡ Fk,n−k−1.

Fuentes de Suma de Grados de Varianza Test Fvariacion cuadrados libertad

VE (modelo)n∑

i=1

(yi − y)2 k S2e = V E

kS2

e

S2

R

VNE (residual)n∑

i=1

e2i n − k − 1 S2

R

VTn∑

i=1

(yi − y)2 n − 1

Tabla 2.1: Tabla ANOVA

Buscamos el valor Fk,n−k−1;α tal que P (F > Fk,n−k−1;α)=α.

Por lo tanto, si el valor del estadıstico es mayor que Fk,n−k−1;α, entonces rechaza-remos la hipotesis nula y concluiremos que el modelo explica una parte significativade y. En caso contrario, concluiremos que el modelo no explica conjuntamente nada.

2.7. El coeficiente de determinacion corregido

Para construir una medida que describa el ajuste global del modelo se utiliza elcociente entre las variabilidades explicada y total del modelo. Es lo que se llama elcoeficiente de determinacion.

R2 =V E

V T=

n∑

i=1

(yi − y)2

(yi − y)2= 1 − V NE

V T.

Por definicion, 0 ≤ R2 ≤ 1. En particular, si R2 = 1, entonces existe una relacionlineal exacta entre la variable respuesta y las variables explicativas.

Page 29: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 2. Regresion lineal multiple 29

Aunque el valor R2 da una medida de lo adecuado que es el modelo, un mayor R2

no tiene por que implicar un mejor modelo. La razon es que R2 aumenta siempreque se introduce una nueva variable, aunque esta no sea significativa.

Para solventar este problema, el coeficiente R2 se corrige por el numero de gradosde libertad del modelo. Esto penaliza el numero de variables que se introducen.Ası obtenemos el coeficiente de determinacion corregido

R2 = 1 − V NE/(n − k − 1)

V T/(n − 1)= 1 − S2

R

V T/(n − 1).

De este modo, R2 solo aumenta si disminuye S2R.

2.8. Regresion con variables cualitativas

2.8.1. Variables dicotomicas

Consideremos el siguiente diagrama de dispersion que representa el precio delalquiler (y) en una muestra de viviendas de Madrid en funcion de su superficie enmetros cuadrados (x2).

yB

yA

y

B

A

X

Y

Al analizar la muestra, vemos claramente que existen dos grupos de observaciones.Si se ignora este hecho, la recta de regresion va a estimar el modelo con muy pocaprecision (la recta y). En cambio, si en lugar de una recta estimamos dos, entoncesobtenemos ajustes mucho mejores (rectas yA e yB).

Page 30: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

30 Estadıstica II

Este suceso se da con mucha frecuencia. Datos que vienen en grupos son:

peso y altura en funcion del sexo,

densidad de un material y temperatura del proceso en funcion de la presenciao ausencia de un metal,

consumo de un motor y potencia en funcion del tipo de motor (diesel o gasoli-na).

Para resolver este problema, se introducen unas variables binarias (dicotomicas)denominadas variables ficticias, indicadoras o dummies :

zi =

{0 si la observacion i pertenece al grupo A,

1 si la observacion i pertenece al grupo B.

Tras definir la variable z de este modo, se ajusta un modelo de la forma

y = β0 + β1x + β2z + u.

Este modelo tiene la propiedad de ajustar las dos rectas de regresion. Si la ob-servacion i pertenece al grupo A, entonces

yi = β0 + β1xi,

mientras que si pertenece al grupo B, entonces

yi = (β0 + β2) + β1xi.

Supongamos que zi vale 1 si la observacion i pertenece a un hombre y 0 si per-tenece a una mujer. Si ajustamos un modelo como el que acabamos de ver pararelacionar peso (y) y altura (x), obtendremos que un hombre pesa β2 kg mas queuna mujer de la misma altura. Ahora bien, de acuerdo con el modelo, el ratio decrecimiento (la pendiente β1) es el mismo para ambos generos, cosa que podrıa noser cierta.

Page 31: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 2. Regresion lineal multiple 31

Para ver si el hecho de ser hombre o mujer (la variable cualitativa) afecta al ratiode crecimiento (la pendiente de la recta de regresion), estudiaremos la interaccionentre ambas mediante un modelo de la forma

y = β0 + β1x + β2z + β3xz + u.

Ası, para una observacion i:

si zi = 0, entonces yi = β0 + β1xi,

si zi = 1, entonces yigorro = (β0 + β2) + (β1 + β3)zi.

2.8.2. Variables politomicas

Sucede a menudo que las variables cualitativas no se limitan a tomar valores endos categorıas (sı/no), sino que recorren ua gama mas amplia (estudios primarios,medios o superiores; satisfaccion ninguna, poca, regular, bastante o completa. . . ).Modelizar estas situaciones es bastante sencillo: si tenemos s categorıas, entoncesintroduciremos s − 1 variables dicotomicas zt donde

zi =

{1 si la observacion i pertenece a la categorıa t,

0 en caso contrario.

Por ejemplo, si se esta calentando una serie de barras para estudiar su dilatacion yel proceso puede ser realizado en una las de cuatro maquinas disponibles, las distintasvariables del modelo son: y (dilatacion en centımetros), x (temperatura en gradoscentıgrados) y

zi =

{1 si la maquina i es la empleada en el proceso,

0 en caso contrario.

El modelo sera

y = β0 + β1x + β2z1 + β3z2 + β4z3 + u.

2.9. Prediccion

Tanto para predecir el valor medio como el de una observacion especıfica, laestimacion se obtiene sustituyendo el valor de la observacion xh en el modelo deregresion:

yh = β0 + β1xh1 + · · · + βkxhk.

Page 32: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

32 Estadıstica II

Para el valor medio, un intervalo de confianza a nivel 1 − α es

yh ± tn−k−1,1−α/2

√S2

R(1+xthS−1

XXxh)

n,

donde xh = (x1h − x1, . . . , xkh − xk) no incluye la entrada correspondiente al unode β0 y SXX es la matriz de varianzas y covarianzas entre las xi.

Un intervalo de prediccion para una observacion especıficas es

yh ± tn−k−1,1−α/2

√S2

R

(1 +

1+xthS−1

XXxh

n

),

2.10. Multicolinealidad

El problema de la multicolinealidad se da con frecuencia a la hora de ajustarun modelo de regresion multiple: se presenta cuando las variables cualitativas estanaltamente interrelacionadas. Si una variable explicativa esta relacionada exactamentecon las demas, entonces no es posible estimar sus efectos.

Hay que destacar que no es un problema del modelo sino de los datos: a la horade calcular (X tX)−1, puede suceder que det(X tX) sea cero o este muy cerca de serlo.

Podemos detectar que hay multicolinealidad de diferentes maneras:

1. Las variables explicativas son significativas en el modelo de regresion linealsimple, pero dejan de serlo en el modelo de regresion multiple (estadısticos tbajos). Tambien se detecta la multicolinealidad porque, aunque el contraste tde valores bajos, el contraste F indica que una parte importante de la variabi-lidad del modelo es explicada (valor alto del estadıstico) y/o el coeficiente dedeterminacion corregido es alto.

2. Indice de condicionamiento: Sean λ1 ≤ · · · ≤ λk+1 los autovalores de X tX. Sedefine el ındice de condicionamiento como

IC =

√λk+1

λ1

≥ 1.

Si 10 ≤ IC ≤ 30, se dice que hay multicolinealidad moderada. Si IC > 30, sedice que hay multicolinealidad alta.

La idea es que si hay multicolinealidad, entonces alguno de los autovaloresde X tX estara proximo a cero.

Page 33: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 2. Regresion lineal multiple 33

Para reducir el problema de multicolinealidad, una posible solucion es eliminaralguna de las variables explicativas que dependa fuertemente de otras.

2.11. Diagnosis

El proceso de diagnosis en regresion multiple es mas complejo porque no es posiblevisualizar los datos correctamente.

Ademas de las tecnicas ya vistas en regresion simple para comprobar las hipotesisde linealidad, heterocedasticidad y normalidad, en regresion multiple tambien es utilrealizar graficos de residuos frente a las variables explicativas xi. Permiten identificarsi alguna variable produce los efectos de falta de linealidad y heterocedasticidad.

2.12. Apendice

1. Si y, a ∈ Rn, entonces∂yta

∂a= y.

2. Si a ∈ Rn y X ∈ Rn×n, entonces

∂atXa

∂a= 2Xa.

3. Si A ∈ Rm×n e Y ∈ Rn, entonces:

a) E(AY ) = AE(Y );

b) V ar(AY ) = AV ar(Y )At.

4. Los autovalores de la matriz A ∈ Rn×n se calculan resolviendo la ecuacion

|A − λIn| = 0.

Page 34: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante
Page 35: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 3

Analisis de la varianza

3.1. Introduccion

El analisis de la varianza (ANalysis Of VAriance, ANOVA) es un procedimientopara descomponer la variabilidad de un experimento en componentes independientesque puedan asignarse a causas distintas.

A grandes rasgos, el problema es el siguiente:

1. Tenemos n elementos que se diferencia en un factor (estudiantes de distintasclases, vehıculos de distintas marcas, productos manufacturados en distintosprocesos. . . ).

2. En cada elemento (personas, vehıculos, productos. . . ) observamos una carac-terıstica que varıa aleatoriamente de un elemento a otro: las notas de los estu-diantes, el consumo de gasolina de los vehıculos, los tiempos de fabricacion delos productos. . .

3. Se desea establecer si hay o no relacion entre el valor medio de la caracterısti-ca estudiada y el factor: ¿tienen todas las clases la misma nota media? ¿losvehıculos el mismo consumo? ¿los productos el mismo tiempo de fabricacion?

Veamoslo con un ejemplo:

Ejemplo 1Un fabricante de bolsas de papel quiere mejorar la resistencia a la tension de lasbolsas. El ingeniero de produccion piensa que hay una relacion entre la cantidad decelulosa utilizada en la fabricacion del papel y su resistencia.

35

Page 36: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

36 Estadıstica II

Para ello se realiza un experimento en el que se fabrica papel con distintos por-centajes de celulosa y se mide la resistencia.

% celulosa Resistencia5 7 8 15 11 9 1010 12 17 13 18 19 1515 14 18 19 17 16 1820 19 25 22 23 18 20

Resistencia

Porcentaje de celulosa

5 10 15 20

7

10

13

16

19

22

25

3.2. El modelo

Sea y la variable de interes.

y = resistencia de las bolsas

Sea F el factor que influye en los valores de y.

F = porcentaje de celulosa

Sea I el numero de niveles de F .

I = 4

Sea ni, i = 1, . . . , I, el numero de observaciones tomadas para el nivel i. No tienepor que haber el mismo numero de observaciones para todos los grupos.

n1 = n2 = n3 = n4 = 6

Page 37: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 3. Analisis de la varianza 37

Ahora, para i = 1, . . . , I, j = 1, . . . , ni, sea yij = µi + µij, con

yij = j-esima observacion del i-esimo grupo,µi = media del i-esimo grupo,µij = perturbacion que mide la variabilidad debida al error experimental.

Como µij = yij − µi, se puede ver como la desviacion de la j-esima observaciondel grupo i respecto de la media del grupo.

Otra forma de escribir el modelo es

yij = µ + αi + µij,

con

µ = media de todas las observaciones,αi = efecto diferencial del grupo (αi = µi − µ).

Las perturbaciones µij representan la variabilidad intrınseca del experimento: sonvariables aleatorias. Asumiremos para ellas las siguientes hipotesis:

1. El promedio de las perturbaciones es cero.

E(µij) = 0 ∀i, j.

2. La variabilidad es la misma en todos los grupos.

V ar(µij) = σ2 ∀i, j.

3. La distribucion de las perturbaciones es normal.

µij ≡ N(0, σ2) ∀i, j.

Esto implica que sus desviaciones respecto de la media son simetricas y pocasobservaciones (el 5 %) se alejan mas de dos desviaciones tıpicas respecto de lamedia.

4. Las perturbaciones son independientes.

Como µij ≡ N(0, σ2), entonces yij ≡ N(µi, σ2).

Page 38: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

38 Estadıstica II

3.3. Estimacion de los parametros

Nuestro modelo es

yij = µi + µij, yij ≡ N(µi, σ2), i = 1, . . . , I, j = 1, . . . , ni.

Este modelo tiene I + 1 parametros desconocidos: las medias µ1, . . . , µI y lavarianza σ2. Vamos a estimarlos usando el metodo de maxima verosimilitud.

La funcion de densidad para la observacion yij es

f(yij|µi, σ2) =

1√2πσ2

exp−(yij − µi)2

2σ2,

por lo que la funcion de maxima verosimilitud de la muestra es

L(µ, σ2) = (2πσ2)−n2 exp−

I∑

i=1

ni∑

j=1

(yij − µi)2

2σ2.

Tomando logaritmos:

ln L = −n

2ln (2πσ2) − 1

2σ2

I∑

i=1

ni∑

j=1

(yij − µi)2.

Ası:

0 =∂ ln L

∂µi

=1

σ2

ni∑

j=1

(yij − µi) =n

σ2(yi − µi);

µi = yi.

En consecuencia, un estimador de la perturbacion µij sera µij = yij − µi.

A la estimacion del error se la denomina residuo:

eij = yij − yi.

El residuo mide la variabilidad no explicada.

Busquemos ahora una estimacion de la varianza del error:

0 =∂ ln L

∂σ2= − n

2σ2+

1

2(σ2)2

I∑

i=1

ni∑

j=1

(yij − µi)2;

Page 39: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 3. Analisis de la varianza 39

0 = −n +1

σ2

I∑

i=1

ni∑

j=1

(yij − µi)2;

σ2 =

I∑

i=1

ni∑

j=1

(yij − µi)2

n=

I∑

i=1

ni∑

j=1

(yij − yi)2

n=

I∑

i=1

ni∑

j=1

e2ij

n.

Sin embargo, este estimador es sesgado. En su lugar, emplearemos la varianzaresidual

S2R =

I∑

i=1

ni∑

j=1

e2ij

n − I.

Puede reescribirse como la media ponderada de las cuasivarianzas de cada grupo:

S2R =

I∑

i=1

(ni − 1)s2i

n − I.

Como(ni−1)s2

i

σ2 ≡ χ2ni−1, entonces

(n−I)S2

R

σ2 ≡ χ2n−I .

3.4. Propiedades de los estimadores de las medias

3.4.1. Esperanza

El estimador µi es centrado:

E(µi) = E

(∑ni

j=1 yij

ni

)=

∑ni

i=1 E(yi)

ni

=

∑ni=1 µi

ni

= µi.

3.4.2. Varianza

V ar(µi) = V ar

(∑ni

j=1 yij

ni

)=

∑ni

i=1 V ar(yi)

n2i

=

∑ni

i=1 σ2

n2i

=σ2

ni

.

Page 40: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

40 Estadıstica II

Ademas, como µi es combinacion lineal de variables aleatorias independientesnormales, entonces tambien esta distribuida normalmente. Luego

µi ≡ N

(µi,

σ2

ni

).

Un intervalo de confianza para µi es

µi ± z1−α/2σ√ni

.

Pero como σ no suele conocerse, se usa

µi ± tni−1,1−α/2si√ni

.

3.5. Descomposicion de la variabilidad

El objetivo del analisis es saber si el factor que se estudia es o no influyente. Enel modelo, esto significa que hay que comprobar si todas las medias son iguales o siexiste alguna que sea diferente. Es decir, se trata del contraste:

H0 : µ1 = · · · = µI ,H1 : ∃ i, j ∈ {1, . . . , I} / µi 6= µj.

Aunque estemos analizando medias, hablamos de analisis de la varianza porque lavariabilidad de los datos es fundamental para decidir si las medias son o no distintas.

Las desviaciones entre los datos observados y la media general pueden expresarsemediante la identidad

yij − y = (yi − y) + (yij − yi).

Esta igualdad descompone la variabilidad entre los datos y la media general endos terminos: la variabilidad entre las medias y la media general y la variabilidadresidual (variabilidad de los grupos).

Elevando al cuadrado y sumando para los n terminos:

I∑

i=1

ni∑

j=1

(yij − y)2 =I∑

i=1

ni∑

j=1

(yi − y)2 +I∑

i=1

ni∑

j=1

(yij − yi)2 + 2

I∑

i=1

ni∑

j=1

(yi − y)(yij − yi) =

Page 41: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 3. Analisis de la varianza 41

=I∑

i=1

ni(yi − y)2 +I∑

i=1

ni∑

j=1

e2ij.

A continuacion se definen las siguientes expresiones:

VT = variabilidad total =I∑

i=1

ni∑

j=1

(yij − y)2,

VE = variabilidad explicada =I∑

i=1

ni(yi − y)2.

VNE = variabilidad no explicada =I∑

i=1

ni∑

j=1

(yij − yi)2.

De este modo, VT = VE + VNE.

La variabilidad explicada es la variabilidad debida a la existencia de los distintosgrupos. Mide la variabilidad entre ellos. Si VE es pequena, entonces las medias seransimilares.

La variabilidad no explicada es la variabilidad debida al error experimental. Midela variabilidad dentro de los grupos.

Aunque no es posible comparar VE y VNE porque desconocemos como estandistribuidas, sı sabemos que:

1. V NEσ2 ≡ χ2

n−I .

2. Si µ1 = · · · = µI (la hipotesis nula es cierta), entonces V Eσ2 ≡ χ2

I−1.

En consecuencia, cuando se cumple la hipotesis nula, se tiene que

V E/(I − 1)

V NE/(n − I)≡ FI−1,n−I .

En la tabla ANOVA siguiente se muestra toda la informacion asociada al con-traste:

Page 42: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

42 Estadıstica II

Fuentes de Suma de Grados de Varianza Test Fvariabilidad cuadrados libertad

VE: entre grupos∑I

i=1 ni(yi − y)2 I − 1 S2e =

I∑

i=1

ni(yi − y)

I−1S2

e

S2

R

VNE: residualI∑

i=1

ni∑

j=1

(yij − yi)2 n − I S2

R =

I∑

i=1

ni∑

j=1

(yij − yi)2

n−I

VT: totalI∑

i=1

ni∑

j=1

(yij − y)2 n − 1

I∑

i=1

ni∑

j=1

n−1

Si S2e

S2

R

> FI−1,n−I;1−α, entonces se rechaza la hipotesis nula.

Ejemplo 2En el ejemplo de la celulosa,

S2e

S2R

= 19, 61 y F3,20;0.95=3.098,

por lo que las medias son distintas.

Ahora bien, ¿existen algunas que puedan considerarse iguales?

3.6. Estimacion de la diferencia de medias

Una vez sabemos que las medias son distintas, nos interesa saber si al menosalgunas de ellas son iguales. Para ello, una posibilidad es compararlas dos a dosmediante el contraste

H0 : µ1 = µ2,H1 : µ1 6= µ2.

Como la varianza es desconocida, para el contraste tenemos el estadıstico

t =y1 − y2√

(n1−1)s2

1+(n2−1)s2

2

n1+n2−2

(1n1

+ 1n2

) .

Si |t| > tn1+n2−1,1−α/2, entonces se rechaza H0.

Page 43: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 3. Analisis de la varianza 43

Ejemplo 3En el caso de la celulosa:

(i,j) t(1,2) 3.48(1,3) 5.12(1,4) 7.07(2,3) 0.98(2,4) 3.49(3,4) 3.06

Observamos que no hay diferencias entre los grupos 2 y 3.

Metodo de Fischer o LSD (Least Significative Distance)

Si, aunque desconocida, estamos aceptando que todas las varianzas son iguales,entonces podemos estimar la varianza informacion de todas las muestras y no solola de los dos grupos que intervienen en el contraste: empleamos S2

R.

El estadıstico es

t =y1 − y2√(1n1

+ 1n2

)S2

R

.

Si |t| > tn−I,1−α/2, entonces se rechaza H0.

Con el metodo de Fischer podemos detectar diferencias mas pequenas.

Ejemplo 4En el caso de la celulosa:

(i,j) t(1,2) 3.84(1,3) 4.75(1,4) 7.57(2,3) 0.90(2,4) 3.73(3,4) 2.82

Nuevamente vemos que no hay diferencias entre los grupos 2 y 3.

Page 44: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

44 Estadıstica II

Un intervalo de confianzas para la diferencia de medias es

(y1 − y2) ± tn−I,1−α/2

√(1

n1

+1

n2

)S2

R.

El metodo se denomina LSD porque si la distancia entre las medias, y1 − y2 es

mayor que el valor tn−I,1−α/2

√(1n1

+ 1n2

)S2

R, entonces se consideran distintas.

Ejemplo 5En el caso de la celulosa:

(i,j) yi − yj

(1,2) 5.66(1,3) 7(1,4) 11.16(2,3) 1.34(2,4) 5.5(3,4) 4.16

Como tn−I,1−α/2

√(1n1

+ 1n2

)S2

R = 3.06 , las medias y2 e y3 son iguales a todos

los efectos.

3.7. Diagnosis

Normalidad: histograma de residuos, grafico probabilıstico normal.

Linealidad, homocedasticidad: residuos frente a valores predichos.

3.8. Apendice

1. Cuasivarianza muestra de una variable X:

s2X =

n∑

i=1

(xi − x)2

n − 1.

Page 45: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 4

Disenos factoriales a dos niveles

4.1. Introduccion

Con mucha frecuencia aparece en la experimentacion industrial la necesidad deconocer el efecto sobre la variable respuesta de un numero de factores elevado. Sinembargo, no conviene utilizar demasiados factores (incluso si cada uno tiene muypocos niveles), pues el numero de combinaciones posibles aumenta rapidamente. Porejemplo, si tenemos 6 factores con 2,3,4,5,6 y 7 niveles, respectivamente, el numerototal de combinaciones posibles asciende a 7! = 5040.

Ante esta situacion, cabe dos opciones: reducir el numero de niveles o eliminarfactores. La solucion mas habitual es la primera: se eligen niveles en los valores extre-mos del factor (dos niveles unicamente). Pese a que parece experimentos demasiadosimples para ser de utilidad, son faciles de llevar a cabo, tienen bajo coste y sirvenpara seleccionar que factores van a estudiarse con mayor profundidad.

Ejemplos:

hormigon 25 % o 50 % de cemento;

temperatura: baja o alta;

concentracion de un reactivo: 1 % o 2 %;

tiempo de secado de un pegamento: 1 minuto o 2 minutos.

La notacion que emplearemos es ab, donde b es el numero de factores y a es elnumero de niveles, que es el mismo para todos los factores.

45

Page 46: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

46 Estadıstica II

4.2. El diseno 22. Disenos 2

k

4.2.1. Conceptos basicos

Se trata del diseno factorial mas sencillo: dos factores (A y B) con dos nivelescada uno. Utilizaremos los signos (+) y (−) para representar los dos niveles de cadafactor. Para la variable respuesta Y se suele emplear la siguiente notacion:

(o) si ambos factores estan al nivel (−);

(a) si el primer factor esta al nivel (+) y el segundo factor esta al nivel (−);

(b) si el primer factor esta al nivel (−) y el segundo facto estan al nivel (+);

(ab) si ambos factores estan al nivel (+).

Factor A

Fac

tor

B

(+)

(+)

(−)

(−)

y11(o) y21(a)

y12(b) y22(ab)

A B Y- - y11(o)+ - y21(a)- + y12(b)+ + y22(ab)

El modelo estadıstico asociado es el siguiente:

yij = µ + αi + βj + (αβ)ij + uij, i = 1, 2, j = 1, 2,

siendo αi el efecto del nivel i del factor A, βj el efecto del nivel j del factor B y(αβ)ij el efecto de la interaccion cuando el factor A esta al nivel i y el factor Besta al nivel j.

Como los valores αi son desviaciones respecto del valor medio, entonces se tieneque α1 + α2 = 0. Es decir, α2 = −α1. Analogamente,

β2 = −β1,(αβ)i2 = −(αβ)i1, i = 1, 2,(αβ)2j = −(αβ)1j, j = 1, 2.

Teniendo esto en cuenta, podemos definir las variables

Xi =

{+1 si el factor i esta al nivel (+),

−1 si el factor i esta al nivel (−),

Page 47: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 4. Disenos factoriales a dos niveles 47

i = 1, 2, y reescribir el modelo como

yij = µ + α2X1 + β2X2 + (αβ)22X1X2 + µij.

Este modelo tiene cuatro parametros que deben estimarse.

El efecto de un factor sera el efecto por el paso del nivel (−) al nivel (+):

α = efecto de A = α2 − α1 = 2α2,β = efecto de B = β2 − β1 = 2β2,αβ = efecto de la interaccion AB = (αβ)22 − (αβ)12 = (αβ)11 − (αβ)21 = 2(αβ)22.

Luego nuestro modelo se puede escribir como

yij = µ +α

2X1 +

β

2X2 +

αβ

2X1X2 + µij.

4.2.2. Estimacion

Utilizamos la siguiente forma de escribir el modelo para estimar sus parametros:

yij = µ + αi + βj + (αβ)ij + uij, i = 1, 2, j = 1, 2.

El metodo que usaremos es el de mınimos cuadrados.

L =∑

ij

(yij − µ − αi − βj − (αβ)ij)2.

A continuacion, derivamos parcialmente e igualamos a cero haciendo uso de laspropiedades α1 + α2 = 0, β1 + β2 = 0,. . .

0 =∂L

∂µ= −2

i,j

(yij − µ − αi − βj − (αβ)ij) = −8(y − µ);

µ = y;

µ =o + a + b + ab

4.

0 =∂L

∂α2

= −2∑

j

(y2j − µ − α2 − βj − (αβ)2j) = −4(y2 − µ − α2);

Page 48: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

48 Estadıstica II

α2 = y2 − µ =a + ab

2− o + a + b + ab

4=

−o + a − b + ab

4;

α =−o + a − b + ab

2.

0 =∂L

∂(αβ)22

= −(y22 − µ − α2 − β2 − (αβ)22);

(αβ)22 = y22 − µ − α2 − β2 = ab − o + a + b + ab

4−

−−o + a − b + ab

4− −o − a + b + ab

4=

o − a − b − +ab

4;

αβ =0 − a − b + ab

2.

Ejemplo 6Una empresa farmaceutica desea conocer como afectan la concentracion de un reac-tivo (factor A) y la cantidad de un catalizador (factor B) a la cantidad de principioactivo obtenido en un proceso quımico.

factor A =

{(−) 15 %,

(+) 25 %.factor B =

{(−) 1 kg,

(+) 2 kg.

A B Y- - 28+ - 36- + 18+ + 31

Estimamos los parametros:

µ = 28.25, α = 10.5, β = −7.5, αβ = 2.5.

El modelo es

y = 28.25 + 5.25X1 − 3.75X2 + 1.25X1X2.

El algoritmo de los signos

1. Se multiplican los signos de los niveles de los factores que intervienen en elestimador.

Page 49: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 4. Disenos factoriales a dos niveles 49

2. El estimador es la media de las observaciones con (+) menos la media de lasobservaciones con (−).

Ejemplo 7Volvamos a calcular los estimadores del diseno 22:

µ: estima el efecto de todos los factores: o+a+b+ab4

.α: estima el efecto del factor A: a+ab

2− o+b

2.

β: estima el efecto del factor B: b+ab2

− o+a2

.

αβ: estima el efecto de la interaccion AB: o+ab2

− a+b2

.

Ejemplo 8 (Diseno 23)Determinemos los estimadores de los efectos para un diseno factorial 23.

A B C AB AC BC ABC Y- - - + + + - o+ - - - - + + a- + - - + - + b+ + - + - - - ab- - + + - - + c+ - + - + - - ac- + + - - + - bc+ + + + + + + abc

µ =o + a + b + c + ab + ac + bc + abc

8,

A =a + ab + ac + abc

4− o + b + c + bc

4,

B =b + ab + bc + abc

4− o + a + c + ac

4,

C =c + ac + bc + abc

4− o + a + b + ab

4,

AB =o + ab + c + abc

4− a + b + ac + bc

4,

AC =o + b + ac + abc

4− a + ab + c + bc

4,

BC =o + a + bc + abc

4− b + ab + c + ac

4,

ABC =a + b + c + abc

4− o + ab + ac + bc

4.

Page 50: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

50 Estadıstica II

Ejemplo 9Se realiza un experimento para mejorar la calidad del hormigon (la variable de intereses la resistencia a la presion). Para ello, se obtuvieron muestras de hormigon variandolos niveles de tres factores. Los datos de la muestra son los siguientes:

o 700a 900b 3400c 1200ab 5500ac 1200bc 3500abc 6200

El modelo es

y = 2825 + 625x1 + 1825x2 + 200x3 + 575x1x2 + 50x1x3 + 100x1x2x3.

4.3. Significatividad de los efectos

Para comprobar si un efecto es verdaderamente significativo, disponemos de lassiguientes herramientas:

grafico de efectos principales,

diagrama de Pareto,

grafico normal/seminormal,

metodo de la MEDA.

4.3.1. Grafico de efectos principales

Se trata de un grafico en el que se representan las medias estimadas para losniveles (−) y (+) de cada factor.

Page 51: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 4. Disenos factoriales a dos niveles 51

Resistencia

A

-1 1

B

-1 1

C

-1 1

0

1

2

3

4

5

(X 1000)

Se aprecia que el efecto del factor C es mucho menor que el de los otros factores.

4.3.2. Diagrama de Pareto

En este grafico podemos ver las magnitudes de los efectos principales y de lasinteracciones ordenadas de mayor a menor en valor absoluto.

0 1 2 3 4

(X 1000)

BC

AC

ABC

C

AB

A

B

El factor C y sus interacciones parecen ser poco significativos.

En general, las interacciones de orden tercero o superior no suelen ser significati-vas.

4.3.3. Grafico probabilıstico normal/seminormal

Bajo las hipotesis habituales, los estimadores de los efectos siguen una distribu-cion normal.

Si el verdadero valor de los efectos es cero, los valores estimados se pueden con-siderar como una muestra de una distribucion normal de media cero.

Page 52: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

52 Estadıstica II

En este grafico se representan los efectos estandarizados frente a los percenti-les. Estos efectos deberıan estar alineados. En consecuencia, cuanto mas se aleje elestimador del efecto de un factor de la lınea, mas significativo sera dicho factor.

Efectos estandarizados

Po

rcen

taje

BC

AC ABC C

AB A

B

0 1 2 3 4

(X 1000)

0.1

1

5

20

50

80

95

99

99,9

En el grafico probabilıstico seminormal se utilizan las desviaciones estandarizadasde los efectos en lugar de los percentiles.

4.3.4. Metodo de la MEDA

Las iniciales MEDA hacen referencia a mediana de las desviaciones a la mediana.Este metodo se emplea cuando hay tantos parametros como observaciones.

1. Se comienza calculando el valor mediano M de los efectos estimados de lasinteracciones.

2. A continuacion, se calculan las desviaciones (en valor absoluto) de los efectosde las interacciones respecto de M . La MEDA es la mediana de estas observa-ciones.

3. Finalmente se calcula el estimador sθ = MEDA0.675

.

Si el valor del efecto es mayor o igual que 2sθ y hay menos de cinco factores,entonces es significativo.

Si el valor del efecto es mayor o igual que 3sθ y hay al menos cinco factores,entonces es significativo.

Ejemplo 10En el ejemplo del hormigon que estamos usando:

M = mediana(AB,AC,BC,ABC) = mediana(1150,100,0,200) = 150;MEDA = mediana(|AB − M |, |AC − M |, |BC − M |, |ABC − |) =

mediana(1000,50,150,50) = 100.

Page 53: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 4. Disenos factoriales a dos niveles 53

sθ =MEDA

0.675=

100

0.675= 148.15.

Son significativos los efectos mayores o iguales que 296.30, esto es, A, B, C yAB.

Una vez hemos decidido que factores son significativos, escribimos la ecuaciondel modelo considerando solo esos terminos:

y = 2825 + 625x1 + 1825x2 + 200x3 + 575x1x2.

4.4. Resumen de disenos 2k

2k = k factores con dos niveles cada uno.

Pasos del analisis:

1. Se estiman los efectos e interacciones utilizando el algoritmo de los signos.

2. Mediante el diagrama de Pareto y el grafico probabilıstico normal (o el metodode la MEDA), se preseleccionan los efectos no significativos.

3. Se construye la tabla ANOVA con el resto de efectos y se comprueba si sonsignificativos. Se repite los pasos 2 y 3 hasta que todos los efectos que seconserven sean significativos.

4. Se hace la diagnosis del modelo mediante el analisis de los residuos.

5. Se utiliza el modelo para obtener las condiciones de los factores que optimizanla variable respuesta.

Page 54: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante
Page 55: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 5

Disenos fraccionales

5.1. Introduccion

En la experimentacion industrial se necesita conocer el efecto de un gran numerode factores sobre la variable respuesta. Incluso si solo consideramos dos niveles porcada factor, siguen siendo necesarias muchas observaciones. Demasiadas como paraser factible (normalmente porque implican un coste elevado).

Como, normalmente, las interacciones de orden tercero y superior no suelen sersignificativas, nos encontramos con que muchos datos del experimento los estamosutilizando para estimar la variabilidad experimental.

Ejemplo 11En un diseno 25 tenemos 5 factores, 10 interacciones de segundo orden y 16 in-teracciones de orden superior. Luego el 50 % van a aportar poca informacion.

En un diseno 26 tenemos 6 factores, 15 interacciones de segundo orden y 42 in-teracciones de orden superior. Luego el 66 % van a aportar poca informacion.

Una solucion para reducir el numero de observaciones necesarias pasa por consi-derar lo que se conoce como un diseno fraccional. En este tipo de diseno, se realizasolo una parte de un diseno completo de modo que la mayor parte de las observa-ciones se empleen para estimar los efectos principales y las interacciones de ordenbajo.

55

Page 56: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

56 Estadıstica II

5.2. Disenos 2k−1

Vamos a considerar un diseno 23 clasico:

A B C AB AC BC ABC Y- - - + + + - o+ - - - - + + a- + - - + - + b+ + - + - - - ab- - + + - - + c+ - + - + - - ac- + + - - + - bc+ + + + + + + abc

Para realizar el experimento completo necesitarıamos ocho observaciones. Supon-gamos que, sin embargo, solo podemos efectuar cuatro.

Elegimos los cuatro casos que para la interaccion ABC estan al nivel (+).

A B C AB AC BC ABC Y+ - - - - + + a- + - - + - + b- - + + - - + c+ + + + + + + abc

Si prestamos atencion, vemos que los siguientes pares de columnas son igualesentre sı: A y BC, B y AC, C y AB, I y ABC. (Por I entendemos un columnacuyas entradas son todas (+) y que esta asociada con el calculo de la media de lasobservaciones). Ademas, ABC siempre es positiva.

Si A8 y BC8 son los estimadores de los efectos de A y BC en el diseno completoy A4 es el estimador del efecto de A en este diseno reducido, entonces:

A8 =a + ab + ac + abc

4− o + b + c + bc

4,

BC8 =o + a + bc + abc

4− b + c + ab + ac

4,

A4 =a + abc

2− b + c

2= A8 + BC8.

Vemos que se confunde el efecto de A con la interaccion BC: estamos estimando Acomo A+BC. De la misma manera, podemos comprobar que

B4 = B8 + AC8,

Page 57: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 5. Disenos fraccionales 57

C4 = C8 + AB8,

I4 = I8 + ABC8.

Al elegir esta fraccion del diseno original en la que se confunden efectos principalese interacciones, estamos asumiendo que los efectos principales son mas importantesen el proceso que las interacciones.

Se denomina media fraccion o diseno 2k−1 cuando la fraccion del diseno consisteen elegir signos iguales de algun efecto. El numero de observaciones es la mitad queen el diseno completo. Obviamente, no hay un unico modo para elegir la fraccion.

5.2.1. Ecuacion generatriz

La ecuacion generatriz de una fraccion permite conocer la estructura de confusionde la fraccion (estructura del alias).

Disponemos de las siguientes reglas para trabajar con las columnas:

1. Las columnas no se modifican al multiplicarlas por I. Por ejemplo, AI = A.

2. El resultado de multiplicar una columna por sı misma es siempre I. Por ejemplo,AA = I.

La ecuacion generatriz es

I = columna con todos los signos iguales.

Para obtener la confusion de un factor, basta multiplicar ese factor por la ecuaciongeneratriz.

Por ejemplo, en el caso anterior la ecuacion generatriz es I=ABC. La confusiondel factor A es

I · A = ABC · A;A = BC.

Estamos confundiendo el factor A y la interaccion BC. Si hubiesemos elegido I =-AB,entonces la confusion de A serıa A=-B. Es decir, se confundirıan dos efectos princi-pales.

Page 58: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

58 Estadıstica II

5.2.2. Resolucion del diseno

Los disenos fraccionales se basan en que el proceso que se estudia se ve afecta-do fundamentalmente por los efectos principales y las interacciones de orden bajo,pudiendo considerarse nulas las interacciones de orden alto.

Un diseno fraccional sera bueno si confunde los efectos principales con interac-ciones del orden mas alto posible. En cambio, un diseno fraccional que confundaefectos principales es poco recomendable, pues no podremos determinar el efecto deque factor estamos estimando.

Se define la resolucion del diseno como 1 + el orden de interaccion mas bajaconfundida con algun efecto principal. Este valor coincide con el numero de letras dela palabra de la ecuacion generatriz.

Interesan los disenos fraccionales de resolucion alta: los efectos principales estanconfundidos con interacciones de orden alto. Si el efecto es significativo, es muyprobable que sea a consecuencia del efecto principal y no de la interaccion.

Ejemplo 12I = ABC → resolucion III. Diseno 23−1

III .

I = -AB → resolucion IV. Diseno 24−1IV .

Ejemplo 13En un experimento quımico se utiliza un diseno 24−1 con I=ABCD para investigarlos efectos de cuatro factores.

A = temperatura,B = presion,C = concentracion,D = velocidad de centrifugado.

La variable respuesta es la cantidad de residuos generada por el proceso.

A B C D Y- - - - 550+ - - + 749- + - + 1052+ + - - 650- - + + 1075+ - + - 642- + + - 601+ + + + 729

Page 59: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 5. Disenos fraccionales 59

Se trata de un diseno de resolucion IV y los estimadores de los efectos son

µ = 756, A(+BCD) = −127, B + (ACD) = 4, C(+ABD) = 11.5,

D(+ABC) = 290.5, AB+CD = −10, AC+BD = −25.5, AD+BC = −197.5.

Las confusiones son

I = ABCD, A = BCD, B = ACD, C = ABD,

D = ABC, AB = CD, AC = BD, AD = BC.

Mediante las herramientas ya estudiadas, descartamos los efectos poco significa-tivos. Por ejemplo, el diagrama de Pareto que se obtiene es:

0 50 100 150 200 250 300

B

AB+CD

C

AC+BD

A

AD+BC

D

Los efectos D, AD+BC y A parecen ser los mas importantes (podemos confirmar-lo mediante la correspondiente tabla ANOVA). Como B y C no son significativos,tampoco lo son sus interacciones. Por lo tanto, en AD+BC el efecto mayor pesosera el de AD.

En consecuencia, nuestro modelo queda

y = 756 − 63.5xA + 145.25xD − 98.75xAxD.

Para minimizar y, interesa xA = −1 y xD = −1, es decir, baja temperatura ypoca velocidad de centrifugado. La presion y la concentracion no son importantes.

Regla para resolver las confusiones

Los efectos principales son mas importantes que las interacciones.

Si dos factores no son significativos, es poco frecuente que lo sea la interaccion.

En caso de duda, debe ampliarse el experimento.

Page 60: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

60 Estadıstica II

5.3. Disenos 2k−p

Como la toma de observaciones a nivel industrial tiene un coste muy elevado,el que un diseno 2k−1 reduzca a la mitad el numero de experimentos individuales arealizar no suele ser suficiente; todavıa es necesario disminuirlo mas.

En un diseno 2k−p solo queremos realizar 2k−p experimentos individuales. En estosdisenos la ecuacion generatriz tiene 2p − 1 efectos confundidos con I.

Para generar un diseno de resolucion maxima, seguimos el siguiente procedimien-to:

1. Se genera un diseno 2k−p completo.

2. Se igualan los p factores que faltan a las interacciones de mayor orden del disenoanterior.

3. Si hay varias opciones, se elige la que proporcione un diseno de resolucionmaxima.

Ejemplo 14 (Diseno 26−3)1. Se genera un diseno 23 completo.

A B C AB AC BC ABC- - - + + + -+ - - - - + +- + - - + - ++ + - + - - -- - + + - - ++ - + - + - -- + + - - + -+ + + + + + +

2. Se igualan los tres factores que faltan a interacciones del diseno. Por ejemplo,D=AC, E=BC y F=ABC.

En consecuencia, la ecuacion generatriz (incompleta) del modelo es

I = ACD = BCE = ABCF.

3. Para obtener la ecuacion generatriz completa hay que tener en cuenta que elproducto de los alias de I tambien es una columna alias de I (toda con signospositivos). Ası que hacemos todos los productos posibles (en este caso, parejasy ternas).

Page 61: Tema 1 Regresi´on lineal simple · 4 Estad´ıstica II 0 5 10 15 20 25 0 5 10 15 20 25 0 100 200 300 400 500 600 0 5 10 15 20 25 A menor linealidad, peor representaci´on mediante

Tema 5. Disenos fraccionales 61

I = ACD · BCE = ABDE,I = ACD · ABCF = BDF,I = BCE · ABCF = AEF,I = ACD · BCE · ABCF = CDEF.

uego la ecuacion generatriz completa del diseno (con 23 − 1 = 7 efectos con-fundidos) es

I = ACD = AEF = BCE = BDF = ABCF = ABDE = CDEF.

Se trata de un diseno 26−3III .

4. Para determinar las confusiones, se multiplica el factor por la ecuacion gene-ratriz completa. Por ejemplo, la confusion asociada al factor A es

A + CD + EF + ABCE + ABDF + BCF + BDE + ACDEF.

Un diseno saturado es aquel en el que se anade un factor sobre cada columna deinteracciones. Por ejemplo, en un diseno 27−4 asociamos los factores D, E, F y G conlas interacciones AB, AC, BC y ABC, respectivamente.

Una observacion final: cuando se utiliza el metodo de la MEDA en un disenofraccional, en el calculo de la mediana intervienen todos los efectos excepto el asociadoa la media.