ifoglia.comifoglia.com/ing/exposicion2.pdf · lasso: propiedades dado βb ls y bµ ls, se de–ne...

Tesis de Maestría en EstadísticaEstimadores Lasso de Tipo M

Autor: Virgilio L. Foglia Director de tesis: Dr. Víctor J. Yohai

Universidad de Buenos AiresInstituto de Cálculo

(Institute) 1 / 54

Modelo Lineal:De�nición

y = Xβ0|{z}+ε

y = µ0 + ε

Donde:

y 2 Rn

µ0=E (y) = Xβ02V = C (X) subespacio de Rn

ε = (ε1, ..., εn)02 Rn independientes con E (εi ) = 0 y Var(εi ) = σ2

X = [j,Xr ] 2 Rnx (p+1) con j 2 Rn , rango(X) = p + 1

Si Xr es aleatoria: Xr y ε independientes

(Institute) 2 / 54

Estimación por cuadrados mínimos

bβls = argminβ2B

ky�Xβk2 , donde B = Rp+1

bµls = argminµ2V

ky� µk2 , donde V = C (X)

Gauss-Markov =) bβls como bµls son BLUESi εi tienen distribución normal =) bβls como bµls son INVUSi X esta mal condicionada pueden ser preferibles los sesgados :

selección de variablesestimadores "shrinkage" (ridge regression y Lasso)

(Institute) 3 / 54


bβls = argminβ2B


bµls = argminµ2V


Gauss-Markov =) bβls como bµls son BLUE

Si εi tienen distribución normal =) bβls como bµls son INVUSi X esta mal condicionada pueden ser preferibles los sesgados :


(Institute) 3 / 54


bβls = argminβ2B


bµls = argminµ2V


Gauss-Markov =) bβls como bµls son BLUESi εi tienen distribución normal =) bβls como bµls son INVU

Si X esta mal condicionada pueden ser preferibles los sesgados :


(Institute) 3 / 54


bβls = argminβ2B


bµls = argminµ2V




(Institute) 3 / 54


bβls = argminβ2B


bµls = argminµ2V



selección de variables

estimadores "shrinkage" (ridge regression y Lasso)

(Institute) 3 / 54


bβls = argminβ2B


bµls = argminµ2V




(Institute) 3 / 54

Estimador LASSO

LASSO (Least Absolute Shrinkage and Selection Operator)Tishbirani (1996)

Dado t � 0, bβL = argminβ2Bt

ky�Xβk2

Bt =n

β = (β0,β1, ..., βp)0 : β0 2 R, jβ1 j+ ...+ jβp j � t

oy para bµL= XbβL : bµL=argmin

µ2Vtjjy� µjj2

Vt = fµ : µ = Xβ, β 2Bt g

(Institute) 4 / 54

Estimador LASSO



ky�Xβk2

Bt =n


o

y para bµL= XbβL : bµL=argminµ2Vt

jjy� µjj2


(Institute) 4 / 54

Estimador LASSO



ky�Xβk2

Bt =n


oy para bµL= XbβL : bµL=argmin

µ2Vtjjy� µjj2


(Institute) 4 / 54

LASSO vs ML

(Institute) 5 / 54

LASSO: Propiedades

Dado bβls y bµls , se de�ne t∞ = p

∑j=1

��bβjls ��t � t∞ =) bµL = bµls , bβL = bβls

Si bβrL es el estimador LASSO que corresponde a Xr , el estimador delintercept será bβ0L = y � xr bβrL

De aquí surge que si el estimador LASSO se aplica sobre una matrizestandarizada de manera que la media de cada columna sea 0, elestimador del intercept será siempre y sin importar la restricción delLASSO

Sesgo: Para t < t∞, bµL y bβL son estimadores sesgados

(Institute) 6 / 54

LASSO: Propiedades

Dado bβls y bµls , se de�ne t∞ = p

∑j=1

��bβjls ��t � t∞ =) bµL = bµls , bβL = bβls

Si bβrL es el estimador LASSO que corresponde a Xr , el estimador delintercept será bβ0L = y � xr bβrL

De aquí surge que si el estimador LASSO se aplica sobre una matrizestandarizada de manera que la media de cada columna sea 0, elestimador del intercept será siempre y sin importar la restricción delLASSO

Sesgo: Para t < t∞, bµL y bβL son estimadores sesgados(Institute) 6 / 54

LASSO: con matriz estandarizada

Antes de aplicar el estimador LASSO se estandarizará la matriz Xr ,obteniendo Zr de manera que todas sus columnas tengan media 0 yvarianza igual a 1. O sea el modelo lineal sobre el cual se aplicará elLASSO será

y = jβz0+Zr βzr+ε

De aquí se obtiene el estimador LASSO bβzL = �y , bβz 0rL�0Designando xr= (x

(1)r , ..., x

(p)r ) y S 2 Rpxp diagonal, con

sjj = sd(x(j)r ), resulta:

bβrL = S�1bβzrLbβ0L = y � xr bβzrL

(Institute) 7 / 54




De aquí se obtiene el estimador LASSO bβzL = �y , bβz 0rL�0

Designando xr= (x(1)r , ..., x



bβrL = S�1bβzrLbβ0L = y � xr bβzrL

(Institute) 7 / 54




De aquí se obtiene el estimador LASSO bβzL = �y , bβz 0rL�0Designando xr= (x

(1)r , ..., x



bβrL = S�1bβzrLbβ0L = y � xr bβzrL(Institute) 7 / 54

LASSO: Interpretación Geométrica

ML: y�, y z(1), z(1) estandarizados

y�= z(1)βz1 + z(2)βz2 + ε

Si Vr es el espacio generado por z(1) y z(2), entonces para el LASSOcon restricción t, la región Vrt será

Vrt =n

µ = z(1)β1 + z(2)β2 : jβ1j+ jβ2j � t

o� Vr

(Institute) 8 / 54

Caso1: z1 es ortogonal a z2, y t=2

(Institute) 9 / 54

Caso2: estimador Lasso en zona2

(Institute) 10 / 54

LASSO: Vrt para t=2 y rho=0.8 entre z1 y z2

(Institute) 11 / 54

Caso gral. p predictores ortogonales

ML: y�,con Z0Z = Ipy�= Zβ0+ε.

En este caso el estimador LASSO de β está dado por

bβL = argminjβ1 j+��+jβp j�t

ky��Zβk2 ,

Y desarrollando

bβL = argminjβ1 j+��+jβp j�t

β� bβls 2 . (1)

(Institute) 12 / 54

Caso gral. p predictores ortogonales/

Se analizará otra expresión de la (1) para el caso que opera la restricción,o sea cuando t < t∞.

Se llamará δ = t∞ � t, "Reducción total", (δ > 0).

De�niendo δi =��bβlsi �� jβi j, "Reducciones" , luego expresando β� bβls 2 = (��bβls1�� jβ1j)2 + � �+(��bβlsp �� βp ��)2 = δ21 + � �+δ2p ,

O sea la minimización de (1) equivale a minimizar las reducciones.

Y estas reducciones cumplirán

0 � δi ��bβlsi �� y δ1 + � �+δp = δ

(Institute) 13 / 54

Caso gral. p predictores ortogonales/

Se analizará otra expresión de la (1) para el caso que opera la restricción,o sea cuando t < t∞.

Se llamará δ = t∞ � t, "Reducción total", (δ > 0).De�niendo δi =

��bβlsi �� jβi j, "Reducciones" , luego expresando β� bβls 2 = (��bβls1�� jβ1j)2 + � �+(��bβlsp �� βp ��)2 = δ21 + � �+δ2p ,

O sea la minimización de (1) equivale a minimizar las reducciones.

Y estas reducciones cumplirán

0 � δi ��bβlsi �� y δ1 + � �+δp = δ

(Institute) 13 / 54

Caso gral. p predictores ortogonales//

Theorem

Sea Z 0Z = I . Luego encontrar la solución bβL equivale a encontrar lasreducciones óptimas bδL de�nidas porbδL = argmin

(δ1,...,δp )(δ21 + � �+δ2p) (2)

donde (δ1, ..., δp) satisface las siguientes restricciones

δ1 + � �+δp = δ (3)

y0 � δi �

��bβlsi �� , 1 � i � p (4)

El siguiente teorema caracteriza el estimador LASSO en en este caso

(Institute) 14 / 54

Teorema 3

Sea Z 0Z = I y t < t∞. con��bβls1�� < ��bβls2�� < ... < ��bβlsp ��

(a) existe c , 0 � c � p � 1, dependiente de δ tal que :

bβLi = � 0 si i � csg(bβlsi )(jbβlsi j � δ�) si i > c

.

δ� =1

(p � c) (δ�c

∑i=1

��bβlsi ��),(b) Se cumple que

��bβls ,c �� δ� <��bβls ,c+1�� .

(c) Sea δ(0) = 0 y para 1 � c � p de�namos

δ(c ) =��bβlsc �� (p � c) + c

∑i=1

��bβlsi �� .Luego δ(p) = t∞ y c1 < c2 implica δ(c1) < δ(c2) . Y c estáunivocamente determinado por δ(c ) � δ < δ(c+1).

(Institute) 15 / 54

Teorema 3




.

δ� =1

(p � c) (δ�c

∑i=1

��bβlsi ��),

(b) Se cumple que��bβls ,c �� δ� <

��bβls ,c+1�� .(c) Sea δ(0) = 0 y para 1 � c � p de�namos

δ(c ) =��bβlsc �� (p � c) + c

∑i=1


(Institute) 15 / 54

Teorema 3




.

δ� =1

(p � c) (δ�c

∑i=1

��bβlsi ��),(b) Se cumple que

��bβls ,c �� δ� <��bβls ,c+1�� .

(c) Sea δ(0) = 0 y para 1 � c � p de�namos

δ(c ) =��bβlsc �� (p � c) + c

∑i=1


(Institute) 15 / 54

Ejemplo

Para��bβls1�� = 2, ��bβls2�� = 4, ��bβls3�� = 8, ��bβls4�� = 10 o sea t∞ = 24

De (c): δ(0) � � δ(5) = 0, 8, 14, 22, 24

para 0 � δ < 8, c = 0, δ� = δ/4 y βLi =sg(bβlsi )(jbβlsi j � δ/4)para 8 � δ < 14, c = 1 , δ� = (δ� 2)/3 y

bβLi =(

0 si i = 1

sg(bβlsi ) �jbβlsi j � δ�23

�si i > 1

� � � � � � � � �

(Institute) 16 / 54

Ejemplo/

0 5 10 15 20 250

2

4

6

8

10

delta

|beta|

(Institute) 17 / 54

Regresión Ridge

También basado en una contracción de los coe�cientes (Shrinkage)

Dado t > 0, bβRR = argminjjβr jj

22�tky�Xβk2 .

(en el Lasso: kβr k1 � t)

y para bµRR= XbβRR : bµRR=argminµ2Vt

jjy� µjj2,

Vt = fµ : µ = Xβ, jjβr jj2 � tg.

Dado bβls y bµls , se de�ne tRR∞ =p

∑j=1

bβ2jls entonces :

Si t � tRR∞ =) bµRR = bµls , bβRR = bβls

(Institute) 18 / 54

Regresión Ridge

También basado en una contracción de los coe�cientes (Shrinkage)

Dado t > 0, bβRR = argminjjβr jj

22�tky�Xβk2 .

(en el Lasso: kβr k1 � t)

y para bµRR= XbβRR : bµRR=argminµ2Vt

jjy� µjj2,

Vt = fµ : µ = Xβ, jjβr jj2 � tg.

Dado bβls y bµls , se de�ne tRR∞ =p

∑j=1

bβ2jls entonces :Si t � tRR∞ =) bµRR = bµls , bβRR = bβls

(Institute) 18 / 54

RR con dos predictores estandarizados, (y centrado)

ML: y�, y z(1), z(1) estandarizados

y�= z(1)βz1 + z(2)βz2 + ε

Si Vr es el subespacio generado pr z(1) y z(2), entonces para elestimador ridge la región Vrt será

Vrt =n

µ = z(1)β1 + z(2)β2 : β21 + β22 � t

o� Vr

(Institute) 19 / 54

Ridge: z1 ortogonal a z2, con t=2

(Institute) 20 / 54

Ridge: con correlación entre z1 y z2 (rho=0.8 y t=2)

(Institute) 21 / 54

LASSO: como minimos cuadrados penalizados

bβL = argminp

∑j=1

jβj j�tky�Xβk2 , (5)

bβL = argminβ

n

∑i=1(yi � xiβ)2 + λ

p

∑j=1

��βj ��!

(6)

Teorema: Si bβtL,1 es solución de (5), y bβλ

L,2 solución de (6) valen:

(a) Para todo t � 0 el estimador bβtL,1 existe y es único(b) Para todo λ � 0 el estimador bβλ

L,2 existe y es único

(c) Para todo λ � 0 existe t � 0 tal que bβtL,1 = bβλ

L,2

(d) Para todo t � 0 existe λ � 0 tal que bβλ

L,2 =bβtL,1.

(Institute) 22 / 54

LASSO: minimos cuadrados penalizados

Derivando (6) respecto de cada βj obtenemos8>>>>>>>>><>>>>>>>>>:

�2n

∑i=1(yi � xi β) = 0

�2n

∑i=1(yi � xi β)xi1 + λsg(β1) = 0

� � � � � � � � � � ��

�2n

∑i=1(yi � xi β)xip + λsg(βp) = 0,

�2X0(y�Xβ) + λ

26640

sg(β1)...

sg(βp)

3775 = 0 (7)

(Institute) 23 / 54

LASSO: mcp SIN intercept

Cuando no hay intercept (X = Xr ), la ecuación será

�2X0r (y�Xr β) + λ

24sg(β1)...sg(βp)

35 = 0 (8)

Desarrollando la ecuación (7) se obtiene

�2j0(y� jβ0 �Xr βr ) = 0

y

�2X0r (y� jβ0 �Xr βr ) + λ

24sg(β1)�sg(βp)

35 = 0. (9)

(Institute) 24 / 54

LASSO: mcp CON intercept

Cuando hay intercept, si se reemplaza β0 en la ecuación de (9) queda

�2Xc 0r (yc �Xcr βr ) + λ

24sg(β1)�sg(βp)

35 = 0donde Xcr es la matriz Xr centrada, de modo que las columnas tienenmedia 0. Resolviendo esta ecuación se obtiene βr , y luego utilizandola parte de arriba de (9) resulta

β0 = y� xr βr .

(Institute) 25 / 54

Estimador MMLASSO

En el Lassso de Tibshirani con la restricciónp

∑j=1

��βj �� t , se busca elβ que minimiza ∑n

i=1 r2i .

Pero, si hay outliers en los datos (ya sea en y y/o en X)....

Se propone minimizar :n

∑i=1

ρ� ribs �

donde bs es un estimador de escala de los residuosρ : ρ : R ! R�0 (R�0 son los reales no negativos) que satisface lassiguientes propiedades:P1(i) ρ(u) es par y continua, (ii) ρ(u) función no decreciente de juj,(iii) ρ(0) = 0, (iv) limu!∞ ρ(u) = 1 y (v) ρ(u) es estrictamentecreciente si u > 0 y ρ(u) < 1.

(Institute) 26 / 54

Estimador MMLASSO


∑j=1


i=1 r2i .



∑i=1

ρ� ribs �

donde bs es un estimador de escala de los residuos

ρ : ρ : R ! R�0 (R�0 son los reales no negativos) que satisface lassiguientes propiedades:P1(i) ρ(u) es par y continua, (ii) ρ(u) función no decreciente de juj,(iii) ρ(0) = 0, (iv) limu!∞ ρ(u) = 1 y (v) ρ(u) es estrictamentecreciente si u > 0 y ρ(u) < 1.

(Institute) 26 / 54

Estimador MMLASSO


∑j=1


i=1 r2i .



∑i=1

ρ� ribs �

donde bs es un estimador de escala de los residuosρ : ρ : R ! R�0 (R�0 son los reales no negativos) que satisface lassiguientes propiedades:

P1(i) ρ(u) es par y continua, (ii) ρ(u) función no decreciente de juj,(iii) ρ(0) = 0, (iv) limu!∞ ρ(u) = 1 y (v) ρ(u) es estrictamentecreciente si u > 0 y ρ(u) < 1.

(Institute) 26 / 54

Estimador MMLASSO


∑j=1


i=1 r2i .



∑i=1

ρ� ribs �

donde bs es un estimador de escala de los residuosρ : ρ : R ! R�0 (R�0 son los reales no negativos) que satisface lassiguientes propiedades:P1(i) ρ(u) es par y continua, (ii) ρ(u) función no decreciente de juj,(iii) ρ(0) = 0, (iv) limu!∞ ρ(u) = 1 y (v) ρ(u) es estrictamentecreciente si u > 0 y ρ(u) < 1.

(Institute) 26 / 54

MMLASSO: De�nición

Se de�ne el estimador MLASSO de β0 mediante:

bβLR = argminp

∑j=1

jβj j�t

n

∑i=1

ρ

�yi � xiβs

�, (10)

donde s es un estimador de escala de los errores y la función ρ satisface lapropiedad P1.

Nuevamente esto es equivalente a que, para algún λ � 0

bβLR = argminβ

n

∑i=1

ρ

�yi � xiβs

�+ λ

p

∑j=1

��βj ��!. (11)

(Institute) 27 / 54

MMLASSO: estimador de escala

Como estimador de escala de los residuos bs se propone unS-estimador de�nido mediante

bs = minβs(β)

donde s(β) está de�nido por

1n

n

∑i=1

ρ0

�yi � β0xc0s(β)

�= 0.5

y ρ0 satisface P1 , con c0 determinado de manera que cuandoyi = β0xi + εi donde los εi�s son independientes con distribucionN(0,1) se tenga

E (bs) = 1,En este trabajo ρ0(u) se tomó igual a la función bicuadradaρT(u, 1). El valor c0 depende de la matrix Xr , y la forma dedeterminarlo se explica mas adelante.

(Institute) 28 / 54



bs = minβs(β)


1n

n

∑i=1

ρ0


�= 0.5


E (bs) = 1,

En este trabajo ρ0(u) se tomó igual a la función bicuadradaρT(u, 1). El valor c0 depende de la matrix Xr , y la forma dedeterminarlo se explica mas adelante.

(Institute) 28 / 54



bs = minβs(β)


1n

n

∑i=1

ρ0


�= 0.5


E (bs) = 1,En este trabajo ρ0(u) se tomó igual a la función bicuadradaρT(u, 1). El valor c0 depende de la matrix Xr , y la forma dedeterminarlo se explica mas adelante.

(Institute) 28 / 54

MLASSO: como minimos cuadrados penalizados

Derivando (11) respecto de β, y llamando ψ(u) = ρ0(u) resulta

n

∑i=1

ψ( yi�xi βs ) 1s = 0

n

∑i=1

ψ( yi�xi βs ) xi1s + λsg(β1) = 0

� � � � � � � � � � ��n

∑i=1

ψ( yi�xi βs )xips + λsg(βp) = 0.

(12)

Seanri = yi � xβ, (13)

w(u) = ψ(u)/u (14)

ωi = w(ri/s). (15)

(Institute) 29 / 54

MLASSO: minimos cuadrados penalizados/

Luego el sistema (12) se puede escribir como8>>>>>>>>>>><>>>>>>>>>>>:

n

∑i=1

ωi (yi � xiβ) = 0

n

∑i=1

ωi (yi � xiβ)xi1 + λs2sg(β1) = 0

� � � � � � � � � � ��n

∑i=1

ωi (yi � xiβ)xip + λs2sg(β1) = 0.

(16)

Observemos que los ωi dependen de β, y por lo tanto no son conocidos.

(Institute) 30 / 54

MLASSO: minimos cuadrados penalizados//

8>>>>>>>>><>>>>>>>>>:

n

∑i=1(p

ωiyi �p

ωixiβ)p

ωi = 0

n

∑i=1(p

ωiyi �p

ωixiβ)p

ωixi1 + λs2sg(β1) = 0

� � � � � � � � � � ��n

∑i=1(p

ωiyi �p

ωixiβ)p

ωixip + λs2sg(βp) = 0.

(17)

Denotemos ahora por

W =

2664ω1 0 0 00 ω2 0 00 0 � 00 0 0 ωn

3775 , y� =W1/2y, X� =W1/2X (18)

y por x�(j). 0 � j � p a la columna j de X�. Luego (16) es equivalente a(Institute) 31 / 54

MLASSO: minimos cuadrados penalizados///

8>><>>:x�(0)0(y� �X�β) = 0x�(1)0(y� �X�β) + λs2sg(β1) = 0� � � � � � � � � � ��x�(p)0(y� �X�β) + λs2sg(βp) = 0,

que también puede escribirse como

X�0(y� �X�β) + λs2

26640

sg(β1)�

sg(βp)

3775 = 0. (19)

Similar al de Tibshirani cambiando X por X�, y y por y�, Problema:j� = (

pω1,

pω2, ��,

pωn)0 .

(Institute) 32 / 54

MLASSO: Algoritmo: transformación de j

En X� = [j�,X�r ], se descompone x�(j)r = λj j� + x

�?(j)r

λj =j�0x�(j)r

j�0j�.

y entonces

X� = [j�,X�r ] = [j�,λ1j�, � � �,λp j�] + [0,X�?r ].

y resulta :

X�0(y� �X�β) = X�0(y� � (β0 + λ1β1 + � �+λpβp)j� �X�?r βr ).

(Institute) 33 / 54

MLASSO: Algoritmo: transformación de j///

Finalmente llamando ϕ = β0 + λ1β1 + � �+λpβp y desarrollando

�j�0y� � ϕj�0j�

X�?0r (y� �X�?r βr )

�+ λs2

26640

sg(β1)�

sg(βp)

3775 = 0.O sea el estimador MLASSO satisface el siguiente sistema de ecuaciones

j�0y� � ϕj�0j� = 0

X�?0r (y� �X�?r βr ) + λs2

24sg(β1)�sg(βp)

35 = 0. (20)

(Institute) 34 / 54

MLASSO: Algoritmo: transformación de j////

Observar que si conocieramos X�?r , y� y j�0 el valor βr lo obtendríamosresolviendo

X�?0r (y� �X�?r βr ) + λs2

24sg(β1)�sg(βp)

35 = 0. (21)

y esto se lograría usando un LASSO no robusto sin intercept. Finalmenteβ0 se despejaría facilmente de

j�0y� � ϕj�0j� = 0. (22)

(Institute) 35 / 54

MLASSO: Algoritmo iterativo

Sin embargo y�, X�?r y j� dependen de βr y β0. Entonces pararesolver el sistema (20) podemos usar el siguiente algoritmo iterativo.

Sean (β(i )0 , β(i )r ) los valores calculados en el paso i � 0.

Los valores iniciales (β(0)0 , β(0)r ) pueden obtenerse usando un

MM-estimador sin restriciones.

El paso recursivo que se propone es el siguiente. Dados (β(i )0 , β(i )r ) los

valores (β(i+1)0 , β(i+1)r ) se calculan haciendo los siguientes cinco pasos:

(Institute) 36 / 54

MLASSO: Algoritmo iterativo/

1 Se calculan los pesos wi , 1 � i � n usando (13), (14) y (15) tomandoβ =(β

(i )0 , β

(i )r ).

2 Con los wi se obtienen X� = (j�,X�r ) y y� usando (18).3 Se calculan λj = j�0x

�(j)r / j�0j�, 1 � j � p y se obtiene X�?r con

columna j igual a x�?(j)r = x�(j)r � λj j�.4 Usando y� y X�?r y la (20), y el LASSO no robusto sin intercept seresuelve (21) obteniendose β(i+1)r .

5 De acuerdo a (22), el valor β(i+1)0 se obtiene resolviendo

ϕ = β0 + λ1β1 + � �+λpβp obteniendo

β(i+1)0 =

1j�0j�

hj�0y� � (λ1β

(i+1)r1 + ...λpβ(i+1)rp )j�0j�

i.

Se detiene el algoritmo cuando kβ(i+1)�β(i )kkβ(i )k � δ, donde δ > 0

determina la precision del valor del estimador.

(Institute) 37 / 54



(i )0 , β

(i )r ).

2 Con los wi se obtienen X� = (j�,X�r ) y y� usando (18).

3 Se calculan λj = j�0x�(j)r / j�0j�, 1 � j � p y se obtiene X�?r con




β(i+1)0 =

1j�0j�

hj�0y� � (λ1β

(i+1)r1 + ...λpβ(i+1)rp )j�0j�

i.



(Institute) 37 / 54



(i )0 , β

(i )r ).



columna j igual a x�?(j)r = x�(j)r � λj j�.

4 Usando y� y X�?r y la (20), y el LASSO no robusto sin intercept seresuelve (21) obteniendose β(i+1)r .



β(i+1)0 =

1j�0j�

hj�0y� � (λ1β

(i+1)r1 + ...λpβ(i+1)rp )j�0j�

i.



(Institute) 37 / 54



(i )0 , β

(i )r ).






β(i+1)0 =

1j�0j�

hj�0y� � (λ1β

(i+1)r1 + ...λpβ(i+1)rp )j�0j�

i.



(Institute) 37 / 54

Ejemplo EC

beta

βr0 = (8, 8, 0, 0, 0, 0)

(Institute) 38 / 54

Ejemplo EC

beta

bβr = (9.5, 6.9, 1.5,�1,�0.6, 0.8)(Institute) 39 / 54

Ejemplo EC

beta

ec(t∞) = e21 + e22 + e

23 + e

24 + e

25 + e

26

(Institute) 40 / 54

Ejemplo EC

beta

Lasso(t∞ � δT )

(Institute) 41 / 54

Ejemplo EC

beta

ec(t∞ � δT ) = (e1 � δ)2 + (e2 + δ)2

+(e3 � δ)2 + (e4 � δ)2 + (e5 � δ)2 + (e6 �δ)2

(Institute) 42 / 54

Valor Optimo de t

Sean bβLR (X, y, t) y bµLR (X, y, t) los estimadores MLASSO de β0 yµ0, (dependen de t) Se podría minimizar:

ECM(t) =1nE (kbµLR (X, y, t)� µ0k

2)

Llamando E (bµLR (X, y, t)) = E (bµLR (t) , se tendrá:ECM(t) = 1

nE (kbµLR (X, y, t)� E (bµLR (t)) + E (bµLR (t))� µ0k2)

= 1nE (kE (bµLR (t))� µ0k

2) + E (kbµLR (X, y, t)� E (bµLR (t))k2)= 1

n jjsesgo(bµLR (X, y, t))jj2 + 1n traza(COV(bµLR (X, y, t))

(Institute) 43 / 54

Valor Optimo de t: comentarios

t es grande: MMLASSO se comporta el MMestimador

sesgo: pequeño varianza: grande

t es pequeño: actua la penalización

sesgo: grande " varianza: pequeña ##

Entonces se podría elegir el valor de t que minimice el ECM(t).

Como las expresiónes de E (bµLR (X, y, t)) y traza(COV(bµLR (X, y, t))son difíciles de obtener, se procederá de otra forma.

(Institute) 44 / 54

Error de Predicción

Sea yN cumpla el mismo ML, pero con los εN independientes de los ε

yN= Xβ0 + εN

Luego el PSE cuando se usa nuestro estimador para las nuevasobservaciones será

PSE (t) =1nE ( yN � bµLR (X, y, t) 2)

=1nE ( yN � µ0+µ0 � bµLR (X, y, t) 2)

=1nE (kbµLR (X, y, t)� µ0k

2) +1nE ( yN � µ0

2)= ECM(t) + σ2

donde σ2 = Var(εj ) = Var(εNj ).

Como σ2 es constante, será lo mismo minimizar ECM(t) que PSE (t),que es más simple.

(Institute) 45 / 54

Validación cruzada

Se buscará el t = tRopt que minimice una medida del error de predicción.Para obtener un estimador insesgado de esta medida se recurrirá almétodo de validación cruzada.

Para cada valor t y cada observación j sea bβ(t)�j el estimador usando larestricción correspondiente a t y eliminando la observación j .

Luego el error de predicción bεt ,j de la observación j usando bβ(t)�j serábεt ,j = yj � bβ(t)0�j xj

y entonces bεt = (bεt ,1,bεt ,2, � � �,bεt ,n)LLamando dPSE (t) al estimador de escala de bεt , el valor de t se eligecomo

topt = argmint

dPSE (t)

(Institute) 46 / 54

Validación cruzada




y entonces bεt = (bεt ,1,bεt ,2, � � �,bεt ,n)

LLamando dPSE (t) al estimador de escala de bεt , el valor de t se eligecomo

topt = argmint

dPSE (t)

(Institute) 46 / 54

Validación cruzada




y entonces bεt = (bεt ,1,bεt ,2, � � �,bεt ,n)LLamando dPSE (t) al estimador de escala de bεt , el valor de t se eligecomo

topt = argmint

dPSE (t)(Institute) 46 / 54

Validación cruzada: estimador de escala: estandarización

LASSO: estimador de escala

PSE (t) =�bε0tbεtn

�1/2

Estandarización de Xr : con media y desvío estándar

MMLASSO: estimador de escala τ, propuesto por Yohai y Zamar(1988)

PSER (t) = τ(bεt1...,bεtn)Estandarización de Xr : M-estimador de posición y un estimador deescala de tipo tau

(Institute) 47 / 54

Validación cruzada: estimador de escala: estandarización

LASSO: estimador de escala

PSE (t) =�bε0tbεtn

�1/2

Estandarización de Xr : con media y desvío estándarMMLASSO: estimador de escala τ, propuesto por Yohai y Zamar(1988)

PSER (t) = τ(bεt1...,bεtn)Estandarización de Xr : M-estimador de posición y un estimador deescala de tipo tau

(Institute) 47 / 54

Intervalo de rastreo: mejora1

En principio este intervalo debería ser [0,∞).

Para el estimador LASSO: se tomará [0, t∞], donde t∞ =p

∑j=1

��bβzjrls ��

Para el MMLASSO: se tomará [0, tR∞], donde tR∞ =

p

∑i=1

��bβz∞irLR

�� conbβz∞LR ' bβzLR (Xz , y, 10000)

Problema: En cada una de las n etapas en que se particiona lamatriz X, se obtienen las matrices Xz(�i ). Pero los t

Ri∞ que

corresponden a estas matrices son diferentes, e incluso algunospueden ser mayores que el de la matriz total Xz . Entonces antes,deberán calcularse los tRi∞ correspondientes a cada sub-matriz. Luegoel extremo superior del intervalo será

TR∞ = max1�i�n

ftRi∞g

y el intervalo de rastreo sería [0,TR∞ ].

(Institute) 48 / 54




∑j=1

��bβzjrls ��Para el MMLASSO: se tomará [0, tR∞], donde t

R∞ =

p

∑i=1

��bβz∞irLR



Ri∞ que



ftRi∞g

y el intervalo de rastreo sería [0,TR∞ ].

(Institute) 48 / 54




∑j=1

��bβzjrls ��Para el MMLASSO: se tomará [0, tR∞], donde t

R∞ =

p

∑i=1

��bβz∞irLR



Ri∞ que



ftRi∞g

y el intervalo de rastreo sería [0,TR∞ ].(Institute) 48 / 54


Remark

La necesidad de utilizar un intervalo más amplio (con límite superior TR∞en lugar de tR∞) se presenta en general cuando hay outliers con altoLeverage. En esos casos la curva PSE (t) a veces presenta

1 en el intervalo [0, tR∞], el mínimo en ta con ta < tR∞.

2 en el intervalo [0,TR∞ ], el mínimo en tb con tb > tR∞.

Entonces si se utiliza la opción 1, el óptimo estaría en tRopt = ta, yactuaría la restricción del LASSO. Sin embargo con la opción 2, alestar el mínimo en tb > tR∞, el óptimo sería t

Ropt = t

R∞, ya que arriba

de este valor el estimador es el mismo.En de�nitiva cuando se obtenga el tRopt 2 [0,TR∞ ], como podríasuceder que tRopt > t

R∞ se tomará como tRopt a

tRopt = minftRopt , tR∞g

(Institute) 49 / 54


Remark





Ropt = t

R∞, ya que arriba

de este valor el estimador es el mismo.

En de�nitiva cuando se obtenga el tRopt 2 [0,TR∞ ], como podríasuceder que tRopt > t



(Institute) 49 / 54


Remark





Ropt = t

R∞, ya que arriba

de este valor el estimador es el mismo.En de�nitiva cuando se obtenga el tRopt 2 [0,TR∞ ], como podríasuceder que tRopt > t



(Institute) 49 / 54

Intervalo de rastreo

(Institute) 50 / 54

Intervalo de rastreo:mejora3

(Institute) 51 / 54

Estimador de escala tau:Yohai y Zamar(1988)

Dada una muestra x = (x1, x2, ��, xn), en general un M-estimador de escalabσ(x)con punto de ruptura 0.5 está dado por el valor σ que satisface laecuación

1n

n

∑i=1

ρ0

�xiσ

�= 0.5 (23)

donde ρ0 es una función que veri�ca las propiedades P1.

Inconveniente: no se puede lograr simultaneamente alta e�ciencia yalto punto de ruptura.

Se de�ne el estimador de escala de tipo tau τ(x) mediante

τ2(x) = bσ2(x)1n

n

∑i=1

ρ1

�xibσ(x)�

(24)

donde ρ1 es una función que también satisface P1.

(Institute) 52 / 54

Estimador de escala tau: continuación

En este trabajo se utiliza para el M-estimador de escala de (23)

ρ0(u) = I (juj > 1) =�01

si juj � 1si juj > 1 y δ = 0.5.

O sea: bσ(x) = Med (jεi j)c = Med (jxi j)

0.675 , que tiene alto punto de ruptura

y como ρ(u) se utilizó:

ρ(u) =

8<:u22 si 0 � juj < 21.792� 0.972u2 + 0.432u4 � 0.052u6 + 0.002u83.25 si 3 � juj

(Institute) 53 / 54

Estimador de escala tau: continuación

5 4 3 2 1 0 1 2 3 4 5

0.2

0.4

0.6

0.8

1.0

u

Figura 12: negro ρ(u); punteadoρBS (u, k = 3); verde ρ(u) = u2

(Institute) 54 / 54

ifoglia.comifoglia.com/ing/exposicion2.pdf · lasso: propiedades dado βb ls y bµ ls, se de–ne...

Documents