ifoglia.comifoglia.com/ing/exposicion2.pdf · lasso: propiedades dado βb ls y bµ ls, se de–ne...
TRANSCRIPT
Tesis de Maestría en EstadísticaEstimadores Lasso de Tipo M
Autor: Virgilio L. Foglia Director de tesis: Dr. Víctor J. Yohai
Universidad de Buenos AiresInstituto de Cálculo
(Institute) 1 / 54
Modelo Lineal:De�nición
y = Xβ0|{z}+ε
y = µ0 + ε
Donde:
y 2 Rn
µ0=E (y) = Xβ02V = C (X) subespacio de Rn
ε = (ε1, ..., εn)02 Rn independientes con E (εi ) = 0 y Var(εi ) = σ2
X = [j,Xr ] 2 Rnx (p+1) con j 2 Rn , rango(X) = p + 1
Si Xr es aleatoria: Xr y ε independientes
(Institute) 2 / 54
Estimación por cuadrados mínimos
bβls = argminβ2B
ky�Xβk2 , donde B = Rp+1
bµls = argminµ2V
ky� µk2 , donde V = C (X)
Gauss-Markov =) bβls como bµls son BLUESi εi tienen distribución normal =) bβls como bµls son INVUSi X esta mal condicionada pueden ser preferibles los sesgados :
selección de variablesestimadores "shrinkage" (ridge regression y Lasso)
(Institute) 3 / 54
Estimación por cuadrados mínimos
bβls = argminβ2B
ky�Xβk2 , donde B = Rp+1
bµls = argminµ2V
ky� µk2 , donde V = C (X)
Gauss-Markov =) bβls como bµls son BLUESi εi tienen distribución normal =) bβls como bµls son INVUSi X esta mal condicionada pueden ser preferibles los sesgados :
selección de variablesestimadores "shrinkage" (ridge regression y Lasso)
(Institute) 3 / 54
Estimación por cuadrados mínimos
bβls = argminβ2B
ky�Xβk2 , donde B = Rp+1
bµls = argminµ2V
ky� µk2 , donde V = C (X)
Gauss-Markov =) bβls como bµls son BLUE
Si εi tienen distribución normal =) bβls como bµls son INVUSi X esta mal condicionada pueden ser preferibles los sesgados :
selección de variablesestimadores "shrinkage" (ridge regression y Lasso)
(Institute) 3 / 54
Estimación por cuadrados mínimos
bβls = argminβ2B
ky�Xβk2 , donde B = Rp+1
bµls = argminµ2V
ky� µk2 , donde V = C (X)
Gauss-Markov =) bβls como bµls son BLUESi εi tienen distribución normal =) bβls como bµls son INVU
Si X esta mal condicionada pueden ser preferibles los sesgados :
selección de variablesestimadores "shrinkage" (ridge regression y Lasso)
(Institute) 3 / 54
Estimación por cuadrados mínimos
bβls = argminβ2B
ky�Xβk2 , donde B = Rp+1
bµls = argminµ2V
ky� µk2 , donde V = C (X)
Gauss-Markov =) bβls como bµls son BLUESi εi tienen distribución normal =) bβls como bµls son INVUSi X esta mal condicionada pueden ser preferibles los sesgados :
selección de variablesestimadores "shrinkage" (ridge regression y Lasso)
(Institute) 3 / 54
Estimación por cuadrados mínimos
bβls = argminβ2B
ky�Xβk2 , donde B = Rp+1
bµls = argminµ2V
ky� µk2 , donde V = C (X)
Gauss-Markov =) bβls como bµls son BLUESi εi tienen distribución normal =) bβls como bµls son INVUSi X esta mal condicionada pueden ser preferibles los sesgados :
selección de variables
estimadores "shrinkage" (ridge regression y Lasso)
(Institute) 3 / 54
Estimación por cuadrados mínimos
bβls = argminβ2B
ky�Xβk2 , donde B = Rp+1
bµls = argminµ2V
ky� µk2 , donde V = C (X)
Gauss-Markov =) bβls como bµls son BLUESi εi tienen distribución normal =) bβls como bµls son INVUSi X esta mal condicionada pueden ser preferibles los sesgados :
selección de variablesestimadores "shrinkage" (ridge regression y Lasso)
(Institute) 3 / 54
Estimador LASSO
LASSO (Least Absolute Shrinkage and Selection Operator)Tishbirani (1996)
Dado t � 0, bβL = argminβ2Bt
ky�Xβk2
Bt =n
β = (β0,β1, ..., βp)0 : β0 2 R, jβ1 j+ ...+ jβp j � t
oy para bµL= XbβL : bµL=argmin
µ2Vtjjy� µjj2
Vt = fµ : µ = Xβ, β 2Bt g
(Institute) 4 / 54
Estimador LASSO
LASSO (Least Absolute Shrinkage and Selection Operator)Tishbirani (1996)
Dado t � 0, bβL = argminβ2Bt
ky�Xβk2
Bt =n
β = (β0,β1, ..., βp)0 : β0 2 R, jβ1 j+ ...+ jβp j � t
o
y para bµL= XbβL : bµL=argminµ2Vt
jjy� µjj2
Vt = fµ : µ = Xβ, β 2Bt g
(Institute) 4 / 54
Estimador LASSO
LASSO (Least Absolute Shrinkage and Selection Operator)Tishbirani (1996)
Dado t � 0, bβL = argminβ2Bt
ky�Xβk2
Bt =n
β = (β0,β1, ..., βp)0 : β0 2 R, jβ1 j+ ...+ jβp j � t
oy para bµL= XbβL : bµL=argmin
µ2Vtjjy� µjj2
Vt = fµ : µ = Xβ, β 2Bt g
(Institute) 4 / 54
Estimador LASSO
LASSO (Least Absolute Shrinkage and Selection Operator)Tishbirani (1996)
Dado t � 0, bβL = argminβ2Bt
ky�Xβk2
Bt =n
β = (β0,β1, ..., βp)0 : β0 2 R, jβ1 j+ ...+ jβp j � t
oy para bµL= XbβL : bµL=argmin
µ2Vtjjy� µjj2
Vt = fµ : µ = Xβ, β 2Bt g
(Institute) 4 / 54
LASSO vs ML
(Institute) 5 / 54
LASSO: Propiedades
Dado bβls y bµls , se de�ne t∞ = p
∑j=1
���bβjls ���t � t∞ =) bµL = bµls , bβL = bβls
Si bβrL es el estimador LASSO que corresponde a Xr , el estimador delintercept será bβ0L = y � xr bβrL
De aquí surge que si el estimador LASSO se aplica sobre una matrizestandarizada de manera que la media de cada columna sea 0, elestimador del intercept será siempre y sin importar la restricción delLASSO
Sesgo: Para t < t∞, bµL y bβL son estimadores sesgados
(Institute) 6 / 54
LASSO: Propiedades
Dado bβls y bµls , se de�ne t∞ = p
∑j=1
���bβjls ���t � t∞ =) bµL = bµls , bβL = bβls
Si bβrL es el estimador LASSO que corresponde a Xr , el estimador delintercept será bβ0L = y � xr bβrL
De aquí surge que si el estimador LASSO se aplica sobre una matrizestandarizada de manera que la media de cada columna sea 0, elestimador del intercept será siempre y sin importar la restricción delLASSO
Sesgo: Para t < t∞, bµL y bβL son estimadores sesgados
(Institute) 6 / 54
LASSO: Propiedades
Dado bβls y bµls , se de�ne t∞ = p
∑j=1
���bβjls ���t � t∞ =) bµL = bµls , bβL = bβls
Si bβrL es el estimador LASSO que corresponde a Xr , el estimador delintercept será bβ0L = y � xr bβrL
De aquí surge que si el estimador LASSO se aplica sobre una matrizestandarizada de manera que la media de cada columna sea 0, elestimador del intercept será siempre y sin importar la restricción delLASSO
Sesgo: Para t < t∞, bµL y bβL son estimadores sesgados
(Institute) 6 / 54
LASSO: Propiedades
Dado bβls y bµls , se de�ne t∞ = p
∑j=1
���bβjls ���t � t∞ =) bµL = bµls , bβL = bβls
Si bβrL es el estimador LASSO que corresponde a Xr , el estimador delintercept será bβ0L = y � xr bβrL
De aquí surge que si el estimador LASSO se aplica sobre una matrizestandarizada de manera que la media de cada columna sea 0, elestimador del intercept será siempre y sin importar la restricción delLASSO
Sesgo: Para t < t∞, bµL y bβL son estimadores sesgados(Institute) 6 / 54
LASSO: con matriz estandarizada
Antes de aplicar el estimador LASSO se estandarizará la matriz Xr ,obteniendo Zr de manera que todas sus columnas tengan media 0 yvarianza igual a 1. O sea el modelo lineal sobre el cual se aplicará elLASSO será
y = jβz0+Zr βzr+ε
De aquí se obtiene el estimador LASSO bβzL = �y , bβz 0rL�0Designando xr= (x
(1)r , ..., x
(p)r ) y S 2 Rpxp diagonal, con
sjj = sd(x(j)r ), resulta:
bβrL = S�1bβzrLbβ0L = y � xr bβzrL
(Institute) 7 / 54
LASSO: con matriz estandarizada
Antes de aplicar el estimador LASSO se estandarizará la matriz Xr ,obteniendo Zr de manera que todas sus columnas tengan media 0 yvarianza igual a 1. O sea el modelo lineal sobre el cual se aplicará elLASSO será
y = jβz0+Zr βzr+ε
De aquí se obtiene el estimador LASSO bβzL = �y , bβz 0rL�0
Designando xr= (x(1)r , ..., x
(p)r ) y S 2 Rpxp diagonal, con
sjj = sd(x(j)r ), resulta:
bβrL = S�1bβzrLbβ0L = y � xr bβzrL
(Institute) 7 / 54
LASSO: con matriz estandarizada
Antes de aplicar el estimador LASSO se estandarizará la matriz Xr ,obteniendo Zr de manera que todas sus columnas tengan media 0 yvarianza igual a 1. O sea el modelo lineal sobre el cual se aplicará elLASSO será
y = jβz0+Zr βzr+ε
De aquí se obtiene el estimador LASSO bβzL = �y , bβz 0rL�0Designando xr= (x
(1)r , ..., x
(p)r ) y S 2 Rpxp diagonal, con
sjj = sd(x(j)r ), resulta:
bβrL = S�1bβzrLbβ0L = y � xr bβzrL(Institute) 7 / 54
LASSO: Interpretación Geométrica
ML: y�, y z(1), z(1) estandarizados
y�= z(1)βz1 + z(2)βz2 + ε
Si Vr es el espacio generado por z(1) y z(2), entonces para el LASSOcon restricción t, la región Vrt será
Vrt =n
µ = z(1)β1 + z(2)β2 : jβ1j+ jβ2j � t
o� Vr
(Institute) 8 / 54
Caso1: z1 es ortogonal a z2, y t=2
(Institute) 9 / 54
Caso2: estimador Lasso en zona2
(Institute) 10 / 54
LASSO: Vrt para t=2 y rho=0.8 entre z1 y z2
(Institute) 11 / 54
Caso gral. p predictores ortogonales
ML: y�,con Z0Z = Ipy�= Zβ0+ε.
En este caso el estimador LASSO de β está dado por
bβL = argminjβ1 j+��+jβp j�t
ky��Zβk2 ,
Y desarrollando
bβL = argminjβ1 j+��+jβp j�t
β� bβls 2 . (1)
(Institute) 12 / 54
Caso gral. p predictores ortogonales
ML: y�,con Z0Z = Ipy�= Zβ0+ε.
En este caso el estimador LASSO de β está dado por
bβL = argminjβ1 j+��+jβp j�t
ky��Zβk2 ,
Y desarrollando
bβL = argminjβ1 j+��+jβp j�t
β� bβls 2 . (1)
(Institute) 12 / 54
Caso gral. p predictores ortogonales/
Se analizará otra expresión de la (1) para el caso que opera la restricción,o sea cuando t < t∞.
Se llamará δ = t∞ � t, "Reducción total", (δ > 0).
De�niendo δi =���bβlsi ���� jβi j, "Reducciones" , luego expresando β� bβls 2 = (���bβls1���� jβ1j)2 + � �+(���bβlsp ���� ���βp ���)2 = δ21 + � �+δ2p ,
O sea la minimización de (1) equivale a minimizar las reducciones.
Y estas reducciones cumplirán
0 � δi ����bβlsi ��� y δ1 + � �+δp = δ
(Institute) 13 / 54
Caso gral. p predictores ortogonales/
Se analizará otra expresión de la (1) para el caso que opera la restricción,o sea cuando t < t∞.
Se llamará δ = t∞ � t, "Reducción total", (δ > 0).De�niendo δi =
���bβlsi ���� jβi j, "Reducciones" , luego expresando β� bβls 2 = (���bβls1���� jβ1j)2 + � �+(���bβlsp ���� ���βp ���)2 = δ21 + � �+δ2p ,
O sea la minimización de (1) equivale a minimizar las reducciones.
Y estas reducciones cumplirán
0 � δi ����bβlsi ��� y δ1 + � �+δp = δ
(Institute) 13 / 54
Caso gral. p predictores ortogonales/
Se analizará otra expresión de la (1) para el caso que opera la restricción,o sea cuando t < t∞.
Se llamará δ = t∞ � t, "Reducción total", (δ > 0).De�niendo δi =
���bβlsi ���� jβi j, "Reducciones" , luego expresando β� bβls 2 = (���bβls1���� jβ1j)2 + � �+(���bβlsp ���� ���βp ���)2 = δ21 + � �+δ2p ,
O sea la minimización de (1) equivale a minimizar las reducciones.
Y estas reducciones cumplirán
0 � δi ����bβlsi ��� y δ1 + � �+δp = δ
(Institute) 13 / 54
Caso gral. p predictores ortogonales/
Se analizará otra expresión de la (1) para el caso que opera la restricción,o sea cuando t < t∞.
Se llamará δ = t∞ � t, "Reducción total", (δ > 0).De�niendo δi =
���bβlsi ���� jβi j, "Reducciones" , luego expresando β� bβls 2 = (���bβls1���� jβ1j)2 + � �+(���bβlsp ���� ���βp ���)2 = δ21 + � �+δ2p ,
O sea la minimización de (1) equivale a minimizar las reducciones.
Y estas reducciones cumplirán
0 � δi ����bβlsi ��� y δ1 + � �+δp = δ
(Institute) 13 / 54
Caso gral. p predictores ortogonales//
Theorem
Sea Z 0Z = I . Luego encontrar la solución bβL equivale a encontrar lasreducciones óptimas bδL de�nidas porbδL = argmin
(δ1,...,δp )(δ21 + � �+δ2p) (2)
donde (δ1, ..., δp) satisface las siguientes restricciones
δ1 + � �+δp = δ (3)
y0 � δi �
���bβlsi ��� , 1 � i � p (4)
El siguiente teorema caracteriza el estimador LASSO en en este caso
(Institute) 14 / 54
Teorema 3
Sea Z 0Z = I y t < t∞. con���bβls1��� < ���bβls2��� < ... < ���bβlsp ���
(a) existe c , 0 � c � p � 1, dependiente de δ tal que :
bβLi = � 0 si i � csg(bβlsi )(jbβlsi j � δ�) si i > c
.
δ� =1
(p � c) (δ�c
∑i=1
���bβlsi ���),(b) Se cumple que
���bβls ,c ��� � δ� <���bβls ,c+1��� .
(c) Sea δ(0) = 0 y para 1 � c � p de�namos
δ(c ) =���bβlsc ��� (p � c) + c
∑i=1
���bβlsi ��� .Luego δ(p) = t∞ y c1 < c2 implica δ(c1) < δ(c2) . Y c estáunivocamente determinado por δ(c ) � δ < δ(c+1).
(Institute) 15 / 54
Teorema 3
Sea Z 0Z = I y t < t∞. con���bβls1��� < ���bβls2��� < ... < ���bβlsp ���
(a) existe c , 0 � c � p � 1, dependiente de δ tal que :
bβLi = � 0 si i � csg(bβlsi )(jbβlsi j � δ�) si i > c
.
δ� =1
(p � c) (δ�c
∑i=1
���bβlsi ���),
(b) Se cumple que���bβls ,c ��� � δ� <
���bβls ,c+1��� .(c) Sea δ(0) = 0 y para 1 � c � p de�namos
δ(c ) =���bβlsc ��� (p � c) + c
∑i=1
���bβlsi ��� .Luego δ(p) = t∞ y c1 < c2 implica δ(c1) < δ(c2) . Y c estáunivocamente determinado por δ(c ) � δ < δ(c+1).
(Institute) 15 / 54
Teorema 3
Sea Z 0Z = I y t < t∞. con���bβls1��� < ���bβls2��� < ... < ���bβlsp ���
(a) existe c , 0 � c � p � 1, dependiente de δ tal que :
bβLi = � 0 si i � csg(bβlsi )(jbβlsi j � δ�) si i > c
.
δ� =1
(p � c) (δ�c
∑i=1
���bβlsi ���),(b) Se cumple que
���bβls ,c ��� � δ� <���bβls ,c+1��� .
(c) Sea δ(0) = 0 y para 1 � c � p de�namos
δ(c ) =���bβlsc ��� (p � c) + c
∑i=1
���bβlsi ��� .Luego δ(p) = t∞ y c1 < c2 implica δ(c1) < δ(c2) . Y c estáunivocamente determinado por δ(c ) � δ < δ(c+1).
(Institute) 15 / 54
Teorema 3
Sea Z 0Z = I y t < t∞. con���bβls1��� < ���bβls2��� < ... < ���bβlsp ���
(a) existe c , 0 � c � p � 1, dependiente de δ tal que :
bβLi = � 0 si i � csg(bβlsi )(jbβlsi j � δ�) si i > c
.
δ� =1
(p � c) (δ�c
∑i=1
���bβlsi ���),(b) Se cumple que
���bβls ,c ��� � δ� <���bβls ,c+1��� .
(c) Sea δ(0) = 0 y para 1 � c � p de�namos
δ(c ) =���bβlsc ��� (p � c) + c
∑i=1
���bβlsi ��� .Luego δ(p) = t∞ y c1 < c2 implica δ(c1) < δ(c2) . Y c estáunivocamente determinado por δ(c ) � δ < δ(c+1).
(Institute) 15 / 54
Ejemplo
Para���bβls1��� = 2, ���bβls2��� = 4, ���bβls3��� = 8, ���bβls4��� = 10 o sea t∞ = 24
De (c): δ(0) � � δ(5) = 0, 8, 14, 22, 24
para 0 � δ < 8, c = 0, δ� = δ/4 y βLi =sg(bβlsi )(jbβlsi j � δ/4)para 8 � δ < 14, c = 1 , δ� = (δ� 2)/3 y
bβLi =(
0 si i = 1
sg(bβlsi ) �jbβlsi j � δ�23
�si i > 1
� � � � � � � � �
(Institute) 16 / 54
Ejemplo/
0 5 10 15 20 250
2
4
6
8
10
delta
|beta|
(Institute) 17 / 54
Regresión Ridge
También basado en una contracción de los coe�cientes (Shrinkage)
Dado t > 0, bβRR = argminjjβr jj
22�tky�Xβk2 .
(en el Lasso: kβr k1 � t)
y para bµRR= XbβRR : bµRR=argminµ2Vt
jjy� µjj2,
Vt = fµ : µ = Xβ, jjβr jj2 � tg.
Dado bβls y bµls , se de�ne tRR∞ =p
∑j=1
bβ2jls entonces :
Si t � tRR∞ =) bµRR = bµls , bβRR = bβls
(Institute) 18 / 54
Regresión Ridge
También basado en una contracción de los coe�cientes (Shrinkage)
Dado t > 0, bβRR = argminjjβr jj
22�tky�Xβk2 .
(en el Lasso: kβr k1 � t)
y para bµRR= XbβRR : bµRR=argminµ2Vt
jjy� µjj2,
Vt = fµ : µ = Xβ, jjβr jj2 � tg.
Dado bβls y bµls , se de�ne tRR∞ =p
∑j=1
bβ2jls entonces :
Si t � tRR∞ =) bµRR = bµls , bβRR = bβls
(Institute) 18 / 54
Regresión Ridge
También basado en una contracción de los coe�cientes (Shrinkage)
Dado t > 0, bβRR = argminjjβr jj
22�tky�Xβk2 .
(en el Lasso: kβr k1 � t)
y para bµRR= XbβRR : bµRR=argminµ2Vt
jjy� µjj2,
Vt = fµ : µ = Xβ, jjβr jj2 � tg.
Dado bβls y bµls , se de�ne tRR∞ =p
∑j=1
bβ2jls entonces :
Si t � tRR∞ =) bµRR = bµls , bβRR = bβls
(Institute) 18 / 54
Regresión Ridge
También basado en una contracción de los coe�cientes (Shrinkage)
Dado t > 0, bβRR = argminjjβr jj
22�tky�Xβk2 .
(en el Lasso: kβr k1 � t)
y para bµRR= XbβRR : bµRR=argminµ2Vt
jjy� µjj2,
Vt = fµ : µ = Xβ, jjβr jj2 � tg.
Dado bβls y bµls , se de�ne tRR∞ =p
∑j=1
bβ2jls entonces :
Si t � tRR∞ =) bµRR = bµls , bβRR = bβls
(Institute) 18 / 54
Regresión Ridge
También basado en una contracción de los coe�cientes (Shrinkage)
Dado t > 0, bβRR = argminjjβr jj
22�tky�Xβk2 .
(en el Lasso: kβr k1 � t)
y para bµRR= XbβRR : bµRR=argminµ2Vt
jjy� µjj2,
Vt = fµ : µ = Xβ, jjβr jj2 � tg.
Dado bβls y bµls , se de�ne tRR∞ =p
∑j=1
bβ2jls entonces :
Si t � tRR∞ =) bµRR = bµls , bβRR = bβls
(Institute) 18 / 54
Regresión Ridge
También basado en una contracción de los coe�cientes (Shrinkage)
Dado t > 0, bβRR = argminjjβr jj
22�tky�Xβk2 .
(en el Lasso: kβr k1 � t)
y para bµRR= XbβRR : bµRR=argminµ2Vt
jjy� µjj2,
Vt = fµ : µ = Xβ, jjβr jj2 � tg.
Dado bβls y bµls , se de�ne tRR∞ =p
∑j=1
bβ2jls entonces :Si t � tRR∞ =) bµRR = bµls , bβRR = bβls
(Institute) 18 / 54
RR con dos predictores estandarizados, (y centrado)
ML: y�, y z(1), z(1) estandarizados
y�= z(1)βz1 + z(2)βz2 + ε
Si Vr es el subespacio generado pr z(1) y z(2), entonces para elestimador ridge la región Vrt será
Vrt =n
µ = z(1)β1 + z(2)β2 : β21 + β22 � t
o� Vr
(Institute) 19 / 54
Ridge: z1 ortogonal a z2, con t=2
(Institute) 20 / 54
Ridge: con correlación entre z1 y z2 (rho=0.8 y t=2)
(Institute) 21 / 54
LASSO: como minimos cuadrados penalizados
bβL = argminp
∑j=1
jβj j�tky�Xβk2 , (5)
bβL = argminβ
n
∑i=1(yi � xiβ)2 + λ
p
∑j=1
���βj ���!
(6)
Teorema: Si bβtL,1 es solución de (5), y bβλ
L,2 solución de (6) valen:
(a) Para todo t � 0 el estimador bβtL,1 existe y es único(b) Para todo λ � 0 el estimador bβλ
L,2 existe y es único
(c) Para todo λ � 0 existe t � 0 tal que bβtL,1 = bβλ
L,2
(d) Para todo t � 0 existe λ � 0 tal que bβλ
L,2 =bβtL,1.
(Institute) 22 / 54
LASSO: minimos cuadrados penalizados
Derivando (6) respecto de cada βj obtenemos8>>>>>>>>><>>>>>>>>>:
�2n
∑i=1(yi � xi β) = 0
�2n
∑i=1(yi � xi β)xi1 + λsg(β1) = 0
� � � � � � � � � � ��
�2n
∑i=1(yi � xi β)xip + λsg(βp) = 0,
�2X0(y�Xβ) + λ
26640
sg(β1)...
sg(βp)
3775 = 0 (7)
(Institute) 23 / 54
LASSO: mcp SIN intercept
Cuando no hay intercept (X = Xr ), la ecuación será
�2X0r (y�Xr β) + λ
24sg(β1)...sg(βp)
35 = 0 (8)
Desarrollando la ecuación (7) se obtiene
�2j0(y� jβ0 �Xr βr ) = 0
y
�2X0r (y� jβ0 �Xr βr ) + λ
24sg(β1)�sg(βp)
35 = 0. (9)
(Institute) 24 / 54
LASSO: mcp CON intercept
Cuando hay intercept, si se reemplaza β0 en la ecuación de (9) queda
�2Xc 0r (yc �Xcr βr ) + λ
24sg(β1)�sg(βp)
35 = 0donde Xcr es la matriz Xr centrada, de modo que las columnas tienenmedia 0. Resolviendo esta ecuación se obtiene βr , y luego utilizandola parte de arriba de (9) resulta
β0 = y� xr βr .
(Institute) 25 / 54
Estimador MMLASSO
En el Lassso de Tibshirani con la restricciónp
∑j=1
���βj ��� � t , se busca elβ que minimiza ∑n
i=1 r2i .
Pero, si hay outliers en los datos (ya sea en y y/o en X)....
Se propone minimizar :n
∑i=1
ρ� ribs �
donde bs es un estimador de escala de los residuosρ : ρ : R ! R�0 (R�0 son los reales no negativos) que satisface lassiguientes propiedades:P1(i) ρ(u) es par y continua, (ii) ρ(u) función no decreciente de juj,(iii) ρ(0) = 0, (iv) limu!∞ ρ(u) = 1 y (v) ρ(u) es estrictamentecreciente si u > 0 y ρ(u) < 1.
(Institute) 26 / 54
Estimador MMLASSO
En el Lassso de Tibshirani con la restricciónp
∑j=1
���βj ��� � t , se busca elβ que minimiza ∑n
i=1 r2i .
Pero, si hay outliers en los datos (ya sea en y y/o en X)....
Se propone minimizar :n
∑i=1
ρ� ribs �
donde bs es un estimador de escala de los residuosρ : ρ : R ! R�0 (R�0 son los reales no negativos) que satisface lassiguientes propiedades:P1(i) ρ(u) es par y continua, (ii) ρ(u) función no decreciente de juj,(iii) ρ(0) = 0, (iv) limu!∞ ρ(u) = 1 y (v) ρ(u) es estrictamentecreciente si u > 0 y ρ(u) < 1.
(Institute) 26 / 54
Estimador MMLASSO
En el Lassso de Tibshirani con la restricciónp
∑j=1
���βj ��� � t , se busca elβ que minimiza ∑n
i=1 r2i .
Pero, si hay outliers en los datos (ya sea en y y/o en X)....
Se propone minimizar :n
∑i=1
ρ� ribs �
donde bs es un estimador de escala de los residuosρ : ρ : R ! R�0 (R�0 son los reales no negativos) que satisface lassiguientes propiedades:P1(i) ρ(u) es par y continua, (ii) ρ(u) función no decreciente de juj,(iii) ρ(0) = 0, (iv) limu!∞ ρ(u) = 1 y (v) ρ(u) es estrictamentecreciente si u > 0 y ρ(u) < 1.
(Institute) 26 / 54
Estimador MMLASSO
En el Lassso de Tibshirani con la restricciónp
∑j=1
���βj ��� � t , se busca elβ que minimiza ∑n
i=1 r2i .
Pero, si hay outliers en los datos (ya sea en y y/o en X)....
Se propone minimizar :n
∑i=1
ρ� ribs �
donde bs es un estimador de escala de los residuos
ρ : ρ : R ! R�0 (R�0 son los reales no negativos) que satisface lassiguientes propiedades:P1(i) ρ(u) es par y continua, (ii) ρ(u) función no decreciente de juj,(iii) ρ(0) = 0, (iv) limu!∞ ρ(u) = 1 y (v) ρ(u) es estrictamentecreciente si u > 0 y ρ(u) < 1.
(Institute) 26 / 54
Estimador MMLASSO
En el Lassso de Tibshirani con la restricciónp
∑j=1
���βj ��� � t , se busca elβ que minimiza ∑n
i=1 r2i .
Pero, si hay outliers en los datos (ya sea en y y/o en X)....
Se propone minimizar :n
∑i=1
ρ� ribs �
donde bs es un estimador de escala de los residuosρ : ρ : R ! R�0 (R�0 son los reales no negativos) que satisface lassiguientes propiedades:
P1(i) ρ(u) es par y continua, (ii) ρ(u) función no decreciente de juj,(iii) ρ(0) = 0, (iv) limu!∞ ρ(u) = 1 y (v) ρ(u) es estrictamentecreciente si u > 0 y ρ(u) < 1.
(Institute) 26 / 54
Estimador MMLASSO
En el Lassso de Tibshirani con la restricciónp
∑j=1
���βj ��� � t , se busca elβ que minimiza ∑n
i=1 r2i .
Pero, si hay outliers en los datos (ya sea en y y/o en X)....
Se propone minimizar :n
∑i=1
ρ� ribs �
donde bs es un estimador de escala de los residuosρ : ρ : R ! R�0 (R�0 son los reales no negativos) que satisface lassiguientes propiedades:P1(i) ρ(u) es par y continua, (ii) ρ(u) función no decreciente de juj,(iii) ρ(0) = 0, (iv) limu!∞ ρ(u) = 1 y (v) ρ(u) es estrictamentecreciente si u > 0 y ρ(u) < 1.
(Institute) 26 / 54
MMLASSO: De�nición
Se de�ne el estimador MLASSO de β0 mediante:
bβLR = argminp
∑j=1
jβj j�t
n
∑i=1
ρ
�yi � xiβs
�, (10)
donde s es un estimador de escala de los errores y la función ρ satisface lapropiedad P1.
Nuevamente esto es equivalente a que, para algún λ � 0
bβLR = argminβ
n
∑i=1
ρ
�yi � xiβs
�+ λ
p
∑j=1
���βj ���!. (11)
(Institute) 27 / 54
MMLASSO: De�nición
Se de�ne el estimador MLASSO de β0 mediante:
bβLR = argminp
∑j=1
jβj j�t
n
∑i=1
ρ
�yi � xiβs
�, (10)
donde s es un estimador de escala de los errores y la función ρ satisface lapropiedad P1.
Nuevamente esto es equivalente a que, para algún λ � 0
bβLR = argminβ
n
∑i=1
ρ
�yi � xiβs
�+ λ
p
∑j=1
���βj ���!. (11)
(Institute) 27 / 54
MMLASSO: estimador de escala
Como estimador de escala de los residuos bs se propone unS-estimador de�nido mediante
bs = minβs(β)
donde s(β) está de�nido por
1n
n
∑i=1
ρ0
�yi � β0xc0s(β)
�= 0.5
y ρ0 satisface P1 , con c0 determinado de manera que cuandoyi = β0xi + εi donde los εi�s son independientes con distribucionN(0,1) se tenga
E (bs) = 1,En este trabajo ρ0(u) se tomó igual a la función bicuadradaρT(u, 1). El valor c0 depende de la matrix Xr , y la forma dedeterminarlo se explica mas adelante.
(Institute) 28 / 54
MMLASSO: estimador de escala
Como estimador de escala de los residuos bs se propone unS-estimador de�nido mediante
bs = minβs(β)
donde s(β) está de�nido por
1n
n
∑i=1
ρ0
�yi � β0xc0s(β)
�= 0.5
y ρ0 satisface P1 , con c0 determinado de manera que cuandoyi = β0xi + εi donde los εi�s son independientes con distribucionN(0,1) se tenga
E (bs) = 1,En este trabajo ρ0(u) se tomó igual a la función bicuadradaρT(u, 1). El valor c0 depende de la matrix Xr , y la forma dedeterminarlo se explica mas adelante.
(Institute) 28 / 54
MMLASSO: estimador de escala
Como estimador de escala de los residuos bs se propone unS-estimador de�nido mediante
bs = minβs(β)
donde s(β) está de�nido por
1n
n
∑i=1
ρ0
�yi � β0xc0s(β)
�= 0.5
y ρ0 satisface P1 , con c0 determinado de manera que cuandoyi = β0xi + εi donde los εi�s son independientes con distribucionN(0,1) se tenga
E (bs) = 1,
En este trabajo ρ0(u) se tomó igual a la función bicuadradaρT(u, 1). El valor c0 depende de la matrix Xr , y la forma dedeterminarlo se explica mas adelante.
(Institute) 28 / 54
MMLASSO: estimador de escala
Como estimador de escala de los residuos bs se propone unS-estimador de�nido mediante
bs = minβs(β)
donde s(β) está de�nido por
1n
n
∑i=1
ρ0
�yi � β0xc0s(β)
�= 0.5
y ρ0 satisface P1 , con c0 determinado de manera que cuandoyi = β0xi + εi donde los εi�s son independientes con distribucionN(0,1) se tenga
E (bs) = 1,En este trabajo ρ0(u) se tomó igual a la función bicuadradaρT(u, 1). El valor c0 depende de la matrix Xr , y la forma dedeterminarlo se explica mas adelante.
(Institute) 28 / 54
MLASSO: como minimos cuadrados penalizados
Derivando (11) respecto de β, y llamando ψ(u) = ρ0(u) resulta
n
∑i=1
ψ( yi�xi βs ) 1s = 0
n
∑i=1
ψ( yi�xi βs ) xi1s + λsg(β1) = 0
� � � � � � � � � � ��n
∑i=1
ψ( yi�xi βs )xips + λsg(βp) = 0.
(12)
Seanri = yi � xβ, (13)
w(u) = ψ(u)/u (14)
ωi = w(ri/s). (15)
(Institute) 29 / 54
MLASSO: minimos cuadrados penalizados/
Luego el sistema (12) se puede escribir como8>>>>>>>>>>><>>>>>>>>>>>:
n
∑i=1
ωi (yi � xiβ) = 0
n
∑i=1
ωi (yi � xiβ)xi1 + λs2sg(β1) = 0
� � � � � � � � � � ��n
∑i=1
ωi (yi � xiβ)xip + λs2sg(β1) = 0.
(16)
Observemos que los ωi dependen de β, y por lo tanto no son conocidos.
(Institute) 30 / 54
MLASSO: minimos cuadrados penalizados//
8>>>>>>>>><>>>>>>>>>:
n
∑i=1(p
ωiyi �p
ωixiβ)p
ωi = 0
n
∑i=1(p
ωiyi �p
ωixiβ)p
ωixi1 + λs2sg(β1) = 0
� � � � � � � � � � ��n
∑i=1(p
ωiyi �p
ωixiβ)p
ωixip + λs2sg(βp) = 0.
(17)
Denotemos ahora por
W =
2664ω1 0 0 00 ω2 0 00 0 � 00 0 0 ωn
3775 , y� =W1/2y, X� =W1/2X (18)
y por x�(j). 0 � j � p a la columna j de X�. Luego (16) es equivalente a(Institute) 31 / 54
MLASSO: minimos cuadrados penalizados///
8>><>>:x�(0)0(y� �X�β) = 0x�(1)0(y� �X�β) + λs2sg(β1) = 0� � � � � � � � � � ��x�(p)0(y� �X�β) + λs2sg(βp) = 0,
que también puede escribirse como
X�0(y� �X�β) + λs2
26640
sg(β1)�
sg(βp)
3775 = 0. (19)
Similar al de Tibshirani cambiando X por X�, y y por y�, Problema:j� = (
pω1,
pω2, ��,
pωn)0 .
(Institute) 32 / 54
MLASSO: Algoritmo: transformación de j
En X� = [j�,X�r ], se descompone x�(j)r = λj j� + x
�?(j)r
λj =j�0x�(j)r
j�0j�.
y entonces
X� = [j�,X�r ] = [j�,λ1j�, � � �,λp j�] + [0,X�?r ].
y resulta :
X�0(y� �X�β) = X�0(y� � (β0 + λ1β1 + � �+λpβp)j� �X�?r βr ).
(Institute) 33 / 54
MLASSO: Algoritmo: transformación de j
En X� = [j�,X�r ], se descompone x�(j)r = λj j� + x
�?(j)r
λj =j�0x�(j)r
j�0j�.
y entonces
X� = [j�,X�r ] = [j�,λ1j�, � � �,λp j�] + [0,X�?r ].
y resulta :
X�0(y� �X�β) = X�0(y� � (β0 + λ1β1 + � �+λpβp)j� �X�?r βr ).
(Institute) 33 / 54
MLASSO: Algoritmo: transformación de j
En X� = [j�,X�r ], se descompone x�(j)r = λj j� + x
�?(j)r
λj =j�0x�(j)r
j�0j�.
y entonces
X� = [j�,X�r ] = [j�,λ1j�, � � �,λp j�] + [0,X�?r ].
y resulta :
X�0(y� �X�β) = X�0(y� � (β0 + λ1β1 + � �+λpβp)j� �X�?r βr ).
(Institute) 33 / 54
MLASSO: Algoritmo: transformación de j///
Finalmente llamando ϕ = β0 + λ1β1 + � �+λpβp y desarrollando
�j�0y� � ϕj�0j�
X�?0r (y� �X�?r βr )
�+ λs2
26640
sg(β1)�
sg(βp)
3775 = 0.O sea el estimador MLASSO satisface el siguiente sistema de ecuaciones
j�0y� � ϕj�0j� = 0
X�?0r (y� �X�?r βr ) + λs2
24sg(β1)�sg(βp)
35 = 0. (20)
(Institute) 34 / 54
MLASSO: Algoritmo: transformación de j////
Observar que si conocieramos X�?r , y� y j�0 el valor βr lo obtendríamosresolviendo
X�?0r (y� �X�?r βr ) + λs2
24sg(β1)�sg(βp)
35 = 0. (21)
y esto se lograría usando un LASSO no robusto sin intercept. Finalmenteβ0 se despejaría facilmente de
j�0y� � ϕj�0j� = 0. (22)
(Institute) 35 / 54
MLASSO: Algoritmo iterativo
Sin embargo y�, X�?r y j� dependen de βr y β0. Entonces pararesolver el sistema (20) podemos usar el siguiente algoritmo iterativo.
Sean (β(i )0 , β(i )r ) los valores calculados en el paso i � 0.
Los valores iniciales (β(0)0 , β(0)r ) pueden obtenerse usando un
MM-estimador sin restriciones.
El paso recursivo que se propone es el siguiente. Dados (β(i )0 , β(i )r ) los
valores (β(i+1)0 , β(i+1)r ) se calculan haciendo los siguientes cinco pasos:
(Institute) 36 / 54
MLASSO: Algoritmo iterativo
Sin embargo y�, X�?r y j� dependen de βr y β0. Entonces pararesolver el sistema (20) podemos usar el siguiente algoritmo iterativo.
Sean (β(i )0 , β(i )r ) los valores calculados en el paso i � 0.
Los valores iniciales (β(0)0 , β(0)r ) pueden obtenerse usando un
MM-estimador sin restriciones.
El paso recursivo que se propone es el siguiente. Dados (β(i )0 , β(i )r ) los
valores (β(i+1)0 , β(i+1)r ) se calculan haciendo los siguientes cinco pasos:
(Institute) 36 / 54
MLASSO: Algoritmo iterativo
Sin embargo y�, X�?r y j� dependen de βr y β0. Entonces pararesolver el sistema (20) podemos usar el siguiente algoritmo iterativo.
Sean (β(i )0 , β(i )r ) los valores calculados en el paso i � 0.
Los valores iniciales (β(0)0 , β(0)r ) pueden obtenerse usando un
MM-estimador sin restriciones.
El paso recursivo que se propone es el siguiente. Dados (β(i )0 , β(i )r ) los
valores (β(i+1)0 , β(i+1)r ) se calculan haciendo los siguientes cinco pasos:
(Institute) 36 / 54
MLASSO: Algoritmo iterativo
Sin embargo y�, X�?r y j� dependen de βr y β0. Entonces pararesolver el sistema (20) podemos usar el siguiente algoritmo iterativo.
Sean (β(i )0 , β(i )r ) los valores calculados en el paso i � 0.
Los valores iniciales (β(0)0 , β(0)r ) pueden obtenerse usando un
MM-estimador sin restriciones.
El paso recursivo que se propone es el siguiente. Dados (β(i )0 , β(i )r ) los
valores (β(i+1)0 , β(i+1)r ) se calculan haciendo los siguientes cinco pasos:
(Institute) 36 / 54
MLASSO: Algoritmo iterativo/
1 Se calculan los pesos wi , 1 � i � n usando (13), (14) y (15) tomandoβ =(β
(i )0 , β
(i )r ).
2 Con los wi se obtienen X� = (j�,X�r ) y y� usando (18).3 Se calculan λj = j�0x
�(j)r / j�0j�, 1 � j � p y se obtiene X�?r con
columna j igual a x�?(j)r = x�(j)r � λj j�.4 Usando y� y X�?r y la (20), y el LASSO no robusto sin intercept seresuelve (21) obteniendose β(i+1)r .
5 De acuerdo a (22), el valor β(i+1)0 se obtiene resolviendo
ϕ = β0 + λ1β1 + � �+λpβp obteniendo
β(i+1)0 =
1j�0j�
hj�0y� � (λ1β
(i+1)r1 + ...λpβ(i+1)rp )j�0j�
i.
Se detiene el algoritmo cuando kβ(i+1)�β(i )kkβ(i )k � δ, donde δ > 0
determina la precision del valor del estimador.
(Institute) 37 / 54
MLASSO: Algoritmo iterativo/
1 Se calculan los pesos wi , 1 � i � n usando (13), (14) y (15) tomandoβ =(β
(i )0 , β
(i )r ).
2 Con los wi se obtienen X� = (j�,X�r ) y y� usando (18).
3 Se calculan λj = j�0x�(j)r / j�0j�, 1 � j � p y se obtiene X�?r con
columna j igual a x�?(j)r = x�(j)r � λj j�.4 Usando y� y X�?r y la (20), y el LASSO no robusto sin intercept seresuelve (21) obteniendose β(i+1)r .
5 De acuerdo a (22), el valor β(i+1)0 se obtiene resolviendo
ϕ = β0 + λ1β1 + � �+λpβp obteniendo
β(i+1)0 =
1j�0j�
hj�0y� � (λ1β
(i+1)r1 + ...λpβ(i+1)rp )j�0j�
i.
Se detiene el algoritmo cuando kβ(i+1)�β(i )kkβ(i )k � δ, donde δ > 0
determina la precision del valor del estimador.
(Institute) 37 / 54
MLASSO: Algoritmo iterativo/
1 Se calculan los pesos wi , 1 � i � n usando (13), (14) y (15) tomandoβ =(β
(i )0 , β
(i )r ).
2 Con los wi se obtienen X� = (j�,X�r ) y y� usando (18).3 Se calculan λj = j�0x
�(j)r / j�0j�, 1 � j � p y se obtiene X�?r con
columna j igual a x�?(j)r = x�(j)r � λj j�.
4 Usando y� y X�?r y la (20), y el LASSO no robusto sin intercept seresuelve (21) obteniendose β(i+1)r .
5 De acuerdo a (22), el valor β(i+1)0 se obtiene resolviendo
ϕ = β0 + λ1β1 + � �+λpβp obteniendo
β(i+1)0 =
1j�0j�
hj�0y� � (λ1β
(i+1)r1 + ...λpβ(i+1)rp )j�0j�
i.
Se detiene el algoritmo cuando kβ(i+1)�β(i )kkβ(i )k � δ, donde δ > 0
determina la precision del valor del estimador.
(Institute) 37 / 54
MLASSO: Algoritmo iterativo/
1 Se calculan los pesos wi , 1 � i � n usando (13), (14) y (15) tomandoβ =(β
(i )0 , β
(i )r ).
2 Con los wi se obtienen X� = (j�,X�r ) y y� usando (18).3 Se calculan λj = j�0x
�(j)r / j�0j�, 1 � j � p y se obtiene X�?r con
columna j igual a x�?(j)r = x�(j)r � λj j�.4 Usando y� y X�?r y la (20), y el LASSO no robusto sin intercept seresuelve (21) obteniendose β(i+1)r .
5 De acuerdo a (22), el valor β(i+1)0 se obtiene resolviendo
ϕ = β0 + λ1β1 + � �+λpβp obteniendo
β(i+1)0 =
1j�0j�
hj�0y� � (λ1β
(i+1)r1 + ...λpβ(i+1)rp )j�0j�
i.
Se detiene el algoritmo cuando kβ(i+1)�β(i )kkβ(i )k � δ, donde δ > 0
determina la precision del valor del estimador.
(Institute) 37 / 54
MLASSO: Algoritmo iterativo/
1 Se calculan los pesos wi , 1 � i � n usando (13), (14) y (15) tomandoβ =(β
(i )0 , β
(i )r ).
2 Con los wi se obtienen X� = (j�,X�r ) y y� usando (18).3 Se calculan λj = j�0x
�(j)r / j�0j�, 1 � j � p y se obtiene X�?r con
columna j igual a x�?(j)r = x�(j)r � λj j�.4 Usando y� y X�?r y la (20), y el LASSO no robusto sin intercept seresuelve (21) obteniendose β(i+1)r .
5 De acuerdo a (22), el valor β(i+1)0 se obtiene resolviendo
ϕ = β0 + λ1β1 + � �+λpβp obteniendo
β(i+1)0 =
1j�0j�
hj�0y� � (λ1β
(i+1)r1 + ...λpβ(i+1)rp )j�0j�
i.
Se detiene el algoritmo cuando kβ(i+1)�β(i )kkβ(i )k � δ, donde δ > 0
determina la precision del valor del estimador.
(Institute) 37 / 54
Ejemplo EC
beta
βr0 = (8, 8, 0, 0, 0, 0)
(Institute) 38 / 54
Ejemplo EC
beta
bβr = (9.5, 6.9, 1.5,�1,�0.6, 0.8)(Institute) 39 / 54
Ejemplo EC
beta
ec(t∞) = e21 + e22 + e
23 + e
24 + e
25 + e
26
(Institute) 40 / 54
Ejemplo EC
beta
Lasso(t∞ � δT )
(Institute) 41 / 54
Ejemplo EC
beta
ec(t∞ � δT ) = (e1 � δ)2 + (e2 + δ)2
+(e3 � δ)2 + (e4 � δ)2 + (e5 � δ)2 + (e6 �δ)2
(Institute) 42 / 54
Valor Optimo de t
Sean bβLR (X, y, t) y bµLR (X, y, t) los estimadores MLASSO de β0 yµ0, (dependen de t) Se podría minimizar:
ECM(t) =1nE (kbµLR (X, y, t)� µ0k
2)
Llamando E (bµLR (X, y, t)) = E (bµLR (t) , se tendrá:ECM(t) = 1
nE (kbµLR (X, y, t)� E (bµLR (t)) + E (bµLR (t))� µ0k2)
= 1nE (kE (bµLR (t))� µ0k
2) + E (kbµLR (X, y, t)� E (bµLR (t))k2)= 1
n jjsesgo(bµLR (X, y, t))jj2 + 1n traza(COV(bµLR (X, y, t))
(Institute) 43 / 54
Valor Optimo de t
Sean bβLR (X, y, t) y bµLR (X, y, t) los estimadores MLASSO de β0 yµ0, (dependen de t) Se podría minimizar:
ECM(t) =1nE (kbµLR (X, y, t)� µ0k
2)
Llamando E (bµLR (X, y, t)) = E (bµLR (t) , se tendrá:ECM(t) = 1
nE (kbµLR (X, y, t)� E (bµLR (t)) + E (bµLR (t))� µ0k2)
= 1nE (kE (bµLR (t))� µ0k
2) + E (kbµLR (X, y, t)� E (bµLR (t))k2)= 1
n jjsesgo(bµLR (X, y, t))jj2 + 1n traza(COV(bµLR (X, y, t))
(Institute) 43 / 54
Valor Optimo de t: comentarios
t es grande: MMLASSO se comporta el MMestimador
sesgo: pequeño varianza: grande
t es pequeño: actua la penalización
sesgo: grande " varianza: pequeña ##
Entonces se podría elegir el valor de t que minimice el ECM(t).
Como las expresiónes de E (bµLR (X, y, t)) y traza(COV(bµLR (X, y, t))son difíciles de obtener, se procederá de otra forma.
(Institute) 44 / 54
Valor Optimo de t: comentarios
t es grande: MMLASSO se comporta el MMestimador
sesgo: pequeño varianza: grande
t es pequeño: actua la penalización
sesgo: grande " varianza: pequeña ##
Entonces se podría elegir el valor de t que minimice el ECM(t).
Como las expresiónes de E (bµLR (X, y, t)) y traza(COV(bµLR (X, y, t))son difíciles de obtener, se procederá de otra forma.
(Institute) 44 / 54
Valor Optimo de t: comentarios
t es grande: MMLASSO se comporta el MMestimador
sesgo: pequeño varianza: grande
t es pequeño: actua la penalización
sesgo: grande " varianza: pequeña ##
Entonces se podría elegir el valor de t que minimice el ECM(t).
Como las expresiónes de E (bµLR (X, y, t)) y traza(COV(bµLR (X, y, t))son difíciles de obtener, se procederá de otra forma.
(Institute) 44 / 54
Valor Optimo de t: comentarios
t es grande: MMLASSO se comporta el MMestimador
sesgo: pequeño varianza: grande
t es pequeño: actua la penalización
sesgo: grande " varianza: pequeña ##
Entonces se podría elegir el valor de t que minimice el ECM(t).
Como las expresiónes de E (bµLR (X, y, t)) y traza(COV(bµLR (X, y, t))son difíciles de obtener, se procederá de otra forma.
(Institute) 44 / 54
Error de Predicción
Sea yN cumpla el mismo ML, pero con los εN independientes de los ε
yN= Xβ0 + εN
Luego el PSE cuando se usa nuestro estimador para las nuevasobservaciones será
PSE (t) =1nE ( yN � bµLR (X, y, t) 2)
=1nE ( yN � µ0+µ0 � bµLR (X, y, t) 2)
=1nE (kbµLR (X, y, t)� µ0k
2) +1nE ( yN � µ0
2)= ECM(t) + σ2
donde σ2 = Var(εj ) = Var(εNj ).
Como σ2 es constante, será lo mismo minimizar ECM(t) que PSE (t),que es más simple.
(Institute) 45 / 54
Error de Predicción
Sea yN cumpla el mismo ML, pero con los εN independientes de los ε
yN= Xβ0 + εN
Luego el PSE cuando se usa nuestro estimador para las nuevasobservaciones será
PSE (t) =1nE ( yN � bµLR (X, y, t) 2)
=1nE ( yN � µ0+µ0 � bµLR (X, y, t) 2)
=1nE (kbµLR (X, y, t)� µ0k
2) +1nE ( yN � µ0
2)= ECM(t) + σ2
donde σ2 = Var(εj ) = Var(εNj ).
Como σ2 es constante, será lo mismo minimizar ECM(t) que PSE (t),que es más simple.
(Institute) 45 / 54
Error de Predicción
Sea yN cumpla el mismo ML, pero con los εN independientes de los ε
yN= Xβ0 + εN
Luego el PSE cuando se usa nuestro estimador para las nuevasobservaciones será
PSE (t) =1nE ( yN � bµLR (X, y, t) 2)
=1nE ( yN � µ0+µ0 � bµLR (X, y, t) 2)
=1nE (kbµLR (X, y, t)� µ0k
2) +1nE ( yN � µ0
2)= ECM(t) + σ2
donde σ2 = Var(εj ) = Var(εNj ).
Como σ2 es constante, será lo mismo minimizar ECM(t) que PSE (t),que es más simple.
(Institute) 45 / 54
Validación cruzada
Se buscará el t = tRopt que minimice una medida del error de predicción.Para obtener un estimador insesgado de esta medida se recurrirá almétodo de validación cruzada.
Para cada valor t y cada observación j sea bβ(t)�j el estimador usando larestricción correspondiente a t y eliminando la observación j .
Luego el error de predicción bεt ,j de la observación j usando bβ(t)�j serábεt ,j = yj � bβ(t)0�j xj
y entonces bεt = (bεt ,1,bεt ,2, � � �,bεt ,n)LLamando dPSE (t) al estimador de escala de bεt , el valor de t se eligecomo
topt = argmint
dPSE (t)
(Institute) 46 / 54
Validación cruzada
Se buscará el t = tRopt que minimice una medida del error de predicción.Para obtener un estimador insesgado de esta medida se recurrirá almétodo de validación cruzada.
Para cada valor t y cada observación j sea bβ(t)�j el estimador usando larestricción correspondiente a t y eliminando la observación j .
Luego el error de predicción bεt ,j de la observación j usando bβ(t)�j serábεt ,j = yj � bβ(t)0�j xj
y entonces bεt = (bεt ,1,bεt ,2, � � �,bεt ,n)LLamando dPSE (t) al estimador de escala de bεt , el valor de t se eligecomo
topt = argmint
dPSE (t)
(Institute) 46 / 54
Validación cruzada
Se buscará el t = tRopt que minimice una medida del error de predicción.Para obtener un estimador insesgado de esta medida se recurrirá almétodo de validación cruzada.
Para cada valor t y cada observación j sea bβ(t)�j el estimador usando larestricción correspondiente a t y eliminando la observación j .
Luego el error de predicción bεt ,j de la observación j usando bβ(t)�j serábεt ,j = yj � bβ(t)0�j xj
y entonces bεt = (bεt ,1,bεt ,2, � � �,bεt ,n)
LLamando dPSE (t) al estimador de escala de bεt , el valor de t se eligecomo
topt = argmint
dPSE (t)
(Institute) 46 / 54
Validación cruzada
Se buscará el t = tRopt que minimice una medida del error de predicción.Para obtener un estimador insesgado de esta medida se recurrirá almétodo de validación cruzada.
Para cada valor t y cada observación j sea bβ(t)�j el estimador usando larestricción correspondiente a t y eliminando la observación j .
Luego el error de predicción bεt ,j de la observación j usando bβ(t)�j serábεt ,j = yj � bβ(t)0�j xj
y entonces bεt = (bεt ,1,bεt ,2, � � �,bεt ,n)LLamando dPSE (t) al estimador de escala de bεt , el valor de t se eligecomo
topt = argmint
dPSE (t)(Institute) 46 / 54
Validación cruzada: estimador de escala: estandarización
LASSO: estimador de escala
PSE (t) =�bε0tbεtn
�1/2
Estandarización de Xr : con media y desvío estándar
MMLASSO: estimador de escala τ, propuesto por Yohai y Zamar(1988)
PSER (t) = τ(bεt1...,bεtn)Estandarización de Xr : M-estimador de posición y un estimador deescala de tipo tau
(Institute) 47 / 54
Validación cruzada: estimador de escala: estandarización
LASSO: estimador de escala
PSE (t) =�bε0tbεtn
�1/2
Estandarización de Xr : con media y desvío estándarMMLASSO: estimador de escala τ, propuesto por Yohai y Zamar(1988)
PSER (t) = τ(bεt1...,bεtn)Estandarización de Xr : M-estimador de posición y un estimador deescala de tipo tau
(Institute) 47 / 54
Intervalo de rastreo: mejora1
En principio este intervalo debería ser [0,∞).
Para el estimador LASSO: se tomará [0, t∞], donde t∞ =p
∑j=1
���bβzjrls ���
Para el MMLASSO: se tomará [0, tR∞], donde tR∞ =
p
∑i=1
���bβz∞irLR
��� conbβz∞LR ' bβzLR (Xz , y, 10000)
Problema: En cada una de las n etapas en que se particiona lamatriz X, se obtienen las matrices Xz(�i ). Pero los t
Ri∞ que
corresponden a estas matrices son diferentes, e incluso algunospueden ser mayores que el de la matriz total Xz . Entonces antes,deberán calcularse los tRi∞ correspondientes a cada sub-matriz. Luegoel extremo superior del intervalo será
TR∞ = max1�i�n
ftRi∞g
y el intervalo de rastreo sería [0,TR∞ ].
(Institute) 48 / 54
Intervalo de rastreo: mejora1
En principio este intervalo debería ser [0,∞).
Para el estimador LASSO: se tomará [0, t∞], donde t∞ =p
∑j=1
���bβzjrls ���Para el MMLASSO: se tomará [0, tR∞], donde t
R∞ =
p
∑i=1
���bβz∞irLR
��� conbβz∞LR ' bβzLR (Xz , y, 10000)
Problema: En cada una de las n etapas en que se particiona lamatriz X, se obtienen las matrices Xz(�i ). Pero los t
Ri∞ que
corresponden a estas matrices son diferentes, e incluso algunospueden ser mayores que el de la matriz total Xz . Entonces antes,deberán calcularse los tRi∞ correspondientes a cada sub-matriz. Luegoel extremo superior del intervalo será
TR∞ = max1�i�n
ftRi∞g
y el intervalo de rastreo sería [0,TR∞ ].
(Institute) 48 / 54
Intervalo de rastreo: mejora1
En principio este intervalo debería ser [0,∞).
Para el estimador LASSO: se tomará [0, t∞], donde t∞ =p
∑j=1
���bβzjrls ���Para el MMLASSO: se tomará [0, tR∞], donde t
R∞ =
p
∑i=1
���bβz∞irLR
��� conbβz∞LR ' bβzLR (Xz , y, 10000)
Problema: En cada una de las n etapas en que se particiona lamatriz X, se obtienen las matrices Xz(�i ). Pero los t
Ri∞ que
corresponden a estas matrices son diferentes, e incluso algunospueden ser mayores que el de la matriz total Xz . Entonces antes,deberán calcularse los tRi∞ correspondientes a cada sub-matriz. Luegoel extremo superior del intervalo será
TR∞ = max1�i�n
ftRi∞g
y el intervalo de rastreo sería [0,TR∞ ].(Institute) 48 / 54
Intervalo de rastreo: mejora2
Remark
La necesidad de utilizar un intervalo más amplio (con límite superior TR∞en lugar de tR∞) se presenta en general cuando hay outliers con altoLeverage. En esos casos la curva PSE (t) a veces presenta
1 en el intervalo [0, tR∞], el mínimo en ta con ta < tR∞.
2 en el intervalo [0,TR∞ ], el mínimo en tb con tb > tR∞.
Entonces si se utiliza la opción 1, el óptimo estaría en tRopt = ta, yactuaría la restricción del LASSO. Sin embargo con la opción 2, alestar el mínimo en tb > tR∞, el óptimo sería t
Ropt = t
R∞, ya que arriba
de este valor el estimador es el mismo.En de�nitiva cuando se obtenga el tRopt 2 [0,TR∞ ], como podríasuceder que tRopt > t
R∞ se tomará como tRopt a
tRopt = minftRopt , tR∞g
(Institute) 49 / 54
Intervalo de rastreo: mejora2
Remark
La necesidad de utilizar un intervalo más amplio (con límite superior TR∞en lugar de tR∞) se presenta en general cuando hay outliers con altoLeverage. En esos casos la curva PSE (t) a veces presenta
1 en el intervalo [0, tR∞], el mínimo en ta con ta < tR∞.
2 en el intervalo [0,TR∞ ], el mínimo en tb con tb > tR∞.
Entonces si se utiliza la opción 1, el óptimo estaría en tRopt = ta, yactuaría la restricción del LASSO. Sin embargo con la opción 2, alestar el mínimo en tb > tR∞, el óptimo sería t
Ropt = t
R∞, ya que arriba
de este valor el estimador es el mismo.En de�nitiva cuando se obtenga el tRopt 2 [0,TR∞ ], como podríasuceder que tRopt > t
R∞ se tomará como tRopt a
tRopt = minftRopt , tR∞g
(Institute) 49 / 54
Intervalo de rastreo: mejora2
Remark
La necesidad de utilizar un intervalo más amplio (con límite superior TR∞en lugar de tR∞) se presenta en general cuando hay outliers con altoLeverage. En esos casos la curva PSE (t) a veces presenta
1 en el intervalo [0, tR∞], el mínimo en ta con ta < tR∞.
2 en el intervalo [0,TR∞ ], el mínimo en tb con tb > tR∞.
Entonces si se utiliza la opción 1, el óptimo estaría en tRopt = ta, yactuaría la restricción del LASSO. Sin embargo con la opción 2, alestar el mínimo en tb > tR∞, el óptimo sería t
Ropt = t
R∞, ya que arriba
de este valor el estimador es el mismo.
En de�nitiva cuando se obtenga el tRopt 2 [0,TR∞ ], como podríasuceder que tRopt > t
R∞ se tomará como tRopt a
tRopt = minftRopt , tR∞g
(Institute) 49 / 54
Intervalo de rastreo: mejora2
Remark
La necesidad de utilizar un intervalo más amplio (con límite superior TR∞en lugar de tR∞) se presenta en general cuando hay outliers con altoLeverage. En esos casos la curva PSE (t) a veces presenta
1 en el intervalo [0, tR∞], el mínimo en ta con ta < tR∞.
2 en el intervalo [0,TR∞ ], el mínimo en tb con tb > tR∞.
Entonces si se utiliza la opción 1, el óptimo estaría en tRopt = ta, yactuaría la restricción del LASSO. Sin embargo con la opción 2, alestar el mínimo en tb > tR∞, el óptimo sería t
Ropt = t
R∞, ya que arriba
de este valor el estimador es el mismo.En de�nitiva cuando se obtenga el tRopt 2 [0,TR∞ ], como podríasuceder que tRopt > t
R∞ se tomará como tRopt a
tRopt = minftRopt , tR∞g
(Institute) 49 / 54
Intervalo de rastreo
(Institute) 50 / 54
Intervalo de rastreo:mejora3
(Institute) 51 / 54
Estimador de escala tau:Yohai y Zamar(1988)
Dada una muestra x = (x1, x2, ��, xn), en general un M-estimador de escalabσ(x)con punto de ruptura 0.5 está dado por el valor σ que satisface laecuación
1n
n
∑i=1
ρ0
�xiσ
�= 0.5 (23)
donde ρ0 es una función que veri�ca las propiedades P1.
Inconveniente: no se puede lograr simultaneamente alta e�ciencia yalto punto de ruptura.
Se de�ne el estimador de escala de tipo tau τ(x) mediante
τ2(x) = bσ2(x)1n
n
∑i=1
ρ1
�xibσ(x)�
(24)
donde ρ1 es una función que también satisface P1.
(Institute) 52 / 54
Estimador de escala tau:Yohai y Zamar(1988)
Dada una muestra x = (x1, x2, ��, xn), en general un M-estimador de escalabσ(x)con punto de ruptura 0.5 está dado por el valor σ que satisface laecuación
1n
n
∑i=1
ρ0
�xiσ
�= 0.5 (23)
donde ρ0 es una función que veri�ca las propiedades P1.
Inconveniente: no se puede lograr simultaneamente alta e�ciencia yalto punto de ruptura.
Se de�ne el estimador de escala de tipo tau τ(x) mediante
τ2(x) = bσ2(x)1n
n
∑i=1
ρ1
�xibσ(x)�
(24)
donde ρ1 es una función que también satisface P1.
(Institute) 52 / 54
Estimador de escala tau: continuación
En este trabajo se utiliza para el M-estimador de escala de (23)
ρ0(u) = I (juj > 1) =�01
si juj � 1si juj > 1 y δ = 0.5.
O sea: bσ(x) = Med (jεi j)c = Med (jxi j)
0.675 , que tiene alto punto de ruptura
y como ρ(u) se utilizó:
ρ(u) =
8<:u22 si 0 � juj < 21.792� 0.972u2 + 0.432u4 � 0.052u6 + 0.002u83.25 si 3 � juj
(Institute) 53 / 54
Estimador de escala tau: continuación
En este trabajo se utiliza para el M-estimador de escala de (23)
ρ0(u) = I (juj > 1) =�01
si juj � 1si juj > 1 y δ = 0.5.
O sea: bσ(x) = Med (jεi j)c = Med (jxi j)
0.675 , que tiene alto punto de ruptura
y como ρ(u) se utilizó:
ρ(u) =
8<:u22 si 0 � juj < 21.792� 0.972u2 + 0.432u4 � 0.052u6 + 0.002u83.25 si 3 � juj
(Institute) 53 / 54
Estimador de escala tau: continuación
En este trabajo se utiliza para el M-estimador de escala de (23)
ρ0(u) = I (juj > 1) =�01
si juj � 1si juj > 1 y δ = 0.5.
O sea: bσ(x) = Med (jεi j)c = Med (jxi j)
0.675 , que tiene alto punto de ruptura
y como ρ(u) se utilizó:
ρ(u) =
8<:u22 si 0 � juj < 21.792� 0.972u2 + 0.432u4 � 0.052u6 + 0.002u83.25 si 3 � juj
(Institute) 53 / 54
Estimador de escala tau: continuación
5 4 3 2 1 0 1 2 3 4 5
0.2
0.4
0.6
0.8
1.0
u
Figura 12: negro ρ(u); punteadoρBS (u, k = 3); verde ρ(u) = u2
(Institute) 54 / 54