trabajo n de m aster - tema: regresi on...
TRANSCRIPT
Trabajo fin de master - Tema: Regresion Cuantil
Directores
Carmen Cadarso Suarez
Javier Roca Pardinas
Por
Isabel Martınez Silva
30 de Junio de 2010
Agradecimientos
En primer lugar deseo expresar mi mas sincero agradecimiento a la profesora Carmen
Marıa Cadarso Suarez y al profesor Javier Roca Pardinas por la confianza depositada
en mı, al acceder a ser mis directores de proyecto. Los agradecimientos a la profesora
Carmen Cadarso, debo extenderlos por haberme abierto las puertas del mundo de la
Bioestadıstica y permitirme dar un cambio en mi carrera profesional.
Al Doctor Francisco Gude Sampedro, gracias por haber accedido a mi incorpo-
racion en practicas en la Unidad de Epidemiologıa Clınica del Complejo Hospitalario
Universitario de Santiago, y haberme permitido entrar en contacto con la investigacion
Biomedica. Y a mi companera de practicas en dicha Unidad, Marıa Teresa Alves Perez
(Mayte), por los buenos ratos que hemos pasado aprendiendo.
No puedo dejar de mencionar al profesor Wenceslao Gonzalez Manteiga, por haberme
dado a conocer el Master de Tecnicas Estadısticas en el que presento este proyecto fin
de master. A mis companeras de promocion Teresa Noguera Moreno y Anaderli Torres
Ortiz, por su apoyo y colaboracion en estos dos anos. Y a las companeras que trabajan
en bioestadıstica, que siempre me ofrecen su ayuda desinteresada y son un ejemplo a
seguir: Marıa Pazos Pata y Marıa Xose Rodrıguez Alvarez (Cote).
Para finalizar, recordar a mi padre, agradecerle a Marıa sus dulces suenos y a mi
familia todo el apoyo recibido.
Indice general
Agradecimientos II
1. Introduccion 1
2. Regresion parametrica 3
2.1. Regresion lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.1. Estudios de simulacion . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.2. Aplicacion a datos reales. . . . . . . . . . . . . . . . . . . . . . . 8
2.2. Regresion cuantil parametrica unidimensional . . . . . . . . . . . . . . . 11
2.2.1. Cuantil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2. Regresion cuantil unidimensional . . . . . . . . . . . . . . . . . . 11
2.2.3. Estudios de simulacion . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.4. Aplicacion a datos reales. . . . . . . . . . . . . . . . . . . . . . . 20
2.3. Regresion cuantil parametrica multidimensional . . . . . . . . . . . . . . 24
2.3.1. Estudios de simulacion . . . . . . . . . . . . . . . . . . . . . . . . 25
3. Regresion cuantil no parametrica 28
3.1. Regresion cuantil suavizada . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2. Estudios de simulacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.1. Escenario 1: Lineal Homocedastico. . . . . . . . . . . . . . . . . . 29
3.2.2. Escenario 2: Lineal Heterocedastico. . . . . . . . . . . . . . . . . 29
3.2.3. Escenario 3: No Lineal (seno). . . . . . . . . . . . . . . . . . . . . 30
3.2.4. Escenario 4: No Lineal (logaritmo). . . . . . . . . . . . . . . . . . 33
3.3. Aplicacion a datos reales . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4. Software utilizado para regresion cuantil 38
4.1. Paquete quantreg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1.1. Marco teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.2. Estudios de simulacion . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.3. Aplicacion a datos reales . . . . . . . . . . . . . . . . . . . . . . . 40
INDICE GENERAL iv
4.2. Paquete gamlss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.1. Modelos GAMLSS . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2. Parametros, Distribuciones y Terminos aditivos . . . . . . . . . . 45
4.2.3. Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2.4. Otros paquetes gamlss . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2.5. Aplicacion a datos simulados . . . . . . . . . . . . . . . . . . . . 48
4.2.6. Aplicacion a datos reales . . . . . . . . . . . . . . . . . . . . . . . 53
4.3. Paquete VGAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.1. Marco teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.2. Estudios de simulacion . . . . . . . . . . . . . . . . . . . . . . . . 59
4.3.3. Aplicacion a datos reales . . . . . . . . . . . . . . . . . . . . . . . 60
4.4. Paquete mboost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4.1. Marco teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.4.2. Gradiente Funcional Descendente . . . . . . . . . . . . . . . . . . 69
4.4.3. Estudios de simulacion . . . . . . . . . . . . . . . . . . . . . . . . 78
4.4.4. Aplicacion a datos reales . . . . . . . . . . . . . . . . . . . . . . . 79
5. Discusion 84
6. 86Bibliografiíía
Introduccion
La regresion cuantil es una tecnica estadıstica para el calculo de curvas de crecimien-
to y valores de referencia muy util en diversos ambitos de aplicacion, como la Ecologıa
[6], la Economıa [45] y la Medicina [24]. En el entorno aplicado se plantea la necesidad
de ampliar la vision parametrica clasica mediante el uso de tecnicas de suavizacion en
regresion, y ası poder captar todas las variaciones que se producen en las diferentes
curvas cuantil de la poblacion, condicional al conjunto de covariables.
La regresion cuantil se utiliza cuando el objetivo de estudio se centra en la esti-
macion de los diferentes percentiles (como por ejemplo, la mediana) de una poblacion
de interes. Una ventaja de utilizar la regresion cuantil para estimar la mediana, en
lugar de regresion por mınimos cuadrados ordinarios (para estimar la media), es que la
regresion cuantil sera mas robusta en presencia de valores atıpicos. La regresion cuantil
puede ser vista como un analogo natural en el analisis de regresion a la hora de utilizar
distintas medidas de tendencia central y dispersion, para obtener ası un analisis mas
completo y robusto de los datos. Otra de las ventajas de este tipo de regresion radica
en la posibilidad de estimar cualquier cuantil, pudiendo valorar ası lo que ocurre con
valores extremos de la poblacion.
El objetivo principal de este trabajo ha sido realizar un estudio comparativo ex-
haustivo, mediante simulacion y aplicacion a datos reales, de varias tecnicas flexibles
actuales de regresion cuantil, todas ellas implementadas en R [59]. Especıficamente se
revisan: i) la metodologıa de Koenker y Basset [51] con el paquete quantreg; ii) el
metodo basado en Modelos Aditivos Generalizados de localizacion, escala y forma[39],
implementado en el paquete gamlss; iii) la tecnica LMS [11] representada aquı como
un Modelo Aditivo Generalizado Vectorial [82], utilizando el paquete VGAM y; iv) una
nueva vision de la regresion cuantil a traves del proceso boosting [8], con el paquete
mboost.
Este estudio se estructura de la siguiente forma: se parte de la regresion clasica
(seccion 2.1), a continuacion se revisa la regresion cuantil parametrica (secciones 2.2
y 2.3) y se exponen los metodos mas actuales de regresion cuantil no parametrica
2
(seccion 3), realizando a continuacion un estudio comparativo de las diferentes tecnicas
utilizadas (seccion 4).
En el estudio de simulacion se consideraran, en primer lugar, escenarios parametri-
cos (seccion 2.1.1), tanto homocedasticos como heterocedasticos, con el fin de comparar
la regresion clasica y la regresion cuantil parametrica. En segundo lugar se simulan esce-
narios no parametricos (seccion 3.2.3 y 3.2.4) con el fin de evaluar las distintas tecnicas
de regresion cuantil suavizada. En todos los escenarios (tanto parametricos como no
parametricos) se han considerado distintos tipos de error en la variable respuesta: nor-
mal tıpica (N(0,1)), t-Student con 2 grados de libertad (t(2)) y distribucion gamma
(G(1,2)).
Finalmente se aplicaran todas las tecnicas de regresion cuantil a una base de datos
de Pediatrıa [74], con el fin de evaluar su comportamiento en la construccion de valores
de referencia de la funcion respiratoria de la poblacion escolar de Galicia [24], en funcion
de la talla y el sexo de los ninos.
Regresion parametrica
2.1. Regresion lineal simple
En terminos generales, la regresion lineal se suele formalizar como la media condi-
cionada de la variable respuesta en funcion del valor que tome la variable explicativa.
Es decir, m(x) = E(y|X = x), para cada posible valor x de X. En consecuencia, pode-
mos descomponer la variable respuesta en funcion del resultado de X, mas un error de
media cero, como:
y = m(x) + ϵ
donde ϵ se conoce como error y verifica
E(ϵ,X = x) = 0, ∀x
En el modelo lineal simple, las variables respuesta y explicativa, se consideran uni-
variantes; puesto que cada una refleja el valor de una sola caracterıstica. Las hipotesis
basicas de este modelo son:
Linealidad: la funcion de regresion es una lınea recta. Por lo que el modelo se
escribira como
Y = m(x) + ϵ = β0 + β1X + ϵ
donde β0 y β1 son parametros que habra que estimar y ϵ es una variable aleatoria
no observable, que llamaremos error, y contiene la variabilidad no achacable a la
variable explicativa sino debida a errores de medida u otros factores no contro-
lables.
Homocedasticidad: la varianza del error se mantiene constante a lo largo de la
variable explicativa,
V ar(ϵ|X = x) = σ2, ∀x.
Normalidad: el error se distribuye normalmente
ϵ ∈ N(0, σ2), ∀x.
2.1 Regresion lineal simple 4
La hipotesis de linealidad hace que nos encontremos ante un modelo parametrico,
porque supone que la funcion de regresion m(x) es una recta; pero deja libertad al
valor concreto de la pendiente y la ordenada en el origen, que son parametros que se
deben estimar en base a una muestra (X1, Y1), ..., (Xn, Yn). Ası pues tendrıamos
Yi = β0 + β1Xi + ϵi, ∀i ∈ 1, ..., n
siguiendo ϵi una distribucion N(0, σ2) y ademas necesitamos anadir la suposicion de
independencia para las variables aleatorias que representan a los errores para poder de-
sarrollar los metodos de inferencia. Queremos obtener los estimadores, β0 y β1, para los
parametros β0 y β1 en base a una muestra que cumple las hipotesis antes mencionadas
de linealidad, homocedasticidad e independencia de los errores. Una vez obtenidas las
estimaciones β0 y β1, obtendremos la recta de regresion que nos permitira predecir el
valor de Y a partir de un valor de x, como
Yi = β0 + β1Xi, ∀i ∈ {1, . . . , n},
obteniendo lo que denominaremos residuos de la regresion
ϵi = Yi − β0 − β1Xi, ∀i ∈ {1, . . . , n},
La estimacion de los parametros β0 y β1, se realiza mediante mınimos cuadrados.
2.1.1. Estudios de simulacion
A continuacion, obtendremos las rectas de regresion correspondientes a varios esce-
narios.
Escenario 1: Lineal Homocedastico.
En este primer ejemplo, se trabaja con una muestra aleatoria (X1, Y1), ..., (Xn, Yn),
simulada siguiendo el diseno fijo y homocedastico especificado por la ecuacion 2.1.
yi = Xti · β + (Xt
i · α) · εi, ∀i = 1, . . . , n (2.1)
Los parametros considerados han sido: n = 200, βt = (3, 1) y αt = (4, 0). Y se han
utilizado tres tipos distintos de error en la generacion de la variable respuesta:
ε ∼ N(0, 1)
ε ∼ t(2)
ε ∼ Gamma(1, 2)
2.1 Regresion lineal simple 5
0 2 4 6 8 10
−5
51
5
Errores N(0,1)x
y
Modelo homocedástico
0 2 4 6 8 10
−4
00
20
60
Errores t(2)x
y
Modelo homocedástico
0 2 4 6 8 10
10
20
30
40
Errores G(1,2)x
y
Modelo homocedástico
Figura 2.1: Ajuste lineal, caso homocedastico
En la figura 2.1 se observan las rectas de regresion para cada uno de los ejemplos
simulados.
CODIGO:
###SIMULACION DE DATOS:
n=200
beta_ho=t(t(c(3,1)))
alpha_ho=t(t(c(4,0)))
x=runif(n,min=0, max=10)
x=cbind(1,x)
#Generacion de los errores:
#""""""""""""""""""""""""""
er1=rnorm(n,mean=0,sd=1)
er2=rt(n,df=2)
er3=rgamma(n,shape=2,scale=1)
#Generacion de la respuesta:
#""""""""""""""""""""""""""
#Modelo homocedastico:
2.1 Regresion lineal simple 6
y_ho=x%*%beta_ho
y1_ho=y_ho+(x%*%alpha_ho)*er1
y2_ho=y_ho+(x%*%alpha_ho)*er2
y3_ho=y_ho+(x%*%alpha_ho)*er3
#########################AJUSTES LINEALES(lm)##############
#Modelos homocedasticos:
modl1_ho<-lm(y1_ho~x[,2])
modl2_ho<-lm(y2_ho~x[,2])
modl3_ho<-lm(y3_ho~x[,2])
Escenario 2: Lineal Heterocedastico.
Por otro lado, puesto que no siempre nos encontramos ante este tipo de situaciones
(diseno fijo y homocedastico), conviene comprobar que ocurre cuando en el diseno
se introduce la heterocedasticidad. Para ello, trabajamos con una muestra aleatoria
simulada (X1, Y1), ..., (Xn, Yn), creada segun el mismo diseno fijo anterior, pero con
heterocedasticidad en los errores. El diseno queda especificado ecuacion 2.1, siendo
necesario modificar en este caso los parametros: βt = (4, 2) y αt = (4, 1) e introducir
ası la heterocedasticidad en la muestra.
Los resultados del ajuste se pueden observar an la figura 2.2.
Valorando cada uno de los dos escenarios:
Escenario 1:
� Se produce un mejor ajuste en el caso de los errores N(0,1). En los otros
dos casos, errores t(2) y G(1,2), la recta no se comporta del mismo modo
que la nube de puntos. Debido a la falta de robusted del ajuste por mınimos
cuadrados.
� Con los errores t(2), la pendiente de la nube de puntos parece ser menor que
la que se obtiene con la recta de ajuste lineal. Esto se debe a la presencia de
outliers, que modifican la tendencia de la recta de regresion; sobre todo para
valores altos de la variable x, en los que provocan la elevacion de la posicion
de la recta en estos valores de X y por lo tanto un aumento de la pendiente
del ajuste.
� Y en el caso de los errores G(1,2), se observa una diferencia de compor-
tamiento entre el ajuste y la nube de puntos. Los valores superiores y mas
2.1 Regresion lineal simple 7
0 2 4 6 8 10
02
04
06
0
Errores N(0,1)x
y
Modelo heterocedástico
0 2 4 6 8 10
−5
05
01
50
Errores t(2)x
y
Modelo heterocedástico
0 2 4 6 8 10
20
60
10
0
Errores G(1,2)x
y
Modelo heterocedástico
Figura 2.2: Ajuste lineal, caso heterocedastico
dispersos de la nube de puntos, ejercen una traslacion de la recta hacia arriba
que desvirtua dicho ajuste, en comparacion con la tendencia de la nube de
puntos.
Escenario 2: En este caso, el hecho de haber construıdo un modelo heterocedas-
tico ya nos previene ante la situacion observada en la figura 2.2. Pero ademas,
se plantea otra limitacion del ajuste por mınimos cuadrados, ¿que ocurre si lo
que me interesa es valorar el comportamiento de valores extremos de la nube de
puntos? Por extremos se entienden valores altos o bajos de la variable respuesta.
Es evidente, dada las representaciones graficas de la figura 2.2, que los compor-
tamientos de estos valores no son los mismos que los de los valores centrales. Por
lo tanto, se hace patente la necesidad de otro tipo de modelos que resuelvan esta
situacion.
CODIGO:
###SIMULACION DE DATOS:
n=200
beta_he=c(4,2)
2.1 Regresion lineal simple 8
alpha_he=c(4,1)
x=runif(n,min=0, max=10)
x=cbind(1,x)
#Generacion de los errores:
#""""""""""""""""""""""""""
er1=rnorm(n,mean=0,sd=1)
er2=rt(n,df=2)
er3=rgamma(n,shape=2,scale=1)
#Generacion de la respuesta:
#""""""""""""""""""""""""""
#Modelo heterocedastico:
y_he=x%*%beta_he
y1_he=y_he+(x%*%alpha_he)*er1
y2_he=y_he+(x%*%alpha_he)*er2
y3_he=y_he+(x%*%alpha_he)*er3
#########################AJUSTES LINEALES (lm)#############
#Modelo heterocedastico:
modl1_he<-lm(y1_he~x[,2])
modl2_he<-lm(y2_he~x[,2])
modl3_he<-lm(y3_he~x[,2])
2.1.2. Aplicacion a datos reales.
Nos ocupamos a continuacion de un ejemplo con datos reales. Se trata de una
muestra de 2395 individuos sanos en edad escolar, con edades comprendidas entre los 6
y los 18 anos. Se han seleccionado de entre diversos colegios de 14 municipios de Galicia.
De cada individuo se han tomado diversas medidas antropomorfas y espirometricas,
hasta un total de 23. Las maniobras espirometricas se realizaron de acuerdo con los
protocolos de la American Thoracic Society de 1987, con evaluacion continua de los
espirogramas.
2.1 Regresion lineal simple 9
120 140 160 180
12
34
56
78
talla
fvc
NiñosNiñas
Figura 2.3: Nube de puntos, diferenciada por sexo.
Para este primer ejemplo, valoraremos la relacion existente entre la talla y la ca-
pacidad vital forzada (fvc). (El fvc es el volumen total expulsado desde la inspiracion
maxima hasta la espiracion maxima.) Utilizaremos para ello la regresion lineal simple,
vease la figura 2.2.
Como puede observarse en la nube de puntos, representada en la figura 2.3, se hace
patente la diferencia entre de ambos sexos. Es por ello que se han realizado modelos
distintos en funcion del sexo de los individuos.
En la figura 2.4, se pueden apreciar las nubes de puntos de la poblacion de ninos y
ninas con sus respectivas rectas de regresion. Dado que se trata de ajustar el fcv con
respecto a la talla de los individuos, serıa interesante comprobar si el comportamiento
se mantiene en valores extremos de la poblacion, si se modifica la pendiente de la recta
para esos valores, etc. Esta es una limitacion que presenta la regresion lineal clasica,
dado que su ajuste se centra en minimizar el error cuadratico medio. Por otro lado, en
la figura 2.4 y sobre todo en la poblacion femenina, se puede observar que la recta de
regresion esta influenciada por los valores extremos de la poblacion. Fijandonos en la
posicion de los valores centrales de la nube de puntos, la recta parece estar trasladada
verticalmente de la posicion correcta. Este hecho evidencia la falta de robusted de la
regresion clasica, que en este caso se traslada por el efecto que las colas de la nube de
2.1 Regresion lineal simple 10
120 160
12
34
56
78
TALLA
fvc
NIÑOS
110 130 150 170
12
34
56
TALLA
fvc
NIÑAS
Figura 2.4: Ajuste lineal, aplicacion a datos reales.
Representacion diferenciada de las poblacion de ninos y ninas.
puntos provocan en la minimizacion del error cuadratico medio.
Por lo tanto, del mismo modo que la mediana es un estimador mas robusto que la
media; llegados a este punto, debemos plantearnos un tipo de regresion mas robusta
que la regresion lineal clasica. Es aquı donde surge la regresion cuantil.
2.2 Regresion cuantil parametrica unidimensional 11
2.2. Regresion cuantil parametrica unidimensional
2.2.1. Cuantil
Empezando por el principio y considerando la definicion clasica de cuantil, tenemos
que dado un τ ∈ (0, 1) y una variable aleatoria Y , el τ -esimo cuantil es definido como:
Q(τ) = inf{Y : F (Y ) ≥ τ}
donde F es la funcion de distribucion de Y .
Por otro lado, si se tiene Y1, Y2, . . . , Yn, una muestra con observaciones indepen-
dientes, es posible encontrar una estimacion de la funcion de distribucion por medio
de la distribucion empırica de la muestra definida como el cociente entre el numero
de las observaciones inferiores o iguales al valor de interes y el numero total de las
observaciones:
F (Y ) =♯(Yi ≤ Y )
n
De modo analogo, es posible definir una estimacion para los cuantiles, por medio
de la distribucion empırica como:
Q(τ) = inf{Y : F (Y ) ≥ τ}
O equivalentemente:
Q(τ) = arg mınετ∈R
∑Yi≥ετ
τ · (Yi − ετ ) +∑Yi<ετ
(1− τ) · (ετ − Yi)
Y tambien:
Q(τ) = arg mınετ∈R
{∑i
ρτ · |Yi − ετ |
}siendo ρτ (r) = r · (τ − I{r < 0}) con τ ∈ (0, 1) e
I{r < 0} =
{1 si r < 0
0 si r ≥ 0
2.2.2. Regresion cuantil unidimensional
Trasladando este concepto de cuantil a la recta de regresion, obtenemos la regresion
cuantil lineal.
Si suponemos que
Yi = β0,τ + β1,τ ·Xi + εi,τ ∀i ∈ {1, . . . , n}
2.2 Regresion cuantil parametrica unidimensional 12
con τ ∈ (0, 1) y que el valor esperado condicional no es necesariamente cero, pero el
τ -esimo cuantil del error con respecto a la variable regresora es cero (Qτ (εi,τ |X) = 0),
entonces el τ -esimo cuantil de Yi con respecto a X se puede escribir como
Qτ (Yi|X) = β0,τ + β1,τ ·Xi (2.2)
Las estimaciones de β0,τ y β1,τ se encuentran por medio de
βτ = arg mınβτ∈R2
∑Yi≥A
τ · |Yi − β0,τ − β1,τ ·Xi|+∑Yi<A
(1− τ) · |Yi − β0,τ − β1,τ ·Xi|
(2.3)
siendo βτ = (β0,τ , β1,τ ) y A = β0,τ + β1,τ ·Xi.
Para estimar los parametros habra que minimizar la funcion descrita en la ecuacion
2.3. Para ello, existe una vıa de abordar el problema de minimizacion como un problema
de programacion lineal. Esto nos permite obtener la recta de regresion para el valor de
un determinado cuantil. Y por lo tanto, se darıa solucion a la primera de las limitaciones
planteadas al final del capıtulo anterior, para la regresion lineal simple. Ademas, dado
que los cuartiles poseen propiedades de robusted, se logra tambien solucionar la segunda
de las limitaciones que se planteaba con la recta de regresion clasica.
2.2.3. Estudios de simulacion
A continuacion, tratamos los escenarios ya vistos con la regresion lineal simple, con
el modelo de regresion cuantil.
Escenario 1: Lineal Homocedastico.
En este primer ejemplo, caso homocedastico, seguimos el modelo especificado por la
ecuacion 2.1. Y recordamos que los problemas los planteaban los outliers que generaba
el modelo con errores t(2) y la dispersion de la parte superior de la nube de puntos
generada con errores G(1, 2). Ambos se solucionan al aplicar la regresion cuantil a los
datos. En la figura 2.5, se observan la diferencia de comportamiento y mejora del ajuste
obtenidos, con la recta de regresion cuantil sobre las nubes de puntos.
Los ajustes persiguen de forma adecuada a los datos. En el caso de los errores
N(0, 1), la regresion lineal clasica ya tenıa esta disposicion y la regresion cuantil no
la empeora en absoluto. En los otros dos casos, se mejora sustancialmente debido a la
robusted que presenta la regresion cuantil.
CODIGO:
2.2 Regresion cuantil parametrica unidimensional 13
0 2 4 6 8 10
−5
51
5
Errores N(0,1)x
y
Modelo homocedástico
0 2 4 6 8 10
−4
00
20
60
Errores t(2)x
y
Modelo homocedástico
0 2 4 6 8 10
10
20
30
40
Errores G(1,2)x
y
Modelo homocedástico
Figura 2.5: Ajustes en el caso homocedastico.
En esta figura se han representado los ajustes correspondientes a los cuantiles
τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}.
2.2 Regresion cuantil parametrica unidimensional 14
###SIMULACION DE DATOS:
n=200
beta_ho=t(t(c(3,1)))
alpha_ho=t(t(c(4,0)))
x=runif(n,min=0, max=10)
x=cbind(1,x)
#Generacion de los errores:
#""""""""""""""""""""""""""
er1=rnorm(n,mean=0,sd=1)
er2=rt(n,df=2)
er3=rgamma(n,shape=2,scale=1)
#Generacion de la respuesta:
#""""""""""""""""""""""""""
#Modelo homocedastico:
y_ho=x%*%beta_ho
y1_ho=y_ho+(x%*%alpha_ho)*er1
y2_ho=y_ho+(x%*%alpha_ho)*er2
y3_ho=y_ho+(x%*%alpha_ho)*er3
#########################AJUSTES LINEALES(rq)##############
#Modelos homocedasticos:
modrq1_ho<-rq(y1_ho~x[,2],tau=0.5,method="br")
modrq2_ho<-rq(y2_ho~x[,2],tau=0.5,method="br")
modrq3_ho<-rq(y3_ho~x[,2],tau=0.5,method="br")
Escenario 2: Lineal Heterocedastico.
Por otro lado y siguiendo los pasos del capıtulo anterior, comprobamos que ocurre
cuando en el diseno se introduce la heterocedasticidad. Se representan los ajustes en la
figura 2.6.
Con un diseno heterocedastico, se fuerza a que el comportamiento de los datos de la
2.2 Regresion cuantil parametrica unidimensional 15
0 2 4 6 8 10
02
04
06
0
Errores N(0,1)x
y
Modelo heterocedástico
0 2 4 6 8 10
−5
05
01
50
Errores t(2)x
y
Modelo heterocedástico
0 2 4 6 8 10
20
60
10
0
Errores G(1,2)x
y
Modelo heterocedástico
Figura 2.6: Ajustes en el caso heterocedastico.
En esta figura se han representado los ajustes correspondientes a los cuantiles
τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}.
2.2 Regresion cuantil parametrica unidimensional 16
nube de puntos varıe en funcion de la posicion que ocupen en ella. En la figura 2.6 puede
apreciarse como los ajustes mediante regresion cuantil, persiguen de forma adecuada a
los datos a pesar de las diferencias de comportamiento. Las captan, como reflejan sus
representaciones graficas. Ello es debido a la no dependencia de hipotesis fuertes que
posee la regresion cuantil.
CODIGO:
###SIMULACION DE DATOS:
n=200
beta_he=c(4,2)
alpha_he=c(4,1)
x=runif(n,min=0, max=10)
x=cbind(1,x)
#Generacion de los errores:
#""""""""""""""""""""""""""
er1=rnorm(n,mean=0,sd=1)
er2=rt(n,df=2)
er3=rgamma(n,shape=2,scale=1)
#Generacion de la respuesta:
#""""""""""""""""""""""""""
#Modelo heterocedastico:
y_he=x%*%beta_he
y1_he=y_he+(x%*%alpha_he)*er1
y2_he=y_he+(x%*%alpha_he)*er2
y3_he=y_he+(x%*%alpha_he)*er3
#########################AJUSTES LINEALES(rq)##############
#Modelo heterocedastico:
modrq1_he<-rq(y1_he~x[,2],tau=0.5,method="br")
modrq2_he<-rq(y2_he~x[,2],tau=0.5,method="br")
modrq3_he<-rq(y3_he~x[,2],tau=0.5,method="br")
2.2 Regresion cuantil parametrica unidimensional 17
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
Errores N(0,1)
lm rq
beta
0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
02
46
8
Diseño homocedástico Errores t(2)
lm rq
beta
0
02
46
8
46
810
12
Errores G(1,2)
lm rq
beta
0
46
810
12
23
45
67
Errores N(0,1)
lm rq
beta
0
23
45
67
05
10
Diseño heterocedástico Errores t(2)
lm rq
beta
0
05
10
46
810
12
14
Errores G(1,2)
lm rq
beta
0
46
810
12
14
Figura 2.7: Valores de β0 obtenidos en ajustes con lm y rq.
En el caso de la regresion cuantil se ha utilizado la mediana, τ = 0,5.
Una vez aplicados los dos modelos de ajuste a los mismos datos simulados, se rep-
resenta en las figuras 2.7, 2.8 y 2.9 una comparativa de las diferencias obtenidas, tanto
en funcion del tipo de diseno como del tipo de error introducido al generar los datos.
En las representaciones graficas de las figuras 2.7, 2.8 y 2.9 se indica, con lm la
regresion lineal clasica y con rq la regresion cuantil sobre la mediana (τ = 0,5).
En el caso de diseno homocedastico y la estimacion del parametro β0, como puede
observarse en la figura 2.7, los mejores resultados han sido:
en el caso de la regresion clasica, los obtenidos al trabajar con errores N(0, 1).
cuando en la muestra se ha trabajado con los errores t(2), en el caso de la regresion
cuantil.
Los resultados, al trabajar con los errores t(2) y la regresion cuantil, se observan
en contraposicion a lo que ocurre con el modelo de regresion lineal clasica, que con los
mismos errores es donde presenta mayor variabilidad en la estimacion. Este hecho es
2.2 Regresion cuantil parametrica unidimensional 18
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
Errores N(0,1)
lm rq
beta
1
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
0.5
1.0
1.5
Diseño homocedástico Errores t(2)
lm rq
beta
1
0.5
1.0
1.5
0.6
0.8
1.0
1.2
1.4
Errores G(1,2)
lm rq
beta
1
0.6
0.8
1.0
1.2
1.4
1.0
1.5
2.0
2.5
Errores N(0,1)
lm rq
beta
1
1.0
1.5
2.0
2.5
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
Diseño heterocedástico Errores t(2)
lm rq
beta
1
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
12
34
Errores G(1,2)
lm rq
beta
1
12
34
Figura 2.8: Valores de β1 obtenidos en ambos ajustes con lm y rq.
En el caso de la regresion cuantil se ha utilizado la mediana, τ = 0,5.
2.2 Regresion cuantil parametrica unidimensional 19
−1
0−
50
51
0
Errores N(0,1)
lm rq
Err
ore
s d
e p
red
icci
ón
−1
0−
50
51
0
−1
00
−5
00
50
Diseño homocedástico Errores t(2)
lm rq
Err
ore
s d
e p
red
icci
ón
−1
00
−5
00
50
−5
05
10
15
20
25
Errores G(1,2)
lm rq
Err
ore
s d
e p
red
icci
ón
−5
05
10
15
20
25
−3
0−
20
−1
00
10
20
30
Errores N(0,1)
lm rq
Err
ore
s d
e p
red
icci
ón
−3
0−
20
−1
00
10
20
30
−3
00
−2
00
−1
00
01
00
Diseño heterocedástico Errores t(2)
lm rq
Err
ore
s d
e p
red
icci
ón
−3
00
−2
00
−1
00
01
00
−2
00
20
40
60
Errores G(1,2)
lm rq
Err
ore
s d
e p
red
icci
ón
−2
00
20
40
60
Figura 2.9: Errores obtenidos en los ajustes.
Error=valor real−prediccion. En el caso de la regresion cuantil se ha utilizado la
mediana, τ = 0,5.
2.2 Regresion cuantil parametrica unidimensional 20
debido, a que la nube de puntos de errores t(2) es mas densa que las referentes a errores
N(0, 1) y G(1, 2); y que ademas, presenta unos pocos outliers pero muy diferenciados
del conjunto de la nube. Por lo que el modelo mas robusto, la regresion cuantil, realiza
mejores estimaciones del parametro. Este hecho se mantiene en el caso del modelo
heterocedatico. Si bien, las demas estimaciones empeoran al compararlo con el diseno
homocedastico.
A la hora de estimar la pendiente de la recta de regresion, vease la figura 2.8, vuelven
a encontrarse los mejores resultados en el caso de los errores t(2) y diseno homocedastico
con la regresion cuantil. Resaltar, que para los errores G(1, 2), los resultados a la hora
de estimar la pendiente, mejoran de modo considerable los obtenidos al estimar β0,
veanse las figuras 2.7 y2.8.
Cuando valoramos los errores cometidos en las predicciones (valor real-prediccion)
en los escenarios en estudio, vease 2.9, el hecho se repite de forma obvia. Los mejores
resultados se obtuvieron, para el diseno homocedastico, con los errores N(0, 1), tanto
para la regresion cuantil como para la regresion clasica. En el escenario heterocedastico:
en el caso de los errores t(2), se producen infra-ajustes debidos, sobre todo, a los
outliers de la nube de puntos.
trabajando con los errores G(1, 2), lo que se obtienen son sobreajustes provocados
por la dispersion de la nube de puntos. Resaltar, la mejorıa de los resultados
obtenidos al considerar el ajuste en su conjunto y no coeficiente a coeficiente, en
el caso de los errores G(1, 2).
A modo de resumen grafico, en las figuras 2.10 y 2.11, aparecen representadas la
recta de regresion clasica (con lınea continua) y las rectas de regresion cuantil (en lıneas
discontinuas) para los cuantiles τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}. Observando la regresion
clasica en comparacion con la regresion mediana (τ = 0,5), se aprecia el mejor ajuste
llevado a cabo por esta ultima, debido entre otras causas a la robusted de la regresion
cuantil.
2.2.4. Aplicacion a datos reales.
A continuacion, tratamos los datos de la poblacion escolar gallega con regresion
cuantil. Ası, entre otras consideraciones, podremos valorar los posibles diferentes com-
portamientos de los valores extremos de la poblacion mediante las curvas de referencia
para el fvc a traves de la talla. Esta era una de las limitaciones que planteaba la regre-
sion clasica, que se ve resuelta con la utilizacion de la regresion cuantil. Los resultados
graficos pueden observarse en la figura 2.12. En ella, se aprecia una menor influencia
2.2 Regresion cuantil parametrica unidimensional 21
0 2 4 6 8 10
−5
05
10
15
20
Errores N(0,1)x
y
Modelo homocedástico
0 2 4 6 8 10
−8
0−
40
02
06
0
Errores t(2)x
y
Modelo homocedástico
0 2 4 6 8 10
10
20
30
40
Errores G(1,2)x
y
Modelo homocedástico
Figura 2.10: Austes clasico y cuantil.
En el caso de la regresion cuantil se han utilizado los cuantiles
τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}. La regresion clasica aparece representada con lınea
discontinua.
2.2 Regresion cuantil parametrica unidimensional 22
0 2 4 6 8 10
−1
00
10
20
30
40
50
Errores N(0,1)x
y
Modelo heterocedástico
0 2 4 6 8 10
−2
00
−1
00
01
00
Errores t(2)x
y
Modelo heterocedástico
0 2 4 6 8 10
20
40
60
80
10
0
Errores G(1,2)x
y
Modelo heterocedástico
Figura 2.11: Austes clasico y cuantil.
En el caso de la regresion cuantil se han utilizado los cuantiles
τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}. La regresion clasica aparece representada con lınea
discontinua.
2.2 Regresion cuantil parametrica unidimensional 23
120 160
12
34
56
78
TALLA
fvc
NIÑOS
110 130 150 170
12
34
56
TALLA
fvc
NIÑAS
Figura 2.12: Ajuste cuantil lineal, aplicacion a datos reales.
Representacion diferenciada de la poblacion de ninos y ninas. En el caso de la
regresion cuantil se han utilizado los cuantiles τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}
de las colas de la nube de puntos sobre la regresion lineal mediana, τ = 0,5. Ası co-
mo tambien, un diferente ajuste de los valores extremos de la poblacion. En ellos la
pendiente de las rectas de regresion se hace mayor en el caso de los valores superiores
τ = 0,9 y 0,7 y se hace menor para valores inferiores τ = 0,1 y 0,3. De todos modos,
aun mejorando el ajuste clasico, se observa que la regresion cuantil lineal no puede
captar las tendencias de la nube de puntos. Por ello se hace preciso tratar de ampliar
el concepto de regresion cuantil a la utilizacion de suavizadores, al igual que ocurre en
el desarrollo de la teorıa clasica de la regresion con la transicion de los modelos lineales
generalizados (GLM) a los modelos aditivos generalizados (GAM).
Desde otra perspectiva, hasta ahora hemos tratado de ajustar una variable respuesta
en funcion de una sola covariable. Hecho que se hace insuficiente en el caso de aplicacion
a datos reales que nos ocupa. Es evidente que individuos con igual talla pero distinto,
por ejemplo peso o ındice de masa corporal (imc), no tienen por que poseer igual
capacidad pulmonar. Por lo que la primera ampliacion de la regresion cuantil lineal, se
hace hacia el caso multidimensional en la siguiente seccion.
2.3 Regresion cuantil parametrica multidimensional 24
2.3. Regresion cuantil parametrica multidimensional
Hasta ahora, hemos trabajado con regresion cuantil lineal univariante. Que si bien
es adecuada en muy diversas situaciones cuando solo disponemos de dos variables, este
hecho no ocurre en la mayor parte de los casos aplicados. Puesto que en ellos, surge
la necesidad de valorar diversas covariables en la respuesta. Llegados a este punto,
se amplıa la idea expuesta en la regresion cuantil unidimensional y desarrollamos, a
continuacion, un modelo de regresion cuantil multidimensional.
Del mismo modo que ocurre en el caso de la regresion lineal general, para obtener un
modelo de regresion cuantil multidimensional, basta con considerar una combinacion
lineal de las variables explicativas.
El modelo de regresion cuantil multiple, se puede escribir como
Y = β0,τ + β1,τ ·X1 + . . .+ βp−1,τ ·Xp−1 + ετ ∀i ∈ {1, . . . , n}
siendo Y la variable respuesta;X1, . . . , Xp−1 las variables explicativas; β0,τ , β1,τ , . . . , βp−1,τ
los coeficientes del modelo; ετ el error y con τ ∈ (0, 1) se indica el cuantil. Se siguen
manteniendo las suposiciones relativas al error y ası definido, estamos ante un modelo
de p parametros.
Dada una muestra, el modelo quedarıa expresado del modo siguiente:
Yi = β0,τ + β1,τ ·Xi,1 + . . .+ βp−1,τ ·Xi,p−1 + εi,τ ∀i ∈ {1, . . . , n}
con τ ∈ (0, 1) y con las hipotesis de que el valor esperado condicional no es necesaria-
mente cero, pero el τ -esimo cuantil del error con respecto a la variable regresora sı es
cero (Qτ (εi,τ |X) = 0). Entonces, el τ -esimo cuantil de Yi con respecto a X se puede
escribir como:
Qτ (Yi|X) = β0,τ + β1,τ ·Xi,1 + . . .+ βp−1,τ ·Xi,p−1
Considerando esta definicion de cuantil, las estimaciones de los coeficientes β0,τ , β1,τ , . . . , βp−1,τ
se encuentran mediante la resolucion del problema de minimizacion descrito en la
ecuacion siguiente:
βτ = arg mınβτ∈R2
∑Yi≥Qτ (Yi|X)
τ · |Yi − β0,τ − β1,τ ·Xi,1 − . . .− βp−1,τ ·Xi,p−1|
+∑
Yi<Qτ (Yi|x)
(1− τ) · |Yi − β0,τ − β1,τ ·Xi,1 − . . .− βp−1,τ ·Xi,p−1|
siendo βτ = (β0,τ , β1,τ , . . . , βp−1,τ )
2.3 Regresion cuantil parametrica multidimensional 25
−6
0−
40
−2
00
20
40
60
Errores N(0,1)
lm rq
Err
ore
s d
e p
red
icci
ón
−6
0−
40
−2
00
20
40
60
−4
00
−3
00
−2
00
−1
00
01
00
20
0
Diseño multivariante Errores t(2)
lm rq
Err
ore
s d
e p
red
icci
ón
−4
00
−3
00
−2
00
−1
00
01
00
20
0
05
01
00
Errores G(1,2)
lm rq
Err
ore
s d
e p
red
icci
ón
05
01
00
Figura 2.13: Ajuste multidimensional.
En el caso de la regresion cuantil se ha utilizado la mediana, τ = 0,5.
2.3.1. Estudios de simulacion
Realizamos, a continuacion, una aplicacion de la regresion cuantil multidimensional
en un escenario simulado con distintos tipos de error. Se trabaja con una muestra
aleatoria (X1, Y1), ..., (Xn, Yn), simulada siguiendo el diseno especificado por la ecuacion
2.1. Estamos ante un caso multidimensional, con lo que Xi hace referencia al vector de
covariables, de dimension p.
Los parametros considerados han sido: p = 4, n = 200, βt = (5, 8,−5, 2,−2) y
αt = (1, 0, 2, 0, 1). De igual modo que en simulaciones anteriores, se han utilizado tres
tipos distintos de error en la generacion de la variable respuesta:
ε ∼ N(0, 1)
ε ∼ t(2)
ε ∼ G(1, 2)
En la figura 2.13, pueden observarse los errores de prediccion que se obtienen en los
ajustes de los datos, tanto con la regresion clasica como con la regresion cuantil.
2.3 Regresion cuantil parametrica multidimensional 26
Destacar que el hecho de trabajar con un modelo mas complejo (modelo multidi-
mensional) hace que la verificacion de hipotesis cobre mas fuerza. En los resultados
de la figura 2.13, los menores errores de prediccion se dieron al trabajar con errores
N(0, 1) en la generacion de los datos. Al igual que ocurrıa en el escenario univariante
con errores t(2), se infraestima en unos pocos valores y se observa una sobreestimacion
con G(1, 2).
CODIGO:
###SIMULACION DE DATOS:
n_m=500
beta_m=c(5,8,-5,2,-2)
alpha_m=c(1,0,2,0,1)
x=runif(n,min=0, max=10)
x=cbind(1,x)
#Generacion de los errores:
#""""""""""""""""""""""""""
er1=rnorm(n,mean=0,sd=1)
er2=rt(n,df=2)
er3=rgamma(n,shape=2,scale=1)
#Generacion de la respuesta:
#""""""""""""""""""""""""""
#Modelo multivariante:
x_m=matrix(nrow=n,ncol=5)
x_m[,1]=1
for (i in 2:5){
x_m[,i]=runif(n,min=0,max=10)
}
y_m=x_m%*%beta_m
y1_m=y_m+(x_m%*%alpha_m)*er1
y2_m=y_m+(x_m%*%alpha_m)*er2
y3_m=y_m+(x_m%*%alpha_m)*er3
#########################AJUSTES LINEALES(lm y rq)#########
#Modelo multivariante:
2.3 Regresion cuantil parametrica multidimensional 27
modl1_m<-lm(y1_m~x_m[,2:5])
modrq1_m<-rq(y1_m~x_m[,2:5],tau=0.5,method="br")
modl2_m<-lm(y2_m~x_m[,2:5])
modrq2_m<-rq(y2_m~x_m[,2:5],tau=0.5,method="br")
modl3_m<-lm(y3_m~x_m[,2:5])
modrq3_m<-rq(y3_m~x_m[,2:5],tau=0.5,method="br")
Regresion cuantil no parametrica
3.1. Regresion cuantil suavizada
Al igual que ocurre con la regresion lineal, en ocasiones es necesaria una ampliacion
de la misma, para poder llegar a la diversidad de formas que proporciona una muestra
en particular.
Por lo que un modelo de regresion cuantil suavizada, puede expresarse como
Yi = fτ (Xi) + εi,τ ∀i ∈ {1, . . . , n}
con τ ∈ (0, 1), fτ una funcion arbitraria suave y con las hipotesis de que el valor
esperado condicional no es necesariamente cero, pero el τ -esimo cuantil del error con
respecto a la variable regresora sı es cero (Qτ (εi,τ |X) = 0).
Donde para obtener la regresion parametrica bastarıa con considerar:
fτ (Xi) = β0,τ + β1,τ ·Xi
En el caso no parametrico la funcion fτ que estima a fτ se calcula como
fτ (X) =
n∑i=1
ωλ,τ (X,Xi) · Yi
donde λ es el parametro de suavizado y ωλ,τ es la funcion de pesos (tipo nucleo, splines,
etc.).
3.2. Estudios de simulacion
Como se ha puesto de manifiesto en los ejemplos anteriores, se necesita la utilizacion
de tecnicas de suavizacion para poder captar los comportamientos de los datos y por
lo tanto, los efectos de una variables sobre otras.
3.2 Estudios de simulacion 29
0 2 4 6 8 10
−5
05
10
15
20
Errores N(0,1)x
y
0 2 4 6 8 10
−5
00
50
10
0
Errores t(2)x
y
Modelo homocedástico
0 2 4 6 8 101
02
03
04
0
Errores G(1,2)x
y
Figura 3.1: Ajustes mediante regresion: clasica, cuantil lineal y cuantil suavizada.
En el caso de la regresion cuantil se han utilizado los cuantiles
τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}. La regresion clasica aparece representada con lınea azul.
3.2.1. Escenario 1: Lineal Homocedastico.
Seguimos utilizando los datos simulados mediante el diseno homocedastico definido
por la ecuacion 2.1. Sobre la nube de puntos representamos la regresion lineal clasica
(color azul), la regresion cuantil lineal (color verde) y finalmente la regresion cuantil
suavizada que nos ocupa (color marron). Representamos los resultados en la figura 3.1.
A pesar de que, como se observa en la figura 3.1, la suavizacion mejora el ajuste a
la nube de puntos; en este caso no se ve una necesidad de complicar el modelo, puesto
que la tendencai clara ya se obtenıa con la regresion cuantil lineal. Sı destacar que, en
todos los casos, la suavizacion con respecto a la mediana envuelve a ambas rectas de
regresion lineal, la regresion clasica y la regresion mediana (τ = 0,5).
3.2.2. Escenario 2: Lineal Heterocedastico.
En la figura 3.2, pueden observarse los resultados obtenidos mediante un diseno het-
erocedastico siguiendo la ecuacion 2.1. Se trabajara, como viene siendo habitual, con los
tres tipos de error en la generacion de los datos N(0, 1), t(2) y G(1, 2). Representamos
3.2 Estudios de simulacion 30
0 2 4 6 8 10
−1
00
10
20
30
40
50
Errores N(0,1)x
y
0 2 4 6 8 10
−1
50
−1
00
−5
00
50
10
01
50
20
0
Errores t(2)x
y
Modelo heterocedástico
0 2 4 6 8 102
04
06
08
0
Errores G(1,2)x
y
Figura 3.2: Ajustes mediante regresion: clasica, cuantil lineal y cuantil suavizada.
En el caso de la regresion cuantil se han utilizado los cuantiles
τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}. La regresion clasica aparece representada con lınea azul.
sobre la nube de puntos la regresion lineal, la regresion cuantil lineal y finalmente la
regresion cuantil suavizada que nos ocupa.
Del mismo modo que ocurre en el escenario 1, la suavizacion en este tipo de modelos
se considera prescindible. Las tendencias de la nube de puntos quedaron suficientemente
bien definidas con el ajuste cuantil lineal. Tambien ocurre como en el caso anterior, la
suavizacion mediana recoge en parte el comportamiento de la regresion clasica y en
otros puntos el de la regresion cuantil lineal con τ = 0,5.
3.2.3. Escenario 3: No Lineal (seno).
Nos ocupamos ahora de un escenario distinto a los anteriores, se trata de un esce-
nario no lineal. Para su definicion, hemos modificado la ecuacion 2.1 para poder integrar
la no linealidad en el modelo 3.1. Se ha considerado un modelo aditivo de localizacion
y escala con terminos no lineales, segun la ecuacion 3.1
Yi = β0 + f1(Zi,1) + ·+ fq(Zi,q) + [α0 + g1(Zi,1) + ·+ fq(Zi,q)] ∗ εi (3.1)
3.2 Estudios de simulacion 31
donde εi iid H. En este modelo, la localizacion y la escala de la respuesta dependen de
modo no lineal de las covariables zi,1, ·, zi,q. Eligiendo f y g como funciones lineales se
tendrıa el modelo lineal de la ecuacion 2.1. Si alguna de las dos funciones f o g es nula,
sus covariables asociadas no tendran influencia en la respuesta.
El modelo de regresion cuantil resultante posee un termino no lineal en su estructura,
y vendra dado por la ecuacion 3.2.
QYi(τ |zi) = β0 + f1(zi,1) + ·+ fq(zi,q) +H−1(τ)[α0 + g1(zi,1) + ·|+ fq(zi,q)] (3.2)
Siguiendo con el modelo aditivo descrito por la ecuacion 3.1, en este ejemplo se
consideran los siguientes parametros: q = 1, β0 = 2, α0 = 0,5, f1(zi,1) = 3 sin(23zi,1) y
g1(zi,1) = 1,5(zi,1 − 1,5zi,1)2.
Del mismo modo a como se vienen desarrollando los escenarios anteriores, tambien
en este caso se han utilizado tres tipos distintos de error en la generacion de la variable
respuesta:
ε ∼ N(0, 1)
ε ∼ t(2)
ε ∼ Gamma(1, 2)
En la figura 3.3 se observan las curvas de regresion cuantil suavizada, obtenidas con
cada uno de los errores mencionados.
Se observa claramente, en la figura 3.3, que la suavizacion se hace imprescindible.
Nunca una recta podrıa captar las tendencias de esta nube de puntos. Y la necesidad
de las curvas de referencia distintas para cada cuantil, aquı se hace patente.
CODIGO:
###SIMULACION DE DATOS:
n=400
q=1
beta_0=2
alpha_0_sin=0.5
f1_sin=function(x){y=3*sin((2*x)/3);return(y)}
g1_sin=function(x){y=1.5*(x-1.5)^2;return(y)}
z=runif(n,min=0, max=3)
#Generacion de los errores:
3.2 Estudios de simulacion 32
0.0 1.0 2.0 3.0
−5
05
10
Errores N(0,1)x
y
Modelo no paramétrico
0.0 1.0 2.0 3.0
−2
02
06
01
00
Errores t(2)x
y
utilizando la función seno
0.0 1.0 2.0 3.0
51
01
52
02
5
Errores G(1,2)x
y
Figura 3.3: Ajuste mediante regresion cuantil suavizada.
En el caso de la regresion cuantil se han utilizado los cuantiles
τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}.
3.2 Estudios de simulacion 33
#""""""""""""""""""""""""""
er1=rnorm(n,mean=0,sd=1)
er2=rt(n,df=2)
er3=rgamma(n,shape=2,scale=1)
#Generacion de la respuesta:
#""""""""""""""""""""""""""
#Modelo seno:
y_sin=beta_0+f1_sin(z)
y1_sin=y_sin+(alpha_0_sin+g1_sin(z))*er1
y2_sin=y_sin+(alpha_0_sin+g1_sin(z))*er2
y3_sin=y_sin+(alpha_0_sin+g1_sin(z))*er3
#########################AJUSTES NO LINEALES(rq)#############
#Modelos sin:
modrqss1_sin<-rqss(y1_sin~qss(z,constraint= "N"),tau=0.5)
modrqss2_sin<-rqss(y2_sin~qss(z,constraint= "N"),tau=0.5)
modrqss3_sin<-rqss(y3_sin~qss(z,constraint= "N"),tau=0.5)
3.2.4. Escenario 4: No Lineal (logaritmo).
Continuando con el modelo aditivo descrito por la ecuacion 3.1, en este ejemplo se
consideran los parametros: q = 1, β0 = 2, α0 = 0., f1(zi,1) = 1,5 log(zi,1) y g1(zi,1) =
0,5zi,1. Se han tenido en cuenta, tambien en este caso, los mismos tipos de error en la
generacion de la variable respuesta:
ε ∼ N(0, 1)
ε ∼ t(2)
ε ∼ Gamma(1, 2)
En la figura 3.4 se pueden observar las curvas de regresion cuantil suavizada obtenidas
con cada uno de estos errores.
En la figura 3.4, se observa que la suavizacion vuelve a hacerse imprescindible.
3.2 Estudios de simulacion 34
0.0 1.0 2.0 3.0
−5
05
Errores N(0,1)x
y
Modelo no paramétrico
0.0 1.0 2.0 3.0
−2
00
20
40
60
Errores t(2)x
y
utilizando la función logaritmo
0.0 1.0 2.0 3.0
−5
05
10
15
Errores G(1,2)x
y
Figura 3.4: Ajuste mediante regresion cuantil suavizada.
En el caso de la regresion cuantil se han utilizado los cuantiles
τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}.
3.2 Estudios de simulacion 35
−6
−5
−4
−3
−2
−1
0
Errores N(0,1)
sin log
Err
ore
s d
e p
red
icci
ón
−6
−5
−4
−3
−2
−1
0
−5
−4
−3
−2
−1
01
Modelo no paramétrico Errores t(2)
sin log
Err
ore
s d
e p
red
icci
ón
−5
−4
−3
−2
−1
01
−7
−6
−5
−4
−3
−2
−1
Errores G(1,2)
sin log
Err
ore
s d
e p
red
icci
ón
−7
−6
−5
−4
−3
−2
−1
Figura 3.5: Errores de los ajustes realizados mediante regresion cuantil suavizada.
Error=valor real−prediccion. En el caso de la regresion cuantil se ha utilizado la
mediana, τ = 0,5.
En la figura 3.5, se observan los valores de los errores que se cometen, al realizar
una prediccion con los dos escenarios anteriores, correspondientes a la funcion seno y
a la funcion logaritmo.
Los errores de prediccion se han calculado como la diferencia entre el valor real y
la prediccion del modelo. Este hecho permite valorar los resultados de la figura 3.5 en
los siguientes terminos:
Se observa una tendencia a la sobreestimacion en el seno con los errores N(0, 1)
y G(1, 2).
Cuando nos ocupamos de datos generados con errores t(2), se infraestima en
ambos escenarios, pero mas pronunciado a la hora de trabajar con la funcion
logaritmo.
CODIGO:
###SIMULACION DE DATOS:
3.3 Aplicacion a datos reales 36
n=400
q=1
beta_0=2
alpha_0_log=0.7
f1_log=function(x){y=1.5*log(x);return(y)}
g1_log=function(x){y=0.5*x;return(y)}
z=runif(n,min=0, max=3)
#Generacion de los errores:
#""""""""""""""""""""""""""
er1=rnorm(n,mean=0,sd=1)
er2=rt(n,df=2)
er3=rgamma(n,shape=2,scale=1)
#Generacion de la respuesta:
#""""""""""""""""""""""""""
#Modelo logaritmo:
y_log=beta_0+f1_log(z)
y1_log=y_log+(alpha_0_log+g1_log(z))*er1
y2_log=y_log+(alpha_0_log+g1_log(z))*er2
y3_log=y_log+(alpha_0_log+g1_log(z))*er3
#########################AJUSTES NO LINEALES(rq)#############
#Modelos log:
modrqss1_log<-rqss(y1_log~qss(z,constraint= "N"),tau=0.5)
modrqss2_log<-rqss(y2_log~qss(z,constraint= "N"),tau=0.5)
modrqss3_log<-rqss(y3_log~qss(z,constraint= "N"),tau=0.5)
3.3. Aplicacion a datos reales
Retomando el ejemplo para valores de referencia espirometrica en la poblacion es-
colar de Galicia. Se observa en la figura 3.6 como, la utilizacion de la regresion cuantil
3.3 Aplicacion a datos reales 37
120 160
12
34
56
78
TALLA
fvc
NIÑOS
110 130 150 170
12
34
56
TALLA
fvc
NIÑAS
Figura 3.6: Ajuste cuantil suavizado y ajustes parametricos, aplicacion a datos reales.
Representacion diferenciada de las poblacion de ninos y ninas. En el caso de la
regresion cuantil se ha utilizado la mediana, τ = 0,5.
suavizada, sigue dando respuesta a los problemas del ajuste de los valores extremos de
la nube de puntos.
Lo pertinente ahora sera tratar de mejorar la resolucion de este ajuste suavizado y
trabajar con los diferentes paquetes en [59].
Software utilizado para regresion cuantil
4.1. Paquete quantreg
Este paquete enfoca la regresion cuantil desde su resolucion como un problema de
programacion lineal. Dicho problema primal se transforma en su dual, para lograr ası
una disminucion del numero de variables. El algoritmo utilizado para su resolucion se
encuentra descrito en [40] e implementado en el paquete quantreg [41]. Dentro de dicho
paquete se han tratado, en los capıtulos anteriores, diferentes funciones para realizar la
regresion cuantil, bien sea regresion cuantil lineal o regresion cuantil suavizada:
se utiliza la funcion rq; [51], [42], [43], [27], [50] y [49]; para realizar una regre-
sion lineal. Esta funcion calcula una estimacion de la τ−esima funcion cuantil
condicional de la respuesta, dadas las covariables, segun se especifiquen en el ar-
gumento formula. Entre las distintas opciones a seleccionar, esta la eleccion del
metodo de computacion, argumento method ; en todo el desarrollo posterior se ha
trabajado con el metodo br. Este metodo, es la version modificada del algoritmo
de Barrodale and Roberts para regresion ℓ1, que esta descrito en KoenkerdOrey
(1987, 1994).
para tratar la regresion cuantil suavizada, la funcion utilizada es rqss; [49], [48],
[46] y [47]. La idea basica es condicion de la seleccion lambda y construir intervalos
de credibilidad cuasi-bayesiano relativos a la aproximacion normal de la parte a
posteriori, como calcula utilizando la estimacion del nucleo de Powell de regresion
cuantil. Con esta funcion la suavizacion de las covariables se indica madiante qss;
en el argumento constraint, se ha seleccionado no proporcionar informacion
acerca de la monotonıa del ajuste, indicado por N, debido a que hay escenarios
que no son monotonos.
4.1 Paquete quantreg 39
4.1.1. Marco teorico
El enfoque de la regresion cuantil, [44], se hace desde la interpretacion de como los
cuantiles ordinarios, y consecuentemente la regresion cuantil, se pueden definir como
soluciones de una simple minimizacion de los pesos de la suma de los residuos absolutos.
Los cuantiles, y sus identicos duales, los rangos, parecen unidos inseparablemente
a las operaciones de ordenacion que se utilizan para definirlos. La idea, [44], es definir
los cuantiles de modo alternativo a traves de un problema de optimizacion. Ası como
podemos definir la media como la solucion de un problema de minimizacion de la
suma de cuadrados, podremos definir la mediana como la solucion de un problema de
minimizacion de la suma de residuos absolutos. Con respecto a los demas cuantiles;
si la simetrıa de la funcion valor absoluto es simetrica cae sobre la mediana, podemos
simplemente utilizar el valor absoluto para definir los demas cuantiles, como se indica
en la ecuacion
mınξ∈R
ρτ (yi − ξ) (4.1)
donde la funcion ρτ () lleva inherente el valor absoluto y la formula anterior se de-
nomina pinball logic, vease [44]. Para comprobar como este problema tiene por solucion
los cuantiles, solo es necesario calcular las derivadas direccionales, por la izquierda y
por la derecha, de la funcion objetivo con respecto a ξ. (Este desarrollo de la ecuacion
[? ] puede seguirse en el capıtulo 2 de este trabajo.)
4.1.2. Estudios de simulacion
En todos los ejemplos de los capıtulos anteriores, a la hora de trabajar con la
regresion cuantil, se ha utilizado este paquete. Por lo que las representaciones graficas
de los escenarios y los ajustes obtenidos, pueden observarse en las figuras ya vistas. Los
cuantiles utilizados han sido τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}.
Ajustes lineales
Dentro del paquete quantreg, el trabajo con la regresion cuantil lineal se hace a
traves de la funcion rq. En ella, se han seleccionado los siguientes parametros para
realizar los ajustes:
En la formula se han utilizado tanto ejemplos unidimensionales como multidi-
mensionales, en funcion de los escenarios.
A la hora de seleccionar el cuantil, τ , se han considerado los valores 0,1, 0,3, 0,5, 0,7
y 0,9. Habiendo estudiado tambien, el comportamiento de los errores de los ajustes
con τ = 0,5, en comparacion con los errores de la regresion lineal clasica.
4.1 Paquete quantreg 40
−1
0−
50
51
0
Errores N(0,1)
lm rq
Err
ore
s d
e p
red
icci
ón
−1
0−
50
51
0
−1
00
−5
00
50
Diseño homocedástico Errores t(2)
lm rq
Err
ore
s d
e p
red
icci
ón
−1
00
−5
00
50
−5
05
10
15
20
25
Errores G(1,2)
lm rq
Err
ore
s d
e p
red
icci
ón
−5
05
10
15
20
25
−3
0−
20
−1
00
10
20
30
Errores N(0,1)
lm rq
Err
ore
s d
e p
red
icci
ón
−3
0−
20
−1
00
10
20
30
−3
00
−2
00
−1
00
01
00
Diseño heterocedástico Errores t(2)
lm rq
Err
ore
s d
e p
red
icci
ón
−3
00
−2
00
−1
00
01
00
−2
00
20
40
60
Errores G(1,2)
lm rq
Err
ore
s d
e p
red
icci
ón
−2
00
20
40
60
Figura 4.1: Errores obtenidos en los diferentes ajustes lineales unidimensionales.
Error=valor real−prediccion. En el caso de la regresion cuantil se ha utilizado la
mediana, τ = 0,5.
Hemos seleccionado el metodo br, esto indica que el metodo algorıtmico utilizado
para calcular el ajuste es la version modificada del algoritmo de Roberts y Barro-
dale de regresion con norma L1. Este algoritmo es muy eficaz para los problemas
de hasta a varios miles de observaciones; por lo que es suficiente para utilizar tanto
en los escenarios simulados como en la base de datos reales con la que tratamos.
Como resumen de todo lo tratado en los capıtulos anteriores, podemos observar en
la figura 4.1, los mejores resultados obtenidos con la regresion cuantil en comparacion
con la regresion clasica, en el caso de G(1, 2).
A la hora de tratar la regresion cuantil multidimensional, el hecho anterior se
mantiene si tenemos errores N(0, 1) o G(1, 2), como podemos observar en la figura
4.2
4.1.3. Aplicacion a datos reales
Se ha venido trabajando, con la base de datos referente a los valores espirometricos
de la poblacion escolar gallega. En ella, se han realizado los ajustes de modo indepen-
4.1 Paquete quantreg 41
−6
0−
40
−2
00
20
40
60
Errores N(0,1)
lm rq
Err
ore
s d
e p
red
icci
ón
−6
0−
40
−2
00
20
40
60
−4
00
−3
00
−2
00
−1
00
01
00
20
0Diseño multivariante
Errores t(2)
lm rq
Err
ore
s d
e p
red
icci
ón
−4
00
−3
00
−2
00
−1
00
01
00
20
0
05
01
00
Errores G(1,2)
lm rq
Err
ore
s d
e p
red
icci
ón
05
01
00
Figura 4.2: Errores obtenidos en los diferentes ajustes lineales multidimensionales.
Error=valor real−prediccion. En el caso de la regresion cuantil se ha utilizado la
mediana, τ = 0,5.
4.1 Paquete quantreg 42
110 130 150 170
12
34
56
TALLA
fvc
NIÑOS
110 130 150 170
12
34
56
TALLA
fvc
NIÑAS
Figura 4.3: Ajustes mediante regresion cuantil.
(No parametrica en color marron y parametrica en color verde.)
diente para varones y mujeres. Se evidencia en la figura 4.3 la necesidad de utilizar
modelos distintos en ambos casos; ası como la necesidad de introducir la suavizacion
en los modelos.
Puede observarse, en la figura 4.3,el ajuste tras haber introducido la suavizacion en
los modelos.
CODIGO:
#########################AJUSTES NO LINEALES(rqss)
taus <- c(.1,.3,.5,.7,.9)
for (j in 1:5){
modelo<-rqss(datos$fvc~qss(datos$talla,constraint= "N"),tau=taus[j])}
4.2 Paquete gamlss 43
4.2. Paquete gamlss
Este paquete realiza la regresion cuantil, basandose en los modelos aditivos gener-
alizados para localizacion, escala y forma (GAMLSS). Son un tipo general de modelos
para variable respuesta univariante y asumen observaciones independientes para la mis-
ma.
Los GAMLSS son modelos de regresion semiparametricos. Son parametricos, dado
que requieren un supuesto de distribucion para los parametros de la variable respuesta,
y semi en el sentido de que la modelizacion de los parametros de la distribucion, en
funcion de variables explicativas, puede implicar el uso de las funciones de suavizado
no parametricas.
Fueron introducidos por [71], [39] y [66] como una forma de superar algunas de
las limitaciones asociadas con los Modelos Lineales Generalizados (GLM) y Modelos
Aditivos Generalizados (GAM), [56] y [30], respectivamente.
En los GAMLSS, la distribucion de la variable respuesta en el modelo puede pertenecer
a muy diversas familias, desde distribuciones continuas con alto sesgo y/o curtosis hasta
distribuciones discretas, incluso con heterocedasticidad en los datos. Para ello, la parte
sistematica del modelo es ampliada mediante parametrizaciones lineales y/o funciones
suavizadoras de las covariables y con los terminos de efectos aleatorios. Todo ello, para
permitir trabajar no solo con la media, sino tambien con otros parametros de la dis-
tribucion de la respuesta. En el caso de la regresion cuantil que nos ocupa, en vez de
trabajar sobre la media lo haremos sobre los cuantiles de la distribucion de la variable
respuesta.
Se utiliza la estimacion de la maxima verosimilitud penalizada para el ajuste de los
modelos no parametricos y el algoritmo de Newton-Rapson/Fisher scoring para maxi-
mizar la maxima verosimilitud penalizada. Los terminos aditivos del modelo se ajustan
mediante el algoritmo backfitting. El algoritmo de ajuste es lo suficientemente potente
para permitir la rapida exploracion de los conjuntos de datos muy grandes y complejos.
Dentro bases de datos de gran tamano, GAMLSS admite flexibilidad en la modelizacion
estadıstica, lo que permite supuestos mas realistas acerca de los datos reales. La desven-
taja del gamlss se pone en evidencia a la hora de la seleccion del modelo. La utilizacion
del criterio de informacion de Akaike (AIC) parece demasiado generosa, dando lugar a
modelos excesivamente complicados. Mientras que la comparacion realizada con el cri-
terio Schwatz Bayesian (SBC) parece ser demasiado restrictiva, dando como resultado
la seleccion de modelos muy simplificados.
4.2 Paquete gamlss 44
4.2.1. Modelos GAMLSS
El modelo GAMLSS asume yi observaciones independientes para i = 1, 2, . . . , n con
funcion de densidad f(yi|θi) condicionada por θi = (θ1,i, θ2,i, θi3,, θ4,i) = (µi, σi, νi, τi),
un vector de cuatro parametros de distribucion, cada uno de los cuales puede ser una
funcion a las variables explicativas. Nos referiremos a (µi, σi, νi, τi) como los parametros
de distribucion. Los dos primeros parametros de la distribucion,µi y σi, son caracteri-
zados como parametros de localizacion y escala; mientras que el resto de parametros,
νi y τi si los hay, se caracterizan como parametros de forma (por ejemplo, parametros
de asimetrıa y curtosis). Aunque el modelo puede ser aplicado de modo mas general
a los parametros de cualquier distribucion de la poblacion, y puede ser generalizado a
mas de cuatro parametros de distribucion. Originariamente [66], se definen los modelos
GAMLSS como:
sea yt = (y1, . . . , yn) el vector, de longitud n, correspondiente a la variable re-
spuesta .
sean ηk = gk(θk) con k = 1, . . . , 4 funciones link monotonas de los parametros de
las covariables, que vienen dadas por la formula:
ηk = gk(θk) = Xkβk +
Jk∑j=1
Zjkγjk (4.2)
donde βtk = (β1k, . . . , βJ ′
kk) es un vector de parametros de longitud J ′
k; Xk es una
matriz de diseno fijo conocida de dimension nxJ ′k; Zjk es una matriz de dimen-
sion nxqjk y diseno fijo conocida; y γjk en una variable aleatoria qjk−dimensional
con distribucion Nqjk(0, G−1jk ), donde G−1
jk es la inversa de una matriz simetrica
qjkxqjk−dimensional Gjk = gjk(λjk) que depende del vector de hiperparametros
λjk. Si Gjk es singular entonces λjk sigue una distribucion de densidad propor-
cional a exp(−12γ
tjkGjkγjk).
El modelo 4.22, permite al usuario modelar la distribucion de cada parametro, como
una funcion lineal de las covariables y/o como funciones lineales de variables estocas-
ticas (efectos aleatorios). Como consecuencia de este hecho, existen varios submodelos
importantes de GAMLSS:
La formulacion semiparametrica aditiva de los GAMLSS viene dada por la ecuacion
4.23.
ηk = gk(θk) = Xkβk +
Jk∑j=1
hjk(xjk) (4.3)
4.2 Paquete gamlss 45
donde la funcion hjk es funcion desconocida de la covariable Xjk. La ecuacion
4.22 y la 4.23 se relacionan en los siguientes terminos: Zjk = In con In la ma-
triz identidad de dimension n y γjk = hjk = hjk(xjk) para todas las posibles
combinaciones de j y k dadas en la ecuacion 4.22.
En el caso de la formulacion parametrica lineal de los GAMLSS, se resuelve como
indica la ecuacion 4.4:
ηk = g1(θk) = Xkβk (4.4)
El modelo definido por la ecuacion 4.23, puede ampliarse a una formulacion semi-
parametrica aditiva no lineal, para ello la ecuacion 4.23 se modifica para obtener
la ecuacion del nuevo modelo en la ecuacion 4.5:
ηk = gk(θk) = hk(Xkβk) +
Jk∑j=1
hjk(xjk) (4.5)
donde hk con k = 1, . . . , 4 son funciones no lineales y Xk es la matriz de diseno
conocida de orden nxJ ′′k .
En el caso de que Jk = 0 ∀k ∈ {1, . . . , 4}, estarıamos ante una formulacion
parametrica no lineal de los GAMMLSS, que quedarıa reflejada en la ecuacion
4.6 como:
ηk = gk(θk) = hk(Xkβk), (4.6)
Ademas, esta formulacion quedarıa reducida a la definida por la ecuacion 4.4, en
el caso de que: hk(Xk, βk) = Xtkβk ∀k ∈ {1, . . . , 4}
En lo que sigue, las referencias a las formulaciones dadas por las ecuaciones 4.4 y 4.6
se haran como GAMLSS parametricos.
4.2.2. Parametros, Distribuciones y Terminos aditivos
El vector de parametros βk y el parametro de efectos aleatorios γjk, para j ∈{1, . . . , Jk} y k = 1, 2, 3, 4 se estiman, en el marco GAMLSS (para valores fijos de los
hiperparametros suavizados λjk’s), mediante maximizacion de la funcion de verosimil-
itud penalizada ℓp dada por:
ℓp = ℓ− 1
2
p∑k=1
Jk∑j=1
λjkγ′jkGjkγjk (4.7)
donde ℓp =∑n
i=1 log f(yi|θi)es la funcion de log-verosimilitud.
4.2 Paquete gamlss 46
La forma de la distribucion asumida para la variable de respuesta y, f(yi|θi), puedeser muy general. La unica restriccion que tiene, la implementacion en R de GAMLSS, es
que la funcion log f(yi|θi) y su primera derivada (y, opcionalmente, las segundas) con
respecto a cada uno de los parametros de θ debe existir. Son preferibles las derivadas
explıcitas, pero las derivadas numericas tambien pueden utilizarse.
Como hemos visto anteriormente, el modelo descrito por la ecuacion 4.22 permite
al usuario considerar los parametros de la distribucion como lineales (ecuacion 4.4), no
lineales parametricos (ecuacion 4.6) y no parametricos (suavizados) (ecuaciones 4.23 y
4.5) en funcion de las covariables y/o terminos de efectos aleatorios. En este sentido y
basandonos en la implementacion del paquete en R, se tiene que:
en la modelizacion de funciones lineales se utiliza la notacion de [78]. Que es la
notacion utilizada en las formulas para los ajustes de modelos lineales, lm; modelos
lineales generalizados, glm. [77]
en los casos no lineal, no parametrica (suavizada) o en condiciones de funciones
de efectos aleatorios, hay que ajustar una funcion aditiva. Vease
En las aplicaciones a datos, que se desarrollan en la siguiente seccion, hemos uti-
lizado los splines cubicos de regresion. Los splines cubicos estan cubiertos extensamente
en la literatura [60],[25], [? ]. Asumen en el modelo definido por la ecuacion 4.23, que
las funciones h(t) son arbitrarias, dos veces continuamente diferenciable y se maximiza
la log-verosimilitud penalizada, que viene dada por ℓ sujeta a los terminos penalizados
del modo
λ
∫ ∞
−∞[h′′(t)]2
. La solucion para maximizar las funciones h(t) son los splines cubicos naturales, y
por lo tanto se puede expresar como combinaciones lineales de funciones de bases de
splines cubicos naturales [15]. La variacion de los coeficientes de los terminos fueron
introducidos por [31] para introducir la interaccion entre covariables. Esta interaccion
es de la forma β(r)x, que es el coeficiente lineal de la covariable x y esta suavizado segun
otra covariable r. En muchas aplicaciones r es el tiempo. En general, r es una variable
continua, mientras que x puede ser continua o categorica. En la implementacion actual
del paquete, x tiene que ser continua o un factor de dos niveles con los valores 0 y 1.
Al introducir un termino aditivo en el modelo, se debe tener cuidado en como definir
los grados de la libertad del modelo. Los grados de libertad para el termino aditivo
suavizado, generalmente se toman como grados de libertad extra, del ajuste lineal. Por
ejemplo, con un modelo suavizado univariante con splines cubicos decir que x se ajusta
con 5 grados de libertad totales, debe considerarse df = 3 puesto que 2 grados de
4.2 Paquete gamlss 47
libertad se han utilizado para la constante y la parte lineal de la variable explicativa x.
Esto contrasta, con el modo de utilizar los grados de libertad en los modelos gam del
paquete gam. en el cual, se especificarıa df = 4, ya que la constante se ajusta de modo
independiente.
4.2.3. Algoritmos
Hay dos algoritmos basicos, utilizados para maximizar la funcion de verosimilitud
penalizada dada en la ecuacion 4.7.
El algoritmo CG, que es una generalizacion del algoritmo de [13], utiliza las
primeras y segundas derivadas de la funcion de verosimilitud con respecto a θ,
parametro de distribucion.
El algoritmo RS simple es una generalizacion del algoritmo utilizado por Rigby y
Stasinopoulos, [65] y [64], para ajustar la Media y la Dispersion de los Modelos
Aditivos Modelos (MADAM), y no utiliza las derivadas cruzadas. Es mas ade-
cuado cuando los parametros la funcion de densidad de la poblacion f(y|θ) son
ortogonales, como es el caso de los modelos de localizacion y escala.
Las principales ventajas de los dos primeros algoritmos son: i) el procedimiento de
ajuste modular, que permite diagnosticos diferentes del modelo para cada parametro
de distribucion; ii) la incorporacion sencilla de distribuciones adicionales; iii) la incor-
poracion sencilla de terminos aditivos extra; y iv) la facil localizacion de los valores de
partida. Los algoritmos, en general, han resultado ser estables y rapidos usando valores
de partida muy simple (constantes, por ejemplo) para los parametros
El paquete proporciona un tercer algoritmo para ajustar modelos parametricos,
como los definidos por las ecuaciones 4.4 y 4.6. Sin embargo, este algoritmo necesita
valores iniciales para los parametros, que pueden ser difıciles de localizar por el usuario.
Singularidades en la funcion de verosimilitud, similares a las aportadas por [14],
pueden ocurrir en casos especıficos, especialmente cuando el tamano de la muestra
es pequeno. El problema puede ser solventado con restricciones apropiadas sobre el
parametro de escala (penalizarlo si toma valores proximos a cero).
4.2.4. Otros paquetes gamlss
Tambien existen diversos modos de extender las familias de distribucion que permite
el paquete GAMLSS
crear una nueva distribucion.
4.2 Paquete gamlss 48
truncar una distribucion existente.
utilizar una version censurada de una distribucion existente.
combinar distintas distribuciones ya existentes para crear una nueva distribucion.
Y existe software, ya implementado, en una serie de paquetes dentro del gamlss
que trabajan con estas distribuciones [35]:
gamlss, el paquete original para el ajuste de los GAMLSS.
gamlss.cens, paquete para el ajuste con variable respuesta censurada.
gamlss.dist, paquete para anadir nuevas distribuciones.
gamlss.mx, paquete para el ajuste de distribuciones finitas mixtas.
gamlss.nl, paquete para el ajuste de modelos no lineales.
gamlss.tr, paquete para el ajuste de distribuciones truncadas.
4.2.5. Aplicacion a datos simulados
Ajustes no lineales
Dentro del paquete gamlss, el trabajo con la regresion cuantil suavizada se hace a
traves de la funcion gamlss. En ella, se han seleccionado los siguientes parametros para
realizar los ajustes:
En la formula se ha suavizado la covariable con splines cubicos de regresion me-
diante la funcion cs(, df = 5).
Para el calculo del parametro sigma del modelo se ha trabajado con splines
cubicos pero, en este caso, con df = 3.
A la hora de seleccionar los centiles, se han considerado los valores 10, 30, 50, 70
y 90, de modo analogo a como se ha hecho en los capıtulos anteriores.
Las simulaciones con las que se ha trabajado, son las que aparecen descritas por
la formula 3.1. A continuacion, se valoran los resultados graficos obtenidos al ajustar,
mediante regresion cuantil suavizada, el modelo con los diferentes tipos de error:
En el caso de los errores N(0, 1), se observa un buen comportamiento de los
ajustes. Hecho que se mantiene, tanto en el caso de la funcion seno (vease la
figura 4.4) como en la utilizacion del logaritmo (figura 4.7).
4.2 Paquete gamlss 49
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+++
+
+
+
+
++
++
+
++
+
+
+
++
+
+
+
+
++
++
+
++++
++
+++
+++
+++++
+
+++++
+
+++++++++
+
+
++++++++++
+
+
+++
+
+
+
+
++
+
+
+
+
+
++
++
+
+++++++++
+++++++
+++++++
+++++++++++++++
+++++++++++++++++++++++
+++++
+
++++++
+
++++++
++++++++++++++++++++++++++++++++++
+++++
+
+++++
+
++++++
++++++
++++++
+
+
++++++
++++
+++
+
++
+
+++
+
+++
+++++
+
+++
++
+
++
+
+
+
+++
+++
+++++
+
++
+
+++
++++
++++
+
+
+
+
+
+
+
+
+++
+
++
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
++
+
+
++
+++
++
+
+
+
+
++
+
+
+
++
+
+
+
+
++
+
+
0.0 0.5 1.0 1.5 2.0 2.5 3.0
−5
05
10
15
x
y
Errores N(0,1) y función seno
Centiles
1030507090
Figura 4.4: Seno y errores N(0,1).
Cuando se trabaja con errores t(2), se observa tambien un adecuado compor-
tamiento en los ajustes. Sobre todo en el caso de la funcion seno (vease la figura
4.5). En el caso de la utilizacion del logaritmo (figura 4.8), los puntos mas dis-
persos provocan un cambio de forma en los centiles 90 y 10, con respecto a los
demas.
Finalmente, al utilizar los errores G(1, 2), el comportamiento de los ajustes sigue
siendo bueno. Para la funcion seno puede verse en la figura 4.6 y en la figura 4.9,
para la funcion logaritmo.
Se ha realizado una comparativa (vease la figura 4.10) de los errores de prediccion,
provocados por los modelos anteriores. Obteniendose como resultado que, en el caso de
la N(0, 1) se aprecia una infraestimacion del modelo y en los otros dos escenarios una
sobrestimacion, mas evidente en los errores G(1, 2).
A la hora de tratar la regresion cuantil multidimensional, se debe tener en cuenta que
el paquete gamlss no tiene implementadas las interacciones entre terminos suavizados.
De hecho, si se integran en el modelo no provoca errores, pero solo presenta resultados
de la interaccion parametrica entre dicho terminos.
4.2 Paquete gamlss 50
++++++
++
+
++
+
+
++
+
+
++++++
+
++
+
+
+
+
+
+
+++++++
+++++++++++
+++++++++++
++++++
+
+++++++++++++++++++++++++++++++++++
++++++++++++++++++++++++
+++++++++++++++++++++++++++++
++++++++++++++++++++++
+++++++++++++++++++++++
+
+++++++++++++++
+
+
++++++++++++++++++++++++++++++++++++
+++++++++++++++++++++++++++++++++++++++++++
+
+++++++++++++++++++++++
+
++++++
+
++++++++++++++++++
++
++++++++++++++
++
+
++++++
++
+
++++
+
++
+
++
+
+
++
+++++
+
++++
0.0 0.5 1.0 1.5 2.0 2.5 3.0
−6
0−
40
−2
00
20
x
y
Errores t(2) y función seno
Centiles
1030507090
Figura 4.5: Seno y errores t(2).
+
+
+++
++
+
+
+
++
+
+
+
+
+++
++
+
+
+
+
+
+
+
++
+
+
++
+
++
+
+
+
+
+
+
++
++
+
+
++
+++
+
+
+
+++++
+
+
+++++
++++++
++
+
+
+
+
++++
+
++++++++
++++++
+
+
++
++++
+++
++++++
++++
+
++++
+++++
+++
++
++++++++++++
++++
+
+++++++++++++++++++
+++++++
+++++++++++++++
++++++++++++++
++++++
+
++++++++
++++
+
++++++++
+++++++++++++++++++++++++++
++++
+++++
++++
+++
+
+
+++
+
++++++++++++
+
+
++++++
+++++
+
++
+
+++
++
+++
+
+
+++
++
+
+
+
++
+
++
+
+++
+
+
+++++
+
+
+
+
+
+
++
+
++
+
+
+
++
+
+
+
+
+
+
+
++
+++
+
+
+++
+
++
+
++
+
++
+
+
+
+
+
+
+
+++
0.0 0.5 1.0 1.5 2.0 2.5 3.0
51
01
52
02
53
03
5
x
y
Errores G(1,2) y función seno
Centiles
1030507090
Figura 4.6: Seno y errores G(1,2).
4.2 Paquete gamlss 51
+
++
+
+++
+++
+
+
+++
+
+++
+
+++
++++++
++
++
++++
+++
+
+
+++
+
+
+
+
++
++
+++++++
+++
+++
+++++
+
++++++
+++++++++
+
+++++++++++
+
+
+++
+
+
+
+
++
+
+
+
+
+
++
++
+
++
++
++++
+
++
+++
++
+
++
+
+++
++
++
++
+
++++
+
+++
+
++++
+
+
++
+
+++
+
+
+
+
+
+++
++
+
+
+++
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+
+
++
+++
+
+
+
++
+
+
++
+
+++
+++
+
++
+
+
+
+
+
++
++
+
+
+
+
+
+
+
++
+
+
++
+
++
++
+
+
+
+
++
++++
+
+
+
+
+
++
+
+++
+
+++
+
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
++
++
+
++
+
+
+
+++
++
+
+
+
+++
+
++
+
++
+
+
+
++
+++
+
+
+
+
+
+
+
+
+
+
++
+
++
++
+
+
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
++
+
++
+
+
++
+++
++
+
+
+
+
++
+
+
+
++
+
+
+
+
++
+
+
0.0 0.5 1.0 1.5 2.0 2.5 3.0
−5
05
x
y
Errores N(0,1) y función log
Centiles
1030507090
Figura 4.7: Logaritmo y errores N(0,1).
+++++++++++++++
+
+
++++++
+
+++++++
++++++++
++++++++++++++++++++++
++++++
+
++++++++++++++++++++++++++++++++++++++++++++
+++++++++++
+++
+
++++++++++++
+
+
++
+
++++++++++++++
++
+
+
+
++++++++++
+++
+
+
+
+
+++++++++++
+
+++++++++
+
+
+
+++
+
++
+
+++
+++
+
+
+++++
++
+
+++
++
+++++++++++
++
+
+++++
++++
++++
+
++
+
+
++
++++++
+
+++
+
++++
+
+
+++++++
+
+
+++
+++
+
+++
+++++
++++++
+
++++++++
+
++++
++
+
+++++++++
+++
++
++++
++
+
+++++++++++
++
+
+
+
++++++
++
+
++++
+
++
+
++
+
+
++
+
+
+++
+
+
+++
0.0 0.5 1.0 1.5 2.0 2.5 3.0
−2
0−
10
01
02
0
x
y
Errores t(2) y función log
Centiles
1030507090
Figura 4.8: Logaritmo y errores t(2).
4.2 Paquete gamlss 52
+
+++++++++
+++
+
+
++++++
+
+++++
+++++++
+
++
+++
+
++++++++
+++++
+
++++++++
+
+++++
++++++++
+
++
+++++
+
++++++++
++++++
+
+
++
++++
+++
++++++
++++
+
++
+
+
++++
+
++
+
+
+
+++++
+++
+++
+
+
+
+
+
+
++++++
++++++++++
+
++
+++
+
++
+
+++
+
+
+
+
++
+
++++
+
+
+
++
+++
++
+
+
+++
+
++
+
+
+
+
++
++
+
+++
+
+
++
+
+++++
++
+
+
+
+
++++++
+
+
+++
++
+++
+++
+
+
+
++
++++
+
+++
+
+
++
+
+++
+
+
+++
+
++
++
+
+++++++
+
+
++++
++
++
+
++
+
++
+
++
+
++
+
++
+
+
++
+
++
+
+
+
++
+
++
+
+++
+
+
+++++
+
+
+
+
+
+
++
+
+++
+
+
++
+
+
++
+
+
+
+++++
+
+
+++
+
++
+
++
+
++
+
+++
+
+
+
+++
0.0 0.5 1.0 1.5 2.0 2.5 3.0
−5
05
10
15
20
x
y
Errores G(1,2) y función log
Centiles
1030507090
Figura 4.9: Logaritmo y errores G(1,2).
−1
01
23
4
Errores N(0,1)
sin log
Err
ore
s d
e p
red
icci
ón
−1
01
23
4
−4
0−
30
−2
0−
10
0
Modelo no paramétrico Errores t(2)
sin log
Err
ore
s d
e p
red
icci
ón
−4
0−
30
−2
0−
10
0
−5
−4
−3
−2
−1
0
Errores G(1,2)
sin log
Err
ore
s d
e p
red
icci
ón
−5
−4
−3
−2
−1
0
Figura 4.10: Errores obtenidos en los diferentes ajustes no lineales unidimensionales.
Error=valor real−prediccion. Se ha utilizado el percentil 50, τ = 0,5
4.2 Paquete gamlss 53
+
+++++
+
++++++++++++++++++++++++++++
+++
+
+++++++
+
++
+++
+
++++
+++
+++++++
++++++
++
+
+++++++
+
+++++++++++++++++
+
+++++
++
+
++++++++++++++++++++
+
+
+
+
++++++++
+
++++++
++++++
++
+
++++++++++++++
+
++++++++
+++++++
++++
+
+
+
++
++++++
+
+++++++
+++
+
++++
+
+
+
+++
+++++++
+++
+
++++
+
+
++++++++
+
++++
+
+
+
+++++++
+++
+
+++++
+
+++++
+++++++++++++
+
+++++++
+++
+
+++
+
+
+
+
+
+
++
+
+++++
++
+++++
+
++
+++++
+
+
++++++++
+++
+
++
++++
+
++++++
+
++++++++
+
+
+
+
+++
++++++
++
++
+++++++
++
+
+++++
+
+
+
++++++
++
+
+++
+
++
+
+++
+++++
++++++
+
+
+
+++
+
+++++
+
+++++
+++
++
+
++
+
+
+
++++
+
+++++++++++++++
+
+
++++++
+++
+
+
+
++
++++
+
+
++++++
+++
+
+++++
+
++
+
++++++++
++
+
+
+
+
+
+++
+
+
++
++
+
++
++++
++
+
+
+
+++
+
+
+
++
+
+
+
+
+
+
+++
+
+
++++++
+++++
+
+
+
++
+
+
+
++
+
+++++
++
+
++
+++++++
++++++
+
+++
+
+++
+
+
++
+
++
+
+
+
+
+
++
+
+++
+
++
+
+++
+
++
+++
+
+
+
++
+
+
+
+
+++
+
++
+
++
+
+
++
+
+
+++++
++++++
++
++
+
++
+++++++
+
++
+++
+
++++
+
+
+
++++
+
++
+++
+++
++
+++++
+
+
+
++
++
+
++
+
+
+
+
+
+
+
+
+
+++
+
++++++++++
+++++
++
++
+
++++
+
+++++
+
+
+
+
+
+
++
+
+
+
+
+
++++
++
+
+
++
+
+
++
+
++++
+
+
+
++
+
+
++++
++++
++++++
+
+++
+
+
++++
++++
++
+
++
++
+
+
+
+++
++
+
++
++++
+
+++
++
++
+
+
+
+
+
+
+
+
+++
+
+
+++
+
+++
+
+++
++++
++
+
+
+
+
+
+
+
+
+
+
+
+
++
+++
+++
+
+
+
++++
+
+
+
+
+
+
++
+
+
+++
++++
+
+
+
+
+++
++
+
+
+
++++
+
+
+
+
+
++
+
++
+++++++
+
+
++
+++
+
+++
++
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+++
+++
++
+
+
+
+
+
++
+
+
++
+
+
+
+
++
+++
+++
+
+
+
+
++++
+
+
+
+++++
+
+
+
+
++++
++
+
++
+
+
+
+
+++
+
++
+
++
+
++
+
+
+++
+
+++
+++
+
++++
+
++
++
+
+++
+
+
++
++++++
+
+
+
++++
+
++++
+
+
++++
+
++
+
+++
+
++
+
+
++
+
+
++
++
+
+
+
+
+
++
+
+
+
++
+
+
120 160
12
34
56
78
talla
fvc
Centiles
1030507090
NIÑOS
++++
+++
+++++++++
++
++++++
++++++
+
++++++++++++++++++++
+
++
+
+
++
+
++
+
++++
+
++++
+
+
+
+
++++++
+++
+++++
++++
+++++++
++
++
+++
+
+++++
+
++
++
++++
+
++
++
+
+
+
++
++
+++
+++
+
+
+
+
+
+
++++++
+
+++++
++++
+++
+++
+++
++++++++++
+
+
+
++
+
+
+
+
++
+
++
+
+
++
+
+
++++++++++
+++
+
+++
+
+
+
+
++++
+++
+++++++
++
+
+
+
+
++
+
+
+
++
+
++++
+++++++++
+
++++
+++
+
+++
++
+++
+++
++++
++
++
++++
+
++
+
+
+++
++++
++
+
++
++
+
+++
+++++
++
++
+
+
+
++
+
+
+++
+++
+
++++++
+
+
+
++
++++++++
++
+
+
++
+
+
+
+++++
+++++
+
++
++
+++
++
+
++
++
++++++++
++++
+
+
+
++
+
+
++
+
++++++
+
+
+++
+
+++
+
+
++
+++++
+
++++
+
+
++
+
++
+
+
+
++
+
++
++++
+
+
+
+
+++
++++
+
++++
+
+
+
++++++
+
++
+
+
++
+
+
++++
++++
+
++++
+
++
+++
++
+
+
+
++
+
+
++++
++++++
++
+++
+
+
++
++
+
++
+
+
+
+
+
+
++++
++
+
++++
++
++
+
+
+
+
+
++
+
+++++
+++
+
++
+
+
++
+
++++
+
+
+
+
+++++
+
+
+
+
+
++
+
++
+++
++
+
+
+
+
+
+
+
+++
+++++
+
+
+
++
++
+++++
+
+
+
++++++++
+
+
++++
+
+
+
++
+
+
+
+
+
++
+
+++++
++
++
++++
+
+
++
+
++
+
+
+
+++
+++
+
+++
++
+
+
++
+
++
+
+++
+
+
+++
+
++
+
++
++++
+
+
+
++
+
+
++++
+++
++
+
+
+++
++
+
+
++
+
+
+
+
+++++
+
+
++++
+
+
+
+++++
+
+
+
+
+
+++
+++
+
+
++
++
++++
++
+
++
+
+++
+
++
+
+
+
+
+++
+
+++
+
+
++
+
++
+
+
+
+
++
+
++++
+
+++
++
+
+
++
+
+
+
+++
+++
++
++
+
++
+
+
++
++
+
+
+
+
+
+
+
+++
+
+++++
++
+++
+
+++
+
+
+
+
+++
+
+++
+
++++++
+
++
+
++++++
+
+
+
++
+
+
++
+
+
+++
+++++
+
++
+
+
++++
+
+
++
+
+
+
+
++++
+
+
++++
+
+
++
+
+
+++++++
+
+
+
+
+
++
+++
++
+
+
++++
+
+
+
++
+
+
+
++++++
+
+
++
+
+
+
+++
+
+
+++
+
+
+
++++
+
+
+++
+
+++++
+
++
+++
+
+++
+
++
+
110 130 150 170
12
34
56
talla
fvc
Centiles
1030507090
NIÑAS
Figura 4.11: Ajustes mediante regresion cuantil suavizada.
La recta discontinua representa el ajuste parametrico para el percentil 50, τ = 0,5
4.2.6. Aplicacion a datos reales
Sobre la misma base de datos con la que se ha trabajado hasta el momento, referente
a los valores espirometricos de la poblacion escolar gallega. Se han realizado los ajustes
de modo independiente para varones y mujeres. Se presentan en la figura 4.11 dichos
ajustes suavizados, junto con los relativos a la regresion clasica y la regresion cuantil
lineal. La necesidad de utilizar modelos distintos en ambas subpoblaciones (varones
y mujeres) queda patente tambien en la suavizacion. Sobre todo en la diferencia de
tendencias para valores pequenos de la talla, que el modelo suavizado los capta per-
fectamente. Resaltar que, en el caso de la poblacion de mujeres, los valores de fvc se
concentran entorno a 3 y 4, mientras que en el caso de los varones se encuentran mas
repartidos. Esto provoca, para la poblacion femenina, una mayor distancia entre las
distintas curvas cuantil y una menor curvatura, hecho que se resalta en las curvas de
cuantiles altos, para los valores de tallas entre 140 y 170cm.
CODIGO:
#########################AJUSTES NO LINEALES(gamlss)
4.2 Paquete gamlss 54
modelo<-gamlss(datos$fvc~cs(datos$talla,df=5),data=datos,
sigma.fo=~cs(ejex,df=3))
centiles(mod, xvar=ejex, col.cent=c(1,1,1,1,1), cent=c(10,30,50,70,90),
legend=FALSE,lty.centiles=c(3,2,1,2,3),lwd.cent=c(1,1,2,1,1),main="",
xlab="talla",ylab="fvc")
leg.txt <- c("10","30","50","70","90")
legend("topleft",legend=leg.txt,title="Centiles",lty=c(3,2,1,2,3),
lwd=c(1,1,2,1,1),col=c(1,1,1,1,1))
4.3 Paquete VGAM 55
4.3. Paquete VGAM
Mediante este paquete realizaremos el ajuste mediante Modelos Aditivos General-
izados Vectoriales (VGAM)[82], [80] y [81]; implementado en la funcion vgam. Esta es
una gran clase de modelos que incluye modelos aditivos generalizados (GAM) y los
modelos lineales generalizados vectoriales (VGLMs) como casos especiales.
Un VGAM puede definirse como un modelo estadıstico funcion de los M factores
predictores aditivos y puede escribirse segun la formula 4.8 como:
ηj =
p∑j=1
f(j)k(xk), conj = 1, . . . ,M (4.8)
donde M es finito, xk es la k−esima variable explicativa (considerando habitualmente
x1 = 1 para el termino independiente), f(j)k son funciones de xk que se estiman mediante
suavizacion y el primer termino de la suma es el termino independiente. En el caso de
que todas las funciones f(j)k estuviesen obligadas a ser lineales, entonces el modelo
resultante serıa un Modelo Lineal Generalizado Vectorial (VGLM). Los VGLMs se
ajustarıan mejor mediante la funcion vglm del mismo paquete VGAM.
Actualmente, solo se aplica un tipo de suavizadores, los splines cubicos. Los resulta-
dos de vgam seran diferentes en R y en S-PLUS, puesto que vgam utiliza una seleccion
de nodos diferente. Hay que tener en cuenta que, en general, la seleccion de los nodos
para el calculo de las funciones suavizadoras se vuelve costosa cuando el numero de
predictores aditivo M es grande.
El algoritmo subyacente de VGAMs es el algoritmo iterativo de mınimos cuadrados
reponderados (IRLS) y modifica el vector backfitting utilizando vectores splines. Los
b-splines se utilizan como las funciones de base para los vectores de splines. El codigo
de suavizacion se basa en el codigo F. O’Sullivan BART.
4.3.1. Marco teorico
De modo general, una tabla de percentiles es una serie de curvas percentil suavizadas,
que muestran como los centiles seleccionados cambian cuando se grafican frente a al-
guna covariable; que habitualmente suele ser la edad o el tiempo. Los percentiles de
la distribucion observada, utilizados en el proceso de ajuste, se obtienen al dividir la
poblacion en valores particulares o grupos de la covariable. Si se utilizan percentiles
empıricos, los extremos se estimaran de modo relativamente inexacto; ya que los er-
rores estandar percentil van a dispararse hacia las colas de la distribucion. Una forma
de solucionar este problema es adaptarse a una distribucion teorica de los datos y luego
obtener los percentiles esperados de la funcion de densidad acumulativa conocida [32].
4.3 Paquete VGAM 56
Este enfoque es utilizado habitualmente para la construccion de tablas de talla por
edad en los ninos, donde la distribucion de la altura es cercana a lo normal. Ası, si para
un determinado grupo de edad la media y la desviacion tıpica de la altura son ν y ε, el
percentil 100α−esimo se escribira como:
C100α = ν + ε · zα,
donde zα es el equivalente normal correspondiente a desviarse de la cola un area α.
Sin embargo, para otras medidas comunes de crecimiento de los ninos; como pueden
ser el peso, la circunferencia de pliegues cutaneos, etc.; los datos suelen poser mas
sesgo que la distribucion normal. En este caso, es una practica comun asumir una
distribucion log-normal, de modo que, si ν y ε son la media y la desviacion tıpica,
con la transformacion logarıtmica se obtiene que la curva correspondiente al percentil
100α−esimo, vendra dada por la formula: en lo natural escala logarıtmica, el percentil
100α viene dada por:
C100α = µ · exp(ε · zα),
donde µ = exp(ν) es la media geometrica de la medida inicial.
No hay razon en principio para no aplicar una transformacion de los datos, segun lo
descrito por Box y Cox, [3]. La estimacion de la maxima verosimilitud (MLE) para la
potencia, que a la vez minimiza la asimetrıa y optimiza las condiciones de normalidad,
es ideal para resolver el problema de datos sesgados. Sin embargo, solo funciona en
grupos individuales y no permite directamente cambios en la asimetrıa de la covariable,
por ejemplo, tiempo. [76] utilizan percentiles para ajustar la variable espesor del pliegue
cutaneo por la covarible edad. Para ello ampliaron el metodo de Box-Cox para estimar
una potencia diferente para cada grupo de edad. Ajustaron una curva suavizada para
cadagrupo especıfico de edad. Esta curva, en relacion con las correspondientes curvas
suavizadas para la media y la desviacion estandar, se utilizo para generar el conjunto
requerido de percentiles.
En el paquete se utiliza una nueva tecnica [12] que amplıa a las dos anteriores. Utiliza
variaciones suavizadas de la transformacion Box-Cox, que proporciona aplicaciones mas
amplias que las sugeridas por [76]. Ya que no solo genera un conjunto coherente de
percentiles suavizados con relativamente calculo poco, sino que la forma de la curva
de potencia (que no debe confundirse con la curva de error de tipo II) proporciona
informacion sobre el cambio de sesgo de la distribucion que no esta previsto por otros
metodos de ajuste percentil.
Las tecnicas referidas se desarrollan como:
Box y Cox, [3], propusieron dos familias alternativas de transformaciones, dadas
por las formulas 4.10 y 4.11, en funcion de los parametros desconocidos λ y δ.
4.3 Paquete VGAM 57
Ambos casos deben verificar y > 0 e y > −δ respectivamente. Los parametros se
eligen para maximizar la verosimilitud de la muestra y = (y1, . . . , yn), suponiendo
normalidad en su distribucion.
y(λ) =
{(yλ − 1)/λ si λ = 0
log y si λ = 0(4.9)
y(λ) =
{[(y + δ)λ]/λ si λ = 0
log(y + δ) si λ = 0(4.10)
(4.11)
Mediante la introduccion del jacobiano de la transformacion, Box y Cox, [3],
mostraron que la MLE de λ es aquella que minimiza la varianza de la variable
escalada definida por las ecuaciones 4.13 y 4.13, donde y y gm indican la media
geometrica. Queda claro que f (λ) posee la misma dimension que y para cualquier
valor de λ, para que al variar λ la var(f (λ)) mantenga las mismas unidades que
var(y). Ademas, puesto que var(f (λ)) es la cantidad que debe minimizarse, por
definicion variara de modo relativamnete lento en la region del mınimo, por lo
que leves diferencias en λ tendran poco efecto sobre la varianza.
f (λ) = y(λ)/yλ−1 (4.12)
f (λ) = y(λ)/[gm(y + δ)]λ−1 (4.13)
La log-verosimilitud es proporcional a − log[var(f (λ))], y es aproximadamente
cuadratica en el entorno del maximo. Por lo que puede calcularse como una serie
de valores de λ y el MLE λ se obtiene de un ajuste cuadratico.
En el caso de encontrarnos ante una familia de transformaciones, como las definidas
por la ecuacion 4.10, se puede utilizar una transformacion escalada alternativa,
dada por la ecuacion 4.14.
g[λ] = f (λ)/y = y(λ)/yλ (4.14)
Tras esta transformacion se logra disminuir la dimension de g(λ) y su desviacion
tıpica es analoga al coeficiente de variacion de y. La desviacion tıpica de g(1) difiere
del coeficiente de variacion, solo en el caso de de utilizar geometricrather y la me-
dia aritmetica en el denominador. Tambien var(g(0)) es equivalente a var(log(y)).
Esto se refuerza la relacion entre el coeficiente de variacion y el log(desviacion
tıpica), terminos que son ambos utilizados para describir la desviacion de g(λ).
Las variables f (λ) y g(λ) pueden utilizarse de modo indistinto en la ecuacion 4.10,
pero no ocurre lo mismo en el modelo definido por la ecuacion 4.11, ya que en
4.3 Paquete VGAM 58
este ultimo caso la razon f (λ)/g(λ) es una funcion del parametro desconocido δ.
La ventaja de g(λ) sobre f (λ) es que para muchas variables, donde esta tecnica es
util, la desviacion tıpica crece bastante constante con la media mientras que el
coeficiente de variacion no. Por lo que, el coeficiente de variacion es independiente
de la media, relativamente.
Las curvas L, M y S. Este metodo requiere que y sea dividida en p grupos,
correspondientes a los valores (o rango de valores) del tiempo ti, media(ti) ∀i ∈{1, . . . , p}. Los MLEs de λi se obtienen para cada grupo y, para ello, es mas sencillo
trabajar con yλ que con g(λ). Sean ν y ε los valores de la media y desviacion tıpica
de los yλ observados. La mediana de yλ es estimada eficientemente por ν, de modo
que, una estimacion eficiente de la mediana (µ) viene dada por ν1λ . Del mismo
modo, la desviacion tıpica (σ) de g(λ) es ε/λyλ. Para el caso particular de que
λ = 0, el valor de µ sera exp(ν), mientras que ε y σ coinciden.
El MLE de λ es el valor que minimiza σ, ası que σ se obtiene para varios valores
de λ y un ajuste cuadratico en λ por log[var(gλ)]. El mınimo se puede localizar
por interpolacion. Si el ajuste cuadratico viene dado por la formula
log[var(gλ)] log[var(gλ)] = α+ βλ+ γλ2,
entonces λ = −β/2γ con error tıpico (nγ)−0,5, con n el tamano muestral.
El ajuste cuadratico requiere de, al menos, tres valores distintos de la log−varianza
de λ. En la practica, los resultados estan muy cerca de una curva cuadratica, de
modo que especificar tres valores es bastante adecuado. Ademas, el valor exacto
de λ no es crıtico, puesto que se va a suavizar. Esto significa que la eleccion de
valores entre −1, 0, 1 para λ abarca un rango razonable y ahorro de tiempo de
procesador. En cuyo caso, los valores de β y γ son (V+−V−)/2 y (V−−2V0+V+)/2,
respectivamente. Donde V es el logaritmo de la varianza y los subındices −, 0 y
+ se refieren a los valores −1, 0, 1.
Ahora λi, µi y σi son representados sobre ti y sus curvas suavizadas son L(t),M(t)
y S(t) y se pueden representar, en cada caso, referidas a la potencia, la media y
la desviacion tıpica. La suavizacion se puede hacer utilizando cualquier metodo;
son adecuados, por ejemplo, splines cubicos [69], los metodos kernel [23], ajustes
polinomicos, otros especıficamente adaptados a funciones matematicas [36] y [58],
etc.
Es posible hacer el ajuste de la curva en dos etapas, primero la obtencion de L(t)
y luego con L(ti) para cada grupo y con λi, se obtienen ui y σi. De esta forma,
4.3 Paquete VGAM 59
las estimaciones de M(t) y S(t) son un poco mas consistentes, pero con un coste
extra de computacion.
La desviacion tıpica obtenida de la curva S(t) se puede restaurar para las unidades
iniciales de y multiplicando por L(t)yL(t)i . Sin embargo, esto requiere valores
suavizados de yi y µi, para valores t = ti. Como las dos medias son en la practica
muy similares, sobre todo si L(ti) es cercana a cero, el metodo se simplifica si se
utiliza M(ti) en lugar de yi.
Con esta simplificacion, las curvas L, S y M pueden utilizarse para generar
cualquier curva percentil suavizada sobre el rango completo de los valores de
la covariable. Para el percentil 100α, la ecuacion viene dada por la formula ??;
que es equivalente a la formula 4.16 si L(t) es cero.
C100α(t) = M(t)[1 + L(t)S(t)zα]1/L(t) (4.15)
C100α(t) = M(t)exp[S(t)zα] (4.16)
4.3.2. Estudios de simulacion
Escenario: Ajustes no lineales
Dentro del paquete VGAM, el trabajo con la regresion cuantil suavizada se hace
a traves de la funcion vgam. Con ella se han realizado los ajustes, seleccionando los
siguientes parametros:
En la formula se ha suavizado la covariable con splines cubicos de regresion me-
diante la funcion cs(, df = 5).
Para el calculo del parametro sigma del modelo se ha trabajado con splines
cubicos pero, en este caso, con df = 3.
A la hora de seleccionar los centiles, se han considerado los valores 10, 30, 50, 70
y 90, de modo analogo a como se ha hecho en los capıtulos anteriores.
Se ha trabajado con las simulaciones no lineales descritas en la ecuacion 3.1. Los er-
rores utilizados han sido los N(0, 1) y G(1, 2). Porque en el tratamiento con los paquetes
anteriores, en estos dos escenarios, se observaron comportamientos mas diferentes. Los
resultados graficos, obtenidos de aplicar los ajustes a los diversos conjuntos de datos,
pueden verse en las figuras 4.13, 4.14 y 4.15:
Ademas del evidente buen comportamiento de los ajustes, en el caso de los errores
N(0, 1); resaltar las diferencias, en forma, entre las diferentes curvas de ajuste.
4.3 Paquete VGAM 60
0.0 0.5 1.0 1.5 2.0 2.5 3.0
5
10
15
20
25
Errores N(0,1) y función seno
x
y
10%
30%
50%
70%
90%
Centiles
1030507090
Figura 4.12: Seno y errores N(0,1).
Tanto en el caso de la funcion seno (vease la figura 4.13) como en el caso del
logaritmo (figura 4.14).
Al utilizar los errores G(1, 2), el buen comportamiento de los ajustes sigue man-
teniendose. Y es interesante observar que la distancia entre las curvas de ajuste
aumenta al aumentar el valor del cuantil de ajuste, como debe ocurrir dada la
forma que se observa en la nube de puntos. Veanse las figuras 4.13 y 4.15.
Se ha realizado una comparativa (vease la figura 4.16), de los errores de prediccion
provocados por los modelos anteriores. Observandose una infraestimacion en el caso
del escenario simulado utilizando la funcion seno. Y ocurriendo una situacion similar
al utilizar la funcion logaritmo, con la salvedad de que el modelo aquı provoca tambien
sobreestimacion muy acusada en unos pocos puntos.
4.3.3. Aplicacion a datos reales
Volviendo a la base de datos de la poblacion escolar gallega, y realizando los ajustes
de modo independiente para varones y mujeres, se presentan en la figura 4.18 dichos
ajustes suavizados, junto con los relativos a la regresion clasica y la regresion cuantil
lineal. Cabe resaltar que, en el caso de la poblacion de varones, la nube de puntos refleja
4.3 Paquete VGAM 61
0.0 0.5 1.0 1.5 2.0 2.5 3.0
5
10
15
20
25
30
35
Errores G(1,2) y función seno
x
y
10%30%50%
70%
90%
Centiles
1030507090
Figura 4.13: Seno y errores G(1,2).
0.0 0.5 1.0 1.5 2.0 2.5 3.0
5
10
15
Errores N(0,1) y función log
x
y
10%
30%
50%
70%
90%
Centiles
1030507090
Figura 4.14: Logaritmo y errores N(0,1).
4.3 Paquete VGAM 62
0.0 0.5 1.0 1.5 2.0 2.5 3.0
5
10
15
20
25
30
Errores G(1,2) y función log
x
y
10%30%50%70%
90%
Centiles
1030507090
Figura 4.15: Logaritmo y errores G(1,2).
un comportamiento mas homogeneo en concentracion que la de mujeres. Ademas, sus
rectas de regresion cuantil presentan una mayor curvatura, sobre todo en las curvas de
cuantiles altos, para los valores de tallas entre 130 y 160cm.
CODIGO:
#########################AJUSTES NO LINEALES(vgam)
modelo<-vgam(datos$fvc~datos$talla, lms.bcn(zero=1), dat=datos,
trac=TRUE)
qtplot(modelo,percentiles=c(10,30,50,70,90),main="",las=1,
lwd=c(1,1,2,1,1),
lcol="brown",xlab="talla",ylab="fvc")
leg.txt <- c("10","30","50","70","90")
legend("topleft",legend=leg.txt,title="Centiles",
lty=c(3,2,1,2,3),lwd=c(1,1,2,1,1),col="brown")
4.3 Paquete VGAM 63
−4
−2
02
Errores N(0,1)
sin log
Err
ore
s d
e p
red
icci
ón
−4
−2
02
−4
−2
02
Errores G(1,2)
sin log
Err
ore
s d
e p
red
icci
ón
−4
−2
02
Figura 4.16: Errores obtenidos en los diferentes ajustes no lineales unidimensionales.
Error=valor real−prediccion. En el caso de la regresion cuantil se ha utilizado la
mediana, τ = 0,5.
4.3 Paquete VGAM 64
120 160
1
2
3
4
5
6
7
8
talla
fvc
10%
30%50%70%
90%
Centiles
1030507090
NIÑOS
120 160
1
2
3
4
5
6
talla
fvc
10%
30%50%70%
90%
Centiles
1030507090
NIÑAS
Figura 4.17: Ajustes mediante regresion cuantil suavizada.
La regresion cuantil parametrica se representa con lınea verde.
4.4 Paquete mboost 65
4.4. Paquete mboost
Este paquete esta disenado desde una moderna vision de la regresion y se situa entre
los modelos lineales y aditivos generalizados clasicos, como pueden ser por ejemplo,
los implementado por lm, glm o gam; y el enfoque de las machine learning para los
modelos de interacciones complejas, mas representados por el gbm y randomForest.
Todas las funciones en este paquete estan basadas en la aplicacion generica del
algoritmo de optimizacion implementado en la funcion mboost.fit, [34]; que permite el
ajuste de modelos de lineales, aditivos y de interaccion (e incluso mezclas de ellos) para
pequenas y grandes dimensiones. La respuesta puede ser numerica, binaria, ordinal,
censurada y con datos de recuento.
Una de las principales caracterısticas de la tecnica utilizada, es el reducido consumo
de memoria; que se logra gracias a la tecnologıa de matriz dispersa, implementada en
el paquete Matrix. Ademas, los procedimientos de remuestreo se ejecutan automatica-
mente en paralelo, si se utiliza el paquete multicore. Pero el avance mas importante,
es la aplicacion generica del optimizador de la funcion mboost.fit.
Los algoritmos de boosting para regularizacion, prediccion y ajuste de modelos
[34], que se presentan dentro del paquete mboost [34], dan un enfasis especial a la
estimacion de modelo complejos, tanto parametricos como no parametricos; e incluyen
modelos lineales y aditivos generalizados, ası como modelos de regresion para el analisis
de supervivencia.
El algoritmo AdaBoost de Freund y Schapire para la clasificacion [18], [19] y [20]
ha atraıdo mucha atencion en la comunidad del machine-learning ([68]), ası como en
materias relacionadas en la estadıstica [4], [5], [22]. Existen varias versiones del algo-
ritmo AdaBoost que han demostrado ser muy competitivas, en terminos de precision
en la prediccion de una variedad de aplicaciones. Los metodos boosting han sido prop-
uestos inicialmente como un conjunto de metodos basados en el principio de generar
predicciones multiples (un promedio) entre los clasificadores individuales.
Mas tarde, Breiman, [4] y [5], observo que el algoritmo AdaBoost se puede ver
como un algoritmo de descenso de gradiente en el espacio funcional, inspirado por la
optimizacion numerica y la estimacion estadıstica.
Por otra parte, [22], se establecen fundamentos mas importante que vinculan el Ad-
aBoost y otros algoritmos boosting al marco de la estimacion estadıstica y al desarrollo
de bases aditivas. En su terminologıa, el boosting se representa como un stagewise,
additive modeling : donde la palabra additive no implica un ajuste del modelo aditivo
en las covariables, sino que se refiere al hecho de que el boosting es una combinacion
aditiva (de hecho, lineal) de estimadores (funciones) simples.
4.4 Paquete mboost 66
Tambien en [54]y en [61] se desarrollaron ideas afines que fueron reconocidas prin-
cipalmente en la comunidad del machine-learning. En [28], se dan otras visiones adi-
cionales del boosting, en particular, los autores senalan en primer lugar la relacion entre
el boosting y la estimacion ℓ1−penalizada. Las ideas de [22], abrieron nuevas perspec-
tivas, llamadas a utilizar los metodos boosting en muchos otros contextos ademas de la
clasificacion.
Trataremos los metodos boosting para regresion (incluyendo regresion generaliza-
da), [9], [21] y [61]. Pero se hace necesario mencionar que, en el mismo paquete que nos
ocupa, se utilizan tambien para estimacion de la densidad [63]; para el analisis de su-
pervivencia, [33], [61]; y para analisis multivariante, [22] y [52]. En un buen numero de
estas propuestas, el boosting no es solo una caja-negra como herramienta de prediccion,
sino tambien un metodo de estimacion para modelos con una estructura especıfica, tales
como los lineales o los aditivos [7], [9] y [33]. El boosting puede, por lo tanto, verse como
una tecnica interesante para estimar un modelo. Esta perspectiva estadıstica impulsara
el centro de la exposicion de boosting desarrollada en el paquete mboost.
4.4.1. Marco teorico
Consideramos una muestra de variables aleatorias independientes e identicamente
distribuıdas (X1, Y1), · · · , (Xn, Yn) de un proceso estacionario con covariables p−dimensionales
Xi y variable respuesta unidimensional Yi. Se construyen multiples estimaciones de fun-
ciones o predicciones a partir de los datos y se utiliza una combinacion lineal (o a veces
convexa) de los mismos para obtener el estimador final. Los pasos son los siguientes:
Primero se especifica un procedimiento base, para construir una funcion esti-
madora g, con valores en el cuerpo de los numeros reales basada en la muestra de datos
inicial (X1, Y1), · · · , (Xn, Yn):
(X1, Y1), · · · , (Xn, Yn) procedimiento−−−−→ base g
Por ejemplo, un procedimiento base puede ser una regresion lineal.
Depues, generando un conjunto de procedimientos base, que son, un conjunto de
funciones estimadas o predicciones, se sigue como:
datos reponderados 1 procedimiento−−−−→ base g[1]
datos reponderados 2 procedimiento−−−−→ base g[2]
· · · · · ·
datos reponderados M procedimiento−−−−→ base g[M ]
Lo que se denomina aquı como datos reponderados significa que se asignan pon-
deraciones de los datos individuales de cada uno de los n puntos de muestreo. Tambien
4.4 Paquete mboost 67
hemos asumido implıcitamente que el procedimiento base permite hacer algun ajuste
ponderado, es decir, la estimacion se basa en una muestra ponderada. Esta vision es
valida para todo el desarrollo a excepcion del algoritmo AdaBoost.
Este conjunto de procedimientos es demasiado general para ser de uso directo. La
especificacion de los mecanismo de ponderacion de datos, ası como la forma de la
combinacion lineal de coeficientes∑M
m=1 αm, son cruciales y distintas selecciones carac-
terizan a conjuntos diferentes. La mayorıa de los metodos boosting son tipos especiales
de conjuntos de sistemas secuenciales, donde los pesos de los datos en la iteracion m
dependera, solamente, de los resultados de las iteraciones m−1 anteriores (sin memoria
con respecto a las iteraciones m− 2,m− 3, . . .).
Algoritmo AdaBoost
El algoritmo de clasificacion binaria AdaBoost [31] es el algoritmo boosting mas
conocido. El procedimiento de base es el de un clasificador con valores en (0, 1).
1. Comenzamos asignando pesos a cada una de las muestras individuales: w[0]i = 1
n
para i = {1, . . . , n} y sea m = 0.
2. Incrementamos m en una unidad. Aplicamos el procedimiento base a los nuevos
datos reponderados, es decir, realizamos un ajuste reponderado utilizando los
pesos w[m−1]i obteniendo el clasificador gm.
3. Calculamos los pesos de los errores de clasificacion
err[m] =
n∑i=1
w[m−1]i I(Yi = g[m](Xi))/
n∑i=1
w[m−1]i ,
α[m]=log
(1− err[m]
err[m]
)y los pesos actualizados seran
wi = w[m−1]i exp
(α[m]I(Yi = g[m](Xi))
),
w[m]i = wi/
n∑j=1
wj
4. Repetimos los pasos 2 y 3 hasta m = mstop y construımos la estimacion de la
funcion de clasificacion
fAdaBoost(x) = arg maxy∈[0,1]
mstop∑m=1
α[m]I(g[m](x) = y)
4.4 Paquete mboost 68
Al utilizar la terminologıa del mstop (en lugar de M como en la descripcion general
del conjunto de esquemas), se hace hincapie tanto aquı como mas adelante, en que el
proceso de iteracion debe pararse para evitar el sobreajuste. El parametro de ajuste
para el algoritmo AdaBoost, puede seleccionarse usando procedimientos de validacion
cruzada.
Lento comportamiento de sobreajuste
Se ha debatido hasta aproximadamente el ano 2000 si el algoritmo AdaBoost es
inmune al sobreajuste cuando se ejecutan mas iteraciones, es decir, si pararlo no se hace
necesario, [? ] . Hoy en dıa esta claro que el algoritmo AdaBoost y otros algoritmos
boosting sobreajustan eventualmente, y pararlos antes (utilizando un valor mstop antes
de la convergencia de la funcion de perdida sustituta, dada por la ecuacion 4.17) es
necesario, [1], [37] y [55]. Se debe hacer hincapie en que esto no entra en contradiccion
con los resultados experimentales, [34] y [4].
ρexp(y, f) = exp(−yf), (4.17)
Sin embargo, el algoritmo AdaBoost es bastante resistente al sobreajuste al aumentar
el numero de iteraciones de mstop. Esto ha sido comprobado empıricamente aunque
algunos casos con un claro sobreajuste se producen para algunos conjuntos de datos
[55].
Pueden verse en [? ], desarrollos de varianza y sesgo para boosting con una curva de
ajuste unidimensional. Se muestran las diferencias entre el boosting y la aproximacion
por smoothing splines. Obteniendo como resultado que: la varianza boosting se crece
con pequenos incrementos exponenciales mientras su sesgo al cuadrado disminuye ex-
ponencialmente a medida que crece el numero de iteraciones. Esto tambien explica por
que el sobreajuste boosting sube de forma muy lenta.
Notas historicas
La idea del boosting ,como un conjunto de metodos para mejorar el desempeno
predictivo de un procedimiento base, parece tener sus raıces en el machine learning.
Kearns y Valiant, [38], han provado que si los clasificadores individuales aciertan, por lo
menos, un poco mejor que el azar, sus predicciones se pueden combinar con un promedio
mucho mejor. Mas tarde, en [67], se propuso un algoritmo boosting con tiempo de
ejecucion polinomico demostrable para construir un mejor conjunto de clasificadores.
El algoritmo AdaBoost, [18], [19] y [20], se considera como un primer paso pionero
hacia la factible utilizacion de algoritmos boosting.
4.4 Paquete mboost 69
Los resultados de [4] y [5], demostrando que el boosting se puede interpretar como un
algoritmo del gradiente funcional descendente, redescubren las raıces mas antiguas del
boosting. En el contexto de la regresion, hay una conexion inmediata con el algoritmo de
Gauss-Southwell, [70], para resolver un sistema de ecuaciones lineales y con el metodo
de ”twicing”de Tukey, [75].
4.4.2. Gradiente Funcional Descendente
Breiman, [4] y [5], demostro que el algoritmo AdaBoost puede ser representado como
un algoritmo de descenso mas rapido en funcion del espacio, al que llamamos gradiente
funcional descendente (FGD). En [22] y [21] se crea a continuacion un marco estadıstico
mas general que da una interpretacion directa del boosting como metodo para la funcion
de estimacion. En su terminologıa, se trata de un enfoque stagewise, additive modeling.
Considerese el problema de estimar la funcion de valores reales descrita por la formula
4.18
f∗(.) = argmınf(.)
E[ρ(Y, f(X))], (4.18)
donde ρ(., .) es una funcion de perdida, que se asume diferenciable y convexa con re-
specto a su segunda componente. Por ejemplo, el error cuadratico de perdida ρ(y, f) =
(y − f)2 produce la bien conocida f∗(x) = E[Y |X = x].
El generico FGD o algoritmo boosting
En lo que sigue, se utilizaran los terminos FGD y boosting de modo equivalente.
Una estimacion de f∗ realizada por boosting en la formula 4.18 puede llevarse a cabo
mediante la consideracion del riesgo empırico n−1∑n
i=1 ρ(Yi, f(Xi)) y persiguiendo it-
eraciones de descenso mas pronunciada en funcion del espacio. El algoritmo, propuesto
por Friedman, [21], sigue los pasos:
1. Se asignan los valores iniciales de m = 0 y f [0], que normalmente se eligen entre
f [0](.) ≡ argmınc n−1∑n
i=1 ρ(Yi, c) y f [0] ≡ 0
2. Tras incrementar m en una unidad, se calcula el gradiente negativo − ∂∂f ρ(Y, f) y
se evalua en f [m−1](Xi), obteniendo:
Ui = − ∂
∂fρ(Y, f)|f=f [m−1](Xi)
, i ∈ 1, . . . , n.
3. Se ajusta el vector de gradientes negativos, mediante el procediemiento base
(en el caso que nos ocupa, la regresion):
(Xi, Yi)ni=1 procedimiento−−−−→ base g[m] (4.19)
4.4 Paquete mboost 70
Y ası puede verse g[m] como una aproximacion del vector de gradientes negativos.
4. Se actualiza
f [m] = f [m−1] + ν · g[m],
donde ν ∈ (0, 1] avanza a lo largo de una estimacion del vector gradiente negativo.
5. Iteramos los pasos de 2 a 4 hasta que m = mstop.
La iteracion de parada, mstop, se puede determinar a traves de la validacion cruzada
o algun criterio de informacion, como se indica en secciones posteriores. La eleccion del
factor de paso ν es de menor importancia, siempre y cuando posea valores pequenos,
como ν = 0, 1. Un valor menor de ν, por lo general, requiere un mayor numero de itera-
ciones boosting y por lo tanto mas tiempo de computacion, mientras que la exactitud
de prediccion ha sido empıricamente valorada como potencialmente mejor y casi nunca
peor al elegir ν suficientemente pequeno (por ejemplo, ν = 0, 1), vease [21]. En [21] se
sugiere el uso de una lınea de busqueda adicional entre los pasos 3 y 4 (en caso de otras
funciones de perdida ρ distintas del error cuadratico): esto provoca un algoritmo un
poco diferente, pero la busqueda de lıneas adicionales parece innecesaria para lograr un
buen estimador f [mstop].
En los pasos 2 y 3 del algoritmo generico de FGD, se asocia a U1, . . . , Un un vector
gradiente negativo. Una de las razones para esto, puede verse en la siguiente formulacion
en el espacio de funciones, que es similar a la exposicion en [54] y a la discusion que se
hace en [62].
Considerando el funcional de riesgo empırico C(f) = n−1∑n
i=1 ρ(Yi, f(Xi)) y el
producto interior usual ⟨f, g⟩ = n−1∑n
i=1 f(Xi)g(Xi). Se calcula la Gateaux derivada
negativa del funcional
−dC(f)(x) = − ∂
∂αC(f + αδx)|α = 0,
siendo f : Rp → R, x ∈ Rp y δx denota a la funcion indicadora en x ∈ Rp. en particular,
al evaluar la derivada −dC en f [m−1] y Xi, se obtiene
−dC(f [m−1])(Xi) = n−1Ui
con U1, . . . , Un exactamente igual a los pasos 2 y 3 del algoritmo generico FGD. en con-
secuencia, el vector gradiente negativo U1, . . . , Un se puede interpretar como la Gateaux
derivada funcional evaluada en los puntos.
Resaltar que el algoritmo en [54] es diferente del metodo generico FGD anterior, ya
que utiliza el producto interior: ⟨U, g⟩ = n−1∑n
i=1 Uig(Xi). Para ciertos procedimientos
base, los dos algoritmos coinciden. Por ejemplo, si g esta definida por
4.4 Paquete mboost 71
g(x) = β(ς)x(ς),
β(j) = (
n∑i=1
X(j)i Ui)/(
n∑i=1
(X(j)i )2),
ς = arg mın1≤j≤p
n∑i=1
(Ui − β(j)X(j)i )2.
se obtiene que n−1∑n
i=1 (Ui − g(Xi))2 = C − ⟨U, g⟩, donde C = n−1
∑ni=1 U
2i es una
constante.
Algunas funciones de perdida y algoritmos boosting
Diferentes algoritmos boosting pueden definirse especificando diversas funciones de
perdida ρ. En el paquetemboost y centrandonos en la regresion; con la respuesta Y ∈ R,
se utiliza habitualmente la funcion de perdida cuadratica (escalada por el factor 1/2 de
tal manera que el vector gradiente equivale a los residuos) definida por
ρL2(y, f) =1
2|y − f |2,
que minimiza f∗L2(x) = E[Y |X = x].
Esta funcion de perdida esta incorporada en el paquete mboost, basta considerar la
familia GaussReg(). El correspondiente algoritmo boosting es el L2−Boosting, veanse
[32] y [22]. Este algoritmo es el mas sencilo de los algoritmos boosting y es muy utilizado
en regresion, en particular, cuando se dispone de muchas covariables [34]. Los pasos del
algoritmo son los siguientes:
2 = 2 (4.20)
1. Se asignan los valores iniciales de m = 0 y f [0]. Por defecto el valor de f [0](.) ≡ Y .
2. Tras incrementar m en una unidad, se calculan los residuos Ui = Yi − f [m−1](Xi)
para i = 1, . . . , n.
3. Se ajusta el vector de residuos, U1, . . . , Un paraX1, . . . , Xn mediante el procedimiento
base para regresion:
(Xi, Ui)ni=1 procedimiento−−−−→ base g[m] (4.21)
4. Se actualiza
f [m] = f [m−1] + ν · g[m],
donde ν ∈ (0, 1].
4.4 Paquete mboost 72
5. Iteramos los pasos de 2 a 4 hasta que m = mstop.
El valor del parametro mstop, como ya se comento anteriormente, puede obtenerse
mediante criterios diversos, entre los que se envuentra validacion cruzada. La derivacion
del algoritmo generico FGD es sencilla y evidente [? ], basta tener en cuenta que el
vector gradiente negativo se convierte en el vector de residuos. Por lo tanto, los valores
de los residuos L2−Boosting se reajustan multiples veces. [75] reconocio la utilidad de
este proceso y propuso el ”twicing”, que no es otra cosa que el L2−Boosting utilizando
mstop = 2 y ν = 1.
Seleccion del procedimiento base
Todos los algoritmos boosting necesitan la especificacion de un procedimiento
base. Esta seleccion puede esta dirigida solo a la optimizacion de la capacidad pre-
dictiva o tambien, ademas, teniendo en cuenta las propiedades estructurales de las
tecnicas boosting. Es este ultimo motivo el que por lo general resulta mas interesante
ya que permite una mejor interpretacion de los resultados del modelo.
Recordamos que el estimador boosting generico, es una suma de las estimaciones
de los procedimientos base
f [m](x) = νm∑k=1
g[k](x).
Por lo tanto, las propiedades estructurales de la funcion estimador boosting son induci-
das por una combinacion lineal de las caracterısticas estructurales del procedimiento
base. Las tecnicas boosting, puede ser muy utiles para su utilizacion en modelos lineales
generalizados con grandes dimensiones, debido a su gran potencia de calculo. Para ello
consideramos el procedimiento base
g(x) = β(ς)x(ς),
β(j) = (
n∑i=1
X(j)i Ui)/(
n∑i=1
(X(j)i )2),
ς = arg mın1≤j≤p
n∑i=1
(Ui − β(j)X(j)i )2.
Se selecciona la mejor variable en un modelo lineal simple, mejor en el sentido de
los mınimos cuadrados ordinarios. Cuando se utiliza con este procedimiento base
L2Boosting, se selecciona en cada iteracion una variable explicativa, no necesariamente
diferente para cada iteracion, y se actualiza la funcion lineal:
f [m](x) = f [m−1](x) + νβ(ςm)x(ςm),
4.4 Paquete mboost 73
donde ςm denota el ındice de la covariable seleccionada en la iteracion m. Las actual-
izaciones de los estimadores de los coeficientes son
β[m] = β[m−1] + ν · β(ςm).
Esta notacion debe interpretarse como que solo la componente ςm−esima del co-
eficiente estimado β[m] (en la iteracion m) se ha actualizado. Para cada iteracion m,
se obtiene un ajuste lineal. Como m tiende a infinito, f [m] converge a una solucion de
mınimos cuadrados que es unica si el diseno de matriz tiene rango completo p ≤ n. El
metodo es tambien conocido como juego de persecucion en el procesamiento de senales
[53] o algoritmo debil codicioso en matematica computacional [72], y es un algoritmo
de Gauss-Southwell, [70], para resolver un sistema lineal de ecuaciones.
Suavizacion paso a paso de modelos aditivos
Los modelos aditivos y los modelos aditivos generalizados, introducidos por Hastie
y Tibshirani en [29], [30], se han hecho muy populares dado que anaden mas flexibilidad
a la estructura lineal de los modelos lineales generalizados. Esta flexibilidad tambien se
puede anadir en el boosting y se hace especialmente notorio ante problemas de elevada
dimension. La introduccion de este concepto de suavizacion en el boosting se hace en el
procedimiento base, basta considerar un procedimiento base no parametrico para
la estimacion de la funcion. Supongamos que f (j) es una estimacion mınimo cuadratica
de un spline cubico de regresion basada en U1, . . . , Un sobre X1, . . . , Xn y con df grados
de libertad fijos. Es decir,
f (j) = argmınf
n∑i=1
(Ui − f(X(j)i ))2 + λ ·
∫(f ′′(x))2dx, (4.22)
donde λ > 0 es un parametro de ajuste que se corresponde con la traza de la matriz
hat, vease [25]. Y ası el procedimiento base quedara definido como:
g(x) = f (ς)(x(ς)),
f (j) definida como se indica en la ecuacion
ς = arg mın1≤j≤p
n∑i=1
(Ui − f (j)(X(j)i ))2.
donde los grados de libertad df son los mismos para todos los f (j).
El L2−Boosting con suavizacion spline paso a paso aplica un modelo aditivo, in-
cluyendo seleccion de variables, es decir, realiza un ajuste que es aditivo en las variables
4.4 Paquete mboost 74
de prediccion. Esto se puede ver inmediatamente, puesto que el L2−Boosting procede
aditivamente para la actualizacion de la funcion f (j) como pudo verse en 4.23. Normal-
izandolo se obtiene el siguiente modelo aditivo estimador:
f [m](x) = µ+
p∑j=1
f [m],(j)(x(j)),
n−1n∑
i=1
f [m],(j)(x(j)) = 0aaa∀j ∈ 1, . . . , p.
Los grados de libertad del procedimiento base de spline suavizado deben ser elegi-
dos pequeno, como por ejemplo df = 4, [34]. Esto produce una varianza baja, pero
normalmente un sesgo importante del procedimiento base. El sesgo puede reducirse
mediante adicionales iteraciones boosting. Esta eleccion de la varianza baja pero de
alto sesgo se ha analizado en [9];
Los suavizadores splines paso a paso se puede generalizar a parejas de suavizadores
splines. Se buscaran entre las mejores parejas de variables predictoras de tal manera que
los suavizadores de U1, . . . , Un frente a ese par de predictores reduzca la suma residual
de cuadrados. Con L2−Boosting esto produce un ajuste del modelo no parametrico con
interaccion de terminos de primer orden. El procedimiento ha demostrado empırica-
mente ser mucho mejor que el ajuste con MARS [10].
L2−Boosting
L2−Boosting es el gradiente funcional descendente considerando como funcion per-
dida el mınimo error cuadratico, lo que equivale a repetir ajuste de los residuos ordi-
narios, como se ha mencionado anteriormente.
A continuacion se explica su desarrollo, considerando la funcion de regresionE[Y |X =
x] con covariable unidimensional X ∈ R y respuesta continua Y ∈ R. Considerese el
caso de un procedimiento de base lineal con matriz H : Rn → Rn y con variable re-
spuesta Y = (Y1, ..., Yn)t cuyos valores ajustados son (f(X1), ..., f(Xn))
t. Considerando
tanto suavizadores tipo nucleo como suavizadores splines, la matriz H del L2−Boosting
ajusta en igual numero de iteraciones m
Bm = Bm−1 +H(I −Bm−1))I − (I −H)m. (4.23)
En primer lugar, si el procedimiento base cumple ∥ I − H ∥< 1, para una norma
adecuada, es decir, tiene capacidad de aprendizaje de manera que el vector de residuos
es mas corto que el vector de entrada de respuesta, entonces Bm converge a la identidad
I cuando m → ∞, y BmY converge al modelo saturado completo Y, interpolando las
4.4 Paquete mboost 75
variables respuesta con exactitud. Ası, vemos que aquı explıcitamente tenemos que parar
antes con las iteraciones boosting a fin de evitar sobreajuste. Cuando se trata el caso de
los procesos con bases suavizadoras de splines cubicos (p.e. en las tecnicas de arboles), es
habitual realizar analisis de los valores propios. La representacion espectral de de H es
H = UDtU , con U tU = UU t = I y D = diag(λ1, . . . , λn), donde los autovalores(λi) de
H siguen un orden decreciente. Por lo que Bm = UDmU t, Dm = diag(λ1,m, . . . , λn,m)
y di,m = 1 − (1 − λi)m. Como es conocido que los splines suavizadores satisfacen:
λ1 = λ2 = 1 y 0 < λi < 1, ∀i ∈ {3, . . . , n}. Por lo tanto, los valores propios de la
matriz hat del boosting en la iteracion m satisfacen
d1,m ≡ d2,m ≡ 1 ∀m,
0 < di,m = 1− (1− λi)m < 1 ∀i ∈ 3, . . . , n,
di,m → 1 cuando m → ∞.
Ambos metodos suelen tener el mismo mınimo error cuadratico medio [34], pero L2−Boosting
sobreajusta mucho mas lentamente que un simple spline suavizado.
Se obtienen dos resultados interesantes. Primero, las proporciones minimax se con-
siguen utilizando un procedimiento base con grados de libertad fijos, lo que significa
baja varianza desde una perspectiva asintotica [34]. En segundo lugar, L2−Boosting
con suavizadores splines cubicos tiene la capacidad de adaptarse a las suavizaciones de
orden superior, por lo que con la iteracion de frenado es el unico parametro de ajuste.
Y puede adaptarse a cualquier suavizacion de orden superior sin necesidad de aumentar
el orden del spline en el procedimiento base.
Recientemente, se han establecido resultados para la convergencia asintotica y la
tasa minimax, para criterios de parada boosting mas rapidos en situaciones mas gen-
erales, [2] [79].
El L2−Boosting con suavizadores splines puede lograr tasas de convergencia, en
terminos del error cuadratico medio, mas rapidas que el clasico O(n−4/5), suponiendo
que la funcion subyacente real es lo suficientemente suave [34].
L2−Boosting para modelos lineales de grandes dimensiones
Considerando un potencial modelo lineal de dimension grande definido por la ecuacion
4.24, donde ε1, . . . , εn son independiente se identicamente distribuıdos con E[εi] = 0 e
independientes de todos los Xi, i ∈ {1, . . . , n}. Permitimos que el numero de covariables
p pueda ser mucho mas grande que el tamano de la muestra n. El modelo abarca muy
diversos campos con funciones g(j), ∀j ∈ {1, . . . , p}; como por ejemplo modelos
de superficie Yi = f(Zi) + εi, con puntos de diseno en Zi ∈ R2 y f(z) =∑
j β(j)g(j)(z).
4.4 Paquete mboost 76
Para el ajuste de este modelo se pueden seguir los pasos descritos en ? que ajusta ca-
da iteracion con la mejor covariable y la mayor reduccion de la suma de residuos al
cuadrado. Este metodo de ajuste posee las siguientes propiedades basicas:
1. A medida que el numerom de iteraciones boosting aumenta, la estimacion L2−Boosting
f [m] converge a la solucion mınima cuadratica. Ademas, esta solucion es unica si
la matriz de diseno tiene rango completo p = n.
2. Al detener el proceso antes, lo que se necesita para evitar el sobreajuste, el metodo
L2−Boosting a menudo hace seleccion de variables.
3. Las estimaciones de los coeficientes β[m] son amenudo versiones reducidas de una
estimacion por mınimos cuadrados βOLS relacionados con Lasso, como se describe
a continuacion.
Yi = β0 +
p∑j=1
β(j)X(j)i + εi,∀i ∈ 1, . . . , n (4.24)
Hastie, Tibshirani y Friedman, [28], destacan en primer lugar una relacion intere-
sante entre L2−Boosting con mınimos cuadrados lineales componente a componente y
Lasso [73] con el siguiente metodo de penalizacion ℓ1:
β(λ) = argmınβ
n−1n∑
i=1
(Yi − β0 −p∑
j=1
β(j)X(j)i )2 + λ
p∑j=1
|β(j)|. (4.25)
Efron et al. [16] realizaron la conexion rigurosa y explıcita de este hecho con lo
que los consideraban una version de L2−Boosting, llamado Forward Stagewise Linear
Regression (FSLR), y demostraron que FSLR con tamanos de paso infinitesimales pro-
duce un conjunto de soluciones, que son aproximadamente equivalentes a las obtenidas
mediante el metodo Lasso al variar el parametro de regularizacion λ. A pesar de que
L2−Boosting y Lasso no son metodos equivalentes en general, [57] y [83], puede ser util
para interpretar el boosting como un metodo basado en penalizaciones ℓ1.
En cuanto a la consistencia asintotica para grandes dimensiones resaltar que existen
resultados, [7], validos para disenos arbitrarios y sin necesidad de hipotesis de colineal-
idad o correlaciones. En el desarrollo del modelo, basta con tener encuenta que p = pn
y le permite aumentar con la muestra de tamano n, los coeficientes seran β(j) = β(j)n
potencialmente dependientes de n, y la funcion de regresion se denota por fn. De este
modo se puede definir el boosting, [7], como un metodo que es capaz de estimar en
forma consistente en muy altas dimensiones para modelos lineales dispersos, para el
metodo Lasso existen resultados similares, [26]. En cuanto a los resultados empıricos,
4.4 Paquete mboost 77
no parece haber ninguna superioridad global de L2−Boosting mas de Lasso o viceversa,
[8].
Considerando la matriz hat
H(j) = X(j)(X(j))t/||X(j)||2 con j ∈ 1, . . . , p
de dimension nxn para el operador de ajuste lineal por mınimos cuadrados utilizando
solo la j−esima covariable X(j) = (X(j)1 , . . . , X
(j)n )t; y con ||.||2 denotando la norma
euclıdea. La matriz hat del procedimiento base por mınimos cuadrados lineales paso
a paso , queda definida como:
H(ς) : (U1, . . . , Un) 7→ U1, . . . , Un.
Siguiendo un proceso analogo al llevado a cabo en 4.23; se obtiene, para la iteracion m,
la matriz hat del L2−Boosting:
Bm = Bm−1+ν ·H(ςm)(I−Bm−1) = I−(I−ν ·H(ςm)) ·(I−ν ·H(ςm−1)) · · · (I−ν ·H(ς1)),
(4.26)
siendo ςr ∈ 1, . . . , p la componente que se ha seleccionado en el procedimiento base
para la r−esima iteracion boosting. Resaltar que Bm depende de la variable respuesta Y
por medio de la seleccion de la componente ςr, r = 1, . . . ,m. Mediante esta dependencia
puede entenderse Bm como una aproximacion de la matriz hat. Despreciando el efecto
de la seleccion de ςr, (r = 1, . . . ,m), se definen los grados de libertad del ajuste boosting
en la iteracion m como df(m) = traza(Bm). Incluso con ν = 1, df(m) es muy diferente
de contar el numero de variables que han sido seleccionados hasta el iteracion m. Con la
definicion de grados de libertad, se estima la varianza del error σ2ε = E[ε2i ] del modelo
lineal como:
σ2ε =
1
n− df(mstop)
n∑i=1
Yi − f [mstop](Xi)2.
Una medida, para cuantificar la complejidad de la estimacion del coeficiente individual
β[m]j , son los grados de libertad individuales df (j)(m); y se obtienen a partir de la matriz
Bm del modo siguiente: Considerando Bm =∑p
j=1B(j)m , con B
(j)m como la aproximacion
de la matriz hat podemos escribir B(j)m Y = X(j)β
[m]j . Calculando 2 de modo iterativo
como:
B(ςm)m = B
(ςm)m−1 + ν ·H(ςm)(I −Bm−1),
B(j)m = B(j)
m ∀j = ςm
obtenemos la descomposicion de los grados de libertad totales en p terminos df(m) =∑pj=1 df
(j)(m), con df (j)(m) = traza(B(j)m ).
4.4 Paquete mboost 78
Una vez conocidos los grados de libertad, podemos utilizar el criterio de informacion
de Akaike corregido (AICc) para estimar una buena iteracion de parada. Tendremos
por tanto:
AICc(m) = log(σ2) +1 + df(m)/n
(1− df(m) + 2)/n
σ2 = n−1n∑
i=1
(Yi − (BmY )i)2
Otro criterio alternativo que se puede utilizar es el criterio gMDL (Hansen and Yu
[38]). Puede considerarse un puente entre el AIC y el BIC ya que trata de seleccionar
la mejor forma adaptativa entre ambos. Se define como:
gMDL(m) = log(S) +df(m)
nlog(F ),
S =nσ2
n− df(m)
F =
∑ni=1 Y
2i − nσ2
df(m)S
4.4.3. Estudios de simulacion
Escenario: Ajustes no lineales
Dentro del paquete mboost, el trabajo con la regresion cuantil suavizada se hace a
traves de la funcion gamboost. Con ella se han realizado los ajustes, seleccionando los
siguientes parametros:
Se han utilizado un mstop de 500. Para ello se ha utilizado la opcion control en el
modelo.
A la hora de seleccionar los centiles, se ha hecho con la opcion family, seleccionan-
do QuantReg(tau =valor del cuantil). Se han considerado los valores 10, 30, 50, 70
y 90, de modo analogo a como se ha hecho en los capıtulos anteriores.
Se ha trabajado con las simulaciones no lineales descritas en la ecuacion 3.1. Los
resultados graficos, obtenidos de aplicar los ajustes a los diversos conjuntos de datos,
pueden verse en las figuras 4.18, 4.19, 4.20, 4.21, 4.22 y 4.23, y :
ademas del evidente buen comportamiento de los ajustes, en el caso de los errores
N(0, 1); resaltar las diferencias, en forma, entre las diferentes curvas de ajuste.
Tanto en el caso de la funcion seno (vease la figura 4.18) como en el caso del
logaritmo (figura 4.21).
4.4 Paquete mboost 79
0.0 0.5 1.0 1.5 2.0 2.5 3.0
−5
05
10
Errores N(0,1) y función seno
Centiles:10, 30, 50, 70 y 90ejex
eje
y
Figura 4.18: Seno y errores N(0,1).
tambien se observa el buen comportamiento de los ajustes, en el caso de los errores
t(2) y resaltar de igual modo las diferencias, en forma, entre las diferentes curvas
de ajuste. Tanto en el caso de la funcion seno (vease la figura 4.19) como en el
caso del logaritmo (figura 4.22).
Al utilizar los errores G(1, 2), el buen comportamiento de los ajustes sigue man-
teniendose. Y es interesante observar que la distancia entre las curvas de ajuste
aumenta al aumentar el valor del cuantil de ajuste. Veanse las figuras 4.20 y 4.23.
Tambien se ha realizado una comparativa, (vease la figura 4.24), de los errores de
prediccion provocados por los modelos anteriores. Observandose una infraestimacion en
el caso de los errores Gamma(1, 2), mas acusado en el caso de la funcion seno. Tambien
resalta, en la funcion seno un peor ajuste con los errores N(0, 1).
4.4.4. Aplicacion a datos reales
Regresando a la base de datos de la poblacion escolar gallega y realizando los ajustes
de modo independiente para varones y mujeres. Se presentan en la figura 4.25 dichos
ajustes suavizados. Cabe resaltar la diferencia obtenida entre las curvas de los distintos
cuantiles. De entre todos los paquetes utilizados, es en este en el que se llegan a captar
4.4 Paquete mboost 80
0.0 0.5 1.0 1.5 2.0 2.5 3.0
−1
00
10
20
30
40
50
Errores t(2) y función seno
Centiles:10, 30, 50, 70 y 90ejex
eje
y
Figura 4.19: Seno y errores t(2).
0.0 0.5 1.0 1.5 2.0 2.5 3.0
51
01
52
02
5
Errores G(1,2) y función seno
Centiles:10, 30, 50, 70 y 90ejex
eje
y
Figura 4.20: Seno y errores G(1,2).
4.4 Paquete mboost 81
0.0 0.5 1.0 1.5 2.0 2.5 3.0
−5
05
Errores N(0,1) y función log
Centiles:10, 30, 50, 70 y 90ejex
eje
y
Figura 4.21: Logaritmo y errores N(0,1).
0.0 0.5 1.0 1.5 2.0 2.5 3.0
−1
00
10
20
30
Errores t(2) y función log
Centiles:10, 30, 50, 70 y 90ejex
eje
y
Figura 4.22: Logaritmo y errores t(2).
4.4 Paquete mboost 82
0.0 0.5 1.0 1.5 2.0 2.5 3.0
−5
05
10
15
20
Errores G(1,2) y función log
Centiles:10, 30, 50, 70 y 90ejex
eje
y
Figura 4.23: Logaritmo y errores G(1,2).
−5
05
Errores N(0,1)
sin log
Err
ore
s d
e p
red
icci
ón
−5
05
−2
0−
10
01
02
03
04
0
Errores t(2)
sin log
Err
ore
s d
e p
red
icci
ón
−2
0−
10
01
02
03
04
0
−5
05
10
15
Errores G(1,2)
sin log
Err
ore
s d
e p
red
icci
ón
−5
05
10
15
Figura 4.24: Errores obtenidos en los diferentes ajustes no lineales unidimensionales.
Error=valor real−prediccion. Se ha utilizado el percentil 50, τ = 0,5.
4.4 Paquete mboost 83
120 160
12
34
56
78
Centiles:10, 30, 50, 70 y 90ejex
eje
y
NIÑOS
110 130 150 170
12
34
56
Centiles:10, 30, 50, 70 y 90ejex
eje
y
NIÑAS
Figura 4.25: Ajustes mediante regresion cuantil suavizada.
los comportamientos de valores altos y bajos de la variable respuesta fvc. Este resultado
deja en evidencia de la potencia del boosting, a la hora de tratar los ajustes del modelo
de regresion cuantil a los datos.
CODIGO:
#########################AJUSTES NO LINEALES(mboost)
taus <- c(.1,.3,.5,.7,.9)
oo=order(datos$talla)
for (j in 1:5){
lines(datos$talla[oo],fitted(gamboost(y~x,data=datos,
control = boost_control(mstop = 5000),
family = QuantReg(tau=taus[j])))[oo])}
Discusion
La regresion cuantil suavizada se esta convirtiendo, hoy en dıa, en una tecnica
estadıstica versatil en su aplicacion a datos reales. Su gran potencialidad radica en:
la gran variedad de aplicaciones en campos tan diversos como la Medicina, la
Ecologıa o la Economıa, entre otros.
la necesidad de aplicar tecnicas de suavizacion para detectar efectos no lineales
de las covariables en la respuesta de interes.
la existencia de software libre implementando diferentes metodos de estimacion.
En este trabajo se ha llevado a cabo un estudio comparativo de las principales tecni-
cas de regresion cuantil suavizadas, implementadas actualmente en R. La comparacion
se llevo a cabo a traves de simulacion y de una aplicacion a datos reales en el ambito
de la Pediatrıa. A contiacion se exponen las principales conclusiones que se derivan de
este estudio.
1. Comparando los errores de la estimacion del percentil 50 obtenida por las distintas
tecnicas, el estudio de simulacion indica que:
los resultados obtenidos con el paquete quantreg han sido de sobreesti-
macion en todos los escenarios no parametricos, sobre todo, en los que se
utilizan los errores N(0, 1) y G(1, 2).
al utilizar el paquete gamlss se obtiene infraestimacion con los erroresN(0, 1)
y sobrestimacion al tratar con errores G(1, 2). Con lo que podemos decir que
la tecnica basada en GAMLSS depende mucho del tipo de error.
con la tecnica LMS (implementada en el paquete VGAM), la sobrestimacion se
obtiene en el escenario correspondiente al logaritmo y la infraestimacion en
el genreado mediante la funcion seno. Por lo que esta tecnica es muy sensible
a la forma de los datos. Ademas presenta problemas a la hora de trabajar
con respuestas de valores negativos.
85
el metodo basado en boosting es el que ofrece menores errores en general,
independientemente del escenario de simulacion utilizado.
2. Hay que hacer notar que, en algunas de las tecnicas utilizadas, el grado de
suavizacion no se selecciona de modo automatico. Especıficamente en los metodos
LMS y GAMLSS no existen todavıa un criterio de seleccion optima del parametro
de suavizacion. Teniendo que ser elegido por el investigador. (En nuestro estudio
se han utilizado los valores por defecto implementados en los paquetes correspon-
dientes).
3. El boosting, en comparacion con los metodos que utilizan programacion lineal [43],
permite: a) manejar un mayor numero de efectos no lineales en las covariables;
b) que la estimacion de parametros y seleccion de variables se ejecuten en una
unica fase de la estimacion, lo que es especialmente favorable para las covariables
de modelos de grandes dimensiones [17].
4. Desde el punto de vista computacional, el metodo mas eficiente ha sido el basado
en la tecnica boosting, en comparacion con las metodologıas LMs y GAMLSS. La
aplicacion a datos reales se realizo sobre una base de datos de Pediatrıa referida
a valores espirometricos de la poblacion escolar de Galicia. Se han seleccionado
como variable de estudio, la capacidad vital forzada (fvc) y como covariables
la talla y el sexo de los individuos. Los resultados obtenidos indican una clara
relacion no lineal de la fvc y la talla, que a su vez es diferente en funcion del sexo.
Esto pone de manifiesto, la necesidad de la suavizacion en la busqueda de los
valores de referencia espirometricos mas adecuados a la poblacion escolar gallega.
5. La aplicacion a datos reales indica tambien que la tecnica basada en boosting
parece ser la mas competitiva: de entre todas las curvas de regresion cuantil
obtenidas con las diferentes tecnicas utilizadas, son las representadas mediante
boosting, las que mejor captan las diferencias entre los cuantiles y se adaptan
mejor a los valores de referencia de la poblacion.
6. Es de notar, sin embargo, que con la tecnica boosting las curvas cuantil son
estimadas independientes por lo que estos modelos pueden crear problemas con el
cruce de cuantiles. Este hecho se puede observar en la scurvas percentil obtenidas
por boosting para el fvc, especialmente para valores iniciales de la covariable talla.
Bibliografıa
[1] Bartlett, P. and Traskin, M. (2007). Adaboost is consistent. J. Mach. Learn. Res.,
8:2347–2368.
[2] Bissantz, N., Hohage, T., Munk, A., and Ruymgaart, F. (2007). Convergence rates
of general regularization methods for statistical inverse problems and applications.
SIAM J. Numer. Anal., 45:2610–2636.
[3] Box, G. E. P. and Cox, D. R. (1964). An analysis of transformations. Journal of
Royal Statistical Society - Series B, 26:211–252.
[4] Breiman, L. (1998). Arcing classifiers (with discussion). Annals of Statistics, 26:801–
849.
[5] Breiman, L. (1999). Prediction games and arcing algorithms. Neural Computation,
11:1493–1517.
[6] Brian, S., Cade, B., and Noon, R. (2003). A gentle introduction to quantile regres-
sion for ecologists. Frontiers in Ecology and the Environment, 1:412–420.
[7] Buehlmann, P. (2006). Boosting for high-dimensional linear models. Annals of
Statistics, 34:559–583.
[8] Buehlmann, P. and Hothorn, T. (2007). Boosting algorithms: Regularization, pre-
diction and model fitting. Statistical Science, 22:477–505.
[9] Buehlmann, P. and Yu, B. (2003). Boosting with the l2 loss: Regression and classi-
fication. Journal of the American Statistical Association, 98:324–339.
[10] Buehlmann, P. and Yu, B. (2006). Sparse boosting. J. Machine Learning Research,
7:1001–1024.
[11] Cole, T. J. (1988). Using the lms method to measure skewness in the nchs and
dutch national height standards. Ann. Hum. Biol., 16:407–419.
BIBLIOGRAFIA 87
[12] Cole, T. J. (1998). Fitting smoothed centile curves to reference data (with discus-
sion). Journal of the Royal Statistical Society (A), 151:385–418.
[13] Cole, T. J. and Green, P. J. (1992). Smoothing reference centile curves: the lms
method and penalized likelihood. Statistics in Medicine, 11:1305–1319.
[14] Crisp, A. and Burridge, J. (1994). A note on nonregular likelihood functions in
heteroscedastic regression models. Biometrika, 81:585–587.
[15] de Boor, C. (1978). A Practical Guide to Splines. Springer.
[16] Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2004). Least angle regres-
sion (with discussion). Ann. Statist., 32:407–499.
[17] Fenske, N., Kneib, T., and Hothorn, T. (2009). Identifying risk factors for severe
childhood malnutrition by boosting additive quantile regression. Technical report,
Department of Statistics University of Munich.
[18] Freund, Y. and Schapire, R. (1995). A decision-theoretic generalization of on-
line learning and an application to boosting. In Proceedings of the Second European
Conference on Computational Learning Theory.
[19] Freund, Y. and Schapire, R. (1996). Experiments with a new boosting algorithm.
In Proceedings of the Thirteenth International Conference on Machine Learning.
[20] Freund, Y. and Schapire, R. (1997). A decision-theoretic generalization of on-line
learning and an application to boosting. Journal of Computer and System Sciences,
55:119–139.
[21] Friedman, J. (2001). Greedy function approximation: A gradient boosting machine.
Annals of Statistics, 29:1189–1232.
[22] Friedman, J., Hastie, T., and Tibshirani, R. (2000). Additive logistic regression:
A statistical view of boosting (with discussion). Annals of Statistics, 28:379–407.
[23] Gasser, T., Muller, H. G., Kohler, W., Molinari, L., and Prader, A. (1984). Non-
parametric regression analysis of growth curves. Annals of Statistics, 12:210–229.
[24] Gonzalez Barcala, F. J., Cadarso Suarez, C., Valdes Cuadrado, L., Leis, R., Ca-
banas, R., and Tojo, R. (2008). Lung function reference values in children and
adolescents aged 6 to 18 years in galicia. Arch Bronconeumology, 44:295–302.
[25] Green, P. J. and Silverman, B. W. (1994). Nonparametric Regression and Gener-
alized Linear Models. Chapman and Hall.
BIBLIOGRAFIA 88
[26] Grennshtein, E. and Ritov, Y. (2004). Persistence in high-dimensional predictor
selection and the virtue of overparametrization. Bernoulli, 10:971–988.
[27] Gutenbrunner, C. and Jureckova, J. (1991). Regression quantile and regression
rank score process in the linear model and derived statistic. Annals of Statistics,
20:305–330.
[28] Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of Statistical
Learning; Data Mining, Inference and Prediction. Springer, New York.
[29] Hastie, T. J. and Tibshirani, R. J. (1986). Generalized additive models (with
discussion). Statist. Sci., 1:297–318.
[30] Hastie, T. J. and Tibshirani, R. J. (1990). Generalized Additive Models. Chapman
and Hall, London.
[31] Hastie, T. J. and Tibshirani, R. J. (1993). Varying coeffcient models (with discus-
sion). Journal of Royal Statistical Society - Series B, 55:757–796.
[32] Healy, M. J. R. (1962). The effect of age-grouping on the distribution of a mea-
surement affected by growth. Amer. J. Phys. Anth, 20:49–50.
[33] Hothorn, T., Buhlmann, P., Dudoit, S., Molinaro, A., and Van Der Laan, M. (2006).
Survival ensembles. Biostatistics, 7:355–373.
[34] Hothorn, T., Buehlmann, P., Kneib, T., Schmid, M., and Hofner, B. (2010). mboost:
Model-Based Boosting.
[35] Ihaka, R. and Gentleman, R. (1996). R: A language for data analysis and graphics.
Journal of Computational and Graphical Statistics, 5:299–314.
[36] Jenss, R. M. and Bayley, N. (1937). A mathematical method for studying growth
in children. Hum. Biol., 9:556–563.
[37] Jiang, W. (2004). Process consistency for adaboost (with discussion). Annals of
Statistics, 32:13–29, 85–134.
[38] Kearns, M. and Valiant, L. (1994). Cryptographic limitations on learning boolean
formulae and finite automata. J. Assoc. Comput. Machinery, 41:67–95.
[39] Klein, B. y Korsholm, L., editor (2001). The GAMLSS project: a flexible approach
to statistical modelling.
BIBLIOGRAFIA 89
[40] Koenker, R. (2005). Quantile Regression. Cambridge Books. Cambridge University
Press.
[41] Koenker, R. (2010). quantreg: Quantile Regression. R package version 4.50.
[42] Koenker, R. and dOrey (1987). Computing regression quantiles. Applied Statistics,
36:383–393.
[43] Koenker, R. and dOrey (1994). Computing regression quantiles. Applied Statistics,
43:410–414.
[44] Koenker, R. and Hallock, K. F. (2000). Quantile regression an introduction. In
Journal of Economic Perspectives - Symposium on Econometric Tools.
[45] Koenker, R. and Hallock, K. F. (2001). Quantile regression. Journal of Economic
Perspectives, 15:143–156.
[46] Koenker, R. and Mizera, I. (2003). Penalized triograms: Total variation regular-
ization for bivariate smoothing. JRSS, 66:145–163.
[47] Koenker, R. and Ng, P. (2003). SparseM: A Sparse Linear Algebra Package for R.
[48] Koenker, R., Ng, P., and Portnoy, S. (1994). Quantile smoothing splines. Biometri-
ka, 81:673–680.
[49] Koenker, R. and Portnoy, S. (1997). The gaussian hare and the laplacean tor-
toise: Computability of squared-error vs absolute error estimators, (with discussion).
Statistical Science, 12:279–300.
[50] Koenker, R. W. (1994). Asymptotic Statistics, chapter Confidence Intervals for
regression quantiles, pages 349–359. Springer-Verlag, New York.
[51] Koenker, R. W. and Bassett, G. W. (1978). Regression quantiles. Econometrica,
46:33–50.
[52] Lutz, R. and Buhlmann, P. (2006). Boosting for highmultivariate responses in
high-dimensional linear regression. Statist. Sinica, 16:471–494.
[53] Mallat, S. and Zhang, Z. (1993). Matching pursuits with time-frequency dictio-
naries. In IEEE Transactions on Signal Processing.
[54] Mason, L., Baxter, J., Bartlett, P., and Frean, M. (2000). Functional gradient
techniques for combining hypotheses. In Advances in Large Margin Classifiers.
BIBLIOGRAFIA 90
[55] Mease, D., Wyner, A., and Buja, A. (2007). Costweighted boosting with jittering
and over/under-sampling: Jous-boost. J. Machine Learning Research, 8:409–439.
[56] Nelder, J. A. and Wedderburn, R. W. M. (1972). Generalized linear models. J. R.
Statist. Soc. A., 135:370–384.
[57] Osborne, M., P. B. and Turlach, B. (2000). A new approach to variable selection
in least squares problems. IMA J. Numer. Anal., 20:389–403.
[58] Preece, M. A. and Baines, M. J. (1978). A new family of mathematical models
describing the human growth curve. Ann. Hum. Biol., 5:1–24.
[59] R Development Core Team (2010). R: A Language and Environment for Statistical
Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-
900051-07-0.
[60] Reinsch, C. (1967). Smoothing by spline functions. Numerische Mathematik,
10:177–183.
[61] Ridgeway, G. (1999). The state of boosting. Comput. Sci. Statistics, 31:172–181.
[62] Ridgeway, G. (2000). Discussion on additive logistic regression: A statistical view
of boosting’, by j. friedman, t. hastie, r. tibshirani. Annals of Statistics, 28:393–400.
[63] Ridgeway, G. (2002). Looking for lumps: Boosting and bagging for density esti-
mation. Computational Statistics & Data Analysis, 38:379–392.
[64] Rigby, R. A. and Stasinopoulos, D. M. (1996a). A semi-parametric additive model
for variance heterogeneity. Statist. Comput., 6:57–65.
[65] Rigby, R. A. and Stasinopoulos, D. M. (1996b). Statistical Theory and Compu-
tational Aspects of Smoothing, chapter Mean and dispersion additive models, pages
215–230. Physica, Heidelberg.
[66] Rigby, R. A. and Stasinopoulos, D. M. (2005). Generalized additive models for
location, scale and shape,(with discussion). Applied Statistics, 54:507–554.
[67] Schapire, R. (1990). The strength of weak learnability. Machine Learning, 5:197–
227.
[68] Schapire, R. (2002). The boosting approach to machine learning: An overview.
nonlinear estimation and classification. Lecture Notes in Statistics, 171:149–171.
BIBLIOGRAFIA 91
[69] Silverman, B. W. (1985). Some aspects of the spline smoothing approach to non-
parametric regression curve fitting. Journal of the Royal Statistical Society - Series
B, 47:1–52.
[70] Southwell, R. (1946). Relaxation Methods in Theoretical Physics. Oxford, at the
Clarendon Press.
[71] Stasinopoulos, M. y Touloumi, G., editor (2002). The R implementation of Gen-
eralized Additive Models for Location, Scale and Shape in Statistical modelling.
[72] Temlyakov, V. (2000). Weak greedy algorithms. Adv. Comput. Math, 12:213–227.
[73] Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. J. Roy.
Statist. Soc. Ser. B, 58:267–288.
[74] Tojo Sierra, R., Leis Trabazo, R., and Cadarso Suarez, C. (1999). Valores estandar
de Galicia. El estudio Galinut. Universidade de Santiago de Compostela.
[75] Tukey, J. (1977). Exploratory Data Analysis. Addison-Wesley, Reading, MA.
[76] Vant Hof, M. A., Wit, J. M., and Roede, M. J. (1985). A method to construct
age references for skewed skinfold data, using box-cox transformations to normality.
Human Biology, 57:131–139.
[77] Venables, W. N. and Ripley, B. D. (2002). Modern Applied Statistics with S.
Springer.
[78] Wilkinson, G. N. and Rogers, C. E. (1973). Symbolic description of factorial models
for analysis of variance. Applied Statistics, 22:392–399.
[79] Yao, Y., Rosasco, L., and Caponnetto, A. (2007). On early stopping in gradient
descent learning. Constr. Approx., 26:289–315.
[80] Yee, T. W. (2010a). The vgam package for categorical data analysis. Journal of
Statistical Software, 32(10):1–34.
[81] Yee, T. W. (2010b). VGAM: Vector Generalized Linear and Additive Models.
[82] Yee, T. W. and Wild, C. J. (1996). Vector generalized additive models. Journal
of Royal Statistical Society - Series B, 58(3):481–493.
[83] Zhao, P. and Yu, B. (2007). Stagewise lasso. J. Mach. Learn. Res., 8:2701–2726.