trabajo n de m aster - tema: regresi on...

Trabajo fin de master - Tema: Regresion Cuantil

Directores

Carmen Cadarso Suarez

Javier Roca Pardinas

Por

Isabel Martınez Silva

30 de Junio de 2010

Agradecimientos

En primer lugar deseo expresar mi mas sincero agradecimiento a la profesora Carmen

Marıa Cadarso Suarez y al profesor Javier Roca Pardinas por la confianza depositada

en mı, al acceder a ser mis directores de proyecto. Los agradecimientos a la profesora

Carmen Cadarso, debo extenderlos por haberme abierto las puertas del mundo de la

Bioestadıstica y permitirme dar un cambio en mi carrera profesional.

Al Doctor Francisco Gude Sampedro, gracias por haber accedido a mi incorpo-

racion en practicas en la Unidad de Epidemiologıa Clınica del Complejo Hospitalario

Universitario de Santiago, y haberme permitido entrar en contacto con la investigacion

Biomedica. Y a mi companera de practicas en dicha Unidad, Marıa Teresa Alves Perez

(Mayte), por los buenos ratos que hemos pasado aprendiendo.

No puedo dejar de mencionar al profesor Wenceslao Gonzalez Manteiga, por haberme

dado a conocer el Master de Tecnicas Estadısticas en el que presento este proyecto fin

de master. A mis companeras de promocion Teresa Noguera Moreno y Anaderli Torres

Ortiz, por su apoyo y colaboracion en estos dos anos. Y a las companeras que trabajan

en bioestadıstica, que siempre me ofrecen su ayuda desinteresada y son un ejemplo a

seguir: Marıa Pazos Pata y Marıa Xose Rodrıguez Alvarez (Cote).

Para finalizar, recordar a mi padre, agradecerle a Marıa sus dulces suenos y a mi

familia todo el apoyo recibido.

Indice general

Agradecimientos II

1. Introduccion 1

2. Regresion parametrica 3

2.1. Regresion lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.1.1. Estudios de simulacion . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1.2. Aplicacion a datos reales. . . . . . . . . . . . . . . . . . . . . . . 8

2.2. Regresion cuantil parametrica unidimensional . . . . . . . . . . . . . . . 11

2.2.1. Cuantil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.2. Regresion cuantil unidimensional . . . . . . . . . . . . . . . . . . 11


2.2.4. Aplicacion a datos reales. . . . . . . . . . . . . . . . . . . . . . . 20

2.3. Regresion cuantil parametrica multidimensional . . . . . . . . . . . . . . 24


3. Regresion cuantil no parametrica 28

3.1. Regresion cuantil suavizada . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.2. Estudios de simulacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.2.1. Escenario 1: Lineal Homocedastico. . . . . . . . . . . . . . . . . . 29

3.2.2. Escenario 2: Lineal Heterocedastico. . . . . . . . . . . . . . . . . 29

3.2.3. Escenario 3: No Lineal (seno). . . . . . . . . . . . . . . . . . . . . 30

3.2.4. Escenario 4: No Lineal (logaritmo). . . . . . . . . . . . . . . . . . 33

3.3. Aplicacion a datos reales . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4. Software utilizado para regresion cuantil 38

4.1. Paquete quantreg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.1.1. Marco teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39


4.1.3. Aplicacion a datos reales . . . . . . . . . . . . . . . . . . . . . . . 40

INDICE GENERAL iv

4.2. Paquete gamlss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2.1. Modelos GAMLSS . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.2.2. Parametros, Distribuciones y Terminos aditivos . . . . . . . . . . 45

4.2.3. Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.2.4. Otros paquetes gamlss . . . . . . . . . . . . . . . . . . . . . . . . 47

4.2.5. Aplicacion a datos simulados . . . . . . . . . . . . . . . . . . . . 48


4.3. Paquete VGAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.3.1. Marco teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55



4.4. Paquete mboost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.4.1. Marco teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.4.2. Gradiente Funcional Descendente . . . . . . . . . . . . . . . . . . 69



5. Discusion 84

6. 86Bibliografiíía

Introduccion

La regresion cuantil es una tecnica estadıstica para el calculo de curvas de crecimien-

to y valores de referencia muy util en diversos ambitos de aplicacion, como la Ecologıa

[6], la Economıa [45] y la Medicina [24]. En el entorno aplicado se plantea la necesidad

de ampliar la vision parametrica clasica mediante el uso de tecnicas de suavizacion en

regresion, y ası poder captar todas las variaciones que se producen en las diferentes

curvas cuantil de la poblacion, condicional al conjunto de covariables.

La regresion cuantil se utiliza cuando el objetivo de estudio se centra en la esti-

macion de los diferentes percentiles (como por ejemplo, la mediana) de una poblacion

de interes. Una ventaja de utilizar la regresion cuantil para estimar la mediana, en

lugar de regresion por mınimos cuadrados ordinarios (para estimar la media), es que la

regresion cuantil sera mas robusta en presencia de valores atıpicos. La regresion cuantil

puede ser vista como un analogo natural en el analisis de regresion a la hora de utilizar

distintas medidas de tendencia central y dispersion, para obtener ası un analisis mas

completo y robusto de los datos. Otra de las ventajas de este tipo de regresion radica

en la posibilidad de estimar cualquier cuantil, pudiendo valorar ası lo que ocurre con

valores extremos de la poblacion.

El objetivo principal de este trabajo ha sido realizar un estudio comparativo ex-

haustivo, mediante simulacion y aplicacion a datos reales, de varias tecnicas flexibles

actuales de regresion cuantil, todas ellas implementadas en R [59]. Especıficamente se

revisan: i) la metodologıa de Koenker y Basset [51] con el paquete quantreg; ii) el

metodo basado en Modelos Aditivos Generalizados de localizacion, escala y forma[39],

implementado en el paquete gamlss; iii) la tecnica LMS [11] representada aquı como

un Modelo Aditivo Generalizado Vectorial [82], utilizando el paquete VGAM y; iv) una

nueva vision de la regresion cuantil a traves del proceso boosting [8], con el paquete

mboost.

Este estudio se estructura de la siguiente forma: se parte de la regresion clasica

(seccion 2.1), a continuacion se revisa la regresion cuantil parametrica (secciones 2.2

y 2.3) y se exponen los metodos mas actuales de regresion cuantil no parametrica

2

(seccion 3), realizando a continuacion un estudio comparativo de las diferentes tecnicas

utilizadas (seccion 4).

En el estudio de simulacion se consideraran, en primer lugar, escenarios parametri-

cos (seccion 2.1.1), tanto homocedasticos como heterocedasticos, con el fin de comparar

la regresion clasica y la regresion cuantil parametrica. En segundo lugar se simulan esce-

narios no parametricos (seccion 3.2.3 y 3.2.4) con el fin de evaluar las distintas tecnicas

de regresion cuantil suavizada. En todos los escenarios (tanto parametricos como no

parametricos) se han considerado distintos tipos de error en la variable respuesta: nor-

mal tıpica (N(0,1)), t-Student con 2 grados de libertad (t(2)) y distribucion gamma

(G(1,2)).

Finalmente se aplicaran todas las tecnicas de regresion cuantil a una base de datos

de Pediatrıa [74], con el fin de evaluar su comportamiento en la construccion de valores

de referencia de la funcion respiratoria de la poblacion escolar de Galicia [24], en funcion

de la talla y el sexo de los ninos.

Regresion parametrica

2.1. Regresion lineal simple

En terminos generales, la regresion lineal se suele formalizar como la media condi-

cionada de la variable respuesta en funcion del valor que tome la variable explicativa.

Es decir, m(x) = E(y|X = x), para cada posible valor x de X. En consecuencia, pode-

mos descomponer la variable respuesta en funcion del resultado de X, mas un error de

media cero, como:

y = m(x) + ϵ

donde ϵ se conoce como error y verifica

E(ϵ,X = x) = 0, ∀x

En el modelo lineal simple, las variables respuesta y explicativa, se consideran uni-

variantes; puesto que cada una refleja el valor de una sola caracterıstica. Las hipotesis

basicas de este modelo son:

Linealidad: la funcion de regresion es una lınea recta. Por lo que el modelo se

escribira como

Y = m(x) + ϵ = β0 + β1X + ϵ

donde β0 y β1 son parametros que habra que estimar y ϵ es una variable aleatoria

no observable, que llamaremos error, y contiene la variabilidad no achacable a la

variable explicativa sino debida a errores de medida u otros factores no contro-

lables.

Homocedasticidad: la varianza del error se mantiene constante a lo largo de la

variable explicativa,

V ar(ϵ|X = x) = σ2, ∀x.

Normalidad: el error se distribuye normalmente

ϵ ∈ N(0, σ2), ∀x.

2.1 Regresion lineal simple 4

La hipotesis de linealidad hace que nos encontremos ante un modelo parametrico,

porque supone que la funcion de regresion m(x) es una recta; pero deja libertad al

valor concreto de la pendiente y la ordenada en el origen, que son parametros que se

deben estimar en base a una muestra (X1, Y1), ..., (Xn, Yn). Ası pues tendrıamos

Yi = β0 + β1Xi + ϵi, ∀i ∈ 1, ..., n

siguiendo ϵi una distribucion N(0, σ2) y ademas necesitamos anadir la suposicion de

independencia para las variables aleatorias que representan a los errores para poder de-

sarrollar los metodos de inferencia. Queremos obtener los estimadores, β0 y β1, para los

parametros β0 y β1 en base a una muestra que cumple las hipotesis antes mencionadas

de linealidad, homocedasticidad e independencia de los errores. Una vez obtenidas las

estimaciones β0 y β1, obtendremos la recta de regresion que nos permitira predecir el

valor de Y a partir de un valor de x, como

Yi = β0 + β1Xi, ∀i ∈ {1, . . . , n},

obteniendo lo que denominaremos residuos de la regresion

ϵi = Yi − β0 − β1Xi, ∀i ∈ {1, . . . , n},

La estimacion de los parametros β0 y β1, se realiza mediante mınimos cuadrados.

2.1.1. Estudios de simulacion

A continuacion, obtendremos las rectas de regresion correspondientes a varios esce-

narios.

Escenario 1: Lineal Homocedastico.

En este primer ejemplo, se trabaja con una muestra aleatoria (X1, Y1), ..., (Xn, Yn),

simulada siguiendo el diseno fijo y homocedastico especificado por la ecuacion 2.1.

yi = Xti · β + (Xt

i · α) · εi, ∀i = 1, . . . , n (2.1)

Los parametros considerados han sido: n = 200, βt = (3, 1) y αt = (4, 0). Y se han

utilizado tres tipos distintos de error en la generacion de la variable respuesta:

ε ∼ N(0, 1)

ε ∼ t(2)

ε ∼ Gamma(1, 2)


0 2 4 6 8 10

−5

51

5

Errores N(0,1)x

y

Modelo homocedástico

0 2 4 6 8 10

−4

00

20

60

Errores t(2)x

y


0 2 4 6 8 10

10

20

30

40

Errores G(1,2)x

y


Figura 2.1: Ajuste lineal, caso homocedastico

En la figura 2.1 se observan las rectas de regresion para cada uno de los ejemplos

simulados.

CODIGO:

###SIMULACION DE DATOS:

n=200

beta_ho=t(t(c(3,1)))

alpha_ho=t(t(c(4,0)))

x=runif(n,min=0, max=10)

x=cbind(1,x)

#Generacion de los errores:

#""""""""""""""""""""""""""

er1=rnorm(n,mean=0,sd=1)

er2=rt(n,df=2)

er3=rgamma(n,shape=2,scale=1)

#Generacion de la respuesta:

#""""""""""""""""""""""""""

#Modelo homocedastico:


y_ho=x%*%beta_ho

y1_ho=y_ho+(x%*%alpha_ho)*er1



#########################AJUSTES LINEALES(lm)##############

#Modelos homocedasticos:

modl1_ho<-lm(y1_ho~x[,2])



Escenario 2: Lineal Heterocedastico.

Por otro lado, puesto que no siempre nos encontramos ante este tipo de situaciones

(diseno fijo y homocedastico), conviene comprobar que ocurre cuando en el diseno

se introduce la heterocedasticidad. Para ello, trabajamos con una muestra aleatoria

simulada (X1, Y1), ..., (Xn, Yn), creada segun el mismo diseno fijo anterior, pero con

heterocedasticidad en los errores. El diseno queda especificado ecuacion 2.1, siendo

necesario modificar en este caso los parametros: βt = (4, 2) y αt = (4, 1) e introducir

ası la heterocedasticidad en la muestra.

Los resultados del ajuste se pueden observar an la figura 2.2.

Valorando cada uno de los dos escenarios:

Escenario 1:

� Se produce un mejor ajuste en el caso de los errores N(0,1). En los otros

dos casos, errores t(2) y G(1,2), la recta no se comporta del mismo modo

que la nube de puntos. Debido a la falta de robusted del ajuste por mınimos

cuadrados.

� Con los errores t(2), la pendiente de la nube de puntos parece ser menor que

la que se obtiene con la recta de ajuste lineal. Esto se debe a la presencia de

outliers, que modifican la tendencia de la recta de regresion; sobre todo para

valores altos de la variable x, en los que provocan la elevacion de la posicion

de la recta en estos valores de X y por lo tanto un aumento de la pendiente

del ajuste.

� Y en el caso de los errores G(1,2), se observa una diferencia de compor-

tamiento entre el ajuste y la nube de puntos. Los valores superiores y mas


0 2 4 6 8 10

02

04

06

0

Errores N(0,1)x

y

Modelo heterocedástico

0 2 4 6 8 10

−5

05

01

50

Errores t(2)x

y


0 2 4 6 8 10

20

60

10

0

Errores G(1,2)x

y


Figura 2.2: Ajuste lineal, caso heterocedastico

dispersos de la nube de puntos, ejercen una traslacion de la recta hacia arriba

que desvirtua dicho ajuste, en comparacion con la tendencia de la nube de

puntos.

Escenario 2: En este caso, el hecho de haber construıdo un modelo heterocedas-

tico ya nos previene ante la situacion observada en la figura 2.2. Pero ademas,

se plantea otra limitacion del ajuste por mınimos cuadrados, ¿que ocurre si lo

que me interesa es valorar el comportamiento de valores extremos de la nube de

puntos? Por extremos se entienden valores altos o bajos de la variable respuesta.

Es evidente, dada las representaciones graficas de la figura 2.2, que los compor-

tamientos de estos valores no son los mismos que los de los valores centrales. Por

lo tanto, se hace patente la necesidad de otro tipo de modelos que resuelvan esta

situacion.

CODIGO:


n=200

beta_he=c(4,2)


alpha_he=c(4,1)


x=cbind(1,x)


#""""""""""""""""""""""""""


er2=rt(n,df=2)



#""""""""""""""""""""""""""

#Modelo heterocedastico:

y_he=x%*%beta_he

y1_he=y_he+(x%*%alpha_he)*er1



#########################AJUSTES LINEALES (lm)#############


modl1_he<-lm(y1_he~x[,2])



2.1.2. Aplicacion a datos reales.

Nos ocupamos a continuacion de un ejemplo con datos reales. Se trata de una

muestra de 2395 individuos sanos en edad escolar, con edades comprendidas entre los 6

y los 18 anos. Se han seleccionado de entre diversos colegios de 14 municipios de Galicia.

De cada individuo se han tomado diversas medidas antropomorfas y espirometricas,

hasta un total de 23. Las maniobras espirometricas se realizaron de acuerdo con los

protocolos de la American Thoracic Society de 1987, con evaluacion continua de los

espirogramas.


120 140 160 180

12

34

56

78

talla

fvc

NiñosNiñas

Figura 2.3: Nube de puntos, diferenciada por sexo.

Para este primer ejemplo, valoraremos la relacion existente entre la talla y la ca-

pacidad vital forzada (fvc). (El fvc es el volumen total expulsado desde la inspiracion

maxima hasta la espiracion maxima.) Utilizaremos para ello la regresion lineal simple,

vease la figura 2.2.

Como puede observarse en la nube de puntos, representada en la figura 2.3, se hace

patente la diferencia entre de ambos sexos. Es por ello que se han realizado modelos

distintos en funcion del sexo de los individuos.

En la figura 2.4, se pueden apreciar las nubes de puntos de la poblacion de ninos y

ninas con sus respectivas rectas de regresion. Dado que se trata de ajustar el fcv con

respecto a la talla de los individuos, serıa interesante comprobar si el comportamiento

se mantiene en valores extremos de la poblacion, si se modifica la pendiente de la recta

para esos valores, etc. Esta es una limitacion que presenta la regresion lineal clasica,

dado que su ajuste se centra en minimizar el error cuadratico medio. Por otro lado, en

la figura 2.4 y sobre todo en la poblacion femenina, se puede observar que la recta de

regresion esta influenciada por los valores extremos de la poblacion. Fijandonos en la

posicion de los valores centrales de la nube de puntos, la recta parece estar trasladada

verticalmente de la posicion correcta. Este hecho evidencia la falta de robusted de la

regresion clasica, que en este caso se traslada por el efecto que las colas de la nube de


120 160

12

34

56

78

TALLA

fvc

NIÑOS

110 130 150 170

12

34

56

TALLA

fvc

NIÑAS

Figura 2.4: Ajuste lineal, aplicacion a datos reales.

Representacion diferenciada de las poblacion de ninos y ninas.

puntos provocan en la minimizacion del error cuadratico medio.

Por lo tanto, del mismo modo que la mediana es un estimador mas robusto que la

media; llegados a este punto, debemos plantearnos un tipo de regresion mas robusta

que la regresion lineal clasica. Es aquı donde surge la regresion cuantil.

2.2 Regresion cuantil parametrica unidimensional 11

2.2. Regresion cuantil parametrica unidimensional

2.2.1. Cuantil

Empezando por el principio y considerando la definicion clasica de cuantil, tenemos

que dado un τ ∈ (0, 1) y una variable aleatoria Y , el τ -esimo cuantil es definido como:

Q(τ) = inf{Y : F (Y ) ≥ τ}

donde F es la funcion de distribucion de Y .

Por otro lado, si se tiene Y1, Y2, . . . , Yn, una muestra con observaciones indepen-

dientes, es posible encontrar una estimacion de la funcion de distribucion por medio

de la distribucion empırica de la muestra definida como el cociente entre el numero

de las observaciones inferiores o iguales al valor de interes y el numero total de las

observaciones:

F (Y ) =♯(Yi ≤ Y )

n

De modo analogo, es posible definir una estimacion para los cuantiles, por medio

de la distribucion empırica como:

Q(τ) = inf{Y : F (Y ) ≥ τ}

O equivalentemente:

Q(τ) = arg mınετ∈R

∑Yi≥ετ

τ · (Yi − ετ ) +∑Yi<ετ

(1− τ) · (ετ − Yi)

Y tambien:

Q(τ) = arg mınετ∈R

{∑i

ρτ · |Yi − ετ |

}siendo ρτ (r) = r · (τ − I{r < 0}) con τ ∈ (0, 1) e

I{r < 0} =

{1 si r < 0

0 si r ≥ 0

2.2.2. Regresion cuantil unidimensional

Trasladando este concepto de cuantil a la recta de regresion, obtenemos la regresion

cuantil lineal.

Si suponemos que

Yi = β0,τ + β1,τ ·Xi + εi,τ ∀i ∈ {1, . . . , n}


con τ ∈ (0, 1) y que el valor esperado condicional no es necesariamente cero, pero el

τ -esimo cuantil del error con respecto a la variable regresora es cero (Qτ (εi,τ |X) = 0),

entonces el τ -esimo cuantil de Yi con respecto a X se puede escribir como

Qτ (Yi|X) = β0,τ + β1,τ ·Xi (2.2)

Las estimaciones de β0,τ y β1,τ se encuentran por medio de

βτ = arg mınβτ∈R2

∑Yi≥A

τ · |Yi − β0,τ − β1,τ ·Xi|+∑Yi<A

(1− τ) · |Yi − β0,τ − β1,τ ·Xi|

(2.3)

siendo βτ = (β0,τ , β1,τ ) y A = β0,τ + β1,τ ·Xi.

Para estimar los parametros habra que minimizar la funcion descrita en la ecuacion

2.3. Para ello, existe una vıa de abordar el problema de minimizacion como un problema

de programacion lineal. Esto nos permite obtener la recta de regresion para el valor de

un determinado cuantil. Y por lo tanto, se darıa solucion a la primera de las limitaciones

planteadas al final del capıtulo anterior, para la regresion lineal simple. Ademas, dado

que los cuartiles poseen propiedades de robusted, se logra tambien solucionar la segunda

de las limitaciones que se planteaba con la recta de regresion clasica.


A continuacion, tratamos los escenarios ya vistos con la regresion lineal simple, con

el modelo de regresion cuantil.

Escenario 1: Lineal Homocedastico.

En este primer ejemplo, caso homocedastico, seguimos el modelo especificado por la

ecuacion 2.1. Y recordamos que los problemas los planteaban los outliers que generaba

el modelo con errores t(2) y la dispersion de la parte superior de la nube de puntos

generada con errores G(1, 2). Ambos se solucionan al aplicar la regresion cuantil a los

datos. En la figura 2.5, se observan la diferencia de comportamiento y mejora del ajuste

obtenidos, con la recta de regresion cuantil sobre las nubes de puntos.

Los ajustes persiguen de forma adecuada a los datos. En el caso de los errores

N(0, 1), la regresion lineal clasica ya tenıa esta disposicion y la regresion cuantil no

la empeora en absoluto. En los otros dos casos, se mejora sustancialmente debido a la

robusted que presenta la regresion cuantil.

CODIGO:


0 2 4 6 8 10

−5

51

5

Errores N(0,1)x

y


0 2 4 6 8 10

−4

00

20

60

Errores t(2)x

y


0 2 4 6 8 10

10

20

30

40

Errores G(1,2)x

y


Figura 2.5: Ajustes en el caso homocedastico.

En esta figura se han representado los ajustes correspondientes a los cuantiles

τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}.



n=200

beta_ho=t(t(c(3,1)))

alpha_ho=t(t(c(4,0)))


x=cbind(1,x)


#""""""""""""""""""""""""""


er2=rt(n,df=2)



#""""""""""""""""""""""""""

#Modelo homocedastico:

y_ho=x%*%beta_ho




#########################AJUSTES LINEALES(rq)##############

#Modelos homocedasticos:

modrq1_ho<-rq(y1_ho~x[,2],tau=0.5,method="br")



Escenario 2: Lineal Heterocedastico.

Por otro lado y siguiendo los pasos del capıtulo anterior, comprobamos que ocurre

cuando en el diseno se introduce la heterocedasticidad. Se representan los ajustes en la

figura 2.6.

Con un diseno heterocedastico, se fuerza a que el comportamiento de los datos de la


0 2 4 6 8 10

02

04

06

0

Errores N(0,1)x

y


0 2 4 6 8 10

−5

05

01

50

Errores t(2)x

y


0 2 4 6 8 10

20

60

10

0

Errores G(1,2)x

y


Figura 2.6: Ajustes en el caso heterocedastico.

En esta figura se han representado los ajustes correspondientes a los cuantiles

τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}.


nube de puntos varıe en funcion de la posicion que ocupen en ella. En la figura 2.6 puede

apreciarse como los ajustes mediante regresion cuantil, persiguen de forma adecuada a

los datos a pesar de las diferencias de comportamiento. Las captan, como reflejan sus

representaciones graficas. Ello es debido a la no dependencia de hipotesis fuertes que

posee la regresion cuantil.

CODIGO:


n=200

beta_he=c(4,2)

alpha_he=c(4,1)


x=cbind(1,x)


#""""""""""""""""""""""""""


er2=rt(n,df=2)



#""""""""""""""""""""""""""


y_he=x%*%beta_he




#########################AJUSTES LINEALES(rq)##############


modrq1_he<-rq(y1_he~x[,2],tau=0.5,method="br")




1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

Errores N(0,1)

lm rq

beta

0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

02

46

8

Diseño homocedástico Errores t(2)

lm rq

beta

0

02

46

8

46

810

12

Errores G(1,2)

lm rq

beta

0

46

810

12

23

45

67

Errores N(0,1)

lm rq

beta

0

23

45

67

05

10

Diseño heterocedástico Errores t(2)

lm rq

beta

0

05

10

46

810

12

14

Errores G(1,2)

lm rq

beta

0

46

810

12

14

Figura 2.7: Valores de β0 obtenidos en ajustes con lm y rq.

En el caso de la regresion cuantil se ha utilizado la mediana, τ = 0,5.

Una vez aplicados los dos modelos de ajuste a los mismos datos simulados, se rep-

resenta en las figuras 2.7, 2.8 y 2.9 una comparativa de las diferencias obtenidas, tanto

en funcion del tipo de diseno como del tipo de error introducido al generar los datos.

En las representaciones graficas de las figuras 2.7, 2.8 y 2.9 se indica, con lm la

regresion lineal clasica y con rq la regresion cuantil sobre la mediana (τ = 0,5).

En el caso de diseno homocedastico y la estimacion del parametro β0, como puede

observarse en la figura 2.7, los mejores resultados han sido:

en el caso de la regresion clasica, los obtenidos al trabajar con errores N(0, 1).

cuando en la muestra se ha trabajado con los errores t(2), en el caso de la regresion

cuantil.

Los resultados, al trabajar con los errores t(2) y la regresion cuantil, se observan

en contraposicion a lo que ocurre con el modelo de regresion lineal clasica, que con los

mismos errores es donde presenta mayor variabilidad en la estimacion. Este hecho es


0.6

0.7

0.8

0.9

1.0

1.1

1.2

1.3

Errores N(0,1)

lm rq

beta

1

0.6

0.7

0.8

0.9

1.0

1.1

1.2

1.3

0.5

1.0

1.5


lm rq

beta

1

0.5

1.0

1.5

0.6

0.8

1.0

1.2

1.4

Errores G(1,2)

lm rq

beta

1

0.6

0.8

1.0

1.2

1.4

1.0

1.5

2.0

2.5

Errores N(0,1)

lm rq

beta

1

1.0

1.5

2.0

2.5

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0


lm rq

beta

1

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

12

34

Errores G(1,2)

lm rq

beta

1

12

34

Figura 2.8: Valores de β1 obtenidos en ambos ajustes con lm y rq.



−1

0−

50

51

0

Errores N(0,1)

lm rq

Err

ore

s d

e p

red

icci

ón

−1

0−

50

51

0

−1

00

−5

00

50


lm rq

Err

ore

s d

e p

red

icci

ón

−1

00

−5

00

50

−5

05

10

15

20

25

Errores G(1,2)

lm rq

Err

ore

s d

e p

red

icci

ón

−5

05

10

15

20

25

−3

0−

20

−1

00

10

20

30

Errores N(0,1)

lm rq

Err

ore

s d

e p

red

icci

ón

−3

0−

20

−1

00

10

20

30

−3

00

−2

00

−1

00

01

00


lm rq

Err

ore

s d

e p

red

icci

ón

−3

00

−2

00

−1

00

01

00

−2

00

20

40

60

Errores G(1,2)

lm rq

Err

ore

s d

e p

red

icci

ón

−2

00

20

40

60

Figura 2.9: Errores obtenidos en los ajustes.

Error=valor real−prediccion. En el caso de la regresion cuantil se ha utilizado la

mediana, τ = 0,5.


debido, a que la nube de puntos de errores t(2) es mas densa que las referentes a errores

N(0, 1) y G(1, 2); y que ademas, presenta unos pocos outliers pero muy diferenciados

del conjunto de la nube. Por lo que el modelo mas robusto, la regresion cuantil, realiza

mejores estimaciones del parametro. Este hecho se mantiene en el caso del modelo

heterocedatico. Si bien, las demas estimaciones empeoran al compararlo con el diseno

homocedastico.

A la hora de estimar la pendiente de la recta de regresion, vease la figura 2.8, vuelven

a encontrarse los mejores resultados en el caso de los errores t(2) y diseno homocedastico

con la regresion cuantil. Resaltar, que para los errores G(1, 2), los resultados a la hora

de estimar la pendiente, mejoran de modo considerable los obtenidos al estimar β0,

veanse las figuras 2.7 y2.8.

Cuando valoramos los errores cometidos en las predicciones (valor real-prediccion)

en los escenarios en estudio, vease 2.9, el hecho se repite de forma obvia. Los mejores

resultados se obtuvieron, para el diseno homocedastico, con los errores N(0, 1), tanto

para la regresion cuantil como para la regresion clasica. En el escenario heterocedastico:

en el caso de los errores t(2), se producen infra-ajustes debidos, sobre todo, a los

outliers de la nube de puntos.

trabajando con los errores G(1, 2), lo que se obtienen son sobreajustes provocados

por la dispersion de la nube de puntos. Resaltar, la mejorıa de los resultados

obtenidos al considerar el ajuste en su conjunto y no coeficiente a coeficiente, en

el caso de los errores G(1, 2).

A modo de resumen grafico, en las figuras 2.10 y 2.11, aparecen representadas la

recta de regresion clasica (con lınea continua) y las rectas de regresion cuantil (en lıneas

discontinuas) para los cuantiles τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}. Observando la regresion

clasica en comparacion con la regresion mediana (τ = 0,5), se aprecia el mejor ajuste

llevado a cabo por esta ultima, debido entre otras causas a la robusted de la regresion

cuantil.

2.2.4. Aplicacion a datos reales.

A continuacion, tratamos los datos de la poblacion escolar gallega con regresion

cuantil. Ası, entre otras consideraciones, podremos valorar los posibles diferentes com-

portamientos de los valores extremos de la poblacion mediante las curvas de referencia

para el fvc a traves de la talla. Esta era una de las limitaciones que planteaba la regre-

sion clasica, que se ve resuelta con la utilizacion de la regresion cuantil. Los resultados

graficos pueden observarse en la figura 2.12. En ella, se aprecia una menor influencia


0 2 4 6 8 10

−5

05

10

15

20

Errores N(0,1)x

y


0 2 4 6 8 10

−8

0−

40

02

06

0

Errores t(2)x

y


0 2 4 6 8 10

10

20

30

40

Errores G(1,2)x

y


Figura 2.10: Austes clasico y cuantil.

En el caso de la regresion cuantil se han utilizado los cuantiles

τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}. La regresion clasica aparece representada con lınea

discontinua.


0 2 4 6 8 10

−1

00

10

20

30

40

50

Errores N(0,1)x

y


0 2 4 6 8 10

−2

00

−1

00

01

00

Errores t(2)x

y


0 2 4 6 8 10

20

40

60

80

10

0

Errores G(1,2)x

y


Figura 2.11: Austes clasico y cuantil.


τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}. La regresion clasica aparece representada con lınea

discontinua.


120 160

12

34

56

78

TALLA

fvc

NIÑOS

110 130 150 170

12

34

56

TALLA

fvc

NIÑAS

Figura 2.12: Ajuste cuantil lineal, aplicacion a datos reales.

Representacion diferenciada de la poblacion de ninos y ninas. En el caso de la

regresion cuantil se han utilizado los cuantiles τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}

de las colas de la nube de puntos sobre la regresion lineal mediana, τ = 0,5. Ası co-

mo tambien, un diferente ajuste de los valores extremos de la poblacion. En ellos la

pendiente de las rectas de regresion se hace mayor en el caso de los valores superiores

τ = 0,9 y 0,7 y se hace menor para valores inferiores τ = 0,1 y 0,3. De todos modos,

aun mejorando el ajuste clasico, se observa que la regresion cuantil lineal no puede

captar las tendencias de la nube de puntos. Por ello se hace preciso tratar de ampliar

el concepto de regresion cuantil a la utilizacion de suavizadores, al igual que ocurre en

el desarrollo de la teorıa clasica de la regresion con la transicion de los modelos lineales

generalizados (GLM) a los modelos aditivos generalizados (GAM).

Desde otra perspectiva, hasta ahora hemos tratado de ajustar una variable respuesta

en funcion de una sola covariable. Hecho que se hace insuficiente en el caso de aplicacion

a datos reales que nos ocupa. Es evidente que individuos con igual talla pero distinto,

por ejemplo peso o ındice de masa corporal (imc), no tienen por que poseer igual

capacidad pulmonar. Por lo que la primera ampliacion de la regresion cuantil lineal, se

hace hacia el caso multidimensional en la siguiente seccion.

2.3 Regresion cuantil parametrica multidimensional 24

2.3. Regresion cuantil parametrica multidimensional

Hasta ahora, hemos trabajado con regresion cuantil lineal univariante. Que si bien

es adecuada en muy diversas situaciones cuando solo disponemos de dos variables, este

hecho no ocurre en la mayor parte de los casos aplicados. Puesto que en ellos, surge

la necesidad de valorar diversas covariables en la respuesta. Llegados a este punto,

se amplıa la idea expuesta en la regresion cuantil unidimensional y desarrollamos, a

continuacion, un modelo de regresion cuantil multidimensional.

Del mismo modo que ocurre en el caso de la regresion lineal general, para obtener un

modelo de regresion cuantil multidimensional, basta con considerar una combinacion

lineal de las variables explicativas.

El modelo de regresion cuantil multiple, se puede escribir como

Y = β0,τ + β1,τ ·X1 + . . .+ βp−1,τ ·Xp−1 + ετ ∀i ∈ {1, . . . , n}

siendo Y la variable respuesta;X1, . . . , Xp−1 las variables explicativas; β0,τ , β1,τ , . . . , βp−1,τ

los coeficientes del modelo; ετ el error y con τ ∈ (0, 1) se indica el cuantil. Se siguen

manteniendo las suposiciones relativas al error y ası definido, estamos ante un modelo

de p parametros.

Dada una muestra, el modelo quedarıa expresado del modo siguiente:

Yi = β0,τ + β1,τ ·Xi,1 + . . .+ βp−1,τ ·Xi,p−1 + εi,τ ∀i ∈ {1, . . . , n}

con τ ∈ (0, 1) y con las hipotesis de que el valor esperado condicional no es necesaria-

mente cero, pero el τ -esimo cuantil del error con respecto a la variable regresora sı es

cero (Qτ (εi,τ |X) = 0). Entonces, el τ -esimo cuantil de Yi con respecto a X se puede

escribir como:

Qτ (Yi|X) = β0,τ + β1,τ ·Xi,1 + . . .+ βp−1,τ ·Xi,p−1

Considerando esta definicion de cuantil, las estimaciones de los coeficientes β0,τ , β1,τ , . . . , βp−1,τ

se encuentran mediante la resolucion del problema de minimizacion descrito en la

ecuacion siguiente:

βτ = arg mınβτ∈R2

∑Yi≥Qτ (Yi|X)

τ · |Yi − β0,τ − β1,τ ·Xi,1 − . . .− βp−1,τ ·Xi,p−1|

+∑

Yi<Qτ (Yi|x)

(1− τ) · |Yi − β0,τ − β1,τ ·Xi,1 − . . .− βp−1,τ ·Xi,p−1|

siendo βτ = (β0,τ , β1,τ , . . . , βp−1,τ )


−6

0−

40

−2

00

20

40

60

Errores N(0,1)

lm rq

Err

ore

s d

e p

red

icci

ón

−6

0−

40

−2

00

20

40

60

−4

00

−3

00

−2

00

−1

00

01

00

20

0

Diseño multivariante Errores t(2)

lm rq

Err

ore

s d

e p

red

icci

ón

−4

00

−3

00

−2

00

−1

00

01

00

20

0

05

01

00

Errores G(1,2)

lm rq

Err

ore

s d

e p

red

icci

ón

05

01

00

Figura 2.13: Ajuste multidimensional.



Realizamos, a continuacion, una aplicacion de la regresion cuantil multidimensional

en un escenario simulado con distintos tipos de error. Se trabaja con una muestra

aleatoria (X1, Y1), ..., (Xn, Yn), simulada siguiendo el diseno especificado por la ecuacion

2.1. Estamos ante un caso multidimensional, con lo que Xi hace referencia al vector de

covariables, de dimension p.

Los parametros considerados han sido: p = 4, n = 200, βt = (5, 8,−5, 2,−2) y

αt = (1, 0, 2, 0, 1). De igual modo que en simulaciones anteriores, se han utilizado tres

tipos distintos de error en la generacion de la variable respuesta:

ε ∼ N(0, 1)

ε ∼ t(2)

ε ∼ G(1, 2)

En la figura 2.13, pueden observarse los errores de prediccion que se obtienen en los

ajustes de los datos, tanto con la regresion clasica como con la regresion cuantil.


Destacar que el hecho de trabajar con un modelo mas complejo (modelo multidi-

mensional) hace que la verificacion de hipotesis cobre mas fuerza. En los resultados

de la figura 2.13, los menores errores de prediccion se dieron al trabajar con errores

N(0, 1) en la generacion de los datos. Al igual que ocurrıa en el escenario univariante

con errores t(2), se infraestima en unos pocos valores y se observa una sobreestimacion

con G(1, 2).

CODIGO:


n_m=500

beta_m=c(5,8,-5,2,-2)

alpha_m=c(1,0,2,0,1)


x=cbind(1,x)


#""""""""""""""""""""""""""


er2=rt(n,df=2)



#""""""""""""""""""""""""""

#Modelo multivariante:

x_m=matrix(nrow=n,ncol=5)

x_m[,1]=1

for (i in 2:5){

x_m[,i]=runif(n,min=0,max=10)

}

y_m=x_m%*%beta_m

y1_m=y_m+(x_m%*%alpha_m)*er1



#########################AJUSTES LINEALES(lm y rq)#########

#Modelo multivariante:


modl1_m<-lm(y1_m~x_m[,2:5])

modrq1_m<-rq(y1_m~x_m[,2:5],tau=0.5,method="br")





Regresion cuantil no parametrica

3.1. Regresion cuantil suavizada

Al igual que ocurre con la regresion lineal, en ocasiones es necesaria una ampliacion

de la misma, para poder llegar a la diversidad de formas que proporciona una muestra

en particular.

Por lo que un modelo de regresion cuantil suavizada, puede expresarse como

Yi = fτ (Xi) + εi,τ ∀i ∈ {1, . . . , n}

con τ ∈ (0, 1), fτ una funcion arbitraria suave y con las hipotesis de que el valor

esperado condicional no es necesariamente cero, pero el τ -esimo cuantil del error con

respecto a la variable regresora sı es cero (Qτ (εi,τ |X) = 0).

Donde para obtener la regresion parametrica bastarıa con considerar:

fτ (Xi) = β0,τ + β1,τ ·Xi

En el caso no parametrico la funcion fτ que estima a fτ se calcula como

fτ (X) =

n∑i=1

ωλ,τ (X,Xi) · Yi

donde λ es el parametro de suavizado y ωλ,τ es la funcion de pesos (tipo nucleo, splines,

etc.).

3.2. Estudios de simulacion

Como se ha puesto de manifiesto en los ejemplos anteriores, se necesita la utilizacion

de tecnicas de suavizacion para poder captar los comportamientos de los datos y por

lo tanto, los efectos de una variables sobre otras.

3.2 Estudios de simulacion 29

0 2 4 6 8 10

−5

05

10

15

20

Errores N(0,1)x

y

0 2 4 6 8 10

−5

00

50

10

0

Errores t(2)x

y


0 2 4 6 8 101

02

03

04

0

Errores G(1,2)x

y

Figura 3.1: Ajustes mediante regresion: clasica, cuantil lineal y cuantil suavizada.


τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}. La regresion clasica aparece representada con lınea azul.

3.2.1. Escenario 1: Lineal Homocedastico.

Seguimos utilizando los datos simulados mediante el diseno homocedastico definido

por la ecuacion 2.1. Sobre la nube de puntos representamos la regresion lineal clasica

(color azul), la regresion cuantil lineal (color verde) y finalmente la regresion cuantil

suavizada que nos ocupa (color marron). Representamos los resultados en la figura 3.1.

A pesar de que, como se observa en la figura 3.1, la suavizacion mejora el ajuste a

la nube de puntos; en este caso no se ve una necesidad de complicar el modelo, puesto

que la tendencai clara ya se obtenıa con la regresion cuantil lineal. Sı destacar que, en

todos los casos, la suavizacion con respecto a la mediana envuelve a ambas rectas de

regresion lineal, la regresion clasica y la regresion mediana (τ = 0,5).

3.2.2. Escenario 2: Lineal Heterocedastico.

En la figura 3.2, pueden observarse los resultados obtenidos mediante un diseno het-

erocedastico siguiendo la ecuacion 2.1. Se trabajara, como viene siendo habitual, con los

tres tipos de error en la generacion de los datos N(0, 1), t(2) y G(1, 2). Representamos


0 2 4 6 8 10

−1

00

10

20

30

40

50

Errores N(0,1)x

y

0 2 4 6 8 10

−1

50

−1

00

−5

00

50

10

01

50

20

0

Errores t(2)x

y


0 2 4 6 8 102

04

06

08

0

Errores G(1,2)x

y

Figura 3.2: Ajustes mediante regresion: clasica, cuantil lineal y cuantil suavizada.


τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}. La regresion clasica aparece representada con lınea azul.

sobre la nube de puntos la regresion lineal, la regresion cuantil lineal y finalmente la

regresion cuantil suavizada que nos ocupa.

Del mismo modo que ocurre en el escenario 1, la suavizacion en este tipo de modelos

se considera prescindible. Las tendencias de la nube de puntos quedaron suficientemente

bien definidas con el ajuste cuantil lineal. Tambien ocurre como en el caso anterior, la

suavizacion mediana recoge en parte el comportamiento de la regresion clasica y en

otros puntos el de la regresion cuantil lineal con τ = 0,5.

3.2.3. Escenario 3: No Lineal (seno).

Nos ocupamos ahora de un escenario distinto a los anteriores, se trata de un esce-

nario no lineal. Para su definicion, hemos modificado la ecuacion 2.1 para poder integrar

la no linealidad en el modelo 3.1. Se ha considerado un modelo aditivo de localizacion

y escala con terminos no lineales, segun la ecuacion 3.1

Yi = β0 + f1(Zi,1) + ·+ fq(Zi,q) + [α0 + g1(Zi,1) + ·+ fq(Zi,q)] ∗ εi (3.1)


donde εi iid H. En este modelo, la localizacion y la escala de la respuesta dependen de

modo no lineal de las covariables zi,1, ·, zi,q. Eligiendo f y g como funciones lineales se

tendrıa el modelo lineal de la ecuacion 2.1. Si alguna de las dos funciones f o g es nula,

sus covariables asociadas no tendran influencia en la respuesta.

El modelo de regresion cuantil resultante posee un termino no lineal en su estructura,

y vendra dado por la ecuacion 3.2.

QYi(τ |zi) = β0 + f1(zi,1) + ·+ fq(zi,q) +H−1(τ)[α0 + g1(zi,1) + ·|+ fq(zi,q)] (3.2)

Siguiendo con el modelo aditivo descrito por la ecuacion 3.1, en este ejemplo se

consideran los siguientes parametros: q = 1, β0 = 2, α0 = 0,5, f1(zi,1) = 3 sin(23zi,1) y

g1(zi,1) = 1,5(zi,1 − 1,5zi,1)2.

Del mismo modo a como se vienen desarrollando los escenarios anteriores, tambien

en este caso se han utilizado tres tipos distintos de error en la generacion de la variable

respuesta:

ε ∼ N(0, 1)

ε ∼ t(2)

ε ∼ Gamma(1, 2)

En la figura 3.3 se observan las curvas de regresion cuantil suavizada, obtenidas con

cada uno de los errores mencionados.

Se observa claramente, en la figura 3.3, que la suavizacion se hace imprescindible.

Nunca una recta podrıa captar las tendencias de esta nube de puntos. Y la necesidad

de las curvas de referencia distintas para cada cuantil, aquı se hace patente.

CODIGO:


n=400

q=1

beta_0=2

alpha_0_sin=0.5

f1_sin=function(x){y=3*sin((2*x)/3);return(y)}

g1_sin=function(x){y=1.5*(x-1.5)^2;return(y)}

z=runif(n,min=0, max=3)



0.0 1.0 2.0 3.0

−5

05

10

Errores N(0,1)x

y

Modelo no paramétrico

0.0 1.0 2.0 3.0

−2

02

06

01

00

Errores t(2)x

y

utilizando la función seno

0.0 1.0 2.0 3.0

51

01

52

02

5

Errores G(1,2)x

y

Figura 3.3: Ajuste mediante regresion cuantil suavizada.


τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}.


#""""""""""""""""""""""""""


er2=rt(n,df=2)



#""""""""""""""""""""""""""

#Modelo seno:

y_sin=beta_0+f1_sin(z)

y1_sin=y_sin+(alpha_0_sin+g1_sin(z))*er1



#########################AJUSTES NO LINEALES(rq)#############

#Modelos sin:

modrqss1_sin<-rqss(y1_sin~qss(z,constraint= "N"),tau=0.5)



3.2.4. Escenario 4: No Lineal (logaritmo).

Continuando con el modelo aditivo descrito por la ecuacion 3.1, en este ejemplo se

consideran los parametros: q = 1, β0 = 2, α0 = 0., f1(zi,1) = 1,5 log(zi,1) y g1(zi,1) =

0,5zi,1. Se han tenido en cuenta, tambien en este caso, los mismos tipos de error en la

generacion de la variable respuesta:

ε ∼ N(0, 1)

ε ∼ t(2)

ε ∼ Gamma(1, 2)

En la figura 3.4 se pueden observar las curvas de regresion cuantil suavizada obtenidas

con cada uno de estos errores.

En la figura 3.4, se observa que la suavizacion vuelve a hacerse imprescindible.


0.0 1.0 2.0 3.0

−5

05

Errores N(0,1)x

y

Modelo no paramétrico

0.0 1.0 2.0 3.0

−2

00

20

40

60

Errores t(2)x

y

utilizando la función logaritmo

0.0 1.0 2.0 3.0

−5

05

10

15

Errores G(1,2)x

y

Figura 3.4: Ajuste mediante regresion cuantil suavizada.


τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}.


−6

−5

−4

−3

−2

−1

0

Errores N(0,1)

sin log

Err

ore

s d

e p

red

icci

ón

−6

−5

−4

−3

−2

−1

0

−5

−4

−3

−2

−1

01

Modelo no paramétrico Errores t(2)

sin log

Err

ore

s d

e p

red

icci

ón

−5

−4

−3

−2

−1

01

−7

−6

−5

−4

−3

−2

−1

Errores G(1,2)

sin log

Err

ore

s d

e p

red

icci

ón

−7

−6

−5

−4

−3

−2

−1

Figura 3.5: Errores de los ajustes realizados mediante regresion cuantil suavizada.


mediana, τ = 0,5.

En la figura 3.5, se observan los valores de los errores que se cometen, al realizar

una prediccion con los dos escenarios anteriores, correspondientes a la funcion seno y

a la funcion logaritmo.

Los errores de prediccion se han calculado como la diferencia entre el valor real y

la prediccion del modelo. Este hecho permite valorar los resultados de la figura 3.5 en

los siguientes terminos:

Se observa una tendencia a la sobreestimacion en el seno con los errores N(0, 1)

y G(1, 2).

Cuando nos ocupamos de datos generados con errores t(2), se infraestima en

ambos escenarios, pero mas pronunciado a la hora de trabajar con la funcion

logaritmo.

CODIGO:


3.3 Aplicacion a datos reales 36

n=400

q=1

beta_0=2

alpha_0_log=0.7

f1_log=function(x){y=1.5*log(x);return(y)}

g1_log=function(x){y=0.5*x;return(y)}

z=runif(n,min=0, max=3)


#""""""""""""""""""""""""""


er2=rt(n,df=2)



#""""""""""""""""""""""""""

#Modelo logaritmo:

y_log=beta_0+f1_log(z)

y1_log=y_log+(alpha_0_log+g1_log(z))*er1



#########################AJUSTES NO LINEALES(rq)#############

#Modelos log:

modrqss1_log<-rqss(y1_log~qss(z,constraint= "N"),tau=0.5)



3.3. Aplicacion a datos reales

Retomando el ejemplo para valores de referencia espirometrica en la poblacion es-

colar de Galicia. Se observa en la figura 3.6 como, la utilizacion de la regresion cuantil

3.3 Aplicacion a datos reales 37

120 160

12

34

56

78

TALLA

fvc

NIÑOS

110 130 150 170

12

34

56

TALLA

fvc

NIÑAS

Figura 3.6: Ajuste cuantil suavizado y ajustes parametricos, aplicacion a datos reales.

Representacion diferenciada de las poblacion de ninos y ninas. En el caso de la

regresion cuantil se ha utilizado la mediana, τ = 0,5.

suavizada, sigue dando respuesta a los problemas del ajuste de los valores extremos de

la nube de puntos.

Lo pertinente ahora sera tratar de mejorar la resolucion de este ajuste suavizado y

trabajar con los diferentes paquetes en [59].

Software utilizado para regresion cuantil

4.1. Paquete quantreg

Este paquete enfoca la regresion cuantil desde su resolucion como un problema de

programacion lineal. Dicho problema primal se transforma en su dual, para lograr ası

una disminucion del numero de variables. El algoritmo utilizado para su resolucion se

encuentra descrito en [40] e implementado en el paquete quantreg [41]. Dentro de dicho

paquete se han tratado, en los capıtulos anteriores, diferentes funciones para realizar la

regresion cuantil, bien sea regresion cuantil lineal o regresion cuantil suavizada:

se utiliza la funcion rq; [51], [42], [43], [27], [50] y [49]; para realizar una regre-

sion lineal. Esta funcion calcula una estimacion de la τ−esima funcion cuantil

condicional de la respuesta, dadas las covariables, segun se especifiquen en el ar-

gumento formula. Entre las distintas opciones a seleccionar, esta la eleccion del

metodo de computacion, argumento method ; en todo el desarrollo posterior se ha

trabajado con el metodo br. Este metodo, es la version modificada del algoritmo

de Barrodale and Roberts para regresion ℓ1, que esta descrito en KoenkerdOrey

(1987, 1994).

para tratar la regresion cuantil suavizada, la funcion utilizada es rqss; [49], [48],

[46] y [47]. La idea basica es condicion de la seleccion lambda y construir intervalos

de credibilidad cuasi-bayesiano relativos a la aproximacion normal de la parte a

posteriori, como calcula utilizando la estimacion del nucleo de Powell de regresion

cuantil. Con esta funcion la suavizacion de las covariables se indica madiante qss;

en el argumento constraint, se ha seleccionado no proporcionar informacion

acerca de la monotonıa del ajuste, indicado por N, debido a que hay escenarios

que no son monotonos.

4.1 Paquete quantreg 39

4.1.1. Marco teorico

El enfoque de la regresion cuantil, [44], se hace desde la interpretacion de como los

cuantiles ordinarios, y consecuentemente la regresion cuantil, se pueden definir como

soluciones de una simple minimizacion de los pesos de la suma de los residuos absolutos.

Los cuantiles, y sus identicos duales, los rangos, parecen unidos inseparablemente

a las operaciones de ordenacion que se utilizan para definirlos. La idea, [44], es definir

los cuantiles de modo alternativo a traves de un problema de optimizacion. Ası como

podemos definir la media como la solucion de un problema de minimizacion de la

suma de cuadrados, podremos definir la mediana como la solucion de un problema de

minimizacion de la suma de residuos absolutos. Con respecto a los demas cuantiles;

si la simetrıa de la funcion valor absoluto es simetrica cae sobre la mediana, podemos

simplemente utilizar el valor absoluto para definir los demas cuantiles, como se indica

en la ecuacion

mınξ∈R

ρτ (yi − ξ) (4.1)

donde la funcion ρτ () lleva inherente el valor absoluto y la formula anterior se de-

nomina pinball logic, vease [44]. Para comprobar como este problema tiene por solucion

los cuantiles, solo es necesario calcular las derivadas direccionales, por la izquierda y

por la derecha, de la funcion objetivo con respecto a ξ. (Este desarrollo de la ecuacion

[? ] puede seguirse en el capıtulo 2 de este trabajo.)


En todos los ejemplos de los capıtulos anteriores, a la hora de trabajar con la

regresion cuantil, se ha utilizado este paquete. Por lo que las representaciones graficas

de los escenarios y los ajustes obtenidos, pueden observarse en las figuras ya vistas. Los

cuantiles utilizados han sido τ ∈ {0,1, 0,3, 0,5, 0,7, 0,9}.

Ajustes lineales

Dentro del paquete quantreg, el trabajo con la regresion cuantil lineal se hace a

traves de la funcion rq. En ella, se han seleccionado los siguientes parametros para

realizar los ajustes:

En la formula se han utilizado tanto ejemplos unidimensionales como multidi-

mensionales, en funcion de los escenarios.

A la hora de seleccionar el cuantil, τ , se han considerado los valores 0,1, 0,3, 0,5, 0,7

y 0,9. Habiendo estudiado tambien, el comportamiento de los errores de los ajustes

con τ = 0,5, en comparacion con los errores de la regresion lineal clasica.


−1

0−

50

51

0

Errores N(0,1)

lm rq

Err

ore

s d

e p

red

icci

ón

−1

0−

50

51

0

−1

00

−5

00

50


lm rq

Err

ore

s d

e p

red

icci

ón

−1

00

−5

00

50

−5

05

10

15

20

25

Errores G(1,2)

lm rq

Err

ore

s d

e p

red

icci

ón

−5

05

10

15

20

25

−3

0−

20

−1

00

10

20

30

Errores N(0,1)

lm rq

Err

ore

s d

e p

red

icci

ón

−3

0−

20

−1

00

10

20

30

−3

00

−2

00

−1

00

01

00


lm rq

Err

ore

s d

e p

red

icci

ón

−3

00

−2

00

−1

00

01

00

−2

00

20

40

60

Errores G(1,2)

lm rq

Err

ore

s d

e p

red

icci

ón

−2

00

20

40

60

Figura 4.1: Errores obtenidos en los diferentes ajustes lineales unidimensionales.


mediana, τ = 0,5.

Hemos seleccionado el metodo br, esto indica que el metodo algorıtmico utilizado

para calcular el ajuste es la version modificada del algoritmo de Roberts y Barro-

dale de regresion con norma L1. Este algoritmo es muy eficaz para los problemas

de hasta a varios miles de observaciones; por lo que es suficiente para utilizar tanto

en los escenarios simulados como en la base de datos reales con la que tratamos.

Como resumen de todo lo tratado en los capıtulos anteriores, podemos observar en

la figura 4.1, los mejores resultados obtenidos con la regresion cuantil en comparacion

con la regresion clasica, en el caso de G(1, 2).

A la hora de tratar la regresion cuantil multidimensional, el hecho anterior se

mantiene si tenemos errores N(0, 1) o G(1, 2), como podemos observar en la figura

4.2

4.1.3. Aplicacion a datos reales

Se ha venido trabajando, con la base de datos referente a los valores espirometricos

de la poblacion escolar gallega. En ella, se han realizado los ajustes de modo indepen-


−6

0−

40

−2

00

20

40

60

Errores N(0,1)

lm rq

Err

ore

s d

e p

red

icci

ón

−6

0−

40

−2

00

20

40

60

−4

00

−3

00

−2

00

−1

00

01

00

20

0Diseño multivariante

Errores t(2)

lm rq

Err

ore

s d

e p

red

icci

ón

−4

00

−3

00

−2

00

−1

00

01

00

20

0

05

01

00

Errores G(1,2)

lm rq

Err

ore

s d

e p

red

icci

ón

05

01

00

Figura 4.2: Errores obtenidos en los diferentes ajustes lineales multidimensionales.


mediana, τ = 0,5.


110 130 150 170

12

34

56

TALLA

fvc

NIÑOS

110 130 150 170

12

34

56

TALLA

fvc

NIÑAS

Figura 4.3: Ajustes mediante regresion cuantil.

(No parametrica en color marron y parametrica en color verde.)

diente para varones y mujeres. Se evidencia en la figura 4.3 la necesidad de utilizar

modelos distintos en ambos casos; ası como la necesidad de introducir la suavizacion

en los modelos.

Puede observarse, en la figura 4.3,el ajuste tras haber introducido la suavizacion en

los modelos.

CODIGO:

#########################AJUSTES NO LINEALES(rqss)

taus <- c(.1,.3,.5,.7,.9)

for (j in 1:5){

modelo<-rqss(datos$fvc~qss(datos$talla,constraint= "N"),tau=taus[j])}

4.2 Paquete gamlss 43

4.2. Paquete gamlss

Este paquete realiza la regresion cuantil, basandose en los modelos aditivos gener-

alizados para localizacion, escala y forma (GAMLSS). Son un tipo general de modelos

para variable respuesta univariante y asumen observaciones independientes para la mis-

ma.

Los GAMLSS son modelos de regresion semiparametricos. Son parametricos, dado

que requieren un supuesto de distribucion para los parametros de la variable respuesta,

y semi en el sentido de que la modelizacion de los parametros de la distribucion, en

funcion de variables explicativas, puede implicar el uso de las funciones de suavizado

no parametricas.

Fueron introducidos por [71], [39] y [66] como una forma de superar algunas de

las limitaciones asociadas con los Modelos Lineales Generalizados (GLM) y Modelos

Aditivos Generalizados (GAM), [56] y [30], respectivamente.

En los GAMLSS, la distribucion de la variable respuesta en el modelo puede pertenecer

a muy diversas familias, desde distribuciones continuas con alto sesgo y/o curtosis hasta

distribuciones discretas, incluso con heterocedasticidad en los datos. Para ello, la parte

sistematica del modelo es ampliada mediante parametrizaciones lineales y/o funciones

suavizadoras de las covariables y con los terminos de efectos aleatorios. Todo ello, para

permitir trabajar no solo con la media, sino tambien con otros parametros de la dis-

tribucion de la respuesta. En el caso de la regresion cuantil que nos ocupa, en vez de

trabajar sobre la media lo haremos sobre los cuantiles de la distribucion de la variable

respuesta.

Se utiliza la estimacion de la maxima verosimilitud penalizada para el ajuste de los

modelos no parametricos y el algoritmo de Newton-Rapson/Fisher scoring para maxi-

mizar la maxima verosimilitud penalizada. Los terminos aditivos del modelo se ajustan

mediante el algoritmo backfitting. El algoritmo de ajuste es lo suficientemente potente

para permitir la rapida exploracion de los conjuntos de datos muy grandes y complejos.

Dentro bases de datos de gran tamano, GAMLSS admite flexibilidad en la modelizacion

estadıstica, lo que permite supuestos mas realistas acerca de los datos reales. La desven-

taja del gamlss se pone en evidencia a la hora de la seleccion del modelo. La utilizacion

del criterio de informacion de Akaike (AIC) parece demasiado generosa, dando lugar a

modelos excesivamente complicados. Mientras que la comparacion realizada con el cri-

terio Schwatz Bayesian (SBC) parece ser demasiado restrictiva, dando como resultado

la seleccion de modelos muy simplificados.


4.2.1. Modelos GAMLSS

El modelo GAMLSS asume yi observaciones independientes para i = 1, 2, . . . , n con

funcion de densidad f(yi|θi) condicionada por θi = (θ1,i, θ2,i, θi3,, θ4,i) = (µi, σi, νi, τi),

un vector de cuatro parametros de distribucion, cada uno de los cuales puede ser una

funcion a las variables explicativas. Nos referiremos a (µi, σi, νi, τi) como los parametros

de distribucion. Los dos primeros parametros de la distribucion,µi y σi, son caracteri-

zados como parametros de localizacion y escala; mientras que el resto de parametros,

νi y τi si los hay, se caracterizan como parametros de forma (por ejemplo, parametros

de asimetrıa y curtosis). Aunque el modelo puede ser aplicado de modo mas general

a los parametros de cualquier distribucion de la poblacion, y puede ser generalizado a

mas de cuatro parametros de distribucion. Originariamente [66], se definen los modelos

GAMLSS como:

sea yt = (y1, . . . , yn) el vector, de longitud n, correspondiente a la variable re-

spuesta .

sean ηk = gk(θk) con k = 1, . . . , 4 funciones link monotonas de los parametros de

las covariables, que vienen dadas por la formula:

ηk = gk(θk) = Xkβk +

Jk∑j=1

Zjkγjk (4.2)

donde βtk = (β1k, . . . , βJ ′

kk) es un vector de parametros de longitud J ′

k; Xk es una

matriz de diseno fijo conocida de dimension nxJ ′k; Zjk es una matriz de dimen-

sion nxqjk y diseno fijo conocida; y γjk en una variable aleatoria qjk−dimensional

con distribucion Nqjk(0, G−1jk ), donde G−1

jk es la inversa de una matriz simetrica

qjkxqjk−dimensional Gjk = gjk(λjk) que depende del vector de hiperparametros

λjk. Si Gjk es singular entonces λjk sigue una distribucion de densidad propor-

cional a exp(−12γ

tjkGjkγjk).

El modelo 4.22, permite al usuario modelar la distribucion de cada parametro, como

una funcion lineal de las covariables y/o como funciones lineales de variables estocas-

ticas (efectos aleatorios). Como consecuencia de este hecho, existen varios submodelos

importantes de GAMLSS:

La formulacion semiparametrica aditiva de los GAMLSS viene dada por la ecuacion

4.23.

ηk = gk(θk) = Xkβk +

Jk∑j=1

hjk(xjk) (4.3)


donde la funcion hjk es funcion desconocida de la covariable Xjk. La ecuacion

4.22 y la 4.23 se relacionan en los siguientes terminos: Zjk = In con In la ma-

triz identidad de dimension n y γjk = hjk = hjk(xjk) para todas las posibles

combinaciones de j y k dadas en la ecuacion 4.22.

En el caso de la formulacion parametrica lineal de los GAMLSS, se resuelve como

indica la ecuacion 4.4:

ηk = g1(θk) = Xkβk (4.4)

El modelo definido por la ecuacion 4.23, puede ampliarse a una formulacion semi-

parametrica aditiva no lineal, para ello la ecuacion 4.23 se modifica para obtener

la ecuacion del nuevo modelo en la ecuacion 4.5:

ηk = gk(θk) = hk(Xkβk) +

Jk∑j=1

hjk(xjk) (4.5)

donde hk con k = 1, . . . , 4 son funciones no lineales y Xk es la matriz de diseno

conocida de orden nxJ ′′k .

En el caso de que Jk = 0 ∀k ∈ {1, . . . , 4}, estarıamos ante una formulacion

parametrica no lineal de los GAMMLSS, que quedarıa reflejada en la ecuacion

4.6 como:

ηk = gk(θk) = hk(Xkβk), (4.6)

Ademas, esta formulacion quedarıa reducida a la definida por la ecuacion 4.4, en

el caso de que: hk(Xk, βk) = Xtkβk ∀k ∈ {1, . . . , 4}

En lo que sigue, las referencias a las formulaciones dadas por las ecuaciones 4.4 y 4.6

se haran como GAMLSS parametricos.

4.2.2. Parametros, Distribuciones y Terminos aditivos

El vector de parametros βk y el parametro de efectos aleatorios γjk, para j ∈{1, . . . , Jk} y k = 1, 2, 3, 4 se estiman, en el marco GAMLSS (para valores fijos de los

hiperparametros suavizados λjk’s), mediante maximizacion de la funcion de verosimil-

itud penalizada ℓp dada por:

ℓp = ℓ− 1

2

p∑k=1

Jk∑j=1

λjkγ′jkGjkγjk (4.7)

donde ℓp =∑n

i=1 log f(yi|θi)es la funcion de log-verosimilitud.


La forma de la distribucion asumida para la variable de respuesta y, f(yi|θi), puedeser muy general. La unica restriccion que tiene, la implementacion en R de GAMLSS, es

que la funcion log f(yi|θi) y su primera derivada (y, opcionalmente, las segundas) con

respecto a cada uno de los parametros de θ debe existir. Son preferibles las derivadas

explıcitas, pero las derivadas numericas tambien pueden utilizarse.

Como hemos visto anteriormente, el modelo descrito por la ecuacion 4.22 permite

al usuario considerar los parametros de la distribucion como lineales (ecuacion 4.4), no

lineales parametricos (ecuacion 4.6) y no parametricos (suavizados) (ecuaciones 4.23 y

4.5) en funcion de las covariables y/o terminos de efectos aleatorios. En este sentido y

basandonos en la implementacion del paquete en R, se tiene que:

en la modelizacion de funciones lineales se utiliza la notacion de [78]. Que es la

notacion utilizada en las formulas para los ajustes de modelos lineales, lm; modelos

lineales generalizados, glm. [77]

en los casos no lineal, no parametrica (suavizada) o en condiciones de funciones

de efectos aleatorios, hay que ajustar una funcion aditiva. Vease

En las aplicaciones a datos, que se desarrollan en la siguiente seccion, hemos uti-

lizado los splines cubicos de regresion. Los splines cubicos estan cubiertos extensamente

en la literatura [60],[25], [? ]. Asumen en el modelo definido por la ecuacion 4.23, que

las funciones h(t) son arbitrarias, dos veces continuamente diferenciable y se maximiza

la log-verosimilitud penalizada, que viene dada por ℓ sujeta a los terminos penalizados

del modo

λ

∫ ∞

−∞[h′′(t)]2

. La solucion para maximizar las funciones h(t) son los splines cubicos naturales, y

por lo tanto se puede expresar como combinaciones lineales de funciones de bases de

splines cubicos naturales [15]. La variacion de los coeficientes de los terminos fueron

introducidos por [31] para introducir la interaccion entre covariables. Esta interaccion

es de la forma β(r)x, que es el coeficiente lineal de la covariable x y esta suavizado segun

otra covariable r. En muchas aplicaciones r es el tiempo. En general, r es una variable

continua, mientras que x puede ser continua o categorica. En la implementacion actual

del paquete, x tiene que ser continua o un factor de dos niveles con los valores 0 y 1.

Al introducir un termino aditivo en el modelo, se debe tener cuidado en como definir

los grados de la libertad del modelo. Los grados de libertad para el termino aditivo

suavizado, generalmente se toman como grados de libertad extra, del ajuste lineal. Por

ejemplo, con un modelo suavizado univariante con splines cubicos decir que x se ajusta

con 5 grados de libertad totales, debe considerarse df = 3 puesto que 2 grados de


libertad se han utilizado para la constante y la parte lineal de la variable explicativa x.

Esto contrasta, con el modo de utilizar los grados de libertad en los modelos gam del

paquete gam. en el cual, se especificarıa df = 4, ya que la constante se ajusta de modo

independiente.

4.2.3. Algoritmos

Hay dos algoritmos basicos, utilizados para maximizar la funcion de verosimilitud

penalizada dada en la ecuacion 4.7.

El algoritmo CG, que es una generalizacion del algoritmo de [13], utiliza las

primeras y segundas derivadas de la funcion de verosimilitud con respecto a θ,

parametro de distribucion.

El algoritmo RS simple es una generalizacion del algoritmo utilizado por Rigby y

Stasinopoulos, [65] y [64], para ajustar la Media y la Dispersion de los Modelos

Aditivos Modelos (MADAM), y no utiliza las derivadas cruzadas. Es mas ade-

cuado cuando los parametros la funcion de densidad de la poblacion f(y|θ) son

ortogonales, como es el caso de los modelos de localizacion y escala.

Las principales ventajas de los dos primeros algoritmos son: i) el procedimiento de

ajuste modular, que permite diagnosticos diferentes del modelo para cada parametro

de distribucion; ii) la incorporacion sencilla de distribuciones adicionales; iii) la incor-

poracion sencilla de terminos aditivos extra; y iv) la facil localizacion de los valores de

partida. Los algoritmos, en general, han resultado ser estables y rapidos usando valores

de partida muy simple (constantes, por ejemplo) para los parametros

El paquete proporciona un tercer algoritmo para ajustar modelos parametricos,

como los definidos por las ecuaciones 4.4 y 4.6. Sin embargo, este algoritmo necesita

valores iniciales para los parametros, que pueden ser difıciles de localizar por el usuario.

Singularidades en la funcion de verosimilitud, similares a las aportadas por [14],

pueden ocurrir en casos especıficos, especialmente cuando el tamano de la muestra

es pequeno. El problema puede ser solventado con restricciones apropiadas sobre el

parametro de escala (penalizarlo si toma valores proximos a cero).

4.2.4. Otros paquetes gamlss

Tambien existen diversos modos de extender las familias de distribucion que permite

el paquete GAMLSS

crear una nueva distribucion.


truncar una distribucion existente.

utilizar una version censurada de una distribucion existente.

combinar distintas distribuciones ya existentes para crear una nueva distribucion.

Y existe software, ya implementado, en una serie de paquetes dentro del gamlss

que trabajan con estas distribuciones [35]:

gamlss, el paquete original para el ajuste de los GAMLSS.

gamlss.cens, paquete para el ajuste con variable respuesta censurada.

gamlss.dist, paquete para anadir nuevas distribuciones.

gamlss.mx, paquete para el ajuste de distribuciones finitas mixtas.

gamlss.nl, paquete para el ajuste de modelos no lineales.

gamlss.tr, paquete para el ajuste de distribuciones truncadas.

4.2.5. Aplicacion a datos simulados

Ajustes no lineales

Dentro del paquete gamlss, el trabajo con la regresion cuantil suavizada se hace a

traves de la funcion gamlss. En ella, se han seleccionado los siguientes parametros para

realizar los ajustes:

En la formula se ha suavizado la covariable con splines cubicos de regresion me-

diante la funcion cs(, df = 5).

Para el calculo del parametro sigma del modelo se ha trabajado con splines

cubicos pero, en este caso, con df = 3.

A la hora de seleccionar los centiles, se han considerado los valores 10, 30, 50, 70

y 90, de modo analogo a como se ha hecho en los capıtulos anteriores.

Las simulaciones con las que se ha trabajado, son las que aparecen descritas por

la formula 3.1. A continuacion, se valoran los resultados graficos obtenidos al ajustar,

mediante regresion cuantil suavizada, el modelo con los diferentes tipos de error:

En el caso de los errores N(0, 1), se observa un buen comportamiento de los

ajustes. Hecho que se mantiene, tanto en el caso de la funcion seno (vease la

figura 4.4) como en la utilizacion del logaritmo (figura 4.7).


+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+++

+

+

+

+

++

++

+

++

+

+

+

++

+

+

+

+

++

++

+

++++

++

+++

+++

+++++

+

+++++

+

+++++++++

+

+

++++++++++

+

+

+++

+

+

+

+

++

+

+

+

+

+

++

++

+

+++++++++

+++++++

+++++++

+++++++++++++++

+++++++++++++++++++++++

+++++

+

++++++

+

++++++

++++++++++++++++++++++++++++++++++

+++++

+

+++++

+

++++++

++++++

++++++

+

+

++++++

++++

+++

+

++

+

+++

+

+++

+++++

+

+++

++

+

++

+

+

+

+++

+++

+++++

+

++

+

+++

++++

++++

+

+

+

+

+

+

+

+

+++

+

++

++

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

++

+

++

+

+

++

+++

++

+

+

+

+

++

+

+

+

++

+

+

+

+

++

+

+

0.0 0.5 1.0 1.5 2.0 2.5 3.0

−5

05

10

15

x

y

Errores N(0,1) y función seno

Centiles

1030507090

Figura 4.4: Seno y errores N(0,1).

Cuando se trabaja con errores t(2), se observa tambien un adecuado compor-

tamiento en los ajustes. Sobre todo en el caso de la funcion seno (vease la figura

4.5). En el caso de la utilizacion del logaritmo (figura 4.8), los puntos mas dis-

persos provocan un cambio de forma en los centiles 90 y 10, con respecto a los

demas.

Finalmente, al utilizar los errores G(1, 2), el comportamiento de los ajustes sigue

siendo bueno. Para la funcion seno puede verse en la figura 4.6 y en la figura 4.9,

para la funcion logaritmo.

Se ha realizado una comparativa (vease la figura 4.10) de los errores de prediccion,

provocados por los modelos anteriores. Obteniendose como resultado que, en el caso de

la N(0, 1) se aprecia una infraestimacion del modelo y en los otros dos escenarios una

sobrestimacion, mas evidente en los errores G(1, 2).

A la hora de tratar la regresion cuantil multidimensional, se debe tener en cuenta que

el paquete gamlss no tiene implementadas las interacciones entre terminos suavizados.

De hecho, si se integran en el modelo no provoca errores, pero solo presenta resultados

de la interaccion parametrica entre dicho terminos.


++++++

++

+

++

+

+

++

+

+

++++++

+

++

+

+

+

+

+

+

+++++++

+++++++++++

+++++++++++

++++++

+

+++++++++++++++++++++++++++++++++++

++++++++++++++++++++++++

+++++++++++++++++++++++++++++

++++++++++++++++++++++

+++++++++++++++++++++++

+

+++++++++++++++

+

+

++++++++++++++++++++++++++++++++++++

+++++++++++++++++++++++++++++++++++++++++++

+

+++++++++++++++++++++++

+

++++++

+

++++++++++++++++++

++

++++++++++++++

++

+

++++++

++

+

++++

+

++

+

++

+

+

++

+++++

+

++++

0.0 0.5 1.0 1.5 2.0 2.5 3.0

−6

0−

40

−2

00

20

x

y

Errores t(2) y función seno

Centiles

1030507090

Figura 4.5: Seno y errores t(2).

+

+

+++

++

+

+

+

++

+

+

+

+

+++

++

+

+

+

+

+

+

+

++

+

+

++

+

++

+

+

+

+

+

+

++

++

+

+

++

+++

+

+

+

+++++

+

+

+++++

++++++

++

+

+

+

+

++++

+

++++++++

++++++

+

+

++

++++

+++

++++++

++++

+

++++

+++++

+++

++

++++++++++++

++++

+

+++++++++++++++++++

+++++++

+++++++++++++++

++++++++++++++

++++++

+

++++++++

++++

+

++++++++

+++++++++++++++++++++++++++

++++

+++++

++++

+++

+

+

+++

+

++++++++++++

+

+

++++++

+++++

+

++

+

+++

++

+++

+

+

+++

++

+

+

+

++

+

++

+

+++

+

+

+++++

+

+

+

+

+

+

++

+

++

+

+

+

++

+

+

+

+

+

+

+

++

+++

+

+

+++

+

++

+

++

+

++

+

+

+

+

+

+

+

+++

0.0 0.5 1.0 1.5 2.0 2.5 3.0

51

01

52

02

53

03

5

x

y

Errores G(1,2) y función seno

Centiles

1030507090

Figura 4.6: Seno y errores G(1,2).


+

++

+

+++

+++

+

+

+++

+

+++

+

+++

++++++

++

++

++++

+++

+

+

+++

+

+

+

+

++

++

+++++++

+++

+++

+++++

+

++++++

+++++++++

+

+++++++++++

+

+

+++

+

+

+

+

++

+

+

+

+

+

++

++

+

++

++

++++

+

++

+++

++

+

++

+

+++

++

++

++

+

++++

+

+++

+

++++

+

+

++

+

+++

+

+

+

+

+

+++

++

+

+

+++

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

++

+++

+

+

+

++

+

+

++

+

+++

+++

+

++

+

+

+

+

+

++

++

+

+

+

+

+

+

+

++

+

+

++

+

++

++

+

+

+

+

++

++++

+

+

+

+

+

++

+

+++

+

+++

+

++

+

+

+

+

+

+

+

+

+

++

+

+

+

+

++

++

+

++

+

+

+

+++

++

+

+

+

+++

+

++

+

++

+

+

+

++

+++

+

+

+

+

+

+

+

+

+

+

++

+

++

++

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

++

+

++

+

+

++

+++

++

+

+

+

+

++

+

+

+

++

+

+

+

+

++

+

+

0.0 0.5 1.0 1.5 2.0 2.5 3.0

−5

05

x

y

Errores N(0,1) y función log

Centiles

1030507090

Figura 4.7: Logaritmo y errores N(0,1).

+++++++++++++++

+

+

++++++

+

+++++++

++++++++

++++++++++++++++++++++

++++++

+

++++++++++++++++++++++++++++++++++++++++++++

+++++++++++

+++

+

++++++++++++

+

+

++

+

++++++++++++++

++

+

+

+

++++++++++

+++

+

+

+

+

+++++++++++

+

+++++++++

+

+

+

+++

+

++

+

+++

+++

+

+

+++++

++

+

+++

++

+++++++++++

++

+

+++++

++++

++++

+

++

+

+

++

++++++

+

+++

+

++++

+

+

+++++++

+

+

+++

+++

+

+++

+++++

++++++

+

++++++++

+

++++

++

+

+++++++++

+++

++

++++

++

+

+++++++++++

++

+

+

+

++++++

++

+

++++

+

++

+

++

+

+

++

+

+

+++

+

+

+++

0.0 0.5 1.0 1.5 2.0 2.5 3.0

−2

0−

10

01

02

0

x

y

Errores t(2) y función log

Centiles

1030507090

Figura 4.8: Logaritmo y errores t(2).


+

+++++++++

+++

+

+

++++++

+

+++++

+++++++

+

++

+++

+

++++++++

+++++

+

++++++++

+

+++++

++++++++

+

++

+++++

+

++++++++

++++++

+

+

++

++++

+++

++++++

++++

+

++

+

+

++++

+

++

+

+

+

+++++

+++

+++

+

+

+

+

+

+

++++++

++++++++++

+

++

+++

+

++

+

+++

+

+

+

+

++

+

++++

+

+

+

++

+++

++

+

+

+++

+

++

+

+

+

+

++

++

+

+++

+

+

++

+

+++++

++

+

+

+

+

++++++

+

+

+++

++

+++

+++

+

+

+

++

++++

+

+++

+

+

++

+

+++

+

+

+++

+

++

++

+

+++++++

+

+

++++

++

++

+

++

+

++

+

++

+

++

+

++

+

+

++

+

++

+

+

+

++

+

++

+

+++

+

+

+++++

+

+

+

+

+

+

++

+

+++

+

+

++

+

+

++

+

+

+

+++++

+

+

+++

+

++

+

++

+

++

+

+++

+

+

+

+++

0.0 0.5 1.0 1.5 2.0 2.5 3.0

−5

05

10

15

20

x

y

Errores G(1,2) y función log

Centiles

1030507090

Figura 4.9: Logaritmo y errores G(1,2).

−1

01

23

4

Errores N(0,1)

sin log

Err

ore

s d

e p

red

icci

ón

−1

01

23

4

−4

0−

30

−2

0−

10

0

Modelo no paramétrico Errores t(2)

sin log

Err

ore

s d

e p

red

icci

ón

−4

0−

30

−2

0−

10

0

−5

−4

−3

−2

−1

0

Errores G(1,2)

sin log

Err

ore

s d

e p

red

icci

ón

−5

−4

−3

−2

−1

0

Figura 4.10: Errores obtenidos en los diferentes ajustes no lineales unidimensionales.

Error=valor real−prediccion. Se ha utilizado el percentil 50, τ = 0,5


+

+++++

+

++++++++++++++++++++++++++++

+++

+

+++++++

+

++

+++

+

++++

+++

+++++++

++++++

++

+

+++++++

+

+++++++++++++++++

+

+++++

++

+

++++++++++++++++++++

+

+

+

+

++++++++

+

++++++

++++++

++

+

++++++++++++++

+

++++++++

+++++++

++++

+

+

+

++

++++++

+

+++++++

+++

+

++++

+

+

+

+++

+++++++

+++

+

++++

+

+

++++++++

+

++++

+

+

+

+++++++

+++

+

+++++

+

+++++

+++++++++++++

+

+++++++

+++

+

+++

+

+

+

+

+

+

++

+

+++++

++

+++++

+

++

+++++

+

+

++++++++

+++

+

++

++++

+

++++++

+

++++++++

+

+

+

+

+++

++++++

++

++

+++++++

++

+

+++++

+

+

+

++++++

++

+

+++

+

++

+

+++

+++++

++++++

+

+

+

+++

+

+++++

+

+++++

+++

++

+

++

+

+

+

++++

+

+++++++++++++++

+

+

++++++

+++

+

+

+

++

++++

+

+

++++++

+++

+

+++++

+

++

+

++++++++

++

+

+

+

+

+

+++

+

+

++

++

+

++

++++

++

+

+

+

+++

+

+

+

++

+

+

+

+

+

+

+++

+

+

++++++

+++++

+

+

+

++

+

+

+

++

+

+++++

++

+

++

+++++++

++++++

+

+++

+

+++

+

+

++

+

++

+

+

+

+

+

++

+

+++

+

++

+

+++

+

++

+++

+

+

+

++

+

+

+

+

+++

+

++

+

++

+

+

++

+

+

+++++

++++++

++

++

+

++

+++++++

+

++

+++

+

++++

+

+

+

++++

+

++

+++

+++

++

+++++

+

+

+

++

++

+

++

+

+

+

+

+

+

+

+

+

+++

+

++++++++++

+++++

++

++

+

++++

+

+++++

+

+

+

+

+

+

++

+

+

+

+

+

++++

++

+

+

++

+

+

++

+

++++

+

+

+

++

+

+

++++

++++

++++++

+

+++

+

+

++++

++++

++

+

++

++

+

+

+

+++

++

+

++

++++

+

+++

++

++

+

+

+

+

+

+

+

+

+++

+

+

+++

+

+++

+

+++

++++

++

+

+

+

+

+

+

+

+

+

+

+

+

++

+++

+++

+

+

+

++++

+

+

+

+

+

+

++

+

+

+++

++++

+

+

+

+

+++

++

+

+

+

++++

+

+

+

+

+

++

+

++

+++++++

+

+

++

+++

+

+++

++

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+++

+++

++

+

+

+

+

+

++

+

+

++

+

+

+

+

++

+++

+++

+

+

+

+

++++

+

+

+

+++++

+

+

+

+

++++

++

+

++

+

+

+

+

+++

+

++

+

++

+

++

+

+

+++

+

+++

+++

+

++++

+

++

++

+

+++

+

+

++

++++++

+

+

+

++++

+

++++

+

+

++++

+

++

+

+++

+

++

+

+

++

+

+

++

++

+

+

+

+

+

++

+

+

+

++

+

+

120 160

12

34

56

78

talla

fvc

Centiles

1030507090

NIÑOS

++++

+++

+++++++++

++

++++++

++++++

+

++++++++++++++++++++

+

++

+

+

++

+

++

+

++++

+

++++

+

+

+

+

++++++

+++

+++++

++++

+++++++

++

++

+++

+

+++++

+

++

++

++++

+

++

++

+

+

+

++

++

+++

+++

+

+

+

+

+

+

++++++

+

+++++

++++

+++

+++

+++

++++++++++

+

+

+

++

+

+

+

+

++

+

++

+

+

++

+

+

++++++++++

+++

+

+++

+

+

+

+

++++

+++

+++++++

++

+

+

+

+

++

+

+

+

++

+

++++

+++++++++

+

++++

+++

+

+++

++

+++

+++

++++

++

++

++++

+

++

+

+

+++

++++

++

+

++

++

+

+++

+++++

++

++

+

+

+

++

+

+

+++

+++

+

++++++

+

+

+

++

++++++++

++

+

+

++

+

+

+

+++++

+++++

+

++

++

+++

++

+

++

++

++++++++

++++

+

+

+

++

+

+

++

+

++++++

+

+

+++

+

+++

+

+

++

+++++

+

++++

+

+

++

+

++

+

+

+

++

+

++

++++

+

+

+

+

+++

++++

+

++++

+

+

+

++++++

+

++

+

+

++

+

+

++++

++++

+

++++

+

++

+++

++

+

+

+

++

+

+

++++

++++++

++

+++

+

+

++

++

+

++

+

+

+

+

+

+

++++

++

+

++++

++

++

+

+

+

+

+

++

+

+++++

+++

+

++

+

+

++

+

++++

+

+

+

+

+++++

+

+

+

+

+

++

+

++

+++

++

+

+

+

+

+

+

+

+++

+++++

+

+

+

++

++

+++++

+

+

+

++++++++

+

+

++++

+

+

+

++

+

+

+

+

+

++

+

+++++

++

++

++++

+

+

++

+

++

+

+

+

+++

+++

+

+++

++

+

+

++

+

++

+

+++

+

+

+++

+

++

+

++

++++

+

+

+

++

+

+

++++

+++

++

+

+

+++

++

+

+

++

+

+

+

+

+++++

+

+

++++

+

+

+

+++++

+

+

+

+

+

+++

+++

+

+

++

++

++++

++

+

++

+

+++

+

++

+

+

+

+

+++

+

+++

+

+

++

+

++

+

+

+

+

++

+

++++

+

+++

++

+

+

++

+

+

+

+++

+++

++

++

+

++

+

+

++

++

+

+

+

+

+

+

+

+++

+

+++++

++

+++

+

+++

+

+

+

+

+++

+

+++

+

++++++

+

++

+

++++++

+

+

+

++

+

+

++

+

+

+++

+++++

+

++

+

+

++++

+

+

++

+

+

+

+

++++

+

+

++++

+

+

++

+

+

+++++++

+

+

+

+

+

++

+++

++

+

+

++++

+

+

+

++

+

+

+

++++++

+

+

++

+

+

+

+++

+

+

+++

+

+

+

++++

+

+

+++

+

+++++

+

++

+++

+

+++

+

++

+

110 130 150 170

12

34

56

talla

fvc

Centiles

1030507090

NIÑAS

Figura 4.11: Ajustes mediante regresion cuantil suavizada.

La recta discontinua representa el ajuste parametrico para el percentil 50, τ = 0,5


Sobre la misma base de datos con la que se ha trabajado hasta el momento, referente

a los valores espirometricos de la poblacion escolar gallega. Se han realizado los ajustes

de modo independiente para varones y mujeres. Se presentan en la figura 4.11 dichos

ajustes suavizados, junto con los relativos a la regresion clasica y la regresion cuantil

lineal. La necesidad de utilizar modelos distintos en ambas subpoblaciones (varones

y mujeres) queda patente tambien en la suavizacion. Sobre todo en la diferencia de

tendencias para valores pequenos de la talla, que el modelo suavizado los capta per-

fectamente. Resaltar que, en el caso de la poblacion de mujeres, los valores de fvc se

concentran entorno a 3 y 4, mientras que en el caso de los varones se encuentran mas

repartidos. Esto provoca, para la poblacion femenina, una mayor distancia entre las

distintas curvas cuantil y una menor curvatura, hecho que se resalta en las curvas de

cuantiles altos, para los valores de tallas entre 140 y 170cm.

CODIGO:

#########################AJUSTES NO LINEALES(gamlss)


modelo<-gamlss(datos$fvc~cs(datos$talla,df=5),data=datos,

sigma.fo=~cs(ejex,df=3))

centiles(mod, xvar=ejex, col.cent=c(1,1,1,1,1), cent=c(10,30,50,70,90),

legend=FALSE,lty.centiles=c(3,2,1,2,3),lwd.cent=c(1,1,2,1,1),main="",

xlab="talla",ylab="fvc")

leg.txt <- c("10","30","50","70","90")

legend("topleft",legend=leg.txt,title="Centiles",lty=c(3,2,1,2,3),

lwd=c(1,1,2,1,1),col=c(1,1,1,1,1))

4.3 Paquete VGAM 55

4.3. Paquete VGAM

Mediante este paquete realizaremos el ajuste mediante Modelos Aditivos General-

izados Vectoriales (VGAM)[82], [80] y [81]; implementado en la funcion vgam. Esta es

una gran clase de modelos que incluye modelos aditivos generalizados (GAM) y los

modelos lineales generalizados vectoriales (VGLMs) como casos especiales.

Un VGAM puede definirse como un modelo estadıstico funcion de los M factores

predictores aditivos y puede escribirse segun la formula 4.8 como:

ηj =

p∑j=1

f(j)k(xk), conj = 1, . . . ,M (4.8)

donde M es finito, xk es la k−esima variable explicativa (considerando habitualmente

x1 = 1 para el termino independiente), f(j)k son funciones de xk que se estiman mediante

suavizacion y el primer termino de la suma es el termino independiente. En el caso de

que todas las funciones f(j)k estuviesen obligadas a ser lineales, entonces el modelo

resultante serıa un Modelo Lineal Generalizado Vectorial (VGLM). Los VGLMs se

ajustarıan mejor mediante la funcion vglm del mismo paquete VGAM.

Actualmente, solo se aplica un tipo de suavizadores, los splines cubicos. Los resulta-

dos de vgam seran diferentes en R y en S-PLUS, puesto que vgam utiliza una seleccion

de nodos diferente. Hay que tener en cuenta que, en general, la seleccion de los nodos

para el calculo de las funciones suavizadoras se vuelve costosa cuando el numero de

predictores aditivo M es grande.

El algoritmo subyacente de VGAMs es el algoritmo iterativo de mınimos cuadrados

reponderados (IRLS) y modifica el vector backfitting utilizando vectores splines. Los

b-splines se utilizan como las funciones de base para los vectores de splines. El codigo

de suavizacion se basa en el codigo F. O’Sullivan BART.


De modo general, una tabla de percentiles es una serie de curvas percentil suavizadas,

que muestran como los centiles seleccionados cambian cuando se grafican frente a al-

guna covariable; que habitualmente suele ser la edad o el tiempo. Los percentiles de

la distribucion observada, utilizados en el proceso de ajuste, se obtienen al dividir la

poblacion en valores particulares o grupos de la covariable. Si se utilizan percentiles

empıricos, los extremos se estimaran de modo relativamente inexacto; ya que los er-

rores estandar percentil van a dispararse hacia las colas de la distribucion. Una forma

de solucionar este problema es adaptarse a una distribucion teorica de los datos y luego

obtener los percentiles esperados de la funcion de densidad acumulativa conocida [32].

4.3 Paquete VGAM 56

Este enfoque es utilizado habitualmente para la construccion de tablas de talla por

edad en los ninos, donde la distribucion de la altura es cercana a lo normal. Ası, si para

un determinado grupo de edad la media y la desviacion tıpica de la altura son ν y ε, el

percentil 100α−esimo se escribira como:

C100α = ν + ε · zα,

donde zα es el equivalente normal correspondiente a desviarse de la cola un area α.

Sin embargo, para otras medidas comunes de crecimiento de los ninos; como pueden

ser el peso, la circunferencia de pliegues cutaneos, etc.; los datos suelen poser mas

sesgo que la distribucion normal. En este caso, es una practica comun asumir una

distribucion log-normal, de modo que, si ν y ε son la media y la desviacion tıpica,

con la transformacion logarıtmica se obtiene que la curva correspondiente al percentil

100α−esimo, vendra dada por la formula: en lo natural escala logarıtmica, el percentil

100α viene dada por:

C100α = µ · exp(ε · zα),

donde µ = exp(ν) es la media geometrica de la medida inicial.

No hay razon en principio para no aplicar una transformacion de los datos, segun lo

descrito por Box y Cox, [3]. La estimacion de la maxima verosimilitud (MLE) para la

potencia, que a la vez minimiza la asimetrıa y optimiza las condiciones de normalidad,

es ideal para resolver el problema de datos sesgados. Sin embargo, solo funciona en

grupos individuales y no permite directamente cambios en la asimetrıa de la covariable,

por ejemplo, tiempo. [76] utilizan percentiles para ajustar la variable espesor del pliegue

cutaneo por la covarible edad. Para ello ampliaron el metodo de Box-Cox para estimar

una potencia diferente para cada grupo de edad. Ajustaron una curva suavizada para

cadagrupo especıfico de edad. Esta curva, en relacion con las correspondientes curvas

suavizadas para la media y la desviacion estandar, se utilizo para generar el conjunto

requerido de percentiles.

En el paquete se utiliza una nueva tecnica [12] que amplıa a las dos anteriores. Utiliza

variaciones suavizadas de la transformacion Box-Cox, que proporciona aplicaciones mas

amplias que las sugeridas por [76]. Ya que no solo genera un conjunto coherente de

percentiles suavizados con relativamente calculo poco, sino que la forma de la curva

de potencia (que no debe confundirse con la curva de error de tipo II) proporciona

informacion sobre el cambio de sesgo de la distribucion que no esta previsto por otros

metodos de ajuste percentil.

Las tecnicas referidas se desarrollan como:

Box y Cox, [3], propusieron dos familias alternativas de transformaciones, dadas

por las formulas 4.10 y 4.11, en funcion de los parametros desconocidos λ y δ.

4.3 Paquete VGAM 57

Ambos casos deben verificar y > 0 e y > −δ respectivamente. Los parametros se

eligen para maximizar la verosimilitud de la muestra y = (y1, . . . , yn), suponiendo

normalidad en su distribucion.

y(λ) =

{(yλ − 1)/λ si λ = 0

log y si λ = 0(4.9)

y(λ) =

{[(y + δ)λ]/λ si λ = 0

log(y + δ) si λ = 0(4.10)

(4.11)

Mediante la introduccion del jacobiano de la transformacion, Box y Cox, [3],

mostraron que la MLE de λ es aquella que minimiza la varianza de la variable

escalada definida por las ecuaciones 4.13 y 4.13, donde y y gm indican la media

geometrica. Queda claro que f (λ) posee la misma dimension que y para cualquier

valor de λ, para que al variar λ la var(f (λ)) mantenga las mismas unidades que

var(y). Ademas, puesto que var(f (λ)) es la cantidad que debe minimizarse, por

definicion variara de modo relativamnete lento en la region del mınimo, por lo

que leves diferencias en λ tendran poco efecto sobre la varianza.

f (λ) = y(λ)/yλ−1 (4.12)

f (λ) = y(λ)/[gm(y + δ)]λ−1 (4.13)

La log-verosimilitud es proporcional a − log[var(f (λ))], y es aproximadamente

cuadratica en el entorno del maximo. Por lo que puede calcularse como una serie

de valores de λ y el MLE λ se obtiene de un ajuste cuadratico.

En el caso de encontrarnos ante una familia de transformaciones, como las definidas

por la ecuacion 4.10, se puede utilizar una transformacion escalada alternativa,

dada por la ecuacion 4.14.

g[λ] = f (λ)/y = y(λ)/yλ (4.14)

Tras esta transformacion se logra disminuir la dimension de g(λ) y su desviacion

tıpica es analoga al coeficiente de variacion de y. La desviacion tıpica de g(1) difiere

del coeficiente de variacion, solo en el caso de de utilizar geometricrather y la me-

dia aritmetica en el denominador. Tambien var(g(0)) es equivalente a var(log(y)).

Esto se refuerza la relacion entre el coeficiente de variacion y el log(desviacion

tıpica), terminos que son ambos utilizados para describir la desviacion de g(λ).

Las variables f (λ) y g(λ) pueden utilizarse de modo indistinto en la ecuacion 4.10,

pero no ocurre lo mismo en el modelo definido por la ecuacion 4.11, ya que en

4.3 Paquete VGAM 58

este ultimo caso la razon f (λ)/g(λ) es una funcion del parametro desconocido δ.

La ventaja de g(λ) sobre f (λ) es que para muchas variables, donde esta tecnica es

util, la desviacion tıpica crece bastante constante con la media mientras que el

coeficiente de variacion no. Por lo que, el coeficiente de variacion es independiente

de la media, relativamente.

Las curvas L, M y S. Este metodo requiere que y sea dividida en p grupos,

correspondientes a los valores (o rango de valores) del tiempo ti, media(ti) ∀i ∈{1, . . . , p}. Los MLEs de λi se obtienen para cada grupo y, para ello, es mas sencillo

trabajar con yλ que con g(λ). Sean ν y ε los valores de la media y desviacion tıpica

de los yλ observados. La mediana de yλ es estimada eficientemente por ν, de modo

que, una estimacion eficiente de la mediana (µ) viene dada por ν1λ . Del mismo

modo, la desviacion tıpica (σ) de g(λ) es ε/λyλ. Para el caso particular de que

λ = 0, el valor de µ sera exp(ν), mientras que ε y σ coinciden.

El MLE de λ es el valor que minimiza σ, ası que σ se obtiene para varios valores

de λ y un ajuste cuadratico en λ por log[var(gλ)]. El mınimo se puede localizar

por interpolacion. Si el ajuste cuadratico viene dado por la formula

log[var(gλ)] log[var(gλ)] = α+ βλ+ γλ2,

entonces λ = −β/2γ con error tıpico (nγ)−0,5, con n el tamano muestral.

El ajuste cuadratico requiere de, al menos, tres valores distintos de la log−varianza

de λ. En la practica, los resultados estan muy cerca de una curva cuadratica, de

modo que especificar tres valores es bastante adecuado. Ademas, el valor exacto

de λ no es crıtico, puesto que se va a suavizar. Esto significa que la eleccion de

valores entre −1, 0, 1 para λ abarca un rango razonable y ahorro de tiempo de

procesador. En cuyo caso, los valores de β y γ son (V+−V−)/2 y (V−−2V0+V+)/2,

respectivamente. Donde V es el logaritmo de la varianza y los subındices −, 0 y

+ se refieren a los valores −1, 0, 1.

Ahora λi, µi y σi son representados sobre ti y sus curvas suavizadas son L(t),M(t)

y S(t) y se pueden representar, en cada caso, referidas a la potencia, la media y

la desviacion tıpica. La suavizacion se puede hacer utilizando cualquier metodo;

son adecuados, por ejemplo, splines cubicos [69], los metodos kernel [23], ajustes

polinomicos, otros especıficamente adaptados a funciones matematicas [36] y [58],

etc.

Es posible hacer el ajuste de la curva en dos etapas, primero la obtencion de L(t)

y luego con L(ti) para cada grupo y con λi, se obtienen ui y σi. De esta forma,

4.3 Paquete VGAM 59

las estimaciones de M(t) y S(t) son un poco mas consistentes, pero con un coste

extra de computacion.

La desviacion tıpica obtenida de la curva S(t) se puede restaurar para las unidades

iniciales de y multiplicando por L(t)yL(t)i . Sin embargo, esto requiere valores

suavizados de yi y µi, para valores t = ti. Como las dos medias son en la practica

muy similares, sobre todo si L(ti) es cercana a cero, el metodo se simplifica si se

utiliza M(ti) en lugar de yi.

Con esta simplificacion, las curvas L, S y M pueden utilizarse para generar

cualquier curva percentil suavizada sobre el rango completo de los valores de

la covariable. Para el percentil 100α, la ecuacion viene dada por la formula ??;

que es equivalente a la formula 4.16 si L(t) es cero.

C100α(t) = M(t)[1 + L(t)S(t)zα]1/L(t) (4.15)

C100α(t) = M(t)exp[S(t)zα] (4.16)


Escenario: Ajustes no lineales

Dentro del paquete VGAM, el trabajo con la regresion cuantil suavizada se hace

a traves de la funcion vgam. Con ella se han realizado los ajustes, seleccionando los

siguientes parametros:

En la formula se ha suavizado la covariable con splines cubicos de regresion me-

diante la funcion cs(, df = 5).

Para el calculo del parametro sigma del modelo se ha trabajado con splines

cubicos pero, en este caso, con df = 3.

A la hora de seleccionar los centiles, se han considerado los valores 10, 30, 50, 70


Se ha trabajado con las simulaciones no lineales descritas en la ecuacion 3.1. Los er-

rores utilizados han sido los N(0, 1) y G(1, 2). Porque en el tratamiento con los paquetes

anteriores, en estos dos escenarios, se observaron comportamientos mas diferentes. Los

resultados graficos, obtenidos de aplicar los ajustes a los diversos conjuntos de datos,

pueden verse en las figuras 4.13, 4.14 y 4.15:

Ademas del evidente buen comportamiento de los ajustes, en el caso de los errores

N(0, 1); resaltar las diferencias, en forma, entre las diferentes curvas de ajuste.

4.3 Paquete VGAM 60

0.0 0.5 1.0 1.5 2.0 2.5 3.0

5

10

15

20

25


x

y

10%

30%

50%

70%

90%

Centiles

1030507090


Tanto en el caso de la funcion seno (vease la figura 4.13) como en el caso del

logaritmo (figura 4.14).

Al utilizar los errores G(1, 2), el buen comportamiento de los ajustes sigue man-

teniendose. Y es interesante observar que la distancia entre las curvas de ajuste

aumenta al aumentar el valor del cuantil de ajuste, como debe ocurrir dada la

forma que se observa en la nube de puntos. Veanse las figuras 4.13 y 4.15.

Se ha realizado una comparativa (vease la figura 4.16), de los errores de prediccion

provocados por los modelos anteriores. Observandose una infraestimacion en el caso

del escenario simulado utilizando la funcion seno. Y ocurriendo una situacion similar

al utilizar la funcion logaritmo, con la salvedad de que el modelo aquı provoca tambien

sobreestimacion muy acusada en unos pocos puntos.


Volviendo a la base de datos de la poblacion escolar gallega, y realizando los ajustes

de modo independiente para varones y mujeres, se presentan en la figura 4.18 dichos

ajustes suavizados, junto con los relativos a la regresion clasica y la regresion cuantil

lineal. Cabe resaltar que, en el caso de la poblacion de varones, la nube de puntos refleja

4.3 Paquete VGAM 61

0.0 0.5 1.0 1.5 2.0 2.5 3.0

5

10

15

20

25

30

35


x

y

10%30%50%

70%

90%

Centiles

1030507090


0.0 0.5 1.0 1.5 2.0 2.5 3.0

5

10

15


x

y

10%

30%

50%

70%

90%

Centiles

1030507090


4.3 Paquete VGAM 62

0.0 0.5 1.0 1.5 2.0 2.5 3.0

5

10

15

20

25

30


x

y

10%30%50%70%

90%

Centiles

1030507090


un comportamiento mas homogeneo en concentracion que la de mujeres. Ademas, sus

rectas de regresion cuantil presentan una mayor curvatura, sobre todo en las curvas de

cuantiles altos, para los valores de tallas entre 130 y 160cm.

CODIGO:

#########################AJUSTES NO LINEALES(vgam)

modelo<-vgam(datos$fvc~datos$talla, lms.bcn(zero=1), dat=datos,

trac=TRUE)

qtplot(modelo,percentiles=c(10,30,50,70,90),main="",las=1,

lwd=c(1,1,2,1,1),

lcol="brown",xlab="talla",ylab="fvc")

leg.txt <- c("10","30","50","70","90")

legend("topleft",legend=leg.txt,title="Centiles",

lty=c(3,2,1,2,3),lwd=c(1,1,2,1,1),col="brown")

4.3 Paquete VGAM 63

−4

−2

02

Errores N(0,1)

sin log

Err

ore

s d

e p

red

icci

ón

−4

−2

02

−4

−2

02

Errores G(1,2)

sin log

Err

ore

s d

e p

red

icci

ón

−4

−2

02



mediana, τ = 0,5.

4.3 Paquete VGAM 64

120 160

1

2

3

4

5

6

7

8

talla

fvc

10%

30%50%70%

90%

Centiles

1030507090

NIÑOS

120 160

1

2

3

4

5

6

talla

fvc

10%

30%50%70%

90%

Centiles

1030507090

NIÑAS


La regresion cuantil parametrica se representa con lınea verde.

4.4 Paquete mboost 65

4.4. Paquete mboost

Este paquete esta disenado desde una moderna vision de la regresion y se situa entre

los modelos lineales y aditivos generalizados clasicos, como pueden ser por ejemplo,

los implementado por lm, glm o gam; y el enfoque de las machine learning para los

modelos de interacciones complejas, mas representados por el gbm y randomForest.

Todas las funciones en este paquete estan basadas en la aplicacion generica del

algoritmo de optimizacion implementado en la funcion mboost.fit, [34]; que permite el

ajuste de modelos de lineales, aditivos y de interaccion (e incluso mezclas de ellos) para

pequenas y grandes dimensiones. La respuesta puede ser numerica, binaria, ordinal,

censurada y con datos de recuento.

Una de las principales caracterısticas de la tecnica utilizada, es el reducido consumo

de memoria; que se logra gracias a la tecnologıa de matriz dispersa, implementada en

el paquete Matrix. Ademas, los procedimientos de remuestreo se ejecutan automatica-

mente en paralelo, si se utiliza el paquete multicore. Pero el avance mas importante,

es la aplicacion generica del optimizador de la funcion mboost.fit.

Los algoritmos de boosting para regularizacion, prediccion y ajuste de modelos

[34], que se presentan dentro del paquete mboost [34], dan un enfasis especial a la

estimacion de modelo complejos, tanto parametricos como no parametricos; e incluyen

modelos lineales y aditivos generalizados, ası como modelos de regresion para el analisis

de supervivencia.

El algoritmo AdaBoost de Freund y Schapire para la clasificacion [18], [19] y [20]

ha atraıdo mucha atencion en la comunidad del machine-learning ([68]), ası como en

materias relacionadas en la estadıstica [4], [5], [22]. Existen varias versiones del algo-

ritmo AdaBoost que han demostrado ser muy competitivas, en terminos de precision

en la prediccion de una variedad de aplicaciones. Los metodos boosting han sido prop-

uestos inicialmente como un conjunto de metodos basados en el principio de generar

predicciones multiples (un promedio) entre los clasificadores individuales.

Mas tarde, Breiman, [4] y [5], observo que el algoritmo AdaBoost se puede ver

como un algoritmo de descenso de gradiente en el espacio funcional, inspirado por la

optimizacion numerica y la estimacion estadıstica.

Por otra parte, [22], se establecen fundamentos mas importante que vinculan el Ad-

aBoost y otros algoritmos boosting al marco de la estimacion estadıstica y al desarrollo

de bases aditivas. En su terminologıa, el boosting se representa como un stagewise,

additive modeling : donde la palabra additive no implica un ajuste del modelo aditivo

en las covariables, sino que se refiere al hecho de que el boosting es una combinacion

aditiva (de hecho, lineal) de estimadores (funciones) simples.


Tambien en [54]y en [61] se desarrollaron ideas afines que fueron reconocidas prin-

cipalmente en la comunidad del machine-learning. En [28], se dan otras visiones adi-

cionales del boosting, en particular, los autores senalan en primer lugar la relacion entre

el boosting y la estimacion ℓ1−penalizada. Las ideas de [22], abrieron nuevas perspec-

tivas, llamadas a utilizar los metodos boosting en muchos otros contextos ademas de la

clasificacion.

Trataremos los metodos boosting para regresion (incluyendo regresion generaliza-

da), [9], [21] y [61]. Pero se hace necesario mencionar que, en el mismo paquete que nos

ocupa, se utilizan tambien para estimacion de la densidad [63]; para el analisis de su-

pervivencia, [33], [61]; y para analisis multivariante, [22] y [52]. En un buen numero de

estas propuestas, el boosting no es solo una caja-negra como herramienta de prediccion,

sino tambien un metodo de estimacion para modelos con una estructura especıfica, tales

como los lineales o los aditivos [7], [9] y [33]. El boosting puede, por lo tanto, verse como

una tecnica interesante para estimar un modelo. Esta perspectiva estadıstica impulsara

el centro de la exposicion de boosting desarrollada en el paquete mboost.


Consideramos una muestra de variables aleatorias independientes e identicamente

distribuıdas (X1, Y1), · · · , (Xn, Yn) de un proceso estacionario con covariables p−dimensionales

Xi y variable respuesta unidimensional Yi. Se construyen multiples estimaciones de fun-

ciones o predicciones a partir de los datos y se utiliza una combinacion lineal (o a veces

convexa) de los mismos para obtener el estimador final. Los pasos son los siguientes:

Primero se especifica un procedimiento base, para construir una funcion esti-

madora g, con valores en el cuerpo de los numeros reales basada en la muestra de datos

inicial (X1, Y1), · · · , (Xn, Yn):

(X1, Y1), · · · , (Xn, Yn) procedimiento−−−−→ base g

Por ejemplo, un procedimiento base puede ser una regresion lineal.

Depues, generando un conjunto de procedimientos base, que son, un conjunto de

funciones estimadas o predicciones, se sigue como:

datos reponderados 1 procedimiento−−−−→ base g[1]

datos reponderados 2 procedimiento−−−−→ base g[2]

· · · · · ·

datos reponderados M procedimiento−−−−→ base g[M ]

Lo que se denomina aquı como datos reponderados significa que se asignan pon-

deraciones de los datos individuales de cada uno de los n puntos de muestreo. Tambien


hemos asumido implıcitamente que el procedimiento base permite hacer algun ajuste

ponderado, es decir, la estimacion se basa en una muestra ponderada. Esta vision es

valida para todo el desarrollo a excepcion del algoritmo AdaBoost.

Este conjunto de procedimientos es demasiado general para ser de uso directo. La

especificacion de los mecanismo de ponderacion de datos, ası como la forma de la

combinacion lineal de coeficientes∑M

m=1 αm, son cruciales y distintas selecciones carac-

terizan a conjuntos diferentes. La mayorıa de los metodos boosting son tipos especiales

de conjuntos de sistemas secuenciales, donde los pesos de los datos en la iteracion m

dependera, solamente, de los resultados de las iteraciones m−1 anteriores (sin memoria

con respecto a las iteraciones m− 2,m− 3, . . .).

Algoritmo AdaBoost

El algoritmo de clasificacion binaria AdaBoost [31] es el algoritmo boosting mas

conocido. El procedimiento de base es el de un clasificador con valores en (0, 1).

1. Comenzamos asignando pesos a cada una de las muestras individuales: w[0]i = 1

n

para i = {1, . . . , n} y sea m = 0.

2. Incrementamos m en una unidad. Aplicamos el procedimiento base a los nuevos

datos reponderados, es decir, realizamos un ajuste reponderado utilizando los

pesos w[m−1]i obteniendo el clasificador gm.

3. Calculamos los pesos de los errores de clasificacion

err[m] =

n∑i=1

w[m−1]i I(Yi = g[m](Xi))/

n∑i=1

w[m−1]i ,

α[m]=log

(1− err[m]

err[m]

)y los pesos actualizados seran

wi = w[m−1]i exp

(α[m]I(Yi = g[m](Xi))

),

w[m]i = wi/

n∑j=1

wj

4. Repetimos los pasos 2 y 3 hasta m = mstop y construımos la estimacion de la

funcion de clasificacion

fAdaBoost(x) = arg maxy∈[0,1]

mstop∑m=1

α[m]I(g[m](x) = y)


Al utilizar la terminologıa del mstop (en lugar de M como en la descripcion general

del conjunto de esquemas), se hace hincapie tanto aquı como mas adelante, en que el

proceso de iteracion debe pararse para evitar el sobreajuste. El parametro de ajuste

para el algoritmo AdaBoost, puede seleccionarse usando procedimientos de validacion

cruzada.

Lento comportamiento de sobreajuste

Se ha debatido hasta aproximadamente el ano 2000 si el algoritmo AdaBoost es

inmune al sobreajuste cuando se ejecutan mas iteraciones, es decir, si pararlo no se hace

necesario, [? ] . Hoy en dıa esta claro que el algoritmo AdaBoost y otros algoritmos

boosting sobreajustan eventualmente, y pararlos antes (utilizando un valor mstop antes

de la convergencia de la funcion de perdida sustituta, dada por la ecuacion 4.17) es

necesario, [1], [37] y [55]. Se debe hacer hincapie en que esto no entra en contradiccion

con los resultados experimentales, [34] y [4].

ρexp(y, f) = exp(−yf), (4.17)

Sin embargo, el algoritmo AdaBoost es bastante resistente al sobreajuste al aumentar

el numero de iteraciones de mstop. Esto ha sido comprobado empıricamente aunque

algunos casos con un claro sobreajuste se producen para algunos conjuntos de datos

[55].

Pueden verse en [? ], desarrollos de varianza y sesgo para boosting con una curva de

ajuste unidimensional. Se muestran las diferencias entre el boosting y la aproximacion

por smoothing splines. Obteniendo como resultado que: la varianza boosting se crece

con pequenos incrementos exponenciales mientras su sesgo al cuadrado disminuye ex-

ponencialmente a medida que crece el numero de iteraciones. Esto tambien explica por

que el sobreajuste boosting sube de forma muy lenta.

Notas historicas

La idea del boosting ,como un conjunto de metodos para mejorar el desempeno

predictivo de un procedimiento base, parece tener sus raıces en el machine learning.

Kearns y Valiant, [38], han provado que si los clasificadores individuales aciertan, por lo

menos, un poco mejor que el azar, sus predicciones se pueden combinar con un promedio

mucho mejor. Mas tarde, en [67], se propuso un algoritmo boosting con tiempo de

ejecucion polinomico demostrable para construir un mejor conjunto de clasificadores.

El algoritmo AdaBoost, [18], [19] y [20], se considera como un primer paso pionero

hacia la factible utilizacion de algoritmos boosting.


Los resultados de [4] y [5], demostrando que el boosting se puede interpretar como un

algoritmo del gradiente funcional descendente, redescubren las raıces mas antiguas del

boosting. En el contexto de la regresion, hay una conexion inmediata con el algoritmo de

Gauss-Southwell, [70], para resolver un sistema de ecuaciones lineales y con el metodo

de ”twicing”de Tukey, [75].

4.4.2. Gradiente Funcional Descendente

Breiman, [4] y [5], demostro que el algoritmo AdaBoost puede ser representado como

un algoritmo de descenso mas rapido en funcion del espacio, al que llamamos gradiente

funcional descendente (FGD). En [22] y [21] se crea a continuacion un marco estadıstico

mas general que da una interpretacion directa del boosting como metodo para la funcion

de estimacion. En su terminologıa, se trata de un enfoque stagewise, additive modeling.

Considerese el problema de estimar la funcion de valores reales descrita por la formula

4.18

f∗(.) = argmınf(.)

E[ρ(Y, f(X))], (4.18)

donde ρ(., .) es una funcion de perdida, que se asume diferenciable y convexa con re-

specto a su segunda componente. Por ejemplo, el error cuadratico de perdida ρ(y, f) =

(y − f)2 produce la bien conocida f∗(x) = E[Y |X = x].

El generico FGD o algoritmo boosting

En lo que sigue, se utilizaran los terminos FGD y boosting de modo equivalente.

Una estimacion de f∗ realizada por boosting en la formula 4.18 puede llevarse a cabo

mediante la consideracion del riesgo empırico n−1∑n

i=1 ρ(Yi, f(Xi)) y persiguiendo it-

eraciones de descenso mas pronunciada en funcion del espacio. El algoritmo, propuesto

por Friedman, [21], sigue los pasos:

1. Se asignan los valores iniciales de m = 0 y f [0], que normalmente se eligen entre

f [0](.) ≡ argmınc n−1∑n

i=1 ρ(Yi, c) y f [0] ≡ 0

2. Tras incrementar m en una unidad, se calcula el gradiente negativo − ∂∂f ρ(Y, f) y

se evalua en f [m−1](Xi), obteniendo:

Ui = − ∂

∂fρ(Y, f)|f=f [m−1](Xi)

, i ∈ 1, . . . , n.

3. Se ajusta el vector de gradientes negativos, mediante el procediemiento base

(en el caso que nos ocupa, la regresion):

(Xi, Yi)ni=1 procedimiento−−−−→ base g[m] (4.19)


Y ası puede verse g[m] como una aproximacion del vector de gradientes negativos.

4. Se actualiza

f [m] = f [m−1] + ν · g[m],

donde ν ∈ (0, 1] avanza a lo largo de una estimacion del vector gradiente negativo.

5. Iteramos los pasos de 2 a 4 hasta que m = mstop.

La iteracion de parada, mstop, se puede determinar a traves de la validacion cruzada

o algun criterio de informacion, como se indica en secciones posteriores. La eleccion del

factor de paso ν es de menor importancia, siempre y cuando posea valores pequenos,

como ν = 0, 1. Un valor menor de ν, por lo general, requiere un mayor numero de itera-

ciones boosting y por lo tanto mas tiempo de computacion, mientras que la exactitud

de prediccion ha sido empıricamente valorada como potencialmente mejor y casi nunca

peor al elegir ν suficientemente pequeno (por ejemplo, ν = 0, 1), vease [21]. En [21] se

sugiere el uso de una lınea de busqueda adicional entre los pasos 3 y 4 (en caso de otras

funciones de perdida ρ distintas del error cuadratico): esto provoca un algoritmo un

poco diferente, pero la busqueda de lıneas adicionales parece innecesaria para lograr un

buen estimador f [mstop].

En los pasos 2 y 3 del algoritmo generico de FGD, se asocia a U1, . . . , Un un vector

gradiente negativo. Una de las razones para esto, puede verse en la siguiente formulacion

en el espacio de funciones, que es similar a la exposicion en [54] y a la discusion que se

hace en [62].

Considerando el funcional de riesgo empırico C(f) = n−1∑n

i=1 ρ(Yi, f(Xi)) y el

producto interior usual ⟨f, g⟩ = n−1∑n

i=1 f(Xi)g(Xi). Se calcula la Gateaux derivada

negativa del funcional

−dC(f)(x) = − ∂

∂αC(f + αδx)|α = 0,

siendo f : Rp → R, x ∈ Rp y δx denota a la funcion indicadora en x ∈ Rp. en particular,

al evaluar la derivada −dC en f [m−1] y Xi, se obtiene

−dC(f [m−1])(Xi) = n−1Ui

con U1, . . . , Un exactamente igual a los pasos 2 y 3 del algoritmo generico FGD. en con-

secuencia, el vector gradiente negativo U1, . . . , Un se puede interpretar como la Gateaux

derivada funcional evaluada en los puntos.

Resaltar que el algoritmo en [54] es diferente del metodo generico FGD anterior, ya

que utiliza el producto interior: ⟨U, g⟩ = n−1∑n

i=1 Uig(Xi). Para ciertos procedimientos

base, los dos algoritmos coinciden. Por ejemplo, si g esta definida por


g(x) = β(ς)x(ς),

β(j) = (

n∑i=1

X(j)i Ui)/(

n∑i=1

(X(j)i )2),

ς = arg mın1≤j≤p

n∑i=1

(Ui − β(j)X(j)i )2.

se obtiene que n−1∑n

i=1 (Ui − g(Xi))2 = C − ⟨U, g⟩, donde C = n−1

∑ni=1 U

2i es una

constante.

Algunas funciones de perdida y algoritmos boosting

Diferentes algoritmos boosting pueden definirse especificando diversas funciones de

perdida ρ. En el paquetemboost y centrandonos en la regresion; con la respuesta Y ∈ R,

se utiliza habitualmente la funcion de perdida cuadratica (escalada por el factor 1/2 de

tal manera que el vector gradiente equivale a los residuos) definida por

ρL2(y, f) =1

2|y − f |2,

que minimiza f∗L2(x) = E[Y |X = x].

Esta funcion de perdida esta incorporada en el paquete mboost, basta considerar la

familia GaussReg(). El correspondiente algoritmo boosting es el L2−Boosting, veanse

[32] y [22]. Este algoritmo es el mas sencilo de los algoritmos boosting y es muy utilizado

en regresion, en particular, cuando se dispone de muchas covariables [34]. Los pasos del

algoritmo son los siguientes:

2 = 2 (4.20)

1. Se asignan los valores iniciales de m = 0 y f [0]. Por defecto el valor de f [0](.) ≡ Y .

2. Tras incrementar m en una unidad, se calculan los residuos Ui = Yi − f [m−1](Xi)

para i = 1, . . . , n.

3. Se ajusta el vector de residuos, U1, . . . , Un paraX1, . . . , Xn mediante el procedimiento

base para regresion:

(Xi, Ui)ni=1 procedimiento−−−−→ base g[m] (4.21)

4. Se actualiza

f [m] = f [m−1] + ν · g[m],

donde ν ∈ (0, 1].


5. Iteramos los pasos de 2 a 4 hasta que m = mstop.

El valor del parametro mstop, como ya se comento anteriormente, puede obtenerse

mediante criterios diversos, entre los que se envuentra validacion cruzada. La derivacion

del algoritmo generico FGD es sencilla y evidente [? ], basta tener en cuenta que el

vector gradiente negativo se convierte en el vector de residuos. Por lo tanto, los valores

de los residuos L2−Boosting se reajustan multiples veces. [75] reconocio la utilidad de

este proceso y propuso el ”twicing”, que no es otra cosa que el L2−Boosting utilizando

mstop = 2 y ν = 1.

Seleccion del procedimiento base

Todos los algoritmos boosting necesitan la especificacion de un procedimiento

base. Esta seleccion puede esta dirigida solo a la optimizacion de la capacidad pre-

dictiva o tambien, ademas, teniendo en cuenta las propiedades estructurales de las

tecnicas boosting. Es este ultimo motivo el que por lo general resulta mas interesante

ya que permite una mejor interpretacion de los resultados del modelo.

Recordamos que el estimador boosting generico, es una suma de las estimaciones

de los procedimientos base

f [m](x) = νm∑k=1

g[k](x).

Por lo tanto, las propiedades estructurales de la funcion estimador boosting son induci-

das por una combinacion lineal de las caracterısticas estructurales del procedimiento

base. Las tecnicas boosting, puede ser muy utiles para su utilizacion en modelos lineales

generalizados con grandes dimensiones, debido a su gran potencia de calculo. Para ello

consideramos el procedimiento base

g(x) = β(ς)x(ς),

β(j) = (

n∑i=1

X(j)i Ui)/(

n∑i=1

(X(j)i )2),


n∑i=1

(Ui − β(j)X(j)i )2.

Se selecciona la mejor variable en un modelo lineal simple, mejor en el sentido de

los mınimos cuadrados ordinarios. Cuando se utiliza con este procedimiento base

L2Boosting, se selecciona en cada iteracion una variable explicativa, no necesariamente

diferente para cada iteracion, y se actualiza la funcion lineal:

f [m](x) = f [m−1](x) + νβ(ςm)x(ςm),


donde ςm denota el ındice de la covariable seleccionada en la iteracion m. Las actual-

izaciones de los estimadores de los coeficientes son

β[m] = β[m−1] + ν · β(ςm).

Esta notacion debe interpretarse como que solo la componente ςm−esima del co-

eficiente estimado β[m] (en la iteracion m) se ha actualizado. Para cada iteracion m,

se obtiene un ajuste lineal. Como m tiende a infinito, f [m] converge a una solucion de

mınimos cuadrados que es unica si el diseno de matriz tiene rango completo p ≤ n. El

metodo es tambien conocido como juego de persecucion en el procesamiento de senales

[53] o algoritmo debil codicioso en matematica computacional [72], y es un algoritmo

de Gauss-Southwell, [70], para resolver un sistema lineal de ecuaciones.

Suavizacion paso a paso de modelos aditivos

Los modelos aditivos y los modelos aditivos generalizados, introducidos por Hastie

y Tibshirani en [29], [30], se han hecho muy populares dado que anaden mas flexibilidad

a la estructura lineal de los modelos lineales generalizados. Esta flexibilidad tambien se

puede anadir en el boosting y se hace especialmente notorio ante problemas de elevada

dimension. La introduccion de este concepto de suavizacion en el boosting se hace en el

procedimiento base, basta considerar un procedimiento base no parametrico para

la estimacion de la funcion. Supongamos que f (j) es una estimacion mınimo cuadratica

de un spline cubico de regresion basada en U1, . . . , Un sobre X1, . . . , Xn y con df grados

de libertad fijos. Es decir,

f (j) = argmınf

n∑i=1

(Ui − f(X(j)i ))2 + λ ·

∫(f ′′(x))2dx, (4.22)

donde λ > 0 es un parametro de ajuste que se corresponde con la traza de la matriz

hat, vease [25]. Y ası el procedimiento base quedara definido como:

g(x) = f (ς)(x(ς)),

f (j) definida como se indica en la ecuacion


n∑i=1

(Ui − f (j)(X(j)i ))2.

donde los grados de libertad df son los mismos para todos los f (j).

El L2−Boosting con suavizacion spline paso a paso aplica un modelo aditivo, in-

cluyendo seleccion de variables, es decir, realiza un ajuste que es aditivo en las variables


de prediccion. Esto se puede ver inmediatamente, puesto que el L2−Boosting procede

aditivamente para la actualizacion de la funcion f (j) como pudo verse en 4.23. Normal-

izandolo se obtiene el siguiente modelo aditivo estimador:

f [m](x) = µ+

p∑j=1

f [m],(j)(x(j)),

n−1n∑

i=1

f [m],(j)(x(j)) = 0aaa∀j ∈ 1, . . . , p.

Los grados de libertad del procedimiento base de spline suavizado deben ser elegi-

dos pequeno, como por ejemplo df = 4, [34]. Esto produce una varianza baja, pero

normalmente un sesgo importante del procedimiento base. El sesgo puede reducirse

mediante adicionales iteraciones boosting. Esta eleccion de la varianza baja pero de

alto sesgo se ha analizado en [9];

Los suavizadores splines paso a paso se puede generalizar a parejas de suavizadores

splines. Se buscaran entre las mejores parejas de variables predictoras de tal manera que

los suavizadores de U1, . . . , Un frente a ese par de predictores reduzca la suma residual

de cuadrados. Con L2−Boosting esto produce un ajuste del modelo no parametrico con

interaccion de terminos de primer orden. El procedimiento ha demostrado empırica-

mente ser mucho mejor que el ajuste con MARS [10].

L2−Boosting

L2−Boosting es el gradiente funcional descendente considerando como funcion per-

dida el mınimo error cuadratico, lo que equivale a repetir ajuste de los residuos ordi-

narios, como se ha mencionado anteriormente.

A continuacion se explica su desarrollo, considerando la funcion de regresionE[Y |X =

x] con covariable unidimensional X ∈ R y respuesta continua Y ∈ R. Considerese el

caso de un procedimiento de base lineal con matriz H : Rn → Rn y con variable re-

spuesta Y = (Y1, ..., Yn)t cuyos valores ajustados son (f(X1), ..., f(Xn))

t. Considerando

tanto suavizadores tipo nucleo como suavizadores splines, la matriz H del L2−Boosting

ajusta en igual numero de iteraciones m

Bm = Bm−1 +H(I −Bm−1))I − (I −H)m. (4.23)

En primer lugar, si el procedimiento base cumple ∥ I − H ∥< 1, para una norma

adecuada, es decir, tiene capacidad de aprendizaje de manera que el vector de residuos

es mas corto que el vector de entrada de respuesta, entonces Bm converge a la identidad

I cuando m → ∞, y BmY converge al modelo saturado completo Y, interpolando las


variables respuesta con exactitud. Ası, vemos que aquı explıcitamente tenemos que parar

antes con las iteraciones boosting a fin de evitar sobreajuste. Cuando se trata el caso de

los procesos con bases suavizadoras de splines cubicos (p.e. en las tecnicas de arboles), es

habitual realizar analisis de los valores propios. La representacion espectral de de H es

H = UDtU , con U tU = UU t = I y D = diag(λ1, . . . , λn), donde los autovalores(λi) de

H siguen un orden decreciente. Por lo que Bm = UDmU t, Dm = diag(λ1,m, . . . , λn,m)

y di,m = 1 − (1 − λi)m. Como es conocido que los splines suavizadores satisfacen:

λ1 = λ2 = 1 y 0 < λi < 1, ∀i ∈ {3, . . . , n}. Por lo tanto, los valores propios de la

matriz hat del boosting en la iteracion m satisfacen

d1,m ≡ d2,m ≡ 1 ∀m,

0 < di,m = 1− (1− λi)m < 1 ∀i ∈ 3, . . . , n,

di,m → 1 cuando m → ∞.

Ambos metodos suelen tener el mismo mınimo error cuadratico medio [34], pero L2−Boosting

sobreajusta mucho mas lentamente que un simple spline suavizado.

Se obtienen dos resultados interesantes. Primero, las proporciones minimax se con-

siguen utilizando un procedimiento base con grados de libertad fijos, lo que significa

baja varianza desde una perspectiva asintotica [34]. En segundo lugar, L2−Boosting

con suavizadores splines cubicos tiene la capacidad de adaptarse a las suavizaciones de

orden superior, por lo que con la iteracion de frenado es el unico parametro de ajuste.

Y puede adaptarse a cualquier suavizacion de orden superior sin necesidad de aumentar

el orden del spline en el procedimiento base.

Recientemente, se han establecido resultados para la convergencia asintotica y la

tasa minimax, para criterios de parada boosting mas rapidos en situaciones mas gen-

erales, [2] [79].

El L2−Boosting con suavizadores splines puede lograr tasas de convergencia, en

terminos del error cuadratico medio, mas rapidas que el clasico O(n−4/5), suponiendo

que la funcion subyacente real es lo suficientemente suave [34].

L2−Boosting para modelos lineales de grandes dimensiones

Considerando un potencial modelo lineal de dimension grande definido por la ecuacion

4.24, donde ε1, . . . , εn son independiente se identicamente distribuıdos con E[εi] = 0 e

independientes de todos los Xi, i ∈ {1, . . . , n}. Permitimos que el numero de covariables

p pueda ser mucho mas grande que el tamano de la muestra n. El modelo abarca muy

diversos campos con funciones g(j), ∀j ∈ {1, . . . , p}; como por ejemplo modelos

de superficie Yi = f(Zi) + εi, con puntos de diseno en Zi ∈ R2 y f(z) =∑

j β(j)g(j)(z).


Para el ajuste de este modelo se pueden seguir los pasos descritos en ? que ajusta ca-

da iteracion con la mejor covariable y la mayor reduccion de la suma de residuos al

cuadrado. Este metodo de ajuste posee las siguientes propiedades basicas:

1. A medida que el numerom de iteraciones boosting aumenta, la estimacion L2−Boosting

f [m] converge a la solucion mınima cuadratica. Ademas, esta solucion es unica si

la matriz de diseno tiene rango completo p = n.

2. Al detener el proceso antes, lo que se necesita para evitar el sobreajuste, el metodo

L2−Boosting a menudo hace seleccion de variables.

3. Las estimaciones de los coeficientes β[m] son amenudo versiones reducidas de una

estimacion por mınimos cuadrados βOLS relacionados con Lasso, como se describe

a continuacion.

Yi = β0 +

p∑j=1

β(j)X(j)i + εi,∀i ∈ 1, . . . , n (4.24)

Hastie, Tibshirani y Friedman, [28], destacan en primer lugar una relacion intere-

sante entre L2−Boosting con mınimos cuadrados lineales componente a componente y

Lasso [73] con el siguiente metodo de penalizacion ℓ1:

β(λ) = argmınβ

n−1n∑

i=1

(Yi − β0 −p∑

j=1

β(j)X(j)i )2 + λ

p∑j=1

|β(j)|. (4.25)

Efron et al. [16] realizaron la conexion rigurosa y explıcita de este hecho con lo

que los consideraban una version de L2−Boosting, llamado Forward Stagewise Linear

Regression (FSLR), y demostraron que FSLR con tamanos de paso infinitesimales pro-

duce un conjunto de soluciones, que son aproximadamente equivalentes a las obtenidas

mediante el metodo Lasso al variar el parametro de regularizacion λ. A pesar de que

L2−Boosting y Lasso no son metodos equivalentes en general, [57] y [83], puede ser util

para interpretar el boosting como un metodo basado en penalizaciones ℓ1.

En cuanto a la consistencia asintotica para grandes dimensiones resaltar que existen

resultados, [7], validos para disenos arbitrarios y sin necesidad de hipotesis de colineal-

idad o correlaciones. En el desarrollo del modelo, basta con tener encuenta que p = pn

y le permite aumentar con la muestra de tamano n, los coeficientes seran β(j) = β(j)n

potencialmente dependientes de n, y la funcion de regresion se denota por fn. De este

modo se puede definir el boosting, [7], como un metodo que es capaz de estimar en

forma consistente en muy altas dimensiones para modelos lineales dispersos, para el

metodo Lasso existen resultados similares, [26]. En cuanto a los resultados empıricos,


no parece haber ninguna superioridad global de L2−Boosting mas de Lasso o viceversa,

[8].

Considerando la matriz hat

H(j) = X(j)(X(j))t/||X(j)||2 con j ∈ 1, . . . , p

de dimension nxn para el operador de ajuste lineal por mınimos cuadrados utilizando

solo la j−esima covariable X(j) = (X(j)1 , . . . , X

(j)n )t; y con ||.||2 denotando la norma

euclıdea. La matriz hat del procedimiento base por mınimos cuadrados lineales paso

a paso , queda definida como:

H(ς) : (U1, . . . , Un) 7→ U1, . . . , Un.

Siguiendo un proceso analogo al llevado a cabo en 4.23; se obtiene, para la iteracion m,

la matriz hat del L2−Boosting:

Bm = Bm−1+ν ·H(ςm)(I−Bm−1) = I−(I−ν ·H(ςm)) ·(I−ν ·H(ςm−1)) · · · (I−ν ·H(ς1)),

(4.26)

siendo ςr ∈ 1, . . . , p la componente que se ha seleccionado en el procedimiento base

para la r−esima iteracion boosting. Resaltar que Bm depende de la variable respuesta Y

por medio de la seleccion de la componente ςr, r = 1, . . . ,m. Mediante esta dependencia

puede entenderse Bm como una aproximacion de la matriz hat. Despreciando el efecto

de la seleccion de ςr, (r = 1, . . . ,m), se definen los grados de libertad del ajuste boosting

en la iteracion m como df(m) = traza(Bm). Incluso con ν = 1, df(m) es muy diferente

de contar el numero de variables que han sido seleccionados hasta el iteracion m. Con la

definicion de grados de libertad, se estima la varianza del error σ2ε = E[ε2i ] del modelo

lineal como:

σ2ε =

1

n− df(mstop)

n∑i=1

Yi − f [mstop](Xi)2.

Una medida, para cuantificar la complejidad de la estimacion del coeficiente individual

β[m]j , son los grados de libertad individuales df (j)(m); y se obtienen a partir de la matriz

Bm del modo siguiente: Considerando Bm =∑p

j=1B(j)m , con B

(j)m como la aproximacion

de la matriz hat podemos escribir B(j)m Y = X(j)β

[m]j . Calculando 2 de modo iterativo

como:

B(ςm)m = B

(ςm)m−1 + ν ·H(ςm)(I −Bm−1),

B(j)m = B(j)

m ∀j = ςm

obtenemos la descomposicion de los grados de libertad totales en p terminos df(m) =∑pj=1 df

(j)(m), con df (j)(m) = traza(B(j)m ).


Una vez conocidos los grados de libertad, podemos utilizar el criterio de informacion

de Akaike corregido (AICc) para estimar una buena iteracion de parada. Tendremos

por tanto:

AICc(m) = log(σ2) +1 + df(m)/n

(1− df(m) + 2)/n

σ2 = n−1n∑

i=1

(Yi − (BmY )i)2

Otro criterio alternativo que se puede utilizar es el criterio gMDL (Hansen and Yu

[38]). Puede considerarse un puente entre el AIC y el BIC ya que trata de seleccionar

la mejor forma adaptativa entre ambos. Se define como:

gMDL(m) = log(S) +df(m)

nlog(F ),

S =nσ2

n− df(m)

F =

∑ni=1 Y

2i − nσ2

df(m)S


Escenario: Ajustes no lineales

Dentro del paquete mboost, el trabajo con la regresion cuantil suavizada se hace a

traves de la funcion gamboost. Con ella se han realizado los ajustes, seleccionando los

siguientes parametros:

Se han utilizado un mstop de 500. Para ello se ha utilizado la opcion control en el

modelo.

A la hora de seleccionar los centiles, se ha hecho con la opcion family, seleccionan-

do QuantReg(tau =valor del cuantil). Se han considerado los valores 10, 30, 50, 70


Se ha trabajado con las simulaciones no lineales descritas en la ecuacion 3.1. Los

resultados graficos, obtenidos de aplicar los ajustes a los diversos conjuntos de datos,

pueden verse en las figuras 4.18, 4.19, 4.20, 4.21, 4.22 y 4.23, y :

ademas del evidente buen comportamiento de los ajustes, en el caso de los errores

N(0, 1); resaltar las diferencias, en forma, entre las diferentes curvas de ajuste.

Tanto en el caso de la funcion seno (vease la figura 4.18) como en el caso del

logaritmo (figura 4.21).


0.0 0.5 1.0 1.5 2.0 2.5 3.0

−5

05

10


Centiles:10, 30, 50, 70 y 90ejex

eje

y


tambien se observa el buen comportamiento de los ajustes, en el caso de los errores

t(2) y resaltar de igual modo las diferencias, en forma, entre las diferentes curvas

de ajuste. Tanto en el caso de la funcion seno (vease la figura 4.19) como en el

caso del logaritmo (figura 4.22).

Al utilizar los errores G(1, 2), el buen comportamiento de los ajustes sigue man-

teniendose. Y es interesante observar que la distancia entre las curvas de ajuste

aumenta al aumentar el valor del cuantil de ajuste. Veanse las figuras 4.20 y 4.23.

Tambien se ha realizado una comparativa, (vease la figura 4.24), de los errores de

prediccion provocados por los modelos anteriores. Observandose una infraestimacion en

el caso de los errores Gamma(1, 2), mas acusado en el caso de la funcion seno. Tambien

resalta, en la funcion seno un peor ajuste con los errores N(0, 1).


Regresando a la base de datos de la poblacion escolar gallega y realizando los ajustes

de modo independiente para varones y mujeres. Se presentan en la figura 4.25 dichos

ajustes suavizados. Cabe resaltar la diferencia obtenida entre las curvas de los distintos

cuantiles. De entre todos los paquetes utilizados, es en este en el que se llegan a captar


0.0 0.5 1.0 1.5 2.0 2.5 3.0

−1

00

10

20

30

40

50

Errores t(2) y función seno


eje

y

Figura 4.19: Seno y errores t(2).

0.0 0.5 1.0 1.5 2.0 2.5 3.0

51

01

52

02

5



eje

y



0.0 0.5 1.0 1.5 2.0 2.5 3.0

−5

05



eje

y


0.0 0.5 1.0 1.5 2.0 2.5 3.0

−1

00

10

20

30

Errores t(2) y función log


eje

y

Figura 4.22: Logaritmo y errores t(2).


0.0 0.5 1.0 1.5 2.0 2.5 3.0

−5

05

10

15

20



eje

y


−5

05

Errores N(0,1)

sin log

Err

ore

s d

e p

red

icci

ón

−5

05

−2

0−

10

01

02

03

04

0

Errores t(2)

sin log

Err

ore

s d

e p

red

icci

ón

−2

0−

10

01

02

03

04

0

−5

05

10

15

Errores G(1,2)

sin log

Err

ore

s d

e p

red

icci

ón

−5

05

10

15


Error=valor real−prediccion. Se ha utilizado el percentil 50, τ = 0,5.


120 160

12

34

56

78


eje

y

NIÑOS

110 130 150 170

12

34

56


eje

y

NIÑAS


los comportamientos de valores altos y bajos de la variable respuesta fvc. Este resultado

deja en evidencia de la potencia del boosting, a la hora de tratar los ajustes del modelo

de regresion cuantil a los datos.

CODIGO:

#########################AJUSTES NO LINEALES(mboost)

taus <- c(.1,.3,.5,.7,.9)

oo=order(datos$talla)

for (j in 1:5){

lines(datos$talla[oo],fitted(gamboost(y~x,data=datos,

control = boost_control(mstop = 5000),

family = QuantReg(tau=taus[j])))[oo])}

Discusion

La regresion cuantil suavizada se esta convirtiendo, hoy en dıa, en una tecnica

estadıstica versatil en su aplicacion a datos reales. Su gran potencialidad radica en:

la gran variedad de aplicaciones en campos tan diversos como la Medicina, la

Ecologıa o la Economıa, entre otros.

la necesidad de aplicar tecnicas de suavizacion para detectar efectos no lineales

de las covariables en la respuesta de interes.

la existencia de software libre implementando diferentes metodos de estimacion.

En este trabajo se ha llevado a cabo un estudio comparativo de las principales tecni-

cas de regresion cuantil suavizadas, implementadas actualmente en R. La comparacion

se llevo a cabo a traves de simulacion y de una aplicacion a datos reales en el ambito

de la Pediatrıa. A contiacion se exponen las principales conclusiones que se derivan de

este estudio.

1. Comparando los errores de la estimacion del percentil 50 obtenida por las distintas

tecnicas, el estudio de simulacion indica que:

los resultados obtenidos con el paquete quantreg han sido de sobreesti-

macion en todos los escenarios no parametricos, sobre todo, en los que se

utilizan los errores N(0, 1) y G(1, 2).

al utilizar el paquete gamlss se obtiene infraestimacion con los erroresN(0, 1)

y sobrestimacion al tratar con errores G(1, 2). Con lo que podemos decir que

la tecnica basada en GAMLSS depende mucho del tipo de error.

con la tecnica LMS (implementada en el paquete VGAM), la sobrestimacion se

obtiene en el escenario correspondiente al logaritmo y la infraestimacion en

el genreado mediante la funcion seno. Por lo que esta tecnica es muy sensible

a la forma de los datos. Ademas presenta problemas a la hora de trabajar

con respuestas de valores negativos.

85

el metodo basado en boosting es el que ofrece menores errores en general,

independientemente del escenario de simulacion utilizado.

2. Hay que hacer notar que, en algunas de las tecnicas utilizadas, el grado de

suavizacion no se selecciona de modo automatico. Especıficamente en los metodos

LMS y GAMLSS no existen todavıa un criterio de seleccion optima del parametro

de suavizacion. Teniendo que ser elegido por el investigador. (En nuestro estudio

se han utilizado los valores por defecto implementados en los paquetes correspon-

dientes).

3. El boosting, en comparacion con los metodos que utilizan programacion lineal [43],

permite: a) manejar un mayor numero de efectos no lineales en las covariables;

b) que la estimacion de parametros y seleccion de variables se ejecuten en una

unica fase de la estimacion, lo que es especialmente favorable para las covariables

de modelos de grandes dimensiones [17].

4. Desde el punto de vista computacional, el metodo mas eficiente ha sido el basado

en la tecnica boosting, en comparacion con las metodologıas LMs y GAMLSS. La

aplicacion a datos reales se realizo sobre una base de datos de Pediatrıa referida

a valores espirometricos de la poblacion escolar de Galicia. Se han seleccionado

como variable de estudio, la capacidad vital forzada (fvc) y como covariables

la talla y el sexo de los individuos. Los resultados obtenidos indican una clara

relacion no lineal de la fvc y la talla, que a su vez es diferente en funcion del sexo.

Esto pone de manifiesto, la necesidad de la suavizacion en la busqueda de los

valores de referencia espirometricos mas adecuados a la poblacion escolar gallega.

5. La aplicacion a datos reales indica tambien que la tecnica basada en boosting

parece ser la mas competitiva: de entre todas las curvas de regresion cuantil

obtenidas con las diferentes tecnicas utilizadas, son las representadas mediante

boosting, las que mejor captan las diferencias entre los cuantiles y se adaptan

mejor a los valores de referencia de la poblacion.

6. Es de notar, sin embargo, que con la tecnica boosting las curvas cuantil son

estimadas independientes por lo que estos modelos pueden crear problemas con el

cruce de cuantiles. Este hecho se puede observar en la scurvas percentil obtenidas

por boosting para el fvc, especialmente para valores iniciales de la covariable talla.

Bibliografıa

[1] Bartlett, P. and Traskin, M. (2007). Adaboost is consistent. J. Mach. Learn. Res.,

8:2347–2368.

[2] Bissantz, N., Hohage, T., Munk, A., and Ruymgaart, F. (2007). Convergence rates

of general regularization methods for statistical inverse problems and applications.

SIAM J. Numer. Anal., 45:2610–2636.

[3] Box, G. E. P. and Cox, D. R. (1964). An analysis of transformations. Journal of

Royal Statistical Society - Series B, 26:211–252.

[4] Breiman, L. (1998). Arcing classifiers (with discussion). Annals of Statistics, 26:801–

849.

[5] Breiman, L. (1999). Prediction games and arcing algorithms. Neural Computation,

11:1493–1517.

[6] Brian, S., Cade, B., and Noon, R. (2003). A gentle introduction to quantile regres-

sion for ecologists. Frontiers in Ecology and the Environment, 1:412–420.

[7] Buehlmann, P. (2006). Boosting for high-dimensional linear models. Annals of

Statistics, 34:559–583.

[8] Buehlmann, P. and Hothorn, T. (2007). Boosting algorithms: Regularization, pre-

diction and model fitting. Statistical Science, 22:477–505.

[9] Buehlmann, P. and Yu, B. (2003). Boosting with the l2 loss: Regression and classi-

fication. Journal of the American Statistical Association, 98:324–339.

[10] Buehlmann, P. and Yu, B. (2006). Sparse boosting. J. Machine Learning Research,

7:1001–1024.

[11] Cole, T. J. (1988). Using the lms method to measure skewness in the nchs and

dutch national height standards. Ann. Hum. Biol., 16:407–419.

BIBLIOGRAFIA 87

[12] Cole, T. J. (1998). Fitting smoothed centile curves to reference data (with discus-

sion). Journal of the Royal Statistical Society (A), 151:385–418.

[13] Cole, T. J. and Green, P. J. (1992). Smoothing reference centile curves: the lms

method and penalized likelihood. Statistics in Medicine, 11:1305–1319.

[14] Crisp, A. and Burridge, J. (1994). A note on nonregular likelihood functions in

heteroscedastic regression models. Biometrika, 81:585–587.

[15] de Boor, C. (1978). A Practical Guide to Splines. Springer.

[16] Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2004). Least angle regres-

sion (with discussion). Ann. Statist., 32:407–499.

[17] Fenske, N., Kneib, T., and Hothorn, T. (2009). Identifying risk factors for severe

childhood malnutrition by boosting additive quantile regression. Technical report,

Department of Statistics University of Munich.

[18] Freund, Y. and Schapire, R. (1995). A decision-theoretic generalization of on-

line learning and an application to boosting. In Proceedings of the Second European

Conference on Computational Learning Theory.

[19] Freund, Y. and Schapire, R. (1996). Experiments with a new boosting algorithm.

In Proceedings of the Thirteenth International Conference on Machine Learning.

[20] Freund, Y. and Schapire, R. (1997). A decision-theoretic generalization of on-line

learning and an application to boosting. Journal of Computer and System Sciences,

55:119–139.

[21] Friedman, J. (2001). Greedy function approximation: A gradient boosting machine.

Annals of Statistics, 29:1189–1232.

[22] Friedman, J., Hastie, T., and Tibshirani, R. (2000). Additive logistic regression:

A statistical view of boosting (with discussion). Annals of Statistics, 28:379–407.

[23] Gasser, T., Muller, H. G., Kohler, W., Molinari, L., and Prader, A. (1984). Non-

parametric regression analysis of growth curves. Annals of Statistics, 12:210–229.

[24] Gonzalez Barcala, F. J., Cadarso Suarez, C., Valdes Cuadrado, L., Leis, R., Ca-

banas, R., and Tojo, R. (2008). Lung function reference values in children and

adolescents aged 6 to 18 years in galicia. Arch Bronconeumology, 44:295–302.

[25] Green, P. J. and Silverman, B. W. (1994). Nonparametric Regression and Gener-

alized Linear Models. Chapman and Hall.

BIBLIOGRAFIA 88

[26] Grennshtein, E. and Ritov, Y. (2004). Persistence in high-dimensional predictor

selection and the virtue of overparametrization. Bernoulli, 10:971–988.

[27] Gutenbrunner, C. and Jureckova, J. (1991). Regression quantile and regression

rank score process in the linear model and derived statistic. Annals of Statistics,

20:305–330.

[28] Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of Statistical

Learning; Data Mining, Inference and Prediction. Springer, New York.

[29] Hastie, T. J. and Tibshirani, R. J. (1986). Generalized additive models (with

discussion). Statist. Sci., 1:297–318.

[30] Hastie, T. J. and Tibshirani, R. J. (1990). Generalized Additive Models. Chapman

and Hall, London.

[31] Hastie, T. J. and Tibshirani, R. J. (1993). Varying coeffcient models (with discus-

sion). Journal of Royal Statistical Society - Series B, 55:757–796.

[32] Healy, M. J. R. (1962). The effect of age-grouping on the distribution of a mea-

surement affected by growth. Amer. J. Phys. Anth, 20:49–50.

[33] Hothorn, T., Buhlmann, P., Dudoit, S., Molinaro, A., and Van Der Laan, M. (2006).

Survival ensembles. Biostatistics, 7:355–373.

[34] Hothorn, T., Buehlmann, P., Kneib, T., Schmid, M., and Hofner, B. (2010). mboost:

Model-Based Boosting.

[35] Ihaka, R. and Gentleman, R. (1996). R: A language for data analysis and graphics.

Journal of Computational and Graphical Statistics, 5:299–314.

[36] Jenss, R. M. and Bayley, N. (1937). A mathematical method for studying growth

in children. Hum. Biol., 9:556–563.

[37] Jiang, W. (2004). Process consistency for adaboost (with discussion). Annals of

Statistics, 32:13–29, 85–134.

[38] Kearns, M. and Valiant, L. (1994). Cryptographic limitations on learning boolean

formulae and finite automata. J. Assoc. Comput. Machinery, 41:67–95.

[39] Klein, B. y Korsholm, L., editor (2001). The GAMLSS project: a flexible approach

to statistical modelling.

BIBLIOGRAFIA 89

[40] Koenker, R. (2005). Quantile Regression. Cambridge Books. Cambridge University

Press.

[41] Koenker, R. (2010). quantreg: Quantile Regression. R package version 4.50.

[42] Koenker, R. and dOrey (1987). Computing regression quantiles. Applied Statistics,

36:383–393.

[43] Koenker, R. and dOrey (1994). Computing regression quantiles. Applied Statistics,

43:410–414.

[44] Koenker, R. and Hallock, K. F. (2000). Quantile regression an introduction. In

Journal of Economic Perspectives - Symposium on Econometric Tools.

[45] Koenker, R. and Hallock, K. F. (2001). Quantile regression. Journal of Economic

Perspectives, 15:143–156.

[46] Koenker, R. and Mizera, I. (2003). Penalized triograms: Total variation regular-

ization for bivariate smoothing. JRSS, 66:145–163.

[47] Koenker, R. and Ng, P. (2003). SparseM: A Sparse Linear Algebra Package for R.

[48] Koenker, R., Ng, P., and Portnoy, S. (1994). Quantile smoothing splines. Biometri-

ka, 81:673–680.

[49] Koenker, R. and Portnoy, S. (1997). The gaussian hare and the laplacean tor-

toise: Computability of squared-error vs absolute error estimators, (with discussion).

Statistical Science, 12:279–300.

[50] Koenker, R. W. (1994). Asymptotic Statistics, chapter Confidence Intervals for

regression quantiles, pages 349–359. Springer-Verlag, New York.

[51] Koenker, R. W. and Bassett, G. W. (1978). Regression quantiles. Econometrica,

46:33–50.

[52] Lutz, R. and Buhlmann, P. (2006). Boosting for highmultivariate responses in

high-dimensional linear regression. Statist. Sinica, 16:471–494.

[53] Mallat, S. and Zhang, Z. (1993). Matching pursuits with time-frequency dictio-

naries. In IEEE Transactions on Signal Processing.

[54] Mason, L., Baxter, J., Bartlett, P., and Frean, M. (2000). Functional gradient

techniques for combining hypotheses. In Advances in Large Margin Classifiers.

BIBLIOGRAFIA 90

[55] Mease, D., Wyner, A., and Buja, A. (2007). Costweighted boosting with jittering

and over/under-sampling: Jous-boost. J. Machine Learning Research, 8:409–439.

[56] Nelder, J. A. and Wedderburn, R. W. M. (1972). Generalized linear models. J. R.

Statist. Soc. A., 135:370–384.

[57] Osborne, M., P. B. and Turlach, B. (2000). A new approach to variable selection

in least squares problems. IMA J. Numer. Anal., 20:389–403.

[58] Preece, M. A. and Baines, M. J. (1978). A new family of mathematical models

describing the human growth curve. Ann. Hum. Biol., 5:1–24.

[59] R Development Core Team (2010). R: A Language and Environment for Statistical

Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-

900051-07-0.

[60] Reinsch, C. (1967). Smoothing by spline functions. Numerische Mathematik,

10:177–183.

[61] Ridgeway, G. (1999). The state of boosting. Comput. Sci. Statistics, 31:172–181.

[62] Ridgeway, G. (2000). Discussion on additive logistic regression: A statistical view

of boosting’, by j. friedman, t. hastie, r. tibshirani. Annals of Statistics, 28:393–400.

[63] Ridgeway, G. (2002). Looking for lumps: Boosting and bagging for density esti-

mation. Computational Statistics & Data Analysis, 38:379–392.

[64] Rigby, R. A. and Stasinopoulos, D. M. (1996a). A semi-parametric additive model

for variance heterogeneity. Statist. Comput., 6:57–65.

[65] Rigby, R. A. and Stasinopoulos, D. M. (1996b). Statistical Theory and Compu-

tational Aspects of Smoothing, chapter Mean and dispersion additive models, pages

215–230. Physica, Heidelberg.

[66] Rigby, R. A. and Stasinopoulos, D. M. (2005). Generalized additive models for

location, scale and shape,(with discussion). Applied Statistics, 54:507–554.

[67] Schapire, R. (1990). The strength of weak learnability. Machine Learning, 5:197–

227.

[68] Schapire, R. (2002). The boosting approach to machine learning: An overview.

nonlinear estimation and classification. Lecture Notes in Statistics, 171:149–171.

BIBLIOGRAFIA 91

[69] Silverman, B. W. (1985). Some aspects of the spline smoothing approach to non-

parametric regression curve fitting. Journal of the Royal Statistical Society - Series

B, 47:1–52.

[70] Southwell, R. (1946). Relaxation Methods in Theoretical Physics. Oxford, at the

Clarendon Press.

[71] Stasinopoulos, M. y Touloumi, G., editor (2002). The R implementation of Gen-

eralized Additive Models for Location, Scale and Shape in Statistical modelling.

[72] Temlyakov, V. (2000). Weak greedy algorithms. Adv. Comput. Math, 12:213–227.

[73] Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. J. Roy.

Statist. Soc. Ser. B, 58:267–288.

[74] Tojo Sierra, R., Leis Trabazo, R., and Cadarso Suarez, C. (1999). Valores estandar

de Galicia. El estudio Galinut. Universidade de Santiago de Compostela.

[75] Tukey, J. (1977). Exploratory Data Analysis. Addison-Wesley, Reading, MA.

[76] Vant Hof, M. A., Wit, J. M., and Roede, M. J. (1985). A method to construct

age references for skewed skinfold data, using box-cox transformations to normality.

Human Biology, 57:131–139.

[77] Venables, W. N. and Ripley, B. D. (2002). Modern Applied Statistics with S.

Springer.

[78] Wilkinson, G. N. and Rogers, C. E. (1973). Symbolic description of factorial models

for analysis of variance. Applied Statistics, 22:392–399.

[79] Yao, Y., Rosasco, L., and Caponnetto, A. (2007). On early stopping in gradient

descent learning. Constr. Approx., 26:289–315.

[80] Yee, T. W. (2010a). The vgam package for categorical data analysis. Journal of

Statistical Software, 32(10):1–34.

[81] Yee, T. W. (2010b). VGAM: Vector Generalized Linear and Additive Models.

[82] Yee, T. W. and Wild, C. J. (1996). Vector generalized additive models. Journal

of Royal Statistical Society - Series B, 58(3):481–493.

[83] Zhao, P. and Yu, B. (2007). Stagewise lasso. J. Mach. Learn. Res., 8:2701–2726.

trabajo n de m aster - tema: regresi on...

Documents