modelos de regresión · número de variables en el modelo. el estadístico c p de mallows i otra...

71
Modelos de Regresión EL PROBLEMA DE LA SELECCIÓN DE VARIABLES Javier Olaya Ochoa Escuela de Estadística Universidad del Valle Cali - Colombia 13 de febrero de 2016

Upload: others

Post on 16-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Modelos de RegresiónEL PROBLEMA DE LA SELECCIÓN DE VARIABLES

Javier Olaya Ochoa

Escuela de EstadísticaUniversidad del Valle

Cali - Colombia

13 de febrero de 2016

Page 2: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Contenido

Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2

El coeficiente de Determinación Ajustado R2aj

El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)

El problema de la selección de variables

La prueba F-parcial

La bibliografía

Page 3: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Contenido

Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2

El coeficiente de Determinación Ajustado R2aj

El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)

El problema de la selección de variables

La prueba F-parcial

La bibliografía

Page 4: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

Page 5: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

Page 6: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

Page 7: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

Page 8: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

Page 9: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

¿Cuál modelo es mejor?

I Con mucha frecuencia debemos comparar varios modeloslineales para decidir cuál de ellos es “mejor”

I Pero, como es normal, la noción de “mejor” estáestrechamente relacionada con el criterio con el cual setoma la decisión

I En el mundo de las decisiones personales, los criterios sonpersonales

I Pero en las aplicaciones técnicas lo mejor es tener a manoindicadores técnicos que nos ayuden a formular nuestrasconclusiones

I En el marco de los modelos lineales se han propuestovarios indicadores de bondad de los modelos

I Presentaremos algunos de ellos

Page 10: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El coeficiente de Determinación R2

I De acuerdo con lo discutido, la suma de cuadrados delas respuestas, corregida por la media, se puede expresarcomo

n∑i=1

(yi − y)2 =n∑

i=1

(yi − yi)2 +

n∑i=1

(yi − y)2

I O seaSCT = SCE + SCR

I Si dividimos ambos términos de la igualdad entre SCT,tenemos

1 =SCESCT

+SCRSCT

Page 11: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El coeficiente de Determinación R2

I De acuerdo con lo discutido, la suma de cuadrados delas respuestas, corregida por la media, se puede expresarcomo

n∑i=1

(yi − y)2 =n∑

i=1

(yi − yi)2 +

n∑i=1

(yi − y)2

I O seaSCT = SCE + SCR

I Si dividimos ambos términos de la igualdad entre SCT,tenemos

1 =SCESCT

+SCRSCT

Page 12: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El coeficiente de Determinación R2

I De acuerdo con lo discutido, la suma de cuadrados delas respuestas, corregida por la media, se puede expresarcomo

n∑i=1

(yi − y)2 =n∑

i=1

(yi − yi)2 +

n∑i=1

(yi − y)2

I O seaSCT = SCE + SCR

I Si dividimos ambos términos de la igualdad entre SCT,tenemos

1 =SCESCT

+SCRSCT

Page 13: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El coeficiente de Determinación R2

I El Coeficiente de Determinación del modelo se denota R2

y se define como

R2 =SCRSCT

I Se calcula así

R2 =SCRSCT

= 1 − SCESCT

I Y se interpreta como la variación de las respuestas quelogra ser explicada por el modelo ajustado

Page 14: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El coeficiente de Determinación R2

I El Coeficiente de Determinación del modelo se denota R2

y se define como

R2 =SCRSCT

I Se calcula así

R2 =SCRSCT

= 1 − SCESCT

I Y se interpreta como la variación de las respuestas quelogra ser explicada por el modelo ajustado

Page 15: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El coeficiente de Determinación R2

I El Coeficiente de Determinación del modelo se denota R2

y se define como

R2 =SCRSCT

I Se calcula así

R2 =SCRSCT

= 1 − SCESCT

I Y se interpreta como la variación de las respuestas quelogra ser explicada por el modelo ajustado

Page 16: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

Page 17: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

Page 18: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

Page 19: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

Page 20: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El coeficiente de Determinación Ajustado R2aj

I El Coeficiente de Determinación R2 crece con la adición denuevas variables

I Así que podría no ser muy adecuado para compararmodelos con diferente número de variables

I Una alternativa es usar una versión del R2 que se “ajuste”por el número de variables

I Esta versión ajustada se llama, consecuentemente,Coeficiente de Determinación Ajustado, se denota R2

aj y sedefine así

R2aj = R2 n − 1

n − p

I El R2aj no necesariamente será mayor al aumentar el

número de variables en el modelo

Page 21: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El estadístico Cp de Mallows

I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera

Cp =SCEσ2 − (n − 2p)

I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p

I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap

I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p

Page 22: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El estadístico Cp de Mallows

I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera

Cp =SCEσ2 − (n − 2p)

I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p

I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap

I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p

Page 23: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El estadístico Cp de Mallows

I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera

Cp =SCEσ2 − (n − 2p)

I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p

I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap

I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p

Page 24: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El estadístico Cp de Mallows

I Otra alternativa de comparación de modelos es elestadístico Cp de Mallows, que se define de la siguientemanera

Cp =SCEσ2 − (n − 2p)

I Se sabe que E[Cp] = p y si uno ajusta un modelo con todaslas variables disponibles, entonces Cp = p

I La idea sería entonces elegir un modelo que usando menosvariables tenga un valor del estadístico que sea cercano ap

I Una forma de evaluar esta cercanía es graficar una rectade Cp contra p

Page 25: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

Page 26: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

Page 27: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

Page 28: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

Page 29: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El criterio de información de Akaike (AIC)

I Una alternativa que tiene cada vez más y más acogida esel AIC, que se define así:

AIC = −nlog(

SCEn

)+ 2p

I Este criterio se basa en una estimación de la desigualdadde Kullback-Leibler, que propone un mecanismo de mediruna distancia entre dos funciones

I Una de estas funciones es la “función de regresiónverdadera” (que uno no conoce) y la otra es la que unoobtiene de los datos

I Este criterio no tiene una cota, por lo que es útil en términosrelativos

I El mejor modelo, entre varios basados en los mismosdatos, será el que tenga el menor AIC (Faraway 2004)

Page 30: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El criterio de información de Bayesiano (BIC)

I Y otra alternativa es el BIC, definido así:

BIC = −nlog(

SCEn

)+ log(n)p

I Este criterio es una variación del anteriorI Al término de la derecha se le conoce como “penalización”,

por lo que el BIC tiene una penalización más fuerte que elAIC

I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC

Page 31: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El criterio de información de Bayesiano (BIC)

I Y otra alternativa es el BIC, definido así:

BIC = −nlog(

SCEn

)+ log(n)p

I Este criterio es una variación del anterior

I Al término de la derecha se le conoce como “penalización”,por lo que el BIC tiene una penalización más fuerte que elAIC

I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC

Page 32: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El criterio de información de Bayesiano (BIC)

I Y otra alternativa es el BIC, definido así:

BIC = −nlog(

SCEn

)+ log(n)p

I Este criterio es una variación del anteriorI Al término de la derecha se le conoce como “penalización”,

por lo que el BIC tiene una penalización más fuerte que elAIC

I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC

Page 33: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El criterio de información de Bayesiano (BIC)

I Y otra alternativa es el BIC, definido así:

BIC = −nlog(

SCEn

)+ log(n)p

I Este criterio es una variación del anteriorI Al término de la derecha se le conoce como “penalización”,

por lo que el BIC tiene una penalización más fuerte que elAIC

I Por esta razón el BIC tiende a elegir modelos con menosvariables que el AIC

Page 34: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Contenido

Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2

El coeficiente de Determinación Ajustado R2aj

El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)

El problema de la selección de variables

La prueba F-parcial

La bibliografía

Page 35: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I El problema de la selección de variables es en realidad unproblema de selección de modelos

I Por esta razón, los indicadores de bondad de los modelosson muy útiles en el problema de la selección de variables

I Este será nuestro interés a partir de este momento

Page 36: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I El problema de la selección de variables es en realidad unproblema de selección de modelos

I Por esta razón, los indicadores de bondad de los modelosson muy útiles en el problema de la selección de variables

I Este será nuestro interés a partir de este momento

Page 37: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I El problema de la selección de variables es en realidad unproblema de selección de modelos

I Por esta razón, los indicadores de bondad de los modelosson muy útiles en el problema de la selección de variables

I Este será nuestro interés a partir de este momento

Page 38: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?

I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores

Page 39: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?

I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores

Page 40: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?I The simpler, the better

I Es menos posible que se presente “colinealidad”I Los costos son menores

Page 41: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?I The simpler, the betterI Es menos posible que se presente “colinealidad”

I Los costos son menores

Page 42: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I El propósito es escoger el mejor subconjunto de las X ’sque permita predecir la respuesta sin perder calidad en laestimación

I ¿Por qué usar menos variables?I The simpler, the betterI Es menos posible que se presente “colinealidad”I Los costos son menores

Page 43: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I Antes de escoger variables asegúrese de:

I Identificar atípicos y si es del caso excluirlos, al menostemporalmente

I Identificar puntos influyentes y si es del caso excluirlos, almenos temporalmente

I Si planea o necesita introducir algún tipo de transformaciónde los datos, hacerlo con anticipación.

I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

Page 44: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmente

I Identificar puntos influyentes y si es del caso excluirlos, almenos temporalmente

I Si planea o necesita introducir algún tipo de transformaciónde los datos, hacerlo con anticipación.

I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

Page 45: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmente

I Si planea o necesita introducir algún tipo de transformaciónde los datos, hacerlo con anticipación.

I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

Page 46: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmenteI Si planea o necesita introducir algún tipo de transformación

de los datos, hacerlo con anticipación.

I Y tenga en cuenta que su mejor modelo deberá estarasociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

Page 47: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmenteI Si planea o necesita introducir algún tipo de transformación

de los datos, hacerlo con anticipación.I Y tenga en cuenta que su mejor modelo deberá estar

asociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

Page 48: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmenteI Si planea o necesita introducir algún tipo de transformación

de los datos, hacerlo con anticipación.I Y tenga en cuenta que su mejor modelo deberá estar

asociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

Page 49: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmenteI Si planea o necesita introducir algún tipo de transformación

de los datos, hacerlo con anticipación.I Y tenga en cuenta que su mejor modelo deberá estar

asociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

Page 50: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I Antes de escoger variables asegúrese de:I Identificar atípicos y si es del caso excluirlos, al menos

temporalmenteI Identificar puntos influyentes y si es del caso excluirlos, al

menos temporalmenteI Si planea o necesita introducir algún tipo de transformación

de los datos, hacerlo con anticipación.I Y tenga en cuenta que su mejor modelo deberá estar

asociado con la naturaleza de sus variables y del problemaque tiene

I Los métodos de selección eligen modelos que sonestadísticamente preferibles

I Pero estos modelos pueden no ser los mejores para suproblema

I Si este es el caso, es posible que usted haya dejadovariables importantes por fuera de su estudio

Page 51: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos

I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar

su modeloI Documéntese: use la literatura para elegir su modelo, pero

no se case con unoI Si le es posible, pruebe con varios modelos y elija el más

sencillo si todos producen resultados similares.I Si no, dele a todos sus modelos la oportunidad

(multiplicidad de modelos)

Page 52: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos

I Si tiene pocos datos, evite modelos complejos

I Si le es posible, conserve algunos de sus datos para validarsu modelo

I Documéntese: use la literatura para elegir su modelo, perono se case con uno

I Si le es posible, pruebe con varios modelos y elija el mássencillo si todos producen resultados similares.

I Si no, dele a todos sus modelos la oportunidad(multiplicidad de modelos)

Page 53: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos

I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar

su modelo

I Documéntese: use la literatura para elegir su modelo, perono se case con uno

I Si le es posible, pruebe con varios modelos y elija el mássencillo si todos producen resultados similares.

I Si no, dele a todos sus modelos la oportunidad(multiplicidad de modelos)

Page 54: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos

I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar

su modeloI Documéntese: use la literatura para elegir su modelo, pero

no se case con uno

I Si le es posible, pruebe con varios modelos y elija el mássencillo si todos producen resultados similares.

I Si no, dele a todos sus modelos la oportunidad(multiplicidad de modelos)

Page 55: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos

I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar

su modeloI Documéntese: use la literatura para elegir su modelo, pero

no se case con unoI Si le es posible, pruebe con varios modelos y elija el más

sencillo si todos producen resultados similares.

I Si no, dele a todos sus modelos la oportunidad(multiplicidad de modelos)

Page 56: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

El problema de la selección de variables

I Algunas otras recomendaciones que es prudenteconsiderar en la construcción de modelos

I Si tiene pocos datos, evite modelos complejosI Si le es posible, conserve algunos de sus datos para validar

su modeloI Documéntese: use la literatura para elegir su modelo, pero

no se case con unoI Si le es posible, pruebe con varios modelos y elija el más

sencillo si todos producen resultados similares.I Si no, dele a todos sus modelos la oportunidad

(multiplicidad de modelos)

Page 57: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Contenido

Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2

El coeficiente de Determinación Ajustado R2aj

El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)

El problema de la selección de variables

La prueba F-parcial

La bibliografía

Page 58: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Prueba F-parcial

I En lo sucesivo diremos que p es el número de parámetrosβ del modelo

I Por ejemplo, el modelo lineal simple tiene p = 2, porquetiene dos parámetros: β0 y β1

I Consideremos dos modelos anidados

yi = β0 + β1x1i + β2x2i + . . .+ βkxki + εi (1)yi = β0 + β1x1i + β2x2i + . . .+ βkxki + . . .+ βqxqi + εi (2)

Page 59: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Prueba F-parcial

I En lo sucesivo diremos que p es el número de parámetrosβ del modelo

I Por ejemplo, el modelo lineal simple tiene p = 2, porquetiene dos parámetros: β0 y β1

I Consideremos dos modelos anidados

yi = β0 + β1x1i + β2x2i + . . .+ βkxki + εi (1)yi = β0 + β1x1i + β2x2i + . . .+ βkxki + . . .+ βqxqi + εi (2)

Page 60: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Prueba F-parcial

I En lo sucesivo diremos que p es el número de parámetrosβ del modelo

I Por ejemplo, el modelo lineal simple tiene p = 2, porquetiene dos parámetros: β0 y β1

I Consideremos dos modelos anidados

yi = β0 + β1x1i + β2x2i + . . .+ βkxki + εi (1)yi = β0 + β1x1i + β2x2i + . . .+ βkxki + . . .+ βqxqi + εi (2)

Page 61: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Prueba F-parcial

I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k

I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)

I Y sea SCEq, la suma para el modelo (2)I Como el modelo (2) tiene más variables, entonces SCEq <

SCEk

I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"

Page 62: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Prueba F-parcial

I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k

I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)

I Y sea SCEq, la suma para el modelo (2)I Como el modelo (2) tiene más variables, entonces SCEq <

SCEk

I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"

Page 63: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Prueba F-parcial

I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k

I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)

I Y sea SCEq, la suma para el modelo (2)

I Como el modelo (2) tiene más variables, entonces SCEq <SCEk

I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"

Page 64: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Prueba F-parcial

I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k

I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)

I Y sea SCEq, la suma para el modelo (2)I Como el modelo (2) tiene más variables, entonces SCEq <

SCEk

I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"

Page 65: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Prueba F-parcial

I En el modelo (1) tenemos p = k + 1 parámetros y en elmodelo (2), p = q + 1, con q > k

I Llamaremos SCEk a la suma de cuadrados de los erroresen el modelo (1)

I Y sea SCEq, la suma para el modelo (2)I Como el modelo (2) tiene más variables, entonces SCEq <

SCEk

I A la diferencia (SCEk −SCEq) se le conoce como “suma decuadrados extra"

Page 66: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Prueba F-parcial

I Para evaluar la importancia de la adición de estas q −k variables, una estrategia sería verificar si la suma decuadrados extra es o no significativa

I Para ellos se usa la “prueba F parcial”, que se basa en elsiguiente estadístico de prueba

F =

(SCEk−SCEq)(q−k)SCEq

(n−(q+1))

(3)

I El estadístico F definido en (3) se distribuye F con (q − k)y (n − (q + 1)) grados de libertad

I Así que para cada conjunto de variables (o cada variable)que se añada al modelo se puede verificar si su adición eso no significativa para el modelo

Page 67: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Prueba F-parcial

I Para evaluar la importancia de la adición de estas q −k variables, una estrategia sería verificar si la suma decuadrados extra es o no significativa

I Para ellos se usa la “prueba F parcial”, que se basa en elsiguiente estadístico de prueba

F =

(SCEk−SCEq)(q−k)SCEq

(n−(q+1))

(3)

I El estadístico F definido en (3) se distribuye F con (q − k)y (n − (q + 1)) grados de libertad

I Así que para cada conjunto de variables (o cada variable)que se añada al modelo se puede verificar si su adición eso no significativa para el modelo

Page 68: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Prueba F-parcial

I Para evaluar la importancia de la adición de estas q −k variables, una estrategia sería verificar si la suma decuadrados extra es o no significativa

I Para ellos se usa la “prueba F parcial”, que se basa en elsiguiente estadístico de prueba

F =

(SCEk−SCEq)(q−k)SCEq

(n−(q+1))

(3)

I El estadístico F definido en (3) se distribuye F con (q − k)y (n − (q + 1)) grados de libertad

I Así que para cada conjunto de variables (o cada variable)que se añada al modelo se puede verificar si su adición eso no significativa para el modelo

Page 69: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Prueba F-parcial

I Para evaluar la importancia de la adición de estas q −k variables, una estrategia sería verificar si la suma decuadrados extra es o no significativa

I Para ellos se usa la “prueba F parcial”, que se basa en elsiguiente estadístico de prueba

F =

(SCEk−SCEq)(q−k)SCEq

(n−(q+1))

(3)

I El estadístico F definido en (3) se distribuye F con (q − k)y (n − (q + 1)) grados de libertad

I Así que para cada conjunto de variables (o cada variable)que se añada al modelo se puede verificar si su adición eso no significativa para el modelo

Page 70: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Contenido

Indicadores de calidad de los modelos ajustadosEl coeficiente de Determinación R2

El coeficiente de Determinación Ajustado R2aj

El estadístico Cp de MallowsEl criterio de información de Akaike (AIC)El criterio de información Bayesiano (BIC)

El problema de la selección de variables

La prueba F-parcial

La bibliografía

Page 71: Modelos de Regresión · número de variables en el modelo. El estadístico C p de Mallows I Otra alternativa de comparación de modelos es el estadístico Cp de Mallows, que se define

Bibliografía

Draper y Smith (1998), Applied Regression Analysis, 3ra. edn, JohnWiley & Sons, New York, NY.

Faraway, J. J. (2004), Linear Models with R, Chapman & Hall/CRC,London.