2. notas de clase rlm

42
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística 1 1. Nociones preliminares relacionadas con vectores de variables aleatorias Para facilitar la notación y el desarrollo de algunas pruebas se utiliza con frecuencia una escritura del modelo en forma matricial, la cual requiere establecer algunas definiciones que se presentan a continuación. 1.1 Vectores aleatorios Sean variables aleatorias con medias y varianzas , respectivamente; y donde representa la covarianza entre las variables e con . Sea el vector , el cual definimos como un vector aleatorio de media dada por el vector y matriz de varianzas – covarianzas , Observe que el vector de medias asociado a un vector aleatorio es simplemente el vector formado por las medias de cada elemento del vector. También, el vector de medias corresponde a la esperanza del vector aleatorio. Observe también que ( es una matriz simétrica) y (los elementos en la diagonal principal de corresponden a las varianzas de las variables ). Por tanto podemos escribir, En resumen, la matriz de varianzas-covarianzas asociada a un vector aleatorio es una matriz cuadrada y simétrica de orden igual al tamaño del vector aleatorio donde la diagonal principal contiene las varianzas asociadas a cada elemento del vector y por fuera de la diagonal están las covarianzas entre pares de elementos del vector aleatorio. 1.2 Algunas propiedades del valor esperado y la varianza de un vector aleatorio Sea un vector aleatorio con media (vector de medias) y matriz de varianza – covarianza Sea una matriz y sea un vector de constantes, entonces: 1. 2. 3.

Upload: galindocamilaga

Post on 24-Nov-2015

72 views

Category:

Documents


4 download

TRANSCRIPT

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    1

    1. Nociones preliminares relacionadas con vectores de variables aleatorias Para facilitar la notacin y el desarrollo de algunas pruebas se utiliza con frecuencia una escritura del modelo en forma matricial, la cual requiere establecer algunas definiciones que se presentan a continuacin. 1.1 Vectores aleatorios Sean variables aleatorias con medias y varianzas , respectivamente; y donde

    representa la covarianza entre las variables e con . Sea el

    vector , el cual definimos como un vector aleatorio de media dada por el vector

    y matriz de varianzas covarianzas ,

    Observe que el vector de medias asociado a un vector aleatorio es simplemente el vector formado por las medias de cada elemento del vector. Tambin, el vector de medias corresponde a la esperanza del vector aleatorio. Observe tambin que

    ( es una matriz simtrica) y (los elementos en la diagonal principal de corresponden a las varianzas

    de las variables ). Por tanto podemos escribir,

    En resumen, la matriz de varianzas-covarianzas asociada a un vector aleatorio es una matriz cuadrada y simtrica de orden igual al tamao del vector aleatorio donde la diagonal principal contiene las varianzas asociadas a cada elemento del vector y por fuera de la diagonal estn las covarianzas entre pares de elementos del vector aleatorio. 1.2 Algunas propiedades del valor esperado y la varianza de un vector aleatorio Sea un vector aleatorio con media (vector de medias) y matriz de varianza covarianza Sea una matriz

    y sea un vector de constantes, entonces:

    1.

    2.

    3.

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    2

    4.

    1.3 Algunas definiciones bsicas en teora matricial Sean y matrices de constantes de orden y respectivamente; sea un vector de variables de orden ,

    es decir, ; sea un vector de constantes de orden ; y sea la matriz identidad de orden ,

    entonces:

    1. , la transpuesta de un producto es igual al producto invertido de las traspuestas.

    2. es simtrica si

    3. es idempotente si

    4. Si es simtrica e idempotente, entonces tambin es simtrica e idempotente.

    5. Forma Cuadrtica: La funcin se le llama forma cuadrtica de , donde es la

    sima componente de la matriz .

    6. Matriz definida positiva y semidefinida positiva: La matriz se dice que es:

    a) Definida Positiva, si .

    b) SemidefinidaPositiva si .

    1.4 Algunas propiedades de derivadas vectoriales o matriciales Sea una matriz de constantes de orden ; sea un vector de variables de orden , es decir,

    ; y sea un vector de constantes de orden , entonces:

    1. .

    2. .

    3. , pero si es simtrica, entonces

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    3

    1.5 Algunos resultados distribucionales para vectores aleatorios Sea un vector aleatorio normal variado con media y matriz no singular de varcov , es decir, . Sea

    una matriz de constantes y sea una forma cuadrtica de definida por: , entonces:

    1. Si o es una matriz idempotente de rango , entonces

    2. donde, es el parmetro de no centralidad de la distribucin chicuadrado.

    3. Sea . Si es idempotente y de rango , entonces

    4. donde, .

    5. Sea una matriz y la forma lineal definida por: , entonces la forma cuadrtica y

    son independientes si

    6. donde es la matriz nula de orden .

    Nota: Si , entonces y son independientes si

    7. Sea una matriz y sea , entonces las dos formas cuadrticas y son independientes si

    8. Nota: Si , entonces y son independientes si

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    4

    2. Definicin modelo de regresin lineal mltiple Considere el caso en el cual se desea modelar la variabilidad total de una variable respuesta de inters, en funcin de relaciones lineales con dos o ms variables predictoras o explicatorias, formuladas simultneamente en un nico modelo. Suponemos en principio que las variables predictoras o explicatorias guardan poca asociacin lineal entre s, es decir, cada variable predictora aporta informacin independiente de las dems predictoras presentes en el modelo (hasta cierto grado, la informacin aportada por cada una no es redundante). La ecuacin del modelo de regresin en este caso es:

    0 1 1 2 2i i i k ik iY X X X = + + + + +" Este modelo es de primer orden ya que no se presentan efectos de interaccin entre las variables predictoras o explicatorias, donde:

    9 0 1, k, , Son los parmetros del modelo 9 1 2i i ikX , X , , X , son los valores en la j-sima observacin muestral, de las variables predictoras o explicatorias

    consideradas en el modelo.

    9 ( )20iidi ~ N , Estadsticamente, se establece que la respuesta media est dada por

    ( )1 2 0 1 1 2 2, k k kE Y | X , X , X X X X = + + + + "

    la cual representa un hiperplano en un espacio de dimensin k+1, llamado superficie de regresin o superficie de respuesta. Similar al modelo de regresin lineal simple, bajo los supuestos de normalidad, independencia y varianza constante de los

    errores, se tiene que ( )21 2 0 1 1 2 2i i i , ik i i k ikY | X , X , X ~ N X X X , + + + + " e independientes.

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    5

    3. Significado de los coeficientes de regresin en el modelo lineal general

    El parmetro 0 , el intercepto Y del plano, representar la respuesta media de Y cuando en el conjunto de observaciones se incluye la coordenada ( ) ( )1 2 0 0 0, kX , X , X , , ,= , de lo contrario si tal coordenada no es observada, entonces 0 no ser interpretable. Los parmetros j , j=1, 2, , k, indican el cambio en la respuesta media de Y por unidad de incremento en la respectiva variable jX , cuando las dems predictoras permanecen constantes (sin importar en qu nivel son fijadas

    estas ltimas). Como los efectos de una predictora sobre la respuesta media no dependen del nivel de las dems, tales

    efectos son denominados efectos aditivos. Los parmetros j , son tambin llamados coeficientes de regresin parcial porque reflejan el efecto parcial de una variable predictora sobre la respuesta media en presencia de las dems predictoras que aparecen en el modelo. NOTA: El trmino modelo lineal significa que el modelo es lineal en los parmetros, lo cual no hace referencia a la forma de la superficie de respuesta. 4. Tipos de variables y de efectos en los modelos Las variables predictoras o explicatorias pueden ser: 9 Cuantitativas, caso en el cual se supone se miden sin error (o el error es despreciable). 9 Cualitativas o categricas, en este caso su manejo en el modelo se realiza a travs de la definicin de variables

    indicadoras, las cuales toman valores de 0 1. Por ejemplo, suponga que en un modelo de regresin para el gasto mensual por familia en actividades recreativas, se tiene entre las variables predictoras o explicatorias el estrato socioeconmico, definido en cinco niveles, luego, para cada nivel se define una variable indicadora de la siguiente forma:

    1

    1 familia en estrato 1I

    0 otro caso= 2

    1 familia en estrato 2I

    0 otro caso=

    3

    1 familia en estrato 3I

    0 otro caso= 4

    1 familia en estrato 4I

    0 otro caso=

    5

    1 familia en estrato 5I

    0 otro caso=

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    6

    En general, una variable cualitativa con c clases se representa mediante 1c variables indicadoras, puesto que cuando en una observacin dada, todas las 1c primeras indicadoras son iguales a cero, entonces la variable cualitativa se haya en su ltima clase. En el ejemplo anterior basta definir las primeras cuatro indicadoras.

    En el caso con variables predictoras o explicatorias cuantitativas, existe la llamada regresin polinomial en la que se utilizan trminos cuadrticos y de orden superior de estas variables, como en los diseos experimentales para optimizacin de procesos mediante la metodologa de superficie de respuesta. A pesar de la naturaleza no lineal de tales superficies de respuesta, estos modelos son casos del modelo de regresin lineal general. Otros modelos pueden usar funciones de respuesta curvilneas, en los cuales se utilizan variables transformadas de forma compleja, para linealizacin del modelo. Otros modelos pueden incluir efectos de interaccin, es decir cuando los efectos de una variable predictora depende de los niveles de otras variables predictoras o explicatorias incluidas en el modelo. Por ejemplo, suponga un modelo de regresin con

    las variables predictoras o explicatorias 1X y 2X , que incluye tanto los efectos principales como el de interaccin de estas

    dos variables. Este modelo corresponde a: 0 1 1 2 2 3 1 2i i i i i iY X X X X = + + + + . El trmino de interaccin es representado por 3 1 2i iX X . Para expresar el anterior modelo en trminos del modelo lineal general, definimos simplemente

    3 1 2i i iX X X= y rescribimos el modelo como 0 1 1 2 2 3 3i i i i iY X X X = + + + + .

    En este ltimo tipo de modelo los coeficientes de regresin de los trminos individuales jX ya no tienen el significado dado

    antes, debido a la presencia de la interaccin, es decir, ya no representan el cambio en la respuesta media cuando se incrementa en una unidad la respectiva variable predictora, manteniendo constante a las dems. Para el ejemplo, puede

    mostrarse mediante derivacin, que cuando 1X se incrementa en una unidad mientras 2X se deja fija, el cambio en la

    respuesta promedio es 1 3 2X + . As, los efectos de una variable predictora sobre la respuesta promedio, dado el nivel fijo de la otra, dependen del nivel en que se halle esta ltima. Tenga presente que cualquier modelo que pueda rescribirse en trminos del modelo lineal general, puede trabajarse mediante las tcnicas de estimacin de mnimos cuadrados, de lo contrario, el modelo se considera no lineal y slo pueden obtenerse estimaciones mediante mtodos numricos complejos. 5. Expresin en forma matricial del modelo lineal general y parmetros estimados El uso del lgebra matricial es la clave para el procedimiento de estimacin por mnimos cuadrados. Para ello, note que

    cuando se tienen n observaciones para el modelo lineal, 0 1 1 2 2i i i k ik iY X X X = + + + + +" , en realidad se tiene

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    7

    un sistema de n ecuaciones con 1k + incgnitas correspondiendo al intercepto y los k coeficientes de regresin, donde los iY y las ijX toman valores conocidos en cada caso. Tal sistema expresado en forma matricial corresponde a:

    y X= +

    donde:

    y =1

    2

    n

    YY

    Y

    # es el vector de respuestas de dimensin n1, =

    0

    1

    k

    # es el vector de parmetros

    =X11 12 1

    21 22 2

    1 2

    11

    1

    k

    k

    n n nk

    X X XX X X

    X X X

    ""

    # # # " #"

    es la matriz de diseo, con los valores de las variables predictoras o explicatorias en cada

    observacin

    =1

    2

    n

    # es el vector de errores normales independientes con valor esperado ( )E = 0

    y matriz de varianzas covarianzas ( )V = 2 nn =I2

    2

    2

    0 00 0

    0 0

    ""

    # # % #"

    Por tanto el vector aleatorio y tiene valor esperado X y la misma matriz de varianzas covarianzas de . Para la estimacin por mnimos cuadrados se buscan los valores estimados de los parmetros tales que

    ( )S = ( ) ( ) ( )20 1 1 2 21

    nt

    i i i k iki

    Y X X X =

    = y X y X" sea mnimo. Denotaremos por b al vector de parmetros estimados. Matricialmente, las ecuaciones normales de mnimos cuadrados para el modelo lineal general son:

    t tX Xb X y= y el vector de parmetros estimados es ( ) ( )1t tb X X X y= , cuyos elementos corresponden a los

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    8

    estimadores por mxima verosimilitud en el caso del modelo de regresin con errores normales. Matricialmente, hallamos las

    solucin derivando la forma cuadrtica ( ) ( )y X y Xt con respecto al vector e igualando a cero: ( ) ( )2 2 2 0y y y X X X X y X Xt t t t t tS = + = + = y desde que X Xt sea invertible, obtenemos como

    solucin a ( ) 1t tb X X X y = .

    b =0

    1

    k

    bb

    b

    #

    Siendo la ecuacin ajustada igual a

    0 1 1 2 2i i i k ikY b b X b X b X= + + + +" 6. Valores ajustados y residuales

    Con los valores ajustados iY se construye el vector de valores ajustados dado por

    y Xb= =1

    2

    n

    Y

    Y

    Y

    #

    Los residuales corresponden a i i ie Y Y= y el vector de residuales es

    e y y= =1

    2

    n

    ee

    e

    #

    El vector de valores ajustados y el vector de residuales pueden ser tambin expresados en trminos de la matriz

    ( ) 1' 'H X X X X= , conocida como la matriz hat o matriz sombrero, la cual es una matriz n n de proyeccin ortogonal y por tanto es idempotente ( 2H H= ) y simtrica ( H Ht = ), as: y Hy= y ( )e I H y= .

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    9

    7. Estimacin de la varianza

    Bajo los supuestos de independencia y distribucin ( )20N , idntica para todos los errores del modelo, el estimador insesgado de la varianza corresponde a:

    2

    1SSE MSE

    n k = =

    donde la suma de cuadrados del error SSE corresponde a

    ( ) ( ) ( ) ( )221 1

    n nt t t

    i i ii i

    SSE e y y= =

    = = = = = y y y y e e y I-H y . 8. Algunas propiedades de los estimadores de los parmetros 9 Los estimadores de mnimos cuadrados corresponden a los estimadores de mxima verosimilitud, bajo el modelo

    lineal normal. 9 b es un estimador insesgado del vector de parmetros , es decir,

    [ ] ( ) 1t tE b E X X X y = = 9 La matriz de varianzas covarianzas de b es

    ( ) ( ) ( )1 12b X X X y X Xt t tV V = = Tal matriz (la cual es simtrica) tiene sobre su diagonal principal a las varianzas de los estimadores de los parmetros,

    ( ) 0 1 2jV b , j , , , k = y por fuera de su diagonal principal a las covarianzas entre tales estimadores, es decir, el elemento en la posicin j ,l es ( )j lCOV b ,b .

    9 Una estimacin de la anterior matriz es ( ) ( ) 12 tS b X XMSE = cuyos elementos en la diagonal principal corresponden a ( )2 js b , estimaciones de las varianzas de los respectivos estimadores jb , en tanto que los elementos restantes en la matriz son los estimadores de las covarianzas entre los estimadores jb .

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    10

    9. Inferencias sobre los parmetros j del modelo de regresin Bajo los supuestos del modelo de regresin, podemos hallar los siguientes resultados:

    Parmetro Test de

    significancia Estadstico de

    prueba Criterio de rechazo

    Intervalo de confianza

    del (1-)100%

    j 01

    0

    0j

    j

    H :H :

    =

    ( )0 12j j

    n k

    j

    bT ~ t

    s b

    =

    con 0j = para el test de significancia

    Rechazar si

    0 2 1/ ,n kT t > con significancia de

    ( )22 1j / ,n k jb t s b

    NOTA: Para otros testes individuales sobre los parmetros, usamos en el clculo del estadstico de prueba 0T el valor de j especificado en H0 y los criterios de rechazo se establecen segn la desigualdad (de cola derecha, de cola izquierda o de dos colas) planteada en la hiptesis alternativa. 10. Inferencias sobre la respuesta media y valores futuros

    Suponga que deseamos estimar la respuesta media para 1 01 2 02 0k kX x , X x , , X x= = = . Sea 0Y la respuesta en tal conjunto de valores. Definiendo el vector 0 01 02 01

    x tk, x , x , , x= podemos escribir 0 0xtY = + , por tanto la respuesta media en tal punto es

    0 0 0xx xtY | E Y | = = = 0 1 01 2 02 0k kx x x+ + + + . Este valor es estimado por la

    correspondiente respuesta o valor ajustado, 0Y , que puede escribirse como 0Y ( ) 10 0x b x X X X yt t t t= = . Tal estimacin tiene como varianza ( )0V Y = ( ) ( ) 120 0 0 0x b x x X X xt t tV = , que es estimada por ( ) 10 0 x X X xt tMSE Podemos demostrar luego, bajo el supuesto de normalidad, los siguientes resultados:

    Para la respuesta media en el vector ( )0 01 02 01x , , , ,t kx x x= : 0Y|x = 0xt

    Tests de hiptesis Estadstico de prueba

    Intervalo de confianza

    del (1-)100%

    00 Y |H : cx = ( )

    000 11

    0

    x

    0x X X x

    Y |n k

    t t

    YT ~ t

    MSE

    =

    con 0Y 0x' b= y 0Y | cx =

    ( )0 2 1 0 -1 0x X X xt t/ ,n ky t MSE

    con 0 0x bty =

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    11

    Considere ahora el problema de predecir un valor futuro 0Y (no observado en la muestra) de la variable respuesta, en

    1 01 2 02 0k kX x , X x , , X x= = = . Claramente, usando el modelo ajustado, predecimos tal valor por 0Y . En este caso, notando que el valor futuro y su pronstico son independientes, obtenemos que la varianza de la diferencia 0 0Y Y es dada por ( ) ( ) ( ) ( ) 120 0 0 0 0 01 x X X xt t V Y Y V Y V Y = + = + , que es estimada por ( ) 10 01 x X X xt tMSE + . Con esto podemos hallar los siguientes resultados:

    Para una respuesta futura en el vector ( )0 01 02 01x' , , , , kx x x= : 0Y

    Pronstico Estadstico

    Intervalo de prediccin

    del (1-)100%

    0Y ( )0 0

    0 1

    0

    -1

    01+x X X xn k

    t t

    Y YT ~ tMSE

    =

    con 0 0x btY =

    ( )0 2 1 0 -1 01+x X X xt t/ ,n ky t s MSE con 0 0x b

    ty =

    Los intervalos de prediccin estiman los posibles valores para un valor particular de la variable respuesta (no para su media)

    en un vector dado 0x . Asumimos que este valor particular es un valor futuro de la variable aleatoria Y, y por tanto, no fue

    utilizado en la regresin. Si 0Y es un valor futuro y 0 0x btY = es su estimador, entonces estas dos variables aleatorias son

    estadsticamente independientes, dado que 0Y no fue utilizado para hallar los parmetros estimados, de ah el estadstico y

    los lmites del intervalo de prediccin. Precaucin: Debe evitarse hacer extrapolaciones por fuera del rango de experimentacin en el espacio de las predictoras. Dado que es posible que existan ciertas asociaciones entre los niveles observados en las variables predictoras o

    explicatorias, no basta con evaluar si cada valor componente del vector 0x se encuentra dentro del rango usado (u

    observado) para la correspondiente predictora, sino que es necesario evaluar si 0x pertenece a la regin de observacin

    conjunta. Para ello basta con comprobar si ( ) ( )0 -1 0x X X xt t iimax h< , con iih el elemento i-simo de la matriz hat.

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    12

    11. Anlisis de varianza En las siguiente frmulas J es una matriz de n n cuyas entradas son todas iguales a 1, e I es la matriz identidad de dimensin n n :

    Fuente de variacin

    Sumas de cuadrados (en trminos matriciales)

    Grados de libertad

    Cuadrados medios F0

    Regresin SSR = 1ty H J yn

    k SSRMSR

    k= 1k ,n kMSR ~ fMSE

    Error SSE = ( )ty I H y 1n k 1

    SSEMSEn k

    =

    Total SST = 1ty I J yn

    1n

    NOTAS: 9 La suma de cuadrados totales corresponde a la suma de los cuadrados de las desviaciones de las respuestas,

    respecto a la respuesta media, es decir, ( )21

    n

    ii

    SST y y=

    = . 9 La suma de cuadrados de la regresin corresponde a la suma de los cuadrados de las desviaciones de los valores

    ajustados respecto a la media muestral de la respuesta, es decir, ( )21

    n

    ii

    SSR y y=

    = . 9 La suma de cuadrados del error es simplemente la suma de los cuadrados de los residuales del modelo ajustado, es

    decir 21

    n

    ii

    SSE e=

    = . 9 k es el nmero de coeficientes (sin considerar el intercepto) en el modelo de regresin ajustado.

    Con base en la tabla ANOVA, y bajo los supuestos impuestos sobre los errores, se realiza el test de significancia de la relacin de regresin el cual se enuncia de la siguiente manera:

    ( )( )

    0 1 2

    1

    0

    0k

    j

    H :

    H :

    = = = =" el modelo de regresin no es significativo

    algn existe una relacin de regresin significativa con al menos una de las variables

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    13

    El estadstico de prueba es 0 1k ,n kMSRF ~ fMSE

    = . Se rechaza H0 a una significancia dada si 0 1,k ,n kF f > . Es decir,

    se prueba que existe una relacin de regresin, sin embargo esto no garantiza que el modelo resulte til para hacer predicciones. 12. El coeficiente de determinacin mltiple Denotado por R2 y definido como

    2 1SSR SSERSST SST

    = = mide la proporcin de la variabilidad total observada en la respuesta que es explicada por la asociacin lineal con el conjunto

    de variables 1 2 kX , X , , X . Por ser una proporcin, esta cantidad vara entre 0 y 1, siendo igual a 0 cuando todos los coeficientes de regresin ajustados son iguales a cero, y es igual a 1 si todas las observaciones caen sobre la superficie de regresin ajustada. Aunque es usado como una medida de bondad del ajuste de la funcin de regresin, es necesario tener presente que: 9 Valores grandes de R2 no implican necesariamente que la superficie ajustada sea til. Puede suceder que se hayan

    observado pocos niveles de las variables predictoras o explicatorias y por tanto la superficie ajustada no sera til para hacer extrapolaciones por fuera de tales rangos. Incluso, si esta cantidad es muy cercana a 1, todava el MSE podra ser muy grande y por tanto las inferencias tendran poca precisin.

    9 Cuando se agregan ms variables explicatorias al modelo, el R2 tiende a no decrecer, an cuando existan dentro del grupo de variables, un subconjunto de ellas que no aportan significativamente.

    9 Como medida de bondad de ajuste se prefiere usar otros estadsticos que penalicen al modelo por el nmero de variables incluidas, entre ellos se tienen el MSE, y el R2 ajustado, estas dos medidas son equivalentes: Entre dos modelos ajustados se considera mejor el de menor MSE o equivalentemente el de mayor R2 ajustado, dado que ste ltimo corresponde a:

    2 11

    donde adjMSE SSTR , MSTMST n

    = = El R2 ajustado disminuye cuando en el modelo se ingresan variables explicatorias sin lograr reducir al SSE, y causando la prdida de grados de libertad para este ltimo.

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    14

    13. Diagnsticos y medidas remediales 13.1 Chequeo de posibles asociaciones Inicialmente, puede ser de utilidad realizar chequeos grficos de la naturaleza y la fuerza de las asociaciones entre las variables predictoras o explicatorias con la variable respuesta, y an entre predictoras. Una matriz de dispersin es la herramienta ms til para visualizar rpida y simultneamente estas relaciones. Si las variables explicatorias se asocian linealmente a la variable respuesta, los grficos de dispersin respectivos deben presentar las nubes de puntos tendiendo a una lnea recta. Tambin se puede chequear si existen relaciones de tipo no lineal entre las distintas variables, y la presencia de observaciones atpicas. Por otra parte, se espera que entre las predictoras no existan relaciones lineales fuertes, pues de lo contrario, habra informacin que podra ser redundante en el modelo, y se tendra un problema de multicolinealidad1 lo cual afecta en la estimacin, interpretacin, y precisin de los coeficientes de regresin. A veces es til tambin acompaar este anlisis grfico con la matriz de correlaciones que proporciona los coeficientes de correlacin entre la variable respuesta con cada una de las predictoras y tambin todas las correlaciones entre las predictoras. En las figuras siguientes se presentan varias presentaciones de las matrices de dispersin para un conjunto de datos sobre tres variables. En los anexos aparece la programacin R con la cual se obtuvieron estas grficas:

    1 Aunque si bien, no se detecten asociaciones lineales fuertes entre pares de variables predictoras o explicatorias, esto no es evidencia suficiente para afirmar que no existe multicolinealidad. Una de las formas en que este problema se manifiesta es cuando se tiene una funcin de regresin significativa y sin embargo los coeficientes individuales de la regresin resultan no significativos.

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    15

    13.2 Chequeo sobre los supuestos en los errores Recordar que en el modelo de regresin se ha impuesto las siguientes tres condiciones sobre el trmino de error: 9 Los errores son variables aleatorias normales de media cero 9 Los errores se distribuyen con igual varianza 9 Los errores son mutuamente independientes

    Para chequear el supuesto de varianza constante, resulta til un grfico de residuales versus valores ajustados de la

    respuesta. Tambin puede aplicarse el test de Levene Modificado, cuando la varianza de los errores se incrementa o decrementa con los niveles de una de las variables predictoras o explicatorias.

    Se pueden identificar outliers en los grficos de residuales versus valores ajustados de la respuesta, en especial

    cuando se utilizan residuales estandarizados *i ie e / MSE= , o residuales estudentizados ( )1i i iir e / MSE h= .

    Para chequear la independencia, si se conoce el orden en que fueron recolectadas las observaciones, es posible

    analizar la serie de tiempo de los residuales y aplicar por ejemplo el test de Durbin Watson, tambin se puede evaluar grficamente si hay patrones particulares en la serie de los residuales, aunque no siempre en sta se identifican patrones an cuando exista autocorrelacin. En el mbito de las series de tiempo, existen mtodos ms efectivos

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    16

    para evaluar si la serie de errores es un ruido blanco2, como el test de Lung-Box y las funciones de autocorrelacin y de autocorrelacin muestral

    El supuesto de normalidad puede chequearse bien sea con el grfico de probabilidad normal de los residuales y con el

    test de normalidad de Shapiro Wilk. 13.3 Carencia de ajuste La carencia de ajuste tambin puede ser evaluada y para el modelo de regresin mltiple se quiere saber si

    ( )1 2 0 1 1 2 2, k k kE Y | X , X , X X X X = + + + + " es una superficie de respuesta apropiada, es decir,

    ( )( )

    0 1 2 0 1 1 2 2

    1 1 2 0 1 1 2 2

    , k k k

    , k k k

    H : E Y | X , X , X X X X

    H : E Y | X , X , X X X X

    = + + + + + + + +

    " "

    Para llevar a cabo este test, se necesitan replicaciones de la respuesta en las combinaciones de niveles de las variables explicatorias. La suma de cuadrados SSE se descompone como en el caso de regresin simple, en SSE SSPE SSLOF= + , donde SSPE se halla calculando para cada grupo replicado la suma de cuadrados de las desviaciones de Y alrededor de la media del grupo, donde un grupo replicado consiste de jn observaciones ijY (i-esima

    observacin replicada en el j-simo grupo) obtenidas bajo los mismos valores para cada una de las variables predictoras o

    explicatorias. Sea c el nmero de grupos replicados con distintos conjuntos de niveles para las Xs y sea jY la media de las

    observaciones replicadas para el j-simo grupo, entonces la suma de cuadrados para el j-simo grupo est dado por

    ( )21 1

    jnc

    ij jj i

    SSPE Y Y= =

    = con grados de libertad n c

    La suma de cuadrados de carencia de ajuste es SSLOF SSE SSPE= , con grados de libertad 1c k , y el estadstico de prueba es

    ( )( )0 1

    1c k ,n c

    SSLOF / c k MSLOFF ~ fSSPE / n c MSPE

    = =

    2 En series de tiempo, un ruido blanco es un proceso estocstico que se caracteriza por tener media constante igual a cero, varianza constante y los trminos del proceso son incorrelacionados.

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    17

    Anlisis de varianza Fuente de variacin

    Suma de cuadrados

    Grados de libertad

    Cuadrados medios f calculada

    Regresin SSR k MSR SSR / k= 0MSRFMSE

    =

    Error SSE 1n k ( )1MSE SSE / n k= Carencia de ajuste SSLOF 1c k ( )1MSLOF SSLOF / c k= 0

    MSLOFFMSPE

    =

    Error Puro SSPE n c ( )MSPE SSPE / n c= Total SST 1n

    13.4 Medidas remediales Las medidas remediales descritas en el caso de la regresin simple tambin son aplicables en la regresin mltiple. Con el fin de superar las deficiencias del modelo se pueden realizar transformaciones sobre la variable respuesta y/o sobre las variables predictoras o explicatorias. Las transformaciones sobre la respuesta pueden ayudar en el caso de que los errores no resulten normales o la varianza no sea constante. Transformaciones sobre las variables predictoras o explicatorias resultan tiles cuando la superficie de respuesta es curvilnea. Hay que tener cuidado cuando se transforma la variable respuesta, en particular cuando se usan las llamadas transformaciones de Box-Cox, las que pueden resultar en nuevas variables carentes de interpretacin prctica segn el fenmeno o contexto al cual pertenece la variable respuesta. Si las desviaciones respecto al supuesto de normalidad son severas, y ninguna transformacin resulta til y/o interpretable, existe otra alternativa, los llamados modelos lineales generalizados con los cuales se pueden modelar respuestas que no se distribuyen normales; sin embargo, tales modelos estn ms all del alcance de este curso. 14. Sumas de cuadrados extras Una suma de cuadrados extra mide la reduccin marginal en el SSE cuando una o varias variables predictoras o explicatorias son agregadas al modelo de regresin, dado que las otras predictoras ya fueron agregadas o estn en el modelo, o bien, es una medida del incremento marginal en el SSR cuando una o ms predictoras son agregadas al modelo de regresin (Neter,

    1996). Por ejemplo, suponga un modelo de regresin mltiple de una respuesta dada sobre tres variables 1 2 3 X , X , X ,

    entonces definamos algunas de las posibles sumas de cuadrados extras:

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    18

    ( ) ( ) ( )1 2 3 1 2 3 2 3SSR X | X , X SSR X , X , X SSR X , X= es la suma de cuadrados extras de 1X dado que 2X y 3X ya estn en el modelo de regresin, lo cual se interpreta como el incremento marginal en la suma de cuadrados de regresin por

    agregar 1X al modelo de regresin mltiple de Y vs. 2X y 3X . ( )1 2 3SSR X , X , X es el SSR del modelo de regresin con las tras variables 1 2 3 X , X , X y ( )2 3SSR X , X es el SSR del modelo de regresin mltiple con slo las variables 2X y 3X . Los grados de libertad de ( )1 2 3SSR X | X , X se hallan como la diferencia de los grados de libertad de ( )1 2 3SSR X , X , X menos los grados de libertad de ( )2 3SSR X , X , es decir, 3 2 1 = grados de libertad.

    ( ) ( ) ( )1 2 3 1 2 3 3SSR X , X | X SSR X , X , X SSR X= es la suma de cuadrados extras de 1X y 2X dado que 3X ya est en el modelo de regresin, esto corresponde al incremento marginal en la suma de cuadrados de regresin por agregar

    simultneamente 1X y 2X , al modelo de regresin de Y vs. 3X . Aqu, ( )3SSR X es el SSR del modelo de regresin de Y vs. 3X . Los grados de libertad de ( )1 2 3SSR X , X | X corresponden a la diferencia de los grados de libertad de

    ( )1 2 3SSR X , X , X menos los grados de libertad de ( )3SSR X , es decir, 3 1 2 = .

    ( ) ( ) ( )1 3 1 3 3SSR X | X SSR X , X SSR X= es la suma de cuadrados extras de 1X dado que 3X est en el modelo de regresin, o en otras palabras, es el incremento en la suma de cuadrados de la regresin debido a la inclusin de 1X al

    modelo de regresin de Y vs. 3X . Aqu ( )1 3SSR X , X es la suma de cuadrados de la regresin mltiple de Y vs. 1X y 3X . Los grados de libertad de ( )1 3SSR X | X son iguales a la diferencia de los grados de libertad de ( )1 3SSR X , X

    menos los grados de libertad de ( )3SSR X , es decir, 2 1 1 = .

    Ahora defina usted ( )2 1SSR X | X . 14.1 Descomposicin del SSR en sumas de cuadrados extras La suma de cuadrados de regresin de un modelo dado puede descomponerse en sumas de cuadrados extras. Considere de

    nuevo el modelo de regresin mltiple de una respuesta dada sobre tres variables 1 2 3 X , X , X , la correspondiente suma de

    cuadrados de regresin puede descomponerse de las siguientes maneras (stas son slo algunas de las posibles descomposiciones):

    ( ) ( ) ( ) ( )1 2 3 1 2 1 3 1 2SSR X , X , X SSR X SSR X | X SSR X | X , X= + +

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    19

    ( ) ( ) ( ) ( )1 2 3 2 3 2 1 2 3SSR X , X , X SSR X SSR X | X SSR X | X , X= + + ( ) ( ) ( )1 2 3 2 1 3 2SSR X , X , X SSR X SSR X , X | X= +

    Una forma particular de descomposicin que puede obtenerse con los paquetes estadsticos, son las sumas de cuadrados de regresin secuenciales o SS1, que son sumas de cuadrados extras de 1 grado de libertad, en la cual cada variable explicatoria es agregada secuencialmente, segn el orden en que son nombradas en el modelo de regresin completo, por ejemplo , si se

    especifica el modelo 0 1 1 2 2 3 3Y X X X = + + + + , la descomposicin en sumas de cuadrados secuenciales correspondiente es ( ) ( ) ( ) ( )1 2 3 1 2 1 3 1 2SSR X , X , X SSR X SSR X | X SSR X | X , X= + + :

    Fuente SS1 Grados de libertad

    1X ( )1SSR X 1 2 1X | X ( )2 1SSR X | X 1 3 1 2X | X , X ( )3 1 2SSR X | X , X 1

    Regresin SSR 3

    Otro tipo de sumas de cuadrados extras de 1 grado de libertad que se obtienen en los paquetes estadsticos, son las sumas de cuadrados de regresin parciales SS2 las cuales corresponden a las sumas de cuadrados extras de cada variable

    explicatoria en el modelo, dadas las dems. De nuevo considere el modelo 0 1 1 2 2 3 3Y X X X = + + + + , las sumas de cuadrados de parciales corresponden a:

    Fuente SS2 Grados de libertad

    1 2 3X | X , X ( )1 2 3SSR X | X , X 1 2 1 3X | X , X ( )2 1 3SSR X | X , X 1 3 1 2X | X , X ( )3 1 2SSR X | X , X 1

    Observe que la ltima suma de cuadrados de regresin parcial corresponde a la ltima suma de cuadrados de regresin secuencial para el modelo del ejemplo, y adems que estas tres sumas de cuadrados extras no constituyen una descomposicin de la suma de cuadrados de la regresin del modelo completo, es decir, no suman el SSR.

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    20

    14.2 Prueba de la significancia de coeficientes de regresin individual mediante sumas de cuadrados extras

    En la seccin 7 se present la prueba de hiptesis de significancia de los j del modelo de regresin mediante el uso del

    estadstico ( )20 1j j n kT b / s b ~ t = bajo la hiptesis nula 0j = . Considere 1 2 j , , , k= , si se eleva al cuadrado esta variable aleatoria 0 1n kT ~ t , se obtiene la variable aleatoria

    20 0 1 1,n kF T ~ f = y puede demostrarse que este

    estadstico tambin corresponde a:

    ( )( )

    1 2 1 1 20

    1 2

    j j j , j k

    k

    SSR X | X , X , , X , X X , XF

    MSE X , X , , X + +=

    es decir, la suma de cuadrados parcial SS2 de la respectiva variable jX , dividida por el MSE del modelo de regresin

    completo (con todas las predictoras). A un nivel de significancia de , el criterio de rechazo con este estadstico de la hiptesis 0 0jH : = en favor de 1 0jH : , es 0 1 1, ,n kF f > . NOTA: En el caso de la regresin lineal simple puede mostrarse que el estadstico F del test de significancia de la regresin mediante el anlisis de varianza es igual al cuadrado del estadstico t de la prueba de significancia de la pendiente de la recta de regresin. 14.3 Prueba de la significancia de subconjuntos de coeficientes de regresin mediante sumas de cuadrados extras Considere ahora el caso en el cual se desea probar simultneamente la significancia de 2 o ms coeficientes de la regresin,

    por ejemplo, en el modelo 0 1 1 2 2 3 3 4 4 5 5Y X X X X X = + + + + + + se desea probar si las variables 1X , 2X y 5X pueden ser eliminadas del modelo, es decir, se desea probar que:

    0 1 2 5

    1 1 2 5

    00 alguno entre y es

    H :H : ,

    = = =

    Para este tipo de pruebas se requiere formular dos modelos:

    El modelo completo, para el ejemplo es 0 1 1 2 2 3 3 4 4 5 5Y X X X X X = + + + + + + . El modelo nulo: es decir, aquel al cual se reduce el modelo completo eliminando las variables explicatorias sobre las

    cuales se realiza esta prueba. Para el ejemplo es 0 3 3 4 4Y X X = + + + El estadstico de prueba es igual a la razn del cuadrado medio de la diferencia de las sumas de cuadrados del error del modelo nulo menos la del modelo completo, sobre el cuadrado medio del error del modelo completo. Para el ejemplo, sera:

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    21

    ( ) ( ) ( ) ( )( )

    ( ) ( )( )

    3 4 1 2 3 4 50

    1 2 3 4 5

    3 4 1 2 3 4 5

    1 2 3 4 5

    3 6

    3

    SSE X , X SSE X , X , X , X , X / n nF

    MSE X , X , X , X , X

    SSE X , X SSE X , X , X , X , X /MSE X , X , X , X , X

    =

    =

    pero tenemos que:

    ( ) ( ) ( ) ( )( )3 4 1 2 3 4 5 1 2 3 4 5 3 41 2 5 3 4

    SSE X , X SSE X , X , X , X , X SSR X , X , X , X , X SSR X , XSSR X , X , X | X , X

    = =

    por lo tanto el estadstico de la prueba es simplemente la suma de cuadrados extra de regresin de las variables cuya significancia se prueba, dada las dems variables del modelo, dividida por sus grados de libertad, sobre el cuadrado medio del error del modelo completo:

    ( )( )1 2 5 3 40 3 61 2 3 4 5

    3,n

    SSR X , X , X | X , X /F ~ f

    MSE X , X , X , X , X =

    A un nivel de significancia de , el criterio de rechazo de la hiptesis nula es 0 3 6, ,nF f > . NOTA: Recuerde que: Los grados de libertad de la diferencia de dos sumas de cuadrados es igual a la diferencia de los respectivos grados

    de libertad. Los cuadrados medios se construyen dividiendo la respectiva suma de cuadrados por sus grados de libertad.

    Otro ejemplo: En el modelo 0 1 1 2 2 3 3 4 4 5 5Y X X X X X = + + + + + + , para probar la hiptesis: 0 2 4

    1 2 4

    00 alguno entre y es

    H :H :

    = =

    se usa ( )( )2 4 1 3 50 2 61 2 3 4 52

    ,n

    SSR X , X | X , X , X /F ~ f

    MSE X , X , X , X , X = y con un nivel de significancia de , el criterio de rechazo de la

    hiptesis nula es 0 2 6, ,nF f > .

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    22

    15. Seleccin de variables predictoras o explicatorias En algunos estudios observacionales o exploratorios se parte de un modelo de regresin en el que se considera un conjunto grande de variables explicatorias potenciales para luego identificar un subconjunto entre tales variables, que resulte potencialmente til para construir el modelo de regresin final. Dependiendo de los usos que se deseen dar a un modelo de regresin variar el subconjunto de variables seleccionadas. Por ejemplo, desde el punto de vista del ajuste, cierto subgrupo de variables sern tiles, en tanto que desde el punto de vista del pronstico, otro subconjunto podra resultar ser mejor. Es necesario pues fijar un criterio de seleccin del mejor subconjunto de variables. 15.1 Procedimientos de reduccin de variables explicatorias mediante todas las regresiones posibles Este procedimiento consiste en correr las regresiones de la variable respuesta vs. todos los posibles subconjuntos de 1, 2, , k variables explicatorias, y comparar tales modelos con base en alguno o varios de los siguientes estadsticos:

    El 2adjR : El mejor modelo es aqul con mayor valor en este estadstico. El MSE : El mejor modelo es aqul con menor valor en este estadstico. Sin embargo usar este criterio equivale a

    usar el criterio del 2adjR .

    El pC , el mejor modelo es aqul para el cual pC es el ms pequeo posible (es decir, el modelo con el menor

    nmero de variables predictoras o explicatorias posible) y tal que la diferencia pC p es mnima, con p igual al nmero de parmetros del modelo considerado, incluyendo el intercepto. Este estadstico es una medida del sesgo en

    el modelo de regresin, es decir, de ( )i iE Y (donde i es el valor esperado de la respuesta dadas las variables predictoras del modelo considerado), y es tal que a mayor sesgo, mayor pC . Este estadstico se calcula como:

    ( ) ( )1 2 2p

    pk

    SSEC n p

    MSE X , X , , X=

    donde pSSE es la suma de cuadrados del error del modelo de regresin con 1p k variables explicatorias y ( )1 2 kMSE X , X , , X es la suma de cuadrados medios del error para el modelo de regresin con todas las k

    variables. Este criterio enfatiza en el ajuste de cada modelo.

    El uso del criterio pC supone que ( )1 2 kMSE X , X , , X proporciona un estimador insesgado de la varianza 2 y que las relaciones de la respuesta con cada predictora han sido expresadas en el modelo de forma apropiada (lineal, cuadrtica, transformada, etc.) y que las variables menos tiles han sido excluidas.

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    23

    El PPRESS o suma de cuadrados de prediccin, mide qu tambin el uso de los valores ajustados por un submodelo puede predecir las respuestas observadas. Mientras menor sea esta medida, mejor se considera el

    modelo. El PRESS es como un SSE, pero en el cual el valor ajustado para cada observacin iY se halla estimando el

    submodelo sin considerar dicha observacin, tales valores ajustados se denotan por ( )i iY ; as el PRESS es la suma

    de cuadrados de los errores de prediccin ( ) ( )ii i ie Y Y= , es decir, ( )21

    n

    P ii

    PRESS e=

    = . Para cada submodelo, la definicin del error de prediccin implica correr n regresiones separadas (cada una con 1n datos) con cada observacin eliminada en cada caso, sin embargo, basta con correr una vez el modelo con todas las observaciones,

    hallar sus residuales ordinarios, y los elementos de la diagonal principal de la matriz hat y calcular ( ) ( )1i iiie e / h= . Si se usan dos o ms criterios de seleccin de modelos, es posible que cada criterio lleve a modelos distintos. La decisin final debe basarse en el anlisis de residuales y otros diagnsticos, adems de complementar con el conocimiento y la experiencia de personas expertas en el mbito en el cual est inmerso el problema. 15.2 Procedimientos de reduccin de variables mediante seleccin automtica Bsicamente, existen tres procedimientos de seleccin automtica, los cuales son computacionalmente menos costosos que el procedimiento de seleccin basado en ajustar todas las regresiones posibles, y operan en forma secuencial: Forward o seleccin hacia delante Backward o seleccin hacia atrs Stepwise, una combinacin de los dos anteriores

    El mtodo forward inicia ajustando todas las regresiones simples posibles, selecciona entre estos modelos el de menor MSE pero tal que la respectiva variable resulte significativa, luego va agregando variables, una por vez, buscando reducir tambin en forma significativa la suma de cuadrados de los errores, lo cual es evaluado a travs de pruebas F en las que se involucra el clculo de sumas de cuadrados extras de una nueva variable dadas las dems que previamente se ingresaron en el modelo. Entre varias variables candidatas a ingresar al modelo en un paso dado del algoritmo, se elige aquella que reduzca ms significativamente el SSE. El procedimiento se detiene cuando entre las variables restantes que no han sido ingresadas hasta el paso previo, ninguna contribuira significativamente en la reduccin del SSE si fuese ingresada. El mtodo backward, parte del modelo con todas las variables y elimina secuencialmente de a una variable, buscando reducir el SSE. La variable que se elimina en cada paso, es aquella que no resulta significativa en presencia de las dems variables

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    24

    del modelo de regresin que se tiene en ese momento. Tambin se recurre a pruebas F basadas en sumas de cuadrados extras, y entre varias variables candidatas a salir del modelo, se retira la de menor significancia. El algoritmo se detiene cuando todas las variables que an permanecen en el modelo son significativas en presencia de las dems. El mtodo stepwise, comienza agregando variables, una a la vez, la nueva variable es ingresada segn el mtodo forward, pero una vez ingresada una nueva variable, se evala que las dems que ya estaban en el modelo sigan siendo significativas, es decir, aplica el principio del mtodo backward. As, en un paso dado puede ingresar una variable y salir otra que en un paso previo ya haba sido ingresada, es ms, puede suceder que una misma variable entre, salga y vuelva a ser ingresada en pasos subsiguientes del algoritmo. El algoritmo se detiene cuando ya no hay ms variables para ingresar que contribuyan significativamente a reducir el SSE, en tanto que todas las que se tienen en el modelo son significativas. Como se anot antes en el procedimiento de seleccin de variables mediante todas las regresiones posibles, el modelo final no solamente debe ser el resultado de estos algoritmos de seleccin, tambin es necesario usar el juicio y el conocimiento previo que se tenga sobre el problema en el cual se est inmerso. Cuando una o ms variables explicatorias de tipo cualitativas son consideradas en un modelo de regresin mediante un conjunto de variables indicadoras, en estos procesos de seleccin de variables se recomienda mantener a stas juntas, como un solo grupo, an si un subconjunto de ellas resulta mejor de acuerdo al criterio de seleccin empleado. Esta recomendacin tambin aplica en el caso de modelos en los cuales se incluyen trminos polinomiales de una variable, es decir, trminos lineales, cuadrticos, etc. Si un trmino polinmico de orden m de una variable dada va a ser dejado en el modelo, entonces todos los trminos de orden inferior de esa misma variable tambin se recomienda dejarlos en el modelo, as no sean significativos segn el criterio de seleccin aplicado. Similarmente, si se tienen incluidos trminos de interaccin entre variables explicatorias, los trminos de interaccin de menor orden y los trminos lineales de las variables involucradas en tales interacciones, tambin deben permanecer en el modelo. 16. Problema 1 Cuatro pruebas (X1, X2, X3, X4) para seleccin de personal son aplicadas a un grupo de 20 aspirantes y se registran los respectivos puntajes. Despus de 2 aos de contratacin estos 20 empleados son clasificados de acuerdo a la puntuacin de la aptitud (Y) exhibida para el trabajo. Los datos se presentan a continuacin:

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    25

    Puntuacin Aptitud (Y)

    Prueba 1 (X1)

    Prueba 2 (X2)

    Prueba 3 (X3)

    Prueba 4 (X4)

    94 122 121 96 89 71 108 115 98 78 82 120 115 95 90 76 118 117 93 95

    111 113 112 109 109 64 112 96 90 88

    109 109 129 102 108 104 112 119 106 105 80 115 101 95 88 73 111 95 95 84

    127 119 118 107 110 88 112 110 100 87 99 120 89 105 97 80 117 118 99 100 99 109 125 108 95

    116 116 122 116 102 100 104 83 100 102 96 110 101 103 103

    126 117 120 113 108 58 120 77 80 74

    A. En el modelo con todas las variables ( )20 1 1 2 2 3 3 4 4 0 iidY X X X X , ~ N , = + + + + + : 1. Realice un anlisis descriptivo del conjunto de datos, especficamente, sobre las posibles asociaciones entre variables y la distribucin de la variable respuesta:

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    26

    TABLA MATRIZ DE CORRELACIN ENTRE TODAS LAS VARIABLES (obtenida con el R; tambin puede calcularse con SAS en el proc reg opcin corr, ver programas anexos) Y X1 X2 X3 X4 Y 1.000000000 -0.004143458 0.48590256 0.8855698 0.86492903 X1 -0.004143458 1.000000000 0.06814831 -0.1533788 -0.09574832 X2 0.485902561 0.068148309 1.00000000 0.5432310 0.43811642 X3 0.885569796 -0.153378763 0.54323100 1.0000000 0.76438127 X4 0.864929027 -0.095748315 0.43811642 0.7643813 1.00000000

    2. Ajuste el modelo y escriba la ecuacin ajustada. Cul es el efecto sobre la respuesta media por unidad de cambio en X1 cuando los puntajes en las otras pruebas permanecen a un nivel fijo? Estime la matriz de varianzas covarianzas de los parmetros estimados: TABLA DE PARMETROS ESTIMADOS CON SUMAS DE CUADRADOS TIPO I y TIPO II, Y COEFICIENTES ESTANDARIZADOS (Las sumas de cuadrados tipo I y II y los coeficientes estandarizados se obtienen respectivamente con las opciones SS1, SS2 y stb en la declaracin model del proc reg) Parameter Estimates Parameter Standard Standardized Variable DF Estimate Error t Value Pr > |t| Type I SS Type II SS Estimate Intercept 1 -178.62132 48.61985 -3.67 0.0023 171680 755.58731 0 x1 1 0.52146 0.35950 1.45 0.1675 0.12578 117.78193 0.13055 x2 1 -0.04780 0.14182 -0.34 0.7407 1739.89945 6.36129 -0.03572 x3 1 1.36668 0.34643 3.94 0.0013 4138.42606 871.23508 0.58295 x4 1 0.83250 0.25254 3.30 0.0049 608.37465 608.37465 0.44748 TABLA MATRIZ DE VARIANZAS COVARIANZAS ESTIMADA DE LOS PARMETROS ESTIMADOS DEL MODELO (Se obtiene en el SAS con la opcin covb de la declaracin model del proc reg) Covariance of Estimates Variable Intercept x1 x2 x3 x4 Intercept 2363.8901157 -15.80685715 0.8665382669 -6.844882227 0.3910048375 x1 -15.80685715 0.1292437353 -0.009248809 0.0227520918 -0.002404343 x2 0.8665382669 -0.009248809 0.0201115422 -0.018703335 -0.001316046 x3 -6.844882227 0.0227520918 -0.018703335 0.120017128 -0.060393923 x4 0.3910048375 -0.002404343 -0.001316046 -0.060393923 0.0637741289

    3. Determine cul de las variables predictoras o explicatorias tiene mayor peso sobre la variable respuesta, teniendo en cuenta los coeficientes con variables estandarizadas (ver tabla de resultados en numeral 2) 4. Interprete el coeficiente de determinacin muestral mltiple. Plantee la prueba necesaria para determinar si la regresin es significa (hiptesis, estadstico de prueba y regin crtica) y hgala a un nivel de significancia de 0.05: TABLA DE ANALISIS DE VARIANZA (resulta por defecto en el proc reg) Dependent Variable: y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 4 6486.82595 1621.70649 28.97

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    27

    5. Interprete los coeficientes estimados en trminos de las variables del problema y pruebe la significancia individual de cada parmetro, mediante las pruebas T y las pruebas F parciales (para pruebas T ver tabla de resultados en numeral 2. Las pruebas F pueden construirse a partir de las sumas de cuadrados SS2 o bien a partir de la relacin estadstica entre una distribucin t y una distribucin F. Constate con los resultados que se dan a continuacin): RESULTADO SAS ARGUMENTO b1:test x1=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B1=0 Test b1 Results for Dependent Variable y Mean Source DF Square F Value Pr > F Numerator 1 117.78193 2.10 0.1675 Denominator 15 55.98160 RESULTADO SAS ARGUMENTO b2:test x2=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B2=0 Test b2 Results for Dependent Variable y Mean Source DF Square F Value Pr > F Numerator 1 6.36129 0.11 0.7407 Denominator 15 55.98160 RESULTADO SAS ARGUMENTO b3:test x3=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B3=0 Test b3 Results for Dependent Variable y Mean Source DF Square F Value Pr > F Numerator 1 871.23508 15.56 0.0013 Denominator 15 55.98160 RESULTADO SAS CON ARGUMENTO b4:test x4=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B4=0 Test b4 Results for Dependent Variable y Mean Source DF Square F Value Pr > F Numerator 1 608.37465 10.87 0.0049 Denominator 15 55.98160

    6. Pruebe conjuntamente si los puntajes en las pruebas dos y cuatro son significativas para explicar la aptitud para el trabajo (plantee claramente las hiptesis, estadsticos de prueba, y regin crtica). RESULTADO SAS CON ARGUMENTO b2yb4:test x2,x4; EN EL PROC REG, PARA PRUEBA F H0: B2=B4=0 Test b2yb4 Results for Dependent Variable y Mean Source DF Square F Value Pr > F Numerator 2 305.49446 5.46 0.0166 Denominator 15 55.98160

    7. Construya los intervalos de confianza del 95% para los parmetros del modelo e interprtelos. TABLA DE INTERVALOS DE CONFIANZA DE LOS PARMETROS Y FACTORES DE INFLACIN DE VARIANZA (los intervalos se obtiene con la opcin clb y los vifs con la opcin vif en el argumento MODEL del proc reg) Variance Variable DF Inflation 95% Confidence Limits Intercept 1 0 -282.25209 -74.99056 x1 1 1.06015 -0.24481 1.28773 x2 1 1.46954 -0.35008 0.25447 x3 1 2.85778 0.62827 2.10509 x4 1 2.41145 0.29424 1.37077

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    28

    8. Determine mediante los grficos de residuales estudentizados la validez del supuesto de varianza constante, tambin evale el supuesto de normalidad y posibles outliers (los grficos de residuales se obtuvieron con el argumento plot del proc reg y los grficos de normalidad con el proc univariate sobre los residuales).

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    29

    9. De acuerdo a las siguientes grficas identifique si existen observaciones influenciales (stas fueron obtenidas guardando los estadsticos hii (leverage) cookd (distancia de Cook), con las opciones h=hii cookd=cooks de la declaracin output en el proc reg.

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    30

    NOTA:

    hii elemento i-simo de la diagonal principal de la matriz sombrero (H), es conocido como el leverage de iy sobre

    iy , y es una medida de la influencia potencial de una observacin en virtud de su ubicacin en el espacio definido

    por las variables predictoras o explicatorias. Puede mostrarse que 1

    1 n

    iii

    h p, p k=

    = = + , luego como una gua se usa el tamao promedio de los hii para identificar posibles puntos influenciales: si 2iih p / n> el punto i-simo tiene alto leverage.

    Las distancia de Cook corresponde a ( )( ) ( )

    2 2

    1ii i ii

    ii ii

    V yr r hDp V e p h

    = =

    donde ir es el i-simo residual estudentizado, y la razn ( )1ii iih / h es una medida de la distancia del vector observacin ix al centroide del resto de los datos. As, la distancia de Cooks refleja qu tan bien el modelo ajusta a la

    i-sima observacin y a la vez da cuenta de cun lejos est ese punto del resto de los datos. Se considera influencial

    aqul punto para el cual 1iD > .

    10. Mediante los valores de los VIF para los parmetros del modelo determine si existen problemas de multicolinealidad y cul o cuales variables estn involucradas en dicho problema (ver tabla de resultados en el numeral 7, resultados encabezados por Variance Inflation. Estas cantidades se obtienen con la opcin vif de la declaracin model del proc reg):

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    31

    NOTA: Cuando hay multicolinealidad, las varianzas de los coeficientes de regresin son infladas, de ah el nombre de factores

    de inflacin de varianza.

    Puede mostrarse que ( )21 1 jVIF / R= donde 20 1jR< < es el coeficiente de determinacin mltiple de la regresin de la variable predictora jX sobre el resto de predictoras.

    Valores VIF mayores que 10 implican serios problemas con la multicolinealidad. Cuando la multicolinealidad es fuerte, las ecuaciones de prediccin son notoriamente pobres y los valores de los

    coeficientes de regresin son muy sensibles a los datos que en particular son usados en el ajuste. 11. Mediante los ndices de condicin y las proporciones de aporte a la varianza de los coeficientes de regresin, que aporta el valor propio asociado a cada predictora, determine de nuevo si existen problemas de multicolinealidad. NOTA:

    Los valores propios son calculados para la matriz tX X . La existencia de una o ms dependencias lineales en los datos es evidenciada porque uno o ms valores propios resultan muy pequeos.

    Mientras ms pequeos son los valores propios j , ms grande es el ndice de condicin j max j/ = . SAS calcula la raz cuadrada de los ndices de condicin. Si tales races son menores que 10 no hay problemas serios de multicolinealidad, si alguna est entre 10 y 31esto implica multicolinealidad moderada a fuerte, y si alguna excede de 31 la multicolinealidad es severa.

    Puede demostrarse que las varianzas de los estimadores de los coeficientes de regresin son funcin de los VIF, los cuales a su vez son funcin de los valores inversos de los j , por lo cual, valores pequeos en alguno (s) de los j conlleva a inflacin de las varianzas de los estimadores. Debe tenerse en cuenta que los valores propios son

    numerados de mayor a menor, es decir 1 2 p > > >" Las proporciones de descomposicin de varianza, ij tambin son una medida de multicolinealidad, las cuales

    corresponden a la proporcin que el i-simo valor propio de tX X aporta a la varianza del coeficiente estimado j . Si proporciones altas de varianza para dos o ms coeficientes de regresin estn asociados con un mismo valor

    propio pequeo, entonces hay evidencia de multicolinealidad. Por ejemplo, si 43 y 45 son grandes (mayores de 0.5), el cuarto valor propio est asociado con una multicolinealidad que infla las varianzas de 3 y 5 , es decir 3X y

    5X estn involucradas en una relacin de multicolinealidad.

    Hay controversia acerca de si los datos deben centrarse (restarles sus respectivas medias a los valores de cada variable) para diagnosticar multicolinealidad usando el criterio de los valores propios y de las proporciones de la

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    32

    descomposicin de varianzas. Si se centran los datos se elimina el mal condicionamiento debido al intercepto del modelo. Si este parmetro no tiene interpretacin fsica, se recomienda trabajar sobre los datos centrados. Si por el contrario el intercepto es interpretable, no se recomienda centrar los datos (Montgomer, Peck y Vining, 2002).

    RESULTADOS SAS PARA DIAGNSTICO DE MULTICOLINEALIDAD CON BASE EN LOS VALORES PROPIOS, NDICES DE CONDICIN Y PROPORCIONES DE DESCOMPOSICIN DE VARIANZA CON DATOS SIN CENTRAR (Con opcin collin en la declaracin model): Collinearity Diagnostics Condition Number Eigenvalue Index 1 4.97778 1.00000 2 0.01151 20.79826 3 0.00810 24.79224 4 0.00192 50.92105 5 0.00068969 84.95525 Collinearity Diagnostics ------------------------Proportion of Variation------------------------ Number Intercept x1 x2 x3 x4 1 0.00004765 0.00006662 0.00045972 0.00009238 0.00019066 2 0.02015 0.03677 0.51781 0.00100 0.01034 3 0.00438 0.02156 0.38292 0.02724 0.29226 4 0.00552 0.06421 0.05578 0.75754 0.67611 5 0.96990 0.87740 0.04303 0.21413 0.02111 RESULTADOS SAS PARA DIAGNSTICO DE MULTICOLINEALIDAD CON BASE EN LOS VALORES PROPIOS, NDICES DE CONDICIN Y PROPORCIONES DE DESCOMPOSICIN DE VARIANZA CON DATOS CENTRADOS (Con la opcin collinoint en la declaracin model): Collinearity Diagnostics (intercept adjusted) Condition -----------------Proportion of Variation---------------- Number Eigenvalue Index x1 x2 x3 x4 1 2.18694 1.00000 0.00430 0.07741 0.06221 0.06684 2 1.03741 1.45192 0.81249 0.06601 0.00144 0.00060676 3 0.55750 1.98060 0.15032 0.75396 0.02394 0.18993 4 0.21815 3.16621 0.03289 0.10263 0.91242 0.74263

    B. Mediante los datos referentes a todas las regresiones posibles conteste a las siguientes preguntas: Dependent Variable: y Number in Adjusted Model R-Square R-Square C(p) MSE 1 0.7842 0.7722 12.2382 87.82341 1 0.7481 0.7341 16.9669 102.53009 1 0.2361 0.1937 83.9747 310.93011 1 0.0000 -.0555 114.8720 407.02357 ------------------------------------------------------------ 2 0.8693 0.8539 3.1096 56.34251 2 0.8020 0.7787 11.9141 85.33606 2 0.7843 0.7589 14.2339 92.97521 2 0.7623 0.7343 17.1139 102.45921 2 0.7543 0.7254 18.1494 105.86917 2 0.2375 0.1478 85.7922 328.61910 ------------------------------------------------------------ 3 0.8845 0.8629 3.1136 52.88033 3 0.8693 0.8448 5.1039 59.84412 3 0.8023 0.7653 13.8674 90.50617 3 0.7665 0.7227 18.5629 106.93495 ------------------------------------------------------------ 4 0.8854 0.8548 5.0000 55.98160

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    33

    Number in --------------------------Parameter Estimates-------------------------- Model R-Square Intercept x1 x2 x3 x4 1 0.7842 -116.00248 . . 2.07614 . 1 0.7481 -61.18254 . . . 1.60913 1 0.2361 21.67068 . 0.65029 . . 1 0.0000 94.54007 -0.01655 . . . ------------------------------------------------------------------------------------------------ 2 0.8693 -114.98800 . . 1.26567 0.84140 2 0.8020 -182.39183 0.53867 . 2.12464 . 2 0.7843 -116.12648 . 0.00918 2.06741 . 2 0.7623 -70.20439 . 0.17715 . 1.50123 2 0.7543 -98.75357 0.31715 . . 1.62327 2 0.2375 38.37237 -0.14951 0.65371 . . ------------------------------------------------------------------------------------------------ 3 0.8845 -176.56157 0.49948 . 1.32222 0.82937 3 0.8693 -114.84530 . -0.01049 1.27488 0.84220 3 0.8023 -183.72547 0.55285 -0.03063 2.15506 . 3 0.7665 -100.67612 0.26237 0.16518 . 1.52023 ------------------------------------------------------------------------------------------------ 4 0.8854 -178.62132 0.52146 -0.04780 1.36668 0.83250 --------------------------------------------------------------------------------------------------

    1. Cul es el mejor modelo a ajustar segn el criterio C(p)? 2. Cul es el mejor modelo a ajustar segn el criterio de R2? 3. Cul es el mejor modelo a ajustar segn el MSE ( el R2 ajustado)? 4. De acuerdo a los criterios anteriores evaluados en conjunto, Cul es el mejor modelo? Justifique C. Realice ahora la seleccin mediante mtodos secuenciales. Use un nivel de significancia de 0.05 para ingresar y de 0.05 para salir del modelo (plantee claramente los modelos en cada paso, las hiptesis, estadsticos de prueba y decisiones tomadas). Forward Selection: Step 1 Variable x3 Entered: R-Square = 0.7842 and C(p) = 12.2382 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 5745.72862 5745.72862 65.42 F Intercept -116.00248 25.88120 1764.31494 20.09 0.0003 x3 2.07614 0.25668 5745.72862 65.42

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    34

    Forward Selection: Step 2 Variable x4 Entered: R-Square = 0.8693 and C(p) = 3.1096 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 2 6368.72737 3184.36368 56.52 F Intercept -114.98800 20.73215 1733.21553 30.76 F 1 x3 1 0.7842 0.7842 12.2382 65.42 F Model 4 6486.82595 1621.70649 28.97 F Intercept -178.62132 48.61985 755.58731 13.50 0.0023 x1 0.52146 0.35950 117.78193 2.10 0.1675 x2 -0.04780 0.14182 6.36129 0.11 0.7407 x3 1.36668 0.34643 871.23508 15.56 0.0013 x4 0.83250 0.25254 608.37465 10.87 0.0049 Bounds on condition number: 2.8578, 31.196 -------------------------------------------------------------------------------------------------- Backward Elimination: Step 1 Variable x2 Removed: R-Square = 0.8845 and C(p) = 3.1136 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 3 6480.46466 2160.15489 40.85

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    35

    Parameter Standard Variable Estimate Error Type II SS F Value Pr > F Intercept -176.56157 46.87929 750.10936 14.19 0.0017 x1 0.49948 0.34361 111.73729 2.11 0.1654 x3 1.32222 0.31135 953.69062 18.03 0.0006 x4 0.82937 0.24527 604.62763 11.43 0.0038 Bounds on condition number: 2.4436, 17.631 -------------------------------------------------------------------------------------------------- Backward Elimination: Step 2 Variable x1 Removed: R-Square = 0.8693 and C(p) = 3.1096 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 2 6368.72737 3184.36368 56.52 F Intercept -114.98800 20.73215 1733.21553 30.76 F 1 x2 3 0.0009 0.8845 3.1136 0.11 0.7407 2 x1 2 0.0153 0.8693 3.1096 2.11 0.1654 -------------------------------------------------------------------------------------------------- Stepwise Selection: Step 1 Variable x3 Entered: R-Square = 0.7842 and C(p) = 12.2382 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 5745.72862 5745.72862 65.42 F Intercept -116.00248 25.88120 1764.31494 20.09 0.0003 x3 2.07614 0.25668 5745.72862 65.42

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    36

    Stepwise Selection: Step 2 Variable x4 Entered: R-Square = 0.8693 and C(p) = 3.1096 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 2 6368.72737 3184.36368 56.52 F Intercept -114.98800 20.73215 1733.21553 30.76 F 1 x3 1 0.7842 0.7842 12.2382 65.42

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    37

    SEC X1 Y C 12.1 20 C 12.7 21 C 13.6 22

    Si se definen X2 y X3 variables indicadoras que indican respectivamente si se trata de la seccin de ropa para nios o la seccin de ropa para damas. A. Plantee el modelo de regresin apropiado si se espera una diferencia entre las rectas que corresponden a las tres secciones y especifique los modelos particulares para cada seccin. B. Ajuste el modelo general y halle las ecuaciones de las rectas que relacionan las ventas con la publicidad en cada seccin. C. Determine si existe diferencia entre las ordenadas en el origen de las rectas correspondientes a las secciones de caballeros y de damas. D. Determine si existe diferencia en las pendientes de las rectas correspondientes a las secciones de nios y caballeros. E. Si se quiere probar que la recta de ventas vs. publicidad es diferente para cada seccin, plantee la hiptesis a probar, el estadstico de prueba y regin crtica al nivel de 0.05, realice la prueba y concluya. F. Determine si el cambio promedio en las ventas semanales por unidad de cambio en el presupuesto en publicidad es igual para las secciones de nios y de damas G. De acuerdo a la significancia de los parmetros, se puede decir que el modelo considerado es correcto? Debera especificarse otro modelo? cul? -------------------------------------------------------------------------------------------------- Obs SEC X1 Y X2 X3 X1X2 X1X3 1 A 5.2 9 0 0 0.0 0.0 2 A 5.9 10 0 0 0.0 0.0 3 A 7.7 12 0 0 0.0 0.0 4 A 7.9 12 0 0 0.0 0.0 5 A 9.4 14 0 0 0.0 0.0 6 B 8.2 13 1 0 8.2 0.0 7 B 9.0 13 1 0 9.0 0.0 8 B 9.1 12 1 0 9.1 0.0 9 B 10.5 13 1 0 10.5 0.0 10 B 10.5 14 1 0 10.5 0.0 11 C 10.0 18 0 1 0.0 10.0 12 C 10.3 19 0 1 0.0 10.3 13 C 12.1 20 0 1 0.0 12.1 14 C 12.7 21 0 1 0.0 12.7 15 C 13.6 22 0 1 0.0 13.6

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    38

    The REG Procedure Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 5 234.40399 46.88080 211.39 |t| Type I SS Type II SS Intercept 1 3.03177 1.03458 2.93 0.0167 3285.60000 1.90452 X1 1 1.15903 0.14029 8.26 F Numerator 1 1.41943 6.40 0.0322 Denominator 9 0.22178 Test b4 Results for Dependent Variable Y Mean Source DF Square F Value Pr > F Numerator 1 2.00324 9.03 0.0148 Denominator 9 0.22178 Test b2b3b4b5 Results for Dependent Variable Y Mean Source DF Square F Value Pr > F Numerator 4 10.13635 45.70 F Numerator 1 1.23746 5.58 0.0425 Denominator 9 0.22178

    ANEXO: PROGRAMAS R PARA MATRICES DE DISPERSIN ##Simulacin de los datos library(MASS) mu

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    39

    ##Matriz de dispersin con histogramas: panel.hist

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    40

    reg

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    41

    ANEXO 3: PROGRAMACIN SAS PARA PROBLEMA 1 options nodate nocenter nonumber; goptions reset=global gunit=pct border cback=white colors=(black blue green red) ftitle=swissb ftext=swiss htitle=4 htext=3; data datos; input y x1-x4; obs=_n_; cards; 94 122 121 96 89 71 108 115 98 78 82 120 115 95 90 76 118 117 93 95 111 113 112 109 109 64 112 96 90 88 109 109 129 102 108 104 112 119 106 105 80 115 101 95 88 73 111 95 95 84 127 119 118 107 110 88 112 110 100 87 99 120 89 105 97 80 117 118 99 100 99 109 125 108 95 116 116 122 116 102 100 104 83 100 102 96 110 101 103 103 126 117 120 113 108 58 120 77 80 74 ; run; proc reg data=datos corr; model y=x1-x4/stb clb ss1 ss2 covb vif collin collinoint; plot student.*(p. x1 x2 x3 x4); b1:test x1=0; b2:test x2=0; b3:test x3=0; b4:test x4=0; b2yb4:test x2,x4; output out=res p=pred r=ei student=ri h=hii cookd=cooks; run; quit; proc univariate data=res normaltest noprint; var ei ri; probplot ei ri/normal; inset normaltest probn; run; quit; proc gplot data=res; plot (cooks hii)*obs/vref=0; symbol1 interpol=needle ci=blue cv=red width=3 value=star height=3; run; quit; /*TODAS LAS POSIBLES REGRESIONES*/ proc reg data=datos; model y=x1-x4/ selection=rsquare adjrsq mse cp b; run;quit;

  • Regresin Lineal Mltiple, Estadstica II 3006915 Prof. Nelfi Gonzlez A. Escuela de Estadstica

    42

    /*SELECCIN SECUENCIAL*/ proc reg data=datos; model y=x1-x4/selection=forward sle=0.05; model y=x1-x4/selection=backward sls=0.05; model y=x1-x4/selection=stepwise sle=0.05 sls=0.05; run; quit;

    ANEXO 4: PROGRAMACIN SAS PARA PROBLEMA 2 data dos; input SEC $ X1 Y; X2=(SEC='B'); X3=(SEC='C'); X1X2=X1*X2; X1X3=X1*X3; cards; A 5.2 9 A 5.9 10 A 7.7 12 A 7.9 12 A 9.4 14 B 8.2 13 B 9.0 13 B 9.1 12 B 10.5 13 B 10.5 14 C 10.0 18 C 10.3 19 C 12.1 20 C 12.7 21 C 13.6 22 ; RUN; PROC PRINT DATA=DOS;RUN; PROC REG DATA=DOS; MODEL Y=X1 X2 X3 X1X2 X1X3/SS1 SS2; b3:test X3=0; b4:test X1X2=0; b2b3b4b5:test X2,X3,X1X2,X1X3; b4_b5:test X1X2=X1X3; RUN; QUIT;

    Bibliografa MONTGOMERY, D.C. y PECK, E. A (1992). Introduction to Linear Regression Analysis. John Wiley & Sons. NETER, N. et. Al. (1996) Applied Linear Statistical Models. Irwin.