modelos de regresion y correlacion

5
Ciencia & Trabajo | AÑO 8 | NÚMERO 22 | OCTUBRE /DICIEMBRE 2006 | www.cienciaytrabajo.cl | 185/189 185 Modelos de Regresión y Correlación REGRESSION AND CORRELATION MODELS Artículo de Educación ASPECTOS GENERALES Hablamos de Modelo de Regresión, para referirnos a una función matemática que intenta modelar probabilísticamente una Variable Respuesta en estudio, en relación a uno o más predic- tores de interés. El modelo más simple está constituido por una relación lineal entre dos variables que responde a la pregunta: Dado un valor x de la variable predictora, ¿cuál sería el valor promedio (o esperanza) de todos los posibles valores de Y obser- vables en presencia de X=x ? (Figura 1). Figura 1. Relación lineal entre dos variables X e Y. E[Y|X=x]: Esperanza de la variable Respuesta cuando la variable predictora X vale x. X : variable predictora β 1 : pendiente de la recta β 0 : intercepto Esta forma, que es la más simple, puede ser algebraicamente más compleja en la medida que hay más variables predictoras, que algunas de estas variables son categóricas (como el sexo por ejemplo) y/o la relación entre las variables no es lineal. Una tipología simple de los modelos de regresión se presenta en la Tabla 1. Correspondencia / Correspondence: Claudio Silva Z Escuela de Salud Pública Universidad de Chile Tel. (56-2) 978 65 39 e-mail: [email protected] Recibido: 28 de noviembre de 2006 / Aceptado: 7 de diciembre de 2006. Claudio Silva Z 1 , Mauricio Salinas 2 1. PhD en Estadística Escuela de Salud Pública Universidad de Chile. 2. MD MPH (c) Director Unidad Epidemiología y Estadística Fundación Científica y Tecnológica ACHS. RESUMEN En este número de C&T iniciamos una serie de artículos dedicados al tema de regresión y correlación. En este artículo se definen y explican los conceptos básicos de regresión lineal y correlación. Se explica cómo opera y cómo aplicar un modelo de regresión lineal simple, así como la interpretación de la información obtenida. Se detallan los supuestos que deben chequearse y cumplirse para que el modelo sea válido y la importancia de evaluar los datos en forma gráfica, antes de cualquier análisis multivariado. Este artículo no pretende reemplazar libros especializados en el tema, pero sí dar una visión general que permita entender cómo operan estos mode- los y cuáles son sus virtudes y debilidades. (Silva C, Salinas M. 2006. Modelos de Regresión y Correlación. Cienc Trab, Oct-Dic; 8 (22): 185-189. Descriptores: MODELOS LINEALES, REPRODUCIBILIDAD DE RESULTADOS, ANÁLISIS DE REGRESIÓN. ABSTRACT With this issue of C&T we initiate a series of articles dedicated to the subject of regression and correlation. This article defines and explains basic concepts of linear regression and correlation. It explains how it functions and how to apply a simple linear regres- sion model, as well as the interpretation of information obtained. Assumptions that must be checked and complied with for the model to be valid and the importance of evaluating data graphically prior to any multivaried analysis are detailed. This article is not intended to replace specialized literature on the subject, but it does try to give an overview that allows to understand how these models work and which are their strengths and weaknesses. Descriptors: LINEAR MODELS; REPRODUCIBILITY OF RESULTS, REGRESSION ANALYSIS. E[Y|X=x] = β 1 *x + β 0

Upload: diana-avila

Post on 26-Nov-2015

111 views

Category:

Documents


3 download

TRANSCRIPT

  • Ciencia & Trabajo | AO 8 | NMERO 22 | OCTUBRE /DICIEMBRE 2006 | www.cienciaytrabajo.cl | 185/189 185

    Modelos de Regresin y CorrelacinREGRESSION AND CORRELATION MODELS

    Artculo de Educacin

    ASPECTOS GENERALES

    Hablamos de Modelo de Regresin, para referirnos a una funcinmatemtica que intenta modelar probabilsticamente unaVariable Respuesta en estudio, en relacin a uno o ms predic-tores de inters. El modelo ms simple est constituido por unarelacin lineal entre dos variables que responde a la pregunta:Dado un valor x de la variable predictora, cul sera el valorpromedio (o esperanza) de todos los posibles valores de Y obser-vables en presencia de X=x ? (Figura 1).

    Figura 1.Relacin lineal entre dos variables X e Y.

    E[Y|X=x]: Esperanza de la variable Respuesta cuando la variable predictora X vale x.X : variable predictora1: pendiente de la recta0: intercepto

    Esta forma, que es la ms simple, puede ser algebraicamente mscompleja en la medida que hay ms variables predictoras, quealgunas de estas variables son categricas (como el sexo porejemplo) y/o la relacin entre las variables no es lineal. Una tipologa simple de los modelos de regresin se presenta enla Tabla 1.

    Correspondencia / Correspondence:Claudio Silva ZEscuela de Salud Pblica Universidad de ChileTel. (56-2) 978 65 39e-mail: [email protected]: 28 de noviembre de 2006 / Aceptado: 7 de diciembre de 2006.

    Claudio Silva Z1, Mauricio Salinas21. PhD en Estadstica Escuela de Salud Pblica Universidad de Chile.2. MD MPH (c) Director Unidad Epidemiologa y Estadstica Fundacin Cientfica y Tecnolgica ACHS.

    RESUMENEn este nmero de C&T iniciamos una serie de artculos dedicadosal tema de regresin y correlacin. En este artculo se definen yexplican los conceptos bsicos de regresin lineal y correlacin. Seexplica cmo opera y cmo aplicar un modelo de regresin linealsimple, as como la interpretacin de la informacin obtenida. Sedetallan los supuestos que deben chequearse y cumplirse para queel modelo sea vlido y la importancia de evaluar los datos en formagrfica, antes de cualquier anlisis multivariado. Este artculo nopretende reemplazar libros especializados en el tema, pero s daruna visin general que permita entender cmo operan estos mode-los y cules son sus virtudes y debilidades.

    (Silva C, Salinas M. 2006. Modelos de Regresin y Correlacin.Cienc Trab, Oct-Dic; 8 (22): 185-189.

    Descriptores: MODELOS LINEALES, REPRODUCIBILIDAD DERESULTADOS, ANLISIS DE REGRESIN.

    ABSTRACTWith this issue of C&T we initiate a series of articles dedicated to thesubject of regression and correlation. This article defines andexplains basic concepts of linear regression and correlation. Itexplains how it functions and how to apply a simple linear regres-sion model, as well as the interpretation of information obtained.Assumptions that must be checked and complied with for the modelto be valid and the importance of evaluating data graphically priorto any multivaried analysis are detailed. This article is not intendedto replace specialized literature on the subject, but it does try to givean overview that allows to understand how these models work andwhich are their strengths and weaknesses.

    Descriptors: LINEAR MODELS; REPRODUCIBILITY OF RESULTS,REGRESSION ANALYSIS.

    E[Y|X=x] = 1*x + 0

  • 186 185/189 | www.cienciaytrabajo.cl | AO 8 |NMERO 22 | OCTUBRE /DICIEMBRE 2006 | Ciencia & Trabajo

    Artculo Original | Silva Claudio

    Cuando queremos conocer el grado de asociacin lineal entre lasvariables utilizamos el Coeficiente de Correlacin (R). El coefi-ciente de Correlacin lineal puede tomar valores entre -1 y 1. Elvalor cero implica que no existe ninguna asociacin lineal y el 1significa asociacin perfecta: si es positivo, asociacin directa y,si es negativo, asociacin inversa. Se deben cumplir supuestoscomo distribucin normal bivariante e independencia entre lasobservaciones por analizar, lo cual explicaremos ms adelante.(Polit et al 2000).Regresin y Correlacin son dos conceptos vinculados, pero noequivalentes. Regresin se refiere a modelar la respuesta en rela-cin a los predictores para evidenciar una relacin estructuralque nosotros postulamos y para estimar el valor ms probable dela respuesta Y para los sujetos con un perfil particular de valoresde las variables predictoras, es decir, la(s) variable(s) predictora(s)y la respuesta Y desempean roles claramente distintos. La corre-lacin pretende medir el grado de asociacin lineal entre larespuesta y la(s) variable(s) predictora(s) sin diferenciacin deroles.

    REGRESIN LINEAL SIMPLE

    Cuando hablamos de regresin lineal simple, nos referimos a larelacin entre una variable predictora y una variable respuesta,ambas de carcter cuantitativo continuo. El modelo de regresinlineal es el ms utilizado y por ser el matemticamente mssimple facilita entender otros modelos de regresin ms generales(Taucher 1997).

    El modelo se define por la siguiente expresin:

    Y = 0 + 1*X + (1)Donde: Y = Variable Respuesta, 0 = Intercepto,1 = Pendiente, X = Variable predictora y = componente aleatoria que representa la parte atribuible aelementos distintos al valor observado de X.Si en n unidades de observacin, independientes entre s, hemospodido registrar los valores (x, y) podremos estimar los coefi-cientes de la expresin (1) recurriendo a las funciones;

    Donde:Yi: Valor de Y para cada observacinXi: Valor de X para cada una de las observacionesY: Valor promedio de la respuesta Y

    X : Valor promedio de la variable X

    La expresin ^1 calcula la pendiente muestral de la recta deregresin lineal. La expresin ^0 es el intercepto muestral, esdecir, el valor de Y cuando X es igual a cero.Luego, podremos estimar para cada X un valor predicho para Y:

    y^ = ^0 + ^1*x (4)Ejemplo: Supongamos que en diecisis varones sanos se ha regis-trado la edad y la presin arterial sistlica que se consignan enla Tabla 2 y se muestran en el Grfico 2.

    Tabla 1.Modelos de Regresin.

    Situacin Variable Respuesta Variable Respuesta Cuantitativa Cualitativa

    Un predictor continuo Regresin Lineal Simple Regresin LogsticaMltiples Predictores Regresin Lineal Mltiple Regresin Logstica

    Mltiple

    Tabla 2.Edad y Presin Arterial Sistlica para una Muestra Aleatoria de 16Sujetos.

    Grfico 1.Presin Arterial Sistlica Versus Edad (n=16).

    Paciente Edad Presin Arterial Sistlica(PAS)

    1 23 1202 23 1303 27 1234 28 1255 29 1256 30 1267 31 1368 31 1339 32 13410 33 12711 33 12312 35 12713 37 13014 37 13515 40 13016 41 138

    (Yi Y)(Xi X) (Xi X)2

    n

    i=1n

    i=1

    ^1=

    ^0 = Y ^1 X

    (2)

    (3)

  • Artculo Original | Modelos de Regresin y Correlacin

    Ciencia & Trabajo | AO 8 | NMERO 22 | OCTUBRE /DICIEMBRE 2006 | www.cienciaytrabajo.cl | 185/189 187

    Como conocemos los valores de X e Y, aplicando las expresiones(2) y (3) podemos estimar los valores:^1 = 0,55^0 = 111,2Una vez que hemos estimado los parmetros del modelo podemoscrear la recta lineal, estimar los coeficientes de determinacin ycorrelacin y evaluar el ajuste del modelo. Para esto debemosconsiderar las siguientes cantidades asociadas a cada observa-cin (xi, yi):

    yi: Valor de la respuesta Y en esa observacin,y^ i Valor de la respuesta Y estimado de acuerdo al modelo en esaobservacin,y : Valor promedio de la respuesta Y a travs de las n observa-ciones de la muestra aleatoria, ei : Valor residuo asociado a esa observacin, corresponde a ladiferencia entre el valor observado yi y el valor estimado y^ i, osea, ei = yi: y^ i , i = 1,,n.

    Notemos que para cada observacin de nuestra muestra secumple la siguiente identidad:

    y y = (y y^ ) + ( y^ y )

    Esta frmula est ilustrada en el Grfico 2.En este grfico observamos junto a la dispersin de los puntos(edad, PAS), la recta horizontal que corresponde al promedio dela variable respuesta (presin arterial sistlica promedio de lamuestra) y la recta de regresin, que corresponde al modelo esco-gido. La variabilidad explicada por el modelo es la diferenciaentre el valor estimado de la presin arterial sistlica y supromedio muestral y la variabilidad no explicada (el error) es ladiferencia entre el valor observado de la presin arterial sistlicay su estimado. Si sumamos estas dos variabilidades, obtenemosla variabilidad total.Si consideramos la suma de los cuadrados de cada una de estastres diferencias a travs de los puntos de la muestra obtenemoslas siguientes expresiones asociadas a varianza muestral:

    ( y y )2: Se asocia a la varianza TOTAL de la respuesta PAShallada en la muestra, sin prestar atencin a la relacin que ella

    pueda tener con EDAD. ( y^ y )2: Se asocia a la ganancia en varianza EXPLICADA alpasar nosotros de un modelo elemental que prediga para todaslas edades (xi) el mismo valor de PAS. sta es la variabilidadque est siendo explicada por el modelo de regresin. (y y^ )2: Se asocia a las diferencias entre cada PAS observaday la predicha por el modelo de regresin lineal simple a partir dela informacin EDAD. Es la variabilidad de Y=PAS no atribuiblea las diferencias en EDAD; se le llama Error Residual del modeloo residuo.

    Una identidad fundamental (Canavos 2000) vincula estas trescantidades:

    La expresin de la izquierda del signo = es constante para unamuestra dada y no vara si estudiamos distintos modelos para larelacin PAS vs. EDAD; en cambio, los dos trminos de laderecha dependen del modelo en estudio: Mientras mejor sea elmodelo, mayor ser la primera suma (mayor ser la variabilidadde la PAS explicable por la EDAD) y menor ser la segunda suma(menor ser la variabilidad residual, o sea la variabilidad de PASno atribuible a diferencias de EDAD).Es cmodo describir el balance entre estas dos ltimas cantidadesa travs del llamado coeficiente de determinacin definido como:

    R2 = Variabilidad de la respuesta EXPLICADA por el ModeloVariabilidad TOTAL.

    En nuestro ejemplo R2 vale 0,31. Esto quiere decir que la prediccinlineal de PAS usando la variable EDAD, logra explicar (segn nues-tros datos) el 31% de la varianza total de la respuesta PAS. Una forma de describir la asociacin lineal entre las variables Xe Y es utilizar el coeficiente de correlacin (R), que correspondea la raz cuadrada del R2. En el caso de nuestro ejemplo es 0,56.

    SUPUESTOS DEL MODELO

    En estadstica todos los modelos utilizados tienen supuestos dedistinta naturaleza y la regresin no es la excepcin. Siempre queuno haya estimado un modelo de regresin, deber asegurarseque los supuestos requeridos se cumplen; en caso contrario, loserrores de interpretacin a que podemos ser conducidos sernmuy graves. Procedimientos adecuados para evaluar objetiva-mente el cumplimiento de estas condiciones y posibles accionesde correccin para el caso de que no se cumplan abundan en laliteratura estadstica.El modelo de regresin lineal tiene como supuestos:

    1. La variable respuesta Y tiene distribucin condicional (es decirpara cada valor X=x) que es normal. Esto equivale a decir quelos residuos deben tener distribucin de probabilidad normal.2. La varianza condicional (es decir para cada valor X=x) de lavariable respuesta debe ser constante. Esto equivale a decir losresiduos tienen varianza constante para todos los valores de X. 3. Los valores de la respuesta deben ser probabilsticamenteindependientes. Es decir, los residuos correspondientes adistintas observaciones deben ser no correlacionados (ausenciade autocorrelacin) (Gujarati 1997).

    Grfico 2.Grfico de Dispersin de Presin Arterial Sistlica (PAS) y Edad.

    Respuesta estimadapor el modelo ( yi )

    Variabilidad explicada por

    el modelo

    Promedio ( y )

    }}

    Residuo (ei)

  • 188 185/189 | www.cienciaytrabajo.cl | AO 8 |NMERO 22 | OCTUBRE /DICIEMBRE 2006 | Ciencia & Trabajo

    Artculo Original | Silva Claudio

    Un elemento importante a considerar al aplicar un modelo deregresin lineal es que la variable respuesta debe ser una variablecuantitativa continua. En ocasiones, es posible aplicar el modeloa variables cuantitativas discretas, en el caso de escalas depuntaje de gran amplitud.Por ltimo, sugerimos a todos aquellos que deseen utilizar regre-sin lineal siempre graficar previamente los datos, ya que sepuede encontrar una asociacin no lineal mucho ms poderosaque, a travs de un mtodo multivariado no lineal, permitir unaprediccin mucho mejor de la variable respuesta. Veamos elejemplo de la Tabla 3, que se refiere al nmero de colonias bacte-rianas obtenidas a distintas temperaturas de incubacin.

    ^1: 0,36^0: 40,91R2 : 0,98

    Este modelo logra una prediccin mejor que el modelo lineal. Silo vemos grficamente (Grfico 4):

    Este ejemplo reitera la importancia de evaluar grficamente lainformacin antes de aplicar el modelo lineal.

    Tabla 3.Nmero de Colonias Bacterianas Obtenidas a Distintas Temperaturas deIncubacin.

    Temperatura Nmero Temperatura NmeroIncubacin de Colonias Incubacin de Colonias(G Celsius) (G Celsius)

    2 8 38 4964 12 38 5305 10 40 5766 18 41 6357 25 43 6908 36 43 7409 58 47 7929 72 49 83911 76 50 90712 102 51 97012 115 52 105014 157 52 130015 184 56 135017 196 59 140019 221 60 138021 270 61 150825 284 65 160929 321 66 159330 358 69 159434 409 70 170036 439

    Si decidimos hacer regresin lineal simple, podemos calcular losvalores de ^0 y ^1 mediante las frmulas (2) y (3) y obten-dremos:^1: 25,2^0: -234,9Con esos valores creamos nuestro modelo lineal. Si calculamosel coeficiente de determinacin (R2) obtenemos 0,93.Aparentemente la regresin lineal es una excelente herramientapara describir la relacin entre estas dos variables. Veamos ahoraun grfico de dispersin de los datos (Grfico 3).La lnea roja representa la recta de regresin lineal obtenida connuestro modelo.A pesar que la asociacin lineal obtenida es muy fuerte, la distri-bucin espacial de los puntos recuerda a una parbola. Ahoraque hemos visto esta distribucin, intentaremos ajustar unmodelo de regresin introduciendo un trmino cuadrtico. Conesos datos obtenemos:

    Grfico 3.Nmero de colonias bacterianas obtenidas a distintas temperaturas deincubacin. Modelo de regresin lineal.

    Grfico 4.Nmero de colonias bacterianas obtenidas a distintas temperaturas deincubacin. Modelo de regresin introduciendo un trmino cuadrtico.

  • Artculo Original |Modelos de Regresin y Correlacin

    Ciencia & Trabajo | AO 8 | NMERO 22 | OCTUBRE /DICIEMBRE 2006 | www.cienciaytrabajo.cl | 185/189 189

    CONCLUSIONES

    La regresin y correlacin son dos conceptos cercanos, pero noequivalentes. La regresin intenta predecir una respuesta dada Y, atravs de uno o ms predictores X. La regresin lineal es, desde elpunto de vista matemtico, el modelo ms simple y relaciona unpredictor con la variable respuesta Y, mediante una lnea recta.

    Siempre se debe chequear que se cumplan los supuestos de losmodelos de regresin, para no cometer errores de interpretacinde la informacin y siempre es recomendable graficar las varia-bles en estudio para ver su comportamiento espacial y buscarrelaciones no lineales.Si se desea ms informacin, se sugiere revisar los libros que seencuentran en el listado de referencias.

    Canavos G. 1988. Anlisis de regresin: el modelo lineal simple. Probabilidad yestadstica: aplicaciones y mtodos. 1a ed. Mxico: Mc Graw-Hill. p. 443-502.

    Gujarati D. 1997. Econometra. 3a ed.Colombia: Mc Graw Hill. Captulos 1, 2 y 3.Polit D, Hungler B, eds. 2000. Procedimientos estadsticos multivariados. En:

    Investigacin Cientfica en Ciencias de la Salud. 6a ed. Mxico: Mc GrawHill. p. 485 520.

    Taucher E. 1997. Bioestadstica. 1a ed. Santiago, Chile: Editorial Universitaria.Captulos 21 y 22.

    REFERENCIAS