correlación y regresión en estadistica

2
1 Introducción En diversos problemas vinculados con el análisis de la información es importante estudiar las relaciones que puedan existir entre dos o más variables. Preguntas como: ¿las personas con mayor poder adquisitivo tienen mayor grado de educación? o ¿las empresas familiares pagan mejor a sus empleados? están referidas a las relaciones que podrían existir entre las variables "poder adquisitivo" y "educación" o "tipo de empresa" y "sueldo". Las relaciones entre variables pueden explorarse algunas veces usando gráficos adecuados, pero también existen medidas que indican no solo la existencia de la relación sino también la fuerza de esta. A estas medidas se les llama medidas de correlación cuando las variables en estudio son numéricas u ordinales y medidas de asociación si las variables son nominales. El índice de correlación de Pearson Al colocar en el eje X las edades de un grupo de pacientes de un hospital y en el eje Y, el número de días que cada uno de ellos ha necesitado para recuperarse después de una determinada operación, se obtiene el siguiente diagrama de dispersión. Nótese que a mayor edad del paciente acompaña mayor número de días necesarios para recuperarse. Podemos decir que las variables edad y estadía covarían de manera positiva. Si ocurriera que a mayor edad es menor la estadía se dice que ambas variables covarían de manera negativa. Para confirmar si dos variables cuantitativas covarían o no, se usa un índice que se llama covarianza. Si se tienen los pares de valores (x 1 , y 1 ),…, (x n , y n ) de las variables X e Y, la covarianza entre estos valores se define como: Y X n y x S ) y , x ( C n 1 i i i xy La covarianza es el promedio de todos los productos de las desviaciones de las variables respecto de sus medias, e indica la relación lineal que entre ellas puede existir. Sin embargo, esta medida no indica la fuerza de la relación que pueda existir entre las variables. Un valor positivo muy grande o muy pequeño puede deberse simplemente a las unidades de medición y no a que exista mayor o menor grado de la relación. Se necesita, por tanto, una medida que, siendo acotada, no tenga en cuenta las unidades de medición. El artificio, ya utilizado, para obtener la medida adecuada consiste en expresar la covarianza en unidades de desviación estándar. Así se obtiene el índice de correlación lineal de Pearson como ESTADÍSTICA CORRELACIÓN Y REGRESIÓN

Upload: julio-orihuela-rivas

Post on 04-Sep-2015

9 views

Category:

Documents


2 download

DESCRIPTION

Teoría de este capitulo

TRANSCRIPT

  • 1

    Introduccin En diversos problemas vinculados con el anlisis de la informacin es importante estudiar las relaciones que puedan existir entre dos o ms variables. Preguntas como: las personas con mayor poder adquisitivo tienen mayor grado de educacin? o las empresas familiares pagan mejor a sus empleados? estn referidas a las relaciones que podran existir entre las variables "poder adquisitivo" y "educacin" o "tipo de empresa" y "sueldo". Las relaciones entre variables pueden explorarse algunas veces usando grficos adecuados, pero tambin existen medidas que indican no solo la existencia de la relacin sino tambin la fuerza de esta. A estas medidas se les llama medidas de correlacin cuando las variables en estudio son numricas u ordinales y medidas de asociacin si las variables son nominales.

    El ndice de correlacin de Pearson

    Al colocar en el eje X las edades de un grupo de pacientes de un hospital y en el eje Y, el nmero de das que cada uno de ellos ha necesitado para recuperarse despus de una determinada operacin, se obtiene el siguiente diagrama de dispersin.

    Ntese que a mayor edad del paciente acompaa mayor nmero de das necesarios para recuperarse. Podemos decir que las variables edad y estada covaran de manera positiva. Si ocurriera que a mayor edad es menor la estada se dice que ambas variables covaran de manera negativa.

    Para confirmar si dos variables cuantitativas covaran o no, se usa un ndice que se llama covarianza.

    Si se tienen los pares de valores (x1, y1),, (xn, yn) de las variables X e Y, la covarianza entre estos valores se define como:

    YXn

    yx

    S)y,x(C

    n

    1iii

    xy

    La covarianza es el promedio de todos los productos de las desviaciones de las variables respecto de sus medias, e indica la relacin lineal que entre ellas puede existir.

    Sin embargo, esta medida no indica la fuerza de la relacin que pueda existir entre las variables. Un valor positivo muy grande o muy pequeo puede deberse simplemente a las unidades de medicin y no a que exista mayor o menor grado de la relacin. Se necesita, por tanto, una medida que, siendo acotada, no tenga en cuenta las unidades de medicin. El artificio, ya utilizado, para obtener la medida adecuada consiste en expresar la covarianza en unidades de desviacin estndar. As se obtiene el ndice de correlacin lineal de Pearson como

    ESTADSTICA CORRELACIN Y REGRESIN

  • 2

    medida para medir la fuerza de la relacin entre dos variables numricas.

    El ndice de correlacin lineal de Pearson o simplemente ndice de correlacin se define como:

    yxxy

    ss

    )y;x(Cr

    El ndice de correlacin mide la fuerza de la relacin lineal entre dos variables. Un ndice de correlacin alto indica que una lnea recta ajusta bien a la nube de puntos.

    Un ndice de correlacin cercano a 0 indica ausencia de relacin lineal.

    En general se cumplen las siguientes propiedades, que se pueden demostrar:

    a) El ndice r est entre 1 y 1.

    b) Si el ndice de correlacin es igual a 0, no existe relacin lineal; sin embargo, puede existir una relacin no lineal (cuadrtica, cbica o ms complicada).

    c) Si r tiende a 1 o a 1, los puntos tienden a estar ms alineados. Cuando r es igual a 1 o a 1, los puntos estn perfectamente alineados.

    Para ver el grado de dependencia debemos considerar r2, el cual se denomina coeficiente de determinacin

    La recta de regresin de mnimos cuadrados

    Ahora la idea es expresar mediante una relacin matemtica la relacin lineal que podra existir entre los valores de X e Y. El modelo de regresin lineal, que se desarrolla ms adelante, ser la ayuda ms importante para este propsito. Por ahora hallaremos la recta que mejor ajusta a la nube de puntos y que formar parte del modelo. Esta recta se llama recta de mnimos cuadrados o de regresin de Y en X, y se determina a partir de los pares (x1, y1) (x2, y2),, (xn, yn) de X e Y usando el mtodo de mnimos cuadrados. La ecuacin de la recta de mejor ajuste es de la forma: y = a + bx siendo a y b los coeficientes que se determinan de tal manera que la suma:

    n

    1i

    2ii )]bxa(y[SCD

    sea mnima

    La resolucin y uso de la condicin permite escribir la recta como:

    )Xx()x(V

    )y,x(CYy

    Ejemplo. A continuacin, en la tabla se presentan: los ingresos (X) y los egresos (Y) de cinco familias. Si una familia percibe 300, qu nivel de egresos se puede esperar?

    Ingresos 150 180 150 200 250

    Egresos 120 170 140 170 200