correlación y regresión en estadistica
DESCRIPTION
Teoría de este capituloTRANSCRIPT
-
1
Introduccin En diversos problemas vinculados con el anlisis de la informacin es importante estudiar las relaciones que puedan existir entre dos o ms variables. Preguntas como: las personas con mayor poder adquisitivo tienen mayor grado de educacin? o las empresas familiares pagan mejor a sus empleados? estn referidas a las relaciones que podran existir entre las variables "poder adquisitivo" y "educacin" o "tipo de empresa" y "sueldo". Las relaciones entre variables pueden explorarse algunas veces usando grficos adecuados, pero tambin existen medidas que indican no solo la existencia de la relacin sino tambin la fuerza de esta. A estas medidas se les llama medidas de correlacin cuando las variables en estudio son numricas u ordinales y medidas de asociacin si las variables son nominales.
El ndice de correlacin de Pearson
Al colocar en el eje X las edades de un grupo de pacientes de un hospital y en el eje Y, el nmero de das que cada uno de ellos ha necesitado para recuperarse despus de una determinada operacin, se obtiene el siguiente diagrama de dispersin.
Ntese que a mayor edad del paciente acompaa mayor nmero de das necesarios para recuperarse. Podemos decir que las variables edad y estada covaran de manera positiva. Si ocurriera que a mayor edad es menor la estada se dice que ambas variables covaran de manera negativa.
Para confirmar si dos variables cuantitativas covaran o no, se usa un ndice que se llama covarianza.
Si se tienen los pares de valores (x1, y1),, (xn, yn) de las variables X e Y, la covarianza entre estos valores se define como:
YXn
yx
S)y,x(C
n
1iii
xy
La covarianza es el promedio de todos los productos de las desviaciones de las variables respecto de sus medias, e indica la relacin lineal que entre ellas puede existir.
Sin embargo, esta medida no indica la fuerza de la relacin que pueda existir entre las variables. Un valor positivo muy grande o muy pequeo puede deberse simplemente a las unidades de medicin y no a que exista mayor o menor grado de la relacin. Se necesita, por tanto, una medida que, siendo acotada, no tenga en cuenta las unidades de medicin. El artificio, ya utilizado, para obtener la medida adecuada consiste en expresar la covarianza en unidades de desviacin estndar. As se obtiene el ndice de correlacin lineal de Pearson como
ESTADSTICA CORRELACIN Y REGRESIN
-
2
medida para medir la fuerza de la relacin entre dos variables numricas.
El ndice de correlacin lineal de Pearson o simplemente ndice de correlacin se define como:
yxxy
ss
)y;x(Cr
El ndice de correlacin mide la fuerza de la relacin lineal entre dos variables. Un ndice de correlacin alto indica que una lnea recta ajusta bien a la nube de puntos.
Un ndice de correlacin cercano a 0 indica ausencia de relacin lineal.
En general se cumplen las siguientes propiedades, que se pueden demostrar:
a) El ndice r est entre 1 y 1.
b) Si el ndice de correlacin es igual a 0, no existe relacin lineal; sin embargo, puede existir una relacin no lineal (cuadrtica, cbica o ms complicada).
c) Si r tiende a 1 o a 1, los puntos tienden a estar ms alineados. Cuando r es igual a 1 o a 1, los puntos estn perfectamente alineados.
Para ver el grado de dependencia debemos considerar r2, el cual se denomina coeficiente de determinacin
La recta de regresin de mnimos cuadrados
Ahora la idea es expresar mediante una relacin matemtica la relacin lineal que podra existir entre los valores de X e Y. El modelo de regresin lineal, que se desarrolla ms adelante, ser la ayuda ms importante para este propsito. Por ahora hallaremos la recta que mejor ajusta a la nube de puntos y que formar parte del modelo. Esta recta se llama recta de mnimos cuadrados o de regresin de Y en X, y se determina a partir de los pares (x1, y1) (x2, y2),, (xn, yn) de X e Y usando el mtodo de mnimos cuadrados. La ecuacin de la recta de mejor ajuste es de la forma: y = a + bx siendo a y b los coeficientes que se determinan de tal manera que la suma:
n
1i
2ii )]bxa(y[SCD
sea mnima
La resolucin y uso de la condicin permite escribir la recta como:
)Xx()x(V
)y,x(CYy
Ejemplo. A continuacin, en la tabla se presentan: los ingresos (X) y los egresos (Y) de cinco familias. Si una familia percibe 300, qu nivel de egresos se puede esperar?
Ingresos 150 180 150 200 250
Egresos 120 170 140 170 200