Download - CORRELACION Y REGRESION LINEAL: Introducción
Correlación lineal de Pearson. Medida de la estrechez de la
asociación entre dos variables cuantitativas.
Asociación: fluctuación en conjunto de dos variables
Correlación lineal de Pearson: Muchas veces en que se dispone de
datos en pares, se desea conocer si ambas variables está relacionadas o son independientes
Considere los siguientes datos: Valores de pluviometría para once localidades a
diferente altura sobre el nivel del mar:4 1162 6345 844 4306 1008 5737 956 4388 825 4749 899 40910 801 50411 1186 708
Gráfico de la asociación
300
350
400
450
500
550
600
650
700
750
700 800 900 1000 1100 1200 1300
altura sobre el nivel del mar (mts)
plu
vio
me
tría
(m
m)
Promedio de X= 959.2 mts
Promedio de Y= 530 mts
COVARIANZA: Medida de la variación en conjunto de dos variables:
yi
n
jxjXY yx
n
1)( 1
1cov
1cov )(
nn
YXYX ij
ii
XY
CONCEPTO:
FORMULA DE CALCULO:
Donde n es el número de pares de valores X Y
En el ejemplo:
42.1307910
11582910551
16380
XYCOV
Atención! La función COVAR de Excel divide por n...
Covarianza en el ejemplo: Cov(XY)= 13.079,41
El signo positivo indica que valores por sobre el promedio de X tienden a estar asociados con valores por sobre el promedio de Y
Valores negativos indican que valores por sobre el promedio de X tienden a estar asociados con valores por debajo del promedio de Y
Estandarización de la medición Pearson, matemático Inglés,
desarrolló un índice, que divide la covarianza por el producto de las desviaciones estándares de X y de Y
YX
XYCovrho
)()(
YX
XY
ss
Covr )(
En la población En la muestra
Correlación lineal de Pearson: El índice r, fluctúa entre –1 y +1 Si la fluctuación en conjunto es
estrecha, el valor de r se acerca a –1 o +1.
Si la fluctuación en conjunto es baja, el valor de r se acerca a cero.
Es la correlación observada diferente de cero? (H0??)
11 2
Nr
rt
XY
XY
11 2
Nr
rz
XY
XY
N< 30 N> 30
N es la cantidad de pares XY
Es la correlación observada diferente de cero, en el ejemplo?
25.5163.0856.0
10733.01
856.0
t
t
t
En la tabla de t,con alfa= 0.05 (dos colas)y 10 grados de libertad(n-1), el valor críticoes 2.22
Por lo tanto se puederechazar H0 respectodel valor poblacional derho:Hay una asociación significativaentre la altura sobre el nivel delmar y la cantidad de precipitación(P<0.05) (en la población)
0.01
0.959
0.0014 0.9 0.95 0.99 0.999
N 0.1 0.05
0.875
0.9916 0.729 0.811 0.917 0.9745 0.805 0.878
0.798
0.9518 0.621 0.707 0.834 0.9257 0.669 0.754
0.735
0.89810 0.549 0.632 0.765 0.8729 0.582 0.666
0.684
0.84712 0.497 0.576 0.708 0.82311 0.521 0.602
0.641
0.80114 0.458 0.532 0.661 0.7813 0.476 0.553
0.606
0.7616 0.426 0.497 0.623 0.74215 0.441 0.514
0.575
0.72518 0.4 0.468 0.59 0.70817 0.412 0.482
0.549
0.69320 0.378 0.444 0.561 0.67919 0.389 0.456
0.526
0.66522 0.36 0.423 0.537 0.65221 0.369 0.433
0.505
0.6424 0.344 0.404 0.515 0.62923 0.352 0.413
0.487
0.61826 0.33 0.388 0.496 0.60725 0.337 0.396
0.471
0.59728 0.317 0.374 0.479 0.58827 0.323 0.381
0.43
0.57930 0.306 0.361 0.463 0.5729 0.311 0.367
0.38
0.53240 0.264 0.312 0.403 0.50135 0.283 0.334
0.33
0.47450 0.235 0.279 0.361 0.45145 0.248 0.294
0.286
0.41470 0.198 0.235 0.306 0.38560 0.214 0.254
0.256
0.36190 0.174 0.207 0.27 0.34180 0.185 0.22
0.324100 0.165 0.197
alfa
Otra opción es compararel valor de r calculadocon el valor de r de la tablaadjunta.Si el valor de r calculadoes mayor que el r delnúmero de grados delibertad de la correlación
(n-1)=10
valor crítico= 0.632
Transformación de Fisher del coeficiente de correlación
rr
zrxy 11
ln5.0
Z tiene distribución aproximadamente normal, conmedia y error estándar:
5.0)3(1
N
ee
Intervalo de confianza del coeficiente de correlación
3-N1
)( colas dos Pzzrxy
Para obtener el intervalo de confianza en “unidadesde correlación” se transforman de modo inverso usandoel mismo método de r a z
En INTERNET:http://faculty.vassar.edu/lowry/rho.html?
Intervalo de confianza en el ejemplo:
653.0275.1
1111.096.1275.1
3-111
96.1275.1
Según la página de Internet, el intervalo deconfianza de 95% para r=0.856límite inferior=0.527límite superior=0.961
Comparación de coeficientes de correlación
31
31
21
21
nn
zzz rxyrxy
Se utilizan los coeficientes transformados
Correlación entre las líneas eléctricas y el cáncer Epidemiólogos del Instituto
Karolinska de Suecia investigaron durante 25 años a 500.000 personas que vivían a menos de 300 metros de una línea eléctrica de alto voltaje.
Observaron que los niños tenían mayor incidencia de leucemia.
Correlación entre las líneas eléctricas y el cáncer Los hallazgos descritos obligaron al
gobierno sueco a considerar reglamentos que reducirían la construcción de casas cercanas a las líneas eléctricas de alto voltaje.
Correlación entre las líneas eléctricas y el cáncer En un artículo acerca del estudio, la
revista Time informó que “aunque las investigaciones no demuestran una relación de causa y efecto, sí indican una inequívoca correlación entre el grado de exposición y el riesgo de leucemia infantil”.
Errores comunes respecto a la correlación Se debe tener cuidado de evitar
concluir que la correlación implica causalidad Variables ocultas
No utilizar tasas o promedios Pérdida de variación entre individuos
Supuesto de linearidad de la relación
Correlación y regresión lineal: Si existe una conexión biológica (o
de otro tipo) entre las variables X e Y, entonces puede formularse un modelo lineal que represente esta asociación.
El modelo se basa en la covarianza y en su forma más sencilla es una línea recta (Y= a + bX)
Ejemplo: Rendimiento promedio de plantas de soya (gr/planta) obtenidos en respuesta a los niveles indicados de exposición al ozono en la la fase de crecimiento.
X Yozono (ppm) rendimiento (gr/pl)
0.02 242 0.07 237 0.11 231 0.15 201
Xi= 0.35 Yi= 911 X= 0.0875 Y= 227.75X2
i= 0.0399 Y2i= 208495
XiYi= 76.99
MODELO
Asumiendo una relación lineal entre el rendimiento y el nivel del ozono, el modelo establece que la media verdadera de la variable dependiente cambia a una tasa constante en la medida que la variable dependiente aumenta o disminuye.
La relación funcional entre la media verdadera de Yi, E(Yi) y Xi es la ecuación de la línea recta:
MODELO
Donde = intercepto (valor de E(Y)cuando X es
igual a cero = pendiente de la línea (tasa de cambio
de E(Y) ante un cambio unitario en X.
)()( ii XYE
SUPUESTOS
Las observaciones de la variable dependiente Yi se asumen como observaciones aleatorias tomadas de poblaciones de variables aleatorias donde la media de cada población está dada por E(Yi).
La desviación de una observación Yi desde la media de su población, E(Yi) se considera añadiendo un término de error aleatorio i para dar el siguiente modelo:
SUPUESTOS
El subíndice indica cada unidad de observación en particular, i= 1, 2, …n. Los Xi son las n ésimas observaciones de la variable dependiente, que se supone son tomadas sin error.
Es decir, son constantes conocidas; los Yi y los Xi son observaciones pareadas, tomadas en cada unidad observacional.
iii XY
Rendimiento de soya frente a diferentes concentraciones de ozono
170
180
190
200
210
220
230
240
250
0 0.05 0.1 0.15 0.2
concentración de ozono (ppm)
ren
dim
ien
to s
oya
(g
r/p
lan
ta)
ESTIMACION DE MINIMOS CUADRADOS
Los parámetros en el modelo son y , a ser estimados desde los datos (muestra). Si no existiese error aleatorio en Yi, cualquier par de puntos podría ser utilizado para resolver los valores de los parámetros.
La variación aleatoria de Y, sin embargo, hace que cada par de valores de resultados diferentes (Todos los estimadores serían idénticos sólo si los datos observados cayeran exactamente sobre una línea recta.)
ESTIMACION DE MINIMOS CUADRADOS
Por lo tanto, el método de resolución debe combinar toda la información para dar una sola solución que sea la “mejor” en base a algún
criterio. El procedimiento de estimación de mínimos
cuadrados utiliza el criterio de que la solución debe dar la suma más pequeña posible para las desviaciones al cuadrado desde los valores observados de Yi hasta sus medias verdaderas dadas por la solución.
ESTIMACION DE MINIMOS CUADRADOS
Sean b y a los estimadores numéricos de los parámetros y , respectivamente, y sea
el promedio estimado de Y para cada Xi, i= 1, 2,…, n.
Se debe observar que Yi es obtenida sustituyendo los parámetros en la forma funcional del modelo que relaciona E(Yi) con Xi, dado por la ecuación de la recta.
ii bXaY ˆ
El principio de los mínimos cuadrados escoge valores de a y bque minimizan la suma de cuadrados de los residuales, SC(Res):
Donde es el valor residual observado para la iésima observación. La suma indicada por es sobre todos losvalores del conjunto como lo indican los índices i= 1 hasta n
Los estimadores de b y a se obtienen usando cálculo para encontrar los valores que minimizan SC(Res). Las derivadas deSC(Res) con respecto a b y a son definidas iguales a cero.
2)(
1
2)( )ˆ(
iRES
n
iiiRES
eSC
YYSC
)ˆ( iii YYe
Las ecuaciones normales son:
n(a) + (Xi)b= Yi
(Xi)a + (X2i)b= XiYi
Resolviendo las ecuaciones simultáneamente para a y b, da losestimadores para y :
(Xi-X)(Yi-Y) xiyi
b= = (Xi-X)2 x2
i
a= Y - bX
Para facilidad de cálculo:
(Xi)2
x2i= X2
i - n (Xi)(Yi)xiyi= XiYi - n
Lo que da la siguiente fórmula de cálculo para la pendiente:
n
XX
n
YXYX
bi
i
iiii
22 )(
))((
Cálculo de la pendiente (b)
X Yozono (ppm) rendimiento (gr/pl)
0.02 242 0.07 237 0.11 231 0.15 201
0399.0
0875.0
35.0
2i
i
X
X
X
208495
75.227
911
2i
i
Y
Y
Y
99.76iiYX
53.293
4)35.0(
0399.0
4)911)(35.0(
99.76
2
b
n
XX
n
YXYX
bi
i
iiii
22 )(
))((