Download - 2. Correlación y Regresión lineal
Vázquez, H. 2009 | 2.1. Introducción 1
2. Correlación y Regresión Lineal
2.1. Introducción
2.2. Análisis de Correlación Lineal
2.2.1. Diagrama de Dispersión
2.2.2. Tipos de Relación
2.2.3. Coeficiente de Correlación Lineal (r)
2.2.4. Coeficiente de Determinación (R2)
2.3. Análisis de Regresión Lineal
2.3.1. Ecuación de la Recta de Regresión Simple
2.4. Ejercicios
2.4.1. Resueltos
2.4.2. Propuestos
Vázquez, H. 2009 | 2.1. Introducción 2
2.1. Introducción
El análisis de correlación lineal se refiere a medir la fuerza con la que dos variables
están relacionadas y en consecuencia el análisis de regresión lineal a la
determinación de un modelo matemático ó función que se puede usar para
pronosticar ó determinar una variable por medio de la otra variable. el modelo más
elemental de regresión se denomina regresión simple, que es regresión lineal
bivariada, lo que significa que comprende sólo dos variables. La que se pronostica
es la variable dependiente y se designa como y, por otra parte, la que sirve para
pronosticar es la variable independiente ó explicativa, y se designa como x.
2.2. Análisis de Correlación Lineal
Este análisis consiste en medir la intensidad con la que dos variables están
relacionadas a través de dos coeficientes: el coeficiente de correlación lineal (r) y
el coeficiente de determinación (R2).
2.2.1. Diagrama de Dispersión
Por lo general, el primer paso en el análisis de correlación y regresión lineal simple
es construir un diagrama de dispersión que es una gráfica en dos dimensiones
donde los pares de puntos (x,y) son las dos variables por considerar.
En este diagrama se busca si los puntos graficados tienden a cierto
comportamiento, donde se muestra si existe ó no relación y de que tipo entre las
dos variables.
En los siguientes ejemplos podemos observar la relación que existe entre las
variables, en estos casos hablamos de:
Si a medida que crece x no hay un cambio definido de y, se dice que no hay
correlación, o relación entre x y y.
Si a medida que crece x, hay un cambio definido en los valores de y, hay
correlación:
o La correlación es positiva cuando y tiende a crecer cuando los
valores de x también crecen
o La correlación es negativa cuando y tiende a decrecer cuando los
valores de x crecen.
Vázquez, H. 2009 | 2.2. Análisis de Correlación Lineal 3
Si los pares ordenados (x,y) tienden a seguir un patrón de línea recta, se
tiene una correlación lineal. La precisión del cambio en y cuando crece x,
determina la intensidad de la correlación lineal.
La correlación lineal perfecta ocurre cuando todos los puntos están exactamente
sobre una línea recta, como se observa en la siguiente figura, esta correlación
puede ser positiva o negativa. Si los datos forman una línea horizontal o vertical, no
hay correlación, ya que una variable no afecta a la otra.
2.2.2. Coeficiente de Correlación (r)
O coeficiente de correlación de Pearson, nombre que recibe en honor de su creador
Karl Pearson (1857-19369), es una medida que nos sirve para describir que tan
fuerte es la relación entre las dos variables. Es un número que varía de -1 a 1. Un
valor de r de +1 denota una correlación positiva perfecta (relación directa), y en
consecuencia un valor de r de -1 denota una correlación negativa perfecta (relación
inversa), y un valor de r = 0 indica que no hay correlación entre las variables.
Vázquez, H. 2009 | 2.2. Análisis de Correlación Lineal 4
El método que se emplea para el cálculo del coeficiente es el Método de Mínimos
Cuadrados, y la fórmula es:
n
YY
n
XX
n
YXXY
r2
2
2
2
La fórmula es un poco tediosa por el cálculo de todas las sumatorias de los datos,
pero el objetivo principal de este curso es que este coeficiente se calcule a través
de una calculadora científica.
El rango sugerido para determinar la intensidad con que dos variables están
relacionadas es:
Coeficiente de Correlación r
0 0<r<±0.4 ±0.4<r<±0.7 ±0.7<r<±1 ±1
No hay
correlación
Baja
Correlación
Moderada
Correlación
Fuerte
Correlación
Correlación
Perfecta
2.2.3 Coeficiente de Determinación (R2)
El coeficiente R2 mide la proporción de variabilidad de la variable dependiente (y)
considerada o explicada por la variable independiente (x).
El coeficiente de determinación R2 va entre 0 y 1. Un R2=0 significa que el
pronosticador no considera una variabilidad de la variable dependiente y que no
hay predicción de regresión de y por x. un R2 =1 indica una predicción perfecta. El
investigador debe interpretar si un coeficiente de determinación R2 particular es
alto o bajo, dependiendo del modelo y el contexto dentro del cual se creó el
modelo.
Para el caso del análisis de correlación y regresión simple, el valor de R2, no es más
que el cuadrado del coeficiente de correlación r, es importante considerar que para
el caso de un modelo múltiple (más de dos variables) el criterio para su cálculo es
diferente.
22 rR
El valor de R2 se interpreta en forma porcentual.
Vázquez, H. 2009 | 2.3 Análisis de Regresión 5
2.3 Análisis de Regresión
El análisis de regresión se refiere a determinar el modelo matemático lineal que
mejor se adapta al comportamiento de los datos, dicho en otras palabras, es
calcular la ecuación lineal que mejor se ajusta a los datos.
2.3.1. Ecuación de la Recta de Regresión Simple
El primer paso para determinar la ecuación de la recta de regresión que pasa por
los datos de la muestra es establecer la forma de la ecuación. En este análisis se
emplea la recta de la forma: pendiente y ordenada en el origen, en matemáticas su
forma es:
origenalordenadab
rectaladependientem
donde
bmxY
:
En estadística, la forma de la ecuación de la recta que pasa por los puntos
poblacionales es:
lpoblacionapendiente
lpoblacionaordenada
ydedopronosticavalory
donde
xy
o
o
1
1
ˆ
:
ˆ
Para calcular los coeficientes de la ecuación, se emplea también el Método de
Mínimos Cuadrados, por lo que las fórmulas se calculan de la siguiente manera:
n
X
n
Y
n
XX
n
YXXY
donde
xy
o
o
1
2
2
1
1
:
ˆ
Al igual que el coeficiente de correlación, también estos coeficientes se pueden
determinar con una calculadora científica.
Vázquez, H. 2009 | 2.4. Ejercicios 6
2.4. Ejercicios
2.2.4.1 Ejercicios Resueltos
1. Un especialista en administración de hospitales dice que el número de
empleados de tiempo completo (ETC),de un hospital, se puede estimar al
contar el número de camas en el hospital (una medida común del tamaño de
un hospital).
N° de camas N° de empleados (ETC)
23 69
29 95
29 102
35 118
42 126
46 125
50 138
54 178
64 156
66 184
76 176
78 225
a) Realiza un diagrama de dispersión y que observas en cuanto al
comportamiento de los datos?
b) Calcula los coeficientes de correlación y de determinación.
c) Determina la ecuación de la recta de mejor ajuste
d) Si un hospital que se está construyendo, se planea que tenga 70 camas, de
cuantos empleados tendría que disponer?
e) Si un hospital cuenta con 90 empleados, cuantas camas estimas que tenga?
Solución:
a) para la solución de este inciso nos apoyamos en Excel, (insertando un gráfico
de dispersión, seleccionando las celdas con títulos de los datos)
Vázquez, H. 2009 | 2.4. Ejercicios 7
Del gráfico podemos concluir que hay una alta correlación positiva, dado que los
puntos tienden a una línea recta con pendiente positiva o ascendente, esto
indica que mientras aumente el número de camas, también aumentará el
número de empleados de tiempo completo
Excel, como función adicional también puede graficar esa recta de tendencia:
b) Para el cálculo de todos los coeficientes nos apoyamos en una calculadora
científica que trabaje con datos bivariados (x,y)
c) Como ejemplo trabajamos con la calculadora que se muestra a continuación:
Esta calculadora puede trabajar en 3 modos distintos:
Oprimiendo la tecla
Aparece en pantalla, y
trabajaremos con el modo
REG (modo de regresión)
oprimiendo la opción 3
Y posteriormente la opción
1, que es regresión Lineal.
La forma en que se ingresarán los datos será como sigue:
Se capturarán por pares de datos (x,y):
23 69 todos y cada uno de los pares de datos,
Vázquez, H. 2009 | 2.4. Ejercicios 8
Y después de haber capturado todos los datos, se oprime la tecla
Para obtener los resultados se procede a entrar a la opción “S-VAR”, por lo que
se tendrán que oprimir las teclas:
y en la pantalla aparecerá
Posteriormente se oprimirá
La tecla
hasta que aparezcan las
opciones:
que representan los coeficientes buscados de la ecuación :
BxAy
donde
xy o
ˆ
:
ˆ 1
Entonces los resultados de la calculadora son:
A = 30.912
B = 2.231
r = 0.9415
de donde podemos concluir que:
como r = 0.9415, los datos tienen una alta correlación positiva
R2 = 0.8864,de donde se desprende que el 88.64% del
número de empleados está explicado por el número de camas
de un hospital.
Y de los valores de A y B, la ecuación de la recta de mejor
ajuste queda como:
xy
BxAy
231.2912.30ˆ
ˆ
De donde, el valor de la pendiente nos muestra que por cada
cama que aumente un hospital, aumentará 2.231 empleados
de tiempo completo.
Vázquez, H. 2009 | 2.4. Ejercicios 9
d) Si un hospital que se está construyendo, se planea que tenga 70 camas, de
cuantos empleados tendría que disponer?
Como x=70 y nos interesa calcular y, entonces:
En la calculadora se Ingresa 70 y buscamos la opción
Y con buscamos la opción yx ˆˆ , y se elige la opción 2 “ y ”, obteniendo
como resultado:
12.187ˆ y que indica que si un hospital se planea con 70 camas, tendría que
considerar una plantilla de 187 trabajadores de tiempo completo.
e)Si un hospital cuenta con 90 empleados, cuantas camas estimas que tenga?
Siguiendo el procedimiento del inciso anterior pero intercambiando variables
tenemos que:
Como y=90 y nos interesa conocer x,
Entonces 48.26ˆ x , nos muestra que el hospital que tiene 90 empleados tiene
aproximadamente 27 camas.
2.2.4.2 Ejercicios Propuestos
1. El gerente de de una compañía de seguros desea establecer la relación entre el
seguro de vida de las personas y sus salarios. Para poder establecer dicha
relación tiene la siguiente información.
Seguro de vida en vigor
(miles de dólares)
Salario anual
(miles de dólares)
80
100
130
150
200
300
300
350
29
30
31
40
40
29
50
127
a) ¿Qué tipo de relación tienen las variables? ¿Con que fuerza? Justifica
b) Realiza un diagrama de dispersión e interprétalo
c) Obtén la ecuación de la recta de regresión de mejor ajuste e interprétala.
d) Si un asegurado percibe un salario anual de $75000, ¿de cuanto será su
seguro de vida?
e) Si un asegurado tiene un seguro de vida de $23000, ¿Cuánto de debe de
ganar anualmente?
Vázquez, H. 2009 | 2.4. Ejercicios 10
2. En un gran campus universitario se llevó a cabo una encuesta. Se entrevisto a
24 estudiantes. Dos preguntas eran: “ ¿Cuántas horas por semana está usted
empleado?” y “ ¿en cuantas horas usted está inscrito actualmente?”
Hrs Empleado 20 40 35 15 40 20 20 0 20 40 10 20
Hrs Crédito 6 3 6 9 6 6 3 15 6 9 9 3
a) ¿Qué tipo de relación tienen las variables? ¿Con que fuerza? Justifica.
b) Obtén la ecuación de la recta de regresión de mejor ajuste e interprétala.
c) Si un empleado tiene 53 hrs. Empleado, ¿Cuántas hrs. crédito debe tener?
d) Si un empleado tiene 13 hrs. crédito ¿Cuántas hrs. empleado debe tener?
3. En el articulo “Fast-Food Fat Counts Full os Surprises” , se compara el
contenido de calorías y grasas de algunos d esos alimentos conocidos de
comida rápida.
Calorías 270 420 210 450 130 310 290 450 446 640 233
Grasas 9 20 10 22 6 25 7 20 20 38 11
a) Calcula el coeficiente de correlación e interprételo.
b) Obtener la ecuación de la recta de regresión e interprétela.