2. correlación y regresión lineal

10
Vázquez, H. 2009 | 2.1. Introducción 1 2. Correlación y Regresión Lineal 2.1. Introducción 2.2. Análisis de Correlación Lineal 2.2.1. Diagrama de Dispersión 2.2.2. Tipos de Relación 2.2.3. Coeficiente de Correlación Lineal (r) 2.2.4. Coeficiente de Determinación (R 2 ) 2.3. Análisis de Regresión Lineal 2.3.1. Ecuación de la Recta de Regresión Simple 2.4. Ejercicios 2.4.1. Resueltos 2.4.2. Propuestos

Upload: heriberto-vazquez-serna

Post on 23-Mar-2016

242 views

Category:

Documents


2 download

DESCRIPTION

2. Correlación y Regresión lineal

TRANSCRIPT

Page 1: 2. Correlación y Regresión lineal

Vázquez, H. 2009 | 2.1. Introducción 1

2. Correlación y Regresión Lineal

2.1. Introducción

2.2. Análisis de Correlación Lineal

2.2.1. Diagrama de Dispersión

2.2.2. Tipos de Relación

2.2.3. Coeficiente de Correlación Lineal (r)

2.2.4. Coeficiente de Determinación (R2)

2.3. Análisis de Regresión Lineal

2.3.1. Ecuación de la Recta de Regresión Simple

2.4. Ejercicios

2.4.1. Resueltos

2.4.2. Propuestos

Page 2: 2. Correlación y Regresión lineal

Vázquez, H. 2009 | 2.1. Introducción 2

2.1. Introducción

El análisis de correlación lineal se refiere a medir la fuerza con la que dos variables

están relacionadas y en consecuencia el análisis de regresión lineal a la

determinación de un modelo matemático ó función que se puede usar para

pronosticar ó determinar una variable por medio de la otra variable. el modelo más

elemental de regresión se denomina regresión simple, que es regresión lineal

bivariada, lo que significa que comprende sólo dos variables. La que se pronostica

es la variable dependiente y se designa como y, por otra parte, la que sirve para

pronosticar es la variable independiente ó explicativa, y se designa como x.

2.2. Análisis de Correlación Lineal

Este análisis consiste en medir la intensidad con la que dos variables están

relacionadas a través de dos coeficientes: el coeficiente de correlación lineal (r) y

el coeficiente de determinación (R2).

2.2.1. Diagrama de Dispersión

Por lo general, el primer paso en el análisis de correlación y regresión lineal simple

es construir un diagrama de dispersión que es una gráfica en dos dimensiones

donde los pares de puntos (x,y) son las dos variables por considerar.

En este diagrama se busca si los puntos graficados tienden a cierto

comportamiento, donde se muestra si existe ó no relación y de que tipo entre las

dos variables.

En los siguientes ejemplos podemos observar la relación que existe entre las

variables, en estos casos hablamos de:

Si a medida que crece x no hay un cambio definido de y, se dice que no hay

correlación, o relación entre x y y.

Si a medida que crece x, hay un cambio definido en los valores de y, hay

correlación:

o La correlación es positiva cuando y tiende a crecer cuando los

valores de x también crecen

o La correlación es negativa cuando y tiende a decrecer cuando los

valores de x crecen.

Page 3: 2. Correlación y Regresión lineal

Vázquez, H. 2009 | 2.2. Análisis de Correlación Lineal 3

Si los pares ordenados (x,y) tienden a seguir un patrón de línea recta, se

tiene una correlación lineal. La precisión del cambio en y cuando crece x,

determina la intensidad de la correlación lineal.

La correlación lineal perfecta ocurre cuando todos los puntos están exactamente

sobre una línea recta, como se observa en la siguiente figura, esta correlación

puede ser positiva o negativa. Si los datos forman una línea horizontal o vertical, no

hay correlación, ya que una variable no afecta a la otra.

2.2.2. Coeficiente de Correlación (r)

O coeficiente de correlación de Pearson, nombre que recibe en honor de su creador

Karl Pearson (1857-19369), es una medida que nos sirve para describir que tan

fuerte es la relación entre las dos variables. Es un número que varía de -1 a 1. Un

valor de r de +1 denota una correlación positiva perfecta (relación directa), y en

consecuencia un valor de r de -1 denota una correlación negativa perfecta (relación

inversa), y un valor de r = 0 indica que no hay correlación entre las variables.

Page 4: 2. Correlación y Regresión lineal

Vázquez, H. 2009 | 2.2. Análisis de Correlación Lineal 4

El método que se emplea para el cálculo del coeficiente es el Método de Mínimos

Cuadrados, y la fórmula es:

n

YY

n

XX

n

YXXY

r2

2

2

2

La fórmula es un poco tediosa por el cálculo de todas las sumatorias de los datos,

pero el objetivo principal de este curso es que este coeficiente se calcule a través

de una calculadora científica.

El rango sugerido para determinar la intensidad con que dos variables están

relacionadas es:

Coeficiente de Correlación r

0 0<r<±0.4 ±0.4<r<±0.7 ±0.7<r<±1 ±1

No hay

correlación

Baja

Correlación

Moderada

Correlación

Fuerte

Correlación

Correlación

Perfecta

2.2.3 Coeficiente de Determinación (R2)

El coeficiente R2 mide la proporción de variabilidad de la variable dependiente (y)

considerada o explicada por la variable independiente (x).

El coeficiente de determinación R2 va entre 0 y 1. Un R2=0 significa que el

pronosticador no considera una variabilidad de la variable dependiente y que no

hay predicción de regresión de y por x. un R2 =1 indica una predicción perfecta. El

investigador debe interpretar si un coeficiente de determinación R2 particular es

alto o bajo, dependiendo del modelo y el contexto dentro del cual se creó el

modelo.

Para el caso del análisis de correlación y regresión simple, el valor de R2, no es más

que el cuadrado del coeficiente de correlación r, es importante considerar que para

el caso de un modelo múltiple (más de dos variables) el criterio para su cálculo es

diferente.

22 rR

El valor de R2 se interpreta en forma porcentual.

Page 5: 2. Correlación y Regresión lineal

Vázquez, H. 2009 | 2.3 Análisis de Regresión 5

2.3 Análisis de Regresión

El análisis de regresión se refiere a determinar el modelo matemático lineal que

mejor se adapta al comportamiento de los datos, dicho en otras palabras, es

calcular la ecuación lineal que mejor se ajusta a los datos.

2.3.1. Ecuación de la Recta de Regresión Simple

El primer paso para determinar la ecuación de la recta de regresión que pasa por

los datos de la muestra es establecer la forma de la ecuación. En este análisis se

emplea la recta de la forma: pendiente y ordenada en el origen, en matemáticas su

forma es:

origenalordenadab

rectaladependientem

donde

bmxY

:

En estadística, la forma de la ecuación de la recta que pasa por los puntos

poblacionales es:

lpoblacionapendiente

lpoblacionaordenada

ydedopronosticavalory

donde

xy

o

o

1

1

ˆ

:

ˆ

Para calcular los coeficientes de la ecuación, se emplea también el Método de

Mínimos Cuadrados, por lo que las fórmulas se calculan de la siguiente manera:

n

X

n

Y

n

XX

n

YXXY

donde

xy

o

o

1

2

2

1

1

:

ˆ

Al igual que el coeficiente de correlación, también estos coeficientes se pueden

determinar con una calculadora científica.

Page 6: 2. Correlación y Regresión lineal

Vázquez, H. 2009 | 2.4. Ejercicios 6

2.4. Ejercicios

2.2.4.1 Ejercicios Resueltos

1. Un especialista en administración de hospitales dice que el número de

empleados de tiempo completo (ETC),de un hospital, se puede estimar al

contar el número de camas en el hospital (una medida común del tamaño de

un hospital).

N° de camas N° de empleados (ETC)

23 69

29 95

29 102

35 118

42 126

46 125

50 138

54 178

64 156

66 184

76 176

78 225

a) Realiza un diagrama de dispersión y que observas en cuanto al

comportamiento de los datos?

b) Calcula los coeficientes de correlación y de determinación.

c) Determina la ecuación de la recta de mejor ajuste

d) Si un hospital que se está construyendo, se planea que tenga 70 camas, de

cuantos empleados tendría que disponer?

e) Si un hospital cuenta con 90 empleados, cuantas camas estimas que tenga?

Solución:

a) para la solución de este inciso nos apoyamos en Excel, (insertando un gráfico

de dispersión, seleccionando las celdas con títulos de los datos)

Page 7: 2. Correlación y Regresión lineal

Vázquez, H. 2009 | 2.4. Ejercicios 7

Del gráfico podemos concluir que hay una alta correlación positiva, dado que los

puntos tienden a una línea recta con pendiente positiva o ascendente, esto

indica que mientras aumente el número de camas, también aumentará el

número de empleados de tiempo completo

Excel, como función adicional también puede graficar esa recta de tendencia:

b) Para el cálculo de todos los coeficientes nos apoyamos en una calculadora

científica que trabaje con datos bivariados (x,y)

c) Como ejemplo trabajamos con la calculadora que se muestra a continuación:

Esta calculadora puede trabajar en 3 modos distintos:

Oprimiendo la tecla

Aparece en pantalla, y

trabajaremos con el modo

REG (modo de regresión)

oprimiendo la opción 3

Y posteriormente la opción

1, que es regresión Lineal.

La forma en que se ingresarán los datos será como sigue:

Se capturarán por pares de datos (x,y):

23 69 todos y cada uno de los pares de datos,

Page 8: 2. Correlación y Regresión lineal

Vázquez, H. 2009 | 2.4. Ejercicios 8

Y después de haber capturado todos los datos, se oprime la tecla

Para obtener los resultados se procede a entrar a la opción “S-VAR”, por lo que

se tendrán que oprimir las teclas:

y en la pantalla aparecerá

Posteriormente se oprimirá

La tecla

hasta que aparezcan las

opciones:

que representan los coeficientes buscados de la ecuación :

BxAy

donde

xy o

ˆ

:

ˆ 1

Entonces los resultados de la calculadora son:

A = 30.912

B = 2.231

r = 0.9415

de donde podemos concluir que:

como r = 0.9415, los datos tienen una alta correlación positiva

R2 = 0.8864,de donde se desprende que el 88.64% del

número de empleados está explicado por el número de camas

de un hospital.

Y de los valores de A y B, la ecuación de la recta de mejor

ajuste queda como:

xy

BxAy

231.2912.30ˆ

ˆ

De donde, el valor de la pendiente nos muestra que por cada

cama que aumente un hospital, aumentará 2.231 empleados

de tiempo completo.

Page 9: 2. Correlación y Regresión lineal

Vázquez, H. 2009 | 2.4. Ejercicios 9

d) Si un hospital que se está construyendo, se planea que tenga 70 camas, de

cuantos empleados tendría que disponer?

Como x=70 y nos interesa calcular y, entonces:

En la calculadora se Ingresa 70 y buscamos la opción

Y con buscamos la opción yx ˆˆ , y se elige la opción 2 “ y ”, obteniendo

como resultado:

12.187ˆ y que indica que si un hospital se planea con 70 camas, tendría que

considerar una plantilla de 187 trabajadores de tiempo completo.

e)Si un hospital cuenta con 90 empleados, cuantas camas estimas que tenga?

Siguiendo el procedimiento del inciso anterior pero intercambiando variables

tenemos que:

Como y=90 y nos interesa conocer x,

Entonces 48.26ˆ x , nos muestra que el hospital que tiene 90 empleados tiene

aproximadamente 27 camas.

2.2.4.2 Ejercicios Propuestos

1. El gerente de de una compañía de seguros desea establecer la relación entre el

seguro de vida de las personas y sus salarios. Para poder establecer dicha

relación tiene la siguiente información.

Seguro de vida en vigor

(miles de dólares)

Salario anual

(miles de dólares)

80

100

130

150

200

300

300

350

29

30

31

40

40

29

50

127

a) ¿Qué tipo de relación tienen las variables? ¿Con que fuerza? Justifica

b) Realiza un diagrama de dispersión e interprétalo

c) Obtén la ecuación de la recta de regresión de mejor ajuste e interprétala.

d) Si un asegurado percibe un salario anual de $75000, ¿de cuanto será su

seguro de vida?

e) Si un asegurado tiene un seguro de vida de $23000, ¿Cuánto de debe de

ganar anualmente?

Page 10: 2. Correlación y Regresión lineal

Vázquez, H. 2009 | 2.4. Ejercicios 10

2. En un gran campus universitario se llevó a cabo una encuesta. Se entrevisto a

24 estudiantes. Dos preguntas eran: “ ¿Cuántas horas por semana está usted

empleado?” y “ ¿en cuantas horas usted está inscrito actualmente?”

Hrs Empleado 20 40 35 15 40 20 20 0 20 40 10 20

Hrs Crédito 6 3 6 9 6 6 3 15 6 9 9 3

a) ¿Qué tipo de relación tienen las variables? ¿Con que fuerza? Justifica.

b) Obtén la ecuación de la recta de regresión de mejor ajuste e interprétala.

c) Si un empleado tiene 53 hrs. Empleado, ¿Cuántas hrs. crédito debe tener?

d) Si un empleado tiene 13 hrs. crédito ¿Cuántas hrs. empleado debe tener?

3. En el articulo “Fast-Food Fat Counts Full os Surprises” , se compara el

contenido de calorías y grasas de algunos d esos alimentos conocidos de

comida rápida.

Calorías 270 420 210 450 130 310 290 450 446 640 233

Grasas 9 20 10 22 6 25 7 20 20 38 11

a) Calcula el coeficiente de correlación e interprételo.

b) Obtener la ecuación de la recta de regresión e interprétela.