regresión y correlación
TRANSCRIPT
Análisis de correlación
• El análisis de correlación es un grupo de
técnicas estadísticas usadas para medir la
fuerza de la asociación entre dos variables.
• Un diagrama de dispersión es una gráfica que
representa la relación entre dos variables.
• La variable dependiente es la variable que se
predice o calcula.
• La variable independiente proporciona las
bases para el cálculo. Es la variable de
predicción.
El coeficiente de correlación, r
El coeficiente de correlación (r) es una medida de la
intensidad de la relación lineal entre dos variables.
.
El coeficiente de correlación, r
El valor del índice de correlación varía en el intervalo [-1,1]:
• Si r = 1, existe una correlación positiva perfecta. El índice indica
una dependencia total entre las dos variables denominada
relación directa: cuando una de ellas aumenta, la otra también lo
hace en proporción constante.
• Si 0 <r< 1, existe una correlación positiva.
• Si r = 0, no existe relación lineal. Pero esto no necesariamente
implica que las variables son independientes: pueden existir
todavía relaciones no lineales entre las dos variables.
• Si -1 <r< 0, existe una correlación negativa.
• Si r = -1, existe una correlación negativa perfecta. El índice indica
una dependencia total entre las dos variables llamada relación
inversa: cuando una de ellas aumenta, la otra disminuye en
proporción constante.
Aplicación
Relación complemento nutricional y
aumento de peso
0
5
10
15
20
0.0 2.0 4.0 6.0
Complemento nutricional (Kg)
Au
men
to d
e p
eso
(Kg
)
Ejemplo 1
• Juan Escobedo, encargado de la Biblioteca de
la UCT es el encargado de estudiar el costo de
los libros de texto. Él cree que hay una relación
entre el número de páginas en el texto y el
precio de venta del libro. Para proporcionar una
prueba, selecciona una muestra de ocho libros
de texto actualmente en venta en la Librería
“Buen Libro”. Dibuje un diagrama de dispersión.
Compruebe el coeficiente de correlación.
Ejemplo 1
Libro Páginas Precio ($)
• Intr. a la Historia 500 84
• Álgebra 700 75
• Intr.a la Psicología 800 99
• Intr. a la Sociología 600 72
• Mercadotecnia 400 69
• Intr. a la Biología 500 81
• Metod. de la Inv. 600 63
• Intr.a la Enfermería 800 93
Ejemplo 1
400 500 600 700 800
60
70
80
90
100
Page
Scatter Diagram of Number of Pages and Selling Price of Text
Price ($)
Páginas
Ejemplo 1
Libro Páginas Precio ($)
X Y XY X2 Y2
Intr. a la Historia 500 84 42,000 250,000 7,056
Álgebra 700 75 52,500 490,000 5,625
Intr. a la Psicología 800 99 79,200 640,000 9,801
Intr. a la Sociología 600 72 43,200 360,000 5,184
Mercadotecnia 400 69 27,600 160,000 4,761
Intr. a la Biología 500 81 40,500 250,000 6,561
Fund. de Jazz 600 63 37,800 360,000 3,969
Intr. a la Enfermería 800 93 74,400 640,000 8,649
Total 4,900 636 397,200 3,150,000 51,606
Ejemplo 1
614.0
)636()606,51(8)900,4(000,150,3(8
)636)(900,4()200,397(8
)()(
))(()(
22
2222
YYnXXn
YXXYnr
La correlación entre el número de páginas y el
precio de venta del libro es 0.614. Esto indica una
asociación moderada entre las variables
(correlación positiva).
Análisis de regresión
• En análisis de regresión utilizamos la variable
independiente (X) para estimar la variable
dependiente (Y).
Objetivo: determinar la ecuación de regresión
para predecir los valores de la variable
dependiente (Y) en base a la o las variables
independientes (X).
Procedimiento: seleccionar una muestra a partir
de la población, listar pares de datos para cada
observación; dibujar un diagrama de puntos para
dar una imagen visual de la relación; determinar
la ecuación de regresión.
Estimación de la ecuación de Regresión Lineal Simple
Y= a + bX, donde: “Y” es el valor estimado para valores distintos “X”.
“a” es la intersección o el valor estimado de “Y” cuando
“X=0”
“b” es la pendiente de la línea, o el cambio promedio de “Y”
para cada cambio en una unidad de “X”
el principio de mínimos cuadrados es usado para obtener “a”
y “b”:
2
11
2
111
n
i
i
n
i
i
n
i
i
n
i
i
n
i
ii
xxn
yxyxn
b
n
x
bn
y
a
n
i
i
n
i
i 11
Ejemplo 2
• Desarrolle una ecuación de regresión para la
información dada en el Ejemplo 1 que se puede
utilizar para estimar el precio de venta basado
en el número de páginas.
05143.)900,4()000,150,3(8
)636)(900,4()200,397(82
b
0.488
900,405143.0
8
636a
Ejemplo 2
La ecuación de regresión es:
Y = 48.0 + .05143X
• La ecuación cruza al eje Y en $48. Un libro sin las
páginas costaría $48.
• La pendiente de la línea es .05143. El costo de
cada página adicional es de cinco céntimos.
• El signo del valor de b y el signo del valor de r
serán siempre iguales.
Ejemplo 2
Podemos utilizar la ecuación de regresión para
estimar valores de Y.
• El precio de venta estimado de un libro de 800
páginas es $89.14, encontrado por
14.89)800(05143.00.48
05143.00.48
XY
Ejemplo 3
Problema 1: Se cuenta con las mediciones sobre la edad y la
talla de 14 niños, y estamos interesados en determinar si
existe algún tipo de relación entre la talla del niño y su edad.niño edad (meses) talla (cm)
i xi yi
1 3 55
2 6 68
3 5 64
4 5 66
5 3 62
6 4 65
7 9 74
8 8 75
9 9 73
10 7 69
11 6 73
12 5 68
13 8 73
14 6 71
r=0.88
Modelo Estimado bxay ˆ
44,2b 64,53a
xy 44,264,53ˆ
Interpretación de los resultados
- Existe asociación o dependencia entre la Talla del
niño y la edad (r=0,88); a medida que la edad
aumenta la talla aumenta.
- Desde los resultados del modelo de regresión lineal
simple, se tiene que la talla media de un niño es de
53,64 cm. Cuando la edad del niño (meses) aumenta
en una unidad la talla se incrementa en 2,44 cm.
Ejemplo 4
X 189 190 208 227 239 252 257 274 293 308 316
Y 402 404 412 425 429 436 440 447 458 469 469
Una compañía desea hacer predicciones del valor anual de sus ventas
totales en cierto país a partir de la relación de éstas y la renta nacional.
Para investigar la relación cuenta con los siguientes datos:
X representa la renta nacional en millones de Nuevos Soles e Y
representa las ventas de la compañía en miles de Nuevos Soles en el
periodo que va desde 2000 hasta 2010 (ambos inclusive). Calcular:
a) La recta de regresión de Y sobre X.
b) El coeficiente de correlación lineal e interpretarlo.
c) Si en 2012 la renta nacional del país fue de 325 millones de Nuevos
Soles. ¿Cuál será la predicción para las ventas de la compañía en
este año?
Ejemplo 6
En un depósito cilíndrico, la altura del agua que contiene varia
conforme pasa el tiempo según esta tabla:
a. Halla el coeficiente de correlación lineal entre el tiempo y la
altura e interprétalo.
b. ¿Cual será la altura del agua cuando hayan transcurrido 40
horas?
c. Cuando la altura del agua es de 2m, suena una alarma
¿Qué tiempo ha de pasar para que avise la alarma?
Aplicación
Los datos siguientes muestran las cantidades consumidas
de complemento nutricional (en Kg.) y el aumento de peso
de niños con signos de desnutrición.
PACIENTE 1 2 3 4 5 6 7 8 9 10
COMPLEMENTO1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X
AUMENTO DE8 10 9 12 14 13 15 17 14 14
PESO : Y
Presente la información en un diagrama de dispersión.
Desarrolle una ecuación de regresión