Download - Tema 8 regresión lineal simple y correlación
“AÑO DE LA INVERSIÓN PARA EL DESARROLLO RURAL Y LA SEGURIDAD ALIMENTARIA”
“UNIVERSIDAD NACIONAL SAN LUIS GONZAGA DE ICA ““FACULTAD DE ADMINISTRACIÓN”
REGRESIÓN LINEAL SIMPLE Y ANÁLISIS DE CORRELACIÓN
CURSO: Control Estadístico de Procesos
DOCENTE: Dr. Orlando Gabriel H.
AÑO : 2º - IV ciclo “A”
INTEGRANTES Carolina Nieto Gómez . Melisa Jurado Flores.
Diego Ayala Quispe. Miguel Cusiche Chipana.William Idrogo Mego
Ica – Perú
2013
ÍNDICEREGRESIÓN LINEAL SIMPLE
ConceptoMétodo de Mínimos CuadradosInferencias en el Análisis de RegresiónEl Error Estándar de EstimaciónMedidas de VariaciónCoeficiente de DeterminaciónCoeficiente de Determinación AjustadoDiagnostico de Regresión: Análisis Residual
Residuos Estandarizados (RS)
CORRELACIÓN
ConceptoCaracterísticasCorrelación Producto-Momento: Enfoque ConceptualInterpretación dePrueba de Significación de Método Práctico para calcular r
REGRESIÓN LINEAL SIMPLE
Concepto
originariamente
posterioridad
El termino
regresión
Utilizado por Galton
indicar ciertas relaciones en la
teoría de la herencia biológica
Significar el método
estadístico desarrollado para
investigar las relaciones entre dos variables.
Finalidad
Con base en los valores conocidos
de la otra.
Estimar
Valores de una variable
Explicar los valores de una variable en términos de la
otra.
Relación de causa-efecto.
Predecir los valores futuros de una variable.
Usos
Una ecuación lineal tiene la forma:
En la que “a “ y “b” son valores que se determinan a partir de los datos de la muestra
“a” indica la altura de la recta en
“b” señala su pendiente
. La variable Y es la que se tendrá
que predecir, y X es la variable predictiva.
Y
X
La pendiente de la recta b, indica la intensidad de cambio de Y por cada unidad de cambio en X.
Método de mínimos
cuadradosNos permite encontrar la
ecuación de una recta a partir de
los datos experimentales.
Método de estimación
Las cantidades a estimar son determinadas minimizando la suma de los cuadrados de las diferencias entre los valores
Observados y los valores estimado o calculados.
Donde: Valor observado de Y
Valor calculado de Y
FórmulasLos valores de a y b, para la recta: Yc=a+bx. que minimiza la suma de las desviaciones cuadradas
EjemploLos siguientes datos muestrales pretenden estudiar el efecto de
los años de experiencia sobre las ventas semanales de los agentes vendedores de artículos para el hogar. Para tal efecto, se tomó una muestra de las ventas de 12 agentes vendedores de la Provincia de Ica, la misma que a continuación se detalla:
5 7 6 5 1 5 4 8 6 10 9 6
6 000
8 500
9 000
5000
3 800
5 700
6 500
10 200
8 000
12 500
11 300
9 500
Ventas semanales : Variable Dependiente
Años de experiencia : Variable Independiente
N° X Y XY
1 5 6 000 30 000 25 36’ 000 000
2 7 8 500 59 500 49 72’ 250 000
3 6 9 000 54 000 36 81’ 000 000
4 5 5 000 25 000 25 25’ 000 000
5 1 3 800 3 800 1 14‘440 000
6 5 5 700 28 500 25 32’ 490 000
7 4 6 500 26 000 16 42’ 250 000
8 8 10 200
81 600 64 104’ 040 000
9 6 8 000 48 000 36 64’ 000 000
10 10 12 500
125 000
100
156’ 250 000
11 9 11 300
101 700
81 127’ 690 000
12 6 9 500 57 000 36 90’ 250 000
72 96 000
640 100
494
845’ 660 000
CUADRO PREPARATORIO PARA EL ANÁLISIS DE REGRESIÓN
b=1 034
a=1 796
n=12
= 72 = 640 100= 96 000
= 845’ 660 000= 494
=8 000=6
Teniendo los valores de “a” y “b”. a=1 796 b=1 034
Reemplazamos en la ecuación lineal:
La ecuación resultante puede interpretarse de la siguiente manera:
La venta semanal esperada es de 1 796 soles más 1034 soles por cada año de experiencia del agente vendedor.
De esta forma se pueden hacer estimaciones, por ejemplo, si queremos estimar la venta semanal para agentes vendedores
con 5 años de experiencia:
Entonces, se espera que un agente vendedor con cinco años de experiencia tenga una venta
semanal de S./ 6 966
Por lo cual la ecuación lineal quedaría así:
Inferencias en el Análisis de Regresión
Los datos muestrales que se utilizan para calcular una línea de regresión se pueden considerar como un número relativamente pequeño de posibles
observaciones; a partir de una población infinita de pares de valoresCabe observar que incluso en la población, los valores no caen sobre
una sola recta, si no que tienden a mostrar cierto grado de dispersión. De hecho, sino hubiera dispersión en la población todas las observaciones de la muestra caerían en una recta única, y no habría necesidad de deducir inferencias respecto a los valores verdaderos de la población.
Una pregunta razonable podría ser ¿Por qué hay dispersión? La respuesta radica en el hecho de que no hay una relación perfecta entre las dos variables en la población. Existen otras variables que influyen en los valores de la variable dependiente, quizá un número sorpresivamente grande de otras variables, que no se incluyen en el análisis de la regresión. En el caso de las ventas materia de nuestro ejemplo los factores además de los años de experiencia que podrían influir en las ventas son: la urgente necesidad de comprar, la zona de residencia del comprador, la capacidad de compra, publicidad, servicio post-venta, compra por orgullo, etcétera.
ERROR ESTÁNDAR DE ESTIMACION
La pregunta que surge en forma natural en el análisis de regresión es: ¿Cuán exactas son las diversas estimaciones de regresión? La determinante primaria de la exactitud es el grado de dispersión de la población: cuando más dispersa este, menor será la exactitud de las estimaciones. El grado de dispersión en la población se puede estimar a partir del grado de dispersión en las observaciones de las muestras con respecto a la línea de regresión calculada, utilizando la formula:
Esto es simplemente un cálculo de la desviación estándar, en la que Yc, sustituye a la media de la
muestra, con n-2 en el denominador, porque se pierden dos grados de libertad al calcular las dos constantes a y
b.El calculo del error estándar se basa en
el supuesto de que se produce una dispersión uniforme de los puntos
respecto de la línea de regresión, que es otra forma de expresar que se supone que la distribuciones condicionales de
los valores de Y tienen iguales desviaciones estándar
Cuadro de estimación del error
2
El uso de Y en lugar de Y proviene del hecho de que se quiere utilizar la linea de regresión como centro o punto de referencia en vez de la media de la muestra, para
medir la dispersión con respecto a la recta.
Por lo general la fórmula anterior n se utiliza para cálculos reales, debido a que es más fácil trabajar con la siguiente fórmula que tiene un procedimiento simplificado, la misma que se detalle a continuación:
El cálculo del .error estándar se basa en el supuesto de que se produce una aspersión uniforme de los puntos respecto de la línea de regresión, que es otra forma de expresar que se supone que la distribuciones condicionales de los valores de y tienen iguales desviaciones estándar.
MEDIDAS DE VARIACIONCon el fin de examinar que tan bien una variable independiente predice a la variable dependiente, en nuestro modelo estadístico necesitamos desarrollar algunas medidas de variación, la primera de ellas es:
1. VARIACIÓN TOTAL (VT) Ó SUMA TOTAL DE CUADRADOS (STC):Es una medida de la variación de los valores Y alrededor de su media:
CUADRO DE VARIACION
TOTAL
CUADRO CON VARIACIÓN EXPLICADA
COEFICIENTE DE
VTVE
r 2
10 2 r
STCSCR
r 2
DETERMINACIÓN
Mide la proximidad del ajuste de la ecuación de regresión de la muestra
a los valores observados de Y.
Mide la Porción de variación que es explicada por la variable independiente, del modelo de regresión.
Es el coeficiente de correlación al cuadrado. Indica el porcentaje de las variaciones de la variable dependiente que
es atribuible a la influencia de la variable independiente
Fórmula:
STCSCR
r 2
Ejemplo:
X Y XY2 15
4 19
6 25
7 38
8 34
2X 2Y
30
76
150
266
272
4
16
36
49
64
225
361
625
1444
1156
27 131 794 169 3811
Cinco niños de 2, 4, 6, 7 y 8 años pesan, respectivamente, 15, 19, 25, 38 y 34 kilos. Hallar el coeficiente de determinación correspondiente.
N°1
2
3
4
5
2YnxybyaSCR
22YnySTC
Fórmula:
06.6a73.3b
4.5x 2.26y
22.26)5()794)(73.3()131)(06.6( SCR
28.323SCR
22.26)5(3811 STC
8.378STC
80.37828.3232
STCSCR
r 8534.0 %34.85
COEFICIENTE DE
DETERMINACIÓN AJUSTADO
21
)1(1 22
nn
rr ajus
Ejemplo:
Se usa en casos de modelos de regresión múltiple.
Refleja tanto el número de variables explicatorias del modelo, como el tamaño de la muestra.
21
)1(1 22
nn
rr ajus
2515
)8534.01(12ajusr
8045.02 ajusr
DIAGNOSTICO DE REGRESIÓN: ANÁLISIS RESIDUAL
Se usa para evaluar lo adecuado del modelo de
regresión que ha sido ajustado a los datos.
Permitirá estudiar las violaciones potenciales de las suposiciones de nuestro
modelo de regresión.
Los valores del error residual (e), se define como la diferencia entre los valores observados(Yo) y los predichos (Yc) de la variable
dependiente para los valores dados de X.
Fórmula:
Ejemplo:
X35 114
45 124
55 143
65 158
75 166
275 705
Los siguientes datos muestrales muestran las edades de “n” mujeres de más de 30 años y su respectiva presión sanguínea.
N°1
2
3
4
5
Edades 35 45 55 65 75
Presión sanguínea 114 124 143 158 166
Efectuar el análisis residual.
oY cY )( co yye
bxayc
38.1b 1.65a
113.4
127.2
141
154.8
168.6
0.6
-3.2
2
3.2
-2.6
705 0
X
Y
ies hS
eR
1
RESIDUOS ESTANDARIZADOS
22
2
)(
)(1xnx
xx
nh ii
)( co yye
Fórmula:Nos permiten tomar en cuenta la
magnitud de los residuos en
unidades que reflejen la variación
estandarizada alrededor de la
línea de la regresión.
Ejemplo:
N° X Y XY1 35 114 3 990 1 225 12 996
2 45 124 5 580 2 025 15 376
3 55 143 7 865 3 025 20 449
4 65 158 10 270 4 225 24 964
5 75 166 12 450 5 625 27 556
275 705 40 155 16 125 101 341
Los siguientes datos muestrales muestran las edades de “n” mujeres de más de 30 años y su respectiva presión sanguínea.
Edades 35 45 55 65 75
Presión sanguínea 114 124 143 158 166
2X 2Y
Hallar el residual estandarizado.
2
2
n
xybyaySe
1.65a38.1b
25.3eS
25)40155)(38.1()705)(1.65()101341(
eS
55x
141y
Ejemplo:
N° X1 35 114
2 45 124
3 55 143
4 65 158
5 75 166
275 705
Los siguientes datos muestrales muestran las edades de “n” mujeres de más de 30 años y su respectiva presión sanguínea.
oY bxaYc
113.4
127.2
141
154.8
168.6
705
0.6
-3.2
2
3.2
-2.6
0
0.6
0.3
0.2
0.3
0.6
0.2919025532
-1.176840477
0.6880209162
1.176840477
-1.264911064
)( co yye 22
2
)(
)(1xnx
xx
nh ii
ie
s hS
eR
1
Edades 35 45 55 65 75
Presión sanguínea 114 124 143 158 166
Ejemplo:
N° X1 35 114
2 45 124
3 55 143
4 65 158
5 75 166
275 705
Los siguientes datos muestrales muestran las edades de “n” mujeres de más de 30 años y su respectiva presión sanguínea.
oY bxaYc
113.4
127.2
141
154.8
168.6
705
0.6
-3.2
2
3.2
-2.6
0
0.6
0.3
0.2
0.3
0.6
0.29
-1.18
0.69
1.18
-1.26
)( co yye 22
2
)(
)(1xnx
xx
nh ii
ie
s hS
eR
1
Edades 35 45 55 65 75
Presión sanguínea 114 124 143 158 166
ANÁLISIS DE CORRELACIÓ
N
ANALISIS DE CORRELACIONLa correlación es otra medida de mutua relación entre dos
variables.
El objetivo de un estudio de correlación es determinar la consistencia de una relación entre observaciones por pares.
El termino correlación significa relación mutua, ya que indica el grado en que los valores de una variable se relacionan con los
valores de otra
Por ejemplo: Si están relacionadas la edad y la resistencia física, los años de experiencia del trabajador y la efectividad en la gestión
empresarial, los calificativos obtenidos en las pruebas de selección y el éxito en el trabajo, etc.
Estos problemas y semejantes se prestan a un análisis de correlación, cuyo resultado es un coeficiente de correlación, valor
que cuantifica el grado de correlación.
Diversos diagramas de dispersión y valores correspondientes al coeficiente de correlación
CORRELACION PRODUCTO – MOMENTO: ENFOQUE CONCEPTUAL
El termino producto – momento describe la forma como los valores por pares se combinan para obtener el coeficiente de correlación. Para demostrar el concepto considérese el siguiente ejemplo:
Se está interesado en saber si los años de servicios del personal administrativo, están relacionados con en el desempeño de su trabajo de la Empresa de Transportes Núñez S.A.C de Ica, si para tal efecto se seleccionan al azar 08 trabajadores, cuyos datos se detallan a continuación:
AÑOS 1 20 6 8 2 1 15 8
DESEMPEÑO 43 97 59 66 44 42 89 65
Cuadro de estandarización: años de servicios /desempeño
Nº
AÑOS DE SERVICIOS DESEMPEÑO
X (x - ) Y
1 1 -6.33 43.9569 -0.97 43-
20.13 405.2169 -0.96
2 20 12.37 153.0169 1.8 97 33.871147.176
9 1.62
3 6 -1.63 2.6569 -0.24 59 -4.13 17.0569 -0.2
4 8 0.37 0.1369 0.05 66 2.87 8.2369 0.14
5 2 -5.63 31.6969 -0.82 44 19.13 365.9569 -0.91
6 1 -6.63 43.9569 -0.97 42-
21.13 446.4769 -1.01
7 15 7.37 54.3169 1.07 89 25.87 669.2569 1.24
8 8 0.37 0.1369 0.05 65 1.87 3.4969 0.09
61 0 329.8752 - 505 03062.87
52 -
X
Calculo de r:Los cálculos se ilustran en el siguiente cuadro:
Nº Zx Zy Zx.Zy1 -0.97 -0.96 0.93122 1.8 1.62 2.91603 -0.24 -0.2 0.04804 0.05 0.14 0.00705 -0.82 -0.91 0.74626 -0.97 -1.01 0.97977 1.07 1.24 1.32688 0.05 0.09 0.0045 - - 6.9594
PRUEBA DE SIGNIFICACION DE “r”
Para determinar si se tiene alguna correlación significativa entre ellas. Se formula la hipótesis de que el coeficiente de correlación de la población P, es igual a cero. Así las hipótesis nula y alternativa serían. : P = 0 No hay correlación : P ≠ 0 Si hay relaciónLa estadística de prueba para determinar la existencia de una correlación significativa está dada por la siguiente fórmula:
En la que la estadística de prueba t, sigue una distribución t que tiene n-2 grados de libertad. Y si seleccionamos un nivel de significación del 0.05 tendremos:
-2.4469 2.4469 17.19
GRACIAS