Download - Tema 8 regresión lineal simple y correlación

“AÑO DE LA INVERSIÓN PARA EL DESARROLLO RURAL Y LA SEGURIDAD ALIMENTARIA”

“UNIVERSIDAD NACIONAL SAN LUIS GONZAGA DE ICA ““FACULTAD DE ADMINISTRACIÓN”

REGRESIÓN LINEAL SIMPLE Y ANÁLISIS DE CORRELACIÓN

CURSO: Control Estadístico de Procesos

DOCENTE: Dr. Orlando Gabriel H.

AÑO : 2º - IV ciclo “A”

INTEGRANTES Carolina Nieto Gómez . Melisa Jurado Flores.

Diego Ayala Quispe. Miguel Cusiche Chipana.William Idrogo Mego

Ica – Perú

2013

ÍNDICEREGRESIÓN LINEAL SIMPLE

ConceptoMétodo de Mínimos CuadradosInferencias en el Análisis de RegresiónEl Error Estándar de EstimaciónMedidas de VariaciónCoeficiente de DeterminaciónCoeficiente de Determinación AjustadoDiagnostico de Regresión: Análisis Residual

Residuos Estandarizados (RS)

CORRELACIÓN

ConceptoCaracterísticasCorrelación Producto-Momento: Enfoque ConceptualInterpretación dePrueba de Significación de Método Práctico para calcular r

REGRESIÓN LINEAL SIMPLE

Concepto

originariamente

posterioridad

El termino

regresión

Utilizado por Galton

indicar ciertas relaciones en la

teoría de la herencia biológica

Significar el método

estadístico desarrollado para

investigar las relaciones entre dos variables.

Finalidad

Con base en los valores conocidos

de la otra.

Estimar

Valores de una variable

Explicar los valores de una variable en términos de la

otra.

Relación de causa-efecto.

Predecir los valores futuros de una variable.

Usos

Una ecuación lineal tiene la forma:

En la que “a “ y “b” son valores que se determinan a partir de los datos de la muestra

“a” indica la altura de la recta en

“b” señala su pendiente

. La variable Y es la que se tendrá

que predecir, y X es la variable predictiva.

Y

X

La pendiente de la recta b, indica la intensidad de cambio de Y por cada unidad de cambio en X.

Método de mínimos

cuadradosNos permite encontrar la

ecuación de una recta a partir de

los datos experimentales.

Método de estimación

Las cantidades a estimar son determinadas minimizando la suma de los cuadrados de las diferencias entre los valores

Observados y los valores estimado o calculados.

Donde: Valor observado de Y

Valor calculado de Y

FórmulasLos valores de a y b, para la recta: Yc=a+bx. que minimiza la suma de las desviaciones cuadradas

EjemploLos siguientes datos muestrales pretenden estudiar el efecto de

los años de experiencia sobre las ventas semanales de los agentes vendedores de artículos para el hogar. Para tal efecto, se tomó una muestra de las ventas de 12 agentes vendedores de la Provincia de Ica, la misma que a continuación se detalla:

5 7 6 5 1 5 4 8 6 10 9 6

6 000

8 500

9 000

5000

3 800

5 700

6 500

10 200

8 000

12 500

11 300

9 500

Ventas semanales : Variable Dependiente

Años de experiencia : Variable Independiente

N° X Y XY

1 5 6 000 30 000 25 36’ 000 000

2 7 8 500 59 500 49 72’ 250 000

3 6 9 000 54 000 36 81’ 000 000

4 5 5 000 25 000 25 25’ 000 000

5 1 3 800 3 800 1 14‘440 000

6 5 5 700 28 500 25 32’ 490 000

7 4 6 500 26 000 16 42’ 250 000

8 8 10 200

81 600 64 104’ 040 000

9 6 8 000 48 000 36 64’ 000 000

10 10 12 500

125 000

100

156’ 250 000

11 9 11 300

101 700

81 127’ 690 000

12 6 9 500 57 000 36 90’ 250 000

72 96 000

640 100

494

845’ 660 000

CUADRO PREPARATORIO PARA EL ANÁLISIS DE REGRESIÓN

b=1 034

a=1 796

n=12

= 72 = 640 100= 96 000

= 845’ 660 000= 494

=8 000=6

Teniendo los valores de “a” y “b”. a=1 796 b=1 034

Reemplazamos en la ecuación lineal:

La ecuación resultante puede interpretarse de la siguiente manera:

La venta semanal esperada es de 1 796 soles más 1034 soles por cada año de experiencia del agente vendedor.

De esta forma se pueden hacer estimaciones, por ejemplo, si queremos estimar la venta semanal para agentes vendedores

con 5 años de experiencia:

Entonces, se espera que un agente vendedor con cinco años de experiencia tenga una venta

semanal de S./ 6 966

Por lo cual la ecuación lineal quedaría así:

Inferencias en el Análisis de Regresión

Los datos muestrales que se utilizan para calcular una línea de regresión se pueden considerar como un número relativamente pequeño de posibles

observaciones; a partir de una población infinita de pares de valoresCabe observar que incluso en la población, los valores no caen sobre

una sola recta, si no que tienden a mostrar cierto grado de dispersión. De hecho, sino hubiera dispersión en la población todas las observaciones de la muestra caerían en una recta única, y no habría necesidad de deducir inferencias respecto a los valores verdaderos de la población.

Una pregunta razonable podría ser ¿Por qué hay dispersión? La respuesta radica en el hecho de que no hay una relación perfecta entre las dos variables en la población. Existen otras variables que influyen en los valores de la variable dependiente, quizá un número sorpresivamente grande de otras variables, que no se incluyen en el análisis de la regresión. En el caso de las ventas materia de nuestro ejemplo los factores además de los años de experiencia que podrían influir en las ventas son: la urgente necesidad de comprar, la zona de residencia del comprador, la capacidad de compra, publicidad, servicio post-venta, compra por orgullo, etcétera.

ERROR ESTÁNDAR DE ESTIMACION

La pregunta que surge en forma natural en el análisis de regresión es: ¿Cuán exactas son las diversas estimaciones de regresión? La determinante primaria de la exactitud es el grado de dispersión de la población: cuando más dispersa este, menor será la exactitud de las estimaciones. El grado de dispersión en la población se puede estimar a partir del grado de dispersión en las observaciones de las muestras con respecto a la línea de regresión calculada, utilizando la formula:

Esto es simplemente un cálculo de la desviación estándar, en la que Yc, sustituye a la media de la

muestra, con n-2 en el denominador, porque se pierden dos grados de libertad al calcular las dos constantes a y

b.El calculo del error estándar se basa en

el supuesto de que se produce una dispersión uniforme de los puntos

respecto de la línea de regresión, que es otra forma de expresar que se supone que la distribuciones condicionales de

los valores de Y tienen iguales desviaciones estándar

Cuadro de estimación del error

2

El uso de Y en lugar de Y proviene del hecho de que se quiere utilizar la linea de regresión como centro o punto de referencia en vez de la media de la muestra, para

medir la dispersión con respecto a la recta.

Por lo general la fórmula anterior n se utiliza para cálculos reales, debido a que es más fácil trabajar con la siguiente fórmula que tiene un procedimiento simplificado, la misma que se detalle a continuación:

El cálculo del .error estándar se basa en el supuesto de que se produce una aspersión uniforme de los puntos respecto de la línea de regresión, que es otra forma de expresar que se supone que la distribuciones condicionales de los valores de y tienen iguales desviaciones estándar.

MEDIDAS DE VARIACIONCon el fin de examinar que tan bien una variable independiente predice a la variable dependiente, en nuestro modelo estadístico necesitamos desarrollar algunas medidas de variación, la primera de ellas es:

1. VARIACIÓN TOTAL (VT) Ó SUMA TOTAL DE CUADRADOS (STC):Es una medida de la variación de los valores Y alrededor de su media:

CUADRO DE VARIACION

TOTAL

CUADRO CON VARIACIÓN EXPLICADA

COEFICIENTE DE

VTVE

r 2

10 2 r

STCSCR

r 2

DETERMINACIÓN

Mide la proximidad del ajuste de la ecuación de regresión de la muestra

a los valores observados de Y.

Mide la Porción de variación que es explicada por la variable independiente, del modelo de regresión.

Es el coeficiente de correlación al cuadrado. Indica el porcentaje de las variaciones de la variable dependiente que

es atribuible a la influencia de la variable independiente

Fórmula:

STCSCR

r 2

Ejemplo:

X Y XY2 15

4 19

6 25

7 38

8 34

2X 2Y

30

76

150

266

272

4

16

36

49

64

225

361

625

1444

1156

27 131 794 169 3811

Cinco niños de 2, 4, 6, 7 y 8 años pesan, respectivamente, 15, 19, 25, 38 y 34 kilos. Hallar el coeficiente de determinación correspondiente.

N°1

2

3

4

5

2YnxybyaSCR

22YnySTC

Fórmula:

06.6a73.3b

4.5x 2.26y

22.26)5()794)(73.3()131)(06.6( SCR

28.323SCR

22.26)5(3811 STC

8.378STC

80.37828.3232

STCSCR

r 8534.0 %34.85

COEFICIENTE DE

DETERMINACIÓN AJUSTADO

21

)1(1 22

nn

rr ajus

Ejemplo:

Se usa en casos de modelos de regresión múltiple.

Refleja tanto el número de variables explicatorias del modelo, como el tamaño de la muestra.

21

)1(1 22

nn

rr ajus

2515

)8534.01(12ajusr

8045.02 ajusr

DIAGNOSTICO DE REGRESIÓN: ANÁLISIS RESIDUAL

Se usa para evaluar lo adecuado del modelo de

regresión que ha sido ajustado a los datos.

Permitirá estudiar las violaciones potenciales de las suposiciones de nuestro

modelo de regresión.

Los valores del error residual (e), se define como la diferencia entre los valores observados(Yo) y los predichos (Yc) de la variable

dependiente para los valores dados de X.

Fórmula:

Ejemplo:

X35 114

45 124

55 143

65 158

75 166

275 705

Los siguientes datos muestrales muestran las edades de “n” mujeres de más de 30 años y su respectiva presión sanguínea.

N°1

2

3

4

5

Edades 35 45 55 65 75

Presión sanguínea 114 124 143 158 166

Efectuar el análisis residual.

oY cY )( co yye

bxayc

38.1b 1.65a

113.4

127.2

141

154.8

168.6

0.6

-3.2

2

3.2

-2.6

705 0

X

Y

ies hS

eR

1

RESIDUOS ESTANDARIZADOS

22

2

)(

)(1xnx

xx

nh ii

)( co yye

Fórmula:Nos permiten tomar en cuenta la

magnitud de los residuos en

unidades que reflejen la variación

estandarizada alrededor de la

línea de la regresión.

Ejemplo:

N° X Y XY1 35 114 3 990 1 225 12 996

2 45 124 5 580 2 025 15 376

3 55 143 7 865 3 025 20 449

4 65 158 10 270 4 225 24 964

5 75 166 12 450 5 625 27 556

275 705 40 155 16 125 101 341


Edades 35 45 55 65 75


2X 2Y

Hallar el residual estandarizado.

2

2

n

xybyaySe

1.65a38.1b

25.3eS

25)40155)(38.1()705)(1.65()101341(

eS

55x

141y

Ejemplo:

N° X1 35 114

2 45 124

3 55 143

4 65 158

5 75 166

275 705


oY bxaYc

113.4

127.2

141

154.8

168.6

705

0.6

-3.2

2

3.2

-2.6

0

0.6

0.3

0.2

0.3

0.6

0.2919025532

-1.176840477

0.6880209162

1.176840477

-1.264911064

)( co yye 22

2

)(

)(1xnx

xx

nh ii

ie

s hS

eR

1

Edades 35 45 55 65 75


Ejemplo:

N° X1 35 114

2 45 124

3 55 143

4 65 158

5 75 166

275 705


oY bxaYc

113.4

127.2

141

154.8

168.6

705

0.6

-3.2

2

3.2

-2.6

0

0.6

0.3

0.2

0.3

0.6

0.29

-1.18

0.69

1.18

-1.26

)( co yye 22

2

)(

)(1xnx

xx

nh ii

ie

s hS

eR

1

Edades 35 45 55 65 75


ANÁLISIS DE CORRELACIÓ

N

ANALISIS DE CORRELACIONLa correlación es otra medida de mutua relación entre dos

variables.

El objetivo de un estudio de correlación es determinar la consistencia de una relación entre observaciones por pares.

El termino correlación significa relación mutua, ya que indica el grado en que los valores de una variable se relacionan con los

valores de otra

Por ejemplo: Si están relacionadas la edad y la resistencia física, los años de experiencia del trabajador y la efectividad en la gestión

empresarial, los calificativos obtenidos en las pruebas de selección y el éxito en el trabajo, etc.

Estos problemas y semejantes se prestan a un análisis de correlación, cuyo resultado es un coeficiente de correlación, valor

que cuantifica el grado de correlación.

Diversos diagramas de dispersión y valores correspondientes al coeficiente de correlación

CORRELACION PRODUCTO – MOMENTO: ENFOQUE CONCEPTUAL

El termino producto – momento describe la forma como los valores por pares se combinan para obtener el coeficiente de correlación. Para demostrar el concepto considérese el siguiente ejemplo:

Se está interesado en saber si los años de servicios del personal administrativo, están relacionados con en el desempeño de su trabajo de la Empresa de Transportes Núñez S.A.C de Ica, si para tal efecto se seleccionan al azar 08 trabajadores, cuyos datos se detallan a continuación:

AÑOS 1 20 6 8 2 1 15 8

DESEMPEÑO 43 97 59 66 44 42 89 65

Cuadro de estandarización: años de servicios /desempeño

Nº

AÑOS DE SERVICIOS DESEMPEÑO

X (x - ) Y

1 1 -6.33 43.9569 -0.97 43-

20.13 405.2169 -0.96

2 20 12.37 153.0169 1.8 97 33.871147.176

9 1.62

3 6 -1.63 2.6569 -0.24 59 -4.13 17.0569 -0.2

4 8 0.37 0.1369 0.05 66 2.87 8.2369 0.14

5 2 -5.63 31.6969 -0.82 44 19.13 365.9569 -0.91

6 1 -6.63 43.9569 -0.97 42-

21.13 446.4769 -1.01

7 15 7.37 54.3169 1.07 89 25.87 669.2569 1.24

8 8 0.37 0.1369 0.05 65 1.87 3.4969 0.09

61 0 329.8752 - 505 03062.87

52 -

X

Calculo de r:Los cálculos se ilustran en el siguiente cuadro:

Nº Zx Zy Zx.Zy1 -0.97 -0.96 0.93122 1.8 1.62 2.91603 -0.24 -0.2 0.04804 0.05 0.14 0.00705 -0.82 -0.91 0.74626 -0.97 -1.01 0.97977 1.07 1.24 1.32688 0.05 0.09 0.0045 - - 6.9594

PRUEBA DE SIGNIFICACION DE “r”

Para determinar si se tiene alguna correlación significativa entre ellas. Se formula la hipótesis de que el coeficiente de correlación de la población P, es igual a cero. Así las hipótesis nula y alternativa serían. : P = 0 No hay correlación : P ≠ 0 Si hay relaciónLa estadística de prueba para determinar la existencia de una correlación significativa está dada por la siguiente fórmula:

En la que la estadística de prueba t, sigue una distribución t que tiene n-2 grados de libertad. Y si seleccionamos un nivel de significación del 0.05 tendremos:

-2.4469 2.4469 17.19

GRACIAS

Download - Tema 8 regresión lineal simple y correlación

Top Related