8 regrecion y correlacion2009

Regresión y correlación

1.1 Introducción

La regresión y La correlación.

Analizan las relaciones entre dos variables para predecir eventos futuros. que se pueden utilizar para solucionar problemas comunes en los negocios.

Y depende de X En el modelo de regresión.

Y es una función de X Y = f(X) [1.1]

Se lee “Y es función de X”

Variable dependiente Y.

Es la variable que se desea explicar o predecir, variable de respuesta. La variable que se pronostica o estima.

La variable independiente X.

También se le denomina variable explicativa Proporciona la base para estimación. Es la variable preeditora .se utiliza para explicar Y.

Diagrama de dispersión:gráfica que describe la relación entre las dos variables de interés.

Cuál es la variable dependiente y cuál es la variable independiente en el modelo de regresión

Esto depende de la lógica y de lo que el estadístico intente medir.

Se desea analizar la relación entre las notas de los estudiantes y el tiempo que pasan estudiando.

Se recolectaron datos sobre ambas variables.

Es lógico presumir que las notas dependen de la cantidad de tiempo que los estudiantes pasan estudiando.

Por tanto, “notas” es la variable dependiente “tiempo” es la variable independiente.

La regresión simple se representa

Y = f(X) [1.1]Se le denomina regresión bivariada porque sólo hay dos variables, una dependiente y una independiente,

El modelo de regresión múltiple

Y es una función de dos o más variables independientes. Y es una función de dos o más variables independientes.

En un modelo de regresión múltiple con k variables En un modelo de regresión múltiple con k variables independientes independientes

Y = f ( X1, X2, X3, …., Xk ) Y = f ( X1, X2, X3, …., Xk ) [1.2][1.2]

En donde (X1, X2, X3, …., Xk son variables independientes que En donde (X1, X2, X3, …., Xk son variables independientes que permiten explicar Y. permiten explicar Y.

Diagramas de dispersión

Los diagramas de dispersión ayudan a ilustrar lo que muestran los datos sin procesar.

• Muestran la apariencia de una relación entre X y Y

•Diferentes patrones de diagramas de dispersión:

• Lineal, positiva, perfecta

• Lineal, negativa, perfecta

• Lineal, positiva, imperfecta

• Lineal, negativa, imperfecta

• Curva

• Sin relación

Relación lineal negativa perfecta

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

Relación positiva perfecta

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

Relación positiva fuerte

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

Relación negativa fuerte

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

Relación Curvilínea

Sin Relación

0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0

Relaciones lineales y curvilíneas.

Si X y Y se relacionan en forma lineal, entonces a medida que X cambia, Y cambia en una cantidad constante.

Si existe una relación curvilínea,. Y cambiara en una cantidad diferente a medida que X cambia.

1.2 Determinación del modelo Regresión lineal simple

Ecuación de la recta Y = b0 + b1X [1.3]

En donde b0 es el intercepto y b1 es la pendiente de la recta.

Una relación como esta es una descripción inadecuada de la realidad. Es decir no cabe esperar una relación lineal perfecta entre las variables X e Y,

por lo que introducimos una variable aleatoria (la letra griega epsilon)

[1. 4]

Ello modificación la naturaleza del modelo Por tanto mientras que Y = b0+ 1 X era determinista

El modelo (1.4) es de naturaleza probabilística

Los parámetros 0 y 1, permanecerán desconocidos

y se pueden estimar sólo con los datos muéstrales.

Un modelo lineal con base en datos muestrales

Y = b0 + b1 X + [1.5]

Si conociéramos , podría calcular el valor Y.

Sin embargo, debido a que es aleatoria.

¨ Y ¨sólo puede estimarse.

El modelo de regresión estimada toma la forma

= b0 + b1 X [1.6]

(que se lee como Y sombrero)

Y1.3 Mínimos cuadrados ordinarios:

La recta de mejor ajusteEl propósito del análisis de regresión es determinar una recta

que se ajuste a los datos muestrales mejor que cualquier otra

Se recolecta datos sobre los gastos publicitarios y los

ingresos por ventas de 5 meses,.

Mes Mes VentasVentas

(X US $ 1000)(X US $ 1000)

PublicidadPublicidad

(X US $ 100)(X US $ 100)

Us $450Us $450

380380

540540

500500

420420

US $50US $50

Tabla 1.1

Datos de ventas Publicidad .

Los valores se obtienen mediante la recta de regresión y representan el estimado de las ventas.

Esta recta está determinada mediante la estimación de b0 y b1. un procedimiento matemático utilizado para estimar esos valores se denomina mínimos cuadrados ordinarios (MCO),

Figura 1.1

Error = ( Yi - i ) [1.7]Y

Debido a que algunos errores son negativos y positivos.

MCO producirá una recta tal que la suma de errores sea cero:

0YY ii )ˆ(

La diferencia entre lo que Y era realmente, Yi

y lo que se estima que es i, es el error.

Es decir, MCO minimizará la suma de los errores al cuadrado.

Es por esto que se denomina mínimos cuadrados ordinarios;

produce una recta tal que la suma de los errores al cuadrado

es menor de lo que sería con cualquier otra recta.

min)ˆ( 2ii YYLa suma de errores al

cuadrado se minimiza [1.8]

MCO también asegurará que se minimice la suma de

estos errores al cuadrado.

El método MCO utiliza varias formas de calculo

que llegan a los mismos resultados

La pendiente b1 de la recta de regresión, llamada

el coeficiente de regresión y el intercepto b0,

Utilizaremos el método Suma de cuadrados ordinario

XyY ˆˆ

Los parámetros 0 y 1,son desconocidos por lo tanto

son los que se van a estimar con los datos muéstrales.

Utilizaremos el método Suma de cuadrados ordinario

Sumas de cuadrados y los productos cruzadosLa pendiente de la

recta de regresión [1.9]

SCxyb1

El intercepto de

la recta de regresión [1.10]XbYb 10 Estos cálculos son extremadamente sensibles a la aproximación.

Por tanto, se aconseja en aras de la exactitud a efectuar los cálculos hasta

con cinco o seis cifras decimales.

Para determinar esta recta de mejor ajuste

MCO requiere calcular la suma de cuadrados y productos cruzados.

Suma de los cuadrados de X

[1.11]

Suma de los cuadrados de Y

[1.12]

Suma de los productos

cruzados de X y Y

[1.13]

XXSCx i

YYSCy i

YYXXSCxy ii

Las primeras porciones de cada una de estas fórmulas.

YYXXSCxy

Ilustran cómo la recta MCO realmente se basa en las

desviaciones de las observaciones a partir de su media.

Se utilizará la segunda versión al hacer los cálculos.

1.4 Ejemplo utilizando MCO Una empresa de trasporte Aéreo, considera que existe una relación

directa entre los gastos publicitarios y el número de pasajeros.

Se recolectaron los valores mensuales por gastos de publicidad y

número de pasajeros para los n = 15 meses más recientes.

Los datos aparecen en la tabla 1.2,

Determinar el modelo de regresión por MCO para ver si esta relación

existe

Coeficiente de regresión y el intercepto

XbbY 10 ˆ

225225

289289

169169

529529

256256

441441

196196

400400

576576

289289

256256

324324

529529

225225

256256

4.9604.960

100100

144144

289289

100100

225225

100100

196196

361361

100100

121121

169169

256256

100100

144144

2.4692.469

150150

204204

104104

391391

160160

315315

140140

280280

456456

170170

176176

234234

368368

150150

192192

3.4903.490

268268

187187

YY22XX22XyXyPasajeros Pasajeros (en 1.000`s) (en 1.000`s)

(Y)(Y)

Publicidad Publicidad (en US$1.000`s) (en US$1.000`s)

(X)(X)

Observación Observación (mes) (mes)

Tabla 1.2 Datos de regresión para la Aerolínea

Las sumas de los cuadrados y de los productos cruzados son:

3137.733333 15

(187)-2.469

171.733333 n

(268) - 4.960

148.933333 15

(187)(268) - 3.490

)Y)(X(-XYSCxy

171.733333 n

(268) - 4.960

Con Formulas (1.9) establecer el coeficiente de regresión así :y con(1.10 el intercepto )

86667.1715

46667.1215

4.40 o 4.3865

)46667.12(08.1866667.17

XbYb 10

ii X08.140.4Y El modelo de regresión

1.08 ņ 1.0813166

148.933333

733333.137

SCxyb 1

Así, si el valor ¨X¨ = 10 , es 15.200 valor que predice el modelo

es el Nº personas decidirán volar en nuestra empresa

Tanto X como Y están expresadas en miles

El coeficiente de 1.08 significa que por cada incremento de una

unidad en X,Y aumentará en 1.08 unidades. 1.080 pasajeros más

abordarán aviones

2.15)10(08.140.4Yi

28.16)11(08.140.4Yi

Figura 1.2

1.-El centro de ubicación laboral en una universidad desea determinar si los

promedios puntuales en notas de los estudiantes puede explicar el número

de ofertas laborales que ellos reciben después de graduarse.

Los datos siguientes corresponden a los 10 recién graduados.

a. Haga un diagrama de dispersión para los datos.

b. Calcule e interprete el modelo de regresión. ¿Qué le dice este modelo

sobre la relación entre promedios los y las ofertas de trabajo?

c. Si Carlos tiene un promedios de 3.22, ¿cuántas ofertas laborales

pronostica usted que él recibirá?

Estudiante 1 2 3 4 5 6 7 8 9 10

Promedios 3.25 2.35 1.02 0.36 3.69 2.65 2.15 1.25 3.88 3.37

Ofertas 3 3 1 0 5 4 2 2 6 2

2.- Un economista del Departamento de Recursos Humanos está preparando

un estudio sobre el comportamiento del consumidor. Él recolectó los datos

que aparecen en miles de dólares para determinar si existe una relación

entre el ingreso del consumidor y los niveles de consumo. Determine cuál es

la variable dependiente.

sobre la relación entre el consumo y el ingreso? ¿Qué proporción de cada

dólar adicional que se gana se invierte en consumo?

c. ¿Qué consumo pronosticaría el modelo para alguien que gana US$27.500?

Consumidor 1 2 3 4 5 6 7 8 9 10 11 12

Ingreso 24.3 12.5 31.2 28.0 35.1 10.5 23.2 10.0 8.5 15.9 14.7 15

Consumo 16.2 8.5 15 17 24.2 11.2 15 7.1 3.5 11.5 10.7 9.2

3.- Un banco que se especializa en créditos para vivienda intenta analizar el

mercado de finca raíz, midiendo el poder explicativo que las tasas de interés

tienen sobre el número de casas vendidas en el área. Se compilaron los

datos para un periodo de 10 meses, así:

sobre la relación entre las tasas de interés y las ventas de vivienda?

c. Si la tasa de interés es del 9.5%, ¿cuántas casas se venderían de acuerdo

con el modelo?

Mes 1 2 3 4 5 6 7 8 9 10

Interés 12.3 10.5 15.6 9.5 10.5 9.3 8.7 14.2 15.2 12

Casas 196 285 125 225 248 303 255 102 105 114

4.- Una empresa produce partes para camión que se utilizan en los

semirremolques. El jefe de contabilidad desea desarrollar un modelo de

regresión que pueda utilizarse para predecir los costos. El selecciona

unidades de producción fabricadas como una variable de predicción y

recolecta los datos que se observan aquí. Los costos están en miles de

dólares y las unidades en cientos.

sobre la relación entre producción y costos?

c. Según el modelo, ¿Cuánto costaría producir 750 unidades?

Unidades Unidades 12.312.3 8.38.3 6.56.5 4.84.8 14.614.6 14.614.6 14.614.6 6.56.5

Costo Costo 6.26.2 5.35.3 4.14.1 4.44.4 5.25.2 4.84.8 5.95.9 4.24.2

5.- El profesor ha anotado que muchos de sus estudiantes se han ausentado

de clase este semestre, considera que puede explicar esta falta de asistencia

por las distancias a las que sus estudiantes viven del campus. Se práctica

una encuesta a once estudiantes sobre cuantas millas deben viajar para

asistir a clase y el número de clases a las que han faltado.

b. Compare e interprete el modelo de regresión ¿Qué determina el profesor?

c. ¿A cuantas clases faltaría usted si viviera a 3.2 millas del campus, según

el modelo?

Millas Millas 55 66 22 00 99 1212 1616 55 77 00 88

Ausencias Ausencias 22 22 44 55 44 22 55 22 33 11 44

1.5 El error estándar de estimación:

Una medida de bondad de ajuste.

Qué tan bueno es el mejor ajuste en la relación entre X y Y

Por lo menos 2 medidas de bondad de ajuste:

1)El error estándar de estimación

2) El coeficiente de determinación.

Refiriéndonos al primero Mide el grado de dispersión de los valores Yi alrededor de la recta de regresión.

Refleja la tendencia a desviarse del valor real de Y cuando se utiliza el modelo de regresión para fines predicativos.

En este sentido, es una medida del error “típico”.

Si la recta de regresión pasaría por cada uno de los puntos. No se presentarán errores en los pronósticos, y el error estándar de estimación sería cero

Usualmente habrá alguna dispersión en los datos

El error estándar de estimación mide esta variación promedio de los puntos de datos alrededor de la recta de regresión

Proporciona una medida del error que se presentará en dicha estimación.

Figura 1.7

Diagramas de dispersión posibles

Uno de los supuestos básicos del modelo MCO es que la varianza en los errores alrededor de la recta de regresión es la misma para todos los valores de X.

Entre menor sea el valor de 2, menor será la dispersión

Debido a que 2 es un parámetro, permanecerá desconocida, y es necesario estimar su valor con los datos muéstrales.

Una estimación insesgada de 2 es el cuadrado medio del error (CME)

El error estándar

de estimación

[1.15]2

)ˆ( 2

YYSe ii

En un modelo de regresión simple, se imponen dos restricciones en el conjunto de datos, debido a que se deben estimar dos parámetros, 0 y 1.

Por tanto hay n – 2 grados de libertad y CME es:

La suma de cuadrados

del error

[1.16] SCx

)SCxy(SCySCE

Cuadrado medio del error

[1.17]

El error estándar de estimación es entonces

El error estándar

[1.18]

225225

289289

169169

529529

256256

441441

196196

400400

576576

289289

256256

324324

529529

225225

256256

4.9604.960

100100

144144

289289

100100

225225

100100

196196

361361

100100

121121

169169

256256

100100

144144

2.4692.469

150150

204204

104104

391391

160160

315315

140140

280280

456456

170170

176176

234234

368368

150150

192192

3.4903.490

268268

187187

YY22XX22XyXyPasajeros Pasajeros (en 1.000`s) (en 1.000`s)

(Y)(Y)

Publicidad Publicidad (en US$1.000`s) (en US$1.000`s)

(X)(X)

Observación Observación (mes) (mes)

Tabla 1.2 Datos de regresión para la Aerolínea

3137.733333 15

(187)-2.469

171.733333 n

(268) - 4.960

148.933333 15

(187)(268) - 3.490

)Y)(X(-XYSCxy

171.733333 n

(268) - 4.960

En el caso de nuestro ejemplo

0.907 o 0.90678

0.82226Se

0.82226 2-15

10.6893CME

10.6893

(148.9333)-171.7333

7333.137

)SC(SCE

Proporciona una medida cuantificable de que tan bien se ajusta el modelo a los datos que se han recolectado.

0.907 o 0.90678

0.82226Se

0.82226 2-15

10.6893CME

10.6893

(148.9333)-171.7333

7333.137

)SC(SCySCE

El error estándar siempre se expresa en las mismas unidades que la variable dependiente Y, en este caso miles de pasajeros.

Por tanto, el error estándar de 0.907, o 907 pasajeros mide la variabilidad de los valores Y alrededor de la recta de regresión.

En análisis de regresión se tienen dos variables, X y Y. el error estándar de estimación es una medida de dispersión de los valores Y alrededor de su media, dado un valor X específico.

Como el error estándar de estimación es similar a la desviación estándar para una sola variable, puede interpretarse similarmente.

En el ejemplo actual, en donde X = 10.

2.15)10(08.140.4Yi

El valor de 15,200 es el valor promedio para Y para X es igual a 10 muchas veces.

El error estándar de estimación, determina un valor de 0.907 por encima y por debajo del valor promedio de 15.2.

Estos puntos son 14.29 (15.2 – 0.907) y 16.11 (15.2 + 0.907).

En este caso, el 68.3% de las veces cuando se invierte US$10.000 en publicidad, el número de pasajeros estará entre 14.290 y 16.110. El 31.7% del tiempo restante, el número de pasajeros excederá de 16.110 o será menor que 14.290.

Figura 1.8

Error estándar de estimación

1.7 Análisis de correlación

Conjunto de técnicas estadísticas empleadas para medir la intensidad de la asociación entre dos variables.

El objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables

Es decir qué tan bueno es el mejor ajuste.

El coeficiente de correlación (r) Es una medida de la intensidad de la relación

entre dos variables.

•Puede tomar valores entre -1.00 y 1.00.

•Valores de -1.00 o 1.00 indican correlación fuerte y perfecta.

•Valores cercanos a 0.0 indican correlación débil.

•Valores negativos indican una relación inversa y valores positivos indican una relación directa.

Figura 1.9

Posibles valores para el coeficiente de correlación r

El coeficiente de correlación se calcula así:

Se observa precisamente lo que r está midiendo.

La porción que está explicada por el modelo de regresión SCR.

Con relación al monto total de la desviación alrededor de , SCT,

Como raíz cuadrada de SCR/SCT, el coeficiente de correlación proporciona una medida relativa

Por ende mide la fuerza de la relación entre Y y la variable explicativa X.

Coeficiente

de correlación

[1.22]

SCTSCR

r total Variación

explicada Variación

La fórmula (1.22) es difícil de calcular manualmente. Una fórmula más conveniente

En nuestro l caso

Forma de calcular

el coeficiente de correlación

[1.23] )SCy)(SCx(

SCxyr Y

9683.0)7333.171)(7333.137(

93333.148r

Esto indica una relación positiva fuerte entre los pasajeros y la cantidad de dinero invertido en fines publicitarios.

El coeficiente de determinación r2

Es otra medida la más importante de la bondad de ajuste se halla.

Una fórmula más conveniente de cálculo es:

Proporciona una medida de bondad de ajuste porque revela que porcentaje del cambio en Y se explica por un cambio en X.

Coeficiente de

determinación

[1.24] una medida de bondad de ajuste

totalDesviación

licadaDesviaciónr

Fórmula computacional para

[1.25] el coeficiente de determinación ))((

SCySCx

El 94% del cambio en el número de pasajeros se explica mediante un cambio en la publicidad.

Este r2 tiene significado sólo para las relaciones lineales.

Dos variables pueden tener un r2 de cero y sin embargo estar relacionadas en sentido curvilíneo.

Además, no se interpreta este valor como si el 94% del cambio en los pasajeros fuera causado por un cambio en la publicidad.

La correlación no significa causa.

El coeficiente de determinación para nuestro caso

Como se puede esperar, r2 puede determinarse más fácil, simplemente

elevando al cuadrado el coeficiente de correlación r.

r2 = (0.9683)2 = 0.940.94 o 0.93776

)7333.171)(7333.137(

)9333.148(

0.94 o 0.93776

)7333.171)(7333.137(

)9333.148(

SCYSCx

1.8 Limitaciones del análisis de regresión

Aunque los análisis de regresión y correlación con frecuencia han demostrado ser de utilidad en la toma de decisiones para una gran variedad de negocios y de asuntos económicos, existen ciertas limitaciones en su aplicación e interpretación.

Estos no pueden Determinar relaciones causa-efecto.

Adicionalmente, se debe tener cuidado de no utilizar el modelo de regresión para predecir Y para valores de X que estén fuera del rango del conjunto original de datos.

Figura 1.15

Posible relación X – Y

Fin del CapituloFin del Capitulo

0.94 o 0.93776

)7333.171)(7333.137(

)9333.148(

SCySCx

3137.733333 15

(187)-2.469

3137.733333 15

(187)-2.469

SCX = Suma de cuadrados de X

0.907 o 0.90678

0.82226Se

0.82226 2-15

10.6893CME

10.6893

(148.9333)-171.7333

7333.137

)SC(SCySCE

1.08 ņ 1.0813166

148.933333

733333.137

3137.733333 15

(187)-2.469

171.733333 n

(268) - 4.960

148.933333 15

(187)(268) - 3.490

)Y)(X(-XYSCxy

171.733333 n

(268) - 4.960

3137.733333 15

(187)-2.469

171.733333 n

(268) - 4.960

148.933333 15

(187)(268) - 3.490

)Y)(X(-XYSCxy

171.733333 n

(268) - 4.960

0.907 o 0.90678

0.82226Se

0.82226 2-15

10.6893CME

10.6893

(148.9333)-171.7333

7333.137

)SC(SCE

Proporciona una medida cuantificable de que tan bien se ajusta el modelo a los datos que se han recolectado.

0.907 o 0.90678

0.82226Se

0.82226 2-15

10.6893CME

10.6893

(148.9333)-171.7333

7333.137

)SC(SCySCE

0.907 o 0.90678

0.82226Se

0.82226 2-15

10.6893CME

10.6893

(148.9333)-171.7333

7333.137

)SC(SCE

0.907 o 0.90678

0.82226Se

0.82226 2-15

10.6893CME

10.6893

(148.9333)-171.7333

7333.137

)SC(SCySCE

Se = El error estándar de estimación

Forma de calcular

el coeficiente de correlación

[1.23] )SCy)(SCx(

SCxyr Y

9683.0)7333.71)(7333.137(

93333.148r

Esto indica una relación positiva fuerte entre los pasajeros y la cantidad de dinero invertido en fines publicitarios.

1.08 ņ 1.0813166

148.933333

733333.137

Observaciones ( meses )

Publucidad en miles de

Pasageros en Miles ( Y)

Pronóstico Pasageros en Miles Ŷ

1 10 15 15,199419172 12 17 17,362052273 8 13 13,036786064 17 23 22,768635045 10 16 15,199419176 15 21 20,606001947 10 14 15,199419178 14 20 19,524685389 19 24 24,9312681510 10 17 15,1994191711 11 16 16,2807357212 13 18 18,4433688313 16 23 21,6873184914 10 15 15,1994191715 12 16 17,36205227

Sumatoria 187 268Promedio 12,46666667 17,86666667

ii X08.140.4Y

8 regrecion y correlacion2009

Documents

8 × 8 matriz led _ proyectos y kits electrónica

calendario escolar...

departamento de tecnología electrónica y...

yves le veu8 8 8 8 8 8 8 8 .....c-3 8 8 8 8 8 9 8 9 9 9 9 8...

conociendo el ecosistema de windows phone 8 y windows 8

8.subindice y superindice

8 y 9.docx

aplicaciones universales, windows 8 y windows phone 8....

2x9 8 2x11 8 2x13 8 2x15 8 2x17 8 2x19 8

hino à itapipoca · 2006. 10. 23. · b ## # # # # ## ## #...

regrecion lineal simple

palabras individuales y colectivas · 1 ordena y utiliza el...

8. glándulas y hormonas

8 facultamiento y delegación

Álgebra lineal y el formato jpeg -...

captiulo 7 y 8

regrecion multiple

calor y temperatura 8°

clinica de dibujo y comunicación - up - 8-8-2012

proyecto 5 y 8