07-regresion y correlacion
Post on 02-Feb-2016
57 Views
Preview:
DESCRIPTION
TRANSCRIPT
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 272
REGRESIÓN Y CORRELACIÓN
Si a cada unidad estadística se le observa simultáneamente dos variables cuantitativas entonces se obtiene dos series de datos emparejados. En este caso con frecuencia se desea
conocer si ambas variables están relacionadas o si son independientes.
Unidad estadística : 1 2 3 n
Variable: X : 1X 2X 3X ............ nX
Variable: Y : 1Y 2Y 3Y ............ nY
Es decir, se tiene n observaciones bidimensionales:
)Y,X( ii : (X1 , Y1) , (X2 , Y2) , ........ , (Xn , Yn)
Diagrama de esparcimiento
Cada par de datos representa un punto en el sistema cartesiano.
Este conjunto de puntos )Y,X( ii se llama “diagrama de esparcimiento”, “diagrama de
dispersión”, “dispersigrama” o ”nube de puntos”.
El diagrama de dispersión puede tomar diferentes formas:
Entonces, según la forma del diagrama de dispersión; podemos pensar en un modelo
matemático que mejor describa la relación existente entre X e Y.
El sentido de la regresión es el de predicción de una variable basándonos en el conocimiento de otra.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 273
Regresión
Es un método que se emplea para encontrar una función que se adapte o ajuste a un diagrama de esparcimiento con la finalidad de poder obtener una predicción aproximada de una de las
variables a partir de la otra.
El objetivo de un análisis de regresión es investigar la relación estadística que existe entre
una variable dependiente Y y una o más variables independientes k21 X,......,X,X . Para
poder realizar esta investigación, se debe postular una relación funcional entre las variables.
Debido a su simplicidad analítica, la forma funcional que más se utiliza en la práctica es la
relación lineal. Cuando solo existe una variable independiente, esto se reduce a una línea recta:
)X(fY
Donde:
X : variable predictora (variable independiente o explicativa)
Y : variable predictando o variable respuesta (variable dependiente o explicada).
Al analizar los siguientes diagramas de dispersión:
La nube de puntos parece ajustarse bien
a una recta.
Una línea recta de pendiente positiva
puede aproximarse a casi todos los
puntos. Un análisis de regresión está justificado.
No hay indicios de existencia de relación.
Cualquier recta que se trace deja a
muchos puntos alejados de ella. Hacer un análisis de regresión no tiene
sentido.
El ajuste lineal no parece adecuado para este dispersigrama.
Existe relación pero no lineal.
Existen observaciones atípicas (outliers).
Probablemente influyan en la estimación
de la recta.
Correlación
Es el método empleado para determinar el grado de relación entre las variables que se estudian para así determinar en qué medida una relación funcional describe o explica de una
forma adecuada la relación entre estas variables. Explica el grado de la bondad del ajuste del
modelo de regresión.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 274
Coeficiente de Correlación Lineal Simple: r (Coeficiente de Pearson)
Indica si hay relación lineal entre dos variables y el grado de esta relación (alta, baja o nula). Permite contestar ¿qué tan estrecha es la relación entre X e Y?
El signo de r tiene que ver sólo con la dirección de la relación entre dos variables, ya sea
directa o inversa y la magnitud del coeficiente tiene que ver con la intensidad o estrechez de la relación. El valor de r puede ser positivo, negativo o cero.
11 r
La correlación es tanto más fuerte a medida que r se aproxima a –1 ó +1 y es tanto más débil
a medida que se aproxima a 0.
Nota:
Si r 0,75 la recta de regresión será una buena estimación.
Todo r 0 indica cierto grado de relación entre dos variables
Una correlación baja no siempre significa ausencia de relación ya que puede existir una correlación curvilínea muy estrecha.
1r
Existe una relación lineal directa perfecta
(positiva) entre las dos variables. Es decir, las puntuaciones bajas de X se asocian con las
puntuaciones bajas de Y, mientras las
puntuaciones altas de X se asocian con los valores altos de la variable Y.
1r
Existe una relación lineal inversa perfecta (negativa) entre las dos variables. Es decir, las
puntuaciones bajas en X se asocian con los
valores altos en Y, y las puntuaciones altas en
X se asocian con los valores bajos en Y.
0r
No existe una relación lineal entre las dos variables estudiadas.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 275
Fórmulas para calcular el Coeficiente de Correlación Lineal de Pearson:
2222 YYnXXn
YXXYnr
Forma de Regresión:
b.br
Conociendo a y b :
22
2
YnY
YnXYbYar
Ejemplo:
Una encuesta entre vendedores de autos usados para determinar la relación entre la cantidad
de anuncios clasificados y la venta de autos usados, dio los siguientes resultados del número de avisos clasificados y el número de automóviles usados vendidos para cada uno de los
negocios que no utilizaron ningún otro medio publicitario.
Nº Anuncios clasificados : 74 45 50 38 29 17 Nº Autos vendidos : 139 110 95 78 60 54
Calcular e interpretar el coeficiente de correlación.
Solución:
958.0)536530466()253125756(
536253256086r
22
Un modelo lineal es confiable, por lo tanto se pueden realizar pronósticos.
Estadísticas – Estadísticas Básicas – Correlación…
Al hacer clic en Aceptar.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 276
Coeficiente de Determinación: 2r
Determina el porcentaje de la variación total de Y que queda explicada por la ecuación de regresión. Mide la bondad del ajuste de la línea de regresión.
1r0 2
Ejemplo:
%92100958.0r958.0r 22
El 92% de los cambios que se producen en el número de autos vendidos pueden ser atribuidos a los cambios que se producen en el número de anuncios clasificados, mientras que el 8% de
dichos cambios se pueden atribuir a otros factores que no han sido tomados en cuenta en
este caso o a efectos aleatorios.
Covarianza: xyS
La covarianza entre dos variables es un estadístico resumen indicador de si las puntuaciones están relacionadas entre sí. El signo de la covarianza nos dice si el aspecto de la nube de
puntos es creciente o decreciente, pero no nos dice nada sobre el grado de relación entre las
variables.
La fórmula para calcular la covarianza es:
n
Y.
n
X
n
XY)Y,X(CovSXY
Una covarianza positiva significa que existe una relación lineal positiva entre las dos variables,
cuando es negativa significa que existe una relación lineal inversa (negativa) entre las dos variables; cuando es cero se interpreta como la no existencia de una relación lineal entre las
dos variables estudiadas.
Ejemplo.
Usando los datos de la encuesta entre vendedores de autos usados para determinar la relación
entre la cantidad de anuncios clasificados y la venta de autos usados, se tiene:
11.5016
536
6
253
6
25608SXY
Como la covarianza es positiva entonces podemos concluir que existe una relación lineal
positiva entre el número de autos vendidos y el número de avisos clasificados.
Modelos de Regresión:
Estudian la relación cuantitativa (estocástica) entre una variable de interés Y (respuesta o
dependiente), y un conjunto de variables explicativas ( n21 x,....,x,x ) (regresoras o
independientes)
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 277
MODELO DE REGRESION BIVARIABLE LINEAL
Modelo de Regresión de Y sobre X:
Sea )y,x(......,)y,x(,)y,x( nn2211 observaciones de las variables X e Y para una muestra
de tamaño n, donde )y,....,y,y( n21 son independientes. El modelo de regresión lineal
simple está dado por:
iii eXY
Donde y son parámetros desconocidos, )x,....,x,x( n21 son valores fijos y
)e,...,e,e( n21 son errores aleatorios.
Recta de Regresión de Y sobre X: XbaY
Se llama así a la recta que atraviesa el diagrama de esparcimiento y que mejor se ajusta a él. Si llegamos a conocer la ecuación, se podrá llegar a estimar valores de Y desconocidos a partir
de valores de X conocidos.
Y = f ( X )
Variable Variable
Predictando Predictora
Y : variable predictando, predicha, explicada o respuesta.
X : variable predictora o explicativa.
Y = a + bX + ei e : error de estimación, residuo, error residual.
Error o residuo: ie
Es la distancia que hay del valor observado a la
recta de regresión. Puede ser positivo o negativo. El error de cada dato se calcula mediante:
iii yye
El promedio de los errores es igual a cero, al igual que la suma.
Recta de Regresión de X sobre Y: X'b'aX
Si se hubiera tomado Y como variable predictora o explicativa y X como predictando o
explicada, la recta de regresión estima X a partir de los valores de Y.
X = f ( Y )
Variable Variable
Predictando Predictora
X = a + bY + ei ei : errores de estimación.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 278
Rectas de Regresión de Y sobre X y de X sobre Y
Ambas rectas de regresión, se cortan en el punto cuyas coordenadas corresponden a las
medias de ambas variables: )y,x( , a este punto se le suele llamar centro de gravedad G de
la distribución
Por lo general: a a y b b Por lo tanto la ecuación de regresión de Y sobre X difiere
de la ecuación de regresión de X sobre Y.
Sólo cuando la coincidencia entre los puntos reales y la recta de regresión sea perfecta,
entonces ambas rectas de regresión serán iguales.
'bby'aa
En este caso, las dos rectas de regresión son coincidentes, entonces los datos quedan
perfectamente descritos por una relación lineal. La predicción es perfecta.
Los datos presentan una mejor
relación lineal a medida que las dos rectas se acercan.
Si ambas rectas son perpendiculares
entonces los datos no presentan una relación lineal.
Interpretación de a y b
a : es la intersección de la recta de regresión con el eje Y.
Es el valor que toma la variable predictando Y cuando la variable predictora X es cero.
b : Coeficiente de regresión. Es la pendiente de la recta. Debe tener el mismo signo que r.
Es la cantidad de cambio de la variable predictando Y asociada a un cambio unitario
de la variable predictora X.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 279
Si la recta presenta pendiente positiva: b > 0
Existe una relación lineal directa o positiva
(cuando X aumenta Y también aumenta).
Ejemplo:
Si Y = 2 + 0.7 X donde:
X : Horas de estudio Y : Nº de respuestas correctas.
Horas de estudio
a = 2
Cuando la alumna no estudia, se espera que obtenga 2 respuestas correctas.
b = 0.7 1
Por cada hora que se incremente en las horas de estudio, se espera que el número de respuestas correctas se incremente en aproximadamente 1.
Si la recta presenta pendiente negativa: b < 0
Existe una relación lineal inversa o negativa.
(cuando X aumenta Y disminuye)
Ejemplo:
Si Y = 19 – 2.2 X donde:
X: Horas de estudio Y : Nº de errores cometidos.
Horas de estudio
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 280
a = 19
Cuando la alumna no estudia, se espera que cometa 19 errores.
b = -2.2 -2
Por cada hora que se incremente en las horas de estudio, se espera que el número de errores
disminuya en aproximadamente 2.
En algunas situaciones, “a” no tiene una interpretación realista si el cero no es un punto del
rango de la X. Por ejemplo, al estudiar la relación entre las variables peso y estatura de un
grupo de personas; no podría decirse que si la estatura de una persona es 0, se espera que su peso sea tal.
Según el signo de “b”, se tiene:
0b 0b 0b
Existe relación lineal directa
Existe relación lineal Inversa
No existe Relación
Según el signo de a y b, un modelo lineal puede presentar cualquiera de las siguientes formas:
0b
0a
0b
0a
0b
0a
0b
0a
Un valor atípico o outlier modifica de forma importante la recta de regresión ajustada.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 281
MÉTODO DE MINIMOS CUADRADOS
Al observar el diagrama de esparcimiento se puede ver que ninguna recta pasará por todos
los puntos, entonces ¿cuál será la mejor? El método de mínimos cuadrados es una técnica empleada para llegar a la ecuación de regresión minimizando la suma de los cuadrados de las
distancias verticales entre los valores Y verdaderos y los valores pronosticados de Y.
Este método supone que la recta de mejor ajuste es aquella para la cual la suma de los
cuadrados de las distancias verticales de los puntos (Xi , Yi) a la recta es mínima.
Si entre estas variables existiera una relación lineal perfecta, entonces todos los puntos
caerían sobre la recta de regresión, que también ha sido trazada y que muestra la relación “promedio” que existe entre las dos variables.
En la práctica, se observa que la mayoría de los puntos no caen directamente sobre la recta,
sino que están “dispersos” en torno a ella. Esta dispersión representa la variación en Y que no puede atribuirse a la variación en X.
MODELO DE REGRESIÓN DE Y SOBRE X XbaY
mínimo)YY(ed
S
2ii
2i
2i
Esta expresión se minimiza derivando:
0b
S0
a
S
)1()bXaY(2)bXaY(a
0)bXa(Y(a
)YY(aa
S
ii2
ii
2ii
2ii
= )XbaY(2 ii
= ii Xb2a2Y2
= 0XbanY ii
ii YXban
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 282
)X()bXaY(2)bXaY(b
0))bXa(Y(b
)YY(bb
S
iii2
ii
2ii
2ii
= )XbXaYX(2 2iiii
= 2iiii Xb2Xa2YX2
= 0XbXaYX 2iiii
ii2ii YXXbXa
Estas ecuaciones se llaman Ecuaciones Normales:
ii YXban
ii2ii YXXbXa
Al resolver estas ecuaciones usando la regla de Cramer se obtiene:
MODELO DE REGRESIÓN DE X SOBRE Y YbaX
Las ecuaciones normales o paramétricas de regresión son:
YXYbYa
XYbna
2
Al resolver estas ecuaciones usando la regla de Cramer se obtiene:
Forma matricial
Ecuación de Regresión de Y sobre X:
XY
Y
XX
Xn
b
a1
2
Ecuación de Regresión de X sobre Y:
XY
X
YY
Yn
b
a1
2
22
2
XXn
XYXYXa
22 XXn
YXXYnb
22
2
YYn
XYYXY'a
22 YYn
XYXYn'b
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 283
Ejemplo:
Tomando los datos de la cantidad de anuncios clasificados y el número de autos vendidos:
Nº Anuncios clasificados : 74 45 50 38 29 17
Nº Autos vendidos : 139 110 95 78 60 54
a) Trazar el diagrama de esparcimiento.
1. Digitar los datos.
2. Graph – Scatterplot…
Clic en OK.
3. Ingresar las variables correspondientes.
Clic en OK
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 284
Entonces, se muestra el siguiente diagrama de dispersión:
8070605040302010
140
130
120
110
100
90
80
70
60
50
Anuncios:X
Au
tosV
en
d:Y
Scatterplot of AutosVend:Y vs Anuncios:X
b) Hallar las ecuaciones normales:
YXXbXa
YXbna
2
25608b12575a253
536b253a6
c) Ajustar un modelo lineal a los datos:
XbaY X58.180.22Y
80.22
253125756
2560825353612575
XXn
XYXYXa
222
2
58.1
253125756
536253256086
XXn
YXXYnb
222
Interpretando a y b:
a = 22,8 23 autos vendidos.
Cuando no se publican anuncios clasificados, se espera vender aproximadamente 23
autos.
b = 1,58 2 autos vendidos
Por cada anuncio clasificado que se incremente, se espera que el número de autos
vendidos se incremente en aproximadamente 2.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 285
Stat – Regresión – Fitted Line Plot…
Clic en OK
8070605040302010
140
130
120
110
100
90
80
70
60
50
Anuncios:X
Au
tosV
en
d:Y
S 10,2770
R-Sq 91,8%
R-Sq(adj) 89,8%
Fitted Line PlotAutosVend:Y = 22,85 + 1,577 Anuncios:X
d) Hallar los valores estimados y los residuos o errores de estimación:
Valores Reales u observados
Nº Anuncios
X
Nº Autos vend.
Y
Valores Estimados
X6.18.22Y
Residuos
YYei
74 139 141.2 - 2.2
45 110 94.8 15.2
50 95 102.8 - 7.8
38 78 83.6 - 5.6
29 60 69.2 - 9.2
17 54 50.0 4.0
Al observar la columna de los residuos o errores de estimación se puede apreciar que
la mayoría son negativos, eso significa que se están realizando estimaciones por encima del valor real.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 286
Error Estándar de Estimación ( LS)
En un diagrama de dispersión no todos los puntos coinciden con la línea de regresión. Si
todos los puntos estuvieran sobre la línea no habría error al predecir la variable respuesta Y basándose en la variable predictora X.
El error estándar de estimación nos da una medida de la desviación promedio de los errores de predicción en torno a la línea de regresión. Mide la dispersión de los valores observados
alrededor de la recta de regresión.
Es el mismo concepto de la desviación estándar. La desviación estándar mide la dispersión
de los datos alrededor de la media aritmética, el error estándar de estimación mide la
dispersión de los valores observados alrededor de los valores estimados (recta de regresión).
El error estándar de estimación se determina por medio de:
2n
XYbYaYS
2
X/Y
Ejemplo: Continuando con el ejemplo de la cantidad de anuncios clasificados y el número de autos
vendidos:
Nº Anuncios clasificados : 74 45 50 38 29 17
Nº Autos vendidos : 139 110 95 78 60 54
27.104
256085768.15368456.2253046S X/Y
En promedio los valores reales se alejan con respecto a la recta de regresión en
aproximadamente 10 autos.
Intervalo de pronóstico para un valor futuro de Y: si LYL
Es frecuente desear obtener un intervalo de valores razonables para el valor de Y asociado
con algún experimento futuro cuando la variable predictora X tenga un valor 0x
22
20
L00)X(Xn
)xx(n
n
11Stxba
2n,α/2-1tt0
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 287
Ejemplo:
Nº Anuncios clasificados : 74 45 50 38 29 17
Nº Autos vendidos : 139 110 95 78 60 54
Para 55 avisos clasificados, hallar un intervalo de pronóstico del 95% para el número de autos
vendidos.
Solución:
2.7764,0.975t2n,α/2-1tot 55x0 17.42x
2
2
253125756
)17.4255(6
6
1127.10776.2555768.18456.22
48.141Y65.77
Con una confianza del 95%, para 55 avisos clasificados se espera que el número de autos
vendidos sea aproximadamente como mínimo 78 y como máximo 141.
1. Digitar los datos:
2. Stat – Regression – Regression…
3. Clic en Options….
Clic en OK y luego en OK.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 288
Intervalo de confianza para β
Un intervalo de confianza del ( 1 )% para la pendiente de la verdadera recta de
regresión es: si LL
Este intervalo está centrado en la estimación puntual del parámetro y la cantidad que se
extiende a cada lado de la estimación depende del nivel de confianza deseado y de la cantidad de variabilidad del estimador.
n
XX
Sot 2
2
Lb
2n,α/2-1tot
Ejemplo:
Nº Anuncios clasificados : 74 45 50 38 29 17 Nº Autos vendidos : 139 110 95 78 60 54
Hallar un intervalo de confianza del 95% para el coeficiente de regresión
Solución:
2.7764,0.975t2n,α/2-1tot
23.292.0
6
25312575
27.10776.25768.1
2
Con una confianza del 95% se espera que el coeficiente de regresión esté variando entre
0.92 y 2.23.
ANÁLISIS DE VARIANZA (ANOVA) DE REGRESIÓN
El análisis de varianza consiste en descomponer la variabilidad de la variable predictando o
respuesta en variabilidad explicada por el modelo más variabilidad no explicada o residual,
esto permitirá contrastar si el modelo es significativo o no.
El ANOVA trata de responder a la siguiente pregunta: ¿es mejor usar X para predecir la
variabilidad de Y, o por el contrario se puede conseguir la misma explicación de Y sin tener en cuenta los valores de X, simplemente usando el valor más representativo de Y, esto es, su
media? Si sucediera esto último, la recta del modelo tendría pendiente cero, por lo que las
hipótesis a verificar son:
0:H0
0:H1
Si se acepta 0H la variable predictora no influye y no hay relación lineal entre ambas
variables.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 289
Con frecuencia el problema de analizar la calidad de la línea de regresión estimada se maneja
a través de un enfoque de Análisis de Varianza, donde la suma de cuadrados total se particiona en dos componentes:
SCT = SCR + SCE Donde:
SCR : Refleja la cantidad de variación de los valores de Y explicados por el modelo
lineal.
SCE : Refleja la variación alrededor de la línea de regresión. Mide cuánta variación en Y
es dejada sin explicación por el modelo, es decir cuánto no se puede atribuir a
una relación lineal.
Modelo de Regresión poblacional Lineal Simple: ii eXY
Línea de Regresión estimada o ajustada: XbaY
Procedimiento ANOVA de regresión:
1. Hipótesis:
0:H0 El modelo es Y , es decir la variación de Y resulta de
fluctuaciones aleatorias que son independientes de los valores de X. No existe relación lineal entre las variables.
0:H1 El modelo es XY , es decir la variación de Y se puede
atribuir a las variaciones de X. El modelo lineal es significativo.
2. Valor Crítico:
2n,1,1F
3. Estadística de Prueba:
CME
CMRF
Tabla de Análisis de Varianza
Fuente de
Variación
Grados de
Libertad
Suma de
Cuadrados
Cuadrado
Medio
F
Regresión
1
SCR 1
SCRCMR
CME
CMR
Error
n - 2
SCE
2 -n
SCECME
Total
n - 1 SCT
Suma de Cuadrados Total (Variación Total):
n
)Y(YSCT
22
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 290
Suma de Cuadrados de Regresión (Variación Explicada):
n
)X(XbSCR
222
Suma de Cuadrados del Error (Variación no Explicada): SCE = SCT - SCR
4. Decisión:
Si F pertenece a la región de aceptación, entonces aceptar H0
5. Conclusión:
Con una confianza del (1-) %, si se acepta 0H la variable predictora X no influye y
no hay relación lineal entre ambas variables. En caso contrario, sí existe una relación
lineal entre ambas variables.
Ejemplo:
Nº Anuncios clasificados : 74 45 50 38 29 17 Nº Autos vendidos : 139 110 95 78 60 54
¿Se puede afirmar que las variaciones en el número de autos vendidos se deben a
fluctuaciones aleatorias que son independientes del número de anuncios clasificados?
Solución:
1. Hipótesis:
0:H
0:H
1
0
2. Valor Crítico:
71.7F 4,1,95.02n,1,1F
7.71
3. Estadística de Prueba: 90.44CME
CMRF
Tabla de Análisis de Varianza
Fuente de Variación
Grados de Libertad
Suma de Cuadrados
Cuadrado Medio
F
Regresión 1 4740.96 4740.96
44.90 Error (residual) 4 422.37 105.59
Total 5 5163.33
33.5163
6
53653046
n
YYSCT
22
2
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 291
96.4740
6
253125755768.1
n
XXbSCR
22
2
22
37.42296.474033.5163SCRSCTSCE
4. Decisión:
F = 44.90 pertenece a la región de rechazo, entonces rechazamos 0H y aceptamos 1H
5. Conclusión:
Con una confianza del 95% no se puede afirmar que las variaciones en el número de autos vendidos se deben a fluctuaciones aleatorias independientes del número de
anuncios clasificados.
Digitar los datos:
Stat – Regression – Regression…
Clic en Options….
Clic en OK y luego en OK.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 292
REGRESIÓN Y CORRELACIÓN CUADRÁTICA SIMPLE
La parábola por lo general se aplica en aquellos casos en que se presenta una parte
ascendente y en seguida una descendente o viceversa.
En la práctica su uso es poco frecuente sin embargo a veces se utiliza para proyecciones de
utilidad, ingresos.
Ecuación de Regresión Cuadrática
2XcXbaY
Su gráfico:
Para hallar los valores de a, b y c se deben resolver las siguientes ecuaciones normales:
YXXcXbXa
YXXcXbXa
YXcXbna
2432
32
2
Forma matricial
YX
XY
Y
XXX
XXX
XXn
c
b
a
2
1
432
32
2
Coeficiente de correlación cuadrático
22
22
YnY
YnYXcXYbYar
Error estándar de Estimación cuadrático
3n
YXcXYbYaYS
22
C
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 293
Ejemplo:
En la una fábrica se tienen los siguientes datos correspondientes a las horas trabajadas (en miles) que producen cierto producto (en unidades).
Horas trabajadas : 1 2 4 5 7 8 8 9 10 12 Producción : 25 15 10 10 15 10 20 20 35 45
a) Trazar el diagrama de esparcimiento.
b) Ajustar a los datos un modelo cuadrático.
Al trazar el diagrama de esparcimiento, se observa que el modelo cuadrático sería un
modelo adecuado. 2XcXbaY
c48788b5022a54814750
c5022b548a661560
c548b66a10205
6723371
487885022548
502254866
5486610
957.296723371
58007240
48788502214750
50225481560
54866205
a
908.76723371
60057810
4878814750548
5022156066
54820510
b
780.06723371
2200431
147505022548
156054866
2056610
c
2X78.0X91.796.29Y
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 294
c) Hallar el volumen de producción esperado para 14 mil horas.
Si X = 14:
721478.01491.796.29Y 2
d) Calculando el coeficiente de correlación cuadrático.
95.0r
5.20105425
5.201014750780.01560908.7205957.29r
2
2
Un modelo cuadrático sí es confiable es decir, se pueden realizar pronósticos.
e) Calculando el coeficiente de determinación cuadrático.
%9095.0r 22
El 90% de las variaciones que se producen en la producción se pueden atribuir a las
variaciones producidas en el número de horas trabajadas, el 10% restante de estas
variaciones son debidas a otros factores o a efectos aleatorios.
f) Calculando el error de estimación cuadrático.
096.47
1475077988.0156090822.720595696.295425SC
En promedio los valores reales se alejan con respecto a la ecuación de regresión cuadrática en aproximadamente 4 unidades.
Digitar los datos:
Stat – Regression – Fitted Line Plot…
Clic en OK
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 295
121086420
50
40
30
20
10
HorasTrabaj:X
Pro
du
cc:Y
S 4,09621
R-Sq 90,4%
R-Sq(adj) 87,6%
Fitted Line PlotProducc:Y = 29,96 - 7,908 HorasTrabaj:X
+ 0,7799 HorasTrabaj:X**2
b) Calcular los valores estimados y errores de estimación del modelo parabólico.
Modelo Cuadrático
Error estándar
de estimación
Coeficiente de
Determinación
Valores estimados Errores de estimación
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 296
REGRESIÓN Y CORRELACIÓN EXPONENCIAL
Al graficar los valores X e Y se obtiene una curva creciente o decreciente, es decir que la variable predictora evoluciona en forma aritmética y la variable predictando evoluciona en
forma geométrica.
En la práctica son numerosas las variables que presentan un crecimiento geométrico: la
población, ventas, salarios, ingresos, etc.
Ecuación de Regresión Exponencial: Xb.aY
Para facilitar la determinación de las ecuaciones normales, la función anterior se linealiza
aplicando logaritmos:
Log Y = Log a + X log b
Ecuaciones normales:
2X.blogX.alogYlogX
X.blogalognYlog
Coeficiente de Correlación Exponencial:
2222 )Ylog()ylog(n)X(Xn
Ylog.XYlogXnr
Ejemplo:
La demanda de televisores (miles de unidades) y los gastos de publicidad (cientos de dólares)
en un país desde 2008 hasta 2012 fue:
Gastos de Publicidad : 2 4 5 7 12
Demanda de TV : 3 6 12 24 45
a) Trazar el diagrama de esparcimiento.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 297
b) Ajustar a los datos un modelo exponencial:
Xb.aY
Log Y = Log a + X log b
blog238alog3096.38
blog30alog537.5
29023830
305
38.2a38.0290
26.109
290
20896.38
3037.5
alog
31.1b12.0290
7.33
290
96.3830
37.55
blog
Por lo tanto el modelo exponencial será:
X31.1.38.2Y
c) Calcular el coeficiente de correlación exponencial:
95.0
37.564.65302385
37.53096.385r
22
Es confiable.
d) Realizar e interpretar un pronóstico:
Si X = 13:
unidades8063.7931.1.38.2Y 13
Cuando los gastos de publicidad sean de 1300 dólares, se espera que la demanda de
televisores sea 80 000.
a) Trazar el diagrama de esparcimiento.
1. Ingresar los datos y escribir en C3:
LogY
2. Graph – Plot…
Clic en Aceptar.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 298
Clic en Aceptar.
Se obtiene el siguiente diagrama de esparcimiento:
12108642
50
40
30
20
10
0
GastosPublic:X
De
ma
nd
aTV
:Y
Gráfica de dispersión de DemandaTV:Y vs. GastosPublic:X
b) Hallar la ecuación de regresión exponencial.
Calc – Calculator
Clic en Aceptar.
Entonces aparecerá:
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 299
Stat – Regression – Regression…
Clic en Aceptar.
c) Calcular los valores estimados y errores de estimación del modelo exponencial.
a = Antilog (0.375) = 2.37
b = Antilog (0.116) = 1.31
XY . . 2 37 1 31
Error estándar de
estimación
Coeficiente de
Determinación
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 300
REGRESIÓN Y CORRELACIÓN MÚLTIPLE
En la mayor parte de los problemas que se generan en la industria en que se aplica el análisis
de regresión, se requiere más de una variable independiente en el modelo de regresión. La complejidad de la mayoría de los mecanismos científicos es tal que, con objeto de estar en
condiciones de pronosticar una respuesta, se necesita un modelo de regresión múltiple.
Por lo tanto, es razonable pensar que puedan
existir varias variables independientes iX
que contribuyan a explicar la variable
dependiente Y. Es entonces cuando se utiliza
el modelo de regresión lineal múltiple.
Regresión Múltiple
En la regresión múltiple se trata de predecir una sola variable respuesta a partir de dos o más
variables predictoras. Permite utilizar una mayor información disponible para estimar la
variable respuesta, de esta forma se trata de aumentar la precisión del estimado.
)X,....,X,X(fY
ntesindependieVariablesedependient
Variablep21
Modelo de Regresión Múltiple:
Un modelo de regresión múltiple expresa una relación lineal entre una variable dependiente
y dos o más variables independientes )X,....,X,X( p21 .
ipp22110 eX....XXY
i mide el cambio esperado en la variable respuesta Y cuando iX aumenta en una unidad y
el resto de las variables predictoras permanecen constantes.
El modelo de regresión lineal simple presenta dos componentes:
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 301
Ecuación de Regresión para tres variables:
Los estadísticos a través de los cuales estimaremos los valores de 210 y, vienen dados
por las expresiones de 210 byb,b
22110 XbXbbY
Y : Variable predictando (dependiente o respuesta)
21 XyX : Variables predictoras (independiente).
0b : constante de regresión.
21 byb : coeficientes de regresión parcial.
La ecuación de regresión lineal múltiple de
Y sobre 21 XyX en un sistema
tridimensional de coordenadas
rectangulares, representa un plano que se
llama plano de regresión y es una
generalización de la recta de regresión para dos variables.
Esta ecuación de regresión (plano de regresión) puede escribirse como:
21.0212.0112.0 XbXbbY
Donde:
Y : Varía parcialmente debido a la variación unitaria de 1X y 2X
12.0b : Es el intercepto del plano de regresión con el eje Y. Mide la variación
de Y cuando 1X y 2X permanecen constantes.
2.01b : Es la pendiente asociada a 1X .
Indica el cambio (aumento o disminución) que sufrirá Y parcialmente
por cada variación unitaria de 1X cuando 2X permanece constante.
1.02b : Es la pendiente asociada a 2X .
Indica el cambio (aumento o disminución) que sufrirá Y parcialmente
por cada variación unitaria de 2X cuando 1X permanece constante.
El criterio de mínimos cuadrados localizará el plano que minimice la suma de los cuadrados
de los errores de estimación, obteniéndose las ecuaciones normales:
YXXbXXbXb
YXXXbXbXb
YXbXbnb
222221120
121221110
22110
Al resolver simultáneamente estas ecuaciones por el método de determinantes, se obtienen
los valores de 10 b,b y 2b .
Forma matricial
YX
YX
Y
XXXX
XXXX
XXn
b
b
b
2
1
1
22212
21211
21
3
2
1
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 302
Supuestos del modelo de regresión lineal múltiple:
Si tenemos dos variables predictoras 1X y 2X el modelo de regresión lineal múltiple
requiere las mismas condiciones que el modelo de regresión lineal simple.
Linealidad
Los datos deben satisfacer una relación lineal. Los puntos se ajustan a un plano.
Si hay sólo dos variables predictoras 1X y
2X entonces los datos deben estar
aproximadamente contenidos en un plano.
Para tres o más variables predictoras, la ecuación de regresión es un hiperplano y no podemos
visualizar los datos gráficamente.
Homocedasticidad
La varianza debe ser constante:
2i )e(Var , n,....,2,1:i
La nube de puntos tiene el mismo grosor (su
aspecto es de una almohada plana y de
grosor constante).
Homogeneidad
El valor esperado o promedio de lo errores de estimación ie es cero:
0)e(E i , n,....,2,1:i
Independencia
Los errores o residuos ie son variables aleatorias independientes. Es decir, una observación
no debe dar información sobre las demás.
Normalidad
Los errores ie tienen distribución normal: ie ~ ),0(N 2 .
Coeficientes de Correlación Simple
Sólo comparan dos variables, sin tener en cuenta la tercera. Miden la proporción de la
varianza de Y explicada por 1X y 2X exclusivamente.
01r : Correlación simple entre Y y 1X
02r : Correlación simple entre Y y 2X
12r : Correlación simple entre 1X y 2X
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 303
Coeficiente de Determinación Múltiple: 212.0R
Es una medida que representa la proporción de la variación total de Y que está explicada por
el plano de regresión es decir por la influencia conjunta de 1X , 2X y por el azar. Mide la
tasa porcentual de los cambios de Y que pueden ser explicados por 1X y 2X
simultáneamente.
1R0 212.0
Cuanto más se acerca a 1, tanto menor es la dispersión de los puntos alrededor del plano de
regresión y tanto mejor es el ajuste.
22
2
22110212.0
YnY
YnYXbYXbYbR
Interpretación de 212.0R :
Si 1X : Gastos de publicidad Y : Ventas
2X : Precio 95.0R212.0
El 95% de las variaciones en las ventas han sido explicadas por las variaciones en los gastos
de publicidad y en el precio, quedando un 5% de la variación de las ventas que sólo puede ser
explicado por factores que no han sido tomados en consideración en nuestro análisis o por
aleatoriedad inherente.
Correlación Múltiple
La correlación múltiple indica qué tanto de la variación total de la variable respuesta o
predictando puede explicarse por todas las variables predictoras actuando conjuntamente.
Coeficiente de Correlación Múltiple: 12.0R
Expresa el grado de relación existente entre tres a más variables. Si todos los valores de las variables, varían en forma proporcional ya sea directa o inversamente, es decir satisfacen
exactamente una ecuación, se dice que las variables están correlacionadas perfectamente o
que existe una relación perfecta entre ellas.
1R1 12.0
Error estándar de estimación múltiple
La estimación se hace más precisa conforme el grado de dispersión alrededor del plano de
regresión se hace más pequeño.
1pn
)YY(S
2ii
M
Y : Valores observados en la muestra
Y : Valores estimados a partir a partir de la ecuación de regresión
n : Número de datos p : Número de variables independientes
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 304
Error estándar de estimación para dos variables predictoras:
3n
YXbYXbYbYS
22110
2
X,X,Y 21
CORRELACIÓN PARCIAL
Es la correlación entre dos variables cualquiera cuando los efectos de las otras variables se
han controlado.
Coeficiente de Correlación Parcial
Mide la correlación entre la variable predictando y una variable predictora determinada,
cuando todas las demás variables predictoras permanecen constantes, es decir cuando se
elimina el efecto de las variables restantes.
Las correlaciones parciales son importantes para decidir si incluir o no más variables
predictoras.
Coeficiente de Correlación Parcial para tres variables
)X,X(fY 32
Fórmula de primer orden parcial:
)r1()r1(
rrrr
2jk
2ik
jkikijkij
Indica la correlación entre las variables i y j
Ejemplo:
)r1()r1(
rrrr
223
213
2313123.12
Correlación parcial entre Y y 2X cuando 3X se
mantiene constante.
)r1()r1(
rrrr
232
212
3212132.13
Correlación parcial entre Y y 3X cuando 2X se
mantiene constante.
)r1()r1(
rrrr
231
221
3121231.23
Correlación parcial entre 2X y 3X cuando Y se
mantiene constante.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 305
Coeficiente de Correlación Parcial para cuatro variables
)X,X,X(fY 432
Fórmula de segundo orden parcial:
)r1()r1(
rrrr
2l.jk
2l.ik
l.jkl.ikl.jilk.ji
Puede permutarse k por l.
Ejemplo:
)r1()4.r1(
rrrr
24.23
213
4.234.134.123412
Correlación parcial entre Y y 2X cuando 3X y
4X se mantienen constantes.
Coeficiente de Correlación Parcial para cinco variables
)X,X,X,X(fY 5432
Fórmula de tercer orden parcial:
)r1()r1(
rrrr
2kl.jm
2kl.im
kl.jmkl.imkl.ijklm.ij
Indica la correlación entre las variables i y j
Ejemplo:
La siguiente tabla muestra las ventas de un artículo (en cientos), los gastos de publicidad por
radio y los gastos de publicidad en periódicos (en miles de soles).
Gastos de publicidad en radio (miles de soles)
1X
Gastos de publicidad en periódico (miles de soles)
2X
Ventas (cientos)
Y
4 1 7
7 2 12
9 5 17
12 8 20
a) Hallar la ecuación del plano de regresión.
Las sumas obtenidas son:
32X1 16X2 56Y
290X21 94X2
2 882Y2
505YX1 276YX2 159XX 21
Para hallar el plano de regresión: 22110 XbXbbY
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 306
Deberán formarse las ecuaciones normales
276b94b159b16
505b159b290b32
56b16b32b4
210
210
210
Luego, usando el método de Cramer se calcularán: 210 byb,b
9415916
15929032
16324
236
644.0236
152
236
94159276
159290505
163256
b0
661.1236
392
236
9427616
15950532
16564
b1
017.0236
4
236
27615916
50529032
56324
b2
La ecuación del plano de regresión es: 21 X017.0X661.1644.0Y
b) Interpretar : 210 byb,b
.unid64644.0b0 Es el incremento promedio en las ventas cuando los
gastos de publicidad en radio y los gastos de publicidad en periódico permanecen constantes.
.unid166661.1b1 El promedio de ventas esperadas crece en aprox. 166
unidades cuando los gastos de publicidad en radio aumentan en S/.1000, manteniéndose constante los
gastos de publicidad en periódicos.
.unid2017.0b2 El promedio de ventas esperadas crece en aprox. 2 unidades cuando los gastos de publicidad en periódico
aumentan en S/.1000, manteniéndose constante los
gastos de publicidad en radio.
c) Calcular el coeficiente de correlación lineal múltiple.
2
2
12.0144882
144276017.0505661.156644.0R
987.0R 12.0 Por lo tanto un modelo lineal sí es adecuado.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 307
d) Calcular el coeficiente de determinación múltiple.
975.0)987.0(R 212.0
2 = 97.5%
Alrededor del 98% de la variación total de las ventas se explica por medio de la
ecuación de regresión.
e) Calcular los coeficientes de correlación lineal: 231312 r,r,r
9875.0)322904()568824(
32565054r
2201
959.0)16944()568824(
16562764r
2202
9706.0)16944()322904(
16321594r
2212
f) Calcular los coeficientes de correlación parcial:
831.0)9706.01()959.01(
9706.0959.09875.0
)r1()r1(
rrrr
22223
213
2313122.01
Si los gastos de publicidad en periódicos fueran constantes, existiría correlación
lineal alta entre las ventas y los gastos de publicidad en radio.
014.0)9706.01()9875.01(
9706.09875.0959.0
)r1()r1(
rrrr
22232
212
3212131.02
Si los gastos de publicidad en radio fueran constantes, existiría correlación lineal
casi nula entre las ventas y los gastos de publicidad en periódicos.
528.0)959.01()9875.01(
959.09875.09706.0
)r1()r1(
rrrr
22231
221
3121230.12
Si las ventas fueran constantes, existiría correlación lineal baja entre los gastos de
publicidad en radio y los gastos de publicidad en periódico periódicos.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 308
1. Digitar los datos:
2. Stat – Regression – Regression…
3. Clic en Ok.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 309
EJERCICIOS PROPUESTOS
Regresión y Correlación Lineal, No Lineal y Múltiple
1.- Como parte de la evaluación de un sistema de computadora, un gerente de sistemas
quiere predecir el tiempo de respuesta de las terminales de la computadora. El tiempo de respuesta de una terminal se define como el tiempo (en segundos) que la
computadora tarda en responder a un comando enviado desde una terminal
oprimiendo una de las teclas de función de programa de la terminal. Aunque son muchas las variables que influyen en el tiempo de respuesta de las terminales, el
gerente de sistemas va a modelar dicho tiempo como una función del número de
usuarios simultáneos (es decir, el número de usuarios que están accediendo a la unidad central de procesamiento en el momento en que se envía el comando). El
gerente ha recabado los datos de muestra que se presentan a continuación. Encuentre
un modelo lineal adecuado.
Nº usuarios simultáneos : 1 2 3 4 5
Tiempo de respuesta (seg.) : 0.22 0.59 1.01 1.36 1.42
¿Podrá el gerente predecir el tiempo el tiempo de respuesta de las terminales de la
computadora usando un modelo lineal?
2.- Una compañía presenta los siguientes datos con respecto a las ventas de un producto
durante siete años.
Años : 2007 2008 2009 2010 2011 2012 2013
Ventas : 36 28 34 52 58 62 67
a) Ajustar a los datos un modelo parabólico.
b) ¿Se puede afirmar que el modelo hallado será eficiente para realizar
pronósticos?
c) Si tuvieras que elegir entre un modelo lineal y uno parabólico. ¿Por cuál te decidirías?
d) Interpretar a , b y c.
e) ¿Qué porcentaje de los cambios producidos en las ventas, no es explicado por el modelo parabólico?
f) Estimar las ventas para el año 2018.
3.- Un nuevo paquete de software de consulta para computadora se diseñó con el objetivo
de lograr un acceso y un mantenimiento más eficientes de los conjuntos de datos a
gran escala. La eficiencia se mide en términos del número de operaciones de entrada/salida (E/S) de disco (llamadas bloques de almacenamiento) necesarias para
acceder al conjunto de datos y darle mantenimiento; cuanto menor sea el número de
bloques leídos, con mayor rapidez se efectuará la operación. A fin de evaluar el
desempeño del nuevo sistema de software, se registró el número de operaciones de E/S de disco necesarias para acceder a un conjunto de datos a gran escala, para cada
uno de una muestra de ocho conjuntos de datos de diversos tamaños (donde el tamaño
se mide como el número de registros contenidos en el conjunto de datos).
Nº de Registros : 350 200 450 50 400 150 350 300
(millares)
Nº de E/S a disco : 36 20 45 5 40 18 38 32 (millares)
¿Es confiable un modelo lineal? Si lo es, hallar dicho modelo de regresión.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 310
4.- Se tiene las siguientes variables:
Y : rendimiento académico.
X1 : horas de estudio. X2 : inasistencias.
a) si Y = 0,6 + 1,6X1 + 0,02X2 interpretar: b0 b1 y b2
b) interpretar: r02 = 0,96 r01.2 = 0,83 R2
0. 12 = 0,98
r12 = 0,97 r12. 0 = 0,53 R0. 12 = 0,99
5.- Un fabricante quiere establecer si hay una relación parabólica entre las ausencias al
trabajo. X: número de permisos al mes e Y: edad del trabajador. Para ello selecciona
una muestra aleatoria de 10 trabajadores, obteniendo la siguiente información:
Y : 28 32 46 24 28 36 42 37 51 42
X : 5 8 4 7 10 4 3 4 3 4
a) Hallar la ecuación de regresión parabólica.
b) Estimar la edad para una persona que solicita 6 permisos en el mes. c) ¿Es un modelo parabólico, el más adecuado? ¿por qué?
d) ¿Qué porcentaje de los cambios que se producen en la variable predictando se
pueden atribuir a otros factores o al azar? e) Si se usa un modelo lineal, ¿se puede afirmar que los cambios de la predictando
se deben a los cambios en la predictora?
6.- Se tienen los siguientes datos correspondientes a las horas de estudio y al número de
errores cometidos en un examen de Inferencia Estadística por un grupo de alumnos
del IV ciclo de Ingeniería de Sistemas de la UAP.
Horas de estudio : 5 2 9 6 7 3 4 8
Nº de errores : 7 14 6 7 5 8 10 4
Nº de alumnos : 3 1 5 3 3 1 2 4
a) Realiza un análisis grafico y contesta ¿Qué tipo de relación existe entre ambas variables? ¿Por qué?
b) ¿Podemos afirmar que los pronósticos que realicemos con este modelo estarán
cercanos a la realidad? ¿Por qué? c) ¿Podemos afirmar que las variaciones que se producen en la variable
predictando se pueden atribuir a efectos aleatorios? ¿Por qué?
d) ¿Qué porcentaje de las variaciones en el número de errores se deben a los cambios que se producen en las horas de estudio?
e) ¿Qué tanto se alejan los puntos del diagrama de esparcimiento con respecto a
la recta de regresión? 1.4738 f) ¿Cuántos errores espera cometer como máximo, un alumno que dedica 12
horas al estudio? 5.331
g) ¿Qué se puede decir acerca de la pendiente del modelo de regresión
poblacional? Obtener una conclusión altamente significativa. -1.32 ; -0.46
7.- Una fracción importante del esfuerzo que se invierte en la creación de software comercial para computadora tiene que ver con la prueba de programas. Se emprendió
un estudio con el fin de evaluar la utilidad potencial de diversas variables relacionadas
con productos y procesos para identificar el software propenso a errores. Se ajustó un modelo de línea recta, el cual relaciona el número de defectos en un módulo (Y) con el
número de operandos (X) únicos en el módulo, a los datos obtenidos de una muestra
de módulos de software. El coeficiente de determinación para este análisis fue 0,74. ¿Inferiría usted que el modelo de línea recta es un predictor útil del número de defectos
en un módulo? Explique.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 311
8.- Una compañía recabó los datos adjuntos para comparar el precio de venta de casas
nuevas con el tamaño de la construcción en cientos de pies cuadrados.
Espacio construido : 20 22 18 30 23 25 Precio de venta : 116 118 91 145 105 121
a) ¿Podemos afirmar que a mayor espacio construido mayor precio de venta?
Justifique su respuesta. b) Hallar un intervalo altamente significativo para el coeficiente de regresión.
c) Si el espacio construido es de 32 ¿cuál es el precio de venta mínimo y máximo
que se espera?
9.- Se tiene la siguiente información con respecto a la producción total (miles de unidades)
y el costo total (miles de dólares) de cierto artículo en una compañía.
Costo total : 30 36 40 48 50 54 66 88
Producción : 10 20 30 40 50 60 70 80
a) Ajustar a los datos un modelo exponencial.
b) ¿Podemos afirmar sin temor a equivocarnos que un modelo exponencial sería de mayor utilidad que un modelo lineal? Justifique.
c) Si se tiene una producción de 53000 unidades, ¿cuál será el costo total
esperado? Use el mejor modelo. d) ¿Qué porcentaje de los cambios en Y se pueden atribuir a otras variables o a
efectos aleatorios?
10.- Los siguientes datos son las puntuaciones obtenidas por un grupo de alumnos en dos
tests, que se quieren utilizar como “previsores” de la calificación media de los alumnos
en el área de Lenguaje y las calificaciones medias reales obtenidas por dichos alumnos, más tarde, en su curso de lenguaje.
Calificac. : 8,8 5,5 8,7 6,8 6,5 8,7 8,4 9,7 5,8
Test 1 : 8,9 4,9 8,6 6,3 5,0 8,0 8,7 9,4 5,5
Test 2 : 9,2 5,6 9,0 6,7 6,2 8,5 9,0 9,9 6,0
a) Calcular e interpretar: r12 r13 r23
0,9664 0,9862 0,9920
b) Hallar el plano de regresión. c) ¿Se puede afirmar que un modelo de regresión múltiple explica la relación entre
la variable predictando y las variables predictoras? ¿Por qué?
11.- Se tienen las estaturas (pulgadas) de un grupo de padres y sus hijos mayores.
Padres : 65 63 64 68 62 Hijos : 68 66 68 69 66
a) ¿Podemos afirmar que existe una relación inversa entre la estatura de los
padres y sus hijos? ¿Por qué?
b) Hallar los valores mínimo y máximo para el verdadero cambio de la variable predictando cuando la variable predictora aumenta una unidad.
12.- Para los siguientes datos correspondientes a las ventas de un producto durante el periodo 2005-2011:
Años : 2005 2006 2007 2008 2009 2010 2011
Ventas : 545 755 919 1200 1600 2500 4200
a) Ajustar a los datos una curva exponencial. b) Estimar las ventas para los años 2020 y 2025.
c) ¿Se puede afirmar que estos pronósticos son cercanos a la realidad? ¿Por qué?
d) Calcular los errores de estimación para cada año.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 312
13.- Una compañía desea determinar si el número de anuncios transmitidos por televisión
están correlacionados linealmente o no con las ventas de su producto, para lo cual
obtuvo la siguiente información de algunas ciudades.
Ciudad : A B C D E F G
Nº comerciales TV : 12 6 9 15 11 15 8
Unidades vendidas : 7 5 10 14 12 9 6
a) ¿Podemos afirmar que las variaciones en las unidades vendidas resultan de
fluctuaciones aleatorias que son independientes del número de comerciales de
TV.? b) ¿Estarías dispuesto a invertir en publicidad? ¿Por qué?
c) Con una confianza del 99%, realiza un pronóstico.
d) ¿Qué tanto se alejan los valores estimados con respecto a los valores observados?
e) Calcular los errores de estimación.
14.- El departamento de contabilidad de un fábrica de papel desea estimar la cantidad
mensual de gastos generales de la fábrica (gastos indirectos de producción, en miles
de dólares). En el pasado, la firma ha estimado estos gastos sobre la base del número esperado de horas directas de trabajo. En los últimos años, sin embargo, los gastos
estimados se han vuelto un predictor errático de los gastos reales. Como resultado, la
firma está buscando otro factor con el cual se pueda mejorar la ecuación de estimación. El departamento de contabilidad mantiene un historial del número de
horas (en cientos) durante las cuales han estado en producción las máquinas de la
firma. Se tienen los siguientes datos para los últimos diez meses.
Y : Gastos generales actuales de la fábrica (miles de dólares) X2 : Horas de trabajo directas (en cientos)
X3 : Horas de máquina (en cientos).
Y : 29 24 27 25 26 28 30 28 28 27
X2 : 45 42 44 45 43 46 44 45 44 43
X3 : 16 14 15 13 13 14 16 16 15 15
a) ¿Se puede combinar esta información con los datos de horas de trabajo directas
y obtener una ecuación de estimación más precisa para los gastos generales de
la fábrica?
b) Si quisieras hallar un modelo lineal, ¿cuál variable descartarías? ¿Por qué?
c) ¿Se podría afirmar que los cambios que se producen en la variable predictando
se pueden atribuir a los cambios de la mejor variable predictora?
d) ¿En cuánto se alejan los puntos del dispersigrama con respecto a la recta de
regresión?
e) Al hallar un modelo lineal, ¿se puede decir que la relación es directa? ¿Por qué?
15.- Se tienen los siguientes datos:
Temperatura (ºC) : 10 15 20 25 30 34 Nº de helados vendidos : 5 12 24 38 70 130
a) Trazar el diagrama de esparcimiento.
b) Hallar el modelo más adecuado. c) ¿Cuántos refrescos se esperaría vender si la temperatura fuera 27ºC?
d) ¿Es confiable este modelo? ¿Por qué?
e) Calcular e interpretar el coeficiente de determinación.
f) Hallar los valores máximo y mínimo de la verdadera pendiente:
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 313
16.- Se desea hacer un estudio para examinar el papel que juega la televisión en la vida de
un grupo preseleccionado de personas de edades superiores a los 65 años. El propósito
de dicho estudio es proporcionar información que permita hacer una programación adecuada a las necesidades de este grupo. Una muestra aleatoria de siete personas de
edades superiores a los 65 años fue seleccionada y a cada persona le fue solicitada la
siguiente información:
Nº de horas TV : 0,5 0,8 0,9 1,6 2,8 3,0 3,3
Edad : 73 65 69 81 71 75 79
Escolaridad (años) : 14 10 10 12 12 6 6
a) Hallar la ecuación del plano de regresión. b) ¿Cuál de las dos variables predictoras, explican mejor la variabilidad de la
variable predictando?
c) ¿Sería confiable un modelo lineal usando únicamente la mejor variable predictora? Si es así encuentre dicho modelo.
d) Usando un modelo lineal, realizar un pronóstico con un nivel del 1%.
e) ¿Qué tanto se alejan los valores observados con respecto a los valores estimados?
f) ¿Se puede afirmar que a medida que aumenta la variable predictora, se espera
que la variable predictando también crezca. ¿Por qué?
17.- Las pruebas acerca del consumo de combustible de un vehículo que viaja a diferentes
velocidades produjeron los siguientes resultados:
Velocidad : 20 30 40 50 60 70 80
Consumo : 18,3 18,8 19,1 19,3 19,5 19,7 19,8
a) ¿Qué porcentaje de las variaciones en el consumo se pueden atribuir a otros factores o a efectos aleatorios?
b) Con una confianza del 99%, ¿se puede afirmar que un modelo lineal explica la
relación existente entre velocidad y consumo? c) Con una confianza del 90%, ¿cuál sería el máximo valor esperado para el
coeficiente de regresión poblacional?
18.- Los siguientes datos indican las ventas mensuales (en miles de soles) y los años de
experiencia en ventas de diez vendedores de una fábrica.
A.E. : 4 5 2 5 6 7 1 8 3 7
Ventas : 5 6 4 5 7 10 3 11 4 9
a) Hallar un modelo de regresión cuadrático.
b) ¿Podemos afirmar que una curva parabólica expresa adecuadamente la
relación entre las variables consideradas? ¿Por qué? c) ¿Cuánto se ganará en confiabilidad si se elige el mejor modelo entre un
cuadrático y un lineal?
19.- Los siguientes datos corresponden a las horas de estudio para una prueba y al número
de respuestas correctas obtenidas en dicha prueba por 17 alumnos.
Horas de estudio : 1 5 6 2 7 3 Respuestas correctas : 2 11 20 10 14 12
Nº de alumnos : 1 3 4 3 4 2
a) Si un modelo lineal es confiable, hallar un pronóstico altamente significativo e interpretarlo.
b) ¿Qué tipo de relación existe entre las variables involucradas? ¿Por qué?
c) Hallar los valores estimados. d) Calcular los errores de estimación.
e) ¿Cuál será el valor máximo esperado para el verdadero coeficiente de regresión?
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 314
20.- El gerente de personal de una empresa considera que puede haber una relación entre
el ausentismo (días) , Salario (en miles de soles) y la edad (años). Selecciona una
muestra aleatoria de 8 empleados, con los resultados siguientes:
Días ausente : 15 6 10 18 9 7 14 11 Edad : 27 61 37 23 46 58 29 36
Salario : 8,5 16,4 14,3 8,0 14,7 14,0 11,2 15,3
a) Encontrar los coeficientes de regresión múltiple. b) Interprete el significado de las pendientes.
c) Predecir el número de días de ausencia de un empleado de 40 años de edad
que gana S/ 13 000 al año.
d) ¿Sería adecuado un modelo lineal, usando la mejor variable predictora? e) Hallar dicho modelo lineal, si fuera confiable.
f) Usando dicho modelo, realizar una estimación interválica.
g) ¿Qué tanto se alejan los puntos del diagrama de esparcimiento con respecto al plano de regresión?
21.- Una compañía asigna diferentes precios a un equipo de sonido particular en ocho regiones diferentes del país. Los siguientes datos muestran el número de unidades
vendidas y los precios correspondientes (en miles de soles).
Ventas : 5 8 10 13 16 22 28 Precio : 15 7 3 6 14 36 62
a) ¿Se puede afirmar que el modelo parabólico es el mejor ajuste?
b) Hallar el modelo de regresión parabólico.
c) ¿Se puede afirmar que hay una buena asociación parabólica entre las variables?
22.- Se realizó un estudio para determinar los efectos de no dormir en la capacidad de las personas para resolver problemas sencillos. Un grupo de personas participó en el
estudio que consistió en dar a cada persona, después de un periodo específico sin
dormir, un conjunto de problemas sencillos de sumar y se registró el número de errores. Se obtuvieron los siguientes resultados:
Nº de errores : 9 6 8 14 16
Nº horas sin dormir : 8 12 16 20 24 Nº de personas : 3 2 3 4 5
a) ¿Se puede afirmar que existe una relación directa entre número de errores y
número de horas sin dormir? ¿Por qué?
b) Los pronósticos que se realicen con un modelo lineal, ¿serán acertados? c) Al nivel del 1%, ¿Qué podemos afirmar acerca del verdadero coeficiente de
regresión?
d) ¿Influye la cantidad de horas sin dormir en el número de errores cometidos? e) Si duerme todas sus horas, ¿cuántos errores se espera que cometa?
23.- Los siguientes datos corresponden al grado de ansiedad de un grupo de alumnos elegidos aleatoriamente en cierta universidad y sus calificaciones.
Ansiedad : 8 10 12 16 14 18 22 23 19 26
Calificación : 7 10 8 9 6 5 5 6 8 7
a) ¿Se puede afirmar que a mayor nivel de ansiedad, calificaciones más bajas y a
la recíproca?
b) ¿Qué calificación cabe esperar partiendo de una ansiedad de 20 puntos? Usar
un nivel del 1%. c) Al nivel del 10, ¿qué podemos afirmar acerca del verdadero coeficiente de
regresión?
d) Calcular los valores estimados con el modelo lineal.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 315
24.- A continuación se presentan los datos obtenidos en un estudio realizado por una
cadena de supermercados para determinar la eficiencia de varios soportes
publicitarios sobre ventas. Los datos fueron obtenidos de las ventas semanales (en miles de soles), de los gastos publicitarios en revistas, en televisión, en radio y en
boletines volantes distribuidos en casas.
Ventas : 365 649 441 807 450 828 314 472 Revista : 61 48 56 62 41 69 73 88
TV : 36 40 14 28 31 21 36 38
Radio : 13 7 8 6 3 0 5 6 Volante : 32 36 41 34 33 32 7 8
a) ¿Sobre cuál soporte publicitario se debería invertir? ¿Por qué?
b) Hallar el modelo de regresión que permita estimar las ventas, teniendo en cuenta los dos soportes publicitarios más eficientes.
c) Calcular los residuos del plano de regresión.
d) Hallar la ecuación de un modelo lineal usando la mejor predictora.
e) Al nivel del 10%, ¿las ventas dependen de la publicidad en la mejor predictora? f) ¿Qué porcentaje de las variaciones en las ventas se pueden atribuir a otros
factores o al azar?
25.- Se tienen los datos correspondientes a las calificaciones en una prueba de inteligencia,
el número de clases perdidas y las calificaciones en el curso de Inferencia Estadística de un grupo de alumnos del IV ciclo de Ingeniería de sistemas de la universidad Alas
Peruanas.
Prueba de Inteligencia : 50 54 62 70 75 80 90
Calific. Estadística : 7 12 13 17 18 19 20 Clases perdidas : 6 7 5 2 1 3 2
a) Estimar la calificación de estadística de un estudiante que ha perdido 4 clases y
tiene una puntuación de 60 en la prueba de inteligencia. b) Encuentre un modelo lineal usando la mejor variable predictora.
c) ¿Se puede afirmar que los cambios de la variable predictando se pueden atribuir
a los cambios de la variable predictora? ¿Por qué? d) Realizar un pronóstico al nivel del 5% e interpretarlo.
e) ¿Qué tan lejos se encuentra el dispersigrama con respecto a la recta de
regresión?
26.- Se intenta estudiar la relación existente entre el número de años de afiliación a un
partido político, la motivación por pertenecer a ese partido y el nivel de satisfacción con dicho partido. Para ello se parte de los datos de ocho individuos tomados al azar.
Satisfacción : 6 7 4 9 10 9 9 5
Años de afiliación : 8 7 10 3 6 13 4 12 Fuerza motivación : 4 5 3 7 8 8 9 2
a) Calcular e interpretar:
r12 r13 r23 -0,256 0,8735 -0,2753 b) encontrar la ecuación del plano de regresión de Y sobre X2 y X3
c) Estimar la satisfacción de una persona que lleva 9 años afiliada a su partido
político y tiene una motivación de 7. d) Si tuvieras que descartar una de las variables predictoras, ¿cuál sería?
e) Hallar un modelo lineal usando la mejor predictora.
f) ¿Qué porcentaje de los cambio que se producen en Y, se pueden atribuir a
otros factores o al azar? g) Al nivel del 1%, ¿se puede concluir que los cambios que se producen en la
variable respuesta se deben a efectos aleatorios?
h) Calcular los valores estimados con el plano de regresión.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 316
27.- La empresa "Autos S.A.", fabricante de automóviles, vende éstos por medio de
distribuidores repartidos en todo el país. El gerente de dicha compañía, ha logrado
desde el año 1995 un crecimiento de las ventas de 28%. Muy orgulloso de este resultado, lo atribuye sobre todo a la experiencia de sus vendedores. El ha recolectado
los siguientes datos mensuales de ventas en unidades y del número de vendedores:
Ventas (unidades) : 25 35 33 44 28 20 Nº de vendedores : 7 12 9 16 10 6
a) El gerente concluye que el 95% de la variación de las ventas son explicadas por
la variación del número de vendedores, razón por la cual propone al Director, contratar más vendedores. ¿Es válida la conclusión del gerente? Explique por
qué.
b) Se afirma que por cada vendedor que se contrate, el número de unidades vendidas se incrementará. ¿Es correcta la afirmación?
28.- Se tienen los siguientes datos que corresponden al espíritu de iniciativa personal en
las situaciones de solución de problemas. Se tomó una muestra aleatoria de ingenieros de sistemas.
Iniciativa Personal : 9 11 10 14 18 16 19 24
Madurez Emocional : 10 10 18 15 20 16 22 20 Seguridad en sí mismo: 8 12 15 17 23 21 26 35
a) Si tuviera que hallar un modelo sólo con una variable predictora, ¿a cuál
elegirías? ¿Por qué? b) Hallar un modelo lineal adecuado usando la mejor variable predictora.
c) ¿Se puede afirmar que tanto la variable predictando como la variable
predictora, varían en el mismo sentido? Explica. d) ¿Podemos afirmar que la variación de Y se puede atribuir a la variación de X,
o se debe a fluctuaciones aleatorias?
e) ¿Podemos afirmar que a mayor seguridad en sí mismo, se espera una mayor iniciativa personal? ¿Por qué?
f) Un investigador sostiene que utilizando la misma variable predictora de b), un
modelo exponencial permitiría realizar pronósticos más confiables, ¿estás de
acuerdo? Explica. g) ¿Qué puntaje se esperaría en Iniciativa Personal para un ingeniero que tiene
30 en seguridad en sí mismo y 19 en Madurez Emocional?
29.- Las calificaciones de un grupo de estudiantes en su reporte de medio año y los
exámenes finales fueron las siguientes:
Medio Año : 77 50 71 72 81 94 96 Final : 82 66 78 34 47 85 99
a) ¿Se puede concluir que existe una relación directa entre las calificaciones de
medio año y final de año? ¿Por qué? b) ¿Serán acertados los pronósticos que se realicen usando un modelo lineal?
c) Encuentre un modelo lineal.
d) Interpretar a y b.
e) Realizar un pronóstico al nivel del 99%. f) ¿Cuál será el valor máximo esperado para el verdadero cambio de la variable
respuesta cada vez que la variable predictora se incrementa en un punto?
g) Las calificaciones de final de año, ¿se ven explicadas por las notas de medio año? h) Calcular los residuos del modelo lineal.
i) ¿En cuánto se aleja el diagrama de esparcimiento con respecto a la recta de
regresión?
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 317
30.- En una investigación sobre la relación que existe entre el número de veces que se
repite una tarea y los errores que se cometen se ha constatado la relación curvilínea
existente entre ambas variables.
Veces repite : 6 8 11 13 16 17 18
Nº errores : 26 18 10 8 6 4 2
a) Hallar la ecuación de regresión exponencial de la variable Y sobre X. b) Calcular e interpretar el coeficiente de correlación.
c) Realizar un pronóstico puntual.
d) Un modelo exponencial, ¿genera pronósticos más confiables? ¿Por qué?
31.- La demanda de televisores (miles de unidades) y los gastos de publicidad (cientos de
dólares) en un país, desde 2007 hasta 2013 fue:
Demanda : 50 60 68 88 125 135 184
Publicidad : 1,1 2,0 3,0 3,8 5,0 5,5 6,5
a) Si tuvieras que elegir entre un modelo lineal y un modelo exponencial, ¿cuál crees que sería de mayor utilidad? ¿Por qué?
b) Hallar dicho modelo.
32.- Una firma cree que sus ingresos anuales dependen de sus gastos por investigación.
Se tiene la información de los últimos seis años (en miles de dólares).
Ingreso Anual : 31 40 30 34 25 20 Gastos en Investigación : 5 11 4 5 3 2
a) ¿Qué tipo de relación existe entre el ingreso anual y los gastos en investigación?
b) ¿Qué tan lejos se encuentran los valores estimados con respecto a los valores
reales? c) ¿Influyen los gastos en investigación en los ingresos anuales de la firma?
33.- Los siguientes datos corresponden a los CI verbal y no verbal así como las
calificaciones en Inglés, de un grupo de estudiantes del IV ciclo de ingeniería de
sistemas.
Calificación : 70 60 80 95 90
CI Verbal : 110 90 100 140 120
CI No Verbal : 120 92 104 135 118
a) ¿Cuál de las dos predictoras permiten realizar mejores pronósticos?
b) Hallar la ecuación del plano de regresión.
c) Interpretar la constante y los coeficientes de regresión.
d) ¿Influye la mejor predictora en la variable predictando? e) ¿Qué porcentaje de los cambios en la variable respuesta es explicado por la
segunda predictora?
34.- El departamento de ventas de una compañía desea hallar un modelo exponencial que
le permita estimar la demanda (en miles de dólares) de refrigeradoras para los
próximos años, tomando en cuenta los datos históricos decrecientes desde el año 2007 hasta 2013.
Demanda : 550 400 250 200 100 70 90
Años : 2007 2008 2009 2010 2011 2012 2013
a) Hallar un modelo exponencial que se ajuste a los datos.
b) ¿Podemos confiar en el modelo encontrado para realizar pronósticos?
c) ¿Cuál será la demanda esperada para los años: 2018, 2020 y 2022? d) Calcular los valores estimados con el modelo exponencial.
e) Hallar los residuos del modelo exponencial.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 318
35.- Un psicólogo experimental afirma que en un experimento controlado, cuanta más edad
tenga un niño tanto menor será su número de respuestas irrelevantes. Los siguientes
datos fueron recopilados para comprobar su aseveración.
Edad : 2 4 5 6 6 7 9 9 10 12
Nº Rptas.Irrelev. : 12 13 9 7 12 8 6 9 7 5
a) ¿Parece válida la afirmación del psicólogo? b) Hallar la ecuación de un modelo lineal, sólo si es confiable.
c) ¿Influye la variable predictora sobre la variable predictando?
d) Hallar los límites esperados para el verdadero cambio que se produce en la variable predictando cuando la predictora se incrementa en una unidad.
e) Realiza e interpreta un pronóstico altamente confiable.
f) Calcular los errores de estimación. g) Si tuvieras que decidir entre un modelo lineal y un exponencial, ¿cuál elegirías
y por qué?
36.- Para los siguientes datos:
Meses Nº turistas
Enero 13 a) Ajustar a los datos un modelo de
Febrero 17 Regresión parabólica.
Marzo 38
Abril 42 b) Calcular el coeficiente de correlación.
Mayo 40
Junio 34 c) Estimar cuántos turistas se espera recibir para el mes de diciembre. Julio 30
37.- Una compañía desea encontrar un modelo que explique la relación existente entre la
producción (miles de unidades por año) y el costo marginal de producción (dólares por
unidad).
Producción : 5 7 9 9 11 12 12 14 16
Costo Marg. : 20 60 60 100 120 120 180 240 280
a) El asesor estadístico de la compañía asegura que el modelo que mejor describe
la relación entre estas dos variables es un modelo exponencial, ¿estás de acuerdo con él? ¿Por qué?
b) Hallar la ecuación del modelo más adecuado.
c) Realiza un pronóstico puntual. d) Si el modelo lineal es el mejor, realiza e interpreta un pronóstico en forma de
intervalo.
38.- Se tienen los datos correspondientes a las edades (años), los ingresos (dólares) y el
número de años desde que salieron de la universidad de un grupo ingenieros de
sistemas que trabajan para la misma institución.
Edad : 57 60 45 42 36 45 62 36 52
Nº de años : 13 19 14 16 12 16 25 10 18
Ingresos : 512 650 550 500 540 680 680 456 590
a) Hallar un modelo lineal usando la mejor variable predictora.
b) Interpretar a y b.
c) ¿Qué tipo de relación existe entre ambas variables? ¿Por qué?
d) Hallar el plano de regresión de Y sobre X2 y X3 e) Interpretar b1 , b2. , b3
f) ¿Qué tanto se alejan los puntos del dispersigrama con respecto al plano de
regresión? g) Calcular los errores de estimación del plano de regresión.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 319
39.- Los siguientes datos son los ingresos por ventas mensuales, en centenas de $ que
obtuvo una compañía.
Mes : 1 2 3 4 5 6 7 8 9 10
Ingresos : 31 43 61 85 118 164 228 316 444 611
a) ¿Podemos afirmar que un modelo exponencial es el más adecuado en este caso? ¿por qué?
b) Encuentre la ecuación del modelo más adecuado.
c) Realice un pronóstico puntual e interprete. d) Calcular los valores estimados y los errores de estimación.
e) Usando un modelo lineal, ¿qué tan lejos están los puntos del diagrama de
dispersión con respecto al modelo hallado?
f) Influye linealmente la variable predictora sobre la variable predictando. g) ¿Qué porcentaje de los cambios de Y no son explicados por un modelo lineal?
h) Hallar el valor mínimo esperado para el coeficiente de regresión.
40.- Un fabricante de juguetes que vende su producción en más de cien distritos de ventas,
el año pasado introdujo un nuevo juguete de bajo precio y desea estimar las ventas de este nuevo juguete en el próximo año en términos de gastos de publicidad.
Ventas (miles) : 120 180 135 147 185
Gastos de Publicidad.($) : 50 60 65 72 84
a) Encontrar dicho modelo de regresión lineal.
b) Interpretar el coeficiente de regresión.
c) Al nivel del 2%, ¿Qué se puede afirmar acerca del verdadero coeficiente de
regresión?
41.- El director ejecutivo de una asociación de ejecutivos nacionales de ventas sabe la
relación que existe entre los resultados de un vendedor en las pruebas de aptitud, el
número de años de experiencia en este campo y las ventas anuales de la persona. La
información siguiente fue recogida para seis vendedores escogidos al azar.
Y : Ventas anuales ( $ 10 000) X2 : Resultado de aptitud
X3 : Años de experiencia.
Y : 36 28 39 30 45 22
X2 : 84 74 89 78 92 70 X3 : 7 5 8 7 10 3
Si un vendedor obtuvo 83 en la prueba de aptitud y tiene 7 años de experiencia,
¿cuáles serán las ventas que podrán esperarse de esta persona?
42.- Una compañía distribuye un test de aptitud entre todos sus nuevos representantes de
ventas. La dirección tiene interés en conocer la capacidad del test para predecir el eventual éxito de estos representantes. Los datos adjuntos recogen el valor (en miles
de soles) de las ventas semanales medias y las puntuaciones obtenidas en el test de
aptitud para una muestra aleatoria de ocho representantes.
Ventas semanales : 10 12 28 24 18 16 15 12
Puntuación Test : 55 60 85 75 80 85 65 60
a) Interpretar la pendiente estimada de la recta de regresión. b) ¿Se puede afirmar que un modelo lineal es un buen ajuste? ¿Por qué?
c) ¿Podemos afirmar que a mayor puntuación obtenida en el test, se espera que
sus ventas semanales sean mayores? ¿Por qué? d) ¿Qué porcentaje de los cambios en las ventas se pueden atribuir a otros
factores diferentes de la puntuación en el test?
e) Si un representante obtuvo 70 puntos en el test, ¿cuál será su venta semanal
esperada?
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 320
43.- Una muestra muestra aleatoria de cinco familias da la siguiente información en
relación al ingreso familiar anual y los gastos anuales en bienes durables (refrigeradoras, lavadoras, televisores, etc.)
Ingreso Anual (miles de soles) : 5 8 7 10 15
Gastos (cientos de soles) : 7 14 8 15 20
¿Se puede atribuir la variación en los gastos anuales a las variaciones en el ingreso
anual?
44.- Una firma de renta de automóviles recabó los datos adjuntos sobre los costos de
mantenimiento (en dólares) y las millas recorridas (en miles) para siete de sus
automóviles.
Automóvil : A B C D E F G Millas recorridas : 55 27 36 42 65 48 29
Costo Mantenimiento : 299 160 215 255 350 275 207
¿Se pueden realizar pronósticos confiables usando un modelo lineal?
45.- Un estadístico de una fábrica de automóviles quiere desarrollar un modelo estadístico
para predecir el tiempo de entrega (el número de días entre la fecha del pedido y la fecha de entrega del automóvil) de automóviles nuevos ordenados con mucho equipo
opcional y la distancia de traslado (en cientos de millas). El estadístico selecciona una
muestra aleatoria de 7 automóviles con los resultados siguientes:
Opciones ordenadas : 3 4 4 7 7 8 9
Distanc. Traslado : 7.5 13.3 4.7 14.6 8.4 12.6 6.2
Tiempo de entrega : 25 32 26 38 34 41 39
a) Hallar el plano de regresión. 32 X621.0X34.26.13Y
b) ¿Cómo es la correlación entre la variable predictando y la mejor predictora para
valores constantes de la otra predictora? ¿Por qué? 0.988
c) Usando un modelo lineal con la mejor predictora y con un margen de error del
1%, ¿qué valor se espera obtener en la variable respuesta partiendo de un valor de 15 en la variable predictora? 34.84 ; 77.30
d) ¿Se puede afirmar que los cambios que se producen en la variable respuesta
se deben a los cambios de la variable predictora? Sí 26.52
46.- Una tienda especialista en trajes para personas de negocios con éxito intenta
determinar las variables que pueden explicar el nivel de compras de sus clientes. Se
recogieron datos de las compras por cada visita en dólares, los ingresos de los clientes
en miles y los años de permanencia del cliente en su empleo. Se pensaba que la última variable mide hasta dónde ha subido el cliente en la escala de puestos de la empresa
y, por tanto, refleja su necesidad de vestir con elegancia.
Compras : 630 550 320 820 450 755 750 330 950 655 Ingresos : 107 95 54 141 76 130 127 55 174 110
Años Perm. : 12 12 6 16 10 15 14 9 22 13
Después de recoger los datos, el director de la tienda se confiesa nulo en estadística y no tiene ni idea de qué hacer con ellos, ¿puede ayudarle?
a) Hallar la ecuación del plano de regresión.
b) Si el director tiene la oportunidad de servir a un cliente con un año más de experiencia o a uno con 1000 más de ingreso, ¿a quién debe atender?
c) ¿Permiten los datos determinar qué variable es la más importante para explicar
las compras? ¿Por qué?
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 321
47.- Se desea analizar el número de errores cometidos por una persona en relación con las
horas que lleva desarrollando un trabajo.
Errores cometidos : 10 10 8 6 5 3 4 2 5 8 9 10
Horas trabajadas : 1 2 3 4 5 6 7 8 9 10 11 12
¿Podemos afirmar que el número de errores por hora disminuirá si la persona se vuelve más eficiente en la tarea, pero después aumentaría debido a otros factores como por
ejemplo la fatiga y el aburrimiento?
48.- Los siguientes datos corresponden a las calificaciones y las puntuaciones en ansiedad
obtenidas por un grupo de estudiantes:
Ansiedad : 8 10 12 16 14 18 22 23 19 26 28 27
Calificac. : 12 10 9 9 8 7 5 6 8 5 3 4
a) ¿Sería apropiado utilizar un modelo lineal para realizar pronósticos?
b) ¿Qué porcentaje de la variable predictando explica el modelo de regresión?
c) Calcular el error estándar de estimación.
d) Con un margen de error del 5%, ¿qué calificación cabe esperar partiendo de una ansiedad de 20 puntos? 4.868 , 8.394
e) Hallar un intervalo de confianza del 95% para la cantidad por la cual un
estudiante de la población de la que se efectuó el muestreo puede esperar cambiar su calificación aumentando un punto en su ansiedad.
f) Con una confianza del 90%, ¿se puede afirmar que los cambios que se
producen en la variable predictando se pueden atribuir a los cambios de la variable predictora?
g) ¿Se puede afirmar que existe una buena asociación lineal entre X e Y?
49.- Durante los últimos cuatro años, los gastos en publicidad y las ventas de una empresa
(en millones de pesetas) han sido:
Ventas : 100 126 180 210 Gastos : 1.0 1.3 1.7 2.0
a) ¿Será un modelo lineal un buen ajuste? ¿Por qué?
b) Si en el quinto año la empresa ha previsto tener un gasto de 2,17 millones de
pesetas, y suponiendo que las condiciones de mercado no se alteran, ¿qué ventas obtendrá dicha empresa?
c) ¿Con qué fiabilidad debe esperarse el resultado anterior?
d) ¿Qué porcentaje de las variaciones en las ventas no se debe a los gastos en publicidad?
e) ¿Se podría afirmar que los cambios que se producen en las ventas no se deben
a efectos aleatorios? f) ¿Entre qué valores se espera que esté variando el coeficiente de regresión?
50.- Se sospecha que la tasa de fallos de cierto componente electrónico está relacionada
con la temperatura. Se obtiene la siguiente muestra de la variable bidimensional:
(Temperatura grados Fahrenheit , Fallos en una hora x 106) = (X , Y)
55;1.90 65;1.93 75;1.97 85;2.00 95;2.01 105;2.01
a) Trazar la nube de puntos de la muestra.
b) Hallar la recta de regresión de la tasa de fallos sobre la temperatura.
c) Calcular e interpretar el coeficiente de correlación lineal de Pearson. d) ¿Qué número de fallos puedes predecir que se producirán en hora a 70º
Fahrenheit?
e) ¿Qué tan alejados están los puntos del diagrama de esparcimiento con respecto al modelo lineal de regresión?
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 322
51.- Estamos interesados en investigar cómo varía el peso (libras) con la altura (pulgadas)
y edad (años) en los niños con una cierta deficiencia nutricional. Para tal efecto se
obtiene una muestra aleatoria de niños, obteniéndose los siguientes resultados:
Peso 64 71 53 67 55 58 77 57 56 51 76 68
Altura 57 59 49 62 51 50 55 48 42 42 61 57
Edad 8 10 6 11 8 7 10 9 10 6 12 9
a) ¿Podemos afirmar que ambas variables son buenas predictoras? ¿Por qué?
b) Hallar un modelo lineal o múltiple que permita realizar pronósticos que estén
muy cercanos a la realidad. c) ¿Qué tanto de los cambios de la variable predictando se ven explicados por el
modelo de regresión hallado?
d) ¿En qué medida se alejan los valores observados con respecto al modelo de regresión?
e) Realizar e interpretar un pronóstico.
52.- Una empresa que fabrica circuitos electrónicos aplica un riguroso control de calidad.
La producción se lanza por lote de 100 circuitos y luego se prueba cada circuito. Los
circuitos defectuosos (por lote) son inmediatamente reparados por el servicio de
reparación. Para poder planear adecuadamente la rotación del personal obrero en el servicio de reparación, es importante poder predecir el tiempo (en minutos) requerido
en este servicio después de la producción de un lote. La empresa dispone de los datos
siguientes:
Nº defectuosos 1 2 3 4 4 5 6 6 7 8 Tiempo reparac. 23 29 49 64 74 87 96 97 109 119
a) ¿Sería apropiado utilizar un modelo lineal para realizar pronósticos? ¿Por qué?
b) ¿Qué porcentaje de la variable predictando es explicado por un modelo de regresión lineal?
c) Calcular e interpretar el error estándar de estimación. 5.12
d) Con un margen de error del 5%, ¿qué tiempo se utilizará en la reparación cuando se tienen 10 artículos defectuosos? 143.94 ; 164
e) Hallar un intervalo de confianza del 95% para la verdadera variación que se
produce en el tiempo de reparación por cada artículo defectuoso que se incremente. 12.90 ; 16.46
f) Con una confianza del 90%, ¿se puede afirmar que los cambios que se producen
en la variable predictando se pueden atribuir a los cambios de la variable
predictora? ¿Por qué?
53.- Una empresa de desarrollo de software establece relacionar sus ventas en función del
número de pedidos de los tipos de software que desarrolla (Sistemas Educativos y
Automatizaciones Empresariales), para atender 10 proyectos en el presente año. En la
siguiente tabla se muestra las ventas (en miles de soles), el número de pedidos de sistemas, el número de pedidos de Aplicaciones Educativas y el número de pedidos de
Automatizaciones empresariales.
Ventas : 440 455 470 510 506 480 460 500 490 Nº Pedid. Sistemas : 50 40 35 45 51 55 53 48 38
Nº pedid. Aplic.Educat. : 105 140 110 130 125 115 100 103 118
Nº pedid. Automat.Empres. : 75 68 70 64 67 72 70 73 69
a) Hallar la ecuación del plano de regresión. Interpretar: 321 byb,b
b) ¿Qué tanto explica el plano de regresión hallado la relación entre las variables involucradas?
c) Realizar e interpretar un pronóstico.
d) Hallar un modelo lineal usando la mejor predictora.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 323
54.- En una empresa de servicio de Internet busca relacionar las ganancias que obtiene
cada computadora con el número de usuarios que ingresan a dicha cabina diariamente. En la tabla representa las ganancias S/. y el número de usuarios.
Ganancia : 100 98 99 102 102 111 97 104 102 96
Nº de usuarios : 116 96 110 105 99 106 100 109 98 108
a) Hallar un modelo que le permita realizar buenos pronósticos. b) Con una confianza del 99%, realizar e interpretar un pronóstico.
55.- Una empresa informática tiene un registro de productos de software al cual se les midió el número de errores encontrados (en cientos de módulos) y el número de líneas
de código que posee (miles de líneas). Los datos se encuentran resumidos en la tabla
siguiente:
Nº líneas de código : 10 15 15 20 20 25 25 35 35
Nº errores encontrados : 1 1 2 2 3 3 4 4 5
Nº de productos : 10 7 6 5 4 3 1 1 2
a) Si se usa un modelo lineal, ¿serían acertados los pronósticos? ¿Por qué? b) Hallar el modelo lineal. Interpretar a y b.
c) En promedio, ¿qué tanto se alejan los valores verdaderos con respecto a los
valores estimados? d) ¿Se puede afirmar que las variaciones en el número de errores encontrados son
independientes del número de líneas de código?
e) Si el producto tiene 37000 líneas de código, ¿cuántos errores se espera encontrar? Usar un nivel del 10%.
f) ¿Entre qué valores se espera que esté variando el verdadero coeficiente de
regresión?
56.- Los datos de la tabla adjunta muestran el tiempo en horas de impresión de trabajos
que se han impreso en una impresora láser de marca HP. Se está interesado en estudiar la relación existente entre la variable de interés “tiempo de impresión de un
trabajo” y la variable explicativa “número de páginas del trabajo”. Hacer el estudio en
base a los datos obtenidos en el muestreo y que son los siguientes:
Tiempo : 1 2 3 4 5 6 7 8 Nº Págs. : 0.60 0.9 1.40 1.80 2.50 3.2 3.4 4.5
a) Hallar la recta de regresión considerando el tiempo como variable predictora.
b) Hallar una recta usando el número de páginas como variable explicativa.
c) Realizar una estimación altamente confiable del número de páginas que se imprimirían en 12 horas.
d) Al nivel del 1%, estimar el tiempo de impresión máximo si el número de páginas
es 850. e) ¿Qué se puede afirmar acerca del verdadero coeficiente de regresión?
f) ¿Se puede afirmar que las variaciones en el tiempo de impresión son
independientes del número de páginas?
57.- Se está estudiando la relación entre el número de años que una persona está afiliada
al sindicato y el nivel de satisfacción con la actuación de dicho sindicato. Para ello se toma aleatoriamente a un grupo de personas adscritas a sindicatos, obteniéndose:
Años : 8 7 10 3 6 13 4
Satisfacción : 7 5 8 5 9 9 3
a) Calcular el coeficiente de correlación lineal. Comentar el resultado obtenido. b) Predecir el índice de satisfacción de una persona que lleva 11 años
perteneciendo al sindicato.
c) Conociendo que el índice de satisfacción es de 6 predecir los años que lleva en el sindicato.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 324
58.- Supongamos que el Gerente de Ventas no está satisfecho con el modelo lineal con una
variable, y decide incorporar las calificaciones obtenidas en la fase 1 del programa
inicial de entrenamiento. Igualmente, decide incorporar más datos correspondientes a otros vendedores. De forma tal que nuestros datos son:
vendedor Ventas semanales
(en miles de soles)
Puntuación de
la prueba
Calificación de
desempeño
1 5 4 2
2 12 7 5
3 4 3 1
4 8 6 4
5 11 10 6
6 4 9 5
7 30 2 10
8 14 5 5
9 6 9 4
10 14 2 6
11 4 1 1
12 5 3 1
a) Hallar el plano de regresión e interpretar 321 b,b,b
b) ¿Qué tan lejos están los puntos del dispersigrama con respecto al plano de
regresión?
c) Si usamos la mejor variable predictora, ¿sería útil un modelo lineal? ¿Por qué? d) Hallar el modelo lineal e interpretar a y b.
e) ¿Se puede afirmar que los cambios que se producen en la variable predictando
se deben a fluctuaciones aleatorias que son independientes de los cambios de la mejor variable predictora?
f) ¿Qué podemos afirmar acerca del verdadero cambio que se produce en la
variable predictando cada vez que la variable predictora se incrementa en un
punto?
59.- Un sociólogo asignado a una institución correccional estuvo interesado en estudiar la
relación entre inteligencia y delincuencia. Un índice de delincuencia (variando de 0 a 50) fue formulado para medir la gravedad y frecuencia de crímenes cometidos,
mientras la inteligencia fue medida por IQ. La tabla muestra el índice de delincuencia
(ID) y el IQ para una muestra aleatoria de convictos menores.
ID : 26.2 33.0 28.5 25.25 20.3 31.9 21.1 22.7 22.1
IQ : 110 89 102 98 110 98 122 119 120
35.5 38 30
85 73 90
a) Un modelo lineal, ¿permitirá realizar pronósticos cercanos a la realidad? ¿Por
qué?
b) Si el modelo lineal es confiable, hallar dicho modelo.
c) ¿Se puede afirmar que mientras más inteligente es el sujeto, se espera un mayor índice de delincuencia? ¿Por qué?
d) ¿Qué tanto de los cambios en la variable predictando se pueden atribuir a los
cambios en la variable predictora? e) ¿Influye el IQ en el índice de delincuencia?
f) Con una confianza del 90%, ¿cuánto se espera que sea como máximo el
verdadero coeficiente de regresión? g) Realizar un pronóstico altamente confiable.
h) Calcular e interpretar la covarianza.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 325
60.- El ingreso anual disponible y los gastos de consumo de 9 familias, seleccionadas
aleatoriamente, en una zona de cierta ciudad han sido en miles de dólares los
siguientes:
Gasto : 7 12 18 30 20 24 8 11 8
Ingreso : 8 15 20 35 28 25 8 13 7
Haciendo uso de esta información, responder a las siguientes preguntas: a) Ajuste por mínimos cuadrados una recta en la que el consumo sea función de los
ingresos.
b) Comente el significado del coeficiente de la recta ajustada. c) Proporcione una medida de la bondad del ajuste.
d) ¿Se puede concluir que los cambios de la variable predictando se deben a efectos
aleatorios? e) Hallar el alejamiento de los puntos del diagrama de dispersión con respecto al
modelo hallado.
f) Calcular los errores de estimación.
61.- Un gerente de recursos humanos desea determinar el salario que debe pagar a cierta
categoría de obreros. Para determinar dicho salario se realiza un estudio en el que intervienen las variables Salario Mensual ($), Nivel de Producción Anual en la Empresa
(en miles de dólares) y Nivel de Especialización media del trabajador (de 0 a 10). El
gerente obtiene los siguientes resultados:
Salario ($) : 123.4 135.7 115.9 100.6 98.7 150.4 124.6 110.0
Producción : 300.5 325.9 298.6 200.9 300.4 359.8 279.6 215.6
Especialización : 4.3 5.5 7.8 4.9 4.3 8.5 6.4 5.6
a) Hallar la ecuación del plano de regresión lineal mínimo cuadrático que explica el salario en función de la producción y del nivel de especialización.
b) ¿Qué salario se debería pagar si el nivel de producción fuese de 315 mil dólares
y el nivel medio de especialización de 6.6? c) Calcular los valores estimados usando el plano de regresión.
d) Hallar los residuos.
e) Hallar la ecuación de la recta de regresión usando la mejor predictora. f) ¿Explica la mejor predictora a la variable predictando?
g) ¿Qué tanto se alejan los puntos del dispersigrama con respecto a la recta de
regresión?
62.- Una empresa fabricante de cereales para el desayuno desea conocer la ecuación que
permita predecir las ventas (en miles de euros) en función de los gastos en publicidad infantil en televisión (en miles de euros), el tiempo diario de aparición en televisión (en
minutos) y los gastos en publicidad en los periódicos (en miles de euros). Se realiza un
estudio en el que se reúnen los datos mensuales correspondientes a los últimos 20
meses. Estos datos aparecen en la siguiente tabla:
Ventas : 10 12 13 12 14 16 12 14 11 10 19 8
Public. TV : 1.0 1.2 1.3 1.4 1.5 1.7 1.8 1.3 1.4 0.9 0.8 0.9
Tiempo TV : 50 57 56 55 60 65 69 67 68 67 97 66 Public.Per. : 0.4 0.4 0.5 0.5 0.4 0.4 0.6 0.5 1.1 0.3 0.5 0.6
a) Hallar el plano de regresión usando las dos mejores predictoras.
b) Hallar los valores estimados. c) Calcular los errores de estimación.
d) Hallar la ecuación de un modelo lineal e interpretar la constante y el coeficiente
de regresión. e) Al nivel del 10%, ¿qué podemos afirmar acerca del verdadero coeficiente de
regresión?
f) Realizar un pronóstico al nivel del 98%.
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 326
63.- Veintitrés estudiantes de pedagogía tomaron parte en un programa de evaluación
diseñado para medir la eficacia de los profesores y determinar qué factores son importantes. Participaron 11 instructoras. La medición de la respuesta fue una
evaluación cuantitativa del maestro colaborador. Las variables regresoras fueron las
calificaciones de cuatro pruebas estandarizadas entregadas a cada instructor. Los datos son los siguientes.
Eficacia P1 P2 P3 P4
410 69 125 59 55
569 57 131 31 63
425 77 141 80 45
344 81 122 75 46
324 0 141 49 41
505 53 152 49 43
235 77 141 60 41
501 76 132 41 64
400 65 157 50 42
584 97 166 32 57
434 76 141 54 58
a) Hallar el modelo de regresión usando las dos mejores predictoras. b) El plano de regresión hallado, ¿permitirá realizar pronósticos confiables? ¿Por
qué?
c) Utilizando la mejor predictora, hallar la ecuación de regresión. d) ¿Se puede afirmar que los cambios que se producen en la variable predictando
se pueden atribuir a los cambios de la mejor predictora?
e) ¿Qué tanto se alejan los puntos del diagrama de dispersión con respecto a la recta de regresión?
64.- En base a una muestra de doce datos se quiere ajustar un modelo de regresión de la variable respuesta, precio en euros por el que se adquirió una impresora láser,
respecto a las variables regresoras: número de páginas por minuto que es capaz de
imprimir y años de antigüedad de la impresora. Los datos del estudio son los
siguientes:
Precio : 466 418 434 487 516 462 475 501 594 553 551 589
Nº págs. : 6 6 6 6 8 8 8 8 12 12 12 12
Antig. : 6 4 2 0 6 4 2 0 6 4 2 0
a) Hallar el modelo de regresión.
b) ¿Qué tanto de los cambios de Y pueden ser explicados por el modelo de regresión hallado?
c) Realiza e interpreta un pronóstico.
65.- En base a una muestra de datos se quiere ajustar un modelo de regresión de la variable
Rendimiento de un sistema informático, respecto a las variables regresoras: número
de buffers y número de procesadores. Los datos del estudio son los siguientes:
Buffers : 5 10 15 20 25 5 10 15 20 25 5 10 15 20 25
Proces. : 8 8 8 8 12 12 12 12 20 20 20 25 25 25 25
Rend. : 9 20 30 39 50 10 19 30 40 50 11 21 31 42 51
a) Hallar la ecuación de regresión usando ambas predictoras.
b) Hallar un modelo lineal usando la mejor predictora.
c) ¿Influye la mejor predictora en la variable predictando? d) Al nivel del 10%, ¿cuánto se espera que sea como máximo el rendimiento si la
variable predictora asume el valor 15?
UAP Ing. de Sistemas e Informática – Ing. Industrial
Inferencia Estadística
Profesora: Gladys Enríquez Mantilla 327
66.- En una clase de estudiantes se realiza un estudio para determinar la relación existente
entre la variable “Nota obtenida por el estudiante en la asignatura de Estadística” y las variables: “Nota esperada por el estudiante”, “Horas semanales de estudio
dedicadas a la asignatura” y “Nota media del estudiante en las demás asignaturas”.
Para ello se tienen en cuenta los siguientes datos:
Estadística : 12 15 9 14 12 11 17 14 18 16 10 8
Nota esperada : 14 17 11 13 14 9 18 15 16 14 11 10
Horas estudio : 10 14 8 12 13 7 15 14 20 15 10 8 Nota media : 14 14 11 13 14 12 16 15 16 14 12 11
a) ¿Cuál de las variables predictoras explica mejor la nota obtenida por el
estudiante en la asignatura de Estadística? ¿Por qué? b) Realizar e interpretar un pronóstico usando las dos mejores predictoras.
c) Interpretar la constante y los coeficientes del plano de regresión.
d) Al nivel del 1%, realiza un pronóstico usando la mejor predictora.
e) ¿Influye la mejor predictora en la nota obtenida en estadística? f) Qué tipo de relación existe entre la variable predictando y la mejor predictora?
g) ¿Qué porcentaje de los cambios en la variable respuesta es explicado por el
modelo de regresión lineal. h) Calcular los valores estimados con el plano de regresión.
i) Hallar los residuos de la recta de regresión.
67.- Un programa informático realiza un cálculo con un número. Se desea estudiar la
relación entre el tiempo de ejecución y la regresora número de dígitos del número. Para
ello se ha recogido una muestra de observaciones:
Tiempo de ejecución : 1 1 2 2 3 3 4 4 5 5
Nº de dígitos del número : 1 2 4 5 8 9 14 16 20 25
a) Ajustar un modelo de segundo grado a partir de la muestra dada. b) Calcular la predicción del tiempo de ejecución para un número de 6 dígitos.
c) ¿Serán acertados los pronósticos que se realicen con el modelo cuadrático?
d) Hallar los valores estimados. e) Calcular los residuos.
f) Entre un modelo lineal y uno cuadrático, ¿cuál permitiría realizar mejores
pronósticos? ¿Por qué?
68.- Se mide en una muestra aleatoria de estudiantes universitarios el tiempo semanal
(horas) que pasan frente al televisor y los puntos obtenidos en una prueba de
competencia lectora con escala de 0 a 20 puntos (0=mínima competencia y 20=máxima competencia). El propósito del estudio es determinar la posible asociación entre las
variables.
Tiempo TV (hrs.) : 9 16 20 7 10 25 5 18 Competencia lectora (ptos.) : 15 11 8 18 14 7 12 10
a) ¿Sería adecuado utilizar un modelo lineal para realizar pronósticos? ¿Por
qué? b) Interpretar a y b en el modelo lineal.
c) ¿Qué se puede afirmar acerca del verdadero coeficiente de regresión?
d) ¿Podemos afirmar que los cambios producidos en la variable respuesta los podemos atribuir a las variaciones de la variable predictora?
e) Calcular e interpretar el error estándar de estimación.
f) Obtener una conclusión altamente significativa acerca del verdadero
cambio que se produce en la variable predictando cuando la variable predictora se incrementa en una unidad.
top related