Download - Regres Ssimp y Mult
Reciba asesoria virtual en: www.utpl.edu.ec
AUTOR:
Ing. Wehrli Enrique Pérez.Ing. Karina Bajaña Zambrano.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
MODALIDAD ABIERTA Y A DISTANCIA
ESCUELA DE ECONOMÍA
1. Datos informativos
4 CRÉDITOS
Guía didáctica
STADÍSTICA IIE
CICLOS CARRERAS
UTP
L-EC
TS
3 • Administración de Empresas Turísticas y Hoteleras
• Contabilidad y Auditoría• Administración en Banca y Finanzas
5 • Administración de Empresas • Economía
4
19508
MATERIAL DE USO DIDÁCTICO PARA ESTUDIANTES DE LA UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA,PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL POR CUALQUIER MEDIO
ESTADÍSTICA IIGuía didácticaWehrli Enrique PérezKarina Bajaña Zambrano
© UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
Diagramación, diseño e impresión:EDITORIAL DE LA UNIVERSIDAD TÉCNICA PARTICULAR DE LOJACall Center: 593 - 7 - 2588730, Fax: 593 - 7 - 2611418C. P.: 11- 01- 608www.utpl.edu.ecSan Cayetano Alto s/nLoja-Ecuador
Cuarta edición
ISBN-978-9942-08-120-9
Reservados todos los derechos conforme a la ley. No está permitida la reproducción total o parcial de esta guía, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escrito de los titulares del Copyright.
Abril, 2012
Primera reimpresión
3. Introducción ........................................................................................................................................ 7
4. Bibliografía ......................................................................................................................................... 8
4.1 Básica .................................................................................................................................................. 8
4.2 Complementaria ................................................................................................................................ 8. Orientaciones generales para el estudio ................................................... 9
6. Proceso de enseñanza-aprendizaje para el logro de competencias ..................................................................................................................................... 11
PRIMER BIMESTRE
6.1 CompetenciasGenéricas .............................................................................................................. 116.2 Planificaciónparaeltrabajodelalumno .............................................................................. 116.3 Sistemadeevaluación ................................................................................................................. 136.4 Orientacionesespecíficasparaelaprendizajeporcompetencias .................................. 15
CAPÍTULO1:REGRESIONLINEAL .................................................................................................................. 15
1.1. Introducción .......................................................................................................................................... 15
1.2. Supuestos generales del modelo ....................................................................................................... 15
1.3. Supuesto específico de Normalidad .................................................................................................. 16
1.4. Modelo de Regresión Lineal Simple .................................................................................................. 16
1.5. Coeficiente de Determinación R² ....................................................................................................... 22
1.6. Potencia de Explicación del Modelo .................................................................................................. 23
1.7. Coeficiente de Correlación ƿ .............................................................................................................. 24
1.8. Coeficiente de Correlación Muestral r ................................................................................................ 24
1.9. Relación entre el Coeficiente de Determinación y el Coeficiente de Correlación ........................ 24
1.10. Prueba de Significancia del modelo ............................................................................................... 27
1.11. Valor p ................................................................................................................................................. 28
1.12. Tabla de Análisis de Varianza .......................................................................................................... 29
1.13. Estimación de σ² ............................................................................................................................. 30
1.14. Análisis Residual ................................................................................................................................ 35
Autoevaluación 1 .......................................................................................................................................... 40
CAPÍTULO2:REGRESIONMULTIPLE.............................................................................................................. 41
2.2. Suposiciones del modelo ..................................................................................................................... 41
2.3. Supuesto específico de Normalidad .................................................................................................. 41
2.4. Método de Mínimos Cuadrados ......................................................................................................... 42
2.5. Coeficiente de Determinación Múltiple R2 ....................................................................................... 42
2.6. Potencia de Explicación del Modelo R2 * 100% ............................................................................ 43
2.7. Coeficiente de Determinación Múltiple Ajustado ............................................................................. 44
2.8. Prueba de Significancia ....................................................................................................................... 44
2.9. Tabla de Análisis de Varianza ............................................................................................................ 46
Autoevaluación 2 ......................................................................................................................................... 56
2. Índice
CAPÍTULO3:ANÁLISISDEREGRESIÓN:CONSTRUCCIÓNDEMODELOS ...................................................... 57
3.1. Introducción .......................................................................................................................................... 57
3.2. Modelo de orden superior ................................................................................................................... 57
3.3. Modelo con interacción ....................................................................................................................... 62
3.4. Determinación de cuándo agregar variables ................................................................................... 65
3.5. Determinación de cuándo agregar variables, el caso general ...................................................... 70
Autoevaluación 3 .......................................................................................................................................... 75
SEGUNDO BIMESTRE
6.5 Competenciasgenéricas ............................................................................................................. 776.6 Planificaciónparaeltrabajodelalumno .............................................................................. 776.7 Orientacionesespecíficasparaelaprendizajeporcompetencias .................................. 80
CAPÍTULO4:NÚMEROSÍNDICES
4.1. Introducción .......................................................................................................................................... 80
4.2. Precios relativos .................................................................................................................................... 80
4.3. Índices de precios agregados ............................................................................................................. 80
4.4. Índices de precios agregados no ponderado .................................................................................... 82
4.5. Índice de precios agregados ponderados ......................................................................................... 82
4.6. Cálculo de un índice de precios agregados ponderados a partir de precios relativos ............... 84
4.7. Algunos índices de precios importantes ............................................................................................ 86
4.8. Deflactar una serie mediante índices de precios ............................................................................. 88
Autoevaluación 4 .......................................................................................................................................... 93
CAPÍTULO5:PRONÓSTICOS ........................................................................................................................... 94
5.1. Introducción .......................................................................................................................................... 94
5.2. Serie de Tiempo .................................................................................................................................... 94
5.3. Pronóstico .............................................................................................................................................. 94
5.4. Componentes de una serie de tiempo ............................................................................................... 94
5.5. Componente de tendencia .................................................................................................................. 94
5.6. Componente cíclico .............................................................................................................................. 94
5.7. Componente estacional ....................................................................................................................... 94
5.8. Componente irregular .......................................................................................................................... 94
5.9. Métodos de suavizamiento ................................................................................................................. 94
5.10. Promedios móviles ............................................................................................................................. 95
5.11. Promedios móviles ponderados ....................................................................................................... 101
5.12. Suavizamiento exponencial.............................................................................................................. 101
5.13. Proyección de tendencia ................................................................................................................... 109
5.14. Componentes de tendencia y estacionales .................................................................................... 112
5.15. Modelo multiplicativo ....................................................................................................................... 113
5.16. Cálculo de los índices estacionales ................................................................................................. 113
5.17. Desestacionalización de una serie de tiempo ............................................................................... 118
5.18. Uso de una serie de tiempo desestacionalizada para la identificación de tendencias ........... 120
5.19. Ajustes estacionales ........................................................................................................................... 123
Autoevaluación 5 .......................................................................................................................................... 124
CAPÍTULO6:MÉTODOSNOPARAMÉTRICOS ................................................................................................. 126
6.1. Introducción .......................................................................................................................................... 126
6.2. Prueba de los signos ............................................................................................................................ 126
6.3. Caso de muestras pequeñas ............................................................................................................... 126
6.4. Nivel de Significación y Valor p ......................................................................................................... 127
6.5. Caso de muestras grandes .................................................................................................................. 130
6.6. Nivel de significación y Valor p......................................................................................................... 131
6.7. Prueba de hipótesis acerca de la mediana ...................................................................................... 132
6.8. Prueba de los rangos con signo de Wilcoon .................................................................................... 134
6.9. Distribución Muestral De T Para Poblaciones Idénticas ................................................................. 137
6.10. Prueba de Mann - Whitney - Wilcoxon .......................................................................................... 138
6.11. Caso para muestras pequeñas ......................................................................................................... 138
6.12. Caso de muestras grandes ................................................................................................................ 141
6.13. Distribución Muestral De T Para Poblaciones Idénticas ............................................................... 141
6.14. Prueba de Kruskal-Wallis ................................................................................................................. 143
6.15. Correlación de rangos ........................................................................................................................ 145
6.16. Prueba de significancia de correlación de rangos ........................................................................ 147
Autoevaluación 6 .......................................................................................................................................... 149
7. Solucionario ....................................................................................................................................... 150
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 7
PRELIMINARES Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 7
3. Introducción
La Estadística II es una asignatura de carácter genérica que se desarrolla de manera conjunta en las carreras del área administrativa de la UTPL, distribuida de la siguiente manera: Economía, Administración de Empresas, Asistencia Gerencial y Relaciones Públicas en quinto ciclo; Contabilidad y Auditoría, Administración en Banca y Finanzas en el cuarto ciclo, y en Administración de Empresas Turísticas en el tercer ciclo. Esta asignatura contempla un total de 4 créditos académicos.
La importancia de la materia radica en su aplicación para la toma de decisiones. En los últimos años hemos visto que se aplica estadística en todas las áreas, las oficinas de estadística del gobierno publican cada mes nueva información numérica sobre la inflación, el desempleo, y la inseguridad. Los especialistas, asesores financieros y los que determinan las políticas de una empresa y del gobierno estudian los datos para tomar decisiones basadas en la información, para ofrecer un tratamiento adecuado en sus estrategias.
“Un día las estadísticas serán tan necesarias para la vida ciudadana como el leer y escribir” por Herbert George Wells (1866-1946)
La asignatura de Estadística II está estructurada en 6 capítulos. En el primer bimestre se estudia los tres primeros capítulos, muestran cómo construir modelos de regresión, sean estos modelos de regresión simple o modelos de regresión múltiple, interpretar sus resultados, así mismo la construcción e interpretación de la tabla ANOVA (Análisis de Varianza) para determinar la validez del modelo mediante una Prueba de Hipótesis.
El segundo bimestre comprende tres capítulos. En el capítulo 4 veremos el uso de los números índices, permiten hacer comparaciones entre los precios actuales por unidad de un artículo en particular con los precios de los mismos productos en el año base. Este tipo de procedimiento se utiliza para determinar un índice de precios (Inflación). También se analizarán los índices de precios agregados ponderados y los no ponderados quienes miden la variación combinada de un grupo de artículos.
En el capítulo 5 llamado “Pronósticos”, trata de realizar una estimación de lo que podría ocurrir en un futuro con una serie de tiempo, y ver la tendencia que tienen los datos que en algunos casos se presenta como una línea creciente, también se observaran otras que no necesariamente tienen un comportamiento lineal.
Y el último capítulo llamado métodos no paramétricos, que son alternativas más robustas para Probar Hipótesis sobre el valor central que siguen un conjunto de datos.
La asignatura de Estadística II es parte fundamental de su formación por esto le motivo para que realice un estudio sistematizado, utilizando el texto básico paralelo con la guía didáctica, y que utilice los recursos virtuales como videoconferencias y el sistema de aprendizaje EVA.
Estamos gustosos de presentarles este material didáctico que ha sido elaborado para que le acompañe durante su proceso formativo.
¡Éxito en su estudio!
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 9
PRELIMINARESGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja8
4.1 Básica
El texto básico es:
Anderson D. Sweeney D. y Williams T. (2009). Estadística para Administración y Economía. Décima edición”. Cosegraf. México
Los autores del libro son expertos en el tema, lo cual les permite presentar un texto con gran cantidad de ejercicios, utilizando el Excel como herramienta principal.
Pérez W. (2011). Guía didáctica de Estadística II. Loja-Ecuador: Editorial UTPL.
La guía didáctica ha sido elaborada en base al libro de Anderson D., y otros. Estadística para Administración y Economía, décima edición.
Contiene el desarrollo de los principales temas de la estadística utiliza recursos didácticos como autoevaluaciones, actividades recomendadas, casos prácticos y ejemplos, todo esto junto con el texto básico serán sus principales herramientas para el desarrollo de la asignatura.
4.1 Complementaria
Berenson M. Levine D. Krenhbiel T. (2001). Estadística para administración. México. Editorial Pearson Educación.
Este libro es bastante didáctico por cuanto los contenidos se encuentran agrupados de forma sistemática, al igual que sus ejercicios, lo que permite manejar, de mejor manera, los diferentes temas tratados.
Lind D. Marchall W. Wathen S. (2004). Estadística para Administración y Economía. Onceava edición Alfaomega. Colombia.
Los autores del libro son expertos en la materia, lo cual les permite presentar un texto con gran cantidad de ejercicios, utilizando el Excel como herramienta principal.
4. Bibliografía
PRELIMINARES Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 9
Estimado estudiante, considere las siguientes indicaciones para obtener los mejores resultados en el estudio de la materia:
Materiales:
1. Usted dispone del libro básico y guía didáctica, realice una lectura simultánea deteniéndose en los ejemplos que se indican en cada uno.
2. El trabajo a distancia y la evaluación presencial han sido elaborados en función del texto básico y la guía didáctica por lo que su lectura debe concentrarse en estas dos herramientas.
3. Para una mejor comprensión de cada tema realice las actividades complementarias y las autoevaluaciones propuestas al final de cada unidad. Puede comparar las respuestas en el solucionario adjunto al final de este texto.
4. Dispone del Entorno Virtual de Aprendizaje EVA, encontrará un mensaje semanal con la explicación de los contenidos críticos de la asignatura, claves de respuesta de las evaluaciones a distancia y presenciales, o alguna comunicación específica.
5. Dispone de un horario de tutoría semanal, utilícelo para obtener información y explicación de los contenidos de la materia. La tutoría puede realizarse por Internet a través del Entorno Virtual de Aprendizaje EVA, correo electrónico o teléfono.
Contenidos:
6. Los conocimientos previos que se requieren para la asignatura son las nociones generales de economía que revisó en Microeconomía II.
7. Para mejor comprensión de los contenidos se utiliza gráficos y algunos ejemplos.
Estudio de la materia:
8. En la guía didáctica dispone de la planificación bimestral, luego de revisarla verifique el cumplimiento de los indicadores de aprendizaje, de esta forma podrá medir sus avances académicos, aptitudes y habilidades desarrolladas con el estudio de la materia.
9. Realice un estudio sistemático, distribuyendo su tiempo de manera que disponga de al menos dos horas diarias para leer los contenidos y una semana para que prepare las pruebas bimestrales.
10. Le sugiero que utilice un método específico para su estudio, por ejemplo el método científico. Este supone la observación, inducción, planteamiento y demostración de hipótesis y elaboración de conclusiones. Este método tiene algunas tipologías por lo que le sugiero utilizar la lógica (hacer analogías), deducciones y síntesis.
11. Utilice activamente los recursos tecnológicos como EVA, biblioteca virtual, videoconferencias, recursos educativos abiertos, etc. Antes de ello le propongo que:
5. Orientaciones generales para el estudio
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 11UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 11
PRELIMINARESGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja10
Verifique el horario de tutorías con su profesor.
Revise las fechas propuestas para las tutorías por videoconferencia, éstas se dictan una vez por bimestre, es su oportunidad para resolver dudas sobre los contenidos de la materia.
Durante su estudio utilice una libreta de notas para que durante las tutorías formule todas las preguntas que tiene respecto del tema.
12. Recuerde que ante alguna duda comuníquese con su tutor vía correo electrónico o por teléfono.
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 11UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 11
6.1 COMPETENCIAS GENÉRICAS
- Adquirir hábitos y técnicas de estudio eficaces
- Capacidad de abstracción, análisis y síntesis
- Capacidad de aplicar los conocimientos en la práctica
- Capacidad de investigación
- Capacidad para identificar, plantear y resolver problemas
- Capacidad creativa e innovadora
- Capacidad para tomar decisiones
6.2 PLANIFICACIÓN PARA EL TRABAJO DEL ALUMNO.
Competencias Específicas
Indicadores de Aprendizaje
Contenido Actividades de Aprendizaje
Cronograma Orientativo
Unidades/Temas Tiempo estimadoDesarrollar el pensamiento lógico para la aplicación en aspectos económicos y la interpretación de resultados, gráficas y análisis de datos en modelos reales.
Utiliza la regresión lineal simple para la toma de decisiones
Unidad 1: Regresión lineal
1.1 Supuestos generales del modelo
1.2 Supuesto especifico de normalidad
1.3 Modelo de regresión lineal simple
1.4 Coeficiente de determinación
1.5 Coeficiente de correlación muestral
1.6 Relación entre el coeficiente de determinación y el coeficiente de correlación
1.7 Prueba de significancia del modelo
1.8 Valor p1.9 Tabla de análisis de
varianza1.10 Estimación de σ21.11 Análisis residual
• Lectura comprensiva
• Desarrollo de autoevaluación
• Elaboración de cuadro sinópticos
• Elaborar ejercicios
• Desarrollo de la evaluación a distancia
Semanas: 1 y 2 8 horas de estudio a la semana y 8 horas de interacción por el EVA
PRIMER BIMESTRE
6. Proceso de enseñanza-aprendizaje para el logro de competencias
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 13
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja12
Utiliza la regresión múltiple para la toma de decisiones
Unidad 2: Regresión múltiple
2.1 Supuestos del modelo
2.2 Supuesto específico de normalidad
2.3 Método de Mínimos Cuadrados
2.4 Coeficiente de determinación Múltiple R2
2.5 Potencia de explicación del Modelo R2
2.6 Coeficiente de determinación Múltiple Ajustado
2.7 Prueba de significancia
2.8 Tabla de análisis de varianza
• Lectura comprensiva
• Desarrollo de autoevaluación
• Elaboración de cuadro sinópticos
• Desarrollo de la evaluación a distancia
• Interacción con el EVA
Semanas: 3 y 48 horas de estudio a la semana y 8 horas de interacción por el EVA
Construye modelos de regresión
Unidad 3: Análisis de regresión: Construcción de modelos
3.1 Modelo de orden superior
3.2 Modelo con interacción
3.3 Determinación de cuando agregar variables
3.4 Determinación de cuando agregar variables, el caso general
• Lectura comprensiva
• Desarrollo de autoevaluación
• Elaboración de cuadro sinópticos
• Desarrollo de la evaluación a distancia
• Interacción con el EVA
Semanas: 5 y 6
8 horas de estudio a la semana y 8 horas de interacción por el EVA
Unidades del 1-3
• Resolver autoevaluaciones
• Resolver trabajo a distancia
• Realizar cuadros sinópticos
Semanas:7 y 8
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 13
3. C
oeva
luac
ión
xx
xx
xx
xx
xx
Activ
idad
es
Pres
enci
ales
y e
n el
eva
Para aprobar la asignatura se requiere obtener un puntaje mínimo de 28/40 puntos, que equivale al 70%.
* Son estrategias de aprendizaje, no tienen calificación; pero debe responderlas con el fin de autocomprobar su proceso de
aprendizaje.
** Recuerde: que la evaluación a distancia del primer bimestre y segundo bimestre consta de dos partes: una objetiva y otra
de ensayo, debe desarrollarla y entregarla en su respectivo Centro Universitario.
2. Heteroevaluación
Eva luac ión
Presencial
Pr
ue
ba
Obj
etiv
a y
de E
nsay
o
xx
xx
xx
xx
xx
70%
14
20 Puntos
Evaluación a Distancia**
Inte
racc
ión
en e
l EVA
xx
xx
xx
xx
xx
x
Máx
imo
1 pu
nto
(Com
plet
a la
eval
uaci
ón a
dist
anci
a)
Part
e de
Ensa
yo
xx
xx
xx
xx
xx
30%
6
20%
4
TOTAL
Pa
rt
e
Obj
etiv
a
xx
xx
10%
2
1. A
utoe
valu
ació
n*x
xx
xEs
trate
gia
de
Apre
ndiz
aje
Formas de Evaluación
Competencia: Criterio
Comportamiento ético
Cumplimiento, puntualidad y responsabilidad
Esfuerzo e interés en los trabajos
Respeto a las personas y a las normas de
comunicación
Creatividad e iniciativa
Contribución en el trabajo colaborativo y de equipo
Presentación, orden y ortografía
Emite juicios de valor argumentadamente
Dominio del contenido
Investigación (cita fuentes de consulta)
Aporta con criterios y soluciones
Análisis y profundidad en el desarrollo de los temas
PORCENTAJE
Puntaje
Actit
udes
Hab
ilida
des
Con
ocim
ient
os
Señor estudiante:
Tenga presente que la finalidad de la valoración cualitativa es principalmente formativa.
6.3 Sistema de evaluación
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 15
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 15
UNIDAD 1
REGRESIÓN LINEAL
Para el desarrollo de este capítulo, vaya revisando conjuntamente con esta guía el capítulo 14 del texto básico Anderson, D., Sweeney, D., y Williams, T. Estadística para administración y economía, decima edición.
INTRODUCCIÓN
La Regresión Lineal es un modelo estadístico que utiliza una fórmula para explicar la relación lineal entre una variable “y” en términos de otras variables “xi”, para i=1, 2,…, p en un conjunto de individuos o unidades analizadas.
RECUERDE:La variable y es la variable a ser explicada o también llamada variable dependiente, y las variables x se las denomina variables de explicación o variables independientes.
El modelo es de la forma:
y = β₀ + β₁x₁ + β₂x₂ + ... + βp x p + ε
Los valores βi para i=1,2,…, p son llamados coeficientes de regresión (parámetros del modelo), y serán calculados (estimados) por un método estadístico.
El valor ε es la expresión de la variable aleatoria del error del modelo conformado por todos los εi errores en cada individuo u observaciones.
En esta unidad vamos a estudiar el modelo más sencillo de análisis de regresión en el cual solo intervienen dos variables, la variable de explicación o independiente x y la variable a ser explicada o dependiente y; a este modelo se lo conoce como modelo de Regresión Lineal Simple.
SUPUESTOS GENERALES DEL MODELO
En Estadística, todos los métodos de estimaciones de parámetros se realizan bajo ciertos supuestos que deben verificarse para no utilizar un método inapropiado o concluir de forma incorrecta.
6.4 Orientaciones específicas para el aprendizaje por competencias
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 17
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja16
En el modelo de regresión lineal simple y = β₀ + β₁x + ε , los supuestos son:
⇨ El valor esperado o media, de los errores de estimación del modelo sobre las observaciones es cero;
E [εi] = 0;
⇨ Es decir que la varianza del error, será la misma para todos los valores de la variable x , en este caso al modelo se lo conoce con el nombre de modelo homocedástico. Cuando la varianza no es constante al modelo se lo conoce con el nombre de modelo heterocedástico.
Var ( εi) = σ²
⇨ La covarianza del error entre observaciones es cero, suponemos que las variables aleatorias del error son independientes.
Cov (εi εj) = 0; i ≠ j ; i = 1,2,...,n;
SUPUESTO ESPECÍFICO DE NORMALIDAD
Es muy común utilizar el supuesto adicional de normalidad, en un modelo de regresión.
La variable aleatoria sigue una distribución Normal con media cero y varianza σ², esto se expresa como ε~N ( 0 , σ² ).
Se puede demostrar que si y= β₀ + β₁ x + ε, y además ε~N (0, σ²); entonces es una función lineal de , por lo tanto
es una variable aleatoria también distribuida normalmente.
y~N (β₀+β₁x, σ²)
Este es un supuesto muy importante que debe cumplirse cuando utilizamos regresión lineal simple.
MODELO DE REGRESIÓN LINEAL SIMPLE
En regresión lineal simple tratamos de explicar a y en términos de x, con el modelo:
y = β₀ +β₁ x + ε
Donde β₀ y β₁ son los parámetros del modelo y son desconocidos, pero se los puede estimar por β₀ y β₁ respectivamente. Por otra parte,
es la variable aleatoria que representa el error de estimación.
IMPORTANTE:Para estimar los valores de β₀ y β₁ se necesita encontrar la ecuación de regresión estimada:
;
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 17
y x b b xi i i
^ ^ ^
= + = +β β0 1 0 1
i = 1,2,...,n, son las observaciones
Para realizar las estimaciones de β₀ y β₁ mediante β β0 1
^ ^
y
utilizaremos el Método de Mínimos Cuadrados.
Este es un método mediante el cual se utilizan los datos para hallar la ecuación de regresión estimada.
La ecuación de regresión como ya habíamos visto antes es:
ŷ = b₀ + b₁ x₁
Los valores de b₀ y b₁ se los halla con las siguientes fórmulas:
b₁ = x−
- b₁ x−
Donde:
xi : Valor de la variable independiente en la i-ésima observación.yi : Valor de la variable dependiente en la i-ésima observación.
x−
: Media de la variable independiente.
y−
: Media de la variable dependiente.n : Número total de observaciones.
Ejemplo 1.1
A seis clientes del servicio de cajeros automáticos de un banco se les pide califiquen la calidad de tal servicio en una escala de cero a veinte; para el efecto se escogen los clientes de acuerdo al número de años que han estado relacionados con el banco que ofrece el servicio. Se selecciona un cliente por cada año de “antigüedad”, mínimo un año y máximo seis1. Los resultados se muestran en la siguiente tabla.
Xi (Antigüedad en años) 1 2 3 4 5 6
Yi (Calificación) 4.8 7.3 8.4 11.0 13.1 15.2
Tabla 1.1
1. Zurita, G. Probabilidad y Estadística. Fundamentos y Aplicaciones. Primera edición. Ecuador. Centro de Difusión y Publicaciones - ESPOL.
bx x y y
x x
in
i i
in
i
11
1
2=− −
−
=
− −
=
−
∑∑
( )( )
( )
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 19
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja18
Se nos pide: determinar los estimadores de Mínimos Cuadrados para un modelo de Regresión Lineal Simple.
Desarrollo:
Con las instrucciones que nos han dado ya estamos preparados para realizar el ejercicio con las fórmulas anteriores para determinar el modelo de Regresión Simple que se ajuste a estos datos.
Cliente i xi yi (xi - x−
) (yi- y−
) (xi - x−
)(yi - y−
) (xi - x−
)²1 1 4,8 -2,5 -5,17 12,92 6,252 2 7,3 -1,5 -2,67 4,00 2,253 3 8,4 -0,5 -1,57 0,78 0,254 4 11 0,5 1,03 0,52 0,255 5 13,1 1,5 3,13 4,70 2,256 6 15,2 2,5 5,23 13,08 6,25
Totales x−
y−
3,5 9,97 36,00 17,50
Utilizando las ecuaciones ya antes vistas procedemos a calcular el valor de b₁
x−b1 36 00
17 50=
.,
b₁=2,057
Ahora calculamos el valor de b₀
b₀ = y−
- b₁ x−
b₀ = 9,97 - (2,057 + 3,5)
b₀ = 2,775
Por lo tanto, la ecuación de regresión estimada es:
^ ⇨ y = 2,775 + 2,057x
El gráfico de los datos con la recta de regresión estimada, se presenta a continuación:
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 19
Figura 1.1
Como la pendiente de la ecuación es positiva nos indica que a medida que se incrementa los años de antigüedad del cliente, se incrementará la calificación que este le da al servicio que el Banco le ofrece.
Si nosotros quisiéramos estimar el valor de la calificación (variable y) que le daría al Banco un cliente que tiene 6,5 años de antigüedad, haríamos lo siguiente:
Ya tenemos nuestra ecuación de regresión estimada que es ŷ = 2,775 + 2,057x, solo reemplazaríamos en la variable x el valor de años de antigüedad del cliente y así obtendremos la calificación estimada que daría este cliente en particular.
ŷ= 2,775 + 2,057(6,5)=16,15
Dado que el modelo es de la forma y = β₀ +β₁ x + ε , entonces ε = y - ( β₀ +β₁ x ).
Pero la expresión en paréntesis se la reemplaza por ŷ₁ = β∧
₀ + β∧
₁ xi . De esta forma el error para cada observación i se estima como:
εi =y i - y−
i
Así, en cada observación evaluamos el error de estimación.
Cliente i xi yi ŷi = 2,775 + 2,057 (xi) Ei = yi - ŷi
1 1 4,8 4,83 -0,032 2 7,3 6,89 0,413 3 8,4 8,95 -0,554 4 11,0 11,00 -0,005 5 13,1 13,06 0,046 6 15,2 15,12 0,08
Totales x−
y−
3,5 9,97
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 21
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja20
Ejemplo 1.2
¿Esperaría que los automóviles más confiables fueran los más caros? Consumer Reports evalúo 15 de los mejores automóviles sedan, la confiabilidad se evalúo con una escala de 5 puntos: mala (1), regular (2), buena (3), muy buena (4) y excelente (5).
Los precios y la evaluación sobre la confiabilidad de estos 15 automóviles son los siguientes:
Marca y Modelo Confiabilidadxi
Precioyi
Acura TL 4 33.150BMW 330i 3 40.570Lexus IS300 5 35.105Lexus ES330 5 35.174Mecedes-Benz C320 1 42.230Lincoln LS Premium (V6) 3 38.225Audi A4 3.0 Quattro 2 37.605Cadillacc CTS 1 37.695Nissan Maxima 3.5 SE 4 34.390Infiniti I35 5 33.845Saab 9-3 Aero 3 36.910Infiniti G35 4 34.695Jaguar X-Type 3.0 1 37.995Saab 9-5 Arc 3 36.955Volvo S60 2.5T 3 33.890
Tabla 1.2 Consumer Reports, febrero de 20042
Se nos pide ahora determinar la ecuación de regresión utilizando el criterio de mínimos cuadrados para determinar los valores de b₀ y b₁
Realizando un diagrama de dispersión con estos datos, observamos que hay una tendencia lineal.
Figura 1.2
2. Anderson D. Sweeney D. Williams T. (2009). Estadística para administración y economía. Decima edición. México.
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 21
Realizando los cálculos, tenemos:
Calculando el valor de b₁:
bx x y y
x x
b
in
i i
in
i
11
1
2
136 086 5327 73
1 3
=− −
−
=−
= −
=
− −
=
−
∑∑
( )( )
( )
. ,,
. 001 20,
ahora calculamos el valor de b₀
b₀ = y−
- b₁ x−
b₀ = 36.562,27 - (1.301,35* 3,13)
b₀ = 40.639,35
Por lo tanto, la ecuación de regresión estimada es:
⇨ Como se puede apreciar al estimar la recta de regresión, b₁ tiene signo negativo, lo que nos indica que la pendiente de esta recta es negativa.Interprete los resultados, analizando la ecuación de regresión estimada, y observando detenidamente el gráfico de dispersión.
ŷ = 40.639,35 - 1.301,20x
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 23
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja22
Figura 1.3
En este ejemplo, se puede observar a medida que la confiabilidad del automóvil aumenta, disminuye el precio del mismo.
Ahora se pide que se estime el precio de un automóvil sedán cuya evaluación de confiabilidad es 4.
Como ya tenemos la ecuación de regresión, podemos estimar cuanto sería el precio de un automóvil cuyo valor de confiabilidad fue de 4, en este caso, en la ecuación de regresión evaluamos en la variable x el valor de 4 de la siguiente forma:
⇨ ŷ = 40.639,35 - 1.301,20 (4) = 35.434,55
Es decir, a estos automóviles si alguien le asigna el valor de confiabilidad de 4, el costo del mismo será de $ 35.434,55
COFICIENTE DE DETERMINACIÓN R2
IMPORTANTE:El coeficiente de determinación es aquel que indica la proporción de la varianza de la variable y ; es decir de la variable a ser explicada, por el modelo de regresión que se ha estimado. Se lo denota como R2.
Se define al coeficiente de determinación como el cociente entre la suma cuadrática de regresión (SCR) y la suma cuadrática total (SCT), este cociente es no negativo y su valor se encuentra entre cero y uno, y se lo define de la siguiente manera: R SCR
SCT2 =
en donde:
La Suma Cuadrática de Regresión se la define como la suma de la diferencia al cuadrado de los valores estimados de y es decir los valores de ŷi con el valor promedio de los mismos;
SCR Y Yii
n
= −−
=∑ ( )
^2
1
La Suma Cuadrática Total se la define como la suma de la diferencia al cuadrado de los valores observados de y , con el valor promedio de los mismos;
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 23
SCT Y Yii
n
= −−
=∑ ( )21
y; la Suma Cuadrática del Error o Residuos que se la define como la suma de la diferencia al cuadrado de los valores observados de y , y los valores estimados de y es decir los valores de ŷi. Y es la medida de variabilidad de las observaciones reales con respecto a la línea de regresión estimada.
A este lo utilizaremos más adelante cuando veamos la estimación de σ².
SCE Y Yi ii
n
= −=∑ ( )
^2
1
De tal forma que existe una relación entre estas tres sumas cuadráticas:
SCT = SCR + SCE
En caso de que solo tengamos información de dos de las tres sumas cuadráticas, podemos utilizar la fórmula anterior para encontrar aquella que nos hace falta, de la siguiente forma.
Si poseemos información de la SCT y de la SCR, y nos piden hallar el valor de la SCE, al despejar la ecuación nos queda que;
SCE= SCT - SCR
Siguiendo la misma analogía, y ahora poseemos información de la SCT y de la SCE, y nos piden hallar el valor de la SCR, al despejar la ecuación nos queda que;
SCR= SCT – SCE
POTENCIA DE EXPLICACIÓN DEL MODELO
Se define como el porcentaje R2 * 100%, es aquel porcentaje que va a explicar que tan bueno es el modelo.
RECUERDE:
Si el porcentaje se acerca más a 100% significa que el modelo de regresión tiene perfecta explicación para los datos, si por el contrario el porcentaje se acerca más a 0%, significa que el modelo de regresión no puede explicar los datos.
En la práctica encontrar 0% ó 100% es imposible, por lo que debemos acostumbrarnos a encontrar porcentajes menores de 100% en las ecuaciones de regresión y realizar diversos tipos de pruebas para comprobar que tan bueno es un modelo alternativo.
COEFICIENTE DE CORRELACIÓN Ρ
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 25
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja24
El coeficiente de correlación nos indica el grado de relación lineal que existe entre las variables que están siendo objeto de estudio, en nuestro caso la relación lineal entre las variables x y y , es un número que se encuentra entre -1 y 1.
IMPORTANTE:
A medida que el valor de ρ se acerque a 1, entonces decimos que la relación entre el par de variables es perfecta linealmente con pendiente positiva, si el valor de ρ se va acercando a -1, se indica que la relación entre el par de variables es perfecta linealmente pero con pendiente negativa, y, si este valor de ρ se va acercando a cero (0) diremos que la relación lineal entre este par de variables va desapareciendo o “no existe”.
Entiéndase por “no existe”, que estas variables no están relacionadas linealmente, pero puede ser que estén relacionadas de forma exponencial, cuadrática, logarítmica, etc.
Se define al coeficiente de correlación entre el par de variables x y y como:
-1≤ρ xy ≤1
COEFICIENTE DE CORRELACIÓN MUESTRAL R
El coeficiente de correlación muestral realiza las mismas acciones que el coeficiente de correlación , para datos que son tomados de una misma muestra y en los cuales se quiere medir la relación lineal que existe entre ellas. También es un número que se encuentra entre -1 y 1 como el coeficiente de correlación, y se lo calcula de la siguiente manera:
rx x y y
x x y yxy
i ii
n
i ii
n=− −
− −
− −
=− −
=
∑
∑
( )( )
( ) ( )
1
2 2
1
RELACIÓN ENTRE EL COEFICIENTE DE DETERMINACIÓN Y EL COEFICIENTE DE CORRELACIÓN
Se puede determinar el valor del coeficiente de correlación muestral a partir del coeficiente de determinación de la siguiente forma:
r xy=±√R²
Donde el signo es positivo o negativo dependiendo del signo de la pendiente en el modelo de regresión que se ha estimado, es decir el signo que tenga b₁.
Ejemplo 1.3
Con los datos del Ejemplo 1.2, que trataba sobre de la confiabilidad de los automóviles, determine la SCT, SCE y SCR, calcule además el coeficiente de determinación y el coeficiente de correlación muestral.Desarrollo:
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 25
Procedemos a calcular los valores de la SCT, SCR y SCE, con las fórmulas que ya hemos visto en líneas previas, y nos queda de la siguiente manera:
SCT; la sumatoria de cada uno de los valores observados restados del valor de la media al cuadrado, es decir;
SCE; la sumatoria de cada uno de los valores observados restados de cada uno de los valores estimados al cuadrado.
Los valores estimados son aquellos donde al reemplazar el valor de la variable independiente x , en la ecuación de regresión que se ha encontrado este genera los valores estimados de y. La ecuación de regresión estimada es ŷ =40.639,35 - 1.301,20x, entonces reemplazamos cada uno de los valores que toma la variable x de la siguiente forma:
35.434,56
36.735,76
:
:
36.735,76
Al encontrar cada uno de los valores de
ŷ, hacemos resta de los valores observados de y con los valores de ŷ y esto lo elevamos al cuadrado, de la siguiente forma:
Y la SCR Y Yii
n
= −−
=∑ ( )
^2
1
pero también podemos obtenerla por la diferencia entre la SCT con la SCE,
de esta forma.
SCT= (33.150 – 36.562,27)2 +
(40.570 – 36.562,27)2 +… +
(33.890 – 36.562,27)2
SCT = 94.072.518,93.
SCE= (33.150 - 35.434,56)2 +
(40.570 - 36.735,76)2 + … +
(33.890 - 36.735,76)2
SCE= 47.116.825,86
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 27
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja26
Sabemos que la SCT = SCR+SCE, despejando la SCR nos que lo siguiente:
SCR = SCT - SCESCR = 94.072.518,93 - 47.116.825,86SCR = 46.955.693,07
En la tabla adjunta se muestran los cálculos de cómo se ha desarrollado el ejercicio.
El coeficiente de determinación es:
R SCRSCT
2 46 955 693 0794 072 518 93
0 50= = =. . ,. . ,
,
Y el coeficiente de correlación muestral es:
r xy=±√R²
r xy=-√0,50r xy≠-0,71
En este caso el coeficiente de correlación muestral es negativo porque la pendiente de la ecuación de regresión b₁ lo es, como ya lo habíamos mencionado.
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 27
PRUEBA DE SIGNIFICANCIA DEL MODELO
Al momento de nosotros realizar un modelo de regresión lineal simple, y al hacer las estimaciones siempre esperamos obtener un modelo como el que ya hemos visto, la variable que es la variable a ser explicada en términos de la variable x:
ŷ = b₀ + b₁ xi
¿Qué pasaría si b₁ es cero?
Entonces el modelo quedaría de la siguiente forma:
ŷi = b₀
Si esto llegase a pasar, entonces no existirá relación alguna entre este par de variables, por lo que sería conveniente realizar un contraste de hipótesis para determinar si el valor de b₁ es o no cero.
El contraste de hipótesis sería el siguiente:
H₀: β₁ = 0
Vs.
Donde en la H0 sugiere que el valor de la constante β₁ es igual a cero, versus, la H1 que postula que esta constante tiene un valor diferente a cero.
El estadístico de prueba para este contraste es el siguiente:
F MCRMCE
SCR pSCE n p
= =−−
//
1
Con (1 - α ) * 100% de confianza se rechaza la H0 en favor de H1 si el valor del estadístico de prueba F es mayor que el percentil (1 - α ) * 100 de la Distribución F de Fisher con (p-1) grados de libertad en el numerador y (n-p) grados de libertad en el denominador, es decir; se rechaza H0 si;
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 29
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja28
F MCRMCE
F p n p= > − −( , , )α 1
Figura 1.4
Valor p
O también conocido como p-value por sus siglas en inglés, el valor p es la probabilidad de que se rechace la hipótesis nula H0, en cualquiera de los contrastes de hipótesis que se vayan a realizar, y como tal es un número que se encuentra entre 0 y 1.
¿Cómo sabemos cuándo debemos rechazar o no la hipótesis nula?
Es fácil determinar cuando tenemos que rechazar la hipótesis nula (h0);
Si el “valor p > 0.1”, entonces no existe evidencia estadística para rechazar la hipótesis nula (h0);
Si el “valor p < 0.05”, entonces existe evidencia estadística para rechazar la hipótesis nula (h0);
y; si el valor p está “0.05 < p < 0.1”, entonces en este caso no podemos concluir nada,
Nota No decimos se “acepta” la hipótesis nula, sino que “no se rechaza” la hipótesis nula.
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 29
Figura 1.5
TABLA DE ANÁLISIS DE VARIANZA
IMPORTANTE:La tabla de análisis de varianza o también conocida como tabla ANOVA, se utiliza en regresión para analizar la validez del modelo de regresión que hemos estimado.
En la tabla adjunta podemos destacar en columnas las Fuentes de Variación, Grados de Libertad, las Sumas y Medias Cuadráticas, el valor del Estadístico de Prueba F y la columna del valor p. Algunas fórmulas ya son conocidas para nosotros, como son las sumas cuadráticas. En los Grados de libertad vemos que intervienen los valores de n y p, donde el valor de n como ya habíamos mencionado es el tamaño de la muestra y p es el número total de parámetros que estamos estimando.
También se puede observar las Medias Cuadráticas de Regresión y Error que son el cociente de las Sumas Cuadráticas con sus respectivos Grados de Libertad, el Estadístico de Prueba F, que es el cociente entre la Media Cuadrática de Regresión con la Media Cuadrática del Error y el valor p, que nos indicará si rechazamos o no H0 (hipótesis nula).
Fuentes de Variación
Grados de Libertad
Sumas Cuadráticas
Medias Cuadráticas
Estadístico de Prueba F
Valor p
Regresión p-1
Error n-p
Total n-1
Tabla 1.3
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 31
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja30
ESTIMACIÓN DE σ²
RECUERDE:Como ya sabemos σ²eslavarianzadelError ; y como ya habíamos mencionado en
líneas previas la suma cuadrática del error ó SCE es la medida de variabilidad de las observaciones reales con respecto a la línea de regresión estimada.
La SCE dividida para sus grados de libertad (n-p), es decir; MCE es un estimador insesgado de σ².Paradenotarestevalorutilizaremoss².
s SCEn p
2 =−
o en otras palabras
s² = MCE
en el caso de que requiera estimar σ , el cual lo llamaremos s, conocido también como el error estándar deestimación,procedemosacalcularlaraízcuadradades²;esdecir;
Ejemplo 1.4
Continuando con el Ejemplo 1.2 de los automóviles sedán y la confiabilidad en los mismos, se pide construir la tabla de análisis de varianza, ANOVA, y comprobar la hipótesis de existe una relación entre las variables que están siendo tratadas.
Para construir la tabla ANOVA, podemos hacerlo de dos formas, la primera es que haremos uso de los datos que ya hemos calculado, y la otra forma es mediante la ayuda del Software Excel.
Para construir la tabla ANOVA necesitamos del valor de n, del valor de p, y los valores de las sumas cuadráticas que ya tenemos, y reemplazamos en tabla descrita en líneas previas.
p = 2; n = 15;
SCR = 46.955.693,1; SCE =47.116.825,86; SCT = 94.072.518,9;
Fuentes de Variación
Grados de Libertad
Sumas Cuadráticas
Medias Cuadráticas
Estadístico de Prueba F Valor p
Regresión 1 46.955.693,1 46.955.693,1 12,96 ≅ 0,00
Error 13 47.116.825,9 3.624.371,2
Total 14 94.072.518,9
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 31
Como ya habíamos mencionado antes, se rechaza la hipótesis nula si
F MCRMCE
F p n p= > − −( , , )α 1
F F= = >49 955 693 13 624 371 2
12 96 0 01 1 13. . ,. . ,
, ( . , . )
12,96 > 9,07
Figura 1.6
Debido a que el estadístico de prueba es mayor que el percentil (1 - α )*100 de la distribución F de Fisher, como se puede apreciar en la figura 1.6, por lo tanto el valor p es un número aproximadamente cero con dos decimales de precisión, entonces existe evidencia estadística para rechazar H0 que postula que β₁= 0 , a favor de H1quepostulaque≠0.
Adicionalmente, para calcular la estimación de la varianza del error de estimación:
s²=MCEs²=3.624.371,2
Y para calcular el error estándar de estimación:
s=√3.624.371,2=1.903,78
Ejemplo 1.5
Veamos ahora como con Excel podemos realizar estos mismos cálculos.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 33
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja32
Primero debemos confirmar de que en la pestaña de “Datos” de Excel, podamos visualizar el ícono de “Análisis de Datos” en el extremo derecho del menú, como se muestra aquí:
Figura 1.7
Si no lo podemos ver, es porque no está instalado y nos debe aparecer una pantalla como esta:
Figura 1.8
Si nos parece como el segundo ejemplo (donde no se visualiza “Análisis de Datos”), entonces necesitamos hacer un procedimiento previo. Vamos a dar enter en el “Botón de Office” (Círculo arriba a la izquierda del Excel) y luego daremos enter en “Opciones de Excel”.
Figura 1.9
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 33
Luego en el menú de la izquierda seleccionamos la opción “Complementos”, se despliega un cuadro de opciones. Comprobar en la parte inferior que nos encontramos en “Administrar = Complementos de Excel” y a continuación daremos enter en el botón “Ir”, en donde aparece el siguiente cuadro, donde debemos dar enter hasta habilitar la opción “Herramientas para Análisis” y daremos enter en “Aceptar”.
Figura 1.10
Ahora, ya podemos verificar que en el menú de Excel “Datos”, aparece “Análisis de Datos”.
Figura 1.11
Solucionado esto, ahora procedemos a resolver el ejercicio de regresión.
En una hoja de Excel tenemos la información tanto de la variable como de la variable , en el menú de Datos escogemos la opción “Análisis de datos”, aparece un cuadro de diálogo llamado “Análisis de datos / Funciones para análisis” que presenta una serie de opciones con los que podemos trabajar, en nuestro caso escogeremos la opción “Regresión” y hacemos clic en aceptar.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 35
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja34
Figura 1.12
A su vez aparecerá otro cuadro de diálogo donde en “Rango Y de entrada” escogemos los valores de la variable dependiente desde el nombre que caracteriza a la variable, y así mismo en “Rango X de entrada”, escogemos los valores de la variable independiente desde el nombre que caracteriza a esta variable, marcamos la opción de “Rótulos”, la opción de “Nivel de confianza” en el cual escribimos 99%, y escogemos por último las opciones de salida, si queremos ver los resultados en una nueva hoja de cálculo, en un libro nuevo, o que empiece a mostrar los resultados en cualquiera de las celdas del libro en el que se está trabajando, como se muestra en la figura 1.13; y clic en “Aceptar”.
Figura 1.13
Como se puede observar en los resultados de Excel, este presenta un resumen de lo que se ha trabajado, Excel muestra el valor del coeficiente de determinación; el coeficiente de correlación muestral aquí es denominado “Coeficiente de correlación múltiple”, aunque no nos da el signo que este lleva, pero nosotros sabemos que signo debe llevar con solo ver el signo de b1, presenta además el error estándar de estimación aquí llamado “Error típico” y el número de observaciones que hay.
La tabla de Análisis de Varianza o ANOVA muestra las fuentes de variación como ya lo hubiéramos mencionado en líneas anteriores, con sus respectivos grados de libertas (gl), las sumas cuadráticas (SC), las medias cuadráticas (MC), el valor calculado mediante el estadístico de prueba F, y el valor p que si nos damos cuenta para este ejemplo es un número aproximadamente cero con dos decimales de precisión.
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 35
Lo mismo que ya habíamos hallado antes; y con estos resultados concluimos exactamente lo mismo, que existe evidencia estadística para rechazar H0 a favor de H1.
Resumen Estadísticas de la regresión
Coeficiente de correlación múltiple 0,71
R^2 0,50 R^2 ajustado 0,47
Estadísticas de la regresión
Error típico 1.903,78 Observaciones 15 ANÁLISIS DE VARIANZA
gl SC MC F Valor p Regresión 1 46.955.693,08 46.955.693,1 12,96 0,0032 Residuos 13 47.116.825,86 3.624.371,22 Total 14 94.072.518,93
Coeficientes Error
típico Estadístico t Probabilidad
Intercepción 40.639,35 1.234,78 32,93 6,6095E-14
Confiabilidad x
-1.301, 20 361,51 -3,60 0,0032
Y en las últimas filas se muestran los parámetros estimados, para este caso b₀ y b₁ ,que si comparamos con nuestros resultados, nos daremos cuenta que son los mismos.
⇨ ŷ = 40.639,35 - 1.301,20x
ANÁLISIS RESIDUAL
En esta sección vamos a analizar lo que nosotros conocemos como los residuos (errores de estimación), que como sabemos es la diferencia entre los valores observados de y con los valores estimados a partir de la ecuación de regresión ŷ.
Lo que nos permite observar en el análisis residual es que se cumplan los supuestos bajo los cuales hemos construido el modelo de regresión, en este caso del supuesto general de que la varianza del error es la misma para todos los valores de x,
Var (∈i) = σ²
Un tipo de comprobación de este supuesto es visual, haciendo un gráfico de dispersión entre los residuos y la variable x. Dependiendo de los datos, en esta prueba gráfica pueden ocurrir tres casos.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 37
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja36
Caso 1: El primer caso es que se cumplen con el supuesto de que la varianza es la misma para todos los valores de y, es decir la varianza es constante, como se muestra en el gráfico a continuación:
Figura 1.14
Caso 2: El otro caso que podría ocurrir es el siguiente, en el cual no se cumple el supuesto de que la varianza sea constante, sino que depende de los valores de la variable :
Figura 1.15
Caso 3: El tercer gráfico que podría ocurrir es aquel que al hacer la grafica de los residuos, este no represente la relación que existe entre el par de variables.
Figura 1.16
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 37
Ejemplo 1.6
Siguiendo con el ejemplo de los automóviles sedán, hemos calculado anteriormente los valores del Error o Residuos y estos los graficamos junto con los valores observados de x (variable independiente).
Los datos y el gráfico se presentan a continuación:
Confiabilidad Residuos4 -2.284,563 3.834,245 971,635 1.040,631 2.891,853 1.489,242 -431,961 -1.643,154 -1.044,565 -288,373 174,244 - 739,561 -1.343,153 219,243 -2.845,76
Tabla 1.4
Figura 1.17
Lo que se puede observar en el gráfico es que al parecer si cumple con el supuesto de que la varianza es constante, tiene un aparecido con el gráfico de la figura 1.14, pero los altos valores de los residuos según el eje, podrían confundir nuestra apreciación.
Una forma de reducir este riesgo de observación es el de estandarizar los residuos y observar el gráfico con los residuos estandarizados.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 39
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja38
Para estandarizar los residuos lo que hacemos es al residuo le restamos su media que se supone es cero por los supuestos, y se lo divide para la raíz cuadrada de la MCE es decir s.
Realizamos los pasos para el primer resultado, los demás se realizan de manera similar; solo se cambian los valores del error.
e eMCE
ii
^=
− µ
e
e
e
^
^
^
1
1
1
2 284 56 03 624 371 22
2 284 561 903 78
1 20
=− −
=−
= −
. ,. . ,
. ,. ,
.
Confiabilidad ResiduosResiduos
Estandarizados4 -2.284,56 -1,203 3.834,24 2,015 971,63 0,515 1.040,63 0,551 2.891,85 1,523 1.489,24 0,782 -431,96 -0,231 -1.643,15 -0,864 -1.044,56 -0,555 -288,37 -0,153 174,24 0,094 -739,56 -0,391 -1.343,15 -0,713 219,24 0,12
3 -2.845,76 -1,49
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 39
Figura 1.18
Como nos podemos dar cuenta el gráfico prácticamente es el mismo, solo que a diferentes escalas, pues en el primero el eje Y está representado por los residuos, en cambio el otro gráfico en el eje Y muestra los residuos estandarizados. Por lo tanto podemos concluir que el modelo de regresión lineal empleado en este caso, es un modelo válido.
Actividades recomendadas
Es conveniente desarrollar actividades recomendadas que le permitan establecer el nivel de comprensión de los temas estudiados en esta unidad, por lo que le sugiero efectuar lo siguiente:
1. Identifique un caso real donde pueda utilizar la regresión lineal.2. De ese caso, identifique el cumplimiento de los supuestos generales del modelo.3. El caso real, ¿cumple el supuesto específico de normalidad?. Justifique su respuesta.4. Plantee un caso en el que determine la SCT, SCE y SCR.5. Del caso anterior calcule el coeficiente de determinación.6. De ese mismo caso calcule el coeficiente de correlación muestral.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 41
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja40
Le sugiero, resolver a continuación, la presenta autoevaluación que le ayudará a conocer la comprensión de esta unidad. En caso de resolverla satisfactoriamente (80% o más) podría pasar a la siguiente unidad y, en caso contrario, se debería revisar nuevamente el tema o los temas en los que haya tenido dificultad.
En los siguientes enunciados conteste con una V o una F, dentro de los paréntesis correspondientes, si considera que el enunciado es verdadero o es falso, respectivamente.
1. ( ) La variable y es la variable a ser explicada o también llamada variable dependiente
2. ( ) En estadística no todos los métodos de estimaciones de parámetros se realizan bajo ciertos supuestos que deben verificarse
3. ( ) Para estimar los valores de β₀ y β₁ se necesita encontrar la ecuación de regresión estimada
4. ( ) El coeficiente de determinación es aquel que indica la proporción de la varianza de la variable x.
5. ( ) Se define al coeficiente de determinación como el cociente entre la suma cuadrática de regresión (SCR) y la suma cuadrática total (SCT)
6. ( ) El valor del coeficiente de determinación se ecuentra entre cero y uno
7. ( ) El coeficiente de correlación nos indica el grado de relación exponencial que existe entre las variables que están siendo objeto de estudio
8. ( ) No se puede determinar el valor del coeficiente de correlación muestral a partir del coeficiente de determinación
9. ( ) El valor p es la probabilidad de que se acepta la hipótesis nula H0 .
10. ( ) Los residuos (errores de estimación) son la diferencia entre los valores observados de y con los valores estimados a partir de la ecuación de regresión ŷ.
Autoevaluación 1
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 41
UNIDAD 2
REGRESION MÚLTIPLE
Para el desarrollo de este capítulo, vaya revisando conjuntamente con esta guía el capítulo 15 del texto básico Anderson, D., Sweeney, D., y Williams, T. Estadística para administración y economía, decima edición.
INTRODUCCIÓN
IMPORTANTE:El modelo de regresión múltiple busca la explicación de la variable dependiente y; en términos de dos o más variables independientes x; en vez de solo una variable x como lo hace la regresión lineal simple.
Si recordamos el modelo en regresión lineal simple es:
y = β₀ + β₁x + є
En regresión múltiple el modelo será:
y = β₀ + β₁ xXi₁ + β₂ xi₂ + ... + βρXiƿ + єi
En el modelo de regresión lineal simple solo teníamos dos parámetros a estimar β₀ y β₁ , a través del método de mínimos cuadrados, algo que varía ahora en el modelo de regresión múltiple que tendremos que estimar β₀, β₁, β₂ hasta βρ, como ya hemos visto en el modelo anterior.
De forma similar, los p parámetros en el modelo tendríamos que estimarlos mediante el método de mínimos cuadrados como ya habríamos hecho en el caso de regresión lineal simple.
SUPOSICIONES DEL MODELO
En regresión múltiple los supuestos son similares a los supuestos de regresión lineal simple:
⇨El valor esperado o media, de los errores de estimación del modelo sobre las observaciones es cero;
ε [εi] = 0
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 43
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja42
La varianza del error, será la misma para misma todos los valores de las variables X, Xi1, xi2, ... , xip al igual que en regresión lineal al modelo será llamado homocedástico. Y cuando la varianza no es constante, al modelo se le da el nombre de modelo heterocedástico.
Var ( єi ) = σ²
La covarianza del error entre observaciones es cero, suponemos que las variables aleatorias del error son independientes.
Cov (єi, єi)=0;i≠j;i=1,2,...,n
Supuesto específico de Normalidad
La variable aleatoria ∈~ N (0, σ²) , es decir se distribuye normalmente con media cero y varianza σ² entonces;
E[y] = E [β₀ + β₁Xi1, β₂xi2 +... +βp xip + ∈i]
y = β₀ + β₁Xi1, β₂xi2 +... +βp xip
Al igual que en regresión lineal simple y es una función lineal de , por lo tanto y es una variable aleatoria distribuida normalmente.
y ~ N (β₀ + β₁Xi1, β₂xi2 +... +βp xip, σ²)
MÉTODO DE MÍNIMOS CUADRADOS
RECUERDE:
En muchas ocasiones una variable (independiente) explica perfectamente a otra (dependiente), pero existen casos que una sola variable no es suficiente, y en ese caso se incorporan más variables al modelo.
Al igual que en regresión lineal simple, se presentan los parámetros del modelo, que son los β’s, que sabemos que son desconocidos pero estimables.
El modelo de regresión múltiple y la ecuación de regresión estimada se presentan a continuación:
y = β₀ + β₁Xi1, β₂xi2 +... +βp xip + ∈i
ŷ = b₀ + b₁Xi1, b₂xi2 +... +bp xip
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 43
Para las estimaciones del caso de regresión lineal simple, teníamos dos ecuaciones con dos incógnitas.
En el caso de regresión múltiple tendremos dos o más ecuaciones con dos o más incógnitas, como veremos a continuación:
y b n b x b x b x
x y
i oi
n
ii
n
i pi
n
ipi
n
i i
= + + + += = = =∑ ∑ ∑ ∑* * * ... *
*
11
1 21
21 1
1 == + + + += = = =∑ ∑ ∑ ∑b x b x b x x b xi
n
ii
n
ii
n
ii
n
i p i01
1 11
21 2
11
12 1* * * * ... * **
* * * * *
x
x y b x b x x b x
ipi
n
i ii
n
ii
n
i ii
n
i
=
= = =
∑
∑ ∑ ∑= + + +
1
2 01
2 11
2 1 21
22
ii
n
i i pi
n
i ipi
n
ip ii
n
x b x b x x
x y b x
= = =
=
∑ ∑ ∑
∑
+ +
=
11 2
22
12
1
01
... * * * *
* * iipi
n
ip ii
n
ipi
n
i ip ii
n
b x x b x x x x+ + + + += = = =∑ ∑ ∑ ∑11
1 21
2
12 2
1
* * * * ...++=∑b xp ipi
n
* 2
1
Así tendremos tantas ecuaciones como parámetros se deban estimar.
Dada la complejidad en la resolución de este sistema, utilizaremos Microsoft Excel para estimar los valores de los parámetros β’s.
COEFICIENTE DE DETERMINACIÓN MÚLTIPLE R2
Al igual que en regresión lineal simple, el coeficiente de determinación R² explica la proporción de la variación de la variable a ser explicada y , por el modelo de regresión múltiple que se ha estimado, y se lo denota de la misma forma:
R SCRSCT
2 =
En donde SCT, SCR y SCE son las mismas fórmulas que utilizábamos en regresión lineal simple:
SCR y yii
n
= −−
=∑ ( )
^2
1 SCE y yi i
i
n
= −=∑ ( )
^2
1 SCT y yi
i
n
= −−
=∑ ( )21
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 45
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja44
Si nos hacen falta alguna de las sumas cuadráticas, las podemos hallar despejando la fórmula como en regresión lineal simple, sabiendo que:
Despejamos el término que nos hace falta:
Potencia de Explicación del Modelo R2 * 100%
Se lo define como el porcentaje R2 * 100%, al porcentaje que va a explicar que tan bueno es el modelo.
RECUERDE:En regresión múltiple a medida que se aumenta el número de variables independientes, también aumenta el valor de este cociente. Aunque este incremento puede no ser significativo.
En el caso de que este valor sea muy bajo puede deberse a que no se ha incluido alguna variable en el modelo, pero esto no significa que el valor de R2 aumentará de forma significativa, solo lo hará siempre y cuando la variable a incluir aporta con gran información al modelo.
Obviamente también cambiarán los valores de las sumas cuadráticas y específicamente el valor del Error disminuirá para que este cociente sea alto.
COEFICIENTE DE DETERMINACIÓN MÚLTIPLE AJUSTADO
Se utiliza el coeficiente de determinación ajustado para comparar dos o más modelos que tengan en común la misma variable a ser explicada y, para determinar cual modelo ajusta mejor. Este número siempre será menor que el Coeficiente de Determinación, además, penaliza al modelo que contenga más variables explicativas. Su fórmula es:
Donde R² es el coeficiente de determinación, n es el número de observaciones y k es el número de variables independientes.
PRUEBA DE SIGNIFICANCIA
Recordemos el modelo con el que estamos trabajando en regresión múltiple; nosotros tratamos de explicar a una variable dependiente y, mediante varias variables independientes xp = 1,2,...,p;
SCT= SCR + SCE
SCR= SCT – SCE
SCE= SCT – SCR
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 45
⇨ y = β₀ + β₁Xi1, β₂xi2 +... +βp xip + ∈i
Como sabemos los valores de los coeficientes β's
son estimados mediante el método de mínimos cuadrados, y lo que se espera es que ninguno de estos coeficientes al momento de ser estimados sea cero (0), para esto postularemos un contraste de hipótesis en donde se rechace o no la posibilidad de que esto ocurra.
El contraste de hipótesis es el siguiente:
Donde en H0 se afirma que los valores de las constantes β₁, β₂, ... , βp son iguales a cero, versus, la H1 que postula que al menos una de estas constantes tiene un valor diferente a cero.
El estadístico de prueba para este contraste es el mismo que ya utilizáramos cuando teníamos solo una variable de explicación:
Con (1 - α)*100% de confianza se rechaza la H0 en favor de H1 si el valor del estadístico de prueba F es mayor que el percentil (1 - α)*100 de la Distribución F de Fisher con (p-1) grados de libertad en el numerador y (n-p) grados de libertad en el denominador, es decir;
Si H0 es rechazada como es lo esperado, ahora tendremos que determinar cuál de todos los β’s, no es cero, es decir cuál de los β’s es realmente significativo para el modelo; y esto lo haremos mediante otro contraste de hipótesis, pero ahora analizaremos esto para cada uno de los valores de los β ’s, como se ve a continuación;
En general, tendríamos varios contrastes, uno para cada uno de los βi ,así:
H₀: β₁ = β₂ = ... = Bp = 0
Vs.
H₁ : Al menos uno de los β 's no es cero
MCRF = ______ MCE
H₀: β₂ = 0
Vs.
H₁ : β₁≠0;i-1,2,...,(p-1)
MCRF = ______ > T (α , p 1 , n p) MCE
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 47
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja46
H0 postula que uno β₁ es igual a cero (0), versus H1 que postula que el valor es diferente de cero (0).
El estadístico de prueba para este contraste de hipótesis es:
donde b₁ ; es el valor estimado del parámetro βi y sbi es la estimación de la desviación estándar de bi, es decir;
S s
x xb
ii
ni=
−−
=∑ ( )21
dondes=√MCF,elerrorestándardeestimación.
A medida que se aumentan variables al modelo, para realizar los cálculos este se vuelve un poco difícil determinar las sumas cuadráticas, realizar cada uno de los contrastes de hipótesis, etc., por lo que recurriremos a Microsoft Excel para estos cálculos.
TABLA DE ANÁLISIS DE VARIANZA
La tabla ANOVA que vamos a utilizar para Regresión Múltiple será la misma que hemos utilizado en Regresión Lineal Simple:
Fuentes de Variación
Grados de Libertad
Sumas Cuadráticas
Medias Cuadráticas
Estadístico de Prueba F
Valore p
Regresión p - 1 ( )y yii
n ^−
−
=∑ 2
1
SCRP −1
F MCRMCE
= p = Prob (F p-1, n - p≥F)
Error n - p ( )y yi ii
n
−=∑
^2
1
SCEn p−
Total n - 1 ( )y yi ii
n
−=∑
-2
1
Tabla 2.1
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 47
Veamos el siguiente ejemplo:
Ejemplo 2.1
En el béisbol, el éxito de un equipo se suele considerar en función del desempeño en bateo y en lanzamiento de equipo. Una medida del desempeño en el bateo es la cantidad de cuadrangulares que anota el equipo y una medida del desempeño en lanzamiento es el promedio de carreras ganadas por el equipo que lanza. En general, se cree que los equipos que anotan más cuadrangulares (home run) y tienen un promedio menor de carreras ganadas ganan un mayor porcentaje de juegos. Los datos siguientes pertenecen a 16 equipos que participaron en la temporada de la Liga Mayor del Béisbol de 2003; se da la proporción de juegos ganados, la cantidad de cuadrangulares del equipo (HR) y el promedio de carreras ganadas (ERA) (www.usatoday.com, 17 de enero de 2004) 33.
Equipo Proporción de ganados HR ERA
Arizona 0,519 152 3,857Atlanta 0,623 235 4,106Chicago 0,543 172 3,842Cincinnati 0,426 182 5,127Colorado 0,457 198 5,269Florida 0,562 157 4,059Houston 0,537 191 3,88Los Angeles 0,525 124 3,162Milwaukee 0,42 196 5,058Montreal 0,512 144 4,027New York 0,41 124 4,517Philadelphia 0,531 166 4,072Pittsburgh 0,463 163 4,664San Diego 0,395 128 4,904San Francisco 0,621 180 3,734
St. Louis 0,525 196 4,642
Tabla 2.2
Obtenga la ecuación de regresión estimada para predecir la proporción de juegos ganados en función de la cantidad de cuadrangulares. Interprete resultados.
Desarrollo:
Al usar el Software Excel con los mismos pasos como en Regresión Lineal Simple, con la diferencia de que cuando vayamos a seleccionar las variables independientes, tenemos que tomarlas en conjunto las dos columnas (o tres columnas en caso de que se cuenten con tres variables independientes) junto con el nombre que las caracteriza igual como hiciéramos en Regresión Lineal.
3. Anderson, D., Sweeney, D., y Williams, T. Estadística para administración y economía, decima edición México.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 49
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja48
En el menú Datos, opción “Análisis de datos”, aparece el cuadro de diálogo en el que escogemos la opción “Regresión”, en el cuadro de diálogo “Regresión”, como ya hiciéramos antes, el rango de entrada serán las celdas donde se encuentra la variable dependiente y, en este caso es la proporción de juegos ganados, como se muestra en la figura:
Figura 2.1Para escoger el rango de entrada x, es decir las variables independientes en este caso son dos, señalaremos las dos columnas HR y ERA, como se muestra en la figura.
PRIMER BIMESTRE Guía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 49
Figura 2.2
Señalamos la opción “Rótulos”, “Nivel de confianza” con 99%, y en el “Rango de salida” escogemos la celda en la que queremos que se muestren los resultados, en este caso en la celda “W6” pero podemos escoger cualquier celda para esto. Al hacer clic en el botón aceptar, Excel muestra los siguientes resultados:
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja 51
PRIMER BIMESTREGuía didáctica: Estadística II
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja50
Resumen
Estadísticas de la regresión Coeficiente de correlación múltiple 0,93
R^2 0,86 R^2 ajustado 0,84 Error típico 0,03 Observaciones 16
ANÁLISIS DE VARIANZA gl SC MC F Valor p
Regresión 2 0,06 0,03 39,37 3,0462E-06 Residuos 13 0,01 0,0008
Total 15 0,07
Veamos cómo se han obtenido estos resultados, con las fórmulas conocidas:
*Estadísticas de la regresión
El coeficiente de determinación es:
R SCRSCT
2 0 060 07
0 86= = =,,
,
el coeficiente de correlación muestral es:
rxy=±√R²
rxy=√0,86rxy ≅ 0,93
el coeficiente de determinación múltiple ajustado es:
R R nn ka
2 21 1 11
= − −−
− −( )
R
R
a
a
2
2
1 1 0 86 16 116 2 1
0 84
= − −−
− −
=
( , )
,
Error típico o error estándar de estimación
s MCE=