correlación, series de tiempo, distribución normal y anova en minitab 15

75
1 Correlación, Series de Tiempo, Distribución Normal y Análisis de Varianza. Índice 1.- Introducción………………………………………………………………………1 2.- MINITAB……………………………………………………………………………1 3.- Correlación………………………………………………………………………..2 4.- Series de Tiempo……………………………………………………………….17 5.- Distribución Normal……………………………………………………………42 6.- ANOVA……………………………………………………………………………54 7.- Bibliografía………………………………………………………………………75 1. Introducción. Este manual contiene el concepto, aplicación y ejecución en el sistema Minitab versión 15, de los temas de Correlación, Series de Tiempo, Distribución Normal y Análisis de Varianza (ANOVA). 2.- MINITAB Minitab (MINITAB ® es marca registrada de Minitab Inc.) es un programa de computadora diseñado para ejecutar funciones estadísticas básicas y avanzadas. Combina lo amigable del uso de Microsoft Excel con la capacidad de ejecución de análisis estadísticos Minitab pone a tu disposición las herramientas necesarias para analizar tus datos y tomar decisiones con dichos datos para mejorar tus negocios. Minitab es una herramienta poderosa y fácil de usar, enfocada al análisis de datos complejos y a la identificación y resolución de problemas relativos a procesos, por ello Minitab se ha convertido en un instrumento fundamental para todas aquellas compañías con procesos productivos que requieren de un software de análisis para poder controlar fácilmente esos procesos o mejorar el rendimiento de sus cadenas de producción. Minitab Statistical incluye cerca de 50 nuevas características con cambios mínimos en el interfaz, haciendo que el programa siga siendo igual de fácil de usar que en versiones anteriores. Algunas de las novedades más interesantes son: Puedes asignar formulas a las columnas en la hoja de trabajo. Dibujo de graficas de probabilidad y distribución. Y más. 2.1 Características principales de MINITAB. Minitab cuenta entre otros, con los siguientes procedimientos estadísticos: Estadística básica y avanzada: • Importación, exportación y manipulación de datos • Lenguaje de macros. • Regresión y ANOVA • SPC • DOE - Diseño de experimentos • Gage R&R • Análisis de Confiabilidad • Tamaño de muestra y capacidad • Series de tiempo y predicción

Upload: gerardo-vf

Post on 06-Jun-2015

31.311 views

Category:

Documents


3 download

DESCRIPTION

Concepto, aplicación y ejecución en el sistema Minitab versión 15, de los temas de Correlación, Series de Tiempo, Distribución Normal y Análisis de Varianza (ANOVA).

TRANSCRIPT

Page 1: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

1

Correlación, Series de Tiempo, Distribución Normal y Análisis de Varianza.

Índice 1.- Introducción………………………………………………………………………1 2.- MINITAB……………………………………………………………………………1 3.- Correlación………………………………………………………………………..2 4.- Series de Tiempo………………………………………………… …………….17 5.- Distribución Normal……………………………………………………………42 6.- ANOVA……………………………………………………………………………54 7.- Bibliografía………………………………………………………………………75 1. Introducción.

Este manual contiene el concepto, aplicación y ejecución en el sistema Minitab versión 15, de los temas de Correlación, Series de Tiempo, Distribución Normal y Análisis de Varianza (ANOVA).

2.- MINITAB Minitab (MINITAB ® es marca registrada de Minitab Inc.) es un programa de computadora diseñado para ejecutar funciones estadísticas básicas y avanzadas. Combina lo amigable del uso de Microsoft Excel con la capacidad de ejecución de análisis estadísticos Minitab pone a tu disposición las herramientas necesarias para analizar tus datos y tomar decisiones con dichos datos para mejorar tus negocios. Minitab es una herramienta poderosa y fácil de usar, enfocada al análisis de datos complejos y a la identificación y resolución de problemas relativos a procesos, por ello Minitab se ha convertido en un instrumento fundamental para todas aquellas compañías con procesos productivos que requieren de un software de análisis para poder controlar fácilmente esos procesos o mejorar el rendimiento de sus cadenas de producción. Minitab Statistical incluye cerca de 50 nuevas características con cambios mínimos en el interfaz, haciendo que el programa siga siendo igual de fácil de usar que en versiones anteriores. Algunas de las novedades más interesantes son:

• Puedes asignar formulas a las columnas en la hoja de trabajo. • Dibujo de graficas de probabilidad y distribución. • Y más.

2.1 Características principales de MINITAB. Minitab cuenta entre otros, con los siguientes procedimientos estadísticos: Estadística básica y avanzada:

• Importación, exportación y manipulación de datos • Lenguaje de macros. • Regresión y ANOVA • SPC • DOE - Diseño de experimentos • Gage R&R • Análisis de Confiabilidad • Tamaño de muestra y capacidad • Series de tiempo y predicción

Page 2: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

2

3.- Correlación .

Correlación. El objetivo de esta sesión es analizar el grado de la relación existente entre variables utilizando modelos matemáticos y representaciones gráficas. Así pues, para representar la relación entre dos o más variables desarrollaremos una ecuación que permitirá estimar una variable en función de la otra. Por ejemplo:

• ¿En qué medida, un aumento de los gastos en publicidad hace aumentar las ventas de un determinado producto? • ¿Cómo representamos que la bajada de temperaturas implica un aumento del consumo de la calefacción?

A continuación, estudiaremos dicho grado de relación entre dos variables en lo que llamaremos análisis de correlación. 3.1 Análisis de correlación: Es la herramienta estadística que podemos usar para describir el grado hasta el cual una variable está linealmente relacionada con otra. Mide el grado de asociación entre 2 variables. Los estadísticos han desarrollado dos medidas para describir la correlación entre 2 variables: a) El coeficiente de determinación. b) El coeficiente de correlación. La introducción de estas dos medidas es el propósito de esta sección. 3.2 Coeficiente de determinación. Es la principal forma en que podemos medir la extensión o fuerza de la asociación que existe entre 2 variables, X y Y. Como hemos usado una muestra de puntos para desarrollar líneas de regresión, nos referiremos a esta medida como el coeficiente de determinación de muestra. Se desarrolla de la relación entre 2 tipos de variación: La variación de los valores Y en un conjunto de datos alrededor de:

1. La línea de regresión ajustada = Σ(Y-Y)² _

2. Su propia media = Σ(Y-Y)² El coeficiente de determinación se simboliza:

Page 3: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

3

3.3 Una interpretación intuitiva de r² Revisaremos las 2 formas extremas en las que las variables X y Y pueden relacionarse. En este ejemplo cada valor observado de Y cae en la línea de estimación, como se ve en la tabla esta es una correlación perfecta.

La ecuación de estimación apropiada para este caso es fácil de determinar. Puesto que la línea de regresión pasa a través del origen, sabemos que la intersección Y es cero; y puesto que Y se incrementa en 4 cada vez que X se incrementa en 1, la pendiente debe ser igual a 4.

La línea de regresión es: Para determinar el coeficiente de determinación de muestra para la línea de regresión, primero calculamos el numerador de la fracción en la ecuación de r².

Variación de los valores de Y alrededor de la línea de regresión = Como cada valor de Y está sobre la línea de regresión la diferencia es 0 Σ(0)² = 0

Page 4: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

4

Sustituimos los valores en la fórmula encontramos que el coeficiente de determinación de muestra es igual a + 1

De hecho r² es igual a +1 siempre que la línea de regresión sea un estimador perfecto. Una segunda forma extrema en la que las variables X y Y pueden relacionarse es aquella en que los puntos podrían caer a distancias iguales en ambos lados de una línea de regresión horizontal. A continuación mostramos la gráfica:

Page 5: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

5

Sustituimos los valores en la fórmula encontramos que el coeficiente de determinación de muestra es igual a 0

Por lo tanto el valor de r² es cero cuando no hay c orrelación. Un r² cercano a 1 indica una fuerte correlación entre X y Y. Un r² cercano a 0 indica que existe poca correlació n entre X y Y.

Page 6: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

6

Se debe subrayar fuertemente que r² mide solo la fu erza de una relación lineal entre 2 variables. Por ejemplo, si tuviéramos muchos puntos X y Y y todos cayeran en la circunferencia de un círculo, aunque dispersos aleatoriamente, claramente habría una relación entre estos puntos. (todos caen en el mismo círculo), Pero si calculamos r² resultaría estar cerca de 0, porque los puntos no tienen una relación lineal entre sí. Para evitar estos cálculos, los estadísticos han desarrollado una versión de atajo, usando los valores que habríamos determinado de antemano en el análisis de regresión. La fórmula es:

Para ver que esta fórmula es un atajo, la aplicaremos a nuestra anterior regresión que relaciona los gastos de inversión y desarrollo con las ganancias. Recuerde que cuando encontramos los valores para a y b la línea de regresión para este problema es:

Page 7: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

7

3,600 + 2,000 – 5,400 = ------------------------------- 5,642 – 5,400 200 = ------ = 0.826 Coeficiente de determinación de muestra 242 Por tanto, podemos concluir que la variación en los gastos de investigación y desarrollo (la variable independiente X) explica 82.6 % de la variación en las ganancias anuales (la variable dependiente Y) 3.4 Coeficiente de correlación. Es la segunda medida que podemos usar para describir que tan bien una variable es explicada por otra. Cuando tratamos con muestras el coeficiente de correlación de muestra se denota como r y es la raíz cuadrada del coeficiente de determinación de muestra: r = √r² Cuando la pendiente de la ecuación de estimación es positiva, r es la raíz cuadrada positiva, pero si b es negativa, r es la √ negativa. El signo de r indica la dirección de la relación entre las dos variables X y Y. Diversas características de r, el coeficiente de co rrelación de muestra

Page 8: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

8

En el problema anterior encontramos que el Coefici ente de determinación de muestra es r² = 0.826, para encontrar r sustituimos este valo r en la ecuación: r = √r² = √0.826 = 0.909 Coeficiente de correlación de mu estra La relación entre las dos variables es directa y la pendiente es positiva, por tanto el signo de r es positivo. Supongamos que la cantidad gastada en boletos de cine correlaciona 0.6 con el ingreso familiar. A primera vista, 0.6 parece ser una correlación bastante fuerte ya que esta más cerca de 1 que de 0. Pero esto explica sólo el 36% (0.6 x 0.6 = 0.36) de la variación en la cantidad de dinero que las familias gastan en películas. Esto sugiere que una estrategia de comercialización diseñada para atraer familias con altos ingresos pasaría por alto una gran cantidad de clientes potenciales. 3.5 Desarrollo en Minitab: CORRELACION 1.- Abrir el Minitab. 2.- Introducir los datos en la hoja de trabajo

Page 9: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

9

3.- Colocarse en el siguiente Menú y opción: Stat � Basic Statistics � Correlation

Page 10: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

10

4.- Seleccionar las variables a correlacionar: Gastos y Ganancias dando clic en cada una hasta que aparezcan en el recuadro de variables, posteriormente dar clic en el botón OK.

5.- Minitab calcula el resultado utilizando la Correlación de Pearson. Donde en este caso tenemos una correlación de .909 que como se explicó anteriormente nos indica que los Gastos de Investigación y las ganancias están correlacionados. El p-value (valor de probabilidad) nos indica la siguiente hipótesis:

Ho: cuando p-value > 0.05 H1: cuando p-value < 0.05

Page 11: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

11

3.6 DIAGRAMA DE DISPERSION. 1. Para generar el diagrama de dispersión:

Colocarse en el siguiente Menú y opción: Graph � Scatterplot

2.- Seleccione la opción Con Regresión. (With Regression) y dar clic en OK

Page 12: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

12

3. Seleccionar las variables de Gastos y Ganancias con un clic.

y posteriormente clic en OK para obtener la siguiente gráfica de dispersión:

Page 13: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

13

3.7 LINEA DE REGRESION Y ECUACION DE REGRESION.

1.- Para generar el diagrama de dispersión con la línea de regresión y la ecuación de regresión: Colocarse en el siguiente Menú y opción: Stat � Regression � Fitted Line Plot…

Page 14: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

14

2.- Seleccionar las variables Y y X y clic OK.

Se desplegará la siguiente gráfica que representa la función Y = 20 + 2X

Page 15: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

15

3.8 Desarrollo de un Caso. Una agencia de Viajes desea saber la relación que hay entre las ventas, el presupuesto destinado a publicidad, y las comisiones de los vendedores para esto presenta los siguientes datos. Realice los análisis respectivos.

ANÁLISIS DE DATOS: Se van a utilizar las siguientes variables: Variables Independientes: 1.- Gastos de Publicidad 2.- Comisión de vendedores Variable dependiente: - Ventas

La variable que más relación tiene con las ventas es la variable Gastos de Publicidad.

De acuerdo a los cuadros podemos decir: - La variable que más relación tiene con la Variable Dependiente es decir las ventas es la variable Gastos de Publicidad - En cuanto a la variable Comisiones de vendedores podemos decir que no tiene relación relevante con las Ventas.

Page 16: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

16

- En cuanto a la variable Comisiones de vendedores podemos decir que no tiene relación relevante con las Ventas:

Page 17: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

17

4.- Series de Tiempo en Minitab.

CONCEPTOS BASICOS DE SERIES DE TIEMPO 4.1 INTRODUCCIÓN Toda institución, ya sea la familia, la empresa o el gobierno, tiene que hacer planes para el futuro si ha de sobrevivir y progresar. Hoy en día diversas instituciones requieren conocer el comportamiento futuro de ciertos fenómenos con el fin de planificar, prever o prevenir. La planificación racional exige prever los sucesos del futuro que probablemente vayan a ocurrir. La previsión, a su vez, se suele basar en lo que ha ocurrido en el pasado. Se tiene pues un nuevo tipo de inferencia estadística que se hace acerca del futuro de alguna variable o compuesto de variables basándose en sucesos pasados. La técnica más importante para hacer inferencias sobre el futuro con base en lo ocurrido en el pasado, es el análisis de series de tiempo . Son innumerables las aplicaciones que se pueden citar, en distintas áreas del conocimiento, tales como, en economía, física, geofísica, química, electricidad, en demografía, en marketing, en telecomunicaciones, en transporte, etc.

Series De Tiempo Ejemplos 1. Series económicas:

- Precios de un artículo - Tasas de desempleo - Tasa de inflación - Índice de precios, etc.

2. Series Físicas:

- Meteorología - Cantidad de agua caída - Temperatura máxima diaria - Velocidad del viento (energía eólica) - Energía solar, etc.

3. Geofísica:

- Series sismologías

4. Series demográficas:

- Tasas de crecimiento de la población - Tasa de natalidad, mortalidad - Resultados de censos poblacionales

5. Series de marketing:

- Series de demanda, gastos, ofertas

6. Series de telecomunicación:

- Análisis de señales

7. Series de transporte:

- Series de tráfico

Uno de los problemas que intenta resolver las series de tiempo es el de predicción. Esto es dado una serie {x(t1),...,x(tn)} nuestros objetivos de interés son describir el comportamiento de la serie, investigar el mecanismo generador de la serie temporal, buscar posibles patrones temporales que permitan sobrepasar la incertidumbre del futuro. En adelante se estudiará como construir un modelo para explicar la estructura y prever la evolución de una variable que observamos a lo largo del tiempo. La variables de interés puede ser macroeconómica (índice de precios al consumo, demanda de electricidad, series de exportaciones o importaciones, etc.), macroeconómica (ventas de una empresa, existencias en un almacén, gastos en publicidad de un sector), física (velocidad del viento en una central eólica,

Page 18: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

18

temperatura en un proceso, caudal de un río, concentración en la atmósfera de un agente contaminante), o social (número de nacimientos, matrimonios, defunciones, o votos a un partido político). 4.2 DEFINICIÓN DE SERIE DE TIEMPO En muchas áreas del conocimiento las observaciones de interés son obtenidas en instantes sucesivos del tiempo, por ejemplo, a cada hora, durante 24 horas, mensuales, trimestrales, semestrales o bien registradas por algún equipo en forma continua. Llamamos Serie de Tiempo a un conjunto de mediciones de cierto fenómeno o experimento registradas secuencialmente en el tiempo. Estas observaciones serán denotadas por {x(t1), x(t2), ..., x(tn)} = {x(t) : t ∈ T ⊆ R} con x(ti) el valor de la variable x en el instante ti. Si T = Z se dice que la serie de tiempo es discreta y si T = R se dice que la serie de tiempo es continua. Cuando ti+1 - ti = k para todo i = 1,...,n-1, se dice que la serie es equiespaciada, en caso contrario será no equiespaciada. En adelante se trabajará con series de tiempo discreta, equiespaciadas en cuyo caso asumiremos y sin perdida de generalidad que: {x(t1), x(t2), ..., x(tn)}= {x(1), x(2), ..., x(n)}. Hay cuatro tipos de cambio o variación implicados en el análisis de series temporales, estos son:

1. Tendencia Secular. 2. Fluctuación Cíclica. 3. Variación temporal o estacional. 4. Variación irregular.

Tendencia Secular: El valor de la variable tiende a aumentar o disminuir en un periodo muy largo. El incremento estable en los costos de vida registrados en el Indice de Precios al Consumidor (IPC) es un ejemplo de tendencia secular.

Fluctuación Cíclica: El ejemplo más común de fluctuación cíclica es el ciclo de negocios. A través del tiempo, hay años en que el ciclo de negocios llega a un pico por encima de la línea de tendencia. En otros tiempos, la actividad de los negocios parece caer, llegando a un punto bajo la línea de tendencia. El tiempo que transcurre entre picos o puntos bajos es de al menos 1 año y puede llegar a durar hasta 15 o 20 años. (Automóviles, celulares)

Page 19: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

19

Variación temporal: Este tipo de variación implica patrones de cambio en el lapso de un año que tienden a repetirse anualmente. Ejemplo, la gripa en invierno, la fiebre en verano.

Variación Irregular: El valor de una variable puede ser completamente impredecible, es decir, cambia de manera aleatoria. Ejemplo: Conflictos a nivel mundial, como los efectos del conflicto en el Medio Oriente en 1973, la situación en Irán en 1979-1981, el colapso de la OPEP en 1986 y la situación en Irak en 1990 sobre los precios de la gasolina en Estados Unidos son ejemplos de variación irregular.

Page 20: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

20

4.3 PRIMER PASO AL ANALIZAR CUALQUIER SERIE DE TIEM PO El primer paso en el análisis de series de tiempo, consiste en graficar la serie. Esto nos permite detectar las componentes esenciales de la serie. El gráfico de la serie permitirá: a) Detectar Outlier : se refiere a puntos de la serie que se escapan de lo normal. Un outliers es una observación de la serie que corresponde a un comportamiento anormal del fenómeno (sin incidencias futuras) o a un error de medición. Se debe determinar desde fuera si un punto dado es outlier o no. Si se concluye que lo es, se debe omitir o reemplazar por otro valor antes de analizar la serie. Por ejemplo, en un estudio de la producción diaria en una fábrica se presentó la siguiente situación ver figura 1.1:

Figura 1.1 Los dos puntos enmarcados en un círculo parecen corresponder a un comportamiento anormal de la serie. Al investigar estos dos puntos se vio que correspondían a dos días de paro, lo que naturalmente afectó la producción en esos días. El problema fue solucionado eliminando las observaciones e interpolando. b) Permite detectar tendencia : la tendencia representa el comportamiento predominante de la serie. Esta puede ser definida vagamente como el cambio de la media a lo largo de un periodo (ver figura 1.2).

Figura 1.2

c) Variación estacional : la variación estacional representa un movimiento periódico de la serie de tiempo. La duración de la unidad del periodo es generalmente menor que un año. Puede ser un trimestre, un mes o un día, etc (ver figura 1.3). Matemáticamente, podemos decir que la serie representa variación estacional si existe un número s tal que x(t) = x(t + k⋅s). Las principales fuerzas que causan una variación estacional son las condiciones del tiempo, como por ejemplo:

Page 21: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

21

1) en invierno las ventas de helado 2) en verano la venta de lana 3) exportación de fruta en marzo.

Todos estos fenómenos presentan un comportamiento estacional (anual, semanal, etc.)

Figura 1.3 d) Variaciones irregulares (componente aleatoria): los movimientos irregulares (al azar) representan todos los tipos de movimientos de una serie de tiempo que no sea tendencia, variaciones estacionales y fluctuaciones cíclicas. Ejemplo: A continuación presentamos los datos que describen el índice de contaminación del aire (en partículas por millón en el aire) de una ciudad de occidente. Año 1997 1982 1987 1992 Indice de contaminación 220 350 800 2450 Representaremos los datos gráficamente en Minitab, obtendremos la tendencia, la ecuación lineal y el pronóstico para los siguientes 10 años. 4.4 Desarrollo en Minitab: SERIES DE TIEMPO. 1.- Abrir Minitab. 2.- Introducir los datos a la hoja de trabajo de Minitab.

Page 22: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

22

3.- Seleccionar: Stat � Time Series � Time Series Plot

4.- Clic en Simple

Page 23: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

23

Clic OK 5.- Con un clic seleccionamos la columna con los datos de la serie de tiempo. (El Índice de contaminación)

6.- Clic en Time/Scale… para ajustar la escala de tiempo Clic en Calendar, Seleccionamos Year.

Iniciamos en el año 1977 con incrementos de 5 años, por eso introducimos 5 en Data Increment. Clic OK

Page 24: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

24

7.- Minitab despliega la serie de tiempo del Índice de contaminación.

Page 25: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

25

Para obtener la gráfica de tendencia y la ecuación lineal favor de seguir los siguientes pasos: 1.- Seleccionar: Stat � Time Series � Trend Analysis.

2.- En la ventana Trend Analysis seleccionamos con un clic la variable, dejamos el Model Type como Linear

Page 26: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

26

3.- Clic en Time para ajustar la escala de tiempo

Clic OK 4.- Clic Ok en la ventana Trend Analysis para obtener la gráfica de tendencia y el modelo de tendencia lineal.

Page 27: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

27

5.- Para generar pronósticos, Clic en Generate forecast. En este caso buscamos 2 pronósticos, teclear 2 en Number of forecast.

Clic OK 6.- Minitab despliega la gráfica de la tendencia incluyendo los pronósticos.

Page 28: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

28

4.5. MODELOS CLASICOS DE SERIES DE TIEMPO 4.5.1 MODELOS DE DESCOMPOSICIÓN Un modelo clásico para una serie de tiempo, supone que una serie x(1), ..., x(n) puede ser expresada como suma o producto de tres componentes: tendencia, estacionalidad y un término de error aleatorio. Existen tres modelos de series de tiempos, que generalmente se aceptan como buenas aproximaciones a las verdaderas relaciones, entre los componentes de los datos observados. Estos son: 1. Aditivo: X(t) = T(t) + E(t) + A(t) 2. Multiplicativo: X(t) = T(t) · E(t) · A(t) 3. Mixto: X(t) = T(t) · E(t) + A(t) Donde:

X(t) serie observada en instante t

T(t) componente de tendencia E(t) componente estacional A(t) componente aleatoria (accidental)

Una suposición usual es que A(t) sea una componente aleatoria o ruido blanco con media cero y varianza constante. Un modelo aditivo (1), es adecuado, por ejemplo, cuando E(t) no depende de otras componentes, como T(t), sí por el contrario la estacionalidad varía con la tendencia, el modelo más adecuado es un modelo multiplicativo (2). Es claro que el modelo 2 puede ser transformado en aditivo, tomando logaritmos. El problema que se presenta, es modelar adecuadamente las componentes de la serie. La figura 2.1 ilustra posibles patrones que podrían seguir series representadas por los modelos (1), (2) y (3).

Figura 2.1

4.6 ESTIMACIÓN DE LA TENDENCIA Supondremos aquí que la componente estacional E(t) no está presente y que el modelo aditivo es adecuado, esto es:

X(t) = T(t) + A(t), donde A(t) es ruido blanco. Hay varios métodos para estimar T(t). Los más utilizados consisten en:

Page 29: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

29

1) 1) Ajustar una función del tiempo, como un polinomio, una exponencial u otra función

suave de t. 2) 2) Suavizar (o filtrar) los valores de la serie. 3) 3) Utilizar diferencias. 4.6.1 AJUSTE DE UNA FUNCIÓN Los siguientes gráficos ilustran algunas de las formas de estas curvas. 1.T(t) = a + bt (Lineal)

2.T(t) = a ebt (Exponencial)

3. T(t) = a + b ebt

(Exponencial modificada)

4.T(t) = β0 + β1t ,...,+ βmt

m

(Polinomial)

5.T(t) = exp(a + b(rt)) (Gompertz 0 < r < 1)

6. T(t) = 10,

)(

1 <<+

rrba t

(Logística)

Nota:

i. La curva de tendencia debe cubrir un periodo relativamente largo para ser una buena representación de la tendencia a largo plazo.

ii. La tendencia rectilínea y exponencial son aplicable a corto plazo, puesto que una curva S a largo plazo puede parecer una recta en un período restringido de tiempo (por ejemplo).

Figura 2.2

En la figura 2.2 ambas curvas (recta y Gompertz) ajustan bien pero las proyecciones divergen enormemente a largo plazo.

Page 30: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

30

Ejemplo 1 : En la tabla 2.1 se presentan los datos trimestrales de unidades habitacionales iniciadas en los Estados Unidos desde el tercer trimestre de 1964 hasta el segundo trimestre de 1972 [1]. (Es necesario advertir que para el análisis de tendencia el periodo que se considera debería ser más largo. Sin embargo, ya que el propósito principal es el de ilustrar el método de descomposición y las técnicas para inferir partiendo de los elementos así descompuestos, la insuficiencia de los datos no tiene por qué interesar.) Tabla 2.1 : Nuevas unidades habitacionales comenzadas en los Estados Unidos del tercer trimestre de 1964 al segundo trimestre de 1972 (en miles de unidades).

Año I II III IV Total Anual 1964 398 352 1965 283 454 392 345 1,474 1966 274 392 290 210 1,166 1967 218 382 382 340 1,322 1968 298 452 423 372 1,545 1969 336 468 387 309 1,500 1970 264 399 408 396 1,467 1971 389 604 579 513 2,085 1972 510 661

Fuente: U.S. Department of Comerse, Survey of Current Bussiness. Sea t cada uno de los 32 trimestres que van de 1964 a 1972, o sea que t = 1 para el tercer trimestre de 1964, t = 2 para el cuarto trimestre, y así sucesivamente. Así que el dominio de definición de t es el conjunto de los enteros de 1 a 32 inclusive. Sea T(t) las iniciaciones de viviendas trimestralmente. Los valores de t y T(t) se dan en la tabla 2.2. Para calcular los valores de a y de b en la recta de tendencia: T(t) = a + bt Se obtienen las siguientes cifras a partir de los datos de la tabla 2.1. Tabla 2.2 : Cálculo de la tendencia de las viviendas comenzadas en los Estados Unidos del tercer trimestre de 1964 al segundo trimestre de 1972

Año trimestre t T(t) Tendencia 1964: 3 1 398 291,73

4 2 352 298,071965: 1 3 283 304,41

2 4 454 310,753 5 392 317,094 6 345 323,43

1966: 1 7 274 329,772 8 392 336,113 9 290 342,454 10 210 348,79

1967: 1 11 218 355,132 12 382 361,473 13 382 367,814 14 340 374,15

1968: 1 15 298 380,492 16 452 386,833 17 423 393,174 18 372 399,51

Page 31: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

31

1969: 1 19 336 405,852 20 468 412,193 21 387 418,534 22 309 424,87

1970: 1 23 264 431,212 24 399 437,553 25 408 443,894 26 396 450,23

1971: 1 27 389 456,572 28 604 462,913 29 579 469,254 30 513 475,59

1972: 1 31 510 481,932 32 661 488,27

Entonces, la recta de tendencia es:

T(t) = 285,39 + 6,34⋅ t La figura 2.3 muestra gráficamente la recta de tendencia ajustada a los datos trimestrales de la tabla 2.2. La recta de trazos después de 1972 representa proyecciones (ver sección 3 Predicciones).

Figura 2.3

4.7 Desarrollo en Minitab: ANALISIS DE TENDENCIA 1.- Abrir Minitab. 2.- Copiar los datos a la hoja de trabajo de Minitab.

Page 32: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

32

3.- Seleccionar: Stat � Time Series � Trend Analysis.

4.- En la ventana Trend Analysis seleccionamos con un clic la variable, dejamos el Model Type como Linear y clic OK

Page 33: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

33

5. Minitab despliega la siguiente gráfica, que como podemos observar es similar a la presentada en el desarrollo del ejercicio.

6.- Si deseamos obtener 4 graficas en una sola ventana, seleccionar la opción Graphs…

Page 34: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

34

Clic en Four in one.

Clic OK Minitab despliega la siguiente gráfica.

Page 35: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

35

4.8 SUAVIZAMIENTO. FILTROS LINEALES Una forma de visualizar la tendencia, es mediante suavizamiento de la serie. La idea central es definir a partir de la serie observada un nueva serie que suaviza los efectos ajenos a la tendencia (estacionalidad, efectos aleatorios), de manera que podamos determinar la dirección de la tendencia (ver figura 2.4).

Figura 2.4

Lo que hacemos es usar una expresión lineal que transforma la serie X(t) en una serie suavizada Z(t): Z(t) = F(X(t)), t = 1,...,n X(t) Z(t) de tal modo que F(X(t)) = T(t). La función F se denomina Filtro Lineal. El filtro lineal más usado es el promedio móvil. 2.2.2.1 PROMEDIOS MÓVILES El objetivo es eliminar de la serie las componentes estacionales y accidentales. Para una serie mensual con estacionalidad anual (s = 12), la serie suavizada se obtiene,

67,

12

)6()5()5()6()( 2

12

1

−≤≤+++++−+−= nkkZkZkZkZ

kZΚ

(1) Para una serie trimestral, con estacionalidad anual (s = 4), la serie suavizada está dada por

23,4

)2()1()()1()2()( 2

12

1

−≤≤+++++−+−= nkkZkZkZkZkZ

kZ (2)

A este procedimiento se les llama: filtro simétrico finito. Nota : se suaviza cuando existen muchos cambios bruscos, movimientos irregulares.

F

Page 36: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

36

Ejemplo 2 : A partir de los datos del ejemplo1, se calcula un promedio móvil sumando los valores para un cierto número de periodos sucesivos y dividiendo luego la suma así obtenida por el número de períodos abarcados. En este caso se trata de una serie trimestral y para ello se ocupa la fórmula (2). Tabla 2.3 : Cálculo del Promedio Móvil centrado de cuatro trimestres de las iniciaciones de viviendas en los EEUU, tercer trimestre 1964 a segundo trimestre de 1972 (en miles de unidades)

Año por trimestre

Datos Originales Y

Total Móvil en cuatro trimestres

Promedio Móvil de cuatro trimestres

Promedio Móvil Centrado de cuatro

trimestres (1) (2) (3) (4) (5)

1964: 3 398 4 352

1965: 1 283 1.487 372 3712 454 1.481 370 3693 392 1.474 369 3674 345 1.465 366 359

1966: 1 274 1.403 351 3382 392 1.301 325 3083 290 1.166 292 2854 210 1.110 278 276

1967: 1 218 1.100 275 2872 382 1.192 298 3143 382 1.322 331 3414 340 1.402 351 359

1968: 1 298 1.472 368 3732 452 1.513 378 3823 423 1.545 386 3914 372 1.583 396 398

1969: 1 336 1.599 400 3952 468 1.563 391 3833 387 1.500 375 3664 309 1.428 357 348

1970: 1 264 1.359 340 3422 399 1.380 345 3563 408 1.467 367 3824 396 1.592 398 424

1971: 1 389 1.797 449 4712 604 1.968 492 5073 579 2.085 521 5364 513 2.206 552 559

1972: 1 510 2.263 566 2 661

En la tabla 2.3, por ejemplo, el promedio móvil de cuatro trimestres para el primer trimestre de 1965 se obtiene sumando los valores del tercer y cuarto trimestres de 1964 y el primero y segundo trimestres de 1965 y dividiendo luego la suma por 4. El promedio para el segundo trimestre de 1965 se obtiene sumando los valores del cuarto trimestre de 1964 con los del primero, segundo y tercer trimestres de 1965 y luego dividiendo la suma por 4. Así pues, para cada promedio sucesivo, se resta el trimestre que viene primero y se suma el último siguiente.

Page 37: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

37

La columna 4 de la tabla 2.3 muestra los promedios móviles de cuatro trimestres obtenidos, partiendo de los datos iniciaciones de viviendas para el 1964 a 1972. El promedio móvil no elimina las fluctuaciones muy acentuadas de la serie, pero reduce sustancialmente la amplitud de las variaciones de los datos originales. Si en el cálculo de un promedio móvil entra un número impar de períodos, el proceso será más sencillo puesto que el número de períodos antes y después del período para el cual se calcula el promedio son iguales. Si el número de periodos es par, como en este ejemplo, no se puede utilizar el mismo número de períodos antes y después de un periodo especificado. Por tanto, el promedio móvil ha de quedar a mitad de camino entre los valores de dos períodos consecutivos y no se relaciona con ningún período. Este problema se puede resolver calculando un promedio móvil centrado en la serie, lo cual se logra obteniendo primero un promedio móvil centrado de dos trimestres de los promedios móviles ya obtenidos. El primer promedio móvil centrado es la media de los dos primeros promedios móviles de cuatro trimestres, el segundo promedio móvil centrado es la media de los promedios móviles de cuatro trimestres segundo y tercero, etc. De esta manera, habrá un número igual de períodos después y antes del periodo especificado para el cual se está calculando el promedio móvil centrado. Los promedios móviles centrados se ven en la columna 5 de la tabla 2.3.

)2(*4

392)454283352(*2398)3(

2)3( 4

3924542833524

454283352398

++++=

+=

++++++

Z

Z

Según la fórmula 2, el cálculo sería el siguiente:

3714

454283352)3(

4

)5()4()3()2()1()3(

2392

2398

21

21

=++++

=

++++=

Z

ZZZZZZ

Este valor corresponde al Promedio Móvil Centrado que se muestra en la columna 5. La figura 2.5 muestra gráficamente el ajuste por a través del promedio móvil, según tabla 2.3, donde el segmento negro representa la serie original y el segmento azul la serie suavizada.

Figura 2.5

Page 38: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

38

4.9 Desarrollo en Minitab: PROMEDIOS MOVILES. 1.- Abrir Minitab. 2.- Copiar los datos a la hoja de trabajo de Minitab:

Page 39: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

39

3.- Seleccionar: Stat � Time Series � Moving Average...

Page 40: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

40

4.- Seleccionar con un clic la variable con las series de tiempo y colocar la MA length. En este caso es igual a 4 (4 trimestres por año). Clic OK

5.- Minitab despliega la gráfica con el promedio móvil.

Page 41: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

41

4.10 Resumen Se llama Serie de Tiempo, a un conjunto de mediciones de cierto fenómeno o experimento registradas secuencialmente en el tiempo, por ejemplo a cada hora, mensualmente, trimestralmente, semestralmente, etc.. En este apunte se trabajó con series de tiempo discreto, equiespaciadas en cuyo caso se asume que: : {x(t1), x(t2), ..., x(tn)}= {x(1), x(2), ..., x(n)}. Debido al carácter introductorio se restringió al caso de series de tiempo univariadas. Al analizar una serie de tiempo, lo primero que se debe hacer es graficar la serie. Esto nos permite detectar las componentes esenciales de la serie. El gráfico de la serie permitirá: detectar Outlier, detectar tendencias, variación estacional, variaciones irregulares (o componente aleatoria). Un modelo clásico para una serie de tiempo, puede ser expresada como suma o producto de tres componentes: tendencia, estacional y un término de error aleatorio. Existen tres modelos de series de tiempos. Estos son:

1. Aditivo: X(t) = T(t) + E(t) + A(t) 2. Multiplicativo: X(t) = T(t) · E(t) · A(t) 3. Mixto: X(t) = T(t) · E(t) + A(t)

Con el fin de obtener un modelo, es necesario estimar la tendencia y la estacionalidad. Para estimar la tendencia, se supone que la componente estacional no está presente. La estimación se logra al ajustar a una función de tiempo a un polinomio o suavizamiento de la serie a través de los promedios móviles. Para estimar la estacionalidad se requiere haber decidido el modelo a utilizar (mixto o aditivo). Una vez estimada la tendencia y la estacionalidad se esta en condiciones de predecir. Los métodos revisados en este apunte son de naturaleza descriptiva, por lo que el juicio y el conocimiento del fenómeno juegan un rol importante en la selección del modelo. Los métodos clásicos tienen la desventaja que se adaptan a través del tiempo, lo que implica que el proceso de estimación debe volver a iniciarse frente al conocimiento de un nuevo dato.

Page 42: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

42

5.- Distribución Normal. La distribución de probabilidad normal ocupa un lugar prominente en la estadística por dos razones: 1.- Tiene algunas propiedades que la hacen aplicable un gran número de situaciones en las que es necesario hacer inferencias mediante la toma de muestras. 2.- La distribución normal casi se ajusta a las distribuciones de frecuencia reales observadas en muchos fenómenos, incluyendo características humanas (pesos, altura, IQ, etc.), resultados de procesos físicos (dimensiones y rendimientos) y muchas otras medidas de interés para los administradores, tanto en el sector público como en el privado. 5.1 Características: 1.- La curva tiene un solo pico, por lo tanto se dice que es unimodal.

2.- La media, la mediana y la moda de los datos se encuentran en el centro de la curva y tienen el mismo valor.

3.- Los dos extremos de la distribución normal de probabilidad se extienden indefinidamente y nunca tocan el eje horizontal.

Nota: La mayor parte de las poblaciones reales no se extienden de manera indefinida en ambas direcciones, pero para estas poblaciones, la distribución normal es una aproximación conveniente.

Page 43: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

43

EN RESUMEN: LA CURVA DE DISTRIBUCION NORMAL: 1. ES UNIMODAL. 2. LA MAYOR CANTIDAD DE DATOS DE LA DISTRIBUCION CAE EN EL

CENTRO DE LA CURVA. 3. LA MEDIA, LA MEDIANA Y LA MODA SE ENCUENTRAN EN EL MISMO

PUNTO. 4. LOS DOS EXTREMOS DE LA DISTRIBUCION SE EXTIENDEN

INDEFINIDAMENTE. Para definir, entender y aplicar una distribución normal de probabilidad es necesario conocer dos parámetros: • La media ( µ ): Es la suma de los datos divididos entre el número de datos. • La desviación estándar (σσσσ): Es la variación de los datos con respecto a la media (µ):

No importa cuales sean los valores de µ y s para una distribución de probabilidad normal, el área total bajo la curva es 1.00, de manera que podemos pensar en áreas bajo la curva como si fueran probabilidades.

Page 44: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

44

En resumen: entre más grande es el valor de sigma (σ) el nivel de defectos permitido es menor.

Uso de la tabla de distribución de probabilidad normal estándar.

x = Valor de la variable aleatoria que nos preocupa. µ = Media de la distribución de la variable aleatoria. σ = Desviación estándar de la distribución. z = Número de desviaciones estándar que hay desde x a la media de la distribución. 5.3 EJEMPLO: Existe un programa de entrenamiento diseñado para mejorar la calidad de las habilidades de supervisión de los supervisores de la línea de producción. Debido a que el programa es autoadministrado, los supervisores requieren un número diferente de horas para terminarlo. Un estudio de los participantes anteriores indica que el tiempo medio que se lleva completar el programa es de 500 horas, y que esta variable aleatoria normalmente distribuida tiene una desviación estándar de 100 horas.

Page 45: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

45

¿Cuál es la probabilidad de que un participante elegido al azar requiera más de 500 horas para completar el programa?

¿Cuál es la probabilidad de que un participante elegido al azar se tome entre 500 y 650 horas para completar el programa de entrenamiento?

Buscando en la tabla para distribuciones normales de probabilidad encontramos que para z = 1.5 la probabilidad es = 0.4332

Respuesta: La mitad del área bajo la curva está localizada a ambos lados de la media de 500 horas. Si la probabilidad máxima de que un evento ocurra es 1 y en este caso nuestra media esta en 500 y ocupa exactamente la mitad de nuestra curva entonces la probabilidad es la mitad de el área de la curva, o sea 0.5

x = Valor de la variable aleatoria que nos preocupa. µµµµ = Media de la distribución de la variable aleatoria. σσσσ = Desviación estándar de la distribución. z = Número de desviaciones estándar que hay desde x a la media de la distribución.

Page 46: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

46

5.4 Desarrollo en Minitab: DISTRIBUCION NORMAL 1.- Abrir el Minitab. 2.- Colocarse en el siguiente Menú y opción: Graph � Probability Distribution Plot

3.- Se despliega la ventana de Probability Distribution Plots:

Clic en View Probability

Page 47: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

47

Clic OK 4.- Seleccionar Distribución Normal.

Page 48: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

48

Introducir los valores de la Media (Mean) y la Desviación Estándar (Standard deviation)

5.- Clic en Shaded Area,

Page 49: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

49

Seleccionar X Value, Clic en Middle y proporcionar los valores de X1 y X2

Clic OK 6.- Minitab despliega la gráfica de la distribución normal con el valor de la probabilidad sombreado.

Como en el ejemplo anterior, tenemos que la probabilidad de que un participante elegido al azar se tome entre 500 y 650 horas para completar el programa de entrenamiento es de .433

Page 50: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

50

5.5 Desarrollo de un Caso. Una empresa eléctrica fabrica focos que tienen una duración antes de fundirse, que se distribuye normalmente con media igual a 820 horas y una desviación estándar de 42 horas. Encuentre lo siguiente: a) La probabilidad de que el foco se funda entre las 780 y 830 horas. b) Que probabilidad hay de que un foco dure más de 850 horas. c) Que probabilidad hay de que un foco dure entre 710 y 760 horas

Page 51: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

51

1.- Abrir el Minitab. 2.- Colocarse en el siguiente Menú y opción: Graph � Probability Distribution Plot 3.- Clic en View Probability 4.- Seleccionar Distribución Normal. Introducir la Media (Mean) y la Desviación Estándar (Standard deviation)

Clic en Shaded Area. Seleccionar X Value,

Clic en Middle y proporcionar los valores de X1 y X2

Clic OK

Page 52: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

52

7. Minitab despliega la gráfica de la distribución normal con el valor de la probabilidad sombreado 0.424 ó 42.4 % el mismo resultado que haciendo el ejercicio de forma manual.

De 820 (la media) a 855 tenemos una probabilidad de 0.298

Page 53: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

53

Seleccionar Shaded Area y X Value y proporcionar los valores de X1 y X2

Minitab despliega la gráfica de la distribución normal con el valor de la probabilidad sombreado: 0.0722 o 7.2 % el mismo resultado que haciendo el ejercicio de forma manual

.

Page 54: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

54

6. Análisis de varianza

En estadística, análisis de varianza (ANOVA, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados. El análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos. El procedimiento para comparar estos valores está basado en la varianza global observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de varianza se utiliza para asociar una probabilidad a la conclusión de que la media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones. Permite probar la significancia de las diferencias entre más de dos medias muestrales.

6.1 Situaciones en las que podemos utilizar ANOVA.

El análisis de varianza será útil en situaciones tales como la comparación del kilometraje logrado por cinco clases diferentes de gasolina; la prueba de cuál de cuatro métodos de capacitación produce el aprendizaje más rápido; o en la comparación de los ingresos del primer año de los graduados de una media docena de escuelas de administración. En cada caso, se pueden comparar las medias de más de dos muestras.

6.2 Supuestos previos

El ANOVA parte de algunos supuestos que han de cumplirse:

• La variable dependiente debe medirse al menos a nivel de intervalo. • Independencia de las observaciones. • La distribución de la variable dependiente debe ser normal. • Homocedasticidad: homogeneidad de las varianzas.

6.3 Visión general

Existen tres tipos de modelos:

• El modelo de efectos fijos asume que el experimentador ha considerado para el factor todos los posibles valores que éste puede tomar. Ejemplo: Si el género del individuo es un factor, y el experimentador ha incluido tantos individuos masculinos como femeninos, el género es un factor fijo en el experimento.

• Los modelos de efectos aleatorios asumen que en un factor se ha considerado tan sólo una muestra de los posibles valores que éste puede tomar. Ejemplo: Si el método de enseñanza es analizado como un factor que puede influir sobre el nivel de aprendizaje y se ha considerado en el experimento sólo tres de los muchos más métodos posibles, el método de enseñanza es un factor aleatorio en el experimento.

• Los modelos mixtos describen situaciones donde están presentes ambos tipos de factores: fijos y aleatorios.

Page 55: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

55

La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un análisis de regresión lineal)

SSTotal = SSError + SSFactores

El número de grados de libertad (gl) puede separarse de forma similar y se corresponde con la forma en que la distribución chi-cuadrado describe la suma de cuadrados asociada.

glTotal = glError + glFactores

Modelo de efectos fijos

El modelo de efectos fijos de análisis de la varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material analizado a varios factores, cada uno de los cuales le afecta sólo a la media, permaneciendo la "variable respuesta" con una distribución normal.

Modelo de efectos aleatorios

Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren diferencias incomparables en el material o grupo experimental. El ejemplo más simple es el de estimar la media desconocida de una población compuesta de individuos diferentes y en el que esas diferencias se mezclan con los errores del instrumento de medición.

Grados de libertad

Por grados de libertad "degrees of freedom" entendemos el número efectivo de observaciones que contribuyen a la suma de cuadrados en un ANOVA, es decir, el número total de observaciones menos el número de datos que sean combinación lineal de otros.

Pruebas de significación

El análisis de varianza lleva a la realización de pruebas de significación estadística, usando la denominada distribución F de Snedecor.

Page 56: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

56

6.4 Ejemplo 1 de análisis de varianza:

Quince aprendices en un curso técnico son aleatoriamente asignados a tres diferentes tipos de métodos de instrucción, todos los cuales persiguen el desarrollo de un nivel específico de habilidad en diseño asistido por computadora. Las calificaciones de aprovechamiento al término de la unidad de instrucción se muestran en la siguiente tabla. Use el procedimiento de análisis de varianza para probar la hipótesis nula de que las medias muestrales se obtuvieron de la misma población, con un nivel de significancia del 5%.

Metodo de Instrucción Calificaciones

Calificaciones totales

Calificaciones medias

A1 86 79 81 70 84 400 80

A2 90 76 88 82 89 425 85

A3 82 68 73 71 81 375 75

1200 Tabla de resumen F requerido

Fuente de variación

Grados de libertad

Suma de cuadrados Cuadrado medio F Observado

5% 1%

Tratamientos 2 250= 250/2 = 125 = 125/37.33 =

3.35 3.88 6.93

Error de muestreo 12 448= 448/12 =37.33

Total 14 698 El número total de gl para total es el número de observaciones -1 = 15-1 = 14 El número de grados de libertad para los tratamientos es tratamientos -1 = 3-1 =2 Los grados de libertad para el error de muestreo son gl totales - gl de los tratamientos = 14 -2=12 Termino de corrección es la sumatoria total de las observaciones elevadas al cuadrado y divididas entre el numero total de observaciones: = 1200² =1, 440,000 / 15 = 96,000 LA SCT es igual a sumar las observaciones al cuadrado y restarles el término de corrección ( C ) lo que es igual a: = (86)² + (79)² + .......+ (81)² = 96698 - 96000 = 698 LA SCA es igual a elevar al cuadrado la sumatoria de cada tratamiento/ n y restarle el termino de corrección ( C ) = 160 000/ 5 + 180625/5 + 140625/5 - 96000 = 250 LA SCE = SCT - SCA = 698 - 250 = 448 Los valores del F requerido se obtienen de la tabla para distribuciones F con un 0.05 del área en el extremo derecho y de la tabla para distribuciones F con un 0.01 del área en el extremo derecho. Conclusión: Dado que la F observada es menor que la F requerida al nivel de significancia del 5% se concluye que no existe ningún efecto asociado con los métodos de instrucción y por lo tanto que las diferencias entre la medias no son significativas al nivel del 5%.

Page 57: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

57

6.5 Desarrollo en Minitab del ejemplo 1. 1.- Abrir Minitab. 2.- Introducir los datos en la hoja de trabajo: Cada método de instrucción se captura en cada columna A1, A2, A3.

3.- Seleccione Stat � ANOVA � One-Way (Unstacked)

Page 58: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

58

4.- Minitab despliega la ventana One-Way Analysis of Variance Seleccione con un clic las respuestas en columnas separadas. El nivel de confianza es del 95 %

5.- Para revisar la configuración de las gráficas clic en Graphs. Clic Three in one (3 en 1) Clic OK

Clic OK en la ventana One-Way Analysis of Variance

Page 59: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

59

6.- Minitab despliega el análisis de varianza:

El análisis de varianza La primera fila en la tabla del análisis de varianza contiene todas las estadísticas asociadas con el factor. La siguiente fila contiene todas las estadísticas asociadas con el error aleatorio (error). Los grados de libertad Los grados de libertad (DF) se refieren al número de valores usados para calcular la suma de los cuadrados (SS) para cada fuente. La suma de cuadrados La suma de cuadrados (SS) es la medida de la cantidad de variabilidad que cada fuente contribuye a los datos. Observe que el total de variabilidad en los datos (SS suman 698) es igual al SS para el factor (250) más el SS para el Error (448). Media cuadrada (MS) para cada fuente es igual al SS dividió por el DF.

• El MS para el factor es una estimación del promedio de la media junto con el grupo de variabilidad.

• El MS para el error es una estimación del promedio dentro del grupo. F-estadística Es calculado como el MS para el factor dividido por el MS para el error. Cuando las diferencias entre el nivel de factor de la media es similar a las diferencias entre las observaciones de cada nivel. F será cerrado a 1. Si la variabilidad entre el nivel de factor de la media es más larga que la variabilidad entre las observaciones dentro del factor, F será mayor que 1.

El P-value: Si el valor de p (p-value) de una prueba estadística es menor que tu alfa, entonces se debe rechazar la hipótesis nula.

Page 60: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

60

Conclusión: Dado que el P value es mayor que el alfa de 5% se acepta la hipótesis nula y se concluye que no existe ningún efecto asociado con los métodos de instrucción y por lo tanto que las diferencias entre la medias no son significativas al nivel del 5%. 95% CIs individuales Para la Media Para cada nivelado de tu factor MINITAB despliega el intervalo de confianza., Así como lo siguiente las estadísticas:

• N--------- Número de observaciones. • Mean--- Media de las observaciones. • StDev--- Desviación estándar de las observaciones

1050-5-10

99

90

50

10

1

Residual

Percent

85.082.580.077.575.0

5

0

-5

-10

Fitted Value

Residual

840-4-8

3

2

1

0

Residual

Frequency

Normal Probability Plot Versus Fits

Histogram

Residual Plots for A1, A2, A3

Interpretando los resultados La grafica de probabilidad normal Usa la grafica de probabilidad normal de la residual para verificar que tu residual no este desviado sustancialmente de la distribución normal.

• Si la residual viene de la distribución normal, los puntos seguirán una línea recta. • Si la residual no viene de la distribución normal, los puntos no seguirán una línea recta.

Basado en esta grafica, es razonable asumir que la residual de los datos no está desviada sustancialmente de la distribución normal.

Page 61: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

61

Interpretando los resultados Residuales contra fits. Use la grafica de la residual versus las fits para verificar que las siguientes suposiciones han sido encontradas:

• Variaciones constantes a través de la combinación de todos los factores. • No están fuera de línea los datos.

Si tú ves cualquier tipo de patrón en la grafica, una de estas suposiciones encontradas ha sido violada. La siguiente tabla indica los tipos de patrones que puedes ver

Los patrones: Indica… La extensión desigual de las residuales a través de los diferentes valores ajustados.

La variación de tu residual no es constante.

Un punto está situado muy lejos del cero.

Fuera de línea.

Alternativas Se puede usar un histograma de la residual para evaluar la normalidad. Sin embargo la grafica de probabilidad normal es generalmente fácil de interpretar, especialmente para muestras pequeñas.

Page 62: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

62

6.6 Ejemplo 2 de análisis de varianza:

Se quiere averiguar si 3 fertilizantes, A, B y C presentan diferencias significativas en cuanto a sus efectos sobre el aumento de la cosecha. Con este propósito se eligieron al azar 15 parcelas a las que se fertilizó aleatoriamente con cada uno de los fertilizantes en cuestión. Los aumentos de cosecha obtenidos fueron los siguientes:

A la vista de estos datos, ¿puede inferirse que existen diferencias significativas entre los tres fertilizantes a nivel alfa = 0.05? Se trata de un Análisis de Varianza para un factor en un diseño completamente aleatorio, con el que se quiere contrastar la hipótesis nula de igualdad de los efectos medios de los tres

fertilizantes, , frente a la alternativa de no ser los tres iguales. Como en todos los contrastes de este tipo, lo primero que debemos determinar es la tabla de ANOVA , la cual es:

Para calcular la suma de cuadrados SSTi, partiendo de la tabla de datos del enunciado, calculamos, en una última columna, los totales de cada tratamiento (totales por filas)

así como la suma de todos los totales,

Page 63: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

63

El número de observaciones realizadas de cada tratamiento es ni = 5, i = 1,2,3, y el número total de observaciones es

La suma de cuadrados debido a los fertilizantes, será por lo tanto

= 17430.6 - 17408.067 = 22.533 Sus grados de libertad son igual al número de tratamientos menos uno, r -1 = 3 - 1 = 2 La suma total de cuadrados es igual a la suma de los cuadrados de las observaciones menos el valor antes calculado T²/n,

En nuestro ejercicio es igual a:

= 39² + 33² +… + 26² + 35² - 17408.067 = 17617 – 17408.067 = 208.933

Sus grados de libertad son igual al número de tratamientos menos uno, n–1 = 15-1 = 14 Por último la suma residual de cuadrados se calcula como diferencia de las otras dos sumas de cuadrados antes calculadas:

Page 64: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

64

= 208.933 – 22.533 = 186.4 Sus grados de libertad se calculan también como diferencia de los grados de libertad de las otras dos sumas de cuadrados que sirvieron para obtener SSE; es decir, (n-1)–(r-1)=14-2= 12 De esta forma, determinamos las sumas de cuadrados y los grados de libertad de las tres fuentes de variación que forman la tabla de Análisis de Varianza. Los cuadrados medios correspondientes a cada fuente de varianza se determinan ahora, simplemente, dividiendo cada suma de cuadrados por sus grados de libertad: Cuadrado medio correspondiente a los fertilizantes: SSTi 22.533 ------- = ----------- = 11.266 r - 1 2 Cuadrado medio correspondiente a los fertilizantes:

SSE = 186.4 ------- -------- = 15.333 n - r 12

Finalmente, el estadístico a utilizar en el contraste, se calcula dividiendo los cuadrados medios antes determinados: SSTi/(r -1) 11.266 F = -------------- = ----------- = 0.73 SSE/(n – r) 15.333 Todos estos cálculos se recogen en la tabla ANOVA siguiente: F. de variación Suma de

cuadrados Grados de libertad

Cuadrados medios Estadístico

Fertilizantes SSTi = 22.533 2 11.266 F = 0.73 Residual SSE = 186.4 12 15.533 Total SST = 208.933 14 El estadístico F tiene, si es cierta la hipótesis nula de igualdad de los efectos medios de los tres fertilizantes, una distribución F de Snedecor con grados de libertad igual al par formado por los grados de libertad correspondientes a las fuentes de variación de los Fertilizantes y Residual, antes determinados, (r-1, n-r)= (2,12), por lo que para determinar el punto crítico, a un nivel de significación alfa = 0.05, buscaremos en la tabla de la F de Snedecor el valor F(2,12);0.05 = 3.8853. Al ser F = 0.73 menor que dicho punto crítico, se acepta Ho concluyendo con la no existencia de diferencias significativas entre los tres fertilizantes.

Page 65: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

65

6.7 Desarrollo en Minitab del ejemplo 2. 1.- Abrir Minitab. 2.- Introducir los datos en la hoja de trabajo: Cada método de instrucción se captura en cada columna A1, A2, A3.

3.- Seleccione Stat � ANOVA � One-Way (Unstacked)

Page 66: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

66

4.- Minitab despliega la ventana One-Way Analysis of Variance Seleccione con un clic las respuestas en columnas separadas. El nivel de confianza es del 95 %

5.- Para revisar la configuración de las gráficas clic en Graphs. Clic Three in one (3 en 1) Clic OK

Clic OK en la ventana One-Way Analysis of Variance

Page 67: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

67

6.- Minitab despliega el análisis de varianza:

1050-5-10

99

90

50

10

1

Residual

Percent

36353433

5.0

2.5

0.0

-2.5

-5.0

Fitted Value

Residual

6420-2-4-6

3

2

1

0

Residual

Frequency

Normal Probability Plot Versus Fits

Histogram

Residual Plots for A1, A2, A3

Page 68: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

68

Conclusión: Dado que el P-value es mayor que el alfa de 5% se acepta la hipótesis nula concluyendo con la no existencia de diferencias significativas entre los tres fertilizantes. El estadístico F tiene, si es cierta la hipótesis nula de igualdad de los efectos medios de los tres fertilizantes, una distribución F de Snedecor con grados de libertad igual al par formado por los grados de libertad correspondientes a las fuentes de variación de los Fertilizantes y Residual, antes determinados, (r-1, n-r)= (2,12), por lo que para determinar el punto crítico, a un nivel de significación alfa = 0.05, buscaremos en la tabla de la F de Snedecor el valor F(2,12);0.05 = 3.8853. Al ser F = 0.73 menor que dicho punto crítico, se acepta Ho concluyendo con la no existencia de diferencias significativas entre los tres fertilizantes. 6.8 Desarrollo detallado de un ejemplo de ANOVA en MINITAB. Paso 1 - Definir el problema y el Objetivo. Un diseñador de la ropa quiere determinar si el porcentaje de algodón en una fibra sintética tiene un efecto en la tensión de la fibra. Se sabe que el porcentaje de algodón debe estar entre el 10% y el 40% para que la tela mantenga otras propiedades deseables. Al incrementar la tensión se hace la tela más durable. El objetivo es estudiar los efectos de cambiar el contenido de algodón en la fuerza de tensión. Paso 2 - Definir el Factor y Niveles de Interés. Factor = % Volumen del Algodón Nivel = 15%, 20%, 25%, 30%, 35% Paso 3 – Definir el nivel Alfa (usualmente el 5%) Paso 4 - Definir el nivel Beta (usualmente 10 – 20 %) Paso 5 - Establecer el Tamaño del Efecto. Paso 6 - Establecer el Tamaño de la muestra. Recolectaremos 5 muestras para cada nivel de porcentaje de algodón. Paso 7 - Desarrollar el Plan de Muestreo. Para asegurar que no hay influencias debido a variables escondidas, el orden de las pruebas será en forma aleatoria, 25 corridas en total. Paso 8 - Seleccionar las muestras. Paso 9 - Conducir las pruebas con las muestras sel eccionadas. Introducimos los datos al Minitab.

Page 69: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

69

Note que hay 2 diferentes formas en las que se pueden capturar los datos en MINITAB: 1. Unstacked: (No apilados) Cada muestra está en su propia columna. (C1 a C5) 2. Stacked: (Apilados) Los datos de las muestras están en una columna y los del factor en otra columna. (C6 - C7) Nota: El método apilado es preferido porque se puede preservar el orden de observación de los datos. Paso 10 - Graficar los datos. Opciones: Stat � ANOVA � One-Way.

Page 70: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

70

Seleccionar la Tensión como Response y el % de Algodón como Factor, dejar el nivel de confianza al 95%

Clic en Graphs.

Page 71: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

71

Clic en Boxplots of data Clic OK

Clic OK en la ventana del One-Way Analysis of Variance.

3530252015

25

20

15

10

5

% de Algodón

Tensión

Boxplot of Tensión

¿Qué observaciones podemos hacer de los gráficos de caja? 1.- La respuesta se incremente al 30%, y disminuye al 35%. 2.- 25% y 30% parecen ser significativamente mayores que el 15% y 35% 3.- 30% esta significativamente más alto que 15%, 20%, 35%.

Page 72: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

72

Paso 11 - Construir la tabla ANOVA. Paso 12 - Calcular la prueba estadística (F) y su v alor asociado de p. One-way ANOVA: Tensión versus % de Algodón Source DF SS MS F P % de Algodón 4 475.76 118.94 14.76 0.000 Error 20 161.20 8.06 Total 24 636.96 S = 2.839 R-Sq = 74.69% R-Sq(adj) = 69.63% Source = Fuentes de variación. DF = Grados de libertad por fuente. SS = Suma de cuadrados (variación) por fuente. MS = Estimado de la varianza de cada fuente SS/df. F = Radio de F MS(% de Algodón)/MS(Error) P = Valor de P Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ------+---------+--------- +---------+--- 15 5 9.800 3.347 (-----*----) 20 5 15.400 3.130 (----*----) 25 5 17.600 2.074 (----*---- ) 30 5 21.600 2.608 (- ---*----) 35 5 10.800 2.864 (-----*----) ------+---------+--------- +---------+--- 10.0 15.0 20. 0 25.0 Paso 13 – Probar la hipótesis de medias iguales

• Hipótesis alterna, Ha: Al menos una media no es igual. • Prueba estadística: Cuadrados de la media del % de algodón 118.94

F = ----------------------------------- = ------ = 14.76 Cuadrados de la media del error 8.06

• P-value = probabilidad de observar la prueba estadística si Ho es verdadera = 0.000 • Como p-value es < 0.05, rechazamos la hipótesis nula Ho y concluimos que una o más

medias es diferente. Paso 14 - Revisar posibles violaciones a los supue stos. Cuando usamos ANOVA, hacemos los siguientes supuestos: Los residuales son:

o Independientes o Distribuidos de forma Normal o Con varianza igual

MINITAB es muy robusto para realizar estas pruebas.

Page 73: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

73

Seleccionar Four en 1 (4 en 1) para revisar Norma lidad, Varianzas iguales e Independencia.

Clic OK

5.02.50.0-2.5-5.0

99

90

50

10

1

Residual

Percent

20.017.515.012.510.0

5.0

2.5

0.0

-2.5

-5.0

Fitted Value

Residual

420-2-4

6.0

4.5

3.0

1.5

0.0

Residual

Frequency

24222018161412108642

5.0

2.5

0.0

-2.5

-5.0

Observation Order

Residual

Normal Probability Plot Versus Fits

Histogram Versus Order

Residual Plots for Tensión

Page 74: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

74

Paso 15 - Si Ho fue rechazada, determinar cual(es) media(s) son diferentes. Stat � ANOVA � One-Way… O Stat � ANOVA � One-Way (Unstacked) Selecciona Comparisons… Clic Fisher’s individual error rate: Captura un valor de 5 (para alfa igual a 5%)

Fisher 95% Individual Confidence Intervals All Pairwise Comparisons among Levels of % de Algod ón Simultaneous confidence level = 73.57% % de Algodón = 15 subtracted from: % de Algodón Lower Center Upper --------+--------- +---------+---------+- 20 1.855 5.600 9.345 (----*----) 25 4.055 7.800 11.545 (----*---) 30 8.055 11.800 15.545 (----*---) 35 -2.745 1.000 4.745 (-- -*----) --------+--------- +---------+---------+- -8.0 0. 0 8.0 16.0 % de Algodón = 20 subtracted from: % de Algodón Lower Center Upper --------+--------- +---------+---------+- 25 -1.545 2.200 5.945 (- ---*---) 30 2.455 6.200 9.945 (----*---) 35 -8.345 -4.600 -0.855 (---*----) --------+--------- +---------+---------+- -8.0 0. 0 8.0 16.0

Page 75: Correlación,  Series de Tiempo, Distribución Normal y ANOVA en Minitab 15

75

% de Algodón = 25 subtracted from: % de Algodón Lower Center Upper --------+-------- -+---------+---------+- 30 0.255 4.000 7.745 (----*----) 35 -10.545 -6.800 -3.055 (----*---) --------+-------- -+---------+---------+- -8.0 0 .0 8.0 16.0 % de Algodón = 30 subtracted from: % de Algodón Lower Center Upper --------+------- --+---------+---------+- 35 -14.545 -10.800 -7.055 (----*---) --------+------- --+---------+---------+- -8.0 0.0 8.0 16.0 Paso 16 – Verificar los resultados y trasladar la c onclusión estadística a una solución práctica.

• Conclusión estadística: Existe una diferencia significante entre las medias poblacionales. La media poblacional para el contenido de algodón de 30% es significativamente mayor que las medias poblacionales de los otros niveles de contenido de algodón.

•••• Solución práctica: Usaremos el 30% de contendido de algodón para la fibra sintética, lo cual proporcionará la máxima tensión, manteniendo al mismo tiempo las otras propiedades deseables.

Equipo integrado por: Ing. Gerardo Valdes Fuentes Ing. Rosa Isela Meléndez López Ing. Renato Elmer Vázquez García Lic. José Luis Chávez Dávila Maestría en Administración y Liderazgo. Universidad Autónoma del Noreste. 7.- Bibliografía:

•••• Estadística para Administradores, Richard I. Levin & David S. Rubin. Editorial Prentice Hall •••• www.wikipedia.com •••• http://www.monografias.com/trabajos30/regresion-correlacion/regresion-

correlacion.shtml?monosearch •••• http://www.uned.es/experto-metodos-avanzados/INGENIERIA1.pdf •••• http://espanol.geocities.com/jefranco_2000mx/anova1.htm •••• Minitab 15 (Versión de prueba obtenida de www.minitab.com). •••• MeetMinitabEs.pdf (Obtenido de www.minitab.com)