universidad nacional experimental de … statfolio. ambas funciones tienen asociado un icono en la...

27
UNIVERSIDAD NACIONAL EXPERIMENTAL DE TACHIRA. MINISTERIO DE EDUCACION SUPERIOR DEPARTAMENTO DE MATEMATICA Y FISICA. SAN CRISTOBAL/EDO. TACHIRA “Tutorial sobre StatGraphics” Análisis panadería Br. Felipe Rivero 18878021

Upload: dinhthu

Post on 16-Oct-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

UNIVERSIDAD NACIONAL EXPERIMENTAL DE TACHIRA. MINISTERIO DE EDUCACION SUPERIOR DEPARTAMENTO DE MATEMATICA Y FISICA. SAN CRISTOBAL/EDO. TACHIRA

“Tutorial sobre StatGraphics”

Análisis panadería

Br. Felipe Rivero 18878021

INTRODUCCIÓN

Es cada vez más generalizada la utilización de técnicas estadísticas para el análisis de

datos por parte de profesionales e investigadores provenientes de todos los ámbitos. Por otro

lado, la complejidad de los cálculos implícitos en muchos modelos matemáticos, así como la

creciente necesidad de manipulación de grandes volúmenes de datos, hacen del ordenador una

herramienta imprescindible en el análisis estadístico.

Es lógica, por lo tanto, la aparición de programas que permiten la realización sistemática,

en un entorno común, de distintos análisis estadísticos a partir de un sistema de comunicación

con la computadora conciso y sencillo para el usuario no especializado.

Entre ellos está STATGRAPHICS, un paquete de software para computadores personales

dirigido por menús que integra una gran variedad de análisis estadísticos y gráficos de alta

resolución.

Este tutorial trata sobre la Versión 5.1 PLUS en español para WINDOWS. En la Figura 1

podemos ver la ventana principal de la aplicación.

Figura 1

Las diferentes funciones y procedimientos se encuentran accesibles desde las opciones

de la Barra de Menú. Durante el curso, trataremos la creación, importación y manipulación de

archivos de datos, representación de gráficos, generación de estadísticas descriptivas,

estimación mediante intervalos de confianza y contrastes de hipótesis, y la aplicación de dos de

los modelos estadísticos más utilizados: Análisis de la Varianza y Regresión Lineal.

GENERALIDADES Entrada y salida del sistema.

Para entrar en STATGRAPHICS Plus debemos invocar el programa

SGWIN.EXE, bien ejecutándolo explícitamente o haciendo doble click sobre el icono

correspondiente. Para salir, seleccionar ARCHIVO…SALIR de STATGRAPHICS en la

Barra de Menú (ver siguiente sección) o, sencillamente, cerrar la ventana principal de la

aplicación.

La Ventana Principal de la aplicación.

Al entrar en la aplicación aparecerá la ventana principal que vimos en la Figura 1, sobre

la que trabajaremos mientras dure la sesión. Distinguimos en ella tres elementos que nos

permitirán comunicarnos con StatGraphics para realizar nuestros análisis: la Barra de Menú, la

Barra de Herramientas y la Barra de Tareas. Describimos a continuación cada uno de estos tres

elementos.

Como parte de la ventana principal de la aplicación, la Barra de Menú siempre estará

disponible para seleccionar la función o análisis deseados. Consta de diez palabras clave sobre

las que podemos picar con el ratón (Figura 2). Al hacerlo, se nos mostrará un menú emergente

con las opciones asociadas. Algunas de ellas (las marcadas con 4) despliegan a su vez un

submenú con nuevas opciones finales.

• Archivo: Las opciones de este menú permiten realizar operaciones de carácter

general como abrir (Abrir), cerrar (Cerrar) o grabar (Guardar, Guardar Como)

archivos, imprimir (Imprimir) o salir del sistema (Salir de Statgraphics) entre

otros.

• Edición: Como en otras aplicaciones en entorno Windows, este menú da acceso a

diferentes opciones de edición: deshacer la última acción (Deshacer Eliminar),

copiar, cortar y pegar (Cortar, Copiar, Pegar) y otras.

• Gráficos, Descripción, Comparación, Dependencia y Avanzado: Dan acceso a

los diferentes análisis estadísticos incorporados en STATGRAPHICS. Veremos

algunos de ellos en los capítulos posteriores. Los análisis asociados a Avanzado

(Control de Calidad, Diseño de Experimentos, Análisis de Series Temporales,

Métodos Multivariantes y Regresión Avanzada) quedan fuera del objetivo de

este curso.

• Ver, Ventana y Ayuda: Proporcionan funciones de formato y ayuda de manera

similar a otras aplicaciones en este entorno.

La Barra de Herramientas, que aparece en la Figura 3, simplemente asocia iconos con

algunas de las opciones más habituales de la barra de menú para proporcionar un acceso

más cómodo a las mismas. Señalando cualquiera de los iconos con el ratón aparecerá

una breve descripción de la función asociada en el borde inferior de la ventana principal

de la aplicación.

Figura 3

La Barra de Tareas (Figura 4) contiene iconos asociados a sub-ventanas que contendrán

elementos diversos como: archivos de datos, resultados de análisis efectuados sobre

ellos, comentarios personales e interpretaciones del sistema sobre dichos resultados, y

otros. Todos estos elementos formarán, conjuntamente, lo que conoceremos más

adelante por el nombre de StatFolio.

Figura 4

La Galería de Resultados (StatGallery)

Esta herramienta permite el almacenamiento de los resultados de uno o varios

análisis estadísticos, generando así una presentación organizada y personalizada de los

mismos. La ventana de StatGallery se compone de páginas cada una de las cuales

contiene 9 paneles organizados con estructura matricial (3x3). En ellas se pueden

almacenar hasta 100 salidas gráficas y un número ilimitado de salidas de texto

provenientes de los análisis ejecutados.

El concepto de StatFolio

Aunque ya lo hemos apuntado con anterioridad, describimos ahora con detalle el

concepto de StatFolio, una de las características más interesantes de STATGRAPHICS.

En la barra de tareas tendremos siempre cuatro ventanas activas desde que

comencemos la sesión. Dos se corresponden con el StatAdvisor y el StatGallery que ya

hemos comentado en los apartados anteriores. Otra, que en principio aparece con el

nombre de <sin nombre>, contendrá el archivos con los datos a analizar. La cuarta (Sin

Nombre Comentarios) está ideada para contener comentarios personales del usuario.

Como también hemos comentado anteriormente, generaremos un archivos de

datos (o abriremos uno ya generado) y efectuaremos sobre él uno o varios análisis. Cada

uno de estos análisis da lugar a una nueva ventana en la barra de tareas que contiene los

resultados del mismo.

Llamaremos StatFolio al conjunto formado por todos los elementos nombrados

anteriormente (archivos de datos, StatAdvisor, StatGallery, comentarios personales y

resultados de los análisis) que aparecerán en todo momento diferenciados en la barra de

tareas.

Podremos almacenar el conjunto bajo un único nombre (*.sgp) utilizando la

opción ARCHIVO…GUARDAR (COMO)… GUARDAR STATFOLIO (COMO) de la

barra de menú. Para abrir un StatFolio ya existente usaremos ARCHIVO… ABRIR…

ABRIR STATFOLIO. Ambas funciones tienen asociado un icono en la barra de

herramientas.

Al Guardar un StatFolio el sistema nos pedirá confirmación para grabar también

StatGallery (si no está vacío). En caso de contestar afirmativamente, se grabará en un

archivo separado con extensión sgg. Al abrir un StatFolio el sistema reconocerá y abrirá

automáticamente, si existe, el StatGallery asociado.

Conceptos

El conjunto de datos que queramos analizar con STATGRAPHICS ha de ser

almacenado en el sistema de una manera lógica y ordenada que permita su

reconocimiento y análisis. A estos conjuntos de información almacenados de manera

adecuada para STATGRAPHICS los llamaremos archivo de datos.

Llamaremos variable a un conjunto de mediciones de la misma característica en

determinados individuos de una población. Las variables se agrupan en columnas para

formar los archivos de datos.

Un archivo de datos es, por lo tanto, un conjunto de información estructurada en

forma matricial que contiene los valores de una o varias características medidas en

determinados individuos de una población.

Las columnas del archivo (variables) representan los valores de una

característica a lo largo de todos los individuos observados, mientras que las filas

representan los valores de todas las variables medidas en cada individuo. Es habitual

llamar a estas filas registros u observaciones.

Figura 7: Estructura matricial de un archivo de datos con n variables medidas en k

individuos. Cada elemento Cij del archivos representa el valor de la variable j en el

individuo i.

De acuerdo con la naturaleza de las características observadas podemos clasificar las

variables según la siguiente tipología:

Variables Categóricas: Son aquellas que reflejan características cuyos valores

no admiten una representación numérica con sentido pleno. El número de valores que

pueden toman es normalmente pequeño (siempre finito) dividiendo así a la población

bajo estudio en clases o

Categorías. Pueden subdividirse a su vez en:

Nominales: Sus valores son meros nombres que no admiten ningún tipo de

interpretación numérica. Por ejemplo, el sexo, la raza o la religión. Pueden codificarse

como números por comodidad (p.e. 1=Católico, 2=Protestante, 3=Musulmán, 4=Otras)

pero la asignación de números a categorías es totalmente arbitraria.

Ordinales: Las categorías que representan admiten una ordenación natural. Por

lo tanto admiten una representación numérica donde sólo tendrá sentido interpretar el

orden relativo entre los números que representan a distintas categorías. Así podemos

recoger la opinión de distintos consumidores sobre una nueva marca en el mercado con

una variable que tome los valores 0 (=Nada satisfactorio), 1 (=Poco satisfactorio), 2

(=Satisfactorio) y 3 (=Muy satisfactorio).

Variables Numéricas: Sus valores reflejan cantidades que admiten una

representación numérica con sentido pleno. Se subdividen en:

Discretas: La cantidad de valores distintos que pueden tomar es numerable (esto

no significa finito, aunque habitualmente lo sea). Los distintos valores son unidades

separadas (como categorías, pero con sentido numérico pleno). Como ejemplos, el año

de construcción de los edificios o el número de hijos de las familias.

Continuas: Pueden tomar infinitos valores en un intervalo continuo. La altura, el

peso o el nivel de colesterol son ejemplos de variables continuas.

STATGRAPHICS sólo puede trabajar con archivos que estén almacenados en un

formato propio (*.sf3). Existen dos formas de crear estos archivos: desde dentro de

STATGRAPHICS usando su propio editor, o importando archivos ya creados por otras

fuentes. A continuación detallamos ambos métodos.

Figura 8

En caso de querer importar un archivo, desplegamos el menú Tipo de Archivos y

elegimos el formato correspondiente a la fuente en que fueron grabados los datos. Los

archivos que existan con dicha extensión en el directorio indicado se mostrarán en la

pantalla y podremos seleccionar el que nos interesa. Vemos que los formatos que puede

importar STATGRAPHICS son: versiones anteriores del propio STATGRAPHICS

(*.asf), DIF (*.dif), dBASE (*.dbf), EXCEL (*.xls, excepto versión 97), LOTUS

(*.wk*), EXECUSTAT (*.edf) y ASCII. Para acceder a este último tipo de archivoss

seleccionaremos All Files (*.*), y el sistema interpretará como tal cualquier archivo con

extensión diferente a las anteriormente nombradas.

ESTADÍSTICA DESCRIPTIVA Conceptos

Las medidas recogidas y grabadas en un fichero de datos constituyen la

información básica disponible para el investigador. Sin embargo, la visión conjunta de

una gran cantidad de datos no nos permite extraer las características fundamentales del

conjunto en sí.

La Estadística Descriptiva trata de mostrar de una manera concisa y resumida los

aspectos fundamentales de un conjunto de datos. Esto supone el cálculo de medidas

centrales, la cuantificación de la dispersión general de los datos alrededor de las

mismas, la presentación resumida de los datos en forma de tablas y gráficos, la

detección de datos atípicos, grupaciones, tendencias, etc.

STATGRAPHICS proporciona un amplio número de métodos descriptivos agrupados

bajo la opción DESCRIBE de la barra de menú. El menú asociado, así como los

submenús que nos interesan.

Figura 9

Resumen estadístico

El análisis RESUMEN ESTADÍSTICO produce hasta 19 estadísticos asociados

a una variable de datos numéricos: media aritmética, varianza, desviación típica, error

estándar de la media, mediana, moda, media geométrica, mínimo, máximo, rango,

cuartil superior, cuartil inferior, rango intercuartílico, coeficientes (y coef.

estandarizados) de simetría y curtosis, coeficiente de variación y suma. Para acceder a él

seleccionamos el procedimiento DESCIRCIÓN… DATOS NUMÉRICOS…

ANÁLISIS UNIDIMENSIONAL.

StatGraphics En Acción:

Primero que todo debemos limpiar o llevar al formato de datos de StatGraphics,

esto es eliminando el enunciado y dejándolo en este formato:

Ahora Cargaremos los datos del archivo de Excel losdatosdeestadistica1.xlsx;

Lo que segundo que haremos es guardar el archivo losdatosdeestadistica1.xlsx como

archivo de .xls ya que esta versión 5.1 de StatGraphics no lee archivos de el paquete

office 2007 sino de anteriores.

Figura10

Ahora lo abrimos con StatGraphics, en archivo->abrir archivo de datos lo

seleccionamos y le damos a abrir:

Figura 11

Nos saldrá una nueva ventana y le damos aceptar o simplemente copiamos los datos del

Excel y los pegamos en el StatGraphics nos quedaría algo así:

Figura 12

Como podemos ver los nombres de las columnas no sabemos a que pertenecen,

podemos asignarle los nombres que queramos dándole doble clic en la columna:

Figura 13

Al terminar de asignarle los nombres a las columnas deberíamos tener algo así:

Figura 14

Análisis de los datos: Para entrar en este control debemos darle a Descripción->datos

numéricos->análisis unidimensional.

Figura 15

En esta sección vamos a analizar las variables numéricas seleccionaremos pesaje, le

damos al triangulillo negro :

Figura 16

En nuestro ejemplo sólo tenemos un campo obligatorio (Datos:) donde

indicaremos a qué variable queremos aplicar el análisis. Siempre aparecerá el campo

opcional Selección: donde podremos escribir una condición lógica que restrinja nuestro

análisis a las observaciones que la cumplan. También podemos utilizar el botón

Transformar para trabajar con transformaciones de las variables originales sin tener que

generarlas explícitamente en el archivo de datos como vimos en el apartado anterior. En

este caso la variable calculada sólo existirá temporalmente mientras se ejecuta el

procedimiento.

Ejecutamos el procedimiento con el botón Aceptar y nos aparece una ventana de

análisis con el título del análisis elegido. En ella aparece una nueva barra de

herramientas en la que los tres primeros iconos son de especial relevancia.

Figura 17

El primero de ellos (Entrada de Datos) vuelve a mostrar en cualquier momento

la pantalla de entrada de datos que ya conocemos por si queremos realizar alguna

modificación.

Los dos siguientes muestran pantallas con opciones que representan los distintos

análisis finales asociados al procedimiento elegido. Los análisis cuyos resultados se

muestran en formato textual se agrupan en el icono cuyo rótulo es Opciones Tabulares,

mientras que aquellos cuya salida se expresa en modo gráfico lo hacen en el

correspondiente a Opciones Gráficas. En la Figura 17 vemos todos los análisis finales

asociados al procedimiento Análisis Unidimensional.

Inicialmente siempre se ejecutará por defecto el Resumen de Procedimiento que

siempre aparecerá como primera opción en Opciones Tabulares, cuya salida contiene

simplemente información muy general, como cuáles son las variables seleccionadas y el

número de observaciones utilizadas (Figura 15). El resto de análisis que deseemos

debemos seleccionarlos explícitamente.

Otras graficas obtenidas con el botón Opciones Gráficas:

Ahora vamos a analizar la columna longitud:

Figura 18

Ahora veremos las frecuencias relativas: Tabla de Frecuencias para longitud ------------------------------------------------------------------------ Frecuencia Frecuencia Frecuencia Clase Valor Frecuencia Relativa Acumulativa Acum.Rel. ------------------------------------------------------------------------ 1 12,1 1 0,0167 1 0,0167 2 12,4 1 0,0167 2 0,0333 3 13 1 0,0167 3 0,0500 4 13,4 1 0,0167 4 0,0667 5 13,5 1 0,0167 5 0,0833 6 13,6 1 0,0167 6 0,1000 7 13,7 3 0,0500 9 0,1500 8 13,8 1 0,0167 10 0,1667 9 13,9 3 0,0500 13 0,2167 10 14 3 0,0500 16 0,2667 11 14,1 1 0,0167 17 0,2833

12 14,2 4 0,0667 21 0,3500 13 14,3 2 0,0333 23 0,3833 14 14,4 2 0,0333 25 0,4167 15 14,5 4 0,0667 29 0,4833 16 14,6 2 0,0333 31 0,5167 17 14,7 2 0,0333 33 0,5500 18 14,8 2 0,0333 35 0,5833 19 14,9 1 0,0167 36 0,6000 20 15 2 0,0333 38 0,6333 21 15,2 2 0,0333 40 0,6667 22 15,3 2 0,0333 42 0,7000 23 15,4 2 0,0333 44 0,7333 24 15,5 2 0,0333 46 0,7667 25 15,6 1 0,0167 47 0,7833 26 15,7 2 0,0333 49 0,8167 27 15,8 1 0,0167 50 0,8333 28 16,1 1 0,0167 51 0,8500 29 16,2 1 0,0167 52 0,8667 30 16,3 2 0,0333 54 0,9000 31 16,8 2 0,0333 56 0,9333 32 16,9 2 0,0333 58 0,9667 33 17 2 0,0333 60 1,0000 ------------------------------------------------------------------------ El StatAdvisor -------------- Esta tabla muestra el número de veces que ha ocurrido cada valor de longitud, así como los porcentajes y estadísticas acumuladas. Por ejemplo, en 1 filas del fichero de datos, longitud es igual a 12,1. Esto representa 1,66667% de los 60 valores del fichero. Las dos columnas más a la derecha proporcionan el recuento y porcentajes acumulativos de arriba a abajo de la tabla. Tabla de Frecuencias para pesaje ------------------------------------------------------------------------ Frecuencia Frecuencia Frecuencia Clase Valor Frecuencia Relativa Acumulativa Acum.Rel. ------------------------------------------------------------------------ 1 84,9 1 0,0167 1 0,0167 2 90 1 0,0167 2 0,0333 3 90,1 1 0,0167 3 0,0500 4 91,5 1 0,0167 4 0,0667 5 93,1 1 0,0167 5 0,0833 6 93,4 1 0,0167 6 0,1000 7 93,5 1 0,0167 7 0,1167

8 94,5 1 0,0167 8 0,1333 9 94,7 1 0,0167 9 0,1500 10 95,5 1 0,0167 10 0,1667 11 95,9 1 0,0167 11 0,1833 12 96,5 1 0,0167 12 0,2000 13 96,7 1 0,0167 13 0,2167 14 96,8 2 0,0333 15 0,2500 15 97 2 0,0333 17 0,2833 16 97,2 1 0,0167 18 0,3000 17 97,8 1 0,0167 19 0,3167 18 97,9 1 0,0167 20 0,3333 19 98,2 1 0,0167 21 0,3500 20 98,9 2 0,0333 23 0,3833 21 99,6 1 0,0167 24 0,4000 22 99,7 2 0,0333 26 0,4333 23 100 1 0,0167 27 0,4500 24 100,4 1 0,0167 28 0,4667 25 100,6 1 0,0167 29 0,4833 26 100,8 1 0,0167 30 0,5000 27 100,9 1 0,0167 31 0,5167 28 101,3 1 0,0167 32 0,5333 29 101,5 2 0,0333 34 0,5667 30 101,7 1 0,0167 35 0,5833 31 101,8 2 0,0333 37 0,6167 32 102 4 0,0667 41 0,6833 33 102,4 1 0,0167 42 0,7000 34 102,6 1 0,0167 43 0,7167 35 102,8 1 0,0167 44 0,7333 36 102,9 1 0,0167 45 0,7500 37 103,2 1 0,0167 46 0,7667 38 103,5 2 0,0333 48 0,8000 39 103,8 2 0,0333 50 0,8333 40 104,1 2 0,0333 52 0,8667 41 104,5 1 0,0167 53 0,8833 42 104,7 1 0,0167 54 0,9000 43 105,3 1 0,0167 55 0,9167 44 106,2 1 0,0167 56 0,9333 45 106,5 1 0,0167 57 0,9500 46 107,3 1 0,0167 58 0,9667 47 109,5 1 0,0167 59 0,9833 48 112,2 1 0,0167 60 1,0000 ------------------------------------------------------------------------ El StatAdvisor -------------- Esta tabla muestra el número de veces que ha ocurrido cada valor de pesaje, así como los porcentajes y estadísticas acumuladas. Por ejemplo, en 1 filas del fichero de datos, pesaje es igual a 84,9. Esto representa 1,66667% de

los 60 valores del fichero. Las dos columnas más a la derecha proporcionan el recuento y porcentajes acumulativos de arriba a abajo de la tabla.

Análisis por grupos

El procedimiento DESCRIPCIÓN…DATOS NUMÉRICOS…ANÁLISIS DE SUBGRUPO, permite realizar distintos análisis descriptivos simultáneamente para distintos subconjuntos de individuos. Los análisis que realiza son el cálculo de los mismos estadísticos que RESUMEN DE PROCEDIMIENTO, tablas de medias y una serie de gráficos con medias, intervalos de confianza y errores estándar por grupo. Esto nos permitirá observar las diferencias entre las diferentes medidas centrales y de dispersión de los grupos (OJO!!!, sin que nos permita inferir más allá del conjunto de individuos en el que se han recogido los datos).

Los grupos se definirán a partir de los valores de una variable secundaria

(Códigos, en la pantalla de entrada de datos) que pueden etiquetarse (campo Etiquetas).

Medición de longitud por día: Para ello vamos a ir a:

Aparecerá una ventana en la que debemos colocar en datos la longitud y en

claves los días de la semana.

Ahora vamos a realizar el análisis de longitud por turno.

Ahora vamos a realizar el análisis de peso por turno.

Análisis de peso por Tipo de pan.

Análisis de longitud por Tipo de pan.

Conclusiones:

• El pesaje obtiene una media bastante aproximada al valor real que se quiere su media fue de 99.98 gr contra el valor real 100 gr. Aunque la varianza ( 23,98%) y la desviación atípica (4,89) nos dan un margen de error mayor , que indica que los datos no son homogéneos indicando que hay una gran dispersión entre los extremos.

• En el caso de la longitud se obtiene aproximadamente al valor real que se quiere , siendo su media 14,79. Tuvo una varianza de 1,2 indicando que las medidas fueron homogéneas.

• Tanto el tamaño como el peso de los panes varían de día a día pero no hay diferencia entre los turnos.