universidad nacional experimental de … statfolio. ambas funciones tienen asociado un icono en la...
TRANSCRIPT
UNIVERSIDAD NACIONAL EXPERIMENTAL DE TACHIRA. MINISTERIO DE EDUCACION SUPERIOR DEPARTAMENTO DE MATEMATICA Y FISICA. SAN CRISTOBAL/EDO. TACHIRA
“Tutorial sobre StatGraphics”
Análisis panadería
Br. Felipe Rivero 18878021
INTRODUCCIÓN
Es cada vez más generalizada la utilización de técnicas estadísticas para el análisis de
datos por parte de profesionales e investigadores provenientes de todos los ámbitos. Por otro
lado, la complejidad de los cálculos implícitos en muchos modelos matemáticos, así como la
creciente necesidad de manipulación de grandes volúmenes de datos, hacen del ordenador una
herramienta imprescindible en el análisis estadístico.
Es lógica, por lo tanto, la aparición de programas que permiten la realización sistemática,
en un entorno común, de distintos análisis estadísticos a partir de un sistema de comunicación
con la computadora conciso y sencillo para el usuario no especializado.
Entre ellos está STATGRAPHICS, un paquete de software para computadores personales
dirigido por menús que integra una gran variedad de análisis estadísticos y gráficos de alta
resolución.
Este tutorial trata sobre la Versión 5.1 PLUS en español para WINDOWS. En la Figura 1
podemos ver la ventana principal de la aplicación.
Figura 1
Las diferentes funciones y procedimientos se encuentran accesibles desde las opciones
de la Barra de Menú. Durante el curso, trataremos la creación, importación y manipulación de
archivos de datos, representación de gráficos, generación de estadísticas descriptivas,
estimación mediante intervalos de confianza y contrastes de hipótesis, y la aplicación de dos de
los modelos estadísticos más utilizados: Análisis de la Varianza y Regresión Lineal.
GENERALIDADES Entrada y salida del sistema.
Para entrar en STATGRAPHICS Plus debemos invocar el programa
SGWIN.EXE, bien ejecutándolo explícitamente o haciendo doble click sobre el icono
correspondiente. Para salir, seleccionar ARCHIVO…SALIR de STATGRAPHICS en la
Barra de Menú (ver siguiente sección) o, sencillamente, cerrar la ventana principal de la
aplicación.
La Ventana Principal de la aplicación.
Al entrar en la aplicación aparecerá la ventana principal que vimos en la Figura 1, sobre
la que trabajaremos mientras dure la sesión. Distinguimos en ella tres elementos que nos
permitirán comunicarnos con StatGraphics para realizar nuestros análisis: la Barra de Menú, la
Barra de Herramientas y la Barra de Tareas. Describimos a continuación cada uno de estos tres
elementos.
Como parte de la ventana principal de la aplicación, la Barra de Menú siempre estará
disponible para seleccionar la función o análisis deseados. Consta de diez palabras clave sobre
las que podemos picar con el ratón (Figura 2). Al hacerlo, se nos mostrará un menú emergente
con las opciones asociadas. Algunas de ellas (las marcadas con 4) despliegan a su vez un
submenú con nuevas opciones finales.
• Archivo: Las opciones de este menú permiten realizar operaciones de carácter
general como abrir (Abrir), cerrar (Cerrar) o grabar (Guardar, Guardar Como)
archivos, imprimir (Imprimir) o salir del sistema (Salir de Statgraphics) entre
otros.
• Edición: Como en otras aplicaciones en entorno Windows, este menú da acceso a
diferentes opciones de edición: deshacer la última acción (Deshacer Eliminar),
copiar, cortar y pegar (Cortar, Copiar, Pegar) y otras.
• Gráficos, Descripción, Comparación, Dependencia y Avanzado: Dan acceso a
los diferentes análisis estadísticos incorporados en STATGRAPHICS. Veremos
algunos de ellos en los capítulos posteriores. Los análisis asociados a Avanzado
(Control de Calidad, Diseño de Experimentos, Análisis de Series Temporales,
Métodos Multivariantes y Regresión Avanzada) quedan fuera del objetivo de
este curso.
• Ver, Ventana y Ayuda: Proporcionan funciones de formato y ayuda de manera
similar a otras aplicaciones en este entorno.
La Barra de Herramientas, que aparece en la Figura 3, simplemente asocia iconos con
algunas de las opciones más habituales de la barra de menú para proporcionar un acceso
más cómodo a las mismas. Señalando cualquiera de los iconos con el ratón aparecerá
una breve descripción de la función asociada en el borde inferior de la ventana principal
de la aplicación.
Figura 3
La Barra de Tareas (Figura 4) contiene iconos asociados a sub-ventanas que contendrán
elementos diversos como: archivos de datos, resultados de análisis efectuados sobre
ellos, comentarios personales e interpretaciones del sistema sobre dichos resultados, y
otros. Todos estos elementos formarán, conjuntamente, lo que conoceremos más
adelante por el nombre de StatFolio.
Figura 4
La Galería de Resultados (StatGallery)
Esta herramienta permite el almacenamiento de los resultados de uno o varios
análisis estadísticos, generando así una presentación organizada y personalizada de los
mismos. La ventana de StatGallery se compone de páginas cada una de las cuales
contiene 9 paneles organizados con estructura matricial (3x3). En ellas se pueden
almacenar hasta 100 salidas gráficas y un número ilimitado de salidas de texto
provenientes de los análisis ejecutados.
El concepto de StatFolio
Aunque ya lo hemos apuntado con anterioridad, describimos ahora con detalle el
concepto de StatFolio, una de las características más interesantes de STATGRAPHICS.
En la barra de tareas tendremos siempre cuatro ventanas activas desde que
comencemos la sesión. Dos se corresponden con el StatAdvisor y el StatGallery que ya
hemos comentado en los apartados anteriores. Otra, que en principio aparece con el
nombre de <sin nombre>, contendrá el archivos con los datos a analizar. La cuarta (Sin
Nombre Comentarios) está ideada para contener comentarios personales del usuario.
Como también hemos comentado anteriormente, generaremos un archivos de
datos (o abriremos uno ya generado) y efectuaremos sobre él uno o varios análisis. Cada
uno de estos análisis da lugar a una nueva ventana en la barra de tareas que contiene los
resultados del mismo.
Llamaremos StatFolio al conjunto formado por todos los elementos nombrados
anteriormente (archivos de datos, StatAdvisor, StatGallery, comentarios personales y
resultados de los análisis) que aparecerán en todo momento diferenciados en la barra de
tareas.
Podremos almacenar el conjunto bajo un único nombre (*.sgp) utilizando la
opción ARCHIVO…GUARDAR (COMO)… GUARDAR STATFOLIO (COMO) de la
barra de menú. Para abrir un StatFolio ya existente usaremos ARCHIVO… ABRIR…
ABRIR STATFOLIO. Ambas funciones tienen asociado un icono en la barra de
herramientas.
Al Guardar un StatFolio el sistema nos pedirá confirmación para grabar también
StatGallery (si no está vacío). En caso de contestar afirmativamente, se grabará en un
archivo separado con extensión sgg. Al abrir un StatFolio el sistema reconocerá y abrirá
automáticamente, si existe, el StatGallery asociado.
Conceptos
El conjunto de datos que queramos analizar con STATGRAPHICS ha de ser
almacenado en el sistema de una manera lógica y ordenada que permita su
reconocimiento y análisis. A estos conjuntos de información almacenados de manera
adecuada para STATGRAPHICS los llamaremos archivo de datos.
Llamaremos variable a un conjunto de mediciones de la misma característica en
determinados individuos de una población. Las variables se agrupan en columnas para
formar los archivos de datos.
Un archivo de datos es, por lo tanto, un conjunto de información estructurada en
forma matricial que contiene los valores de una o varias características medidas en
determinados individuos de una población.
Las columnas del archivo (variables) representan los valores de una
característica a lo largo de todos los individuos observados, mientras que las filas
representan los valores de todas las variables medidas en cada individuo. Es habitual
llamar a estas filas registros u observaciones.
Figura 7: Estructura matricial de un archivo de datos con n variables medidas en k
individuos. Cada elemento Cij del archivos representa el valor de la variable j en el
individuo i.
De acuerdo con la naturaleza de las características observadas podemos clasificar las
variables según la siguiente tipología:
Variables Categóricas: Son aquellas que reflejan características cuyos valores
no admiten una representación numérica con sentido pleno. El número de valores que
pueden toman es normalmente pequeño (siempre finito) dividiendo así a la población
bajo estudio en clases o
Categorías. Pueden subdividirse a su vez en:
Nominales: Sus valores son meros nombres que no admiten ningún tipo de
interpretación numérica. Por ejemplo, el sexo, la raza o la religión. Pueden codificarse
como números por comodidad (p.e. 1=Católico, 2=Protestante, 3=Musulmán, 4=Otras)
pero la asignación de números a categorías es totalmente arbitraria.
Ordinales: Las categorías que representan admiten una ordenación natural. Por
lo tanto admiten una representación numérica donde sólo tendrá sentido interpretar el
orden relativo entre los números que representan a distintas categorías. Así podemos
recoger la opinión de distintos consumidores sobre una nueva marca en el mercado con
una variable que tome los valores 0 (=Nada satisfactorio), 1 (=Poco satisfactorio), 2
(=Satisfactorio) y 3 (=Muy satisfactorio).
Variables Numéricas: Sus valores reflejan cantidades que admiten una
representación numérica con sentido pleno. Se subdividen en:
Discretas: La cantidad de valores distintos que pueden tomar es numerable (esto
no significa finito, aunque habitualmente lo sea). Los distintos valores son unidades
separadas (como categorías, pero con sentido numérico pleno). Como ejemplos, el año
de construcción de los edificios o el número de hijos de las familias.
Continuas: Pueden tomar infinitos valores en un intervalo continuo. La altura, el
peso o el nivel de colesterol son ejemplos de variables continuas.
STATGRAPHICS sólo puede trabajar con archivos que estén almacenados en un
formato propio (*.sf3). Existen dos formas de crear estos archivos: desde dentro de
STATGRAPHICS usando su propio editor, o importando archivos ya creados por otras
fuentes. A continuación detallamos ambos métodos.
Figura 8
En caso de querer importar un archivo, desplegamos el menú Tipo de Archivos y
elegimos el formato correspondiente a la fuente en que fueron grabados los datos. Los
archivos que existan con dicha extensión en el directorio indicado se mostrarán en la
pantalla y podremos seleccionar el que nos interesa. Vemos que los formatos que puede
importar STATGRAPHICS son: versiones anteriores del propio STATGRAPHICS
(*.asf), DIF (*.dif), dBASE (*.dbf), EXCEL (*.xls, excepto versión 97), LOTUS
(*.wk*), EXECUSTAT (*.edf) y ASCII. Para acceder a este último tipo de archivoss
seleccionaremos All Files (*.*), y el sistema interpretará como tal cualquier archivo con
extensión diferente a las anteriormente nombradas.
ESTADÍSTICA DESCRIPTIVA Conceptos
Las medidas recogidas y grabadas en un fichero de datos constituyen la
información básica disponible para el investigador. Sin embargo, la visión conjunta de
una gran cantidad de datos no nos permite extraer las características fundamentales del
conjunto en sí.
La Estadística Descriptiva trata de mostrar de una manera concisa y resumida los
aspectos fundamentales de un conjunto de datos. Esto supone el cálculo de medidas
centrales, la cuantificación de la dispersión general de los datos alrededor de las
mismas, la presentación resumida de los datos en forma de tablas y gráficos, la
detección de datos atípicos, grupaciones, tendencias, etc.
STATGRAPHICS proporciona un amplio número de métodos descriptivos agrupados
bajo la opción DESCRIBE de la barra de menú. El menú asociado, así como los
submenús que nos interesan.
Figura 9
Resumen estadístico
El análisis RESUMEN ESTADÍSTICO produce hasta 19 estadísticos asociados
a una variable de datos numéricos: media aritmética, varianza, desviación típica, error
estándar de la media, mediana, moda, media geométrica, mínimo, máximo, rango,
cuartil superior, cuartil inferior, rango intercuartílico, coeficientes (y coef.
estandarizados) de simetría y curtosis, coeficiente de variación y suma. Para acceder a él
seleccionamos el procedimiento DESCIRCIÓN… DATOS NUMÉRICOS…
ANÁLISIS UNIDIMENSIONAL.
StatGraphics En Acción:
Primero que todo debemos limpiar o llevar al formato de datos de StatGraphics,
esto es eliminando el enunciado y dejándolo en este formato:
Ahora Cargaremos los datos del archivo de Excel losdatosdeestadistica1.xlsx;
Lo que segundo que haremos es guardar el archivo losdatosdeestadistica1.xlsx como
archivo de .xls ya que esta versión 5.1 de StatGraphics no lee archivos de el paquete
office 2007 sino de anteriores.
Figura10
Ahora lo abrimos con StatGraphics, en archivo->abrir archivo de datos lo
seleccionamos y le damos a abrir:
Figura 11
Nos saldrá una nueva ventana y le damos aceptar o simplemente copiamos los datos del
Excel y los pegamos en el StatGraphics nos quedaría algo así:
Figura 12
Como podemos ver los nombres de las columnas no sabemos a que pertenecen,
podemos asignarle los nombres que queramos dándole doble clic en la columna:
Figura 13
Al terminar de asignarle los nombres a las columnas deberíamos tener algo así:
Figura 14
Análisis de los datos: Para entrar en este control debemos darle a Descripción->datos
numéricos->análisis unidimensional.
Figura 15
En esta sección vamos a analizar las variables numéricas seleccionaremos pesaje, le
damos al triangulillo negro :
Figura 16
En nuestro ejemplo sólo tenemos un campo obligatorio (Datos:) donde
indicaremos a qué variable queremos aplicar el análisis. Siempre aparecerá el campo
opcional Selección: donde podremos escribir una condición lógica que restrinja nuestro
análisis a las observaciones que la cumplan. También podemos utilizar el botón
Transformar para trabajar con transformaciones de las variables originales sin tener que
generarlas explícitamente en el archivo de datos como vimos en el apartado anterior. En
este caso la variable calculada sólo existirá temporalmente mientras se ejecuta el
procedimiento.
Ejecutamos el procedimiento con el botón Aceptar y nos aparece una ventana de
análisis con el título del análisis elegido. En ella aparece una nueva barra de
herramientas en la que los tres primeros iconos son de especial relevancia.
Figura 17
El primero de ellos (Entrada de Datos) vuelve a mostrar en cualquier momento
la pantalla de entrada de datos que ya conocemos por si queremos realizar alguna
modificación.
Los dos siguientes muestran pantallas con opciones que representan los distintos
análisis finales asociados al procedimiento elegido. Los análisis cuyos resultados se
muestran en formato textual se agrupan en el icono cuyo rótulo es Opciones Tabulares,
mientras que aquellos cuya salida se expresa en modo gráfico lo hacen en el
correspondiente a Opciones Gráficas. En la Figura 17 vemos todos los análisis finales
asociados al procedimiento Análisis Unidimensional.
Inicialmente siempre se ejecutará por defecto el Resumen de Procedimiento que
siempre aparecerá como primera opción en Opciones Tabulares, cuya salida contiene
simplemente información muy general, como cuáles son las variables seleccionadas y el
número de observaciones utilizadas (Figura 15). El resto de análisis que deseemos
debemos seleccionarlos explícitamente.
Otras graficas obtenidas con el botón Opciones Gráficas:
Ahora vamos a analizar la columna longitud:
Figura 18
Ahora veremos las frecuencias relativas: Tabla de Frecuencias para longitud ------------------------------------------------------------------------ Frecuencia Frecuencia Frecuencia Clase Valor Frecuencia Relativa Acumulativa Acum.Rel. ------------------------------------------------------------------------ 1 12,1 1 0,0167 1 0,0167 2 12,4 1 0,0167 2 0,0333 3 13 1 0,0167 3 0,0500 4 13,4 1 0,0167 4 0,0667 5 13,5 1 0,0167 5 0,0833 6 13,6 1 0,0167 6 0,1000 7 13,7 3 0,0500 9 0,1500 8 13,8 1 0,0167 10 0,1667 9 13,9 3 0,0500 13 0,2167 10 14 3 0,0500 16 0,2667 11 14,1 1 0,0167 17 0,2833
12 14,2 4 0,0667 21 0,3500 13 14,3 2 0,0333 23 0,3833 14 14,4 2 0,0333 25 0,4167 15 14,5 4 0,0667 29 0,4833 16 14,6 2 0,0333 31 0,5167 17 14,7 2 0,0333 33 0,5500 18 14,8 2 0,0333 35 0,5833 19 14,9 1 0,0167 36 0,6000 20 15 2 0,0333 38 0,6333 21 15,2 2 0,0333 40 0,6667 22 15,3 2 0,0333 42 0,7000 23 15,4 2 0,0333 44 0,7333 24 15,5 2 0,0333 46 0,7667 25 15,6 1 0,0167 47 0,7833 26 15,7 2 0,0333 49 0,8167 27 15,8 1 0,0167 50 0,8333 28 16,1 1 0,0167 51 0,8500 29 16,2 1 0,0167 52 0,8667 30 16,3 2 0,0333 54 0,9000 31 16,8 2 0,0333 56 0,9333 32 16,9 2 0,0333 58 0,9667 33 17 2 0,0333 60 1,0000 ------------------------------------------------------------------------ El StatAdvisor -------------- Esta tabla muestra el número de veces que ha ocurrido cada valor de longitud, así como los porcentajes y estadísticas acumuladas. Por ejemplo, en 1 filas del fichero de datos, longitud es igual a 12,1. Esto representa 1,66667% de los 60 valores del fichero. Las dos columnas más a la derecha proporcionan el recuento y porcentajes acumulativos de arriba a abajo de la tabla. Tabla de Frecuencias para pesaje ------------------------------------------------------------------------ Frecuencia Frecuencia Frecuencia Clase Valor Frecuencia Relativa Acumulativa Acum.Rel. ------------------------------------------------------------------------ 1 84,9 1 0,0167 1 0,0167 2 90 1 0,0167 2 0,0333 3 90,1 1 0,0167 3 0,0500 4 91,5 1 0,0167 4 0,0667 5 93,1 1 0,0167 5 0,0833 6 93,4 1 0,0167 6 0,1000 7 93,5 1 0,0167 7 0,1167
8 94,5 1 0,0167 8 0,1333 9 94,7 1 0,0167 9 0,1500 10 95,5 1 0,0167 10 0,1667 11 95,9 1 0,0167 11 0,1833 12 96,5 1 0,0167 12 0,2000 13 96,7 1 0,0167 13 0,2167 14 96,8 2 0,0333 15 0,2500 15 97 2 0,0333 17 0,2833 16 97,2 1 0,0167 18 0,3000 17 97,8 1 0,0167 19 0,3167 18 97,9 1 0,0167 20 0,3333 19 98,2 1 0,0167 21 0,3500 20 98,9 2 0,0333 23 0,3833 21 99,6 1 0,0167 24 0,4000 22 99,7 2 0,0333 26 0,4333 23 100 1 0,0167 27 0,4500 24 100,4 1 0,0167 28 0,4667 25 100,6 1 0,0167 29 0,4833 26 100,8 1 0,0167 30 0,5000 27 100,9 1 0,0167 31 0,5167 28 101,3 1 0,0167 32 0,5333 29 101,5 2 0,0333 34 0,5667 30 101,7 1 0,0167 35 0,5833 31 101,8 2 0,0333 37 0,6167 32 102 4 0,0667 41 0,6833 33 102,4 1 0,0167 42 0,7000 34 102,6 1 0,0167 43 0,7167 35 102,8 1 0,0167 44 0,7333 36 102,9 1 0,0167 45 0,7500 37 103,2 1 0,0167 46 0,7667 38 103,5 2 0,0333 48 0,8000 39 103,8 2 0,0333 50 0,8333 40 104,1 2 0,0333 52 0,8667 41 104,5 1 0,0167 53 0,8833 42 104,7 1 0,0167 54 0,9000 43 105,3 1 0,0167 55 0,9167 44 106,2 1 0,0167 56 0,9333 45 106,5 1 0,0167 57 0,9500 46 107,3 1 0,0167 58 0,9667 47 109,5 1 0,0167 59 0,9833 48 112,2 1 0,0167 60 1,0000 ------------------------------------------------------------------------ El StatAdvisor -------------- Esta tabla muestra el número de veces que ha ocurrido cada valor de pesaje, así como los porcentajes y estadísticas acumuladas. Por ejemplo, en 1 filas del fichero de datos, pesaje es igual a 84,9. Esto representa 1,66667% de
los 60 valores del fichero. Las dos columnas más a la derecha proporcionan el recuento y porcentajes acumulativos de arriba a abajo de la tabla.
Análisis por grupos
El procedimiento DESCRIPCIÓN…DATOS NUMÉRICOS…ANÁLISIS DE SUBGRUPO, permite realizar distintos análisis descriptivos simultáneamente para distintos subconjuntos de individuos. Los análisis que realiza son el cálculo de los mismos estadísticos que RESUMEN DE PROCEDIMIENTO, tablas de medias y una serie de gráficos con medias, intervalos de confianza y errores estándar por grupo. Esto nos permitirá observar las diferencias entre las diferentes medidas centrales y de dispersión de los grupos (OJO!!!, sin que nos permita inferir más allá del conjunto de individuos en el que se han recogido los datos).
Los grupos se definirán a partir de los valores de una variable secundaria
(Códigos, en la pantalla de entrada de datos) que pueden etiquetarse (campo Etiquetas).
Medición de longitud por día: Para ello vamos a ir a:
Aparecerá una ventana en la que debemos colocar en datos la longitud y en
claves los días de la semana.
Conclusiones:
• El pesaje obtiene una media bastante aproximada al valor real que se quiere su media fue de 99.98 gr contra el valor real 100 gr. Aunque la varianza ( 23,98%) y la desviación atípica (4,89) nos dan un margen de error mayor , que indica que los datos no son homogéneos indicando que hay una gran dispersión entre los extremos.
• En el caso de la longitud se obtiene aproximadamente al valor real que se quiere , siendo su media 14,79. Tuvo una varianza de 1,2 indicando que las medidas fueron homogéneas.
• Tanto el tamaño como el peso de los panes varían de día a día pero no hay diferencia entre los turnos.