manual principal

STATPOINT, Inc.

STATGRAPHICS® Centurion XV

Manual del Usuario

STATGRAPHICS® CENTURION XV MANUAL DEL USUARIO © 2006 by StatPoint, Inc. www.statgraphics.com Todos los derechos reservados. No está permitido la reproducción total o parcial de esta obra, ni su tratamiento o transmisión por cualquier medio o método, sin la autorización escrita o consentimiento de StatPoint, Inc. Título en Inglés: STATGRAPHICS® Centurion XV User Manual STATGRAPHICS es una marca registrada. STATGRAPHICS Centurion XV, StatPoint, StatFolio, StatGallery, StatReporter, StatPublish, StatWizard, StatLink y SnapStats son marcas regsitradas. Todos los productos o servicios mencionados en este libro son marcas registradas de sus respectivos dueños.

Impreso en los Estados Unidos de Norteamérica.

iii / Contenido

Contenido Contenido ...........................................................................................................................iii Prefacio.............................................................................................................................. vii Comenzando a Usar el Statgraphics ................................................................................... 1

1.1 Instalación.......................................................................................................................................... 1 1.2 Ejecutando el Programa .................................................................................................................. 6 1.3 Captura de Datos............................................................................................................................11 1.4 Leer un Archivo de Datos Guardaro...........................................................................................17 1.5 Analizando los Datos.....................................................................................................................19 1.6 Usando la Barra de Herramientas de Análisis ............................................................................23 1.7 Diseminando los Resultados.........................................................................................................29 1.8 Guardando su Trabajo...................................................................................................................30

Manejo de Datos ................................................................................................................31 2.1 El Libro de Datos...........................................................................................................................32 2.2 Acceso a los datos ..........................................................................................................................35

2.2.1 Leyendo Datos de un Archivo STATGRAPHICS Centurion..........................................35 2.2.2 Leyendo Datos de un Archivo Excel, ASCII, XML o Externo .......................................37 2.2.3 Transferir Datos usando Copiar y Pegar..............................................................................39 2.2.4 Consultando una Base de Datos ODBC..............................................................................40

2.3 Manipulando los Datos..................................................................................................................40 2.3.1 Copiando y Pegando Datos ...................................................................................................41 2.3.2 Creando Nuevas Variables desde Columnas Existentes....................................................41 2.3.3 Transformando Datos ............................................................................................................45 2.3.4 Ordenando Datos....................................................................................................................49 2.3.5 Recodificando Datos...............................................................................................................50 2.3.6 Combinando Varias Columnas..............................................................................................51

2.4 Generación de Datos .....................................................................................................................56 2.4.1 Generando Patrones de Datos ..............................................................................................56 2.4.2 Generando Números Aleatorios ...........................................................................................59

2.5 Propiedades del Libro de Datos ...................................................................................................60 Elaborando Análisis Estadísticos ..................................................................................... 62

3.1 Cuadros de Diálogo para Captura de Datos...............................................................................64 3.2 Ventana de Análisis ........................................................................................................................66

3.2.1 Ícono Captura de Datos .........................................................................................................67

iv / Contenido

3.2.2 Ícono de Tablas ....................................................................................................................... 68 3.2.3 Ícono de Gráficas .................................................................................................................... 69 3.2.4 Ícono para Guardar Resultados............................................................................................. 70 3.2.5 Ícono de Opciones de Análisis.............................................................................................. 72 3.2.6 Ícono de Opciones de Ventana............................................................................................. 73 3.2.7 Íconos de Opciones Gráficas ................................................................................................ 75 3.2.8 Ícono de Excluir ...................................................................................................................... 76

3.3 Imprimiendo Resultados ............................................................................................................... 77 3.4 Publicando Resultados................................................................................................................... 80

Gráficas...............................................................................................................................81 4.1 Modificando Gráficas .................................................................................................................... 82

4.1.1 Opciones de Diseño................................................................................................................ 83 4.1.2 Opciones de Mallas ................................................................................................................. 85 4.1.3 Opciones de Líneas ................................................................................................................. 87 4.1.4 Opciones de Puntos ................................................................................................................ 89 4.1.5 Opciones del Título Principal................................................................................................ 91 4.1.6 Opciones de Escalas de los Ejes ........................................................................................... 93 4.1.7 Opciones de Relleno ............................................................................................................... 95 4.1.8 Opciones de Texto, Etiquetas y Leyendas........................................................................... 96 4.1.9 Añadir Texto Nuevo............................................................................................................... 96

4.2 Separando Puntos en un Gráfico de Dispersión ....................................................................... 98 4.3 Resaltando Puntos en un Gráfico de Dispersión ...................................................................... 99 4.4 Suavizando un Gráfico de Dispersión ......................................................................................102 4.5 Identificando Puntos.................................................................................................................... 103 4.6 Copiando Gráficas a otras Aplicaciones ...................................................................................107 4.7 Guardando Gráficas como Archivos de Imágen.....................................................................108

StatFolios.......................................................................................................................... 110 5.1 Guardando su Sesión de Trabajo............................................................................................... 110 5.2 Rutinas del StatFolio .................................................................................................................... 112 5.3 Actualizando Datos Vinculados................................................................................................. 115 5.4 Publicando Datos en Formato HTML .....................................................................................116

Usando el StatGallery....................................................................................................... 119 6.1 Configurando una página del StatGallery .................................................................................119 6.2 Copiando Gráficas al StatGallery............................................................................................... 121 6.3 Sobreponiendo Gráficas.............................................................................................................. 122 6.4 Modificando una Gráfica dentro del StatGallery.....................................................................123

6.4.1 Añadiendo Detalles Gráficos............................................................................................... 123 6.4.2 Modificando Detalles Gráficos ...........................................................................................124 6.4.3 Eliminando Detalles Gráficos .............................................................................................124

v / Contenido

6.5 Imprimiendo el StatGallery.........................................................................................................125 Usando el StatReporter .................................................................................................... 126

7.1 La Ventana StatReporter ............................................................................................................126 7.2 Copiando la Salida al StatReporter.............................................................................................127 7.3 Modificando la Salida del StatReporter .....................................................................................128 7.4 Guardando el StatReporter .........................................................................................................128

Usando el StatWizard .......................................................................................................129 8.1 Accesando Datos o Creando un Nuevo Estudio ....................................................................130 8.2 Seleccionando un Análisis para sus Datos ................................................................................134 8.3 Buscando por Pruebas y Estadísticas Deseadas.......................................................................139

Preferencias del Sistema...................................................................................................142 9.1 Funcionalidad General del Sistema............................................................................................142 9.2 Imprimiendo..................................................................................................................................145 9.3 Gráficas ..........................................................................................................................................146

Tutorial #1: Analizando una Muestra ..............................................................................148 10.1 Ejecutando el Procedimiento Análisis de Una Variable .......................................................149 10.2 Resumen Estadístico..................................................................................................................151 10.3 Gráfico de Caja y Bigotes..........................................................................................................155 10.4 Evaluando Datos Aberrantes ...................................................................................................157 10.5 Histograma ..................................................................................................................................161 10.6 Gráfico de Cuantiles y Percentiles ...........................................................................................165 10.7 Intervalos de Confianza.............................................................................................................166 10.9 Límites de Tolerancia.................................................................................................................170

Tutorial #2: Comparando Dos Muestras.........................................................................173 11.1 Ejecutando el Procedimiento de Comparación de dos Muestras........................................173 11.2 Resumen Estadístico..................................................................................................................175 11.3 Histograma Dual ........................................................................................................................176 11.4 Gráfico Dual de Caja y Bigotes ................................................................................................177 11.5 Comparando Desviaciones Estándar ......................................................................................179 11.6 Comparando Medias ..................................................................................................................180 11.7 Comparando Medianas..............................................................................................................181 11.8 Gráfico de Cuantiles ..................................................................................................................182 11.9 Prueba de Kolmogorov-Smirnov.............................................................................................183 11.10 Gráfico Cuantil-Cuantil ...........................................................................................................184

Tutorial #3: Comparando más de Dos Muestras ............................................................185 12.1 Ejecutando Comparación de Varias Muestras .......................................................................186 12.2 Análisis de Varianza ...................................................................................................................190 12.3 Comparando Medias ..................................................................................................................192 12.4 Comparando Medianas..............................................................................................................194

vi / Contenido

12.5 Comparando Desviaciones Estándar ......................................................................................196 12.6 Gráficos de Residuos ................................................................................................................. 196 12.7 Gráfico Análisis de Medias (ANOM)......................................................................................198

Tutorial #4: Análisis de Regresión .................................................................................. 199 13.1 Análisis de Correlación.............................................................................................................. 200 13.2 Regresión Simple........................................................................................................................ 204 13.3 Ajustando un Modelo No Lineal .............................................................................................207 13.4 Examinando los Residuos......................................................................................................... 209 13.5 Regresión Múltiple ..................................................................................................................... 211

Tutorial #5: Analizando Datos Categóricos ....................................................................220 14.1 Resumir Datos Categóricos ...................................................................................................... 221 14.2 Análisis de Pareto ....................................................................................................................... 222 14.3 Tabulación Cruzada ................................................................................................................... 225 14.4 Comparando Dos o Más Muestras..........................................................................................231 14.5 Tablas de Contingencia ............................................................................................................. 235

Tutorial #6: Análisis Capabilidad de Procesos ...............................................................237 15.1 Graficando los Datos................................................................................................................. 238 15.2 Procedimiento Análisis de Capabilidad...................................................................................240 15.3 Trabajando con Datos No-Normales .....................................................................................243 15.4 Índices de Capabilidad............................................................................................................... 251 15.5 Calculadora Seis Sigma .............................................................................................................. 254

Tutorial #7: Diseño de Experimentos .............................................................................257 16.1 Seleccionando Diseños de Cribado .........................................................................................258 16.2 Creando el Diseño...................................................................................................................... 262 16.3 Analizando los Resultados ........................................................................................................ 269 16.4 Graficando el Modelo Ajustado............................................................................................... 277 16.5 Optimizando la Respuesta ........................................................................................................ 281 16.6 Experimentación Adicional ...................................................................................................... 282

Lecturas Recomendadas..................................................................................................285 Archivos de Datos ............................................................................................................286 Indice................................................................................................................................287

vii / Prefacio

Prefacio Este manual está diseñado para enseñar a los usuarios del STATGRAPHICS Centurion XV la operación básica del programa y su uso en el análisis de datos. Ofrece una visión general del sistema, incluyendo la instalación, el manejo de datos, la creación de análisis estadísticos y la impresión y publicación de resultados. Debido a que la intención del libro es agilizar el aprendizaje del programa, este se enfoca en explicar las características más importantes del programa, más que en abarcar hasta el más mínimo detalle del mismo. El menú de Ayuda incluído en el STATGRAPHICS Centurion XV dá acceso a una extensa cantidad de información adicional, incluyendo archivos PDF independientes para cada uno de los aproximadamente 150 procedimientos estadísticos existentes.

Los primeros nueve capítulos comprenden el uso básico del programa. Aunque posiblemente ud. pudiera ingeniárselas para entender la mayoría de este material al estar usando el programa por su cuenta, el leer estos capítulos le ayudarán a lograrlo más rápidamente además de asegurarse no pasar por alto ciertas características de vital importancia.

Los últimos siete capítulos incluyen tutoriales cuyo propósito es:

1. Introducir al usuario con algunos de los análisis estadísticos más comunes.

2. Ilustrar como las características exclusivas del STATGRAPHICS Centurion facilitan el proceso del análisis de datos.

Se recomienda revisar los tutoriales, debido a que le pueden proporcionar una buena idea de optimizer el uso del STATGRAPHICS Centurion para analizar sus datos.

NOTA: una copia de este manual en formato PDF se incluye en el CD del programa y puede ser accesado desde el menú de Ayuda. En el documento PDF, todas las gráficas están a color. Los archivos de datos y los StatFolios referenciados en el manual también se incluyen en el programa.

StatPoint, Inc. July, 2006

viii / Prefacio

1/ Comenzando

Comenzando a Usar el Statgraphics Instalación del STATGRAPHICS Centurion XV,iniciando el programa y creando un archivo de datos básico.

1.1 Instalación STATGRAPHICS Centurion se distribuye de dos maneras: desde Internet, bajando un solo archivo que debe descargarse en su computadora, o como un conjunto de archivos en un CD-ROM. Para ejecutar el programa, este debe ser instalado en el disco duro. Como en la mayoría de los programas de Windows, la instalación es muy sencilla: Paso 1: Si recibió el programa en un CD, inserte el CD en el manejador del CD-ROM. Después de unos segundos, se iniciará automáticamente el programa de instalación. En caso contrario, abra el Explorador de Windows y ejecute el archivo setup.exe en el directorio raíz correspondiente al CD-ROM. Si descargó el programa desde Internet, encuentre el archivo descargado y haga doble-clic sobre el mismo para iniciar el proceso de instalación. Paso 2: Sucesivas ventanas de diálogo aparecerán en la pantalla. La primera le dá la bienvenida al STATGRAPHICS Centurion. Solo pulse el botón Siguiente.

Capítulo

1

2/ Comenzando

Paso 3: La segunda ventana muestra el contrato de licencia del sofware:

Figura 1-1. Aceptación del Contrato de Licencia

Lea este contrato con cuidado. Si acepta los terminos del mismo, haga clic en la opción indicada y presione Siguiente para continuar. Si no esta de acuerdo, presione Cancelar. Si no aceptó las condiciones del contrato, entonces no podrá hacer uso del programa.

3/ Comenzando

Paso 4: La siguiente ventana le solicitará la información sus datos personales y el número de serie que le fué asignado al comprar el programa:

Figura 1-2. Ventana de Información del Usuario

Capture la información solicitada. Si aún no ha comprado el programa, deje los espacios del número de serie en blanco. El programa automáticamente se ejecutará en modo de evaluación por 30 días desde que lo instala por primera vez en su computadora. Después de los 30 días, debe comprar la licencia del producto para poder seguir usando el programa. Una vez que la licencia de evaluación vence, solo el administrador de la licencia aparecerá.

4/ Comenzando

Paso 5: La siguiente ventana indica el directorio en donde el programa será instalado:

Figura 1-3. Carpeta de Instalación

En forma predeterminada, el STATGRAPHICS Centurion se instala en el subdirectorio STATGRAPHICS Centurion XV de Archivos de Programas. Si está instalando el programa en un servidor de red, instálelo en cualquier lugar en donde los usuarios potenciales tengan privilegios de lectura. No es necesario que los usuarios tengan privilegios de escritura. Consulte la página de Support en www.statgraphics.com para obtener las instrucciones completas para instalar el programa en redes.

5/ Comenzando

Paso 6: La siguiente ventana de diálogo le permite especificar el tipo de instalación a efectuar:

Figura 1-4. Tipo de Instalación

Seleccione una de las siguientes opciones:

Típica – instala el programa, los archivos de ayuda, la documentación y archivos muestra de datos. Esto requiere un poco más de 50MB de espacio en su disco duro. Mínima – solo instala el programa y los archivos de ayuda. Esto requiere aproximadamente de 25MB de espacio en su disco duro. Personalizada – instala solo los componentes que ud. decida.

Puede ahorrarse espacio en el disco duro seleccionando una instalación mínima, pero no tendrá acceso a la documentación en-línea y a los archivos muestra de datos incluídos.

6/ Comenzando

Paso 7: Siga las instrucciones que faltan para terminar la instalación. Cuando esta sea terminada aparecerá una última ventana:

Figura 1-5. Final de la Instalación

Haga Clic en Terminar para concluir la instalación. 1.2 Ejecutando el Programa Como parte del proceso de instalación se agregará un ícono de Acceso Directo del STATGRAPHICS Centurion en el menu de Inicio de Windows así como al Escritorio. Para ejecutar el programa: Paso 1: Haga Clic sobre el ícono de acceso directo que se encuentra en el Escritorio, o presione el botón de Inicio ubicado en la esquina inferior izquierda de su monitor y haga clic sobre el ícono de Statgraphics. También puede seleccionar en el Explorador de Windows la carpeta de Archivos de Programas - Statgraphics - STATGRAPHICS Centurion XV y hacer clic en el ícono de la aplicación sgwin para ejecutar el programa.

7/ Comenzando

Paso 2: Cuando el STATGRAPHICS Centurion se cargue, se abrirá una nueva ventana. La primera vez que ejecute el programa la ventana con la información de su licencia aparecerá:

Figura 1-6. Administrador de la Licencia

Dentro de los primeros 30 días después de haber recibido su número de serie, debe contactar a StatPoint, Inc. Para registrar su licencia y obtener un código de activación. De otra forma, el programa dejará de funcionar temporalmente. Para obtener un código de activación, pulse el botón de Obtener Código:

8/ Comenzando

Figura 1-7. Registro de la Licencia

Capture la información requerida y después contáctese con StatPoint por cualquiera de las siguientes formas:

1. Pulse el botón de Enviar por e-mail para enviar la información por Internet. 2. Pulse el botón Enviar por Fax para enviar por fax la información impresa.

3. Llamar al teléfono mencionado. Tenga a mano tanto el número de Número de Serie como

la Llave del Producto que se muestran en la ventana de Registro.

9/ Comenzando

Cualquier método que utilize, StatPoint verificará la información provista y mandará de regreso un código de activación. La próxima vez que ejecute el programa, capture el código en el campo de Código de Activación en la ventana del Administrador de la Licencia y pulse el botón de Actualizar. A partir de este momento, la ventana del Administrador de la Licencia dejará de aparecer . Paso 3: La primera vez que ejecute el programa, también deberá elegir el tipo de menú de sistema que desea usar:

Figura 1-8. Selección del Menú

Puede elegir entre el menú clásico del STATGRAPHICS, el cuál organiza los procedimientos estadísticos con encabezados tales como Gráficos, Describir, Comparar, Relacionar, Pronosticar, CEP y DE, o el menú Seis Sigma, el cuál organiza los procedimientos con encabezados Definir, Medir, Analizar, Mejorar, Controlar y Pronosticar. Ambos menús contienen los mismos procedimientos, solo que la organización es diferente. Ud. Puede cambiar su decisión inicial en cualquier momento seleccionando la opción de Preferencias dentro del menú Editar en el programa, después del cual debe salirse del programa para que el cambio tenga efecto. Paso 4: Se creará la ventana principal del STATGRAPHICS. La primera vez que ejecute el progama, una ventana de diálogo adicional aparecerá con la información del StatWizard:

10/ Comenzando

Figura 1-9. Ventana Inicial del StatWizard

El StatWizard está diseñado para auxiliar a nuevos usuarios a crear rápidamente un archivo de datos y comenzar a analizar su contenido. Puede seguir las instrucciones del StatWizard o hacer clic en Cancelar para suspender el StatWizard. Si no quiere que aparezca la ventana del StatWizard cada vez que inicie el STATGRAPHICS Centurion, inhabilite la opción de “Mostrar el StatWizard al Inicio” antes de que abandone esta ventana de diálogo. Las sesiones que siguen usan el StatWizard para crear un archivo de datos conteniendo los datos del censo de los Estados Unidos del año 2000.

11/ Comenzando

1.3 Captura de Datos Para poder analizar datos en el STATGRAPHICS Centurion, estos deben ser colocados en el Libro de Datos del STATGRAPHICS. El Libro de Datos consiste de 10 hojas de datos, referenciadas por las letras A hasta la J, cada una conteniendo un arreglo rectangular de filas y columnas:

Figura 1-10. El Libro de Datos del STATGRAPHICS

En una hoja de datos típica, cada fila contiene información de una muestra individual, caso u observación, mientras que cada columna representa una variable. Por ejemplo, supongamos que desea usar el STATGRAPHICS Centurion para analizar datos del censo de los EUA del año 2000. Una pequeña porción de los resultados de ese censo se muestran abajo:

12/ Comenzando

State (Estado)

Population (Población)

Median Age (Edad Promedio)

Percent Female (% Mujeres)

Per Capita Income (Ingreso per Capita)

Alabama 4,447,100 35.8 51.7 $18,819 Alaska 626,932 32.4 48.3 $22,660 Arizona 5,130,632 34.2 50.1 $20,275 Arkansas 2,673,400 36.0 51.2 $16,904 California 33,871,648 33.3 50.2 $22,711 Colorado 4,301,261 34.3 49.6 $24,049

Figura 1-11. Datos del Censo de EUA del año 2000

Cuando se capturan estos datos en una hoja de datos del STATGRAPHICS Centurion, la información de cada estado se colocará en una fila diferente. Se crearán cinco columnas para almacenar los nombres de los estados y los datos censales. Para capturar datos como los mostrados arriba en el STATGRAPHICS Centurion, tiene dos opciones:

1. Escribir los datos directamente en el Libro de Datos del STATGRAPHICS Centurion.

2. Capturar los datos en otro programa como puede ser Excel y después leerlos o copiarlos en el STATGRAPHICS Centurion.

En esta sesión, utilizaremos la primera opción, además de usar el StatWizard para configurar la hoja de datos. Cuando la ventana del StatWizard aparezca, acepte la selección predeterminada (“Capturar Nuevos Datos o Importarlos desde una Fuente Externa”) y pulse Aceptar. (Nota: Si se salió del StatWizard, puede iniciarlo nuevamente pulsando el ícono del sombrero de hechicero en la barra principal). En la segunda ventana, indique que desea capturar sus datos usando el teclado:

13/ Comenzando

Figura 1-12. Especificación de localización de los datos en el StatWizard

Se presentarán entonces una serie de ventanas para identificar la información a ser capturada en cada columna de la hoja de trabajo:

14/ Comenzando

Figura 1-13. Definición de Columnas

Cada columna en una hoja de trabajo del STATGRAPHICS Centurion tiene un nombre, un comentario y una clase asociada a ella:

• Nombre– Asigne a cada columna un nombre único que contenga de 1 a 32 caracteres. Estos nombres son utilizados por el programa para identificar las variables que serán analizadas al seleccionar un procedimiento estadístico. También sirven como etiquetas predeterminadas en la mayoría de las gráficas. Los nombres pueden contener cualquier caracter excepto aquellos utilizados epara indicar operaciones aritméticas, como + o - . Sin embargo, los nombres no pueden iniciar con un dígito numérico, no son sensibles a las mayúsculas y minúsculas y los espacios son permitidos. Cuando escriba un nombre inválido el programa desplegará un mensaje de error.

• Comentario – Capture un comentario que identifique los datos en la columna. Los

comentarios pueden tener hasta 64 caracteres y son opcionales.

• Tipo – Especifique el tipo de datos que serán capturados en la columna. En el ejemplo del censo, la primera columna que contiene los nombres de los estados debe definirse como

15/ Comenzando

Caracteres. Las otras columnas pueden definirse como Numérica o como Enteros o Decimales Fijos si desea restringir el tipo de datos a capturar. Para mayor información acerca de la lista completa de los tipos de columnas, ver el Capítulo 2.

Después de haber definido cada columna, pulse Aceptar. Cuando las cinco columnas hayan sido definidas, pulse Cancelar. Se desplegará una Hoja de Datos vacía mostrando las columnas que acaba de crear:

Figura 1-14. Hoja de Datos STATGRAPHICS Centurion con los Nombres de las Columnas

Ahora capture los datos como lo haría en cualquier hoja de cálculo, utilizando las flechas del teclado para moverse de celda a celda. NO usar comas al capturar números grandes. Cuando haya terminado, la Hoja de Datos debe tener la siguiente apariencia:

16/ Comenzando

Figura 1-15. Hoja de Datos STATGRAPHICS Centurion después de la Captura de 6 registros de Datos

Finalmente, debe guardar el archivo de datos. Seleccione Archivo – Guardar – Guardar Datos del menú principal. Escoja el nombre del archivo para guardar los datos:

17/ Comenzando

Figura 1-16. Ventana de Diálogo para Guardar Archivo de Datos

Es recomendable que asigne un nombre significativo a cada archivo de datos. Los Archivos de Datos en el STATGRAPHICS Centurion son guardados en su disco duro automáticamente con la extensión “.sf6” y se pueden leer exclusivamente por el STATGRAPHICS. Cuando guarde el archivo, usted puede cambiar las propiedades en el campo Guardar Tipo Como a un formato diferente para que otros programas puedan leerlo. Tome nota que los archivos guardados en otros formatos pueden tardarse más en ser leídos por el STATGRAPHICS que los datos guardados como archivos SF6. 1.4 Leer un Archivo de Datos Guardaro Una vez que los datos han sido capturados en una hoja de datos, estos están listos para su análisis. Para hacer el ejemplo más interesante, sin embargo, vamos a retomar el caso del censo para todos los 50 estados y el Distrito de Columbia, que viene incluído en el paquete STATGRAPHICS Centurion en un archivo llamado census2000.sf6. Para abrir este archivo de

18/ Comenzando

datos, seleccione Archivo – Abrir – Abrir Datos desde el menú principal. Se le pedirá entonces que especifique el origen de los datos a los quiere tener acceso:

Figura 1-17. Ventana de Diálogo para Especificar Origen de los Datos

La selección predeterminada en este caso es la correcta. Ahora, seleccione el nombre del archivo que contiene los datos:

Figura 1-18. Ventana de Diálogo para Abrir el Archivo de Datos

19/ Comenzando

El archivo muestra se localiza en el directorio para Archivos de Datos predeterminado (generalmente c:\Archivos de Programas\Statgraphics\STATGRAPHICS Centurion XV\Data). Al abrir el archivo se cargan las 51 filas completas de datos en su hoja de trabajo:

Figura 1-19. Hoja de Datos mostrando el contenido del Archivo Census2000.sf6

1.5 Analizando los Datos Una vez que los datos han sido cargados en el Libro de Datos del STATGRAPHICS Centurion, estos pueden ser analizados por cualquiera de los más de 150 procedimientos estadísticos de las siguientes maneras:

1. Seleccionando el procedimiento deseado del menú principal.

2. Pulsando cualquiera de los botones de acceso directo en la Barra de Herramientas.

3. Evocando el StatWizard al pulsar el ícono con el sombrero de hechicero en la Barra de Herramientas.

Empezemos resumiendo la variabilidad del ingreso per capita entre los diferentes estados. El mejor procedimiento para resumir una sola columna de datos numéricos es el Análisis de Una

20/ Comenzando

Variable. Este procedimiento calcula un resúmen de estadísticas tales como la media de la muestra y la desviación estándar. También crea varios gráficos, incluyendo un histograma y el gráfico de caja y bigotes. La ubicación del procedimiento Análisis de Una Variable va a depender del menú que este utilizando:

1. Menú Clásico: Seleccionar Describir – Datos Numéricos – Análisis de Una Variable. 2. Menú Seis Sigma: Seleccionar Analizar – Datos Contínuos – Análisis de Una Variable.

Como todos los procedimientos estadísticos, el Análisis de Una Variable inicia desplegando una ventana de diálogo para captura de datos:

Figura 1-20. Ventana de Diálogo en Análisis de Una Variable para Captura de Datos

El cuadro del lado izquierdo enlista los nombres de todas las columnas en las hojas de datos abiertas que contengan datos. Para analizar los datos en la columna de Ingreso Per Capita, haga clic en su nombre y luego haga clic en el botón con la flecha negra al lado del campo de Datos. Esto coloca el nombre de la columna en el espacio del campo de Datos. Deje el campo de Seleccionar en blanco (se usa solamente cuando desea analizar un subconjunto de filas de la hoja de datos en lugar de todas las filas). Cuando pulse Aceptar, una nueva ventana de análisis será creada:

21/ Comenzando

Figura 1-21. Ventana de Análisis del Análisis de Una Variable

La ventana contiene varios “paneles”, divididos por barras divisoras movibles. Los paneles en la izquierda despliegan salidas tabulares, mientras que los de la derecha despliegan salidas gráficas. Si da doble clic en el panel superior izquierdo, la tabla con el resúmen estadístico será maximizado:

22/ Comenzando

Figura 1-22. Panel Maximizado con el Resúmen Estadístico

Diferentes estadísticos interesantes se mencionan en la tabla. De los n = 51 estados además del D.C., el ingreso per capita oscila entre $15,853 y $28,766. El promedio del ingreso per capita es de $20,934.50. Por debajo de la tabla se encuentra el texto generado por el StatAdvisor, el cuál nos ofrece una interpretación básica de los resultados. En este caso, el StatAdvisor se concentra en los dos estadísticos mostrados en rojo, que miden la simetría y la kurtosis en los datos. Como lo explica el StatAdvisor, datos que provengan de una distribución normal o Gaussiana deberían arrojar valores con un sesgo y una kurtosis estandarizada entre –2 y +2. En este caso, ambos estadísticos están dentro del rango, lo que nos indica que una curva normal en forma de campana es un modelo razonable para estas observaciones, aunque el sesgo está muy cerca de ser estadísticamente significativo. Dando doble clic nuevamente en el panel del resúmen de estadísticas se restaura la vista original de los diferentes paneles. Dando doble clic en el panel superior derecho se maximize el Gráfico de Caja y Bigotes:

23/ Comenzando

Figura 1-23. Panel Maximizado del Gráfico de Caja y Bigotes

El gráfico de Caja y Bigotes, inventado por John Tukey, ofrece un resúmen de 5-números de una muestra de datos. La caja central abarca la mitad de los datos, extendiéndose desde el cuartil inferior hasta el cuartel superior. Las líneas que se extienden en los extremos inferior y superior de la caja (los bigotes) muestran la ubicación del valor más grande y más pequeño de la muestra. La línea vertical del interior de la caja corresponde al valor de la mediana, mientras que el signo de (+) muestra la ubicación de la media muestral. El hecho de que el bigote superior sea levemente más largo que el inferior, y que la media sea relativamente más grande que la mediana, significa un sesgo positivo en los datos. 1.6 Usando la Barra de Herramientas de Análisis Cuando la ventana de análisis tal como Análisis de Una Vairable se despliega por primera vez, solo se incluyen algunas de las tables y gráficas disponibles. Para desplegar resultados adicionales, debe pulsar el ícono adecuado en la Barra de Herramientas de Análisis, la cuál se muestra inmediatamente por arriba del título del análisis:

Figura 1-24. La Barra de Herramientas de Análisis

24/ Comenzando

Los íconos en la Barra de Herramientas de Análisis son muy importantes. Las acciones de cada uno de los primeros siete íconos empezando por la izquierda se mencionan a continuación: Nombre Función

Captura Presenta el cuadro para la captura de datos, de manera que la(s) columna(s) seleccionada(s) pueda(n) cambiarse.

Tablas Muestra lista completa de tablas de salida disponibles para ese procedimiento estadístico.

Gráficos Muestra lista completa de Gráficos de Salida disponibles para ese procedimiento estadístico.

Guardar resultados Permite guardar las estadísticas calculadas en columnas de la hoja de datos.

Opciones de Análisis Selecciona diferentes opciones a aplicarse en todas las tablas y gráficas del procedimiento actual.

Opciones de Ventana Selecciona diferentes opciones a aplicarse solo en la tabla o gráfica maximizada.

Opciones Gráficas Permite cambiar títulos, escalas y otras características de la gráfica maximizada.

Figura 1-25. Íconos de Mayor Importancia en la Barra de Herramientas de Análisis

Íconos adicionales a la derecha de la Barra le permiten efectuar otras acciones cuando una gráfica es maximizada, como se explica en el Capítulo 5.

Por ejemplo, si el ícono de Gráficos se presiona, un cuadro de diálogo aparece enlistando la lista completa de los gráficos disponibles para el procedimiento de Análisis de Una Variable:

25/ Comenzando

Figura 1-26. Listado de Gráficos Disponibles

Seleccionando la opción de Histograma y pulsando Aceptar se agrega un tercer panel al lado derecho de la ventana de análisis:

Figura 1-27. Panel de Histograma agregado a la Veantana de Análisis del Análisis de Una Variable

26/ Comenzando

Note que las barras en el histograma se extienden un poco más por arriba del pico que por abajo, esto es una característica de datos sesgados postiviamente. Si da doble-clic en el histograma para maximizarlo y después pulsa el ícono de Opciones de Ventana, se muestra un cuadro de diálogo con opciones específicas para el histograma:

Figura 1-28. Opciones de Ventana para el Histograma

Usando el cuadro de opciones, puede modificar el número de barras en el histograma, así como el rango que abarcan. Si el Número de Clases se establece en 15 y luego se presiona el botón de Aceptar, el histograma reflejará los cambios seleccionados:

27/ Comenzando

Figura 1-29. Histograma de Frecuencias después de Cambiar el Número de Clases

Puede también cambiar el tipo de relleno y/o el color de las barras en el histograma pulsando el ícono de Opciones Gráficas. En este se presenta un cuadro de diálogo con diferentes pestañas que le permiten modificar la mayoría de las características de la gráfica. Si hace clic en la pestaña de Relleno, se desplegará lo siguiente:

28/ Comenzando

Figura 1-30. Cuadro de Opciones Gráficas

Haciendo clic en el botón circular #1 y después seleccionando un Nuevo Tipo de Relleno o Color cambiará el aspecto de las barras en el histograma. NOTA: Las operaciones de la mayoría de los íconos de la barra de herramientas de análisis también se puede tener acceso a ellas pulsando el botón secundario del ratón en el panel que contenga la tabla o la gráfica. Esto presenta un menú de las operaciones disponibles.

29/ Comenzando

1.7 Diseminando los Resultados Una vez que el análisis ha sido efectuado, los resultados pueden ser diseminados de diferentes formas. Estos incluyen: Acción Método Imprimir los resultados. Pulse el botón de imprimir en la

barra de herramientas principal para imprimir todas las tables y gráficas, o haga clic en un panel específico con el botón secundario del ratón y seleccione Imprimir del menú desplegado para imprimir una tabla o una gráfica única.

Publicar los resultados para ser vistos en la red de internet.

Seleccionar StatPublish desde el menu Archivo. Se mostrará un cuadro de diálogo en donde especificará la ubicación a donde quiere guardar la salida con formato HTML.

Copiar el resultado a otra aplicación. Pulse Clic en la tabla o la gráfica que desea copiar y seleccione Copiar del menú de Editar. Luego active la otra aplicación y seleccione Editar – Pegar.

Guardar el análisis en un reporte. Pulse el botón secundario del ratón y seleccione Copiar Análisis al StatReporter. El StatReporter, descrito en el Capítulo 7, puede ser guardado como archivo con formato RTF para exportarlo en procesadores de palabras tales como Microsoft Word.

Guardar una gráfica en un archivo de imagen.

Maximizar la gráfica que será guardada.. Ahora seleccione Guardar Gráficos del menú Archivo.

Figura 1-31. Métodos de Diseminación de los Resultados del Análisis

Cada una de las operaciones mencionadas se describen a detalle en capítulos posteriores.

30/ Comenzando

1.8 Guardando su Trabajo Puede guardar la sesión de trabajo actual en cualquier momento seleccionando Guardar StatFolio desde el menú de Archivo y capturando un nombre de archivo:

Figura 1-32. Guardando un StatFolio

Un StatFolio consiste en el conjunto de instrucciones que uno efectúa para crear los diferentes análisis en una sesión de trabajo, incluyendo los apuntadores a los archivos o bases de datos que contienen los datos que queremos analizar. Si uno abre un StatFolio en una fecha posterior, automáticamente leerá las variables de datos y recalculará el análisis. Cualquiera de las opciones utilizadas para ese análisis serán conservadas. NOTA #1: Si el archivo de datos se actualiza entre el momento que se genera un Statfolio y cuando se vuelve a abrir, los análisis cambiarán reflejando los nuevos valores. Esto ofrece un método muy sencillo para efectuar corridas repetitivas de análisis que necesiten ser calculados de manera periódica sin tener que crearlos cada vez. NOTA #2: Los datos y el StatFolio son guardados en archivos diferentes. Sin necesita mover un StatFolio de una computadora a otra, asegúrese de mover los archivos de datos también.

31/ Manejo de Datos

Manejo de Datos Accesando datos desde archivos y bases de datos, transformando valores de los datos y generando series de datos.

Para analizar datos en el STATGRAPHICS Centurion, estos deben colocarse primero en el Libro de Datos STATGRAPHICS Centurion. El Libro de Datos es una ventana etiquetada, que consiste de 10 hojas de datos. Una hoja de datos es un arreglo rectangular de filas y columnas. Cada columna en la hoja de datos representa una variable. Cada fila representa un caso o una observación. Por ejemplo, la hoja de datos inferior contiene información sobre distintas marcas y modelos de automóviles.

Figura 2-1. Una Hoja de Datos

Capítulo

2

32/ Manejo de Datos

Este Capítulo describe toda la información que necesita saber acerca de los datos en el STATGRAPHICS Centurion, incluyendo cómo accesarlos, manipularlos, y cómo usarlos en un análisis estadístico. 2.1 El Libro de Datos Cada columna en la hoja de datos STATGRAPHICS Centurion representa una variable diferente. Las variables normalmente son atributos ó medidas asociadas con los conceptos que definen las filas de la hoja de datos. Por ejemplo, en la hoja de datos 93cars, existe una columna identificando la marca de cada automóvil, una columna identificando su tipo, columnas conteniendo las millas recorridas por galón manejando en ciudad ó carretera, columnas conteniendo el largo, ancho y alto del automóvil e información similar. Cada columna tiene un nombre y un tipo asociado a la misma. El nombre se usa para identificar los datos a utilizar en un análisis estadístico. El tipo afecta la manera en que serán analizados. También asociado a cada columna existe un comentario opcional, el cual se usa para proveer información adicional sobre el contenido de una columna. Nota: los datos fueron obtenidos del Journal of Statistical Education Data Archive (www.amstat.org/publications/jse/jse_data_archive.html) y su uso ha sido autorizado. Para mostrar o cambiar las propiedades de cualquier columna en una hoja de datos, dar doble clic en el nombre de la columna para mostrar el cuadro de diálogo Modificar Columna:

http://www.amstat.org/publications/jse/jse_data_archive.html

33/ Manejo de Datos

Figura 2-2. Cuadro de Diálogo Utilizado para modificar las Propiedades de una Columna

Usted deberá especificar:

1. Nombre: de 1 a 32 caracteres. Cuando realice análisis estadísticos, las columnas son identificadas usando estos nombres. Cada columna en la hoja de datos debe tener un nombre único, aunque otras columnas en distintas hojas de datos pueden tener uno similar. Los nombres pueden incluir cualquier caracter exceptuando los siguientes 19:

‘ “ . > < ~ ! & , ; + - * / ^ = | ( )

Los caracteres restringidos son aquellos que se necesitan cuando se usan expresiones algebraicas tales como: 100*(MPG en Ciudad/MPG en Carretera) Adicionalmente, los nombres no deben empezar con números. Se permiten espacios en los nombres de variables. Los nombres no son sensibles a las mayúsculas.

34/ Manejo de Datos

2. Comentario: de 0 a 64 caracteres, proveyendo información adicional del contenido de la columna.

3. Tipo: clase de dato permitido en la columna. Los siguientes tipos deben especificarse:

Tipo Contenido Ejemplo Numérico Cualquier número válido. 3.14 Caracter Un condición alfanumérica Chevrolet Entero Un número entero 105 Fecha Mes, día y año 4/30/05 Mes Mes y año 4/05 Trimestre Trimestre y año T2/05 Horario (HH:MM) Hora y minuto 3:15 Horario (HH:MM:SS) Hora, minuto y segundo 3:15:53 Fecha-Horario (HH:MM)

Mes, día, año, hora y minuto 4/30/05 3:15

Date-Horario (HH:MM:SS)

Mes, día, año, hora, minuto y segundo

4/30/05 3:15:53

Decimales Fijos Número con hasta 9 decimales 34.10 Fórmula Calculada de otras columnas MPG_C / MPG_H

Figura 2-3. Tipos de Columna

Cuando capture sus datos en una hoja de datos, estos deben coincidir con el tipo de columna en donde son capturados. Por ejemplo, si intenta escribir un nombre en una columna numérica este será rechazado. Cuando capture datos, el formato de los mismos también deben coincidir con su configuración actual de Windows. Particularmente, STATGRAPHICS Centurion distingue las configuraciones actuales de Windows para:

1. Separador de decimales para valores numéricos 2. Formato de tiempo y separador de tiempo para horarios 3. Formato de fecha corto y separador para fechas

Para ver las configuraciones de su computadora entre al Panel de Control de Windows. Cuando capture una fecha, deberá usar el formato especificado en el cuadro de diálogo de Editar- Preferencias, ya sea años de 4 dígitos (4/30/2005) ó uno de 2 dígitos (4/30/05). Si se usa un año de 2 dígitos se asume que puede ir desde 1950 hasta 2049.

35/ Manejo de Datos

Más información sobre las columnas de fórmula será tratada posteriormente en la sección Manipulando los Datos de éste mismo Capítulo. 2.2 Acceso a los datos El Capítulo 1 muestra cómo los datos pueden ser capturados a una hoja de datos manualmente. Más comúnmente, los usuarios accesarán datos que ya existen en otros archivos o aplicaciones. Hay 3 formas básicas de poner datos existentes en una hoja de datos del STATGRAPHICS Centurion:

1. Leer un archivo de datos existente: Si los datos han sido previamente capturados en un archivo, usted puede copiarlos en la hoja de datos seleccionando Archivo – Abrir – Abrir Datos y luego Archivo de Datos Externo. Esto le permite leer datos guardados en archivos de diferentes formatos, incluyendo Excel XLS, archivos de texto ASCII delimitados, archivos XML y archivos STATGRAPHICS.

2. Copiar y pegar usando el portapapeles de Windows: Si usted tiene los datos

cargados en un programa como Excel, usted puede copiarlos fácilmente al portapapeles de Windows y luego pegarlos en el STATGRAPHICS Centurion seleccionando Editar– Pegar.

3. Efectuando una consulta SQL para obtener los datos desde una base de datos: Si

los datos residen en una base de datos ODBC, como Oracle o Microsoft Access, estos pueden ser recuperados seleccionando Archivo – Abrir Datos y luego Búsqueda ODBC. .

2.2.1 Leyendo Datos de un Archivo STATGRAPHICS Centurion Para leer datos que ya han sido guardados en un archivo STATGRAPHICS Centurion, seleccione cualquiera de las 10 hojas de datos en el Libro de Datos dando clic en su etiqueta. Luego seleccione Archivo – Abrir – Abrir Datos y especifique Archivo de Datos STATGRAPHICS en el cuadro de diálogo que se muestra a continuación:

36/ Manejo de Datos

Figura 2-4. Origen de los Datos

Después de pulsar Aceptar, seleccione el archivo STATGRAPHICS deseado:

Figura 2-5. Seleccionando un Archivo de Datos STATGRAPHICS.

Usted puede leer archivos del STATGRAPHICS Centurion ó de cualquier versión previa del STATGRAPHICS, incluyendo el STATGRAPHICS Plus. Los datos en el archivo reemplazarán a los que actualmente contiene la hoja de datos seleccionada.

37/ Manejo de Datos

2.2.2 Leyendo Datos de un Archivo Excel, ASCII, XML o Externo Para leer datos que han sido guardados en un archivo creado por otra aplicación, seleccione cualquiera de las 10 hojas de datos en el Libro de Datos dando clic en su etiqueta. Seleccione Archivo – Abrir – Abrir Datos y especifique Archivo de Datos Externo en el cuadro de diálogo mostrado a continuación:

Figura 2-6. Origen de los Datos

Después de pulsar Aceptar, seleccione el archivo deseado:

Figura 2-7. Seleccionando un Archivo de Datos Excel

38/ Manejo de Datos

Utilice la lista del Tipo de archivo para especificar el formato del archivo a leer. Las opciones más comunes son:

1. Archivos Excel (*.xls) – lee una hoja seleccionada de un libro de Microsoft Excel. 2. Archivos de Texto (*.txt;*.csv;*.dat) – lee un archivo de texto ASCII que contenga

datos delimitados o datos arreglados en columnas uniformes.

3. XML (*.xml) – lee datos de un archivo en formato XML

Despúes de seleccionar el nombre del archivo, se mostrará un cuadro de diálogo para obtener información adicional de los datos en el archivo. Si el archivo seleccionado es un libro de trabajo Excel, el cuadro de diálogo será como el que se nuestra a continuación:

Figura 2-8. Opciones para un Archivo de Datos Excel

Especifique:

1. Encabezado de la Columna – información contenida en las 2 primeras filas del rango especificado. Las dos filas inmediatamente arriba de los datos a leer deben contener nombres de columna y/o comentarios. Si no se contienen nombres en la hoja de cálculo de Excel, entonces se generarán nombres predeterminados.

2. Número de Hoja – número de la hoja de cálculo en el libro de trabajo de Excel que será leída.

Las hojas sólo podrán ser leídas de una en una.

39/ Manejo de Datos

3. Fila Inicial y Final – el rango de filas de la hoja de cálculo que serán leídas. Este rango debe incluir los nombres de las variables y sus comentarios, en caso de que estén presentes.

4. Valor Faltante – cualquier símbolo especial usado en la hoja de cálculo de Excel para

indicar datos faltantes, como NA. Las celdas que contengan el valor especificado serán convertidas en celdas vacías cuando se coloquen en la hoja de datos STATGRAPHICS Centurion.

Cuando pulse Aceptar, la información del archivo Excel se leerá en el STATGRAPHICS Centurion. Cada columna será escaneada y se le asignará el tipo de columna apropiado. En caso de encontrar un nombre de columna inválido, los símbolos reservados serán subrayados. Ahora sí, los datos están listos para ser analizados.

2.2.3 Transferir Datos usando Copiar y Pegar El modo más fácil de transferir datos de otra aplicación a STATGRAPHICS Centurion usualmente es vía el portapapeles de Windows. Por ejemplo, si los datos residen en un archivo de Excel, se deberá correr Excel, seleccionar los datos a copiar, ir al menú Editar y dar clic en Copiar; la información será copiada al portapapeles. Al regresar al STATGRAPHICS, los datos serán pegados directamente en una hoja de datos del STATGRAPHICS seleccionando Pegar del menú Editar del STATGRAPHICS. Cuando los datos son pegados en una columna de una hoja de datos, STATGRAPHICS Centurion automáticamente escanea los datos y selecciona el tipo adecuado para la columna. Cuando se copien y peguen datos, los nombres de columna y comentarios también pueden ser transferidos. Incluya los nombres de columna y los comentarios en Excel cuando copie datos al portapapeles. En el lado de STATGRAPHICS Centurion, haga clic en el renglón de encabezado de la hoja de datos del STATGRAPHICS Centurion antes de seleccionar Pegar. La información hasta arriba del portapapeles será entonces pegada en el(los) renglón(es) del encabezado.

Nota: si el archivo de Excel contiene nombres de columna pero no comentarios, seleccione Editar – Propiedades del Libro de Datos del menú de STATGRAPHICS Centurion y deshabilite la opción Mostrar comentarios de las variables antes de pegar los datos.

40/ Manejo de Datos

2.2.4 Consultando una Base de Datos ODBC STATGRAPHICS Centurion también le permite leer datos de una base de datos Oracle, Access, ú otra usando ODBC. Para acceder datos de una base de datos, primero seleccione Archivo – Abrir – Origen de los Datos. Luego seleccione Consultar Base de Datos del cuadro de diálogo inicial:

Figura 2-9. Cuadro de Diálogo Origen de los Datos Una secuencia de cuadros de diálogo adicionales será mostrada en las cuales usted:

1. Seleccionará el nombre de la base de datos a leer. 2. Seleccionará los campos a transferir.

3. Especificará un filtro para limitar los registros recuperados.

4. Especificará un modo de ordenar los resultados.

Una consulta SQL es entonces construida y los resultados son colocados en la hoja de datos activa en STATGRAPHICS. Información detalláda sobre como elaborar consultas ODBC puede ser encontrada en el archivo PDF titulado Archivos de Datos y StatLink. 2.3 Manipulando los Datos Una vez que los datos han sido colocados en una hoja de datos del STATGRAPHICS Centurion, estos pueden ser manipulados de importantes y diversas formas:

1. Los datos pueden ser copiados y pegados en otras locaciones. 2. Columnas adicionales pueden ser creadas desde columnas existentes.

41/ Manejo de Datos

3. Datos pueden ser transformados usando una expresión algebraica o una función

matemática.

4. La hoja de datos puede ser ordenada de acuerdo a una o más columnas.

5. Los valores de los datos pueden ser recodificados para formar grupos o por otras razones.

6. Los datos extendidos sobre varias columnas pueden ser reorganizados en una sola

columna si un procedimiento estadístico lo requiere. Estas operaciones básicas se describen a continuación.

2.3.1 Copiando y Pegando Datos La hoja de datos STATGRAPHICS Centurion soporta muchas operaciones normales de una hoja de cálculo, incluyendo cortar, copiar, pegar, insertar y eliminar. El factor importante a recordar cuando se usen estas operaciones es que cada columna tiene un tipo específico. Si usted pega inadvertidamente caracteres de datos en una columna numérica, STATGRAPHICS Centurion cambiará el tipo de esa columna para acomodar los nuevos datos. Siempre que usted tenga una duda sobre el tipo de columna, haga clic en el encabezado de la columna para mostrar el cuadro de diálogo Modificar Columna. Usted puede cambiar el tipo de columna utilizando ese cuadro de diálogo.

2.3.2 Creando Nuevas Variables desde Columnas Existentes STATGRAPHICS Centurion tiene una amplia gama de operadores para asistir en la ejecución de cálculos matemáticos. Uno de los usos más importantes de estos operadores en el análisis de datos es para crear nuevas variables basadas en columnas existentes. En el STATGRAPHICS Centurion, nuevas variables pueden ser creadas:

1. “Al vuelo” directamente dentro de los campos de captura de datos en los cuadros de diálogo, sin guardar la variable en la hoja de datos.

2. Creando una nueva columna en cualquiera de las 10 hojas de datos en el Libro de Datos.

Por ejemplo, suponga que se desea información sobre la razón calculada de las millas por galón manejando en ciudad vs las millas por galón manejando en carretera de cada automóvil en el

42/ Manejo de Datos

archivo 93cars. Dicho archivo contiene 2 columnas separadas, una nombrada MPG City y otra nombrada MPG Highway. Para resumir la distribución de las razones, usted puede seleccionar el procedimiento Análisis de una Variable y especificar la razón directamente en el campo de datos en el Cuadro de Diálogo:

Figura 2-10. Creando una Transformación “Al Vuelo”

Cuando se pulse ACEPTAR, se generará un análisis de la razón matemática multiplicada por 100, sin cambiar los datos en la hoja de datos:

43/ Manejo de Datos

Figura 2-11. Análisis de una Variable de Datos Transformados

La razón promedio es aproximadamente 76.3%, con rango de un mínimo de 64% a un máximo de 93.9%. La posibilidad de realizar análisis sin modificar la hoja de datos es muy importante para facilitar la exploración de los datos. Si se desea, una nueva columna puede ser creada en la hoja de datos conteniendo los valores transformados. Por ejemplo, usted puede regresar a la ventana que contiene los datos de 93cars dando doble clic en la columna con el encabezado etiquetado Col_27. El cuadro de diálogo Modificar Columna puede ser entonces utilizado para definir una nueva variable de tipo fórmula con la transformación deseada:

44/ Manejo de Datos

Figura 2-12. Creando una Columna de Fórmula

Esto creará una nueva variable cuyos valores son calculados de las dos columnas originales que contienen los datos de las millas por galón. Las columnas de Fórmula se muestran en la hoja de datos usando una escala gris, desde que son automáticamente calculadas de otras columnas:

45/ Manejo de Datos

Figura 2-13. Apariencia de una Columna de Fórmula en la Hoja de Datos

Si los valores en la columna MPG City o MPG Highway cambian, MPG Ratio será automáticamente recalculada para reflejar esos cambios.

NOTA: el recalculo de una columna fórmula normalmente no ocurre hasta que los datos en esas columnas son necesarios para un cálculo, o se guarda o imprime. Usted puede forzar un recalculo inmediatamente seleccionando Actualizar Fórmulas del menú Editar.

2.3.3 Transformando Datos STATGRAPHICS Centurion también contiene un gran número de funciones matemáticas que pueden ser usadas para transformar datos existentes. Así como al crear nuevas variables, las transformaciones se pueden hacer ya sea dentro de los campos de datos en los cuadros de diálogo ó creando nuevas columnas en la hoja de datos. Por ejemplo, suponga que se desea graficar las millas por galón que obtuvo un vehículo vs el logaritmo natural de su peso. Seleccionamos el procedimiento Gráfico X-Y del menú principal se mostrará el siguiente cuadro de diálogo para capturar datos:

46/ Manejo de Datos

Figura 2-14. Transformando Datos en un Cuadro de Diálogo de Captura de Datos

En lugar de teclear el nombre de una columna en el campo de datos, usted deberá teclear una expresión del STATGRAPHICS Centurion. Las expresiones del STATGRAPHICS Centurion son fórmulas que operan en los datos usando símbolos algebraicos y operadores especiales. Una amplia variedad de operadores están disponibles, como se describe en el documento PDF Operadores STATGRAPHICS. La tabla siguiente muestra los operadores comúnmente usados:

Operador Uso Ejemplo + Suma X+100 - Resta X-100 / División X/100 * Multiplicación X*100 ^ Exponencial X^2 ABS Valor Absoluto ABS(X) AVG Promedio AVG(X) DIFF Diferencias Sucesivas DIFF(X) EXP Función Exponencial EXP(10) LAG Retraso por k periodos LAG(X,k) LN Logaritmo Natural LN(X) LOG Logaritmo base 10 LOG(X) MAX Máximo MAX(X) MIN Mínimo MIN(X)

47/ Manejo de Datos

SD Desviación Estándar SD(X) SQRT Raíz Cuadrada SQRT(X) STANDARDIZE Conversión a valores Z STANDARDIZE(X)

Figura 2-15. Operadores STATGRAPHICS Normalmente Usados

Cuando se elabora una expresión STATGRAPHICS Centurion , se pueden combinar diferentes operadores usando reglas algebraicas básicas de precedencia. Por ejemplo, las siguientes expresiones convierten cada valor en la columna Weight en una fracción igual a la distancia entre los valores máximos y mínimos, entre todos los automóviles: ( Weight – MIN(Weight) ) / ( MAX(Weight) - MIN(Weight) ) Los paréntesis son necesarios para asegurar que las restas sean efectuadas antes que los cocientes. Las expresiones no son sensibles a las mayúsculas y tampoco es relevante la inclusión de espacios en blanco. Cada cuadro de diálogo de captura de datos incluye un botón etiquetado como Transformar, como en la Figura 2-14. Este botón puede ser usado para ayudar a crear una expresión STATGRAPHICS Centurion, en caso de que no recuerde que operadores usar. Si usted coloca el cursor en un campo de datos y luego presiona Transformar, un cuadro de diálogo similar al que se muestra abajo aparecerá:

Figura 2-16. Cuadro de Diálogo mostrado al usar el botón Transformar

48/ Manejo de Datos

En la parte derecha hay una lista de todos los operadores STATGRAPHICS Centurion, con una indicación del número de argumentos que deben ser proporcionados. Dando clic en el nombre del operador lo coloca en el campo Expresión. Después de remplazar los signos de interrogación por nombres de columnas ó números, usted puede pulsar el botón Mostrar para ver los primeros valores generados por la expresión u pulsar el botón de ACEPTAR para tener la expresión capturada en el cuadro de diálogo de captura de datos.

NOTA: No necesita utilizar el botón Transformar si usted prefiere teclear la expresión directamente en el cuadro de diálogo de captura de datos.

Una vez que una transformación se ha especificado en el cuadro de diálogo de captura de datos, como en la Figura 2-14, dicha transformación será usada cuando el procedimiento se corra:

Figura 2-17. Procedimiento Gráfico X-Y usando valores Transformados de Weight

Los operadores STATGRAPHICS Centurion también pueden ser utilizados al crear nuevas columnas fórmula, similares a la ilustración en la sesión anterior.

49/ Manejo de Datos

2.3.4 Ordenando Datos El Contenido de una hoja de datos puede ser ordenado resaltando la columna o columnas a usar para definir el orden y luego seleccionando Ordenar Archivo del menú Editar. Por ejemplo, para ordenar los datos en el archivo 93cars de acuerdo a las millas por galón, resalte las columnas nombradas MPG City y MPG Highway y luego seleccione Ordenar Archivo. El siguiente cuadro de diálogo se mostrará:

Figura 2-18. Cuadro de Diálogo de Opciones de Ordenamiento

Usted puede establecer tanto una o dos columnas en las cuales basar el ordenamiento, así como también el tipo de ordenamiento. Ordenando primero por MPG City y luego por MPG Highway los datos se ordenan primero tomando los valores de la columna de mpg en la ciudad y después las mpg en carretera para automóviles con el mismo valor de MPG City:

50/ Manejo de Datos

Figura 2-19. Archivo 93cars.sf6 después del ordenamiento

NOTA: Los procedimientos estadísticos no requieren que se ordenen los datos antes de usarlos, estos lo hacen automáticamente en caso necesario. A su vez, el archivo en el disco no cambia al realizar un ordenamiento salvo que vuelva a guardar los datos. El ordenamiento sólo cambia la manera en que se muestran los renglones en la hoja de datos.

2.3.5 Recodificando Datos En algunas ocasiones es conveniente recodificar los datos, ya sea agrupándolos en grupos similares o asignándoles nuevas etiquetas. Para recodificar una columna de datos, haga clic en el encabezado de la columna a recodificar, luego seleccione Recodificar Datos del menú Editar. Aparecerá el siguiente cuadro de diálogo:

51/ Manejo de Datos

Figura 2-20. Cuadro de Diálogo para Recodificar Datos

Por ejemplo en la columna llamada Domestic en el archivo 93cars contiene un 1 para cada coche fabricado en los E.U.A. y un 0 para los otros autos. Para cambiar todos los 0 en la columna por “Foreign” y todos los 1 por “U.S.”, el cuadro de diálogo superior puede usarse. Hasta 7 rangos de valor pueden especificarse al mismo tiempo para recodificación. El Documento PDF titulado Menú de Edición contiene una discusión detalláda de 2 ejemplos de recodificación.

2.3.6 Combinando Varias Columnas Muchos procedimientos estadísticos en STATGRAPHICS Centurion esperan que los datos a analizar estén en una sola columna. A veces los datos no se encuentran en tal formato. Como simple ejemplo, suponga que tiene una muestra de 12 observaciones, arregladas en 4 columnas como sigue:

52/ Manejo de Datos

Figura 2-21. Muestra de Datos en Diferentes Columnas

Para colocar estos datos en una sola columna se podrían realizar operaciones contínuas de copiar y pegar. Pero una solución más simple es usar el procedimiento Estadísticas por Filas , que se encuentra bajo Describir-Datos Numéricos si esta usando el menú clásico y debajo de Analizar-Datos Contínuos-Comparación de Varias Muestras si esta utilizando el menú Seis Sigma. Este procedimiento presenta primero un cuadro de diálogo de captura de datos solicitando los nombres de las columnas que contienen los datos:

53/ Manejo de Datos

Figura 2-22. Cuadro de diálogo para captura de datos para Estadísticas por Filas

Luego muestra estadísticas para cada fila de datos:

54/ Manejo de Datos

Figura 2-23. Ventana de Análisis de las Estadísticas por Filas

La línea de Total en el recuadro del Resúmen Estadístico muestra estadísticas para los datos combinados. Si usted ahora presiona el botón Guardar Resultados en la barra de herramientas de análisis, puede guardar la muestra combinada en una hoja de datos de una sola columna:

55/ Manejo de Datos

Figura 2-24. Cuadro de Diálogo para Guardar Resultados en Estadísticas por Filas

Cada resultado que usted indique será guardado en una columna diferente, asignándole el nombre correspondiente a las Variables Destino. Guardar tanto la Columna de Datos como la Columna de Códigos crea la siguiente estructura de datos:

56/ Manejo de Datos

Figura 2-25. Nuevas Columnas Creadas al usar Estadísticas por Filas

Los 12 datos ahora se encuentran en una sola columna y listos para usarse en otros procedimientos estadísticos. 2.4 Generación de Datos STATGRAPHICS Centurion tiene la capacidad de generar datos y colocarlos en columnas de la hoja de datos. Esta sección describe dos ejemplos importantes:

1. Generación de datos con secuencias simples. 2. Generación de números aleatorios.

2.4.1 Generando Patrones de Datos Varios procedimientos en el STATGRAPHICS Centurion, particularmente aquellos que realizan un análisis de varianza, esperan que los datos a analizar se encuentren en una sola columna de una hoja de datos, junto con una o más columnas de códigos identificando los factores explicativos. Por ejemplo, considere los datos en la siguiente tabla de dos vías:

57/ Manejo de Datos

Mezcla Tratamiento 1 Tratamiento 2 Tratamiento 3 1 75 82 91 2 78 85 93 3 77 84 92 4 75 85 96

Para analizar estos datos usando el procedimiento ANOVA Multifactorial , es necesario que sean colocados en una hoja de datos con el siguiente formato:

Figura 2-26. Estructura de Datos Deseada

Las dos primeras columnas indican los niveles de los factores correspondientes a cada valor de los datos. La tercera columna contiene todas las observaciones. Para crear tal archivo, la solución más fácil es capturar manualmente las dos primeras columnas. Sin embargo, debido a que las columnas siguen secuencias simples, usted puede generarlas usando operadores especiales del STATGRAPHICS Centurion. Por ejemplo, los números de la mezcla pueden ser generados dando clic en el encabezado de la columnas #1 y luego

58/ Manejo de Datos

seleccionando Generar Datos del menú Editar. Esto muestra el siguiente cuadro de diálogo, en el cual se ha capturado una expresión:

Figura 2-27. Generando Números de la variable Blend

La opción Generar Datos evalúa la expresión del STATGRAPHICS Centurion y coloca el resultado en la columna seleccionada. En la expresión mostrada anterriormente, se utilizan dos operadores importantes:

COUNT(desde, hasta, por) – genera valores comenzando en desde y terminando en hasta, en intervalos iguales a por. Por lo tanto COUNT(1,4,1) genera los enteros 1, 2, 3, y 4. REP(X, repeticiones) – repite en grupos cada valor contenido en X tantas veces como el número en repeticiones. En este caso, cada entero entre 1 y 4 es repetido 3 veces.

Los valores de los Tratamientos pueden ser generados de manera similar dando clic en el encabezado de la columna #2, seleccionando Generar Datos del menú Editar, y capturando lo siguiente:

59/ Manejo de Datos

Figura 2-28. Generando los Códigos de los Tratamientos

Esta expresión utiliza un operador adicional:

RESHAPE(X, tamaño) – repite los valores en X en forma circular hasta haber generado el número de datos en tamaño. En este caso la secuencia 1, 2, 3 es repetida 4 veces.

Este generador de secuencias puede ser muy útil cuando el archivo de datos a crear es grande.

2.4.2 Generando Números Aleatorios Los números aleatorios pueden generarse de dos formas en el STATGRAPHICS Centurion:

1. Si los números provienen de una distribución exponencial, gamma, lognormal, normal, uniforme o Weibull, estos pueden ser generados dentro de una hoja de datos dando clic en un encabezado de columna, seleccionando Generar Datos del menú Editar, y capturar la expresión correspondiente del STATGRAPHICS.

2. Para otras distribuciones, los números aleatorios deben ser generados desde el

procedimiento Distribuciones de Probabilidad.

60/ Manejo de Datos

Como ejemplo, suponga que 100 números aleatorios son deseados de una distribución normal con una media de 20 y una desviación estándar igual a 2. Haga clic en el encabezado de una columna vacía en cualquier hoja de datos para seleccionar esa columna. Luego seleccione Generar Datos del menú Editar y complete el cuadro de diálogo como se muestra a continuación:

Figura 2-29. Generando Números Aleatorios de una Distribución Normal

La sintaxis del operador RNORMAL es:

RNORMAL(n, mu, sigma) – genera n números pseudo-aleatorios de una distribución normal con una media mu y una desviación estándar sigma.

Pulse ACEPTAR para generar los números aleatorios y colocándolos en la columna seleccionada. La sintaxis de los otros generadores de números aleatorios esta contenida en el documento PDF titulado Operadores STATGRAPHICS Centurion. 2.5 Propiedades del Libro de Datos Este Capítulo ha descrito numerosos aspectos importantes del manejo de datos en el STATGRAPHICS Centurion. Particularmente, nos ha enseñado cómo leer datos de archivos y

61/ Manejo de Datos

bases de datos y cómo manipular esos datos una vez que se encuentran en una hoja de datos del STATGRAPHICS Centurion. En cualquier momento, el estado de las hojas de datos puede ser mostrado activando la ventana del Libro de Datos y seleccionado Propiedades del Libro de Datos del menú Editar o seleccionando StatLink del menú Archivo:

Figura 2-30. Cuadro de Diálogo de Propiedades del Libro de Datos

Este cuadro de diálogo muestra el origen de los datos en cada hoja de datos. Si se desea, las hojas de datos pueden ser restringidas a sólo de lectura por lo que los datos en ellas no pueden ser cambiados inadvertidamente. Es también posible definir una lectura de los datos a intervalos regulares y tener los procedimientos estadísticos actualizados automáticamente. Estas importantes características son descritas en el Capítulo 5.

62/ Elaborando Análisis Estadísticos

Elaborando Análisis Estadísticos Generando un análisis, seleccionando tablas y gráficas adicionales, seleccionando opciones, cambiando datos de captura y guardando resultados.

Existen más de 150 selecciones estadísticas en el menú principal del STATGRAPHICS Centurion. Cada selección accede a un procedimiento estadístico diferente. Sin embargo todos los procedimientos trabajan de la misma forma básica:

1. Cuando un análisis es seleccionado del menú, se muestra un cuadro de diálogo de captura de datos. Los campos en este cuadro de diálogo se utilizan para especificar las variables a analizar.

2. Los datos especificados entonces son leídos y analizados, una nueva ventana de análisis es creada con un conjunto de análisis tabulares y gráficos predeterminados.

3. Cuando se corre por primera vez, los valores predeterminados se consideran para todas las opciones en el análisis. Estas opciones pueden ser modificadas usando el botón Opciones de Análisis en la barra de herramientas de análisis, obteniendo como respuesta que todas las tablas y gráficas en la ventana de análisis sean actualizadas.

4. Si se desean, tablas o gráficas adicionales pueden solicitarse pulsando los botones de Tablas ó Gráficas en la barra de herramientas de análisis.

5. Para modificar tablas o gráficas de forma individual, se maximiza el panel correspondiente y se selecciona Opciones de Ventana en la barra de herramientas de análisis.

6. Para las gráficas, el título predeterminado, la escala, tipos de puntos, fuentes, etc. pueden modificarse dando doble clic en la gráfica para maximizarla y luego seleccionando Opciones Gráficas en la barra de herramientas de análisis.

Capítulo

3


7. Las tablas y gráficas pueden ser impresas, publicadas como archivos HTML, copiadas a otras aplicaciones cómo Microsoft PowerPoint, o guardadas en el StatReporter.

8. Los resultados numéricos pueden ser guardados en columnas de cualquier hoja de datos usando el botón Guardar Resultados de la barra de herramientas de análisis.

9. El análisis completo puede ser guardado en disco cómo un StatFolio, para su uso posterior.

En este capítulo, se describe a detalle un análisis típico. La finalidad del análisis es construir un modelo estadístico que relacione las millas por galón conseguidas manejando en ciudad con su peso para los n = 93 automóviles en el archivo 93cars.sf6. Un gráfico de dispersión de los datos se muestra a continuación:

Gráfico de MPG City vs Weight

1600 2100 2600 3100 3600 4100 4600Weight

15

25

35

45

55

MP

G C

ity

Figura 3-1. Gráfico X-Y de Millas por Galón Manejando en Ciudad vs Peso en Libras

Como era de esperarse, las millas por galón están negativamente correlacionadas con el peso del vehículo. Es evidente una no-linealidad en la relación, y por lo menos un punto parece ser un potencial dato aberrante. El procedimiento básico para ajustar un modelo estadístico relacionando dos variables en el STATGRAPHICS Centurion es el procedimiento de Regresión Simple. Dicho procedimiento se ajusta a modelos lineales y no lineales. El modelo más simple para relacionar una variable dependiente Y con una variable independiente X es la forma lineal


Y = a + b X Donde b equivale a la pendiente de la línea y a equivale a la intersección en Y. Modelos Curvilíneos tales como el modelo exponencial Y = exp(a + b X) pueden usarse si la relación es no lineal. 3.1 Cuadros de Diálogo para Captura de Datos El procedimiento Regresión Simple se localiza en el menú principal:

1. Si se utiliza el menú clásico, bajo Relacionar – Un Factor. 2. Si se utiliza el menú Seis Sigma, bajo Mejorar – Análisis de Regresión – Un Factor.

Comienza mostrando un típico cuadro de diálogo de captura de datos:

Figura 3-2. Cuadro de Diálogo de Captura de Datos de Regresión Simple

Los dos primeros campos son requeridos:


Y: La variable dependiente o de respuesta. X: La variable independiente o predecible.

En los campos de captura de datos, usted puede capturar ya sea el nombre de la columna (como MPG City) o una expresión STATGRAPHICS Centurion (cómo LOG(MPG City).) Si más de una hoja de datos contiene una columna con el nombre indicado, usted debe indicar antes del nombre, la hoja de datos deseada. Por ejemplo, si ambas hojas de datos A y B contienen una columna llamada Weight y desea usar la columna en la hoja de datos A, usted deberá capturar el nombre como A.Weight

El campo Seleccionar puede ser usado para seleccionar un subconjunto de las filas en la hoja de datos. Por ejemplo, si usted captura un comando cómo FIRST(50) en ese campo, solo los primeros 50 filas de esa hoja de datos serán utilizados. Los comandos típicos utilizados en el campo Seleccionar son:

Entrada Uso Ejemplo FIRST(k) Selecciona los primeros k filas. FIRST(50) LAST(k) Selecciona los últimos k filas. LAST(50) ROW (inicio,fin) Selecciona filas entre inicio y fin,

incluyendo. ROW (21,70)

RANDOM(k) Selecciona un conjunto aleatorio de k filas.

RANDOM(50)

Columna < valor Selecciona solo filas cuya columna es menor al valor.

Pasajeros < 5

Columna <= valor Selecciona solo filas cuya columna es menor o igual al valor.

Pasajeros <= 5

Columna > valor Selecciona solo filas cuya columna es mayor al valor.

Pasajeros > 5

Columna >= valor Selecciona solo filas cuya columna es mayor o igual al valor.

Pasajeros >= 5

columna= valor Selecciona solo filas cuya columna es igual al valor.

Cilindros = 6

columna <> valor Selecciona solo filas cuya columna es desigual al valor.

Cilindros <> 4

condición1 & condición2 Selecciona solo filas que cumplan con ambas condiciones.

Cilindros = 6 & Fabric. = “Ford”

condición1 | condición2 Selecciona solo filas que cumplan al menos con una condición.

Cilindros = 6 | Fabric. = “Ford”

columna binaria Selecciona filas cuyo valor en la columna binaria no sea igual a 0.

Domestic

Figura 3-3. Comandos aceptados para el campo Seleccionar


Cuando se especifique una condición que involucre variables no-númericas, el valor debe colocarse con doble paréntesis además de ser sensible a las mayúsculas. Condiciones múltiples pueden ser combinadas usando los símbolos condicionales “Y” (&) u “O” (|).

Cada uno de los comandos aceptados en el campo Seleccionar genera una secuencia booleana de 0’s y 1´s, donde el 0 representa FALSO y el 1 representa VERDADERO. Cuando se usa en el campo Seleccionar del cuadro de diálogo de captura de datos, el resultado es la selección de todas las filas cuya condición es VERDADERA y la exclusión de todos las filas cuya condición sea FALSA.

3.2 Ventana de Análisis Una vez que los datos han sido especificados, se crea una nueva ventana de análisis:

Figura 3-4. Ventana de Análisis de una Regresión Simple

Esta ventana consiste de varios paneles divididos por barras de desplazamiento. Las Tablas se encuentran en el lado izquierdo de la ventana y los gráficos en el lado derecho. Usted puede maximizar la tabla o la gráfica de cualquier panel dando doble clic sobre el mismo, en cuyo caso abarcará la ventana completa:


Figura 3-5. Ventana de Análisis de Regresión Simple con un Panel Maximizado

Dando doble clic en el panel maximizado restaura la ventana en varios paneles. Cuando se muestra una ventana de análisis, una segunda barra de herramientas se activa directamente debajo de la barra de herramientas principal del STATGRAPHICS Centurion. La barra de herramientas de análisis aparece como se muestra a continuación:

Cada ícono de esta barra de herramientas realiza una operación importante.

3.2.1 Ícono Captura de Datos

Cuando es presionado, este botón muestra el cuadro de diálogo de captura de datos originalmente usado para especificar las variables de los datos , como se muestra en la Figura 3-2. Si usted cambia las variables de los datos y presiona ACEPTAR, el análisis cambiará para reflejar las nuevas selecciones. Esto le permite probar diferentes combinaciones de datos sin tener que empezar un nuevo análisis.


3.2.2 Ícono de Tablas

Este botón muestra una lista de análisis tabulares adicionales que pueden agregarse a la ventana de análisis. Para Regresión Simple, las tablas disponibles son:

Figura 3-6. Cuadro de Diálogo de las Tablas para Regresión Simple

Por ejemplo, si usted elige agregar tablas mostrando un comparativo de modelos alternos y residuos atípicos, nuevos paneles de texto se agregarán a la ventana de análisis:


Figura 3-7. Ventana de Análisis de Regresión Simple con las Tablas Agregadas

3.2.3 Ícono de Gráficas

Dando clic en este ícono se muestra una lista de gráficos adicionales que pueden ser creadas:

Figura 3-8. Cuadro de Diálogo de Gráficos de Regresión Simple


Agregar un gráfico de residuos sitúa una gráfica adicional en la ventana de análisis:

Figura 3-9. Ventana de Análisis de Regresión Simple con un Gráfico Agregada

3.2.4 Ícono para Guardar Resultados

Este ícono le permite guardar los resultados numéricos calculados por el análisis estadístico en las columnas de la hoja de datos. Para el análisis de Regresión Simple, se muestran las siguientes opciones:


Figura 3-10. Cuadro de Diálogo para Guardar Resultados de una Regresión Simple

Para guardar la información, indique los objetos de interés en el campo Guardar. Para cada objeto a guardar, asigne un nombre de columna debajo de las Variables Destino e indique la hoja de datos deseada. Si desea guardar un comentario junto con los datos, indíquelo en la opción de Guardar comentarios. La opción de Autoguardar es usado para guardar automáticamente el objeto seleccionado si y cuando el análisis es vuelto a correr. Esto resulta útil si usted intenta guardar el análisis en un StatFolio, ya que los análisis son vueltos a correr siempre que se carga un StatFolio. Revisando el recuadro Autoguardar, usted puede configurar un StatFolio para que calcule y guarde automáticamente las estadísticas deseadas. Cuando se combina con la capacidad de realizar rutinas, descrita en el Capítulo 5, esto le permite automatizar muchas de las tareas.


3.2.5 Ícono de Opciones de Análisis

Casi todos los análisis tienen opciones múltiples. Cuando se corre por primera vez, los valores predeterminados son seleccionados para estas opciones, y regularmente son suficientes. Sin embargo, al pulsar el ícono de Opciones de Análisis en cualquier procedimiento permitirá que estas configuraciones básicas puedan cambiarse. Para la Regresión Simple, el cuadro de diálogo de Opciones de Análisis especifica el tipo de modelo a ajustar y el método para estimar los coeficientes desconocidos del modelo:

Figura 3-11. Cuadro de Diálogo de Opciones de Análisis de Regresión Simple

Si usted examina la salida en la Figura 3-7, puede notar que en la tabla de modelos alternativos hay muchos modelos curvilíneos que dan un valor R-cuadrado más alto que el modelo lineal. Al final de la lista se encuentra el modelo Curva-S. Si se selecciona este modelo en el cuadro de diálogo de Opciones de Análisis y se presiona ACEPTAR, el análisis completo cambiará para reflejar el nuevo modelo. Como puede verse examinando en la gráfica del modelo ajustado, una Curva-S captura la curvatura en los datos bastante bien:


Figura 3-12. Modelo Curva-Se Ajustado

3.2.6 Ícono de Opciones de Ventana

Adicionalmente a las opciones aplicables a la ventana de análisis completa, muchas tablas y gráficas individuales cuentan con opciones que solo aplican para ellas. Estas opciones pueden accesarse maximizando primero la tabla o gráfica seleccionada y luego pulsando Opciones de Ventana. Para un Gráfico de Modelo Ajustado, las Opciones de Ventana son:


Figura 3-13. Cuadro d Diálogo de Opciones de Ventana para un Gráfico de Modelo Ajustado

Por ejemplo, eliminar las marcas a lo largo de los Límites de Confianza y presionado ACEPTAR se regraficará sin los límites interiores:


Figura 3-14. Gráfico de Modelo Ajustado sin Límites de Confidencia

3.2.7 Íconos de Opciones Gráficas Siempre que una gráfica es maximizada en la ventana de análisiss, varios botones adicionales son activados. Estos botones incluyen:

Opciones Gráficas – muestra un cuadro de diálogo usado para cambiar colores, etiquetas, escala de ejes, y otras características similares.

Agregar texto – usado para añadir texto adicional a la gráfica.

Separar puntos – usado para compensar puntos aleatoriamente en la dirección horizontal ó vertical para prevenir que se sobrepongan unos a otros.

Resaltar – colorea los puntos en un plano de dispersión de acuerdo al valor de la variable seleccionada.


Suavizar/Rotar – suaviza un plano de 2 dimensiones, o rota un plano de 3 dimensiones.

Identificar – muestra una etiqueta identificando un punto cuando se da clic sobre él con el ratón.

Localizar por nombre – resalta en color rojo cualesquiera puntos con valores iguales a aquel capturado en el campo Localizar (usado en conjunto con el botón Identificar).

Localizar por fila – resalta en color rojo cualquier punto correspondiente al número de fila capturado en el campo Fila. Cada uno de estos íconos se describe a detalle en el Capítulo 4.

3.2.8 Ícono de Excluir

Algunos procedimientos estadísticos permiten eliminar iteractivamente datos aberrantes sospechosos de un análisis maximizando una gráfica, dando clic en el punto sospechosos, y pulsando este ícono. Por ejemplo, el gráfico en la Figura 3-14 muestra un punto que se encuentra bastante lejos de los limites de predicción. Dando clic en ese punto y pulsando el ícono Excluir provoca que el modelo sea reajustado sin el punto. El gráfico del modelo ajustado muestra el nuevo modelo, indicando con una X cual o cuales puntos han sido eliminados:


Figura 3-15. Modelo Curva-S Ajustado después de excluir un dato aberrante sospechoso

Todas las tablas y gráficas restantes en la ventana de análisis también cambiarán reflejando el nuevo modelo. Diferentes puntos pueden excluirse de un modelo dando clic sobre ellos y pulsando el ícono Excluir de uno en uno. Dando clic en un punto que ha sido eliminado lo integrará al modelo. 3.3 Imprimiendo Resultados Para imprimir los resultados de un análisis estadístico, hay dos opciones disponibles:

1. Para imprimir todas las tablas y gráficas en una ventana de análisis, pulse el botón de Imprimir en la barra de herramientas de análisis o seleccione Imprimir en el menú Archivo.

2. Para imprimir una sola tabla o gráfica, haga clic en su panel con el botón derecho del

mouse y seleccione imprimir del menú que se muestra. Cuando imprime el análisis completo, se mostrará el siguiente cuadro de diálogo:


Figura 3-16. Cuadro de Diálogo para Imprimir un Análisis

Debajo de Rango de Impresión, especifique los paneles a imprimir. Usted podrá imprimir simultáneamente la salida en otras ventanas de análisis seleccionando Todos los Análisis. Opciones adicionales utilizadas para imprimir están contenidas en el cuadro de diálogo al que se puede acceder seleccionando Configurar Página del menú Archivo:


Figura 3-17. Cuadro de Diálogo Configurar Página

En este cuadro de diálogo, usted puede:

1. Especificar márgenes para las hojas a imprimir. 2. Indicar posibles encabezados a imprimir en la parte superior de cada página.

3. Indicar si cada panel (tabla o gráfico) debe ser mostrado en páginas separadas, o si desea

colocar diferentes paneles en una sola página ajustada.

4. Especificar el tamaño relativo de las gráficas como un porcentaje de las dimensiones de la página completa.

5. Elegir la impresión en blanco y negro, aún cuando su impresora tenga capacidades de

hacerlo a color.

6. Imprimir el color del fondo de sus gráficas (si es que existe).


7. Trazar líneas anchas usando 2 pixeles en lugar de 1. Esta opción puede hacer que las gráficas aparezcan mucho más gruesas en una impresora de alta resolución.

Otras opciones, como imprimir la salida en modo de retrato o paisaje, pueden elegirse seleccionando Configurar Impresión en el menú Archivo, que accesa al cuadro de diálogo proporcionado por el driver de su impresora. 3.4 Publicando Resultados La salida de un análisis estadístico puede ser publicado en formato HTML para su vista dentro de un sitio en la web, seleccionando StatPublish del menú Archivo. Esto le permite hacer que la salida este disponible para todos dentro de su organización, tengan o no tengan el STATGRAPHICS Centurion en sus computadoras. StatPublish se describe en el Capítulo 5. Usted puede también copiar el análisis al StatReporter, el cual le permite hacer anotaciones a la salida y posteriormente guardarla en un Archivo RTF (formato de texto enriquecido), para luego ser leído directamente en programas como Microsoft Word. El uso del StatReporter se describe en el Capítulo 6.

81/ Gráficas

Gráficas Modificando gráficas, guardando preferencias de las gráficas, interactuando con las gráficas, guardando gráficas en archivos de imágen y copiando gráficas a otras aplicaciones.

Globalmente, los 150 procedimientos estadísticos en el STATGRAPHICS Centurion crean cientos de diferentes tipos de gráficas. Para facilitar el proceso del análisis de los datos, los nombres, escalas y otros atributos son seleccionados de forma predeterminada cuando una nueva gráfica es creada. Para propósitos del análisis, los predeterminados son suficientes. Pero cuando se requiere publicar los resultados finales, diseñar una gráfica de calidad es importante.

Este Capítulo describe todo lo que necesita saber para trabajar con gráficas en el STATGRAPHICS Centurion. Le muestra como prepararlas para su publicación. Le muestra como copiarlas a aplicaciones como Microsoft Word y PowerPoint. También le muestra cómo interactuar con las gráficas. Por ejemplo, tal vez usted vea un punto interesante y desea saber más sobre el mismo. O tal vez quiera rotar un plano de 3D para percibir cualquier relación que pueda existir entre las variables representadas en los ejes X, Y y Z.

Como ejemplo, consideraremos de nuevo los datos en el archivo 93cars.sf6. Para empezar, el gráfico del modelo ajustado relacionando las millas por galón manejando en la ciudad y el peso del vehículo servirá para ilustrar algunas de las operaciones gráficas importantes.

Capítulo

4

82/ Gráficas

4.1 Modificando Gráficas El procedimiento de Regresión Simple es comúnmente usado para ajustar curvas relacionando una variable de respuesta Y con una variable conocida X. Como se ilustra en el último capítulo, un modelo de Curva-S ofrece un buen ajuste a la relación entre los datos de MPG City y los datos de Weight en el archivo 93cars.sf6.

Cuando se crea por primera vez, una gráfica del modelo ajustado de Curva-S se ilustra como sigue:

Gráfico del Modelo AjustadoMPG City = exp(2.1328 + 2799.07/Weight)

1600 2100 2600 3100 3600 4100 4600Weight

15

25

35

45

55

MP

G C

ity

Figura 4-1. Gráfico del Modelo Ajustado con la Escala y Títulos Predeterinados

Los títulos, las escalas, los puntos y tipos de líneas, los colores y otros atributos gráficos son automáticamente generados.

83/ Gráficas

4.1.1 Opciones de Diseño Para modificar una gráfica una vez que ha sido creada, primero haga doble clic sobre ella para

que así ocupe totalmente la ventana de análisis. Luego haga clic en el ícono Opciones Gráficas localizado en la barra de herramientas de análisis. Se mostrará un cuadro de diálogo con diferentes separadores, que corresponden a los distintos elementos gráficos. El separador Diseño en el cuadro de diálogo Opciones Gráficas es usado para cambiar algunas de las características básicas de la gráfica:

Figura 4-2. Separador de Diseño en el Cuadro de Diálogo Opciones Gráficas

84/ Gráficas

Esto incluye la orientación de las marcas de los ejes, el grueso de los ejes, y el color del fondo de la gráfica y sus bordes. Por ejemplo, cambiando el color del Fondos a amarillo y añadiendo Efectos 3D modifica la gráfica como se muestra a continuación:


1600 2100 2600 3100 3600 4100 4600Weight

15

25

35

45

55

MP

G C

ity

Figura 4-3. Gráfica después de Modificar el Fondo y seleccionar Efectos 3D

85/ Gráficas

4.1.2 Opciones de Mallas El separador Mallas se utiliza para añadir una malla al plano:

Figura 4-4. Separador Malla en el Cuadro de Diálogo Opciones Gráficas

Añadir una malla gris de líneas punteadas en Ambas direcciones produce la siguiente gráfica:

86/ Gráficas


1600 2100 2600 3100 3600 4100 4600Weight

15

25

35

45

55

MP

G C

ity

Figura 4-5. Gráfica después de Añadir una Malla Punteada

87/ Gráficas

4.1.3 Opciones de Líneas El separador Líneas es usado para especificar el tipo, color y grueso de las líneas en la gráfica:

Figura 4-6. Separador Líneas en el Cuadro de Diálogo Opciones Gráficas

Una Gráfica tal como la del modelo ajustado tiene tres líneas diferentes: la línea de mejor ajuste, los límites de confianza internos y los límites de predicción externos. Para cambiar cualquiera de estas líneas, haga clic en su botón correspondiente (número del 1 al 20) y luego seleccione los atributos deseados. Incrementando el grosor de la línea central y cambiando otros tipos de línea resultará en:

88/ Gráficas


1600 2100 2600 3100 3600 4100 4600Weight

15

25

35

45

55

MP

G C

ity

Figura 4-7. Gráfica después de Modificar las Líneas

Nota: solo se puede cambiar el grueso de las líneas sólidas.

89/ Gráficas

4.1.4 Opciones de Puntos El separador Puntos se usa para especificar el tipo, color y tamaño de los puntos en la gráfica:

Figura 4-8. Cuadro de Diálogo del Separador Puntos en Opciones Gráficas

El botón #1 controla los atributos del primer conjunto de puntos en una gráfica. En el ejemplo actual, existe solo un conjunto. Cambiando los puntos a diamantes sólidos creará la siguiente Gráfica:

90/ Gráficas


1600 2100 2600 3100 3600 4100 4600Weight

15

25

35

45

55

MP

G C

ity

Figura 4-9. Gráfica después de Modificar el Tipo de Puntos

91/ Gráficas

4.1.5 Opciones del Título Principal El separador Título Principal se utiliza para especificar el tipo de texto y fuente para la información mostrada por encima de la la gráfica:

Figura 4-10. Separador Título Principal en el Cuadro de Diálogo Opciones Gráficas

Las gráficas tienen hasta 2 líneas por título. Una entrada como “{3}” en un campo de título indica que el texto es automáticamente generado por el procedimiento del análisis, conteniendo usualmente nombres de variables o estadísticos calculados. Usted puede cambiar cualquier título, incluyendo aquellos que son automáticamente creados. También puede arrastrar el título a un nuevo lugar con el ratón:

92/ Gráficas

Fitted S-Curve from 93cars FileMPG City = exp(2.1328 + 2799.07/Weight)

1600 2100 2600 3100 3600 4100 4600Weight

15

25

35

45

55

MP

G C

ity

Figura 4-11. Gráfica después de Modificar el Título Principal

93/ Gráficas

4.1.6 Opciones de Escalas de los Ejes El cuadro de diálogo Opciones Gráficas también contiene separadores que le permiten modificar los títulos de los ejes y su escala:

Figura 4-12. Separador Eje-X en el Cuadro de Diálogo Opciones Gráficas

Existen varios campos importantes en este cuadro de diálogo:

1. Título: título desplegado a lo largo del eje. 2. Desde, Hasta, Por y Omitir: configura la escala de las marcas. El valor en Omitir se utiliza para

evitar mostrar ciertas marcas si estas se juntan entre sí. Por ejemplo, un valor de 1 en el campo Omitir desplegará las marcas saltándose una a la vez.

94/ Gráficas

3. Rotar Etiquetas del Eje- X: despliega verticalmente las etiquetas de las marcas del eje X.

4. Sin Potencias: suprime mostrar números pequeños o grandes usando etiquetas como (X 1000).

5. Log: traza el eje usando una escala logarítmica de base 10.

6. Mantener: congela la escala del eje y evita que pueda ser modificada. Normalmente, los ejes

reajustan su escala al momento en que los datos cambian.

7. Fuentes: pulse este botón para cambiar el color, tamaño, ó estilo del título y de las marcas. La salida generada por los cambios en el cuadro de diálogo superior se muestra a continuación:

Fitted S-Curve from 93cars File

Weight in lbs.

MPG

in c

ity d

rivin

g

MPG City = exp(2.1328 + 2799.07/Weight)

1500 2000 2500 3000 3500 4000 450015

25

35

45

55

Figura 4-13. Gráfica después de Modificar la Escala y los Títulos de los Ejes

95/ Gráficas

4.1.7 Opciones de Relleno Algunos Gráficas, como los histogramas, contienen áreas sólidas. El separador Rellenos en el cuadro de diálogo Opciones Gráficas controla el color y el tipo de relleno de las barras, polígonos y áreas en un Diagrama de Sectores:

Figura 4-14. Separador Rellenos en el Cuadro de Diálogo Opciones Gráficas

El botón #1 controla el primer tipo de relleno en una gráfica. En un histograma, todas las barras utilizan el primer tipo de relleno. En algunas gráficas, como en los diagramas de sectores, se utiliza más de un tipo de relleno. En esos casos, los botones del #2 al #20 controlan los otros tipos de relleno.

96/ Gráficas

Para gráficas como los histogramas, fijar un tipo de relleno no-sólido resulta una buena idea cuando se imprimen los resultados en blanco y negro:

Histograma

1500 2000 2500 3000 3500 4000 4500Weight

0

4

8

12

16

20

24

frec

uenc

ia

Figura 4-15. Histograma con Tipo de Relleno Modificado

4.1.8 Opciones de Texto, Etiquetas y Leyendas Para las gráficas que contienen leyendas o etiquetas adicionales, se incluyen separadores en el cuadro de diálogo Opciones Gráficas que le permiten cambiar los textos y las fuentes.

4.1.9 Añadir Texto Nuevo

Puede agregar texto adicional a cualquier gráfica pulsando el ícono Añadir texto en la barra de herramientas de análisis. Se generará un nuevo cuadro de diálogo donde puede capturar el texto:

97/ Gráficas

Figura 4-16. Cuadro de Diálogo para Añadir un Nuevo Texto La línea de texto será inicialmente posicionada bajo el título principal, pero puede ser arrastrada a cualquier parte mediante el ratón:

Fitted S-Curve from 93cars File

Weight in lbs.

MPG

in c

ity d

rivin

g

MPG City = exp(2.1328 + 2799.07/Weight)

1500 2000 2500 3000 3500 4000 450015

25

35

45

55

< outlier

Figura 4-17. Gráfica después de Añadir una Nueva Línea de Texto

Si necesita hacer cambios después de agregar el texto, haga clic sobre el mismo y luego pulse el botón Opciones Gráficas.

98/ Gráficas

4.2 Separando Puntos en un Gráfico de Dispersión Cuando en un gráfico de dispersión, una o ambas variables son discretas, la posibilidad de que haya puntos exactamente en la misma posición y obstruyéndose entre sí puede ser muy factible. La barra de herramientas de análisis tiene un ícono Separar que soluciona este problema al separar puntos de forma aleatoria en dirección horizontal y/o vertical. Por ejemplo, considere la siguiente gráfica del archivo de datos 93cars.sf6 :

Gráfico de MPG City vs Cylinders

2 3 4 5 6 7 8 9Cylinders

15

25

35

45

55

MP

G C

ity

Figura 4-18. Gráfico de Dispersión de Millas por Galón vs Cilindros

A pesar de que existen 93 casos en la hoja de datos, existen muchos menos de 93 puntos en la gráfica. Si presiona el botón Separar, aparecerá un cuadro de diálogo que le permitirá agregar una pequeña separación (aleatoria) a los puntos:

Figura 4-19. Cuadro de Diálogo de Separación de Puntos

99/ Gráficas

En este caso, añadir una pequeña separación de puntos horizontalmente le otorga una mejor visión de la ubicación de los puntos:

Gráfico de MPG City vs Cylinders

2 3 4 5 6 7 8 9Cylinders

15

25

35

45

55

MP

G C

ity

Figura 4-20. Gráfico de Dispersión después de la Separación Horizontal de Puntos

Cada punto ha sido separado un poco y de forma aleatoria a lo largo del eje horizontal. Separar los puntos de una gráfica solo afecta la manera en que se muestra, mas no tiene efecto alguno sobre los datos de la hoja de datos o en los cálculos realizados con ellos. 4.3 Resaltando Puntos en un Gráfico de Dispersión Un interesante método de visualizar las relaciones entre variables es coloreando los puntos de un gráfico de dispersión de acuerdo al valor de otra variable. Por ejemplo, considere el siguiente Gráfico de Matriz para variables seleccionadas del archivo 93cars.sf6:

100/ Gráficas

MPG City

MPG Highway

Length

Weight

Width

Figura 4-21. Gráfico de Matriz para algunos Datos del Archivo 93cars

El gráfico de dispersión en cada celda de la matriz muestra los valores de las variables correspondientes a sus identificadores de fila y columna. Suponga que usted deseaba visualizar cómo el caballaje de los automóviles se relaciona con las 5

variables graficadas. Si presiona el ícono Resaltar en la barra de herramientas de análisis, se mostrará el siguiente cuadro de diálogo:

Figura 4-22. Cuadro de Diálogo para Seleccionar la Variable a Resaltar

101/ Gráficas

Seleccione una variable numérica a usar para codificar los puntos. Después de seleccionar la variable a resaltar, un cuadro de diálogo emergente aparecerá:

Figura 4-23. Cuadro de Diálogo Emergente para Seleccionar el Intervalo del Resaltado

Las dos barras de desplazamiento se utilizan para especificar los límites superiores e inferiores para la variable. Todos los puntos en el gráfico de dispersión son coloreados con azul claro si caen dentro del intervalo especificado. Por ejemplo, en el gráfica inferior, todos los automóviles con caballaje entre 55.0 y 121.15 son coloreados de azul claro:

MPG City

MPG Highway

Length

Weight

Width

Figura 4-24. Gráfico de Matriz después de Resaltar los Puntos

Es evidente en la gráfica superior que el Caballaje está fuertemente correlacionado con las otras variables.

102/ Gráficas

4.4 Suavizando un Gráfico de Dispersión Para ayudar a visualizar la relación entre las variables en un gráfico de dispersión, puede aplicarse

un suavizamiento. Para suavizar un gráfico de dispersión, pulse el ícono Suavizar/Rotar en la barra de herramientas de análisis. Esto mostrará el siguiente cuadro de diálogo:

Figura 4-25. Cuadro de Diálogo Suavizando un Gráfico de Dispersión

Para suavizar un gráfico de dispersión se selecciona un conjunto de locaciones a lo largo del eje-X para que en una se grafica el promedio ponderado de la fracción específica de los puntos más cercanos a esa locación. Uno de los mejores métodos para suavizar se denomina LOWESS (Suavización de Dispersión Localmente Ponderada), generalmente usando una fracción suavizadora entre 40% y 60%. El resultado de suavizar el Gráfico de Matriz con los datos de los automóviles se muestra a continuación:

103/ Gráficas

MPG City

MPG Highway

Length

Weight

Width

Figura 4-26. Gráfico de Matriz Suavizado usando Lowess con una Fracción Suavizadora del 50%

Suavizar ayuda a ilustrar el tipo de relaciones entre las variables. 4.5 Identificando Puntos Para mostrar el número de fila y las coordenadas correspondientes de cualquier punto en la gráfica, usted debe pulsar el botón izquierdo del ratón sobre el punto. Aparecerá un pequeño cuadro en la esquina superior derecha de la gráfica, mostrando el número de fila y las coordenadas del punto:

104/ Gráficas

Figura 4-27. Mostrando Información sobre el Punto Seleccionado

Al mismo tiempo, el número de fila del punto será colocado en el campo Fila en la barra de herramientas de análisis:

Figura 4-28. Barra de herramientas de análisis mostrando el Número de Fila del Punto Seleccionado

Información adicional sobre el punto puede ser obtenida pulsando el ícono Identificar y seleccionando una columna del Libro de Datos:

105/ Gráficas

Figura 4-29. Cuadro de Diálogo Identificación de un Punto

Después de seleccionar una variable, haciendo clic en cualquier punto aparecerá el contenido de esa variable en el campo Etiqueta de la barra de herramientas de análisis:

Figura 4-30. Barra de herramientas de análisis mostrando el Fabricante del Punto Seleccionado

El ícono de binoculares los a la derecha de los campos Etiqueta y Fila pueden usarse para localizar puntos en una gráfica. Si usted captura un valor en cualesquiera de los campos de edición y luego presiona el botón Localizar correspondiente, todos los puntos en la gráfica que coincidan con el valor capturado serán resaltados. Por ejemplo, la gráfica inferior colorea de azul claro los puntos de todos los Hondas:

106/ Gráficas

Figura 4-31. Gráfica Resaltando todos los Hondas

Esta técnica es también bastante efectiva en un Gráfico de Matriz. En la siguiente gráfica, todos los puntos correspondientes a la fila #42 han sido resaltados:

107/ Gráficas

MPG City

MPG Highway

Length

Weight

Width

Figura 4-32. Gráfico de Matriz Resaltando lal Fila #42

Localizar un punto en el Gráfico de Matriz puede ayudar a identificar si es un dato aberrante con respecto a más de una variable.

Nota: el color usado para resaltar los puntos se determina en el separador Gráficas del cuadro de diálogo Preferencias, accesible desde el menú Editar

4.6 Copiando Gráficas a otras Aplicaciones Una vez que una gráfica ha sido creada en el STATGRAPHICS Centurion, puede ser fácilmente copiada a otros programas como Microsoft Word o PowerPoint haciendo lo siguiente:

1. Maximizando el panel que contiene la gráfica. 2. Seleccionando Copiar del menú Editar del STATGRAPHICS Centurion.

3. Seleccionando Pegar estando en la otra aplicación.

De manera predeterminada, las gráficas son pegadas en formato de “Imágen”, que corresponde a un meta-archivo de Windows. En los casos em que usted deseé pegar la gráfica en algún otro formato, puede seleccionar Pegado Especial en lugar del común Pegar.

108/ Gráficas

Para copiar un análisis completo en otra aplicación, incluyendo todas las tablas y gráficas, primero copie el análisis al StatReporter usando el menú emergente al pulsar el botón derecho del ratón y luego copie el StatReporter a la otra aplicación. Esta técnica es explicada en el Capítulo 7. Para copiar tanto la gráfica como la ventana que la contiene, como en la Figura 4-31 arriba, una herramienta de captura de ventana externa se recomienda. En la producción de éste manual, se ha utilizado un programa llamado SnagIt, el cual está disponible para su compra en www.techsmith.com. Si usa el SnagIt, le recomendamos que fije la opción Input a “Window” y la opción Output a “Clipboard”. Entonces así podrá pegar imágenes directamente a cualquier documento. 4.7 Guardando Gráficas como Archivos de Imágen Gráficas Individuales también pueden ser guardadas en archivos imágen maximizando una gráfica y luego seleccionando Guardar Gráficos del menú Archivo. Un cuadro de diálogo se presentará en el cual debe especificar el nombre de un archivo y el formato de imágen:

Figura 4-33. Cuadro de Diálogo para Seleccionar Archivo a guardar en un Archivo Imágen

http://www.techsmith.com/

109/ Gráficas

Para guardar las gráficas que serán leídas en Word o PowerPoint, debe guardar la gráfica como un meta-archivo de Windows lo que otorga una mayor flexibilidad. Si la gráfica es para ser mostrada en una página web, se recomienda guardarla como un archivo JPEG.

110/ StatFolios

StatFolios Guardando su sesión de trabajo, publicando resultados en formato HTML, y automatizando análisis usando rutinas ejecutables.

Cada vez que usted selecciona un análisis estadístico del menú del STATGRAPHICS Centurion, se crea una nueva ventana de análisis. Usted puede guardar todas las ventanas de análisis en cualquier momento creando un StatFolio. El StatFolio es un archivo que contiene la definición de todos los análisis estadísticos que han sido creados, con apuntadores a los datos utilizados en los mismos. Al guardar un StatFolio y reabrirlo después, usted guarda y recupera eficientemente su sesión de trabajo actual del STATGRAPHICS Centurion. Cuando se guarda una sesión en un StatFolio, la estructura del análisis es lo que se guarda y no los resultados. Cuando se reabre un StatFolio, los datos asociados son releídos y todo el análisis es recalculado. Los StatFolios proveen un método simple para repetir posteriormente los análisis usando diferentes datos. A su vez también puede crear una rutina que se ejecute siempre que un StatFolio sea cargado. Detalles de ésta y otras características de los StatFolios se describen en éste Capítulo. 5.1 Guardando su Sesión de Trabajo Para guardar el estado actual de su sesión de trabajo en el STATGRAPHICS Centurion, seleccione Archivo – Guardar – Guardar StatFolio en el menú principal. Capture un nombre para el StatFolio en el cuadro de diálogo que se muestra a continuación:

Capítulo

5

111/ StatFolios

Figura 5-1. Cuadro de Diálogo de Selección de Archivo para Guardar un StatFolio

Los StatFolios son guardados en archivos con la extensión .sgp. Estos contienen:

1. Una definición de todos los análisis creados, incluyendo las variables usadas, las tablas y las gráficas, configuraciones de todas las opciones elegidas, cambios hechos a las gráficas, etc. Cuando un StatFolio es reabierto, los análisis son recalculados y se actualizan todas las tablas y gráficas.

2. Los vínculos a las fuentes de datos contenidos en el Libro de Datos. Si los datos

cambian entre el tiempo en que un StatFolio es guardado y cuando es reabierto, la ventana de análisis reflejará los cambios.

3. Vínculos a los archivos de StatGallery y StatReporter, en caso de que se haya colocado

material en ellos antes de que el StatFolio sea guardado. El programa le pedirá que provea los nombres para el StatGallery y el StatReporter cuando se guarde el StatFolio.

112/ StatFolios

5.2 Rutinas del StatFolio Cuando se carga por primera vez un StatFolio, todas las ventanas de análisis son restauradas a su condición previa. Entonces STATGRAPHICS Centurion busca encontrar si una Rutina de Inicio ha sido guardada con el StatFolio y la ejecuta si la encuentra. Una rutina puede ser creada seleccionando Rutina de Inicio del Statfolio del menú Editar. Se mostrará un cuadro de diálogo con campos para definir una secuencia de acciones a realizar:

Figura 5-2. Una Rutina de Inicio Básica de un StatFolio

Las operaciones deseadas son especificadas en el orden en el que deben ejecutarse. Las operaciones disponibles son:

113/ StatFolios

Operación Argumento Objetivo Descripción Ejecutar Título del Análisis Actualiza el análisis indicado. Asignar Expresión STATGRAPHICS

Centurión Nombre de Columna

Evalúa la expresión y la asigna a la columna indicada.

Imprimir Ventana(s) a imprimir Imprime el contenido de las ventanas indicadas.

Publicar Corre StatPublish para publicar los contenidos del StatFolio en formato HTML.

Cápsula Comando Windows a ejecutar Argumento del Comando

Genera que Windows ejecute un comando.

Retrasar Número de Segundos Hace una pausa por el tiempo especificado

Cargar Nombre del StatFolio Especifica el StatFolio a cargar al momento en que la rutina se corra. Esto permite que los StatFolios se ejecuten en cadena.

Salir Salir del STATGRAPHICS Centurion

Figura 5-3. Operadores de la Rutina de Inicio

En el ejemplo mostrado en la Figura 5-2, una Regresión Simple es elaborada. Dentro de ese análisis, se asume que Guardar Resultados ha sido programado para guardar los residuos del modelo ajustado en una columna llamada RESIDUALS. Los residuos son entonces divididos por los valores originales de los datos y luego multiplicados por 100 para crear los porcentajes de error, que son asignados a una nueva variable llamada PERROR. Los valores en PERROR son entonces resumidos usando el procedimiento Análisis de Una Variable, después del cual los resultados de ambos análisis son impresos. Note que los StatFolios pueden encadenarse utilizando en una línea el operador CARGAR para cargar y empezar la ejecución en otro StatFolio. También puede salirse automáticamente del STATGRAPHICS Centurion usando el operador SALIR. NOTA: Usted puede suprimir la ejecución de rutinas seleccionando Inhabilitar Rutinas de Inicio en el separador General del cuadro de diálogo Preferencias, accesible desde el menú Editar:

114/ StatFolios

Figura 5-4. Inhabilitando Rutinas de Inicio

115/ Statfolios

5.3 Actualizando Datos Vinculados Una vez que un StatFolio ha sido creado conteniendo diferentes, los datos pueden ser releídos en intervalos de tiempo fijos originando la actualización del análisis. Esto se obtiene usando el cuadro de diálogo Propiedades del Libro de Datos en el menú Editar, o seleccionando StatLink en el menú Archivo:

Figura 5-5. Cuadro de Diálogo Propiedades del Libro de Datos para Actualizar con Datos Vinculados

Para consultar las fuentes de los datos repetidamente:

1. Coloque una paloma en la opción de Actualizar para cada fuente de datos a releer. 2. Habilite a Encendido en el cuadro de opción Actualizando.

3. Especifique la frecuencia para releer los datos.

4. Seleccione Ejecutar Rutina si desea correr la rutina de inicio del StatFolio cada vez que los

datos sean leídos.

116/ Statfolios

Al incluir el operador Publicar en algún paso de la rutina de inicio, usted puede hacer que STATGRAPHICS Centurion guarde automáticamente los resultados en un servidor de red. 5.4 Publicando Datos en Formato HTML La salida de un StatFolio puede ser publicada en un formato que sea visible usando un navegador de red básico, seleccionando StatPublish del menú Archivo. Se muestra un cuadro de diálogo para indicar que resultados se publican y donde deben colocarse:

Figura 5-6. Cuadro de Diálogo StatPublish para crear una salida HTML

Los campos en este cuadro de diálogo se usan para especificar: • Archivo HTML en un directorio local: Este es el nombre del archivo HTML que

mantendrá el contenido del StatFolio. Enlistará el contenido del StatFolio y proveerá vínculos a otros archivos HTML correspondientes a cada ventana en el StatFolio. De manera predeterminada, es colocado en el mismo directorio que el propio StatFolio, con el

117/ Statfolios

mismo nombre que el StatFolio pero con la extensión .htm en lugar de .sgp. Para visualizar un StatFolio publicado, normalmente un navegador será direccionado a abrir este archivo.

• FTP sitio URL: Toda los resultados publicados son primeramente colocados en el

directorio local arriba indicado. Esto incluye archivos HTML , archivos de imágen conteniendo las gráficas y otros archivos de soporte. Si se captura un sitio en el campo FTP Sitio URL, todos los archivos también serán subidos a la dirección referida por el URL. Normalmente este es un directorio de un servidor. Note que usted deberá tener acceso FTP para escribir en el URL indicado, lo cual tal vez deba ser programado por el administrador de la red.

• FTP Nombre de Usuario: nombre de usuario para el acceso FTP al URL indicado. • FTP Clave de acceso: clave de acceso para el acceso FTP al URL indicado. • Incluir: Revisa todos las ventanas del StatFolio que deben publicarse. • Ancho y Altura de la Gráfica en Pixeles: el tamaño de las gráficas cuando se introduzcan

en los archivos HTML. • Formato de Imágen: Las gráficas pueden ser agregadas en archivos HTML en una de las

siguientes tres formas:

1. JPEG – imágenes estáticas guardadas en formato JPEG. Los archivos son creados con nombres similarea a ejemplo_análisis_gráfica.jpg.

2. PNG – imágenes estáticas guardadas en formato PNG. Los archivos son creados con

nombres como ejemplo_análisis_gráfica.png.

3. Java Applets – salidas dinámicas que pueden ser actualizadas mientras son vistas por el navegador. Mientras en el navegador, la gráfica será actualizada en la frecuencia indicada leyendo un archivo auxiliar con un nombre similar a ejemplo_análisis_gráfica.sgz. Esta opción está diseñada para utilizarse en conjunto con la actualización de datos en tiempo real usando el STATLink, como se describe en el archivo PDF titulado Procesamiento y Análisis Dinámico de Datos. Nota: no todas las gráficas serán publicadas apropiadamente usando ésta opción. Si una ó más gráficas no se muestran correctamente en la salida publicada, seleccione una opción diferente.

118/ Statfolios

• Agregue interactividad a los applets: Para las gráficas publicadas como applets, el seleccionar esta característica le permite al usuario ver información acerca de los valores de los datos dando clic en un punto mientras se encuentre en el navegador de la red.

Después de completar los campos de captura, pulse ACEPTAR para publicar el StatFolio. Para ver un StatFolio publicado, inicie cualquier navegador de red y use su ícono de Archivo para abrir el archivo especificado en el campo superior de la Figura 5-6. Usted puede también visualizar la salida seleccionando Ver Resultados Publicados del menú Archivo en STATGRAPHICS Centurion.

NOTA: Las tablas y gráficas son guardadas en los archivos de salida HTML con nombres automáticamente generados por StatPublish. Mientras esté en el navegador de red, podrá ver el código de la fuente HTML y determinar fácilmente los nombres de los archivo. Estos archivos entonces pueden ser agregados a su propia página web si así lo desea.

119/Usando el Statgallery

Usando el StatGallery Mostrando gráficas en varios planos y sobreponiendo gráficas.

StatGallery es una ventana especial dentro del STATGRAPHICS Centurion donde las gráficas creadas en otros procedimientos pueden pegarse en forma adjunta ó encima una de otra. Visualizando una gráfica al lado de otra, consiste en una herramienta muy poderosa para comparar dos conjuntos de datos, dos modelos estadísticos ó dos niveles de un gráfico de contorno. Sobreponiendo las gráficas crea presentaciones únicas que no se pueden producir en ningún otro lugar del programa.

Las gráficas del StatGallery se guardan en archivos con extensión .sgg. Si usted coloca la salida en StatGallery, un puntero al archivo StatGallery será guardado en el StatFolio presente. Cuando el StatFolio es reabierto posteriormente, automáticamente se cargará el StatGallery asociada.

6.1 Configurando una página del StatGallery El StatGallery está contenido en una ventana diferente que es creada cuando el STATGRAPHICS Centurion es cargado por primera vez. Consiste de una ó más páginas, cada una capaz de mostrar hasta 9 gráficas. De manera predeterminada, cada página de la galería esta configurada para mostrar 4 gráficas, como se muestra a continuación:

Capítulo

6


Figura 6-1. La ventana del StatGallery

Los botones en la parte superior de la ventana le permiten navegar a otras páginas en la galería.. Si usted requiere cambiar el número de gráficas mostradas en una página, pulse el botón derecho del ratón y seleccione Organizar Ventanas. Para una sola página pueden seleccionarse arreglos conteniendo hasta 9 gráficas:

Figura 6-2. Configuraciones Alternativas para una Página del StatGallery


Cada uno de los siete arreglos a la izquierda corresponden a un conjunto rectangular de filas y columnas. La opción Por Columnas le permite crear un arreglo con diferentes números de filas en cada una de las 3 columnas. Usted puede también utilizar las barras de desplazamiento en la ventana del StatGallery para acomodar los paneles como lo desee. 6.2 Copiando Gráficas al StatGallery Para colocar una gráfica en el StatGallery, primero debe copiarla desde la ventana de análisis donde fue creada al portapapeles de Windows. Por ejemplo, suponga que desea mostrar gráficos de contorno creados en el procedimiento DDE-Analizar Diseño a dos niveles diferentes de un factor experimental seleccionado. Los pasos a seguir son:

1. Configurar una página seleccionada del StatGallery para mostrar gráficos en un formato Izquierda y Derecha.

2. Generar un gráfico de contorno dentro de Analizar Diseño para un nivel del factor

experimental y copiarlo al portapapeles de Windows.

3. Activar la ventana del StatGallery. Hacer clic con el botón derecho del ratón en el panel extremo izquierdo y seleccionar Pegar para colocar el gráfico de contorno en el StatGallery.

4. Regresar a la ventana Analizar Diseño y genere un segundo gráfico de contorno en un

nivel diferente del factor experimental. Copiarlo al portapapeles de Windows.

5. Regresar a la ventana del StatGallery. Hacer clic con el botón derecho del ratón en el panel extremo derecho y seleccionar Pegar . Esto colocará el segundo gráfico de contorno a un lado del primero en el StatGallery.

La desplegado resultante es similar al que se muestra a continuación:


Figura 6-3. Gráficas Adjuntas en el StatGallery

En el plano superior, la progresión de los colores de una gráfica a la otra muestran un decremento en la fuerza mientras un incremento en el polietileno. Cuando pegue una gráfica en el StatGallery, en lugar de usar Pegar debe seleccionar Pegar Vínculo en el menú emergente al pulsar el botón derecho del ratón. Con pegar vínculo, la gráfica en la galería es vinculada inmediatamente a la ventana de análisis en donde originalmente fue creada y se cambiará en el StatGallery siempre que cambie en la ventana de análisis original.

6.3 Sobreponiendo Gráficas Cuando una gráfica es pegada en el StatGallery dentro de un panel que ya contiene otra gráfica, se tienen la opción de reemplazar la gráfica que se encuentra ahí o sobreponer la nueva gráfica por encima de la existente. Sobreponer una gráfica en otra puede ser útil, como cuando se ajustan dos modelos estadísticos diferentes:


Figura 6-4. Sobreponiendo Gráficas en el StatGallery

Cuando una gráfica es sobrepuesta en otra que ya se encontraba en el StatGallery, solo el contenido dentro de los ejes de la segunda gráfica se despliegan. El texto de la segunda gráfica NO se incluye.

Note: Si la escala de la segunda gráfica es diferente al de la primera, la segunda gráfica será ajustada para que concuerde con la primera.

6.4 Modificando una Gráfica dentro del StatGallery Ciertos aspectos de una gráfica pueden ser modificados después de ser pegada en el StatGallery.

6.4.1 Añadiendo Detalles Gráficos Para añadir un detalle gráfico:


1. Haga doble clic en la gráfica deseada para maximizarla. 2. Pulse el botón derecho del ratón y seleccione Agregar Objeto del menú. El cuadro de

diálogo emergente aparecerá:

Figura 6-5. Cuadro de Diálogo para Agregar Objeto

3. Seleccione el tipo de objeto que desea añadir al gráfico. Los 5 primeros botones en el cuadro de diálogo de la Figura 6-5 funcionan manteniendo pulsando el botón del ratón y desplazando la línea o la figura hasta que se rellene el área deseada. El último botón activa el modo de texto de manera que la próxima vez que haga clic en la gráfica, un cuadro de diálogo de captura de texto se mostrará. El texto agregado puede entonces ser desplazado al sitio deseado.

6.4.2 Modificando Detalles Gráficos Para modificar un detalle gráfico en el StatGallery:

1. Haga doble clic en la gráfica deseada para maximizarla. 2. Hacer clic sobre el objeto a cambiar para indicarlo. Pequeños bloques rectangulares

aparecerán alrededor del objeto que ha sido marcado.

3. Pulse el botón derecho del ratón y elija Modificar Objeto del menú que se muestra. Se mostrará un cuadro de diálogo correspondiente al tipo de objeto señalado, en el cual se realizan los cambios deseados.

6.4.3 Eliminando Detalles Gráficos Para eliminar un detalle gráfico en el StatGallery:

1. Haga doble clic en la gráfica deseada para maximizarla. 2. Haga clic con el ratón sobre el objeto a borrar para indicarlo.


3. Pulse el botón derecho del ratón y elija Borrar Objeto del menú que se muestra.

6.5 Imprimiendo el StatGallery Para imprimir los objetos en el StatGallery:

1. Active la ventana del StatGallery dando clic sobre la misma con el ratón.

2. Pulse el ícono Imprimir en la barra de herramientas principal, u pulse el botón derecho del ratón y elija Imprimir del menú que se muestra.

Usted puede imprimir todas las páginas o un conjunto seleccionado de las mismas.

126/ Usando el StatReporter

Usando el StatReporter Copiando análisis al StatReporter, haciendo notaciones a los reportes y guardando los resultados en un Archivo RTF para importarlos a Microsoft Word.

El StatReporter es una ventana donde los reportes de salida de los diferentes procedimientos estadísticos pueden ser integrados en un reporte más formal. Es una versión básica del WordPad, que corre desde el STATGRAPHICS Centurion. El StatReporter le permite:

1. Crear un reporte completo en el STATGRAPHICS, sin la necesidad de usar otra aplicación. Esto puede ser muy útil donde los recursos son limitados, como en un área de producción.

2. Guardar el contenido del StatReporter en un archivo con formato RTF (Rich Text

Format), que puede ser leído directamente en programas como Microsoft Word. 7.1 La Ventana StatReporter El StatReporter consiste de una ventana separada dentro del STATGRAPHICS Centurion, creada automáticamente cuando se carga el programa. Consiste de un exclusivo control de edición enriquecido, junto con una barra de herramientas:

Capítulo

7


Figura 7-1. La ventana del StatReporter

Usted puede teclear texto dentro de la ventana o pegar el reporte de salida creado en cualquier otra parte dentro del STATGRAPHICS. 7.2 Copiando la Salida al StatReporter STATGRAPHICS Centurion ofrece tres métodos para copiar la salida al StatReporter:

1. Copiar una sola tabla o gráfica al StatReporter, primero cópiela al portapapeles de Windows maximizando el panel correspondiente y luego seleccione Copiar del menú Editar. Posteriormente entre a la ventana del StatReporter y coloque el cursor en el sitio deseado, entonces seleccione Editar – Pegar.

2. Alternativamente, maximize el panel que contiene la tabla o la gráfica a mover dando

doble clic sobre el mismo. Luego pulse el botón derecho del ratón y seleccione Copiar Ventana al StatReporter del menú que se muestra. Esto automáticamente pega la tabla o gráfica donde quiera que se encuentre el cursor en el StatReporter.


3. Para copiar todos los reportes de salida de una ventana de análisis, pulse el botón derecho del ratón y elija Copiar Análisis al StatReporter del menú que se muestra. Todas las tablas y gráficas en la ventana de análisis serán pegadas en el StatReporter.

Cada una de éstas operaciones realiza un pegado estático (los reportes de salida en el StatReporter nunca cambiarán). Usted puede vincular una tabla o gráfica a su fuente de origen usando el método #1 arriba mencionado pero seleccionando Pegar Vínculo en lugar de Pegar. La tabla o gráfica pegada en el StatReporter será entonces “iteractiva”, en el sentido de que cambiará automáticamente cuando el reporte de salida cambie en la ventana de análisis de la cual la tabla o gráfica fueron copiadas. 7.3 Modificando la Salida del StatReporter La barra de herramientas del StatReporter le permite modificar los reportes de salida una vez que han sido colocados en la ventana. Para cambiar el texto, seleccione el texto a cambiar y pulse cualquier botón de la barra de herramientas del StatReporter. Usted puede también insertar la fecha y hora actual pulsando el botón Fecha/Hora. 7.4 Guardando el StatReporter Para guardar el reporte de salida del StatReporter, seleccione Archivo – Guardar – Guardar StatReporter del menú principal y capture un nombre para identificar el archivo a guardar. El contenido del StatReporter es guardado en archivos de tipo .rtf, que pueden ser leídos directamente en programas como Microsoft Word. Siempre que se abre un StatFolio, éste automáticamente carga el StatReporter que estaba presente cuando el StatFolio fue guardado. Usted puede también abrir un StatReporter independientemente usando el menú Archivo – Abrir.

129/ Usando el StatWizard

Usando el StatWizard Seleccionando el análisis estadístico adecuado, buscando las estadísticas y pruebas deseados y generando múltiples ventanas en base a diferentes factores.

El StatWizard es una herramienta exclusiva del STATGRAPHICS Centurion diseñada para ayudarle a usted de muchas maneras:

1. Puede ayudarlo a crear una nueva hoja de datos o leer una fuente de datos existente. 2. Puede sugerir análisis basados en el tipo de datos a analizar.

3. Puede buscar estadísticos o pruebas deseadas y dirigirlo a los procedimientos de análisis

que los calcularon.

4. Puede ayudar en la definición de las transformaciones de los datos o en la selección de un subconjunto de datos.

5. Puede repetir análisis deseados para cada valor específico de una columna de datos.

El StatWizard aparece siempre que usted carga el STATGRAPHICS Centurion, a menos de que usted elija suprimir esta opción. El asesor puede también invocarse en cualquier momento

pulsando el ícono del StatWizard en la barra de herramientas principal.

Capítulo

8

130/ Usando StatWizard

8.1 Accesando Datos o Creando un Nuevo Estudio Si el Libro de Datos se encuentra vacío cuando se activa el StatWizard, éste muestra un cuadro de diálogo cuestionándole sobre sus requerimientos de datos:

Figura 8-1. Cuadro de Diálogo del StatWizard para Requerimiento en la Captura de Datos

Existen 3 opciones:

1. Usted desea cargar nuevos datos en el Libro de Datos del STATGRAPHICS Centurion. El asesor entonces lo guiará a traves de una secuencia de cuadros de diálogo adicionales con la finalidad de definir las columnas de una hoja de datos o seleccionar una fuente de datos, como se describió en capítulos anteriores de éste manual.


2. Usted desea crear un nuevo estudio antes de recolectar datos. En este caso, el asesor le pedirá que especifique el tipo de estudio a crear y lo guía a traves de una secuencia de cuadros de diálogo en los cuales se definirá el estudio a crearse.

3. Usted desea ejecutar un análisis que no requiera datos. En este caso, el asesor enlistará

todos esos análisis, le pedirá que seleccione uno y luego lo llevará inmediatamente a dicho análisis.

Por ejemplo, suponga que desea establecer un nuevo estudio para un instrumento de medición con la finalidad de estimar su repetibilidad y reproducibilidad. Seleccionando el segundo botón en la Figura 8-1 y pulsando Aceptar se muestran las siguientes opciones:

Figura 8-2. Cuadro de Diálogo del StatWizard para Establecer un Estudio


Seleccione Establecer un Estudio R&R de Calibrador...y pulse Aceptar para mostrar un tercer cuadro de diálogo solicitando información sobre el estudio:

Figura 8-3. Cuadro de Diálogo StatWizard para configurar el Estudio de Calibrador

En el cuadro de diálogo, capture el número de operadores que serán involucrados en el estudio, el número de partes que serán medidas y el número de ocasiones en que cada operador medirá cada una de las partes. Usted deberá determinar un encabezado para el estudio. Un último cuadro de diálogo solicitará los nombres de los operadores, evaluadores o laboratorios que estarán realizando las mediciones:


Figura 8-4. Cuadro de Diálogo para Determinar los Nombres de los Operadores

El StatWizard crea el estudio deseado y lo sitúa en la hoja de datos en el Libro de Datos:

Figura 8-5. Estudio Calibración Creado por el StatWizard


El estudio será entonces elaborado y las mediciones capturadas en la hoja de datos. El StatWizard puede entonces ser invocado nuevamente para seleccionar el procedimiento de análisis (o puede ir directamente a los análisis relacionados en el menú principal). 8.2 Seleccionando un Análisis para sus Datos Si los datos ya han sido leídos al Libro de Datos, haciendo clic en el ícono del StatWizard se muestra un cuadro de diálogo de donde se pueden seleccionar uno ó más análisis a efectuar:

Figura 8-6. Cuadro de Diálogo StatWizard para Seleccionar Análisis

Existen cinco opciones:

1. Seleccionar Análisis Basado en el Tipo de Datos: Muestra cuadros de diálogo adicionales solicitando información sobre los datos a analizar, para después presentar una lista de procedimientos relacionados.


2. Seleccionar Análisis por Nombre: Muestra todos los análisis disponibles en orden

alfabético. Seleccionando un análisis por nombre y pulsando ACEPTAR lo lleva directamente al cuadro de diálogo de captura de datos para ese análisis, evitando pasar por menús intermedios.

3. Seleccionar un SnapStat: Le permite seleccionar un SnapStat. Los SnapStats son

análisis concisos que producen una sola página de salida pre-formateada. Tienen menos opciones que otros análisis pero son muy fáciles de crear.

4. Buscar: Muestra una lista de estadísticas, pruebas, gráficas y otras salidas que pueden ser

creadas en el STATGRAPHICS Centurion. Seleccionado un objeto de la lista cambiará lo mostrado en el campo Seleccionar Análisis por Nombre , enlistando solo aquellos análisis que calculan el objeto deseado.

5. Seleccionando de las Siguientes Elecciones Rápidas: Enlista algunos de los análisis

más comúnmente utilizado. Al seleccionar un análisis y pulsando ACEPTAR lo llevará directamente al cuadro de diálogo de captura de datos para ese análisis.

Si elije la opción #1, el StatWizard enseguida mostrará un cuadro de diálogo en el cual se deben indicar los datos a analizar. Por ejemplo, si el archivo 93cars.sf6 es leído al Libro de Datos, el cuadro de diálogo tomará la siguiente forma:


Figura 8-7. Cuadro de Diálogo StatWizard de Selección de Datos

Los campos en este cuadro de diálogo son:

• Datos o Variables de Respuesta (Y): una o más variables de respuesta que contenga los valores a analizar. Si solo una columna contiene datos a analizar, esta debe ser capturada en este campo.

• Tipo: el tipo de datos contenidos en la(s) variable(s) de respuesta. Los análisis mostrados

en los cuadros de diálogo subsecuentes dependen de esta elección.

• Factores Explicativos Cuantitativos (X): cualquier factor cuantificable usado para predecir las variables de respuesta. En una regresión, las variables independientes van aquí.

• Factores Categóricos Explicativos (X): cualquier facor no cuantificable usado para predecir las

variables de respuesta. En un ANOVA, los factores explicativos van aquí.


• Etiquetas del Caso: una columna que contenga las etiquetas de identificación para cada una

de las observaciones (filas). Los procedimientos presentados en los cuadros de diálogo subsecuentes dependen de la captura de datos hecha en la Figura 8-7. El siguiente cuadro de diálogo le solicita cuales filas del archivo desea analizar:

Figura 8-8. Cuadro de Diálogo StatWizard para Selección de Filas

Las primeras seis opciones asumen que usted desea crear un solo análisis. La última opción creará varias ventanas de análisis, una para cada valor específico contenido en la columna


indicada. Este es un modo sencillo de determinar una variable “CONDICIONADA” para un conjunto de análisis. Enseguida se le preguntará si desea transformar cualquiera de las variables indicadas. Si usted contesta afirmativamente, se mostrará el siguiente cuadro de diálogo:

Figura 8-9. Cuadro de Diálogo StatWizard para Transformación de Variables

Usted puede seleccionar una transformación para una o más variables. Al solicitar una transformación entonces se creará la expresión adecuada. Por ejemplo, al solicitar una raíz cuadrada para MPG City se creará la expresión SQRT(MPG City) y será usada en los procedimientos de análisis.


Al final se mostrará un cuadro de diálogo enlistando todos los análisis adecuados para el tipo de datos que se han determinado:

Figura 8-10. Cuadro de Diálogo StatWizard de Selección de Análisis

Seleccione uno ó más análisis de la lista. Cuando pulse ACEPTAR una ventana de análisis será creada para cada análisis seleccionado. 8.3 Buscando por Pruebas y Estadísticas Deseadas Si usted desea calcular una estadística o prueba en particular sin estar seguro de que análisis es el que lo calcula, entonces después de capturar sus datos en una hoja de datos, pulse el ícono del StatWizard en la barra de herramientas principal. En el cuadro de diálogo inicial del


StatWizard, elija Buscar y recorra la lista hacia abajo. La lista de todas las estadísticas, pruebas y otros cálculos ejecutados por el STATGRAPHICS Centurion serán mostrados:

Figura 8-11. Usando las Opciones de Búsqueda del StatWizard

Al elejir un objeto de la lista, todos los análisis que calculan o generan ese objeto serán mostrados en el campo Seleccionar Análisis por Nombre:


Figura 8-12.Lista de Todos los Análisis que Coinciden con la Opción de Búsqueda

Ahora para correr el análisis deseado de esta lista:

1. Haga clic en la opción de Seleccionar Análisis por Nombre. 2. Resaltar el nombre del análisis. 3. Pulsar ACEPTAR.

Se pasará directamente al cuadro de diálogo de captura de datos para el análisis seleccionado, evitando pasar por la manera común del uso de los menús.

142/ Preferencias del Sistema

Preferencias del Sistema Configurando las preferencias del funcionamiento del sistema.

El STATGRAPHICS Centurion contiene cientos de opciones, cada una tiene un valor predeterminado que ha sido seleccionado para satisfacer las necesidades de la mayoría de los usuarios. Si lo desea, se pueden configurar nuevos valores predeterminados para la mayoría de estas opciones. En el programa existen 3 aspectos principales para realizar esto:

1. Funcionalidad General del Sistema: se configura en el cuadro de diálogo Preferencias accesible desde el menú Editar.

2. Opciones de Impresión: se configura en el cuadro de diálogo Configurar Página desde el

menú Archivo.

3. Las Gráficas: se configuran seleccionando Opciones Gráficas al maximizar cualquier gráfica. El separador Perfil en el cuadro de diálogo Opciones Gráficas le permite guardar varios conjuntos de atributos para las gráficas.

9.1 Funcionalidad General del Sistema Los valores predeterminados para el funcionamiento general del sistema y de los procedimientos estadísticos seleccionados pueden ser modificados seleccionando PreferenciasError! Bookmark not defined. del menú Editar. Esto muestra un cuadro de diálogo con varios separadores, incluyendo el separador General que define el comportamiento global del sistema y otros separadores que contienen los valores predeterminados para los análisis estadísticos:

Capítulo

9


Figura 9-1. Cuadro de Diálogo de Preferencias

Algunas de las opciones mas importantes que pueden ser configuradas son: • Nivel de Confianza: porcentaje predeterminado para usarse en los límites de confianza,

límites de predicción, pruebas de hipótesis e interpretaciones del Valor-P por el StatAdvisor. • Dígitos Significativos: número de dígitos significativos usados para mostrar resultados

numéricos. El campo adicional indica el número de dígitos con los que se guardan los resultados numéricos de regreso en la hoja de datos.

• Opciones del Sistema: opciones que aplican a todo el sistema.


o Usar Menú Seis Sigma: muestra el menú principal bajo los encabezados correspondientes al modelo Seis Sigma DMAMC (Definir, Medir, Analizar, Mejorar, Controlar). Las mismas selecciones están disponibles con el menú clásico, con la excepción de que están arregladas bajo diferentes encabezados del menú principal.

o Ordenar Nombres de Variables: enlistar los nombres de las columnas en orden

alfabético dentro de los cuadros de diálogo de captura de datos. De otra forma, los nombres de las columnas serán enlistados en el mismo orden que en la hoja de trabajo.

o Año de 4 dígitos: mostrar fechas con años de 4 dígitos en lugar de 2 dígitos. De forma

predeterminada se asume que los años de 2 dígitos como 2/1/05 representan fechas entre 1950-2049. Los cambios en esta opción tendrán efecto hasta que el programa se reinicie.

o Habilitar Autoguardar: guardar el StatFolio y los archivos de datos de manera

automática y definir el tiempo entre cada acción de guardar. Si se habilita esta opción y la computadora o el programa tienen algún imperfecto, se tiene la opción de reestablecer el estado del StatFolio y de la hoja de datos cuando se reinicie el programa.

o Actualizar Vínculos para Cada Valor: recalcular todas las estadísticas siempre que el

valor de un dato cambie. Normalmente, las estadísticas no son recalculadas hasta que un análisis recibe la indicación, es impreso, publicado o el StatFolio es guardado.

• Gráficas: opciones que aplican a todas las gráficas.

o Mantener la Razón de Apariencia 1:1: mostrar los ejes verticales y horizontales con la misma longitud. Normalmente el eje horizontal es más largo que el vertical.

o Siempre Blanco y Negro: mostrar gráficas en blanco y negro, anulando cualquier otra

configuración de colores.

o Suprimir el espacio entre las marcas de los ejes: suprimir el espacio normal entre la intersección del eje vertical y horizontal y la primera marca de los ejes. Si se suprime el espacio, algunos puntos simbólicos pueden caer directamente en los ejes.

o Suprimir Potencias en los Ejes: suprimir la notación especial al mostrar valores

pequeños o grandes en las marcas de los ejes, usualmente se usan notaciones como (X1000).


o Número de Decimales para Etiquetas: número predeterminado de decimales a usar en las leyendas mostradas a lo largo del márgen derecho de las gráficas. También se puede configurar la fuente del texto.

• StatAdvisor: configura el comportamiento predeterminado del StatAdvisor.

o Añadir a Paneles de Texto: añadir automáticamente el informe del StatAdvisor al final de las ventanas de texto. El informe del StatAdvisor siempre disponible pulsando el ícono del birrete en el menú principal.

o Resaltar Referencias en Rojo: resaltar con rojo en las ventanas de texto, los valores

referidos por el StatAdvisor. • Encabezados de los Análisis: usar una fuente azul para mostrar el título del análisis en la

parte superior del panel del Resumen del Análisis. • StatFolios: seleccione Inhabilitar Rutinas de Inicio para evitar que las rutinas de inicio se

ejecuten al momento de cargar un StatFolio. • Directorio de Archivos Temporal: Si se especifica, los StatFolios, los archivos de datos y

otros archivos serán colocados primero en este directorio, antes de ser copiados a su destino final. Al determinar un manejador local, esto ayuda a incrementar enormemente la velocidad en algunas redes, ya que reduce el número de instrucciones a la misma para guardar archivos.

La descripción de las otras opciones las puede encontrar en el documento PDF Preferencias. 9.2 Imprimiendo Existen dos alternativas en el menú Archivo que controlan los reportes impresos:

1. Configurar Impresión: da acceso al cuadro de diálogo de opciones de una impresión estándar que incluye el manejador de su impresora. Este cuadro de diálogo típicamente configura el tamaño y orientación de la hoja impresa.

2. Configurar Página: cuadro de diálogo en el STATGRAPHICS Centurion que configura los

márgenes, los encabezados y otras opciones. Este cuadro fué descrito en la sección 3.3.


9.3 Gráficas Al maximizar un panel que contenga una gráfica dentro de una ventana de análisis, se activa Opciones Gráficas en la barra de herramientas de análisis. Esta opción muestra un cuadro de diálogo con separadores que le permitirán cambiar la apariencia de la gráfica, como se describe en el Capítulo 4. Dentro del cuadro de diálogo hay un separador llamado Perfil, en donde le permite guardar atributos gráficos para diferentes usuarios y cambiar el perfil predeterminado usado al crear una nueva gráfica:

Figura 9-2. Separador Perfil en el Cuadro de Diálogo Opciones Gráficas

Para cambiar los valores predeterminados del sistema:


1. Modifique las características de una gráfica en cualquier ventana de análisis. Defina colores, fuentes y otras opciones que desea ver reflejadas en futuras gráficas.

2. Seleccione Opciones Gráficas de la barra de herramientas de análisis y vaya al separador

Perfil.

3. Habilite la opción de Establecer Predeterminado.

4. Elija cualquiera de los 12 perfiles de usuario y pulse el botón Guardar como (los archivos de perfil son solo de lectura).

5. Capturar un nombre para identificar el perfil al guardarlo:

Figura 9-3. Cuadro de Diálogo Guardar Perfil

6. Pulse ACEPTAR para guardar la configuración de los atributos de las gráficas (colores, fuentes, estilos de punto y líneas, etc.) en un nuevo perfil.

La siguiente gráfica creada usará los atributos del Perfil recién guardado. También puede aplicar otros perfiles guardados a una nueva gráfica, creándola con la configuración predeterminada y posteriormente:

1. Seleccionar Opciones Gráficas en la barra de herramientas de análisis y posicionándose en el separador Perfil.

2. Elejir cualquiera de los 15 perfiles y pulsar el botón Cargar.

La gráfica será automáticamente actualizada reflejando la configuración del perfil seleccionado.

148/ Análisis de una Muestra

Tutorial #1: Analizando una Muestra Resumen estadístico, histograma, gráfico de caja y bigotes, intervalos de confianza y pruebas de hipótesis.

Un problema muy común en estadística es el de analizar una muestra de n observaciones tomadas de una población única. Por ejemplo, considere las siguientes temperaturas corporales tomadas de n = 130 individuos: 98.4 98.4 98.2 97.8 98 97.9 99 98.5 98.8 98 97.4 98.8 99.5 98 100.8 97.1 98 98.7 98.9 99 98.6 97.7 96.7 98.8 98.2 97.5 97.2 97.4 97.1 96.7 99.2 97.9 98.8 97.6 98.6 98.8 98.5 98.7 97.5 97.9 97.1 98.4 97.4 98.6 97.8 98.2 98 98 98.3 98.6 98.8 98.7 98.8 98.1 96.4 98.8 98.7 97.9 98.6 99.2 98.6 98 99.1 97.8 97.2 98.2 98.7 98.4 98.2 97.7 98.3 98.7 96.8 98 97.2 97.9 96.9 98.3 97.8 97 98.6 98.4 98.2 98 98 98.2 97.8 99 98.1 97.7 97.4 98.8 99.3 98.9 96.3 97.8 99.9 98.4 99.4 98.7 98.4 98.2 99.3 98.5 98.3 99 99.2 97.6 99.1 97.6 98.4 97.6 98.4 98 98.8 97.3 98.7 98.6 99.4 100 98.6 98.3 98.6 97.4 98.1 97.8 98.2 99 99.1 98.2

Los datos fueron obtenidos del Journal of Statistical Education Data Archive (www.amstat.org/publications/jse/jse_data_archive.html) y son usados bajo permiso. Estos han

Capítulo

10

http://www.amstat.org/publications/jse/jse_data_archive.html


sido colocados en un archivo llamado bodytemp.sf3, en una columna llamada Temperature que contiene 130 filas, una fila por cada persona en el estudio. El procedimiento principal en el STATGRAPHICS Centurion para consolidar una muestra tomada de una población es el Análisis de una Variable. El procedimiento de Análisis de una Variable resume los datos tanto de forma numérica como gráfica y realiza la prueba de hipótesis sobre la media, la mediana y la desviación estándar de la población. 10.1 Ejecutando el Procedimiento Análisis de Una Variable Para analizar los datos de la temperatura corporal, primero cargue el archivo bodytemp.sf3 en una hoja de datos. Para obtener esto:

1. Seleccione Archivo – Abrir – Abrir Datos del menú principal. 2. En el cuadro de diálogo Abrir Datos, indique que desea abrir un archivo de datos

STATGRAPHICS. 3. Seleccione bodytemp.sf3 de la lista de archivos del cuadro de diálogo Abrir Archivo de Datos.

Los datos deben aparecer como se muestra a continuación:

Figura 10-1. Hoja de Datos con Datos de la Temperatura Corporal


Las temperaturas corporales medidas en grados Farenheit están en la columna extrema izquierda. El procedimiento Análisis Univariado puede invocarse del menú principal como sigue:

1. Si utiliza el menú Clásico, elija Describir – Datos Numéricos – Análisis Univariado. 2. Si utiliza el menú Seis Sigma, elija Analizar – Datos Contínuos – Análisis Univariado.

En el cuadro de diálogo de captura de datos, indique la columna a ser analizada:

Figura 10-2. Cuadro del Diálogo de Captura de Datos en el Análisis de una Variable

Deje el campo Seleccionar en blanco para analizar las 130 filas. Pulse ACEPTAR. Una ventana de análisis con cuatro paneles aparecerá:


Figura 10-3. Ventana Análisis de una Variable

El panel superior izquierdo indica que la muestra contiene n = 130 valores que van desde los 96.3 hasta los 100.8 grados. El panel superior derecho muestra un gráfico de dispersión, con los puntos dispersados aleatoriamente en dirección vertical. Note que los puntos son más densos entre los 98 y 99 grados, adelgazándose en ambos extremos. Este comportamiento es típico de datos poblacionales cuya distribución cuenta con un pico central bien definido. Los paneles inferiores muestran un resumen estadístico y un gráfico de caja y bigotes, que se describen a continuación. 10.2 Resumen Estadístico La tabla en el panel inferior izquierdo muestra varios estadísticos de la muestra. Se pueden añadir estadísticos adicionales maximizando este panel (haga doble clic con el botón izquierdo del ratón) y seleccione Opciones de Ventana en el menú emergente:


Figura 10-4. Cuadro de Diálogo de las Opciones del Resumen Estadístico

Añadiendo la mediana, los cuartiles y el rango intercuartil de la muestra resulta en:

Resumen Estadístico para Temperature Recuento 130 Promedio 98.2492 Mediana 98.3 Desviación Estándar 0.733183 Coeficiente de variación 0.746248% Mínimo 96.3 Máximo 100.8 Rango 4.5 Cuartil Inferior 97.8 Cuartil Superior 98.7 Rango intercuartílico 0.9 Sesgo Estándar -0.0205699 Curtosis Estándar 1.81642

Figura 10-5. Tabla de Resumen Estadístico

Una suposición común para medir los datos es que estos vienen de una distribución Normal o de Gauss, i.e. de una curva tipo campana. Los datos de una distribución normal son completamente descritos por dos estadísticos:

1. La media o promedio de la muestra 25.981 ==∑

=

n

xx

n

ii

, la cual estima el centro de la

distribución.


2. La desviación estándar de la muestra ( )

733.01

1

2

=−

−=

∑=

n

xxs

n

ii

, que se relaciona con la

dispersión de la distribución. Para una distribución normal, aproximadamente el 68% de todos los valores caerán dentro de una desviación estándar de la media poblacional, aproximadamente el 95% dentro de dos desviaciones estándar y aproximadamente el 99.73% dentro de tres desviaciones estándar. La media y la desviación estándar de una muestra la describen completamente solo si viene de una distribución normal. Dos estadísticos que pueden ser usados para revisar esta suposición son el sesgo estandarizado y la curtosis estandarizada. Estas medidas estadísticas dan forma a:

1. Sesgo mide el grado de simetría o la falta de esta. Una distribución simétrica como la normal tiene una nula asimetría. Las distribuciones cuyos valores tienden a caer más por encima del pico que por abajo de éste, tienen un sesgo positivo. Las distribuciones cuyos valores tienden a caer más por debajo del pico tienen un sesgo negativo.

2. Curtosis mide la forma de una distribución simétrica. Una curva normal o de campana

tiene cero curtosis. Una distribución con un pico mayor alrededor de la media que la normal tiene curtosis positiva. Una distribución más aplanada tiene curtosis negativa.

Si los datos provienen de una distribución normal, tanto la asimetría estandarizada como la curtosis estandarizada deben encontrarse dentro del rango de -2 a +2. En el caso que nos compete, parece que la distribución normal es un modelo razonable para los datos. Otros estadísticos muy útiles son estos cinco valores de John Tukey: Mínimo (valor mínimo de los datos) = 96.3 Cuartil Inferior (25° percentil) = 97.8 Mediana (50° percentil) = 98.3 Cuartil Superior (75° percentil) = 98.7 Máximo (valor máximo de los datos) = 100.8 Estos cinco números dividen la muestra en cuartiles y forman la base de su gráfico de caja y bigotes, descrita en la siguiente sección.


Nota: El seleccionar estadísticos adicionales usando Opciones de Ventana es solo aplicable para el análisis actual. Para cambiar los estadísticos predeterminados para futuros análisis, vaya al menú Editar y elija Preferencias. El separador Estadísticos en ese cuadro de diálogo le permitirá cambiar los estadísticoss calculados de forma predeterminada cuando el Análisis Univariado es ejecutado (así como muchos otros procedimientos que contienen un resumen estadístico):

Figura 10-6. Cuadro de Diálogo de Preferencias Utilizado para Seleccionar Estadísticos Predeterminados


10.3 Gráfico de Caja y Bigotes Un gráfico bastante útil para analizar y resumir un conjunto de datos creado por John Tukey, es el gráfico de caja y bigotes mostrado en la esquina inferior derecha en la Figura 10-3 y agrandado a continuación:

Gráfico de Caja y Bigotes

96 97 98 99 100 101Temperature

Figura 10-7. Gráfico de Caja y Bigotes para Temperaturas Corporales

El gráfico de caja y bigotes se elabora:

1. Dibujando una caja que se extiende desde el cuartil inferior hasta el cuartil superior. El 50% del total de los datos son aquellos comprendidos dentro de la caja.

2. Trazando una línea vertical en la posición de la mediana, que divide los datos a la mitad.

Si los datos vienen de una distribución normal, esta línea debe encontrarse cerca del centro de la caja.

3. Trazando un signo de más en el sitio de la media de la muestra. Cualquier diferencia

substancial entre la mediana y la media indica ya sea la presencia de un dato aberrante (un valor que no proviene de la misma población que el resto) o una distribución asimétrica. En el caso de una distribución asimétrica, la media será empujada en la dirección de la cola más larga.

4. Trazando los bigotes desde cada cuartil hasta las observaciones más pequeñas y más

grandes en la muestra, a menos de que algunos valores se encuentren lo bastante lejos de


la caja para ser clasificados como “puntos externos”, en cuyo caso los bigotes se extenderán hasta los puntos extremos no clasificados como “externos”. STATGRAPHICS Centurion coincide con Tukey para identificar dos clases de puntos atípicos:

a. Puntos “muy lejanos” – puntos 3 veces mayores al rango intercuartil por arriba

ó abajo de los límites de la caja. (Nota: el rango intercuartil es la distancia entre los cuartiles, equivalente al ancho de la caja). Los puntos muy lejanos son denotados mediante un símbolo (usualmente un cuadro pequeño) con un signo de más sobreimpuesto. Si los datos provienen de una distribución normal y el tamaño de la muestra es como en el ejemplo, la probabilidad de que cualquier punto se encuentre lo suficientemente lejos de la caja para ser clasificado como punto muy lejano es de solo 1 en 300. A menos de que haya miles de observaciones en la muestra, los puntos muy lejanos son usualmente indicadores de datos aberrantes reales (o de una distribución no normal).

b. Puntos “externos” – puntos 1.5 veces mayores al rango intercaurtil por arriba ó

abajo de los límites de la caja. Los puntos externos son denotados mediante un símbolo pero sin el signo de más sobreimpuesto. Incluso cuando los datos provienen de una distribución normal, la posibilidad de observar 1 ó 2 puntos externos en una muestra de n = 100 observaciones es del 50% y no necesariamente indica la presencia de un dato aberrante real. Estos puntos deben solo ser considerados para un análisis más detallado.

El gráfico de caja y bigotes en la Figura 10-7 es razonablemente simétrico. Los bigotes tienen la misma longitud y la media y mediana son similares y cercanas al centro de la caja. Tres puntos externos son señalados, pero no los puntos muy lejanos. Dando clic en el dato atípico en el extremo derecho nos indica que corresponde a la fila #15 del Archivo. Si selecciona Opciones de Ventana de la barra de herramientas de análisis, puede añadir una muesca a la altura de la mediana del gráfico:


Gráfico de Caja y BigotesIntervalos de confianza del 95% para la mediana: [98.1567, 98.4433]

96 97 98 99 100 101Temperature

Figura 10-8. Gráfico de Caja y Bigotes con una Muesca en la Mediana al 95%

Esto añade una muesca a la muestra abarcando un intervalo de confianza aproximado para la mediana poblacional, usando el nivel de confidencia predeterminado del sistema (usualmente 95%). Muestra el margen de error al estimar la mediana de la temperatura de la población desde donde se tomó la muestra. En este caso, el error muestral es apróximadamente de 0.15 grados en ambas direcciones. Una muestra más amplia dará como resultado un márgen de error menor. 10.4 Evaluando Datos Aberrantes Antes de estimar cualquier estadístico adicional, es importante tomar un momento para analizar si la fila #15 debe ser considerado un dato aberrante real y potencialmente eliminarlo del conjunto de datos. El STATGRAPHICS Centurion incluye un procedimiento que realiza una prueba formal para determinar si una observación puede razonablemente provenir de una distribución normal. La prueba esta disponible en el menú principal seleccionando: 1. Si usa el menú clásico, elija Describir – Datos Numéricos – Identificación de Valores Atípicos.

2. Si usa el menú Seis Sigma, elija Analizar – Datos Continuos – Identificación de Valores Atípicos. Especificando Temperature en el campo de Datos se genera una amplia tabla estadística, mostrada en el panel izquierdo. De interés particular es la tabla que muestra los 5 valores más pequeños y los 5 valores más grandes de la muestra:


Valores Ordenados Valores Estudentizados Valores Estudentizados Modificados Fila Valor Sin Supresión Con Supresión Valor-Z MAD 95 96.3 -2.65859 -2.74567 -2.698 55 96.4 -2.52219 -2.59723 -2.5631 23 96.7 -2.11302 -2.15912 -2.1584 30 96.7 -2.11302 -2.15912 -2.1584 73 96.8 -1.97663 -2.01521 -2.0235 ... 99 99.4 1.56955 1.59096 1.4839 13 99.5 1.70594 1.7323 1.6188 97 99.9 2.25151 2.30628 2.1584 120 100.0 2.3879 2.45231 2.2933 15 100.8 3.47903 3.67021 3.3725

Prueba de Grubbs' (asume normalidad) Estadístico de prueba = 3.47903 Valor-P = 0.0484379

Figura 10-9. Tabla Seleccionada del Procedimiento de Identificación de Datos Atípicos

El valor más inusual es el de la fila #15, que es resaltado en rojo. Este tiene un Valor Estudentizado sin Eliminación de 3.479. Los valores estudentizados se calculan de:

sxxz i

i−

=

Un valor de 3.479 indica que una observación está 3.479 desviaciones estándar por encima de la media de la muestra, cuando la observación se incluye en el cálculo de x y s. Los Valores Estudentizados con Eliminación indican cuantas desviaciones estándar cada observación se encuentra de la media de la muestra, cuando esa observación no se incluye en el cálculo. Si no se incluye en el cálculo, la fila #15 se encuentra alejada en 3.67 desviaciones estándar. Las observaciones a más de 3 desviaciones estándar de la muestra son inusuales, a menos que el tamaño n de la muestra sea muy grande ó que la distribución no sea normal. Una prueba formal puede hacerse de las siguientes hipótesis:

Hipótesis nula: El valor extremo más lejano proviene de la misma distribución normal que las otras observaciones. Hipótesis alternativa: El valor extremo más lejano no proviene de la misma distribución normal que las otras observaciones.


Una prueba usada para estas hipótesis es la prueba de Grubbs, también conocida como la prueba de Desviación Estudentizada Extrema. El STATGRAPHICS Centurion realiza esta prueba y genera un Valor-P. En general, el valor-P cuantifica la probabilidad de obtener un estadístico tan ó más inusual que el observado en la muestra, si la hipótesis nula es cierta. Si el valor-P es suficientemente pequeño, la hipótesis nula puede ser rechazada, ya que la muestra habrá sido un evento extremadamente raro. “Suficientemente pequeño” se define como menor a 0.05 y es conocido como el “nivel de significancia” de la prueba. Si existe una probabilidad menor al 5% de que la muestra tenga un resultado que indique que la hipótesis nula fué verdadera, entonces la hipótesis nula es rechazada. En el ejemplo, el estadístico de prueba es similar al Valor Estudentizado sin Eliminación, 3.479. El valor-P es igual a 0.0484. Debido a que el valor-P es menor a 0.05, se rechaza la hipótesis nula, concluyendo que la fila #15 es un dato aberrante comparado con el resto de la muestra. Puede ahora eliminar la fila #15 pulsando el ícono de Captura de Datos en la barra de herramientas de análisis e introducir una expresión en el campo Seleccionar como se muestra abajo:

Figura 10-10. Cuadro de Diálogo de Identificación de Datos Aberrantes con Eliminación de estos Datos

Debido a que la fila #15 es la única observación que excede los 100 grados, entonces con la expresión usada en el campo Seleccionar , solo se seleccionarán las otras n= 129 filas. La salida modificada de la Identificación de Datos Aberrantes es:


Valores Ordenados Valores Estudentizados Valores Estudentizados Modificados Fila Valor Sin Supresión Con Supresión Valor-Z MAD 95 96.3 -2.75487 -2.85205 -2.698 55 96.4 -2.61209 -2.6956 -2.5631 23 96.7 -2.18375 -2.23455 -2.1584 30 96.7 -2.18375 -2.23455 -2.1584 73 96.8 -2.04097 -2.08332 -2.0235 ... 119 99.4 1.6713 1.69652 1.4839 99 99.4 1.6713 1.69652 1.4839 13 99.5 1.81408 1.84516 1.6188 97 99.9 2.3852 2.44992 2.1584 120 100.0 2.52798 2.60411 2.2933

Prueba de Grubbs' (asume normalidad) Estadístico de prueba = 2.75487 Valor-P = 0.676064

Figura 10-11. Salida de Identificación de Datos Aberrantes después de eliminar la fila #15

El valor extremo más alejado entre las observaciones restantes es ahora la fila #95. Debido a que el valor-P para la prueba de Grubb está muy por encima de 0.05, se puede deducir que todas las observaciones restantes provienen de la misma población. Lo ideal, es que uno regrese al estudio original y tratara de encontrar una causa asignable al valor anormal para el caso #15. Como ahora ya no es posible hacerlo, aceptaremos los resultados de la prueba de Grubb y eliminaremos a la fila #15 de todos los cálculos subsecuentes. Modificaremos el cuadro de diálogo de captura de datos para el Análisis Univariado de la misma forma que en la Figura 10-10, y entonces el resumen estadístico se mostrará así:

Resumen Estadístico para Temperature Recuento 129 Promedio 98.2295 Mediana 98.3 Desviación estándar 0.70038 Coef. de variación 0.713004% Mínimo 96.3 Máximo 100.0 Rango 3.7 Cuartil inferior 97.8 Cuartil superior 98.7 Rango inercuartílico 0.9 Sesgo estandarizado -1.40217 Curtosis estandarizada 0.257075

Figura 10-12. Resumen Estadístico después de Eliminar la fila #15


10.5 Histograma Otra gráfica muy común que ilustra una muestra de mediciones es el histograma. Volviendo al procedimiento de Análisis Univariado, un histograma puede crearse pulsando el ícono de Gráficas

en la barra de herramientas de análisis y seleccionando Histograma. El histograma predeterminado es el siguiente:

Histograma

96 97 98 99 100 101Temperature

0

10

20

30

40

frec

uenc

ia

Figura 10-13. Histograma con Clases Predeterminadas

La altura de cada barra en el histograma representa el número de observaciones que caen dentro del intervalo de temperature abarcado por la barra. El número de barras y su grosor se predeterminan basándose en el tamaño de la muestra n, . sin importar que regla fue seleccionada en el separador AED (Análisis Exploratorio de Datos) del cuadro de diálogo Editar - Preferencias :


Figura 10-14. Separador AED en el Cuadro de Diálogo Preferencias

Usando la regla de Sturges, el número de barras se basa en el mínimo entero que no sea menor a (1+3.322log10(n)). Otras reglas, como la regla 10log10(n), tienden a producir más barras de forma predeterminada y son preferibles en caso de trabajar con conjuntos de datos grandes. Para cambiar temporalmente la configuración del histograma creado dar doble clic en el histograma para maximizarlo y seleccionar Opciones de Ventana:


Figura 10-15. Opciones de Ventana para el Histograma

Al establecer las clases, se debe tomar en consideración el número de dígitos significativos en los datos. Por ejemplo, las mediciones de las temperaturas corporales fueron redondeadas al 0.1 de grado más cercano. El ancho de los intervalos abarcados por las barras deben ser entonces un entero múltiplo de 0.1. De esta forma, cada barra abarcará el mismo número de medidas posibles. El gráfico siguiente muestra 25 intervalos entre 96 y 101 grados, cada uno abarcando un intervalo de 0.2 grados:

Histograma

96 97 98 99 100 101Temperature

0

3

6

9

12

15

18

frec

uenc

ia

Figura 10-16. Histograma con Clases Reestablecidas


Entre más número de clases existan, se evidencian más los detalles. La forma general de la distribución es similar a la de una curva normal de campana. Los datos mostrados en el histograma pueden exhibirse en forma tabular pulsando el ícono

Tablas en la barra de herramientas de análisis y seleccionando Tabulación de Frecuencias:

Tabla de Frecuencias para Temperature Límite Límite Frecuencia Frecuencia Frecuencia Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum. menor o igual 96.0 0 0.0000 0 0.0000 1 96.0 96.2 96.1 0 0.0000 0 0.0000 2 96.2 96.4 96.3 2 0.0155 2 0.0155 3 96.4 96.6 96.5 0 0.0000 2 0.0155 4 96.6 96.8 96.7 3 0.0233 5 0.0388 5 96.8 97.0 96.9 2 0.0155 7 0.0543 6 97.0 97.2 97.1 6 0.0465 13 0.1008 7 97.2 97.4 97.3 6 0.0465 19 0.1473 8 97.4 97.6 97.5 6 0.0465 25 0.1938 9 97.6 97.8 97.7 10 0.0775 35 0.2713 10 97.8 98.0 97.9 16 0.1240 51 0.3953 11 98.0 98.2 98.1 13 0.1008 64 0.4961 12 98.2 98.4 98.3 14 0.1085 78 0.6047 13 98.4 98.6 98.5 13 0.1008 91 0.7054 14 98.6 98.8 98.7 18 0.1395 109 0.8450 15 98.8 99.0 98.9 7 0.0543 116 0.8992 16 99.0 99.2 99.1 6 0.0465 122 0.9457 17 99.2 99.4 99.3 4 0.0310 126 0.9767 18 99.4 99.6 99.5 1 0.0078 127 0.9845 19 99.6 99.8 99.7 0 0.0000 127 0.9845 20 99.8 100.0 99.9 2 0.0155 129 1.0000 21 100.0 100.2 100.1 0 0.0000 129 1.0000 22 100.2 100.4 100.3 0 0.0000 129 1.0000 23 100.4 100.6 100.5 0 0.0000 129 1.0000 24 100.6 100.8 100.7 0 0.0000 129 1.0000 25 100.8 101.0 100.9 0 0.0000 129 1.0000 mayor de 101.0 0 0.0000 129 1.0000

Media = 98.2295 Desviación Estándar = 0.70038

Figura 10-17. Tabulación de Frecuencia

Note que las observaciones son contadas cuando caen dentro de un intervalo si son mayores al límite inferior del intervalo y menores o iguales al límite superior.


La columna de la extrema derecha es también de considerable interés, ya que muestra la probabilidad acumulada de que un individuo caiga dentro de una clase seleccionada o clases anteriores. Por ejemplo, el 89.92% de todos los valores son iguales o menores a 99.0 grados. 10.6 Gráfico de Cuantiles y Percentiles Otro modo de mostrar probabilidades acumuladas es seleccionando Gráfico de Cuantiles de la lista de Gráficas en el procedimiento Análisis Univariado:

Gráfico Cuantil

96 97 98 99 100Temperature

0

0.2

0.4

0.6

0.8

1

prop

orci

ón

Figura 10-18. Gráfico de Cuantilest

En este gráfico, los datos son primero ordenados de menor a mayor. El valor j o mayor es entonces graficado en Y = (j+0.5)/n. Esto estima la proporción de la población en ó debajo de la temperatura observada. Como la columna extrema derecha en la tabla de frecuencias, la curva representa la probabilidad acumulada de que un individuo tenga menor o igual temperatura a aquella mostrada en el eje horizontal. Ya que los datos de la temperatura fueron medidos solamente a los 0.1 grados más cercanos, existen saltos verticales en la gráfica anterior. La Figura 10-18 también muestra un cursor de coordenadas. Estos son creados pulsando el botón derecho del ratón mientras se observa la gráfica y seleccionando Localizar del menú emergente. Ahora entonces puede usar el ratón para desplazar el cursor a cualquier sitio. Los números pequeños cercanos al cursos indican su posición. En el gráfico anterior, el cursor ha sido utilizado para localizar la mediana o el 50o percentil, que es el valor de temperature en el cual la proporción mostrada en el eje vertical es igual a 0.5.


Una tabla de percentiles puede crearse seleccionando Percentiles de la lista de Tablas:

Percentiles para Temperature Percentiles Límite Inferior Límite Superior 1.0% 96.4 96.34 96.811 5.0% 97.0 96.8727 97.2473 10.0% 97.2 97.1538 97.4829 25.0% 97.8 97.6152 97.8846 50.0% 98.3 98.1082 98.3508 75.0% 98.7 98.5743 98.8437 90.0% 99.1 98.9761 99.3051 95.0% 99.3 99.2116 99.5862 99.0% 99.9 99.6479 100.119

El informe incluye 95.0% de límites de confianza Normal.

Figura 10-19. Tabla de Percentiles

El po percentil estima el valor de temperatura debajo del cual el p% de la población se encuentra. Las Opciones de Ventana se utilizan para añadir límites de confianza del 95% a esos percentiles, basándonos en la suposición de que la muestra proviene de una distribución normal. Por ejemplo, el 90o percentil es el valor de temperatura excedido solo por el 10% de los individuos en la población. La mejor estimación de ese percentil basada en la muestra de datos es de 99.1 grados. No obstante, dado el tamaño limitado de la muestra, el 90o percentil puede caer en cualquier lugar entre 98.98 y 99.31 grados, con 95% de confianza. 10.7 Intervalos de Confianza Habiendo eliminado el dato aberrante de la muestra, podemos proceder a establecer las estimaciones finales para los parámetros de la distribución de la que provienen los datos. Seleccionando Intervalos de Confianza del cuadro de diálogo Tablas aparecerá:

Intervalos de Confianza para Temperature Intervalos de confianza del 95.0% para la media: 98.2295 +/- 0.122015 [98.1074, 98.3515] Intervalos de confianza del 95.0% para la desviación estándar: [0.624081, 0.798114]

Figura 10-20. Intervalos de Confianza del 95% para la Media y la Desviación Estándar

Los intervalos de confianza ofrecen un límite en el error potencial al estimar la media y la desviación estándar de la población. Dadas las restantes n = 129 observaciones, podemos asegurar con 95% de confianza que la media de la temperatura de la población se localiza en


algún punto entre los 98.11 y 98.35 grados. Igualmente, la desviación estándar de la población se localiza en algún punto entre los 0.624 y 0.798 grados. Seleccionando Opciones de Ventana, pueden solicitarse intervalos de confianza adicionales usando el método bootstrap:

Figura 10-21. Cuadro de Diálogo de Opciones de Intervalos de Confianza

Los intervalos bootstrap, contrario a los intervalos de la Figura 10-20, no se apoyan en la suposición de que la población sigue una distribución normal. En su lugar, muestras aleatorias de las n = 129 observaciones son tomadas de los datos, muestreando con réplica (las mismas observaciones pueden ser seleccionadas más de una vez). Esto se repite 500 veces, las estadísticas de la muestra son calculadas y el 95% de los resultados más cercanos al centro son usados para calcular los intervalos de confianza. La tabla inferior muestra intervalos bootstrap para la media, la desviación estándar y la mediana de la población:

Intervalos de Confianza para Temperature Intervalos de confianza del 95.0% para la media: 98.2295 +/- 0.122015 [98.1074, 98.3515] Intervalos de confianza del 95.0% para la desviación estándar: [0.624081, 0.798114] Intervalos Bootstrap Media: [98.1085, 98.3504] Desviación Estándar: [0.610521, 0.780949] Mediana: [98.1, 98.4]

Figura 10-22. Intervalos Bootstrap de Confianza de 95%

Los intervalos anteriores que fueron calculados usando la distribución t de Student y la distribución chi-cuadrada, son emparejados lo más cerca posible por los intervalos bootstrap. Esto no es inesperado, ya que los datos no tienen una asimetría o curtosis representativa.


10.8 Pruebas de Hipótesis También pueden realizarse pruebas de hipótesis. Por ejemplo, a menudo es acertado pensar que la temperatura humana normal es de 98.6 grados Fahrenheit. Para probar si los datos actuales provienen ó no de una distribución normal con dicha media, se efectúa una prueba de hipótesis para probar entre: Hipótesis nula: μ = 98.6 grados Hipótesis Alternativa: μ ≠ 98.6 grados Para ejecutar la prueba dentro del procedimiento Análisis Univariado, elija Pruebas de Hipótesis de la lista de Tablas. Antes de examinar los resultados, elija Opciones de Ventana y especifique los atributos de la prueba deseada:

Figura 10-23. Opciones de Ventana para Pruebas de Hipotésis

El valor capturado para la Media representa la hipótesis nula. Bajo la Hipótesis Alt., puede seleccionar cualquiera de las tres hipótesis alternativas:


1. No igual: μ ≠ 98.6 2. Menor que: μ < 98.6 3. Mayor que: μ > 98.6

Aunque la muestra sugiere una temperatura media inferior, una alternativa bilateral se ha seleccionado. Crear una prueba unilateral con una hipótesis alternativa de μ < 98.6 grados sería considerado en este momento como una “intromisión de datos”, ya que estaríamos formulando la hipótesis después de haber visto los datos. Los resultados de la prueba se muestran a continuación:

Prueba de Hipótesis para Temperature Media Muestral = 98.2295 Mediana Muestral = 98.3 Desviación Estnd. de la muestra = 0.70038 Prueba t Hipótesis Nula: media = 98.6 Alternativa: no igual Estadístico t = -6.00896 Valor-P = 1.81264E-8 Se rechaza la hipótesis nula para alpha = 0.05. Prueba de rangos con signo Hipótesis Nula: mediana = 98.6 Alternativa: no igual Rango medio de valores menores a la mediana hipotética: 67.7099 Rango medio de valores mayors a la mediana hipotética: 43.5658 Estadístico para Grandes Muestras = 5.07771 (aplicada la corrección por continuidad) Valor-P = 3.82663E-7 Se rechaza la hipótesis nula para alpha = 0.05.

Figura 10-24. Resultados de la Prueba de Hipotésis

Los resultados de dos pruebas se muestran:

1. Una prueba t estándar, que supone que los datos provienen de una distribución normal (no obstante ésta no es excesivamente sensible al incumplimiento de esta suposición).

2. Una prueba no paramétrica de Wilcoxon para muestras apareadas, basada en los rangos

de distancia de cada observación de la mediana hipotetizada. Esta prueba no asume normalidad y es menos sensible a los datos Aberrantes que la prueba t.


En ambos casos, el valor-P está muy por debajo de 0.05, rechazando a fondo la hipótesis de que la muestra proviene de una población con una media de 98.6 grados.

NOTA: la notación E-8 después de un número significa que el número debe ser multiplicado por 10-8. El valor-P mostrado como 1.81264E-8 equivale a 0.0000000181264.

Debe notarse que el intervalo de confianza para la media, dado en la Sección 10.8, no incluye el valor 98.6. Cualquier valor fuera del intervalo de confianza sería rechazado por la prueba t considerada aquí. Puede pensarse entonces que el intervalo de confianza contiene todos los valores posibles para la población sustentada con la muestra de datos. 10.9 Límites de Tolerancia Un análisis adicional resulta útil para los datos de la temperatura corporal. Este crea límites de tolerancia normal, que son límites dentro de los cuales un porcentaje seleccionado de la población es estimado para caer con un nivel de confianza dado. Los límites de tolerancia están disponibles en el menú principal seleccionando:

1. Si usa el menú clásico, elija Describir –Datos Numéricos – Límites de Tolerancia Estadística 2. Si usa el menú Seis Sigma menu, elija Analizar – Datos Continuos – Límites de Tolerancia

Estadística El procedimiento inicia mostrando un cuadro de diálogo dentro del cual se captura el tamaño n, la media y la desviación estándar de la muestra. Usando los resultados en la Figura 10-12, la captura apropiada es:


Figura 10-25. Cuadro de Diálogo para Límites de Tolerancia Estadística

La salida resultante se muestra a continuación: Límites de Tolerancia Estadístico Tamaño de muestra = 129 Media de la muestra = 98.2295 Desviación estándar de la muestra = 0.70038 Intervalos de tolerancia del 95.0% (intervalo) de tolerancia para 99.0% de la población Xbarra +/- 2.88436 sigma Superior: 100.25 Inferior: 96.2093 El StatAdvisor Asumiendo que los datos provienen de una distribución normal, los límites de tolerancia establecen que se puede estar 95.0% confiados en que el 99.0% de la distribución se encuentra entre 96.2093 y 100.25. Este intervalo se calcula tomando la media de los datos +/-2.88436 veces por la desviación estándar.

Figura 10-26. Resumen del Análisis para Límites de Tolerancia Estadística

La interpretación del StatAdvisor resume los resultados de forma concisa. El nivel de confianza y el porcentaje de la población que está limitada puede cambiarse usando Opciones de Ventana. También creado por el procedimiento Límites de Tolerancia Estadística esta el Gráfico de Tolerancia, que muestra los límites de tolerancia:


Límites de Tolerancia Normaln=129,media=98.2295,sigma=0.70038

95 97 99 101 103x

0

0.1

0.2

0.3

0.4

0.5

0.6

f(x)

Nvl. Conf.: 95.0%

Prop. pob.: 99.0%

LST: 100.25LIT: 96.21

Figura 10-27. Gráfico de Tolerancia

No más de un individuo de cada 100, es probable que caiga fuera de los límites calculados.

173/ Comparando Dos Muestras

Tutorial #2: Comparando Dos Muestras Comparaciones Gráficas y pruebas de hipótesis.

Por lo regular, los datos que se van a analizar consisten de dos muestras que posiblemente sean de poblaciones diferentes. Para estos casos, resulta muy útil:

1. Presentar los datos de tal forma que permita comparaciones visuales. 2. Probar hipótesis que determinen si existen ó no diferencias estadísticamente

significativas entre las muestras. En el capítulo anterior Tutorial #1, se analizaron las temperaturas corporales tomadas a 130 personas. De estas personas, 65 eran mujeres y 65 hombres. En éste tutorial, compararemos los datos correspondientes a las mujeres con aquellos de los hombres. Para analizar los datos con las temperaturas corporales, Abrir el archivo de datos bodytemp.sf3 usando Abrir Datos en el menú Archivo – Abrir. 11.1 Ejecutando el Procedimiento de Comparación de dos Muestras El procedimiento principal para comparar datos de dos muestras es el procedimiento Comparación de Dos Muestras, invocado desde el menú principal como sigue:

Capítulo

11


1. Si usa el menú Clásico, elija Comparar – Dos Muestrass – Muestras Independientes. 2. Si usa el menú Seis Sigma, elija Analizar – Datos Continuos – Comparación de Dos Muestras –

Muestras Independientes. El cuadro de díalogo de captura de datos para este procedimiento es el siguiente:

Figura 11-1. Cuadro de Diálogo de Comparación de Dos Muestras

El campo Captura indica cómo los datos de las dos muestras fueron capturados:

1. Dos Columnas de Datos – los datos para cada muestra están en diferentes columnas. 2. Columnas Código y de Datos – los datos para ambas muestras están en la misma columna y

una segunda columna contiene los códigos que diferencían a ambas muestras. El archivo bodytemp.sf3 contiene el segundo tipo de estructura, con todas las n = 130 observaciones en una misma columna llamada Temperature, mientras una segunda columna Gender contiene la descipción de “Mujer” y “Hombre”. En el campo Seleccionar, se incluye una


expresión para tomar en cuenta solo las filas cuya Temperature sea menor o igual a 100. Esto excluye la fila #15, la cual se determinó en el Capítulo 10 como un dato aberrante. La ventana inicial del análisis contiene 4 paneles, que incluyen un resumen de los datos, un histograma dual, un resumen estadístico por grupo y un gráfico de caja y bigotes dual.

Figura 11-2. Ventana de Análisis Comparación de Dos Muestras

Al eliminar el dato aberrante, existen n1 = 64 observaciones para mujeres en un rango de 96.4 hasta 100.0 grados y n2 = 65 observaciones para hombres en un rango de 96.3 hasta 99.5 grados. 11.2 Resumen Estadístico La tabla Resumen Estadístico presenta estadísticas calculadas para cada muestra:


Resumen Estadístico para Temperature Gender=Female Gender=Male Recuento 64 65 Promedio 98.3562 98.1046 Mediana 98.4 98.1 Desviación Estándar 0.684262 0.698756 Coeficiente de variación 0.695697% 0.712256% Mínimo 96.4 96.3 Máximo 100.0 99.5 Rango 3.6 3.2 Cuartil Inferior 98.0 97.6 Cuartil Superior 98.8 98.6 Rango intercuartílico 0.8 1.0 Sesgo Estándar -1.35246 -0.702297 Curtosis Estándar 1.49635 -0.610877

Figura 11-3. Resumen Estadístico por Muestra

Existen varios factores que son de interés especial:

1. La temperatura media de las mujeres es 0.25 grados superior al de los hombres. Además la diferencia entre las medianas es de 0.30 grados.

2. La desviación estándar de las mujeres es levemente menor que la de los hombres,

implicando que la temperatura corporal de las mujeres puede ser menos variable que la de los hombres.

3. Ambas muestras tienen valores de asimetría y curtosis estandarizada dentro del rango de

-2 a 2. Como se explicó en el Capítulo 10, los valores dentro de ese rango son consistentes con la hipótesis de que los datos vienen de una distribución normal.

Si la aparente diferencia entre las mujeres y los hombres es ó no estadísticamente significante, está todavía por determinarse. 11.3 Histograma Dual El histograma dual ofrece una comparación espalda con espalda de las dos muestras. Al usar Opciones de Ventana para reescalar los intervalos de clasificación de manera que existan 25 intervalos entre los 96 y 101 grados se genera la siguiente gráfica:


Female

96 97 98 99 100 101Male

13

8

3

2

7

12

17fr

ecue

ncia

Figura 11-4. Histograma Dual

La gráfica muestra el histograma correspondiente a las mujeres sobre la línea horizontal, mientras que el histograma de los hombres está invertido y está por debajo de la línea. Las formas de distribución son similares, con un posible repunte a la derecha en la distribución de las mujeres. 11.4 Gráfico Dual de Caja y Bigotes La ventana de análisis también presneta gráficos de caja y bigotes para las dos muestras. Como se explica en el Capítulo 10, las cajas centrales abarcan la mitad de los datos de cada muestra. Los bigotes se extienden al valor más pequeño y más grande de cada muestra, excepto por aquellos puntos que estén extermadamente lejos de las cajas. La mediana se indica con el trazo de una línea vertical, asi como signos de + indican el sitio de las medias de cada muestra. En éste caso, es particularmente útil agregar muescas a la mediana accesando Opciones de Ventana. La gráfica resultante se muestra a continuación:


Gráfico Caja y Bigotes


Female

Male

Figura 11-5. Gráfico Dual de Caja y Bigotes con Muescas en la Mediana

Es evidente en la gráfica:

1. Una aparente separación del centro de la distribución de las mujeres hacia la derecha de la distribución de los hombres. Tanto la media y la mediana de las muestras observan una diferencia similar.

2. El rango cubierto por las mujeres es más amplio que el rango cubierto por los hombres,

pero solo si se incluye el punto extremo más bajo.

3. La muesca de la mediana para las mujeres se sobrepone levemente a la de los hombres. Las muescas son trazadas de tal modo que si las dos muescas no se sobreponen, uno puede suponer que las dos medianas son significativamente diferentes, tomando en cuenta el nivel de significancia predeterminado por el sistema (que actualmente es de 5%). Una comparación más detallada se describe en una sección más adelante.

Basado en este gráfico, parece haber una diferencia en el centro de las dos muestras, no obstante la significancia estadística de esta diferencia permanece en duda.


11.5 Comparando Desviaciones Estándar La primera comparación a detalle entre las dos muestras es probar la hipótesis de que las desviaciones estándar (σ) de las poblaciones, de las cuales provienen los datos, son iguales contra la hipótesis de que son diferentes: Hipótesis Nula: σ1 = σ2

Hipótesis Alternativa: σ1 ≠ σ2 Esto nos permitirá determinar si la aparente diferencia entre la variabilidad de los hombres y las mujeres es estadísticamente significantiva, o si está dentro del rango de variabilidad normal aleatoria para muestras de su tamaño actual.

Para realizar la prueba, pulse el ícono de Tablas en la barra de herramientas de análisis y seleccione Comparación de Desviaciones Estándar. El resultado se muestra a continuación:

Comparación de Desviaciones Estándar para Temperature Gender=Female Gender=Male Desviación Estándar 0.684262 0.698756 Varianza 0.468214 0.48826 Gl 63 64

Razón de Varianzas= 0.958945 Intervalos de confianza del 95.0% Intervalos de Confianza Desviación Estándar de Gender=Female: [0.582853, 0.828723] Desviación Estándar de Gender=Male: [0.595887, 0.844885] Razones de Varianzas: [0.584028, 1.57609] Prueba-F para comparar Desviaciones Estándar Hipótesis Nula: sigma1 = sigma2 Hipótesis Alt.: sigma1 <> sigma2 F = 0.958945 valor-P = 0.8684 No se rechaza la hipótesis nula para alpha = 0.05.

Figura 11-6. Comparación de Desviaciones Estándar de Dos Muestras

La información más importante en esta tabla está resaltada en rojo:

1. Razón de Varianzas: Muestra un intervalo de confianza del 95% para la razón de varianza de la población femenina, σ1

2, dividido entre la varianza de la población masculina, σ22.

Varianza. Medida de variabilidad calculada al elevar al cuadrado la desviación estándar. (Nota: las comparaciones de variabilidad entre varias muestras están generalmente basadas más en varianzas que en desviaciones estándar, debido a que las primeras tienen propiedades matemáticas más atractivas.)


2. El intervalo para σ12 / σ2

2 va desde 0.58 hasta 1.58. Esto indica que la varianza de las mujeres puede estar en cualquier punto entre aproximadamente el 58% de la varianza de los hombres hasta el 158% de su varianza. Esta falta de precisión es muy típica cuando se intenta comparar la variabilidad de muestras poblacionales relativamente pequeñas.

3. El valor-P asociado con la prueba F de la hipótesis estipulada arriba. Un valor-P menor a

0.05 indicará una diferencia estadísticamente significativa entre la varianza de las mujeres y la varianza de los hombres al 5% del nivel de significancia. Ya que P está muy por arriba de 0.05, no existe evidencia por la cual rechazar la hipótesis de varianzas iguales (y a su vez de desviaciones estándar iguales).

Por lo tanto no existe una clara evidencia por la cual concluir que la variabilidad de las temperaturas corporales de las mujeres es diferente a la variabilidad de la de los hombres. Debe notar que esta prueba es sumamente sensible a la suposición de que las muestras vienen de poblaciones de una distribución normal, una suposición que había sido considerada como razonable basada en los valores de asimetría y curtosis estandarizados. 11.6 Comparando Medias La segunda comparación entre las dos muestras prueba la hipótesis de que las medias (μ) de las dos poblaciones son iguales: Hipótesis Nula: μ1 = μ2

Hipótesis Alternativa: μ1 ≠ μ2

Para realizar esta prueba, pulse nuevamente el ícono Tablas y seleccione Comparación de Medias. Los resultados son:

Comparación de Medias para Temperature Intervalos de confianza del 95.0% intervalo de confianza para la media de Gender=Female: 98.3562 +/- 0.170924 [98.1853, 98.5272] Intervalos de confianza del 95.0% intervalo de confianza para la media de Gender=Male: 98.1046 +/- 0.173144 [97.9315, 98.2778] Intervalos de confianza del 95.0% intervalo de confianza para la diferencia de medias suponiendo varianzas iguales: 0.251635 +/- 0.240998 [0.0106371, 0.492632] Prueba t para comparar medias Hipótesis nula: media1 = media2 Hipótesis Alt.: media1 <> media2 suponiendo varianzas iguales: t = 2.06616 valor-P = 0.040846 Se rechaza la hipótesis nula para alpha = 0.05.

Figura 11-7. Comparación de Medias de Dos Muestras


La información más importante en esta tabla nuevamente está resaltada en rojo:

1. Diferencia entre las Medias (suponiendo varianzas iguales): presenta un intervalo de confianza del 95% para la media poblacional femenina, menos la media poblacional masculina. El intervalo para μ1 - μ2 va desde 0.01 hasta 0.49, indicando que la media de la temperatura de las mujeres se encuentra entre los 0.01 y 0.49 grados por arriba que la media de la temperatura de los hombres.

2. El valor-P asociado con la prueba t de la hipótesis arriba estipulada. Debido a que P es

menor a 0.05, existe evidencia suficiente por la cual rechazar la hipótesis de medias iguales y así declarar que las dos medias poblaciones son significativamente diferentes al nivel de significancia del 5%.

Note que ésta prueba fue hecha suponiendo que las varianzas de las dos poblaciones son iguales, lo cual fue validado por la prueba F en la sección previa. Habiendo sido mostrado que las varianzas son significativamente diferentes, una prueba t de aproximción puede solicitarse al accesar Opciones de Ventana y deshabilitar la opción descrita como Suponer Sigmas Iguales. Así es que parece que las mujeres provienen de una población con una temperatura media más elevada que la de los hombres. 11.7 Comparando Medianas Si se sospecha que los datos pueden contener observaciones aberrantes, una prueba no paramétrica puede realizarse para comparar las medianas en lugar de las medias. Una prueba no paramétrica no supone que los datos provienen de una distribución normal y tiende a ser afectada de menor manera en caso de que se presenten datos aberrantes. Al seleccionar Comparación de Muestras del cuadro de diálogo Tablas se genera la prueba W de Mann-Whitney (Wilcoxon). En esta prueba, las dos muestras son primero combinadas. Los datos combinados se ordenan desde el 1 hasta n1+n2 y los valores originales de los datos son reemplazados por sus respectivos rangos. Entonces se prepara la prueba estadística W comparando los rangos promedio de las observaciones en las dos muestras:


Comparación de Medianas para Temperature Mediana de muestra 1: 98.4 Mediana de muestra 2: 98.1 Prueba W de Mann-Whitney (Wilcoxon)para comparar medianas Hipótesis Nula: mediana1 = mediana2 Hipótesis Alt.: mediana1 <> mediana2 Rango Promedio de muestra 1: 71.9219 Rango Promedio de muestra 2: 58.1846 W = -443.0 valor-P = 0.0368312 Se rechaza la hipótesis nula para alpha = 0.05.

Figura 11-8. Comparación de Medianas de Dos Muestras

La interpretación de la prueba Mann-Whitney (Wilcoxon) se asemeja a la prueba t descrita en la última sección, donde con un valor-P pequeño se llega a la conclusión de que las medianas de las dos poblaciones son significativamente diferentes. 11.8 Gráfico de Cuantiles Para ilustrar la diferencia entre las dos distribuciones, los gráficos de cuantiles bilaterales, de cada muestra, se pueden mostrar seleccionando Gráfico de Cuantiles del cuadro de diálogo Gráficas:

GenderFemaleMale

Gráfico Cuantil


0

0.2

0.4

0.6

0.8

1

prop

orci

ón

Figura 11-9. Gráfico de Cuantiles Bilateral


El gráfico de cuantiles ilustra la proporción de los datos de cada muestra que está por debajo de un valor dado de X, como una función de X. Si las muestras provienen de la misma población, los gráficos de cuantiles deben ser muy cercanos. Cualquier separación de un gráfico a la derecha o izquierda del otro indica una diferencia entre sus medias. Una diferencia en la pendiente de las curvas indica una diferencia entre las desviaciones estándar. En el gráfico superior, es bastante evidente que la distribución de las mujeres está movida a la derecha de los hombres. Sin embargo las pendientes de ambas, son similares. 11.9 Prueba de Kolmogorov-Smirnov Una prueba no paramétrica adicional que puede realizarse si la suposición de distribuciones normales no es acertada es la prueba de dos muestras de Kolmogorov-Smirnov. Esta prueba está basada en calcular la máxima distancia vertical entre las funciones de distribución acumuladas de las dos muestras, que a su vez es aproximadamente la distancia máxima entre los dos gráficos de cuantiles en la Figura 11-9. Si la distancia máxima es suficientemente amplia, entonces las dos muestras se pueden declarar provenientes de poblaciones significativamente diferentes. Al seleccionar Prueba Kolmogorov-Smirnov del cuadro de diálogo Tablas se muestra lo siguiente:

Prueba de Kolmogorov-Smirnov para Temperature Estadístico DN estimado = 0.242548 Estadístico K-S bilateral para muestras grandes = 1.37737 Valor P aproximado = 0.0449985

Figura 11-10. Prueba de Kolmogorov-Smirnov

La distancia máxima vertical, denotada por DN, es igual aproximadamente a 0.24 para los datos de la temperatura corporal. El valor-P es usado para determinar si las distribuciones son o no son significativamente diferentes una de otra. Un valor-P pequeño lleva a la conclusión de que hay una diferencia significativa. Ya que el valor-P para los datos de las muestras es menor a 0.05, hay una diferencia significativa entre las distribuciones femenina y masculina en un 5% de nivel de significancia.

Advertencia: Si los datos son redondeados excesivamente, esta prueba puede no ser confiable ya que la CDF puede brincarlos en pasos grandes. Cuando sea posible, es


mejor confiar en una comparación de parámetros como la media, la desviación estándar y la mediana.

11.10 Gráfico Cuantil-Cuantil Un último gráfico, disponible al seleccionar Gráfico Cuantil-Cuantil del cuadro de diálogo Gráficas, grafica los cuantiles estimados de una muestra contra los cuantiles de la otra:

Gráfico Cuantil-Cuantil para Temperature

96 97 98 99 100Gender=Female

96

97

98

99

100

Gen

der=

Mal

e

Figura 11-11. Gráfico C-C de Datos de Temperatura Corporal

Existe un punto en esta gráfica que corresponde a cada observación menor de las dos muestras. Trazado en el otro eje está el cuantil estimado de la muestra mayor. Si las muestras provienen de poblaciones idénticas, los puntos deben caer cerca de la línea diagonal. Un cambio constante a la derecha o izquierda indica que hay una diferencia significativa entre los centros de las dos distribuciones. Los puntos divergentes de la línea en una pendiente diferente a la de la línea diagonal indican una diferencia significativa en la varianza. En este caso, la diferencia entre las poblaciones puede ser un poco más complicada que un simple cambio en la media, ya que los puntos están más cerca de la línea en temperaturas altas y bajas que lo que están de las temperaturas centrales. Parece que la distribución de las temperaturas para las mujeres está más concentrada en el centro que la distribución de los hombres.

185/ Comparando Más de Dos Muestras

Tutorial #3: Comparando más de Dos Muestras Comparando medias y desviaciones estándar, ANOVA simple, ANOM y métodos gráficos.

Cuando los datos se encuentran en más de dos grupos, es necesario emplear técnicas diferentes a las utilizadas en el capítulo anterior. Por ejemplo, suponga que desea comparar la fuerza de un artículo fabricado con 4 materiales distintos. En un experimento básico, podría hacer 12 artículos usando diferentes cantidades de cada uno de los cuatro materiales con la finalidad de compararlos. Los siguientes datos representan los resultados de tal experimento:

Material A Material B Material C Material D 64.7 60.4 58.3 60.8 64.8 61.8 62.1 60.2 66.8 63.3 62.4 59.8 67.0 61.6 60.3 58.3 64.9 61.0 60.6 56.4 63.7 63.8 60.0 61.6 61.8 60.9 60.3 59.5 64.3 65.1 62.4 62.0 64.3 61.5 61.9 61.4 65.9 60.0 63.1 58.6 63.6 62.9 60.2 59.5 64.6 60.6 58.6 60.0

Capítulo

12


Es de considerable interés, determinar cuál de los materiales produce los artículos más fuertes, así como también que materiales son significativamente diferentes de los otros. Existen dos formas para capturar datos de varias muestras en una hoja de datos:

1. Usando una columna para cada muestra.

2. Usando una sola columna para todos los datos y una segunda columna con los códigos que identifican la muestra de la que proviene cada observación.

Para este ejemplo, se ha elegido usar la primera opción. Los datos para los doce artículos han sido colocados en cuatro columnas de un archivo llamado widgets.sf6, el cual se puede abrir seleccionando Abrir - Abrir Datos del menú Archivo. 12.1 Ejecutando Comparación de Varias Muestras El procedimiento Comparación de Varias Muestras está disponible en el menú principal bajo.

1. Si usa el menú Clásico seleccione: Comparar – Comparación de Varias Muestras – Comparación de Varias Muestras .

2. Si usa el menú Seis Sigma, seleccione Analizar – Datos Continuos – Comparaciónes de Varias

Muestras – Comparación de Varias Muestras. El cuadro de diálogo inicial se usa para indicar la estructura de los datos:

Figura 12-1.Cuadro de Diálogo Inicial de Comparación de Varias Muestras

En este caso, los datos han sido colocados en diferentes columnas de la hoja de datos. El segundo cuadro de diálogo solicita los nombres de las columnas que contienen los datos:


Figura 12-2. Cuadro de Diálogo de Captura de Datos para Comparar Varias Muestras

En el archivo de datos, las observaciones han sido colocadas en cuatro columnas llamadas A, B, C y D. Cuando se presenta la ventana de análisis, ésta tendrá cuatro paneles:


Figura 12-3. Ventana de Análisis de Comparación de Varias Muestras

El panel superior izquierdo resume el tamaño y el rango de cada muestra. El panel superior derecho muestra un gráfico de dispersión de los datos, que a continuación ampliaremos:


A B C D

Dispersión según Muestra

56

58

60

62

64

66

68re

spue

sta

Figura 12-4. Gráfico de Dispersión de Fuerza vs Material

Note que muchas de las observaciones están encimadas. Para solucionar este problema, haga

doble clic en el panel de la gráfica para maximizarla y luego pulse el botón Separar Puntos en la barra de herramientas de análisis y agregue una pequeña separación horizontal moviendo el dial superior levemente hacia la derecha:

Figura 12-5. Cuadro de Diálogo de Separación de Puntos

Esto separa levemente de forma aleatoria cada punto de manera horizontal, haciendo que los puntos sean más fáciles de ver:


A B C D

Dispersión según Muestra

56

58

60

62

64

66

68

resp

uest

a

Figura 12-6. Gráfico de Dispersión después de Separar Puntos

La separación de puntos solo afecta el gráfico actual, no los datos ni los cálculos hechos de ellos.

12.2 Análisis de Varianza El primer paso cuando se comparan varias muestras, por lo regular es realizar un análisis de varianza (ANOVA). El ANOVA es usado para probar la hipótesis de medias poblacionales iguales, seleccionando entre las dos hipótesis siguientes:

Hipótesis Nula: μA = μB = μC = μD Hipótesis Alternativa: las medias no son todas iguales

Donde μj representa la media poblacional de donde la muestra j fue tomada. El rechazo de la hipótesis nula indica que las muestras vienen de poblaciones cuyas medias no son todas idénticas. La información resultante del ANOVA está contenida en la tabla ANOVA, que es mostrada inicialmente en el panel inferior izquierdo de la ventana de análisis:


Tabla ANOVA Fuente Suma de Cuadrados Gl Media Cuadrada Razón-F Valor-P Entre grupos 157.882 3 52.6272 22.76 0.0000 Intra grupos 101.728 44 2.31201 Total (Corr.) 259.61 47

Figura 12-7. Tabla de Análisis de Varianza

El análisis de varianza descompone la variabilidad de los datos observados en dos componentes: un componente entre-grupos, que cuantifica las diferencias entre los artículos hechos con los diferentes materiales y un componente inter-grupal, que cuantifica las diferencias entre los artículos hechos del mismo material. Si la variabilidad estimada entre-grupos es significativamente más grande que la variabilidad estimada inter-grupal, es evidente que las medias de los grupos no son iguales. La cantidad clave en la Figura 12-7 es el Valor-P. Valores-P pequeños (menores a 0.05 si se opera en un nivel de significancia de 5%) nos llevan al rechazo de la hipótesis de medias iguales. En el ejemplo actual, existe una pequeña duda de que las medias sean significativamente diferentes. En la última edición del Statistics for Experimenters por Box, Hunter and Hunter (John Wiley and Sons, 2005), se presenta una nuevo diagrama diseñado para mostrar los resultados de un ANOVA en formato gráfico. El ANOVA Gráfico es mostrado en el panel inferior derecho:

ANOVA Gráfico para A

-8 -4 0 4 8 12Residuos

Grupos P = 0.0000D C B A

Figura 12-8. ANOVA Gráfico


A lo largo de la parte inferior del gráfico hay un diagrama de puntos de los residuos del modelo. En el ANOVA simple, los residuos son iguales a la diferencia entre cada observación y la media de todas las observaciones en su grupo. En el ejemplo actual, la variabilidad observada en los residuos es indicativa de la variabilidad natural entre los artículos hechos del mismo material. Graficadas sobre la línea central están las desviaciones a escala entre las medias del grupo y la media total de todas las n = 48 observaciones. Estas desviaciones se gradúan de manera que su variabilidad puede compararse con la de los residuos. Cualquiera de los grupos cuyos puntos estén muy apartados que fácilmente vengan de una distribución con una dispersión similar a la de los residuos, claramente corresponden a poblaciones diferentes. En la Figura 12-8, el grupo A parece estar muy separado de los otros grupos. La separación de las otras tres medias es menos clara. Una comparación más a detalle de las cuatro medias muestrales se describe en la siguiente sección. 12.3 Comparando Medias Si el Valor-P en la tabla ANOVA es pequeño, entonces las medias muestrales deberían ser examinadas para determinar cuáles medias son significativamente diferentes de las otras. Un gráfico útil para este propósito es el Gráfico de Medias, disponible en el cuadro de diálogo Gráficas:

A B C D

Medias y 95.0 Porcentaje Intervalos Tukey HSD

59

61

63

65

67

Med

ia

Figura 12-9. Gráfico de Medias


El gráfico de medias muestra la media de cada muestra, junto con un intervalo de incertidumbre a su alrededor. La interpretación de los intervalos depende del tipo de intervalo elegido, que puede ser cambiado usando Opciones de Ventana. Los intervalos más comúnmente usados son:

1. Intervalos LSD (Menor Diferencia Significativa) de Fisher: Estos intervalos se construyen de tal manera que uno puede escoger un solo par de muestras y declarar que sus medias son significativamente diferentes si los intervalos no se traslapan en dirección vertical. La posibilidad de declarar incorrectamente que dos muestras son diferentes con éste método está ajustada a un 5%, haciendo que las comparaciones entre muchos pares de medias resulten erróneas en al menos un par con una probabilidad muy alta.

2. Intervalos HSD (Honesta Diferencia Significativa) de Tukey. Los intervalos se construyen con el

fin de controlar la tasa de error del tratamiento en un 5%. Usando el método de Tukey, no se declara erroneamente algún par de medias como significativamente diferente, ya que ésto a lo más se presenta en un 5% de los análisis que usted realice.

Los intervalos en la Figura 12-9 usan el método de Tukey. Debido a que el intervalo para la muestra A no traslapa ningún otro intervalo, la media de la muestra A es significativamente diferente de las otras 3 muestras. La muestra B también es significativamente diferente de la muestra D, por la misma razón. Sin embargo, C no es significativamente diferente de B ni D. El análisis puede mostrarse en una tabla eligiendo Pruebas de Rangos Múltiples en el cuadro de diálogo Tablas:

Contraste Múltiple de Rango Método: 95.0 porcentaje Tukey HSD Casos Media Grupos Homogéneos D 12 59.8417 X C 12 60.85 XX B 12 61.9083 X A 12 64.7 X

Contraste Sig. Diferencia +/- Límites A - B * 2.79167 1.65755 A - C * 3.85 1.65755 A - D * 4.85833 1.65755 B - C 1.05833 1.65755 B - D * 2.06667 1.65755 C - D 1.00833 1.65755

* indica una diferencia significativa.

Figura 12-10. Pruebas de Rangos Múltiples


En la parte inferior de la tabla se muestra cada par de medias. La columna Diferencia presenta la diferencia de medias de la primera y segunda muestras. La columna +/- Límites muestra un intervalo de incertidumbre para la diferencia. Cualquier par cuyo valor absoluto de la diferencia exceda el límite es estadísticamente significativo en el nivel seleccionado de significancia y se indica con un * en la columna Sig. En el ejemplo actual, cuatro de los seis pares de medias muestran diferencias significativas. En la parte superior de la tabla se acomodan las muestras en grupos homogéneos, mostrados como columnas de X. Un grupo homogéneo es un grupo en el que no hay diferencias significativas. En este caso, la muestra A está en un grupo por sí sola, ya que es significativamente diferente a las demás. La muestra C cae dentro de dos grupos, uno con B y otro con D. Se requerirán más datos para distinguir realmente a que grupo pertenece C. 12.4 Comparando Medianas Si se sospecha que existen datos aberrantes, puede usar de forma alterna al análisis de varianza estándar, un procedimiento no paramétrico, como la Prueba Kruskal-Wallis y la Prueba de Friedman encontradas en Tablas. Estas pruebas comparan las medianas en lugar de las medias:

Hipótesis nula: todas las medianas son iguales Hipótesis alternativa: no todas las medianas son iguales

El tipo de prueba puede seleccionarse usando Opciones de Ventana. Existen dos tipos de pruebas:

1. Prueba Kruskal-Wallis– es apropiada cuando cada columna contiene una muestra aleatoria de la población. En cuyo caso, las filas no tienen un significado intrínseco.

2. Prueba de Friedman – apropiada cuando cada fila representa un bloque, i.e., el nivel de

alguna otra variable. Variables típicas de bloqueo son: día de la semana, turno o lugar de fabricación.

En el ejemplo, la fila no tienen significado por lo tanto la prueba Kruskal-Wallis es la adecuada:


Kruskal-Wallis Test Tamaño de Muestra Rango Promedio A 12 40.7917 B 12 25.7917 C 12 19.25 D 12 12.1667

Estadístico = 27.3735 Valor-P = 0.00000491592

Figura 12-11. Prueba de Varias RangosMultiple Range Pruebas

La entrada importante en la tabla es valor-P. Ya que el Valor-P es pequeño (menor a 0.05), la hipótesis de medianas iguales es rechazada. Pares de medianas pueden ser además comparadas eligiendo Gráfico de Caja y Bigotes del cuadro de diálogo Gráficas y usando Opciones de Ventana para añadir muescas en las medianas:

A

B

C

D

Gráfico Caja y Bigotes

56 58 60 62 64 66 68respuesta

Figura 12-12. Gráfico de Caja y Bigotes con Muescas en las Medianas

El rango de cada muesca muestra la incertidumbre asociada con el estimado de la mediana de ese grupo. Las muescas son construídas de tal modo que cualesquiera dos muestras cuyas muescas no se traslapen, pueden declararse que tienen medianas significativamente diferentes en el nivel de significancia predeterminado en el sistema (usualmente 5%). En la gráfica, las muescas de las muestras B, C y D se traslapan, pero la mediana para la muestra A es significativamente más alta que la de las otras 3 muestras.


Nota: el comportamiento de doblado hacia atrás observado en la Figura 12-12 ocurre cuando una muesca se extiende más allá del límite de la caja.

12.5 Comparando Desviaciones Estándar También es posible probar la hipótesis de desviaciones estándar iguales:

Hipótesis nula: σA = σB = σC = σD Hipótesis alternativa: no todas las desviaciones estándar son iguales

Esto se hace seleccionando Verificación de la Varianza en el cuadro de diálogo Tablas:

Contraste de Varianza Prueba Valor-P Levene's 0.143286 0.933432

Figura 12-13. Comparación de Varianzas de las Muestras

Una de las cuatro pruebas se mostrará, dependiendo de la configuración en las Opciones de Ventana. Tres de las pruebas disponibles, incluyendo la prueba de Levene, muestra valores-P. Un valor-P menor a 0.05 nos lleva al rechazo de la hipótesis de sigmas iguales al 5% del niivel de significancia. En este caso, las desviaciones estándar no son significativamente diferentes entre ellas, ya que el valor-P está muy por encima de 0.05. En resumen, parece que la fuerza promedio es diferente para los distintos materiales. No obstante, la variabilidad entre los artículos hechos del mismo material es casi igual para los cuatro materiales. 12.6 Gráficos de Residuos Siempre que un modelo estadístico es ajustado a los datos, es importante examinar los residuos del modelo ajustado. En este análisis, hay un residuo correspondiente a cada uno de los n = 48 artículos, definido como la diferencia entre la fuerza de un artículo y la fuerza promedio de todos los artículos hechos del mismo material. El cuadro de diálogo Gráficas contiene un campo para generar gráficos de residuos automáticamente. Dependiendo de la selección en Opciones de Ventana, puede graficar los


residuos por grupo vs valores predichos, o en el orden como se encuentra la fila en la hoja de datos. El gráfico inferior muestra los residuos graficados vs la fuerza predicha:

Gráfico de Residuos

-3.5

-1.5

0.5

2.5

4.5

resi

duos

59 60 61 62 63 64 65valor predicho

Figura 12-14. Gráfico de Residuos vs Fuerza Predicha

En este tipo de gráficos, se deben buscar:

1. Puntos Aberrantes – residuos aislados muy alejados de todos los demás. Dichos puntos necesitarán investigarse más detalladamente para determinar si existe una causa asignable que explique su comportamiento inusual.

2. Heterosedasticidad – un cambio sistemático en la varianza de acuerdo al incremento o

decremento de los valores predichos. Esta condición típicamente resulta en una apariencia de embudo en el gráfico y puede necesitar una transformación de las observaciones originales considerando los logaritmos de los datos antes de realizar el análisis. Procedimientos como Pruebas de Rangos Múltiples no trabajarán adecuadamente cuando la variabilidad dentro del grupo difiera significativamente entre los grupos.

Si se desea, los residuos pueden guardarse en una columna de cualquier hoja de datos pulsando

el ícono Guardar Resultados en la barra de herramientas de análisis.


12.7 Gráfico Análisis de Medias (ANOM) Otro modo diferente para comparar varias medias es usando un Gráfico de Análisis de Medias, también disponible en el cuadro de diálogo Gráficas:

A B C D

Gráfico de Análisis de MediaCon 95% Límites de Decisión

59

60

61

62

63

64

65

Med

ia

UDL=62.80

CTR=61.83

LDL=60.85

Figura 12-15. Análisis de Gráfico de Medias

Diseñado para tener similitud con un gráfico de control, este gráfico muestra la media de cada muestra junto con una línea vertical dibujada en la gran media de todas las observaciones. Los límites de decisión son incluídos por arriba y abajo de la gran media. Cualquiera de las medias que caiga fuera de los límites puede ser declarada como significativamente diferente de la gran media. En este caso, la interpretación es que los artículos de la muestra A son significativamente más fuertes que el promedio, mientras que los artículos de las muestras C y D son significativamente más debiles que el promedio. Este tipo de interpretación puede ser muy útil algunas veces.

199/ Análisis de Regresión

Tutorial #4: Análisis de Regresión

Ajustando modelos lineales y no lineales, seleccionando el mejor modelo, graficando residuos y presentando resultados.

Una de las secciones más usadas en el STATGRAPHICS Centurion es el conjunto de procedimientos que se ajustan a un modelo de regresión estadístico. En un modelo de regresión, la variable de respuesta Y es expresada como una función de una ó más variables prestablecidas de X, más el ruido. En muchos (pero no todos) los casos, la función es lineal en los coeficientes desconocidos, así que el modelo puede expresarse como: Yi = β0 + β1X1,i + β2x2,i + β3X3,i + … + βkXk,i + εi Donde el subíndice i representa la observación i-ésima en la muestra de datos, las β son los coeficientes desconocidos del modelo y la ε es una desviación aleatoria que normalmente se asume proviene de una distribución normal con media 0 y desviación estándar σ. Dado un conjunto de datos con una variable de respuesta Y y una o más variables conocidas, el objetivo del análisis de regresión es construir un modelo que:

1. Describa las relaciones existentes entre las variables, de tal forma que permita que Y sea bien predicha, dados los valores conocidos de las X.

2. No contenga más variables X que las necesarias para generar una buena predicción.

La consideración anterior es a veces referida como parsimonia. Típicamente, los modelos que involucran un conjunto bien seleccionado de predictores se desempeñan mejor en la práctica.

Capítulo

13


Este capítulo considera muchos tipos de modelos de regresión. Como ejemplo, el rendimiento de millas por galón en la ciudad, en el archivo 93cars.sf6, será usada como la variable de respuesta Y. El objetivo es construir un modelo con las otras columnas del archivo que pueda predecir satisfactoriamente las millas por galón de un automóvil. 13.1 Análisis de Correlación Un procedimiento muy útil para iniciar a construir un modelo de regresión es el de Análisis de Múltiples Variables. Este análisis puede encontrarse en el menú principal bajo:

1. Si usa el menú Clásico, seleccione Describir – Datos Numéricos – Análisis de Múltiples Variables.

2. Si usa el menú Seis Sigma, elija Analizar – Datos Continuos – Métodos Multivariados – Análisis

de Múltiples Variables. El análisis comienza mostrando el siguiente cuadro de diálogo para la captura de datos:

Figura 13-1. Cuadro de Diálogo de Captura de Datos para Análisis de Múltiples Variables


Adicionalmente a MPG City se han seleccionado seis variables como predictores. Estos posibles predictores son:

X1: Engine Size (Tamaño del Motor) (litros) X2: Horsepower (Caballos de Fuerza) (máximo) X3: Length (Longitud) (pulgadas) X4: Weight (Peso) (libras) X5: Wheelbase (Ejes) (pulgadas) X6: Width (Ancho) (pulgadas)

Pulsando ACEPTAR se presenta la ventana de análisis:

Figura 13-2. Ventana de Análisis de Múltiples Variables

El panel superior izquierdo enlista las variables de captura, mientras que el panel central izquierdo muestra el resumen estadístico. Hay un total de 93 filas en el archivo de datos que tienen información completa de todas las diferentes variables a analizar. El gráfico mátriz a la derecha muestra gráficos X-Y para cada par de variables:


MPG City

Engine Size

Horsepower

Length

Weight

Wheelbase

Width

Figura 13-3. Gráfico de Matriz Suavizado

Para interpretar el gráfico, localice la descripción de una variable, como por ejemplo MPG City. La variable indicada se muestra en el eje vertical de cada gráfica en ese renglón y en el eje horizontal de cada gráfico en esa columna. Cada par de variable es entonces presentado dos veces, una sobre la diagonal y otra por debajo. Se han añadido a la gráfica, suavizadores estimados (LOWESS), al maximizar el panel y eligiendo el ícono Suavizar/Rotar en la barra de herramientas de análisis. De mayor interés es la fila superior del gráfico, que muestra el comportamiento de MPG City vs cada una de las otras 6 variables. Todas las variables están claramente correlacionadas con las millas por galón, algunas de una forma no lineal. También existe una amplia multicolinealidad presente (correlación entre las variables conocidas), lo cual sugiere que muchas combinaciones diferentes de variables pueden ser igualmente adecuadas para predecir Y. En el fondo a la izquierda de la tabla se muestra una matriz de los coeficientes de correlación estimados para cada par de variables en el análisis:


Correlaciones MPG City Engine Size Horsepower Length Weight Wheelbase Width MPG City -0.7100 -0.6726 -0.6662 -0.8431 -0.6671 -0.720 (93) (93) (93) (93) (93) (93) 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 Engine Size -0.7100 0.7321 0.7803 0.8451 0.7325 0.8671 (93) (93) (93) (93) (93) (93) 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 Horsepower -0.6726 0.7321 0.5509 0.7388 0.4869 0.6444 (93) (93) (93) (93) (93) (93) 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 Length -0.6662 0.7803 0.5509 0.8063 0.8237 0.8221 (93) (93) (93) (93) (93) (93) 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 Weight -0.8431 0.8451 0.7388 0.8063 0.8719 0.8750 (93) (93) (93) (93) (93) (93) 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 Wheelbase -0.6671 0.7325 0.4869 0.8237 0.8719 0.8072 (93) (93) (93) (93) (93) (93) 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 Width -0.7205 0.8671 0.6444 0.8221 0.8750 0.8072 (93) (93) (93) (93) (93) (93) 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

Correlación (Tamaño de Muestra) Valor-P

Figura 13-4. Matriz de Correlación

La tabla presenta el coeficiente de correlación para cada par de variables, el número de observaciones usado para obtener el estimado y un valor-P. Un coeficiente de correlación r es un número entre -1 y +1, que mide la fuerza de la relación lineal entre dos variables. Entre más cercana sea la correlación a -1 ó +1, más fuerte será la relación. El signo de la correlación indica la dirección de la relación. Un valor positivo significa que Y va hacia arriba cuando X va hacia arriba. Un valor negativo significa que Y va hacia abajo cuando X va hacia abajo. Para determinar si dos variables están ó no están relacionadas entre sí, se calcula un Valor-P para cada coeficiente de correlación. Cualquier par de variables cuyo Valor-P sea menor a 0.05 exhibe una correlación lineal estadísticamente significativa en un nivel de significancia del 5%. El renglón superior muetsra la correlación entre MPG City y los 6 predictores. La correlación más fuerte es con Weight, en -0.8431. El signo negativo implica que cuando se incrementa Weight, MPG City decrece, lo cual no es ninguna sorpresa.


13.2 Regresión Simple El primer modelo estadístico que será ajustado es una línea recta de la forma: MPG City = β0 + β1Weight + ε En la ecuación superior, β1 es la pendiente de la línea en unidades de millas por galón por libra, mientras que βo es la Y-intercepta. Para ajustar este modelo:

1. Si usa el menú Clásico, elija Relacionar – Un Factor – Regresión Simple. 2. Si usa el menú Seis Sigma, elija Mejorar – Análisis de Regresión – Un Factor– Regresión Simple.

El cuadro de diálogo de captura de datos debe llenarse como se muestra a continuación:

Figura 13-5. Cuadro de Diálogo de Captura de datos de Regresión Simple

La ventana de análisis inicial contiene 4 paneles que presentan información sobre el modelo ajustado y los residuos:


Figura 13-6. Ventana de Análisis de Regresión Simple

El Resumen del Análisis en el panel superior izquierdo resume el ajuste:


Regresión Simple - MPG City vs. Weight Variable dependiente: MPG City (miles per gallon in city driving) Variable independiente: Weight (pounds) Lineal: Y = a + b*X Coeficientes Mínimos Cuadrados Estándar T Parámetro Estimado Error Estadístico Valor-P Intercepto 47.0484 1.67991 28.0064 0.0000 Pendiente -0.00803239 0.000536985 -14.9583 0.0000

Análisis de Varianza Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P Modelo 2065.52 1 2065.52 223.75 0.0000 Residuo 840.051 91 9.23133 Total (Corr.) 2905.57 92

Coeficiente de Correlación = -0.843139 R-cuadrada = 71.0883 porciento R-cuadrado (ajustado para g.l.) = 70.7705 porciento Error Estándar Est. = 3.03831 Error Absoluto medio = 1.99274 Estadístico Durbin-Watson = 1.64586 (P=0.0405) Autocorrelación de residuos en Retraso 1 = 0.176433

Figura 13-7. Resumen del Análisis de Regresión Simple

De las muchas estadísticas en la tabla superior, las siguientes son las más importantes:

1. Coeficientes: los coeficientes del modelo estimado. El modelo ajustado que será utilizado para hacer predicciones es:

MPG City = 47.0484 - 0.00803239Weight

2. R-cuadrado: es el porcentaje de la variabilidad en Y que ha sido expuesto por el modelo. En este caso, una regresión lineal contra Weight explica el 71.1% de la variabilidad en MPG City.

3. Valor-P del modelo: prueba la hipótesis nula de que el modelo ajustado no es mejor

que un modelo que no incluya Weight. Un Valor-P abajo de 0.05, como en el ejemplo actual, indica que Weight es un predictor muy útil de MPG City.

El gráfico en el panel superior derecho muestra el modelo ajustado:


Gráfico del Modelo AjustadoMPG City = 47.0484 - 0.00803239*Weight

1600 2100 2600 3100 3600 4100 4600Weight

15

25

35

45

55M

PG

City

Figura 13-8. Gráfico del Modelo Lineal Ajustado

El gráfico muestra la línea de regresión de mínimos cuadrados y dos grupos de límites. Los límites internos proveen intervalos de confianza del 95% para el valor de la media de Y en cualquier X seleccionada. Esto indica que tan bien ha sido estimada la posición de la línea, dado que la relación es lineal. Entre más grande sea la muestra, más estrechos serán los límites. Las líneas externas son los límites de predicción del 95% para las nuevas observaciones. Se estima que el 95% de las observaciones adicionales, similares a las de la muestra, caerán dentro de esos límites. Es adecuado tomar nota que 3 observaciones en valores bajos de Weight caen mucho más allá de los límites predictivos del 95%. Esto puede ser indicativo de datos aberrantes o de una falla del modelo en tomar en cuenta la no linealidad de la relación actual entre MPG City y Weight. 13.3 Ajustando un Modelo No Lineal El procedimiento de Regresión Simple incluye la posibilidad de ajustar una amplia variedad de modelos no lineales. Para determinar la mejora relativa que varios modelos pueden hacer, elija Comparación de Modelos Alternativos del cuadro de diálogo Tablas. Esto ajustará todos los modelos posibles y los enlistará en un orden decreciente de R-cuadrada:


Comparación de Modelos Alternos Modelo Correlación R-Cuadrada Curva S 0.9016 81.29% Inversa-Y Raíz Cuadrada-X 0.8995 80.92% Inversa-Y Logaritmo-X 0.8995 80.90% Raíz Cuadrada-Y Inversa de X 0.8988 80.78% Multiplicativa -0.8981 80.65% Inversa de Y 0.8969 80.44% Logarítmico-Y Raíz Cuadrada-X -0.8919 79.54% Doble Recíproco -0.8896 79.14% Inversa de X 0.8888 79.00% Raíz Cuadrada-Y Logaritmo-X -0.8879 78.83% Inversa-Y Cuadrado-X 0.8852 78.35% Exponencial -0.8833 78.03% Raíz Cuadrada Doble -0.8784 77.16% Logaritmo de X -0.8705 75.78% Raíz Cuadrada de Y -0.8668 75.14% Logaritmo-Y Cuadrado-X -0.8611 74.15% Raíz Cuadrada deX -0.8577 73.56% Cuadrado-Y Inversa de X 0.8472 71.77% Lineal -0.8431 71.09% Raíz Cuadrada-X Cuadrado-X -0.8393 70.44% Cuadrado-Y Logaritmo-X -0.8146 66.35% Cuadrado de X -0.8106 65.71% Cuadrado-Y Raíz Cuadrada-X -0.7957 63.31% Cuadrado de Y -0.7758 60.18% Cuadrado Doble -0.7346 53.96% Logístico <sin ajuste> Log probit <sin ajuste>

Figura 13-9. Modelos Alternos No Lineales

Los modelos en la parte superior de la lista explican el porcentaje más grande de la variación en la variable de respuesta. La R-cuadrada es solo un criterio que puede usarse para ayudar a escoger un modelo. Los modelos con cualesquiera valores de R-cuadrada menores al primer modelo de la lista son preferibles si tienen más sentido en el contexto de los datos. En el ejemplo actual, un atractivo modelo cercano al principio de la lista es el modelo Y-Recíproco. Este modelo toma la forma:

CityMPG1 = β0 + β1Weight + ε


En él, el recíproco de millas por galón (galones por milla) se expresa como una función lineal de weight. Es algo común que las transformaciones de X,Y o ambas, puedan llevarnos a mejores modelos. Para ajustar un modelo Y-Recíproco, pulse el ícono de Opciones de Análisis y elija Y-Reciproco en el cuadro de diálogo. El resultado del ajuste se muestra abajo:

Gráfico del Modelo AjustadoMPG City = 1/(0.00193667 + 0.0000146623*Weight)

1600 2100 2600 3100 3600 4100 4600Weight

15

25

35

45

55

MP

G C

ity

Figura 13-10. Modelo Y-Recíproco Ajustado

Siendo lineal en el recíproco de MPG City, el modelo es no lineal en la medición original. Note también que los límites de predicción para Weight se volvieron más grandes conforme los valores predichos se hicieron más grandes. Esto tiene sentido en el contexto de los datos, ya que implica que hay más variabilidad entre los autos más ligeros que entre los autos mas pesados. 13.4 Examinando los Residuos Una vez que un modelo razonable se haya ajustado, los residuos del ajuste deben ser examinados. En general, un residuo puede pensarse como la diferencia entre el valor Y observado y el valor predicho por el modelo: Residuo = Y observada – Y predicha El análisis Regresión Simple gráfica automáticamente los residuos vs la variable X:


Gráfico de ResiduosMPG City = 1/(0.00193667 + 0.0000146623*Weight)

1600 2100 2600 3100 3600 4100 4600Weight

-3.7

-1.7

0.3

2.3

4.3

Red

iduo

Est

uden

tizad

o

Figura 13-11.Gráfico de Residuos Estudentizados

Usando Opciones de Ventana, se puede elegir entre graficar residuos simples ó residuos Estudentizados. Los residuos estudentizados reexpresan los residuos ordinarios definidos arriba dividiéndolos entre sus errores estándar estimados. Un residuo Estudentizado así, indica cuantos errores estándar del valor del dato, son del modelo ajustado. STATGRAPHICS Centurion actualmente calcula residuos eliminados estudentizados. Los residuos eliminados son calculados reteniendo una observación a la vez, reajustando el modelo y determinando el número de errores estándar que la observación retenida arroja desde el nuevo modelo ajustado. Esto evita que los datos aberrantes tengan un gran impacto en el modelo cuando su residuo es calculado. La selección Residuos Inusuales en el cuadro de diálogo Tablas enlista todos los residuos estudentizados mayores a 2 en valor absoluto:


Residuos Atípicos Predicciones Residuos Fila X Y Y Residuos Studentizados 5 3640.0 22.0 18.0808 3.91924 -2.38 36 3735.0 15.0 17.6366 -2.63658 2.41 42 2350.0 42.0 27.4778 14.5222 -3.11 57 2895.0 17.0 22.5306 -5.53064 3.60 91 2810.0 18.0 23.1816 -5.18157 3.04

Figura 13-12. Tabla de Residuos Inusuales

Los residuos estudentizados mayores a 3, como la fila #57, son aberrantes potenciales que no parecen pertenecer al resto de los datos. La Fila #57 corresponde al Mazda RX-7 que sé registró con un rendimiento de solo 17 millas por galón, a pesar de que el modelo predijo 22.5 mpg. Debido a que en la siguiente sección se añaden variables adicionales al modelo, que pudieran ayudar a mejorar su capacidad predictiva para tales autos deportivos, la fila #57 no será excluida del ajuste, no obstante se le debe prestar cuidadosa atención. 13.5 Regresión Múltiple Para mejorar el modelo, es necesario añadir otros predictores. Esto se logra más fácilmente usando el análisis de Regresión Múltiple, que puede encontrarse en el menú principal bajo:

1. Si usa el menú Clásico, elija Relacionar – Varios Factores – Regresión Múltiple. 2. Si usa el menú Seis Sigma, elija Mejorar – Análisis de Regresión – Varios Factores – Regresión

Múltiples. El cuadro de diálogo de captura de datos toma la siguiente forma:


Figura 13-13. Cuadro de Diálogo de Captura de Datos de Regresión Múltiple

De inicio, los 6 predictores considerados en el Análisis de Varias Variables discutido anteriormente se considerarán como variables independientes. La variable dependiente es la recíproca de MPG City, equivalente a galones por milla. El resumen del análisis se muestra abajo:


Regresión Múltiple - 1/MPG City Variable dependiente: 1/MPG City Variables independientes: Engine Size (liters) Horsepower (maximum) Length (inches) Weight (pounds) Wheelbase (inches) Width (inches) Error Estadístico Parámetro Estimación Estándar T Valor-P CONSTANTE 0.0155897 0.0177088 0.880334 0.3811 Engine Size 0.00072849 0.000980504 0.742974 0.4595 Horsepower 0.0000132632 0.000014911 0.889485 0.3762 Length -0.000101355 0.0000608857 -1.66468 0.0996 Weight 0.0000149727 0.00000242804 6.1666 0.0000 Wheelbase -0.000148122 0.000163073 -0.908321 0.3662 Width 0.000223526 0.00028967 0.771658 0.4424

Análisis de Varianza Fuente Suma de Cuadrados Gl Cuadrada Media Razón-F Valor-P Modelo 0.00705967 6 0.00117661 67.64 0.0000 Residuo 0.001496 86 0.0000173954 Total (Corr.) 0.00855567 92

R-cuadrada = 82.5145 porciento R-cuadrado (ajustado para g.l.) = 81.2946 porciento Error Estándar Est. = 0.00417077 Error Absoluto medio = 0.00304978 Estadístico Durbin-Watson = 1.6264 (P=0.0306) Autocorrelación de residuos en Retraso 1 = 0.186005 El StatAdvisor La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre 1/MPG City y 6 variables independientes. La ecuación del modelo ajustado es 1/MPG City = 0.0155897 + 0.00072849*Engine Size + 0.0000132632*Horsepower - 0.000101355*Length + 0.0000149727*Weight - 0.000148122*Wheelbase + 0.000223526*Width Puesto que el valor-P en la tabla ANOVA es menor que 0.05, existe una relación estadísticamente significativa entre las variables con un nivel de confianza del 95.0%.

Figura 13-14. Resumen del Análisis de Regresión Múltiple con 6 Variables Conocidas

Note que el estadístico R-cuadrada ha crecido hasta un 82.5%. Como sea, el modelo es innecesariamente complicado. Cerca de la parte superior hay una columna de Valores-P. Estos Valores-P prueban la hipótesis de que el coeficiente de una variable al azar es igual a 0, dado que


todas las otras variables permanecen en el modelo. Valores-P mayores a 0.05 indican que una variable no contribuye significativamente al ajuste, en la presencia de todas las otras variables. Exceptuando por Weight, todos los predictores tienen valores-P > 0.05. Esto implica que al menos uno de esos predictores puede ser eliminado sin afectar al modelo significativamente.

Nota: Sería un error en este punto asumir que las 5 valores conocidas con Valores-P > 0.05 pueden ser eliminadas. Debido a la alta multicolinearidad en los datos, todos los valores-P pueden cambiar drásticamente incluso si una variable es eliminada del modelo.

Un método útil para simplificar el modelo es realizar una regresión por pasos . En esta, las variables son añadidas o eliminadas del modelo de regresión una a la vez, con el objeto de obtener un modelo que contenga solo predictores significativos pero sin excluir variables útiles. La regresión por pasos esta disponible en el cuadro de diálogo Opciones de Análisis:

Figura 13-15. Cuadro de Diálogo de Opciones de Análisis de Regresión Múltiple

Existgen dos opciones para una Regresión por Pasos:


1. Selección Hacia Adelante – inicia el modelo conteniendo solo una constante y va incluyendo variables cuando estas mejoran el ajuste significativamente.

2. Selección Hacia Atrás – inicia el modelo incluyendo todas las variables y las va eliminando

una a la vez, hasta que las variables restantes sean estadísticamente significativas. En ambos métodos, las variables eliminadas pueden ser reintegradas más tarde si estas parecen ser predictores útiles, o que las variables previamente integradas pueden ser eliminadas más tarde si dejan de ser significativas. Al ejecutar una selección hacia atrás nos dá como resultado el siguiente modelo: Regresión Múltiple - 1/MPG City Variable dependiente: 1/MPG City Variables independientes: Engine Size (liters) Horsepower (maximum) Length (inches) Weight (pounds) Wheelbase (inches) Width (inches) Error Estadístico Parámetro Estimación Estándar T Valor-P CONSTANTE 0.0034427 0.00243602 1.41325 0.1610 Horsepower 0.0000260839 0.0000124356 2.09752 0.0388 Weight 0.0000129513 0.0000011041 11.7302 0.0000

Análisis de Varianza Fuente Suma de Cuadrados Gl Cuadrada Media Razón-F Valor-P Modelo 0.00696044 2 0.00348022 196.35 0.0000 Residuo 0.00159524 90 0.0000177249 Total (Corr.) 0.00855567 92

R-cuadrada = 81.3546 porciento R-cuadrado (ajustado para g.l.) = 80.9403 porciento Error Estándar Est. = 0.00421009 Error Absoluto medio = 0.00313061 Estadístico Durbin-Watson = 1.62892 (P=0.0338) Autocorrelación de residuos en Retraso 1 = 0.184113 El StatAdvisor La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre 1/MPG City y 6 variables independientes. La ecuación del modelo ajustado es 1/MPG City = 0.0034427 + 0.0000260839*Horsepower + 0.0000129513*Weight

Figura 13-16. Resumen Estadístico de Regresión Múltiple después de la Selección Hacia Atrás.


Solo dos variables permanecen en el modelo: Horsepower y Weight. Ambas variables tienen valores-P menores a 0.05. Una vez que se ha encontrado una ecuación matemática, se puede interpretar mejor graficando esa ecuación. Cuando el modelo contiene 2 predictores, la ecuación representa una superficie en 3 dimensiones, normlamente conocida superficie de respuesta. En este caso, la ecuación ajustada corresponde a un plano, debido a que Horsepower y Weight se integran al modelo de forma lineal. Para graficar el modelo, puede también:

1. Usar el procedimiento Modelos Lineales Generales, que automáticamente graficará un modelo de regresión con respecto a dos variables conocidas. (Nota: el procedimiento MLG solo está disponible en la Edición Profesional del STATGRAPHICS Centurion).

2. Usar el procedimiento Gráficos de Superficie y de Contorno. Este procedimiento está

disponible en todas las ediciones, aunque requiere que se copie la función a graficarse y que se definan sus propios títulos y escalas.

Tomando la segunda alternativa:

1. Si usa el menú Clásico, elija Gráficar – Gráficos de Superficie y de Contorno. 2. Si usa el menú Seis Sigma, elija Herramientas – Gráficos de Superficie y de Contorno.

En el cuadro de diálogo de captura de datos, capture el modelo, expresando las dos variables conocidas como X y Y. El modo más fácil para hacer esto es pegando la ecuación generada por el procedimiento de Regresión Múltiple, y cambiando Horsepower por la X y Weight por la Y:


Figura 13-17 Cuadro de Diálogo de Captura de datos para Gráfico de Superficie Respuesta y de Contorno

La escala de X y Y también debe ser cambiada para que sea representativa de los datos usados al ajustar el modelo. Cuando pulse ACEPTAR, se generará un gráfico de superficie. El gráfico inicial toma la forma de una superficie de malla de alambre:


0.0034427+0.0000260839*X+0.0000129513*Y

0 50 100 150 200 250 300X

1500200025003000350040004500

Y

22

32

42

52

62

72(X 0.001)

Func

ión

Figura 13-18. Gráfico de Superficie con Etiquetas y Escalamiento Predeterminado

Ud. puede mejorar su gráfico considerablemente.:

Seleccionando Opciones Gráficas de la barra de herramientas del análisis y cambiando las etiquetas y la escala en los separadores: Título Principal, Eje-X, Eje-Y y Eje-Z. En particular:

• Cambie el título del eje-X a Horsepower. • Cambie el título del eje-Y a Weight..

• Cambie la escala del eje-Y que vaya de 1500 a 4500 cada 1000.

• Cambie el título del eje-Z a 1/MPG City.

Seleccionando Opciones de Ventana y cambiando el tipo de gráfico presetnado:


Figura 13-19. Opciones de Ventana del Gráfico de Superficie

En el cuadro de diálogo, Tipo ha sido ajustado a Contorno y el campo de Contorno a Continuo. El gráfico actualizado se muestra abajo:

0.0034427+0.0000260839*X+0.0000129513*Y

0 50 100 150 200 250 300X

1500200025003000350040004500

Y

22

32

42

52

62

72(X 0.001)

Func

ión

Función0.020.030.040.050.060.07

Figura 13-20. Gráfico del Modelo Ajustado

Los autos que consumen más gasolina están en la esquina posterior derecha del gráfico.

220/ Analizando Datos Categóricos

Tutorial #5: Analizando Datos Categóricos Tabulación, tablas de contingencia y Análisis de Pareto.

Cada uno de los cuatro primeros tutoriales trata con datos continuos, en donde las observaciones son representadas numéricamente a lo largo de una escala contínua. Este tutorial examina un conjunto de datos categóricos, en los cuales cada observación representa un atributo clasificado, en lugar de una medición. Como ejemplo, considere los datos contenidos en el archivo defects.sf6. Una porción de este archivo se muestra abajo:

Defect (Defecto)

Facility (Fábrica)

Desalineado Virginia Contaminado Texas Contaminado Virginia Contaminado Texas Partes Faltantes Texas Desalineado Virginia Contaminado Texas Derrame Texas Dañado Virginia Contaminado Texas

Capítulo

14


Los datos consisten de n = 120 filas, cada uno corresponde a un defecto observado en un producto fabricado. El archivo también indica el tipo de defecto y la fábrica en la que se produjo el artículo. 14.1 Resumir Datos Categóricos Ignorando por un momento la fábrica en la que se produjo cada artículo, los datos del tipo de defecto pueden resumirse en:

1. Si usa el menú Clásico, elija Describir – Datos Categóricos – Tabulación. 2. Si usa el menú Seis Sigma, elija Analizar – Datos Categóricos – Un Factor - Tabulación.

Los datos categóricos a capturar en el cuadro de diálogo deben estar contenidos en una sola columna:

Figura 14-1. Cuadro de Diálogo de Captura de datos para una Tabulación

El procedimiento escanea la columna, identificando cada valor único. Luego presenta una ventana de análisis similar a la que se muestra abajo:


Figura 14-2. Ventana de Análisis de una Tabulación

El panel superior izquierdo muestra los 9 valores únicos encontrados en las n = 120 filas. El diagrama de barras y de sectores a la derecha ilustran la frecuencia observada para cada tipo de defecto, también tabulados en la ventana inferior izquierda. El tipo de defecto más común es “Contaminated”, que representa alrededor del 44% de todos los defectos. 14.2 Análisis de Pareto El procedimiento Tabulación ordena los tipos de defectos de forma alfabética. Para ordenarlos de mayor a menor frecuencía, debe usar el procedimiento Análisis de Pareto. El análisis de Pareto es accesado mediante:

1. Si usa el menú Clásico, elija CEP – Evaluación de Calidad – Análisis de Pareto. 2. Si usa el menú Seis Sigma, elija Analizar – Datos Categóricos – Un Factor – Análisis de Pareto.

El cuadro de diálogo para la captura de datos debe llenarse como se muestra a continuación:


Figura 14-3. Cuadro de Diálogo para Captura de Datos del Análisis de Pareto

El Análisis de Pareto acepta la captura de datos en dos formatos diferentes:

1. Datos no tabulados que necesitan ser contabilizados, como en el ejemplo actual. 2. Cantidades para datos que ya han sido agrupados por tipo de defecto. Esto es aplicable

si se tienen dos columnas, una que identifique los tipos de defecto y una segunda que contenga el número de ocurrencias para cada tipo de defecto.

La ventana de análisis presenta una tabla resumen y un gráfico de Pareto:


Figura 14-4. Ventana de Análisis de Pareto

Resulta de interés especial el gráfico de Pareto a la derecha, que grafica cada tipo de defecto de mayor a menor frecuencia. Inicialmente, las etiquetas en el eje se traslapan debido al número de defectos y a la longitud de su descripción. Esto se puede solucionar haciendo lo siguiente:

1. Haga doble clic dentro de la ventana de análisis para maximizar el panel. 2. Pulse el botón de Opciones Gráficas en la barra de herramientas del análisis, dando clic en

el separador eje-X y habilitar la opción Rotar Etiquetas del Eje-X.

3. Después de salir del cuadro de diálogo Opciones Gráficas, las etiquetas puede que no se ajusten completamente en la pantalla. En este caso, mantenga presionado el botón secundario del ratón en el cuerpo de la gráfica y desplácela hacia arriba ó, posicione el puntero en la esquina del eje-X para reducir el tamaño de los ejes.

Cuando haya terminado, el gráfico de Pareto debe lucir como el que se muestra a continuación.


Gráfica de Pareto para Defect

0

20

40

60

80

100

120fre

cuen

cia

Con

tam

inat

ed

Mis

alig

ned

Dam

aged

Poo

r col

or

Rus

ted

Mis

sing

par

ts

Mis

shap

en

Leak

ing

Wro

ng s

ize

44.17

67.50

80.8387.50 91.67 94.17 96.67 99.17 100.00

Figura 14-5. Gráfico de Pareto Editado

Las longitud de las barras en el gráfico de Pareto son proporcionales a la cantidad de ocurrencias que cada tipo de defecto tiene. La línea trazada sobre las barras describe un conteo acumulado de izquierda a derecha. En este ejemplo se muestra el porcentaje acumulado de los defectos, iniciando con el de mayor ocurrencia a la izquierda. El principio básico de Pareto establece que la gran mayoría de los defectos suceden en un pequeño número de causas posibles. En este caso, los 3 tipos de defectos más frecuentes contemplan el 80% de todos los posibles defectos. 14.3 Tabulación Cruzada El archivo defects.sf6 también la identificación de la fábrica de donde se produjo cada artículo defectuoso. Para consolidar los datos tanto por tipo de defecto como por fábrica:

1. Si usa el menú Clásico, elija Describir – Datos Categóricos – Tabulación Cruzada. 2. Si usa el menú Seis Sigma, elija Analizar – Datos Categóricos – Varios Factores – Tabulación

Cruzada. En el cuadro de diálogo para la captura de datos se emplean dos columnas, una que define las filas de la tabla de frecuencias de dos vías ó tabla de contingencia y otra que define las columnas:


Figura 14-6. Cuadro de Diálogo para Captura de Datos de Tabulación Cruzada

Al capturar los datos como se muestra arriba aparecerá la siguiente ventana de análisis:

Figura 14-7. Ventana de Análisis de una Tabulación Cruzada


La tabla en el panel inferior izquierdo agrupa los datos por tipo de defecto y fábrica:

Tabla de Frecuencias para Defect por Facility Texas Virginia Total por Fila Contaminated 36 17 53 30.00% 14.17% 44.17% Damaged 10 6 16 8.33% 5.00% 13.33% Leaking 2 1 3 1.67% 0.83% 2.50% Misaligned 8 20 28 6.67% 16.67% 23.33% Misshapen 0 3 3 0.00% 2.50% 2.50% Missing parts 2 1 3 1.67% 0.83% 2.50% Poor color 6 2 8 5.00% 1.67% 6.67% Rusted 2 3 5 1.67% 2.50% 4.17% Wrong size 1 0 1 0.83% 0.00% 0.83% Total por Columna 67 53 120 55.83% 44.17% 100.00%

Contenido de las celdas: Frecuencia Observada Porcentaje de la tabla

Figura 14-8 Tabla de dos vías con Porcentajes respecto a la Tabla Completa

Como se presentó desde un inicio, cada celda de la tabla muestra el número de filas correspondientes a una combinación particular de fila por columnas. También se muestra el porcentaje de cada celda con respecto a la tabla completa. Por ejemplo, había 36 artículos contaminados en la fábrica de Texas, representando el 30 por ciento de todos los artículos defectuosos en la muestra. Con Opciones de Ventana puede seleccionar otros conceptos a mostrarse en cada celda:


Figura 14-9 Cuadro de Diálogo de Opciones de Ventana para Tabulación Cruzada

Una opción interesante en el ejemplo es mostrar Porcentajes por Fila en vez de Porcentajes por Tabla:

Tabla de Frecuencias para Defect por Facility Texas Virginia Total por Fila Contaminated 36 17 53 67.92% 32.08% 44.17% Damaged 10 6 16 62.50% 37.50% 13.33% Leaking 2 1 3 66.67% 33.33% 2.50% Misaligned 8 20 28 28.57% 71.43% 23.33% Misshapen 0 3 3 0.00% 100.00% 2.50% Missing parts 2 1 3 66.67% 33.33% 2.50% Poor color 6 2 8 75.00% 25.00% 6.67% Rusted 2 3 5 40.00% 60.00% 4.17% Wrong size 1 0 1 100.00% 0.00% 0.83% Total por Columna 67 53 120 55.83% 44.17% 100.00%

Contenido de las celdas: Frecuencia Observada Porcentaje de la fila

Figura 14-10 Tabla de dos vías con Porcentajes respecto a cada Fila


El porcentaje ahora indica el porcentaje de cada celda con respecto al total de su fila. Por ejemplo, 67.92% de todos los artículos contaminados fueron producidos en Texas, mientras que el 71.43% de todos los artículos desalineados fueron producidos en Virginia. Esto sugiere que algunos tipos de defecto ocurran frecuentemente en unas fábricas más que en otras, una hipótesis que será probada formalmente en la siguiente sección. Otras gráficas también pueden ser muy útiles. Por ejemplo, el diagrama de barras muestra los datos tanto por defecto como por fábrica:

0 10 20 30 40frecuencia

Def

ect

Diagrama de Barras para Defect según Facility

ContaminatedDamaged

LeakingMisalignedMisshapen

Missing partsPoor color

RustedWrong size

FacilityTexasVirginia

Figura 14-11. Diagrama de Barras Agrupado

La diferencia entre las dos fábricas es bastante explícito. Un gráfico adicional, llamado Gráfico de Mosaico, es también bastante ilustrativo:


Gráfico de Mosaico para Defect segúnFacility

Contaminated

DamagedLeaking

Misaligned

MisshapenMissing partsPoor color

RustedWrong size


Figura 14-12. Gráfico de Mosaico

En esta gráfica, la altura de cada barra es proporcional al número total de defectos de cada tipo. El ancho de las barras es proporcional al porcentaje relativo de cada tipo de defecto en cada locación. Consecuentemente, el área total de cada rectángulo es proporcional a la frecuencia correspondiente de cada celda en la tabla de dos vías. Si así lo desea, las frecuencias de cada celda pueden mostrarse en tres dimensiones seleccionando el Gráfico de Rascacielos desde el cuadro de diálogo Gráficas:


Gráfico Rascacielos para Defect según Facility

Defect

Facility0

10

20

30

40

frec

uenc

ia

Con

tam

inat

ed

Dam

aged

Leak

ing

Mis

alig

ned

Mis

shap

en

Mis

sing

par

ts

Poo

r co

lor

Rus

ted

Wro

ng s

ize

TexasVirginia

Figura 14-13. Gráfico de Rascacielos Tridimensional

En un Gráfico de Rascacielos, la altura de cada barra representa la frecuencia de una celda en la tabla de contingencia. 14.4 Comparando Dos o Más Muestras Para determinar si las aparentes diferencias entre las fábricas de Texas y Virginia son estadísticamente significativas, elija Pruebas de Independencia del cuadro de diálogo Tablas. Para una tabla de este tamaño, el procedimiento presenta los resultados de una prueba chi-cuadrada:

Pruebas de Independencia Prueba Estadístico Gl Valor-P Chi-Cuadrada 18.438 8 0.0182

Advertencia: algunas celdas contienen menos de 5 casos.

Figura 14-14. Prueba de Independecia Chi-Cuadrada

La prueba chi-cuadrada se utiliza para decidir entre dos hipótesis: Hipótesis Nula: las clasificaciones de las filas y de las columnas son independientes. Hipótesis alternativa: las clasificaciones no son independientes. La independencia implicará que el tipo de defecto encontrado en un artículo no tiene nada que ver con la fábrica en la que fue manufacturado.


Para la prueba chi-cuadrada, un valor-P pequeño indica que las clasificaciones de las filas y las columnas no son independientes. En este caso, el valor-P es menor a 0.05, indicando al nivel de significancia del 5% que la distribución de los tipos de defectos es diferente en la fábrica de Texas que en la de Virginia. Sin embargo, también se muestra una advertencia, debido a que las sumas de algunas celdas en la tabla de dos vías son menores a 5. (Técnicamente, la advertencia ocurre siempre que la suma esperada de cualquier celda sea menor a 5, asumiendo que la hipótesis nula es verdadera). Con celdas de sumas pequeñas, el valor-P puede ser desconfiable. Una solución a este problema es agrupar todos los tipos de defecto poco frecuentes en una sola clase y reiniciar el análisis. Esto puede hacerse fácilmente en STATGRAPHICS Centurion del modo siguiente:

1. Regresar a la hoja de datos y dar clic en el encabezado de la columna de Defect para seleccionarla.

2. Pulse el botón derecho del ratón y elija Recodificar Datos del menú que se presenta.

3. Llenar el cuadro de diálogo Recodificar Datos como se muestra en la siguiente página para

combinar los tipos de defecto menos comunes en una sola columna descrita como “Other”:


Figura 14-15. Recodificando los Tipos de Defectos Menos Frecuentes

Las anotaciones en el cuadro de diálogo Recodificar Datos instruyen al programa para que busque valores en la columna Defect que coincidan con cada intervalo definido. Cualquier etiqueta de una fila dada que coincida alfabéticamente entre los límites mostrados, es recodificada al valor descrito en la columna Nuevo Valor. Después de realizar la recodificación, regrese a la ventana de análisis de Tabulación Cruzada. Como respuesta al cambio en la hoja de datos, el análisis será automáticamente actualizado. La nueva clase Other tiene ahora una frecuencia razonable, como se muestra en el Gráfico de Mosaico:


Gráfico de Mosaico para Defect segúnFacility

Contaminated

Damaged

Misaligned

Other


Figura 14-16. Gráfico de Mosaico para Datos Recodificados

Después de recodificar. La prueba chi-cuadrada todavía muestra una diferencia estadísticamente significativa entre las fábricas de Texas y Virginia:


El StatAdvisor Esta tabla muestra los resultados de la prueba de hipótesis ejecutada para determinar si se rechaza, o no, la idea de que las clasificaciones de fila y columna son independientes. Puesto que el valor-P es menor que 0.05, se puede rechazar la hipótesis de que filas y columnas son independientes con un nivel de confianza del 95.0%. Por lo tanto, el valor observado de Defect para un caso en particular, está relacionado con su valor en Facility.

Figura 14-17. Prueba Chi-cuadrada Después de Recodificar Datos

Por lo que parece que el tipo de defecto está ciertamente relacionado con la fábrica en donde el artículo fue producido. Debe tomarse en cuenta que la prueba compara la distribución de tipos de defecto entre las dos fábricas. No compara los números o porcentajes de los artículos defectuosos en cada locación. Tal comparación requiere una prueba diferente, como se explica en la siguiente sección.


14.5 Tablas de Contingencia Para determinar si una fábrica produce más artículos defectuosos que la otra, necesitamos conocer la producción total de cada fábrica. Haremos la suposición que la siguiente información describe la producción de un mes:

Fábrica Número de Defectos

Número de Artículos Producidos

Texas 67 6,237 Virginia 53 7,343

Hagamos que θ1 sea la proporción de artículos defectuosos producidos en Texas y que θ2 sea la proporción de artículos defectuosos producidos en Virginia. Las proporciones estimadas están dadas por:

0107.0623767

1̂ ==θ 0072.0734353

2̂ ==θ

Basándonos en estos datos, parece que el porcentaje de artículos defectuosos producidos en Texas puede ser myor que el porcentaje de artículos defectuosos producidos en Virginia. Para determinar si la aparente diferencia es estadísticamente significativa, vamos a crear una hoja de datos como la que se muestra a continuación:

Figura 14-18. Hoja de Datos para Comparar Dos Proporciones

Las filas contienen la suma de los artículos defectuosos y no defectuosos. Luego seleccione Tablas de Contingencia del mismo menú donde se encuentra Tabulación Cruzada. Capture:


Figura 14-19. Cuadro de Diálogo de Captura de Datos de Tablas de Contingencia

Este análisis mostrará una prueba chi-cuadrada de la tabla de 2 por 2:


Figura 14-20. Prueba chi-cuadrado de la tabla de 2 por 2

Hay que recordar que la prueba chi-cuadrada determina si las clasificaciones de las columnas y filas son independientes. En este caso, la independencia implicará el que un artículo sin importar si es defectuoso, no tenga algo que ver con la fábrica en donde se produjo. Debido a que el valor-P en la tabla es inferior a 0.05, la hipótesis de independencia es rechazada en el nivel de significancia del 5%. Por lo que podemos concluir, que las proporciones de defectos en las dos fábricas son significativamente diferentes.

237/ Análisis de Capacidad del Proceso

Tutorial #6: Análisis Capabilidad de Procesos Determinando los DPM o el porcentaje más allá de los límites de especificación

El STATGRAPHICS Centurion es ampliamente utilizado por personal involucrado en áreas cuya tarea es la de asegurar que los productos y servicios que ofrecen sean de óptima calidad. Una actividad común es la de recolectar datos de un proceso y compararlos con límites de especificación establecidos. Los resultados en este tipo de análisis de capabilidad es un estimado de la capacidad y habilidad del proceso en lograr esas especificaciones. El método Seis Sigma, ampliamente usado a nivel mundial, tiene como objetivo conseguir una tasa de defectuosos de 3.4 defectos por cada millón de oportunidades. Como ejemplo, considere un producto cuya fuerza debe estar entre 190 y 230 psi. Ahora suponga que son tomadas n = 100 mediciones de fuerza, cuyos valores son:

213.5 203.3 191.3 197.1 205.7 215.6 193.7 201.7 201.5 207.1 207.0 200.4 197.2 202.4 205.2 211.0 214.5 201.5 200.9 206.8 205.8 200.3 196.1 205.9 195.1 203.9 192.9 199.0 195.5 203.1 197.4 194.8 201.0 202.5 199.0 200.7 197.6 198.5 205.3 197.1 202.8 201.6 197.4 200.9 203.3 209.4 201.4 199.5 207.8 204.9 205.5 203.0 208.1 200.2 218.2 202.0 209.3 201.2 200.4 201.0 195.7 229.5 199.9 208.1 210.3 202.0 202.6 213.6 198.0 197.8 196.7 216.0 211.6 208.7 199.4 200.8 201.1 195.3 206.8 211.3 201.5 200.0 211.8 195.6 201.9 199.0 200.3 197.8 200.8 194.8 199.5 195.5 201.0 206.0 215.3 202.6 199.9 200.6 197.6 207.4

Capítulo

15


Este capítulo describe cómo realizar un análisis de capabilidad típico para datos contínuos. 15.1 Graficando los Datos El primer paso para examinar cualquier conjunto nuevo de datos es graficarlo. Para un conjunto de datos como el mostrado arriba, el Análisis de Una Variable descrito en el Capítulo 10 ofrece diferentes herramientas muy útiles. Para analizar estos datos debemos de:

1. Abrir el Archivo llamado items.sf6. 2. Ejecutar el procedimiento Análisis de Una Variable usando la columna llamada Strength.

La ventana de análisis de inicio se muestra abajo:

Figura 15-1. Ventana de Análisis de Una Variable

Diferentes factores de interés especial se hacen evidentes inmediatamente:

1. Todos los datos apenas caen dentro de los límites de especificación, en un rango de 191.3 hasta 229.5


2. El gráfico de caja y bigotes muestra un punto muy lejano (un pequeño cuadro con un signo rojo de + dentro). Tales puntos son usualmente considerados como aberrantes, si el resto de los datos aparentemente proceden de una distribución normal. En este caso, sin embargo, aún eliminando el aparente aberrante, la forma de la caja no es muy simétrica. El bigote superior es más largo que el bigote inferior y la caja se extiende mucho más por arriba de la mediana (la línea vertical dentro de la caja) que por abajo.

3. Si maximiza el panel Resumen Estadístico, verá que el sesgo estandarizado es igual a 4.94.

Si los datos procedieran de una distribución normal, el valor debería estar entre -2 y +2. Aún eliminando el valor más grande de los datos, el sesgo estandarizado solo se reduce a 2.81.

También podemos mostrar un histograma, pulsando el ícono de Gráficas en la barra de herramientas de análisis y seleccionando Histograma en el cuadro de diálogo Gráficas:

Histograma

180 190 200 210 220 230 240Strength

0

4

8

12

16

20

24

frecu

enci

a

Figura 15-2. Histograma

Los datos claramente parecen tener un sesgo positivo, extendiéndose más a la derecha del pico que a la izquierda. Datos no-normales como los del ejemplo son muy comúnes de encontrar. Una acción típica para tratar estos datos, es simplemente ignorar la no-normalidad y calcular índices como Cpk usando fórmulas diseñadas para datos de distribución normal. Como se verá en este tutorial, el ignorar la no-normalidad puede originar resultados incorrectos, siendo amenudo una mala estimación del porcentaje de productos que están más allá de los límites de especificación.


15.2 Procedimiento Análisis de Capabilidad STATGRAPHICS contiene procedimientos para realizar el análisis de capabilidad de datos, ya sea uno a la vez (individuales) o en subgrupos (como 5 observaciones cada hora). Asumiendo que los datos son individuales, el Análisis de Capabilidad puede efectuarse:

1. Si usa el menú Clásico, elija CEP – Análisis de Capabilidad – Variables – Valores Individuales. 2. Si usa el menú Seis Sigma, elija Analizar – Datos Continuos– Análisis de Capabilidad de

Proceso- Valores Individuales. El cuadro de captura de datos solicita el nombre de la columna que contenga los datos. Los datos del ejemplo se encuentran en una columna llamada Strength en el archivo items.sf6:

Figura 15-3. Cuadro de Captura del Análisis de Capabilidad de Proceso

Los límites de especificación superior e inferior también se han capturado, así como el valor nominal o valor objetivo.


La ventana de análisis de inicio presenta un resumen de los datos, una tabla de los índices de capabilidad y un gráfico de capabilidad:

Figura 15-4. Ventana de Análisis de Capabilidad de Proceso

Cuando se corre por primera vez el análisis de capabilidad, los datos se ajustan a una distribución normal. El Gráfico de Capabilidad muestra un histograma, junto con la distribución normal que mejor se ajuste:


NormalMedia=202.809Desv. Est.=6.23781

Cp = 1.16Pp = 1.07Cpk = 0.74Ppk = 0.68K = -0.36

Capacidad de Proceso para Strength LIE = 190.0, Nominal = 210.0, LSE = 230.0

180 190 200 210 220 230 240Strength

0

4

8

12

16

20

24

frecu

enci

a

Figura 15-5.Gráfico de Capabilidad con Distribución Normal

Las líneas verticales largas muestran los límites de especificación y el valor nominal. Las líneas verticales cortas están situadas a más y menos 3 desviaciones estándar de la media de la muestra. Es de interés particular en la gráfica superior el que:

1. La distribución normal ajustada no concuerda muy bien con los datos. Aunque la curva normal tiene la misma media y desviación estándar que los datos, el sesgo en los datos hace que la curva no logre emparejarse adecuadamente con las barras del histograma.

2. La media de la muestra es 202.8, que es considerablemente menor que el valor nominal

de 210. 3. A pesar de que ninguna de las observaciones es menor al límite de especificación

inferior, una amplia porción de la cola inferior de la distribución normal está por debajo de ese límite.

4. Las líneas ubicadas en más y menos 3 sigma están pegadas suficientemente para ajustarse

dentro de las especificaciones. Sin embargo, están movidas a la izquierda.

El Resumen del Análisis en el panel superior izquierdo cuantifica el ajuste:


Análisis de Capabilidad de Proceso(Individuales) - Strength Datos/Variable: Strength (specs are 190-230) Transformación: ninguna Distribución: Normal tamaño de muestra = 100 media = 202.809 desv. est. = 6.23781 6.0 Límites Sigma +3.0 sigma = 221.522 media = 202.809 -3.0 sigma = 184.096 Observados Estimados Defectos Especificaciones Fuera Especs. Valor-Z Fuera Especs. Por Millón LSE = 230.0 0.000000% 4.36 0.000654% 6.54 Nominal = 210.0 1.15 LIE = 190.0 0.000000% -2.05 2.001465% 20014.65 Total 0.000000% 2.002119% 20021.19

Figura 15-6. Resumen del Análisis de Capabilidad

La tabla inferior, presenta el porcentaje de producto que puede estar fuera de especificaciones. Basándonos en la distribución normal ajustada, el porcentaje estimado de producto fuera de los límites de especificación es alrededor del 2%, equivalente a 20,021 defectos por millón (DPM). 15.3 Trabajando con Datos No-Normales Los DPM estimados que fueron calculados arriba, se basan considerablemente en la suposición de que los datos provienen de una distribución normal. Una revisión formal de esa hipótesis puede efectuarse seleccionando Pruebas de Normalidad del cuadro de diálogo Tablas:

Pruebas de Normalidad para Strength Prueba Estadístico Valor-P Estadístico W de Shapiro-Wilk 0.931784 0.0000321356

Figura 15-7. Pruebas de Normalidad

Dependiendo de sus preferencias en el sistema, una o más pruebas de normalidad serán presentadas. Cada una de las pruebas disponibles está basada en las siguientes hipótesis: Hipótesis Nula: los datos provienen de una distribución normal.


Hipótesis Alternativa: los datos no provienen de una distribución normal. Un Valor-P debajo de 0.05 conduce al rechazo de la hipótesis de normalidad en el nivel de significancia del 5%. En la tabla superior, la prueba Shapiro-Wilks claramente rechaza la hipótesis de que los datos provienen de una distribución normal. Entonces, cualquier valor estimado de DPM o índices de capabilidad basados en la suposición de normalidad son inválidos. Cuando los datos son no-normales, cualquiera de estas dos propuestas debe ser considerada:

1. Seleccione una distribución distinta a la normal, en la cual basar el análisis. 2. Transforme los datos para que sigan una distribución normal en la métrica transformada.

Para auxiliar en la selección de una distribución diferente, el STATGRAPHICS Centurion ofrece una opción llamada Comparación de Modelos Alternativos en el cuadro de diálogo Tablas. Esta opción ajusta varias distribuciones y las enlista en orden de su calidad de ajuste. Usando la selección predeterminada de distribuciones nos presenta los siguientes resultados:

Comparación de Distribuciones Alternas Distribución Parámetros Est. Log Verosimilitud KS D Valor Extremo Superior 2 -314.65 0.0675422 Laplace 2 -320.055 0.0920985 Loglogística 2 -320.271 0.0913779 Logística 2 -321.236 0.0941708 Lognormal 2 -322.763 0.13213 Gamma 2 -323.306 0.134136 Normal 2 -324.457 0.138628 Weibull 2 -348.002 0.177886 Valor Extremo Inferior 2 -351.782 0.189989 Exponencial 1 -631.226 0.61064 Pareto 1 -798.174 0.628084

Figura 15-8. Distribuciones Ajustadas en Orden de su Calidad de Ajuste

Las distribuciones han sido enlistadas conforme al valor del estadístico Kolmogorov-Smirnov de bondad de ajuste, el cual mide la distancia máxima entre la distribución acumulada de los datos y la de la distribución ajustada. En este caso, la distribución que mejor se ajusta es la del mayor valor extremo. Puede cambiarse a la distribución del mayor valor extremo, accesando Opciones del Análisis:


Figura 15-9. Opciones de Análisis de Capabilidad de Proceso

El ajuste resultante se muestra abajo:


Valor Extremo SuperiorModo=200.036Escala=4.80179

Cp = 1.08Pp = 1.05Cpk = 0.99Ppk = 0.96K = -0.26


180 190 200 210 220 230 240Strength

0

4

8

12

16

20

24

frecu

enci

a

Figura 15-10. Distribución Ajustada del Mayor Valor Extremo

Note que la distribución esta sesgada a la derecha, coincidiendo mucho mejor con los datos observados que la distribución normal. Las líneas verticales pequeñas están ubicadas en los límites “equivalentes” de 3 sigma, i.e., límites donde se encuentra el mismo 99.73%, como en el caso de la media ± 3 sigma para una distribución normal. Note que los límites no están simétricamente espaciados con respecto al pico de la distribución, debido a su sesgo positivo. En el Resumen del Análisis se detecta una diferencia considerable en el porcentaje estimado del producto con tendencia a quedar fuera de especificaciones, comparado con el anterior, usando una distribución normal ajustada:


Análisis de Capabilidad de Proceso(Individuales) - Strength Datos/Variable: Strength (specs are 190-230) Transformación: ninguna Distribución: Valor Extremo Superior tamaño de muestra = 100 modo = 200.036 escala = 4.80179 (media = 202.808) (sigma = 6.15853) Equivalente 6.0 Límites Sigma 99.865 percentil = 231.761 mediana = 201.796 0.134996 percentile = 190.969 Observados Estimados Defectos Especificaciones Fuera Especs. Valor-Z Fuera Especs. Por Millón LSE = 230.0 0.000000% 2.89 0.194758% 1947.58 Nominal = 210.0 1.19 LIE = 190.0 0.000000% -3.42 0.030805% 308.05 Total 0.000000% 0.225563% 2255.63

Figura 15-11. Resumen del Análisis después de Ajustar con la Distribución del Mayor Valor Extremo

El porcentaje estimado fuera de especificaciones ahora es solamente del 0.23 por ciento ó 2,256 DPM, una décima parte de lo estimado por la distribución normal. En este ejemplo, el asumir incorrectamente una distribución normal hizo que el proceso se viera mucho peor de lo que realmente es.

Nota: Dependiendo de los límites de especificación y de la distribución verdadera, el asumir incorrectamente la normalidad, puede hacer que el proceso parezca significativamente mejor o peor que cuando se usa la distribución apropiada.

Una alternativa para seleccionar una distribución diferente es transformar los datos. El cuadro de Opciones de Análisis ofrece numerosas opciones para seleccionar una Transformación de Datos:


Figura 15-12. Cuadro Opciones de Análisis para Seleccionar una Transformación

Se incluyen opciones como el logaritmo natural, elevar cada valor a una potencia específica, o seleccionar una transformación de acuerdo a los métodos de Box y Cox. Esta última aproximación considera una variedad de transformaciones de la forma Yp usando los métodos de Box y Cox para seleccionar un valor óptimo de p. Si se selecciona una transformación, una distribución normal es ajustada a los datos transformados. El gráfico abajo presenta los resultados del planteamiento de Box-Cox:


Normal (después de transformar)Media=2.75169E-14Desv. Est.=4.52152E-15

Cp = 1.02Pp = 0.99Cpk = 0.93Ppk = 0.90K = 0.31


180 190 200 210 220 230 240Strength

0

4

8

12

16

20

24

frecu

enci

a

Figura 15-13. Gráfico de Capabilidad después de la Transformación Box-Cox

En este gráfico se aplicó una transformación inversa para mostrar el ajuste en la métrica original. La transformación ha tenido un efecto similar en el aspecto de la distribución, sin embargo no tan pronunciado como al asumir una distribución del mayor valor extremo. Los DPM estimados son 4,353, lo cual es casi el doble que al usar la distribución del mayor valor extremo, pero aún mucho menor que cuando se asumió una distribución normal.

Nota: la media y la desviación estándar mostradas en el gráfico corresponden a los datos transformados y en lo general no son de mucha utilidad. STATGRAPHICS automáticamente regresa todo a su estado original..

Para comparar los dos planteamientos, el Gráfico de Probabilidad puede ser seleccionado dentro del cuadro de Gráficas para cada planteamiento y pegarse uno al lado del otro en el StatGallery:


Figura 15-14. Gráfico de Probabilidad en el StatGallery

Si la distribución asumida es la correcta, los puntos deben caer a lo largo de la línea diagonal como se muestra en este gráfico. Ambos métodos parecen haber manejado la no-normalidad correctamente, dificultando la elección por uno de ellos. Sin importar que método sea usado, es básico establecer un protocolo para manipular una variable en particular (como Strength) y aplicar el mismo protocolo cada vez que esos datos sean analizados. Sería un error hacer el análisis exploratorio de datos descrito en este Capítulo, cada vez que un conjunto de datos similares sea recolectado. En lugar de eso, este tipo de análisis debería usarse solo para determinar la forma a tratar la variable seleccionada y luego aplicar uno de los plantemientos siempre que se vaya a analizar dicha variable.

251/ Análisis Capabilidad de Procesos

15.4 Índices de Capabilidad La esencia de un análisis de capabilidad reside en la estimación del porcentaje de producto que cae fuera de los límites de especificación (o su equivalente DPM, defectos por millón). Para resumir la capabilidad del proceso, los usuarios también basan su criterio en varios índices de capabilidad. El indice más ampliamente conocido es el Cpk, definido como:

⎟⎠⎞

⎜⎝⎛ −−

=σ

μσ

μˆ3

ˆ,

ˆ3ˆ

min USLLSLC pk

De manera breve, Cpk es la distancia mínima desde la media estimada del proceso hasta cualquiera de los límites de especificación, dividido entre 3 veces el sigma estimado del proceso. El procedimiento Análisis de Capabilidad de Proceso en STATGRAPHICS presenta los índices de capabilidad en el Gráfico de Capabilidad y también en la tabla de Índices de Capabilidad. Al asumir una distribución normal, los índices de corto y largo plazo serán calculados:

Índices de Capabilidad para Strength Especificaciones LSE = 230.0 Nom = 210.0 LIE = 190.0 Corto Plazo Largo Plazo Capabilidad Desempeño Sigma 5.75525 6.23781 Cp/Pp 1.15836 1.06875 Cpk/Ppk 0.741874 0.684481 Cpk/Ppk (superior) 1.57485 1.45302 Cpk/Ppk (inferior) 0.741874 0.684481 K -0.35955 DPM 13020.9 20021.2 Nivel de Calidad Sigma 3.72559 3.55332

Con base en límites 6.0 sigma. La sigma de corto plazo se estimó a partir del rango móvil promedio. El Nivel de Calidad Sigma incluye un drift de 1.5 sigma en la media. Intervalos de confianza del 95.0% Intervalos de Confianza Índice Límite Inferior Límite Superior Cp 0.997149 1.31931 Pp 0.920008 1.21725 Cpk 0.619618 0.864129 Ppk 0.568904 0.800059

Figura 15-15. Tabla de los Índices de Capabilidad


Los índices de corto plazo, calculados usando un estimado del sigma obtenido de las observaciones ocurridas en tiempos cercanos, describen la “capabilidad” del proceso en caso de que la media se mantenga constante. Los índices de largo plazo, calculados usando un estimado del sigma obtenido de la variabilidad total entre las observaciones a traves del periódo de muestreo, describen el comportamiento real del proceso. Un proceso fuera de control en el que la media se ha movido durante el periódo de la recolección de datos puede mostrar un comportamiento mucho peor al que sería capaz de realizar si se hubiera efectuado bajo control. De forma predeterminada, el STATGRAPHICS Centurion etiqueta los índices de capabilidad usando la letra “C” y los índices de comportamiento usando la letra “P”. El separador Capabilidad dentro del cuadro de Preferencias, encontrado bajo Editar en el menú principal del STATGRAPHICS, especifica que índices serán calculados de forma predeterminada, así como también otras opciones de interés especial:

Figura 15-16. Preferencias del Sistema para los Índices de Capabilidad


En el lado izquierdo del cuadro se enlistan los posibles índices a ser calculados. Adicionalmente a Cpk, , se incluyen índices como:

1. Cp – índice de capabilidad bilateral, cuya fórmula es

σ̂6LSLUSLC p

−=

Este índice mide la distancia entre los límites de especificación con relación a la distancia abarcada por 6 desviaciones estándar. Cp siempre será mayor o igual a Cpk. Una diferencia substancial entre los dos índices implica que el proceso no esta bien centrado.

2. K – medida de que tan alejado del centro se encuentra el proceso. K se calcula así

2/)(ˆ

LSLUSLNOMK

−−

=μ

Donde NOM es el valor nominal o valor objetivo. Un valor de K cercano a 0 es indicativo de un proceso bien centrado.

3. Nivel de Calidad Sigma – índice utilizado en la metodología Seis Sigma para indicar el nivel

de calidad asociado con un proceso. Un Nivel de Calidad Sigma de 6 es generalmente asociado con el parámetro de 3.4 defectos por millón.

En el cuadro de Preferencias también se indica que índices serán mostrados en el Gráfico de Capabilidad y su descripción. Una explicación detallada de los diferentes índices los puede encontrar en el documento PDF titulado Análisis de Capabilidad – Datos Continuos. Adicionalmente a los índices de capabilidad, la tabla en la Figura 15.15 contiene los intervalos de confianza que muestran el margen de error al estimar esos índices. Por ejemplo, en la tabla se muestra un Cpk de 0.74. Los intervalos de confianza al 95% comprenden de 0.62 a 0.86. Esto indica que el verdadero Cpk en el proceso del cual los datos fueron muestreados, puede estar en cualquier lugar dentro del rango de 0.62 y 0.86. Cuando los datos no siguen una distribución normal, es necesario modificar los índices de capabilidad. La opción predeterminada en el cuadro de Preferencias calcula índices no-normales, primero calculando los valores-Z equivalentes para la distribución no-normal ajustada. Para una distribución normal, los valores-Z miden el número de desviaciones estándar entre la media del proceso y un límite de especificación y está directamente relacionado a la probabilidad de que


una observación esté más allá de ese límite. Para una distribución no-normal, un valor-Z equivalente se calcula primero determinando la probabilidad de exceder el límite y luego encontrando el valor-Z que corresponde a esa probabilidad. Después de calcular los valores-Z equivalentes para ambos límites de especificación, el Cpk puede calcularse de la siguiente forma

( )usllslpk ZZC ,min= /3

Nota: A pesar de que el cuadro de Preferencias proporciona la opción de calcular índices de capabilidad a partir de percentiles en lugar de valores-Z equivalentes, al hacerlo se rompe la relación entre los índices de capabilidad y los DPM.

15.5 Calculadora Seis Sigma Así como el índice Cpk es un indicador muy útil de la capabilidad del proceso. Considerando que se haya calculado apropiadamente, entonces este puede relacionarse con los DPM. El menú Herramientas del STATGRAPHICS Centurion contiene una Calculadora Seis Sigma que permite la conversión entre ambos indicadores, con la condición de que:

1. Los datos provienen de una distribución normal. 2. Valores-Z equivalentes sean utilizados para calcular los índices.

La Calculadora Seis Sigma se muestra a continuación:


Figura 15-17. Calculadora Seis Sigma

Para usar la calculadora:

1. Seleccione cualquiera de las opciones de captura e introduzca el valor del estadístico correspondiente.

2. Si desea hacer el cálculo basado únicamente en el límite de especificación más cercano,

deshabilite la opción bilateral.

3. Indique el valor que desea sea asumido para el cambio a largo plazo en la media del proceso. En la metodología Seis Sigma, a menudo se supone que la media del proceso, oscilará alrededor de su valor a largo plazo en 1.5 sigmas.


4. Pulse el botón Calcular para mostrar los valores asociados de los otros estadísticos en el cuadro de Resultados.

Si asumimos que la media del proceso no cambia, un Cpk de 1.33 equivale a cerca de 33 defectos por millón fuera de la especificación más cercana.

257/ Diseño de Experimentos

Tutorial #7: Diseño de Experimentos Diseñando un experimento para ayudar a mejorar un proceso.

Todos los datos son creados de manera diferente. A menudo, un pequeño estudio bien planeado ofrece más información que uno grande erróneamente diseñado. Este último tutorial examina algunas de las capacidades del STATGRAPHICS Centurion para crear y analizar diseños de experimentos.

Consideremos el caso de un ingeniero que desea determinar cuál de las muchas variables de un proceso es la que tiene mayor impacto en el producto final. Intentará investigar el impacto de estos 5 factores: temperatura de entrada, velocidad de flujo, concentración, velocidad de agitación y porcentaje del catalizador. En la práctica, existen varios planteamientos para tratar el problema, incluyendo:

1. Prueba y error: seleccionando arbitrariamente una combinación diferente de los factores, cada vez que corre un experimento. Dicho planteamiento raramente ofrece información útil.

2. Experimentar con un factor a la vez: considerando solo un factor constante, para determinar su efecto en ese expermiento. Este planteamiento es extremadamente ineficiente y puede llevarnos a conclusiones incorrectas en caso de que cualquiera de los factores interactúe.

3. Usar un diseño de experimentos estadístico: estableciendo una serie de experimentos que generen la mayor información acerca de los factores y su interacción entre ellos, en el menor número de experimentos como sea posible.

Este tutorial describirá cómo se construye un diseño de experimentos usando el tercer planteamiento, y como serán analizados los resultados.

Capítulo

16


16.1 Seleccionando Diseños de Cribado El objetivo de un experimento de cribado es encontrar, en un mínimo de corridas experimentales, que variables del proceso tienen el mayor impacto en el producto final. En el STATGRAPHICS Centurion, el primer paso al diseñar un experimento de cribado es determinar qué tipo de diseño se correrá y cuántas corridas son necesarias. La sección DDE contiene un procedimiento que puede ayudarnos en este tema:

1. Si usa el menú Clásico, elija DDE – Crear Diseño – Selección de Diseños de Cribado.

2. Si usa el menú Seis Sigma, elija Mejorar – Crear Diseños de Experimentos – Selección de Diseños de Cribado.

En el primer cuadro de diálogo se solicita la información básica sobre el experimento:

Figura 16-1. Cuadro Inicial de Selección de un Diseño de Cribado


La llenado que se requiere es:

• Número de Factores: el número de factores experimentales (X) a ser incluídos durante el experimento. En este ejemplo, el ingeniero desea estudiar 5 factores.

• Diseños a Considerar: los tipos de diseño a evaluar. El STATGRAPHICS Centurion intentará encontrar el diseño óptimo para cada tipo especificado que cumpla con los requerimientos. Los diseños existentes son:

1. Factoriales – corridas de combinaciones posibles entre los niveles de cada factor.

2. Factoriales Fraccionados – corridas hechas en un subconjunto del factorial completo, donde el subconjunto es igual a la mitad, un cuarto, un octavo y así en adelante.

3. Fracciones Irregulares – corridas hechas en un subconjunto del factorial completo, pero la fracción es irregular, como podría ser tres octavos de las corridas.

4. Factoriales de Niveles Mixtos – corre un factor a 3 niveles, y los demás son corridos en 2.

5. Diseños Plackett-Burman – diseños de dos niveles donde el número de corridas no es una potencia de 2.

Los diseños son clasificados de acuerdo a su resolución:

o Resolución V, estima todos los efectos principales e interacciones entre dos factores.

o Resolución IV, estima todos los efectos principales, pero algunas interacciones de dos factores están confundidas con otras interacciones o efectos de bloque.

o Rresolución III, estima solo los efectos principales, requiriendo para su interpretación adecuada que no se presenten interacciones.

• Corridas Máximas por Bloque: Al hacer el experimento, el ingeniero se percató que no podía hacer mas de 10 corridas con un mismo lote de la materia prima. Debido a que los lotes pueden ser diferentes entre sí, las corridas experimentales necesitan ser agrupadas en bloques de no más de 10 corridas cada uno.

• Mínimo de Puntos Centrales por Bloque: especifica el menor número de puntos centrales deseados en cada bloque. Los puntos centrales son corridas experimentales en el centro de la región experimental y usualmente son utilizados para crear réplicas de las cuales estimar el


error experimental. En este caso, el ingeniero permite al programa determinar el número necesario de puntos centrales.

• Sigma del error experimental: la desviación estándar del proceso experimental. Esta es la desviación estándar que se observará para corridas repetidas con un mismo conjunto de condiciones experimentales. En estudios previos, se pensó que este valor estaría alrededor de 0.5 para rendimiento, que fue considerado como el parámetro más importante.

Cuando se pulsa ACEPTAR, el programa presentará este segundo cuadro de diálogo:

Figura 16-2. Segundo Cuadro de Diálogo para el Diseño de Cribado

En este cuadro se determina la potencia requerida del experimento. “Potencia” es la probabilidad que un factor con un efecto de magnitud específica se declare estadísticamente significativo una vez que el experimento concluya y los datos sean analizados. En detalle, es la probabilidad de obtener un valor-P significativo en la tabla inicial ANOVA cuando el efecto real iguala al especificado en el campo Efecto a Detectar, operando con el nivel de significancia inferido en el campo Nivel de Confianza.

En este caso, el ingeniero consideró un 90% de probabilidad para detectar un efecto igual a 3 veces el sigma del error experimental. Cualquier efecto menor a esto sería desechado para


tomarlo en cuenta como de interés práctico. Debido a que el nivel de confianza se estableció en un 95%, un valor-P significativo será aquel que sea menor a 0.05. Al pulsar ACEPTAR una vez más, se presenta una ventana de análisis enlistando los diseños experimentales más pequeños de cada tipo que cumplan con los requerimientos definidos: Selección Diseños de Cribado Entrada Número de Puntos Centrales Min. Corridas Max. Sigma Deseada Meta Nivel de Factores por Bloque por Bloque Error Exp. Potencia Efecto Confianza 5 0 10 0.5 90.0% 1.5 95.0%

Diseños Selecionados Puntos Puntos G.L. Diseño Corridas Resol. Esquina Centrales Error Reps. Bloques Power (%) Factoriales en 4 bloques 2^5 32 V* 32 0 13 1 4 99.9987 Media fracción en 2 bloques 20 IV* 16 4 4 1 2 98.4379

El StatAdvisor La tabla muestra 2 diseños experimentales que tienen, al menos, un 90.0% de probabilidades de detectar un efecto de magnitud 1.5. Ninguno de los diseños tienen más de 10 corridas en cada bloque.

Figura 16-3. Diseños de Cribado Seleccionados

Se sugieren dos diseños:

1. Un diseño factorial 25 completo que consiste de todas las combinaciones a 2 niveles de cada uno de los 5 factores experimentales. Este es un diseño relativamente grande con 8 corridas en cada uno de los 4 bloques. Tiene mucho más potencial que el solicitado.

2. Una media fracción en 2 bloques de 10 corridas cada uno. Cada bloque consiste de 8

factoriales o puntos esquinados y 2 puntos centrales. El diseño es de resolución IV pudiendo estimar todos los efectos principales y algunas interacciones entre dos factores. Un cálculo rápido revela que dados 5 factores, los efectos de un interés práctico son:

a. 1 media global b. 5 efectos principales c. 10 interacciones de dos factores d. 1 efecto de bloque


Sin el efecto de bloque, el diseño sería de resolución V, debido a que 16 corridas factoriales son suficientes para estimar la media y los otros 15 efectos. Si se elige este diseño, solo se sacrificaría una interacción de dos factores en los efectos de bloque.

Debido a que el segundo diseño es más pequeño que el primero, el ingeniero lo seleccionó. 16.2 Creando el Diseño Una vez que se ha seleccionado un diseño, puede regresar al menú principal y:

1. Si usa el menú Clásico, elija DDE – Crear Diseño – Diseño Nuevo.

2. Si usa el menú Seis Sigma, elija Mejorar – Crear Diseños de Experimentos – Nuevo Diseño.

Se presentará una serie de cuadros de diálogo en los cuales podremos configurar el diseño. El primer cuadro de diálogo solicita el tipo de diseño, el número de variables de respuesta y el número de factores experimentales:

Figura 16-4. Cuadro Inicial para la Creación de un Diseño


Continuando con el ejemplo de la sección anterior, establecer el experimento significa involucrar 2 variables de respuesta y 5 factores experimentales.

El segundo cuadro de diálogo es utilizado para determinar los factores experimentales y el rango sobre el cual variarán:

Figura 16-5. Estableciendo los Factores Experimentales

Para determinar la información de los 5 factores, habilite los botones del A hasta el E, de uno en uno. Capture la siguiente información para los cinco factores del experimento actual:

Factor Nombre Min Max Unidades Continuos A temperatura 150 180 Grados C si B velocidad de flujo 10 12 litros/min si C concentración 5 8 % si D tasa de agitación 125 150 rpm si E catalizador 1 1.5 % si

Estos límites fueron establecidos para abarcar un rango de operación razonable en el proceso.

En el siguiente cuadro se establecen las variables de respuesta:


Figura 16-6. Definición de las Variables de Respuesta

Los datos a capturar para las dos respuestas son:

Nombre Unidades rendimiento gramos fuerza psi

El cuarto cuadro de diálogo es utlizado para elegir el diseño:


Figura 16-7. Selección del Diseño

Para ver la lista de los posibles diseños de cribado para cinco factores, pulse la flecha para ir recorriendo la lista. La lista muestra:

1. Nombre: el nombre de cada diseño disponible. 2. Corridas: el número de corridas en el diseño base, antes de que se agreguen puntos

centrales o corridas repetidas.

3. Resolución: la resolución del diseño.

4. G.L.del Error.: el número de grados de libertad disponibles para estimar el error experimental. El potencial de las pruebas estadísticas está relacionado con el número de grados de libertad, así también con el número total de corridas en el experimento. En general, se debe contar con al menos 3 grados de libertad, aunque se recomiendan más.

5. Tamaño del Bloque: el número de corridas en el bloque más grande.

En este caso, el ingeniero seleccionó una fracción media en dos bloques de 8 corridas cada uno.


El cuadro de diálogo final es usado para agregar los puntos centrales o corridas repetidas:

Figura 16-8. Opciones de Diseño

Los campos de captura establecen:

1. Puntos Centrales: el número de corridas a realizar en el centro del experimento. Agregando puntos centrales, es una buena forma de agregar grados de libertad al el error experimental.

2. Posicionamiento: la posición de los puntos centrales. Las opciones más comunes son Aleatorio, que dispersa los puntos centrales aleatoriamente a traves de las otras corridas y Espaciado, que separa los puntos centrales uniformemente a traves del diseño.

3. Repetir Diseño: el número de veces adicionales que cada conjunto de condiciones experimentales debe ejecutarse. Repetir el diseño completo de esta manera incrementa muy rápidamente el número de corridas a realizar.

4. Aleatorizar: si las corridas deben enlistarse en orden aleatorio. La aleatoriedad debe hacerse siempre que sea posible para prevenir que variables externas no consideradas (como cambios en el proceso a traves del tiempo) puedan influir en los resultados.

Para el experimento del ejemplo, se solicitaron cuatro puntos centrales, llevando el diseño final hasta las 20 corridas. También se solicitó que el diseño se realice en orden aleatorio, que significa que el orden de las 10 corridas dentro de cada bloque será generado aleatoriamente.


Después del cuadro de diálogo final, aparece una ventana con los atributos del diseño:

Figura 16-9. Ventana de Atributos del Diseño

Esta información se usa para verificar que el diseño fue creado correctamente. Al mismo tiempo, el diseño se carga en el separador A del Libro de Datos del STATGRAPHICS Centurion:


Figura 16-10. Diseño Final

La hoja de datos contiene una columna con los números de bloque, 5 columnas con los datos de los factores experimentales y 2 columnas para capturar las respuestas una vez que se han realizado las corridas experimentales. Después de crear el diseño, guárdelo seleccionando Archivo – Guardar Como – Guardar Archivo de Diseño en el menú principal. Antes de realizar el experimento, es muy útil seleccionar la Estructura de Alias en la barra de herramientas de análisis en la ventana Atributos del Diseño de Cribado, que muestra lo siguiente:


Estructura de Alias Contraste Estimados 1 A 2 B 3 C 4 D 5 E 6 AB 7 AC 8 AD 9 AE 10 BC 11 BD 12 BE 13 CD+bloque 14 CE 15 DE

El StatAdvisor La estructura alias muestra que efectos principales e interacciones están confundidos unos con otras. Puesto que este diseño de resolución IV, los efectos principales estarán libres de las interacciones de dos factores. No obstante, al menos una interacción de dos factores estará confundida con otra interacción de dos factores ó con el efecto de bloques. No será capaz de estimar estas interacciones. Verifique la tabla para determinar cuales interacciones están confundidas.

Figura 16-11. Estructura de Alias del Diseño Seleccionado

Cada línea de la tabla indica una cantidad que puede estimarse por el experimento seleccionado. Un concepto como “A” indica que el efecto principal del factor A puede estimarse libre de cualequier otro efecto. “AB” se refiere a la interacción entre los factores A y B, que también está libre de los otros efectos. El único contraste que muestra confusión entre los dos efectos es el número 13, en el cual la interacción CD aparece junto con el efecto del bloque. Esto implica que el diseño puede estimar la combinación de la interacción CD además de cualquier diferencia entre los bloques 1 y 2, pero sin poder separar esos dos efectos. Note que el diseño ha sacrificado arbitrariamente la capacidad de estimar la interacción entre los factores C y D, que son la concentración y la velocidad de agitación. Si esta es una interacción que el ingeniero cree ser importante, debe cambiar el orden de las variables, de manera que C y D correspondan a dos variables que no parezcan interactuar. 16.3 Analizando los Resultados Después de diseñar el experimento, el ingeniero realizó las 20 corridas indicadas. Luego reinició el programa y capturó las mediciones de rendimiento y fuerza en la hoja de datos del experimento.


Para repetir este análisis, debe cargar el archivo tutorial7.sfx del mismo modo en que lo haría para cualquier archivo de datos STATGRAPHICS, seleccionando Abrir Datos en el menú Archivo. Después de cargar la variable de datos:

1. Si usa el menú Clásico, elija DDE – Análizar Diseño – Analizar Diseño.

2. Si usa el menú Seis Sigma, elija Mejorar – Análisis de Diseños de Experimentos – Analizar Diseño.

El cuadro de diálogo de captura de datos muestra las dos variables de respuesta:

Figura 16-12. Cuadro de Captura de datos para Analizar un Diseño

Se construirán modelos independientes para cada uno.

La ventana de análisis para Rendimiento de inicio muestra la siguiente información:


Figura 16-13. Ventana de Análisis Analizar Diseño

La ventana muestra cuatro paneles:

1. Resumen del Análisis: enlista los efectos principales estimados y las interacciones. 2. Tabla ANOVA: contiene los valores-P que pueden usarse después para probar la

significancia estadística de cada efecto.

3. Gráfico de Pareto Estandarizado: muestra los efectos en orden de significancia decreciente, con una línea para determinar que efectos son estadísticamente significativos.

4. Gráfico de Efectos Principales: grafica el cambio estimado en la respuesta cuando cada uno

de los factores es movido desde su nivel inferior hasta su nivel superior. El gráfico de Pareto estandarizado en la esquina superior derecha puede usarse para fácilmente determinar que efectos son los más importantes:


Carta de Pareto Estandarizada para yield

0 4 8 12 16Efecto estandarizado

CD+bloqueCEBCBEBDADDE

B:flow rateD:agitation rate

AEAC

E:catalystC:concentration

ABA:temperature

+-

Figura 16-14. Gráfico de Pareto Estandarizado

La longitud de cada barra es proporcional al valor del estadístico-t calculado para el efecto correspondiente. Cualquier barra más allá de la línea vertical es estadísticamente significativa en el nivel de significancia seleccionado, establecido de forma predeterminada en 5%. En este caso, hay 3 efectos principales significativos: temperatura, concentración y catalizador. También hay una interacción significativa entre temperatura y velocidad de flujo. El Gráfico de Efectos Principales en el panel inferior derecho muestra cómo cada factor afecta el rendimiento:


Gráfica de Efectos Principales para yield

82

83

84

85

86yi

eld

temperatureflow rate

concentrationagitation rate

catalyst

Figura 16-15. Gráfico de Efectos Principales

Las líneas indican el cambio estimado en el rendimiento conforme cada factor es movido de su nivel inferior a su nivel superior, manteniendo constante todos los demás factores con un valor a la mitad de sus respectivos niveles. Note que los tres factores con efectos principales significativos tienen un mayor impacto en la respuesta que los otros. Por ejemplo, el rendimiento promedio a temperatura baja es aproximadamente 82, mientras que el rendimiento promedio a temperatura alta es aproximadamente 85.4. La diferencia de 3.4 es llamada “efecto principal” de la temperatura. Para graficar la interacción entre temperatura y velocidad de flujo, primero elija Gráfico de Interacciones en el cuadro Gráficas. Luego use Opciones de Ventana para seleccionar solo esos dos factores:


Figura 16-16. Cuadro Opciones de Ventana para Gráfico de Interacciones

El gráfico resultante muestra el rendimiento promedio conforme la temperatura es cambiada, para cada nivel de velocidad de flujo:

150.0

flow rate=10.0

flow rate=12.0

Gráfica de Interacción para yield

80

82

84

86

88

yiel

d

temperature180.0

flow rate=10.0

flow rate=12.0

Figura 16-17. Gráfico de Interacción entre Velocidad de flujo y Temperatura


Note que a menor velocidad de flujo, la temperatura tiene poco ó nulo efecto. A una alta velocidad de flujo, la temperatura es un factor muy importante. Antes de utilizar el modelo estadístico que soporta a este análisis, es importante eliminar los efectos no significativos. Para eliminar estos efectos:

1. Pulse el ícono de Opciones de Análisis en la barra de herramientas de análisis. 2. Pulse el ícono Excluir en el cuadro Opciones de Análisis. 3. En el cuadro Opciones para Excluir Efectos, dar doble clic en cualquiera de los efectos que

deseé excluir y lo arrastra de la columna Incluir a la columna Excluir:

Figura 16-18. Cuadro para Excluir Efectos

Las reglas básicas que se deben seguir para excluir efectos es:

1. Cualquier interacción de dos factores que no sea significativa. 2. Efectos no significativos que no estén involucrados en interacciones significativas.


En este caso, significa eliminar todo lo que no sea significativo en el Gráfico de Pareto, excepto el efecto principal de B. Dicho efecto principal se mantiene porque esta involucrado en una interacción significativa con el factor A. Habiendo eliminado los efectos, el Gráfico de Pareto aparece como se muestra a continuación:

Carta de Pareto Estandarizada para yield

0 3 6 9 12 15Efecto estandarizado

B:flow rate

E:catalyst

C:concentration

AB

A:temperature +-

Figura 16-19. Gráfico de Pareto Estandarizado después de Eliminar Efectos

Excepto por el efecto principal del factor B, todos los efectos restantes son estadísticamente significativos. El modelo final se verá seleccionando Coeficientes de Regresión del cuadro Tablas:

Coef. de regresión para yield - Tutorial #7 Coeficiente Estimado constante 250.074 A:temperature -1.0595 B:flow rate -17.4475 C:concentration 0.555417 E:catalyst 2.6175 AB 0.106625

El StatAdvisor Esta ventan despliega la ecuación de regresión que se ha ajustado a los datos. La ecuación del modelo ajustado es yield = 250.074 - 1.0595*temperature - 17.4475*flow rate + 0.555417*concentration + 2.6175*catalyst + 0.106625*temperature*flow rate

Figura 16-20. Modelo de Regresión Ajustado


Note que el modelo subyacente toma la forma de un modelo de regresión lineal múltiple. Cada efecto principal retenido es incluido por si solo en el modelo, mientras que la interacción de dos factores está representada por un producto cruzado entre temperatura y velocidad de flujo. 16.4 Graficando el Modelo Ajustado Para entender completamente el modelo ajustado, lo mejor es graficarlo. Diferentes tipos de gráficos pueden crearse al seleccionar Gráficos de Respuesta en el cuadro Gráficas. De forma predeterminada, una superficie de malla es mostrada :

Superficie de Respuesta Estimadaconcentration=6.5,agitation rate=137.5,catalyst=1.25

150 155 160 165 170 175 180temperature

1010.410.8

11.211.612

flow rate

80

82

84

86

88

yiel

d

Figura 16-21. Gráfico de Superficie de Respuesta

En este gráfico, la altura de la superficie representa el valor predicho del rendimiento a travez del espacio de temperatura y velocidad de flujo, con los otros tres factores permaneciendo constantes en sus valores medios. Mejores rendimientos se obtienen en temperaturas y velocidad de flujo altas. El tipo de gráfico y los factores con los que se grafica la superficie de respuesta pueden ser cambiados usando Opciones de Ventana:


Figura 16-22. Opciones de Ventana para Gráficos de Respuesta

Los tipos de gráfico que pueden crearse son:

1. Superficie: grafica la ecuación ajustada como una superficie 3-D con respecto a cualesquiera 2 factores experimentales. La superficie puede ser una malla, un color sólido, o niveles de contorno para la respuesta. Contornos Abajo incluye contornos en la cara inferior de la gráfica.

2. Contorno: crea un gráfico de contorno de 2-D con respecto a cualesquiera 2 factores

experimentales. Los contornos pueden mostrarse como líneas, como en un mapa topográfico, como regiones coloreadas, o usando una rampa de color contínuo.

3. Cuadrado: grafica la región experimental para cualesquiera 2 factores experimentales y

muestra la respuesta predicha en cada esquina del cuadrado.


4. Cúbico: grafica la región experimental para cualesquiera 3 factores experimentales y muestra la respuesta predicha en cada esquina del cubo. Para crear este gráfico, primero debe pulsar el botón Factores y seleccionar un tercer factor.

El ícono Factores se utiliza para seleccionar los factores que definen los ejes de los gráficos y los valores constantes que conservan los otros factores :

Figura 16-23. Factores de Gráficos de Respuesta

Para crear el gráfico de la siguiente página, se estableció la opción de coloreado para el campo de Contornos, como Sólido el color de la Superficie con Contornos Abajo, y donde los contornos van en una escala del 81 a 86 de uno en uno:


Superficie de Respuesta Estimadaconcentration=6.5,agitation rate=137.5,catalyst=1.25

150 155 160 165 170 175 180temperature

1010.410.8

11.211.612

flow rate

80

82

84

86

88

yiel

dyield

81.082.083.084.085.086.0

Figura 16-24. Gráfico de Superficie de Respuesta con Contornos Abajo

El mismo gráfico puede mostrarse como uno de contorno en lugar de un gráfico de superficie:

Contornos de la Superficie de Respuesta Estimada concentration=6.5,agitation rate=137.5,catalyst=1.25

150 155 160 165 170 175 180temperature

10

10.4

10.8

11.2

11.6

12

flow

rat

e

yield81.082.083.084.085.086.0

Figura 16-25. Gráfico de Contorno de la Superficie Respuesta

Altos valores del rendimiento son detectados en la esquina superior derecha.


16.5 Optimizando la Respuesta Para determinar los valores de los factores experimentales donde se obtienen los mejores rendimientos, elija Optimizar en el cuadro Tablas. Esto presentará la siguiente salida:

Optimizar Respuesta Meta: maximizar yield Valor óptimo = 88.6736 Factor Bajo Alto Óptimo temperature 150.0 180.0 180.0 flow rate 10.0 12.0 12.0 concentration 5.0 8.0 8.0 agitation rate 125.0 150.0 150.0 catalyst 1.0 1.5 1.5

Figura 16-26. Diseño Optimizado

La tabla anterior estima que el máximo rendimiento posible dentro de la región experimental es aproximadamente 88.7 gramos, considerando los factores establecidos mostrados en la columna extrema derecha. Si la maximización no era el objetivo, se pueden seleccionar otras metas usando Opciones de Ventana:


Figura 16-27. Opciones de Ventana para la Optimización

Ud. puede elegir el maximizar la respuesta, el minimizarla, o mantenerla en un valor específico. Los campos Bajo y Alto a la derecha de cada factor establecen la región sobre la cual se realizará la optimización. Además también se pueden establecer varios puntos de inicio desde donde comenzar la búsqueda de las condiciones óptimas. Para funciones de respuesta complicadas, buscar desde diferentes puntos de inicio puede ayudar a encontrar el óptimo global. 16.6 Experimentación Adicional Si desea hacer más experimentos, el STATGRAPHICS Centurion puede ayudar de dos formas:

1. Si elige Aumentar Diseño en el menú principal, puede añadir corridas adicionales al experimento actual con nuevos niveles de los factores. Esto le permitirá un mejor


refinamiento al estimado de la superficie de respuesta al agregar parámetros secundarios como la temperatura2 y la (velocidad de flujo)2.

2. Puede generar puntos a lo largo de la Ruta de Máxima Pendiente en un intento de

acercarnos rápidamente a regiones de mejor rendimiento. La Ruta de Máxima Pendiente es el trayecto que comienza en el centro de la región experimental y se mueve en dirección al mayor cambio de la respuesta estimada, para los cambios más pequeños de los factores experimentales. Siguiendo este trayecto resulta ser muy efectivo para obtener mejoras dramáticas rápidamente. Los puntos a lo largo de la Ruta de Máxima Pendiente se generan al seleccionar Ruta de Máxima Pendiente en el menú Tablas. El cuadro Opciones de Ventana controla el sitio donde se generan los puntos. En el cuadro de diálogo, elija el factor a escalar, la cantidad a incrementar y el número de pasos:

Figura 16-28. Cuadro Ruta de Máxima Pendiente

En el cuadro de diálogo anterior, se seleccionó el factor temperatura y se establecieron que los incrementos serán de 5 grados cada uno. STATGRAPHICS Centurion entonces determina los valores de los otros factores que siguen la Ruta de Máxima Pendiente, así como la predcción del posible rendimiento:


Camino de Máximo Ascenso para yield Predicción paratemperature flow rate concentration agitation rate catalyst yield (degrees C) (liters/min) (%) (rpm) (%) (grams) 165.0 11.0 6.5 137.5 1.25 83.7405 170.0 11.0775 6.73825 137.5 1.28119 84.5739 175.0 11.2385 6.95299 137.5 1.3093 85.57 180.0 11.4566 7.13861 137.5 1.3336 86.8115 185.0 11.711 7.2974 137.5 1.35439 88.3439 190.0 11.9882 7.434 137.5 1.37227 90.1917 195.0 12.28 7.55283 137.5 1.38782 92.3682 200.0 12.5817 7.65747 137.5 1.40152 94.8813 205.0 12.8902 7.75068 137.5 1.41372 97.7358 210.0 13.2036 7.83454 137.5 1.4247 100.935 215.0 13.5206 7.91067 137.5 1.43467 104.481

Figura 16-29. Valores Predichos en la Ruta de Máxima Pendiente

Por supuesto, nadie sabe que pasará realmente cuando uno se mueve fuera de la región experimental, pero la Ruta de Máxima Pendiente sugiere el mejor trayecto a seguir.

285/ Lecturas Recomendadas

Lecturas Recomendadas Los siguientes libros son excelentes fuentes de información sobre las técnicas estadísticas descritas en este manual:

Estadísticas básicas: Applied Statistics and Probability for Engineers, 3a Edición, por Douglas C. Montgomery y George C. Runger (2003). John Wiley and Sons, New York.

Análisis de varianza: Applied Linear Statistical Models, 5a Edición, por Michael H. Kutner, Christopher J. Nachtsheim y John Neter (2004). McGraw Hill.

Análisis de Regresión: Applied Linear Regression, 3a Edición, por Sanford Weisberg (2005). John Wiley and Sons, New York.

Control Estadístico de Proceso: Introduction to Statistical Quality Control, 5a Edición, por Douglas C. Montgomery (2005). John Wiley and Sons, New York.

Diseño de Experimentos: Statistics for Experimenters: Design, Innovation and Discovery, 2a Edición por George E. P. Box, William G. Hunter y J. Stuart Hunter (2005). John Wiley and Sons, New York.

286/Archivos de Datos

Archivos de Datos 93cars.sf6

Estos datos fueron tomados del Archivo de Datos del Journal of Statistical Education (JSE). Fueron recopilados por Robin Lock del Departamento de Matemáticas de la Universidad de St. Lawrence y son utilizados con su previa autorización. Un artículo asociado con el archivo de datos aparece en el Journal of Statistics Education, Volúmen 1, Número 1 (Julio 1993).

bodytemp.sf3

Estos datos también fueron tomados del Archivo de Datos del Journal of Statistical Education (JSE). Fueron recopilados por Allen Shoemaker del Departamento de Psicología en Calvin College y son usados con su previa autorización. Los datos se derivna de un artículo en el Journal of the American Medical Association (1992, vol. 268, pp. 1578-1580) titulado "A Critical Appraisal of 98.6 Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl Reinhold August Wunderlich" por P. A. Mackowiak, S. S. Wasserman, y M. M. Levine. Un artículo asociado con el archivo de datos aparece en el Journal of Statistics Education, Volúmen 4, Número 2 (Julio 1996).

Sitio web con Archivos de Datos del Journal of Statistical Education (JSE):

http://www.amstat.org/publications/jse/jse_data_archive.htm

287/ Indice

Indice ABS, 46 Actualizar Fórmulas, 45 actualizar vínculos, 144 administrador de la licencia, 7 aleatorizar, 266 Análisis de Capabilidad, 240 análisis de capabilidad de proceso, 237 análisis de correlación, 200 análisis de medias, 198 Análisis de Pareto, 222 análisis de regresión, 199 Análisis de Una Variable, 20, 149, 238 análisis de varianza, 190 Analizar Diseño, 270 AND, 66 ANOM, 198 ANOVA, 190 ANOVA Gráfico, 191 Archivos ASCII, 37 Archivos de Datos

lecturas en intervalos, 61 leyendo, 35 solo lectura, 61

Archivos Excel, 37, 39 Archivos HTML, 116 Archivos XML, 37 asimetría (sesgo), 153 Atributos del Diseño de Cribado, 267 Aumentar Diseño, 282 Autoguardar, 71, 144 AVG, 46 barra de herramientas de análisis, 23, 67

bloques, 259 bondad de ajuste, 244 buscando pruebas y estadísticas, 139 Calculadora Seis Sigma, 254 campo de selección, 65 código de activación, 7 coeficientes de regresión, 276 columnas de datos

comentario, 14, 34 nombre, 14, 33 tipo, 14, 34

Comparación de Dos Muestras, 173 Comparación de Varias Muestras, 186 condicionadas variables, 138 Configurar Impresión, 145 Configurar Página, 78 confusión, 269 consultas ODBC, 40 contrato de la licencia, 2 COUNT, 58 Cp, 253 Cpk, 251 cuadro de diálogo captura de datos, 64, 67 cuartiles, 152 curtosis, 153 datos

acceso, 35 archivos, 17 captura, 11 combinar columnas, 51 copiar, 41 cortar, 41

288/ Indice

eliminar, 41 generando, 56 hoja de datos, 11 insertar, 41 nuevas variables, 41 ordenando, 49 patrones, 56 pegar, 41 recodificar, 50, 232 transformando, 45

datos aberrantes, 157, 197 datos categóricos, 220 desviación estándar, 153 diagrama de barras, 222, 229 diagrama de sectores, 222 DIFF, 46 dígitos significativos

establecer predeterminados, 143 directorio de archivos

temporal, 145 diseñado de experimentos, 257 diseños de cribado, 258 diseños factoriales, 259 diseños factoriales fraccionados, 259 diseños Plackett-Burman, 259 distribución acumulada, 164 distribución del mayor valor extremo, 244 distribución normal, 153, 242 DPM, 247, 251 encabezados de los análisis, 145 Estadísticas por Filas, 52 estudios R&R, 132 Excluir, 76 excluir efectos, 275 EXP, 46 fechas, 144 FIRST, 65 fórmulas

conversión a valores-Z, 47

desviación estándar, 47 diferencias sucesivas, 46 función exponential, 46 logaritmo base 10, 46 logaritmo natural, 46 máximo, 46 mínimo, 46 promedio, 46 raíz cuadrada, 47 restraso por k periodos, 46 valor absoluto, 46

FTP, 117 Generación de Datos, 48, 58 gráficas

agregando texto, 96 blanco y negro, 144 efectos 3D, 84 escala de los ejes, 93 escala de potencia en los ejes, 144 escala logaritmica, 94 etiquetas, 145 excluyendo puntos, 76 fondo, 84 funetes, 94 íconos de la barra de herramientas, 75 mantenar espacio en las marcas de los

ejes, 144 mantenar razón de apariencia, 144 manteniendo cambios en las escala, 94 modificando, 82 modificar apariencia predeterminada, 146 rotando etiquetas de los ejes, 94 titulo de los ejes, 93

Gráficas, 69 gráfico

identificando puntos, 103 rotando, 102

gráfico cuantil-cuantil, 184 gráfico cúbicos, 278

289/ Indice

gráfico cudrados, 278 gráfico de caja y bigotes, 23, 155, 177, 195 gráfico de capabilidad, 241, 251 gráfico de contorno, 278 gráfico de cuantiles, 165, 182 gráfico de efectos principales, 272 gráfico de interacciones, 273 gráfico de matriz, 106, 201 gráfico de medias, 192 gráfico de mosaico, 229 gráfico de Pareto estandarizado, 271 gráfico de probabilidad normal, 249 gráfico de rascacielos, 230 gráfico de superficie respuesta, 278 gráfico de tolerancia, 171 gráficos

copiando a otras apliaciones, 107 guardando en Archivos de Imágen, 108

gráficos de residuos, 196, 210 Gráficos de Superficie y de Contorno, 216 Guardar Resultados, 70 heteroscedasticidad, 197 histograma, 26, 161, 176, 239 imprimiendo

análisis, 77 ancho de lineas, 80 encabezado, 79 fondo, 79 márgenes, 79

indices de capabilidad, 251 iniciando el programa, 6 instalación, 1 intervalos bootstrap, 167 intervalos de confianza

desviación estándar, 166 media, 166 mediana, 167

intervalos HSD, 193 intervalos LSD, 193

K, 253 LAG, 46 LAST, 65 lectura de datos

actualización a intervalos constantes, 115 Libro de Datos, 11, 31 Límites de Tolerancia Estadística, 170 límites de tolerencia, 170 LOG, 46 LOG10, 46 LOWESS, 202 matriz de correlación, 203 MAX, 46 máximo, 153 media, 152 mediana, 153 menú Seis Sigma, 9, 144 menús del sistema, 9 métodos no-paramétricos

prueba Friedman, 194 prueba Kolmogorov-Smirnov, 183, 244 prueba Kruskal-Wallis, 194 prueba Mann-Whitney (Wilcoxon), 181 prueba para muestras apareadas, 170

MIN, 46 mínimo, 153 modelo de regresión lineal, 207 modelo de regresión no lineal, 207 Modificar Columna, 43 modo de evaluación, 3 muesca de la mediana, 156 Nivel de Calidad Sigma, 253 niveles de confianza

estableciendo predeterminado, 143 número de serie, 3 numeros aleatorios, 59 Opciones de Análisis, 72 Opciones de Ventana, 26, 73 Opciones Gráficas, 27

290/ Indice

diseño, 83 ejes, 93 lineas, 87 mallas, 85 perfil, 146 puntos, 89 rellenos, 95 texto, etiquetas y leyendas, 96 titulo principal, 91

operadores algebraicos división, 46 exponencial, 46 multiplicación, 46 resta, 46 suma, 46

optimizar, 281 OR, 66 Ordenar Datos, 49 ordenar nombres de variables, 144 paneles, 66 parsimonia, 199 percentiles, 153, 166 potencia, 260 Preferencias, 113, 142

AED, 161 capabilidad, 252 estadísticos, 154

promedio, 152 Propiedades del Libro de Datos, 61 prueba chi-cuadrada, 231, 236 prueba de Friedman, 194 prueba de Grubbs, 159 prueba de Levene, 196 prueba de rangos múltiples, 193 prueba desviación estudentizada extrema,

159 prueba F, 179 prueba Kolmogorov-Smirnov, 183, 244 prueba Kruskal-Wallis, 194

prueba Mann-Whitney (Wilcoxon), 181 prueba para muestras apareadas, 170 prueba Shapiro-Wilks, 243 prueba t, 180 pruebas de hipótesis

aberrantes, 159 coeficiente de correlación, 203 comparando desviaciones estándar, 179 comparando distribuciones, 183 comparando medianas, 181 comparando medias, 180 comparando proporciones, 236 comparando varias desviaciones estándar,

196 comparando varias medianas, 194 comparando varias medias, 190 media, 168 mediana, 168 normalidad, 243 regresión, 206 tabla de dos vías, 231

puntos centrales, 266 puntos externos, 156 RANDOM, 65 R-cuadrada, 206, 208 Recodificar Datos, 50 referencias, 285 regla de Sturges, 162 Regresión Múltiple, 211 regresión por pasos, 214 Regresión Simple, 63, 204 REP, 58 resaltando un gráfico de dispersión, 99 RESHAPE, 59 residuos, 196 residuos estudentizados, 210 resolución, 259 Resumen Estadístico, 22, 151, 175, 239 RNORMAL, 60

291/ Indice

ROWS, 65 ruta de máxima pendiente, 283 SD, 47 secuencia Booleana, 66 Seis Sigma, 237 seleccionando análisis, 134 separando un gráfico de dispersión, 98, 189 setup.exe, 1 SQRT, 47 STANDARDIZE, 47 StatAdvisor

predeterminados, 145 StatFolios

guardando, 30, 110 publicando, 116 rutinas iniciales, 112, 115, 145

StatGallery, 249 configurando, 119 copiando gráficas a, 121 imprimiendo, 125 modificando gráficas, 123 sobreponiendo gráficas, 122

Statistics for Experimenters, 191

StatLink, 61, 115 StatPublish, 116 StatReporter, 126

copiando salidas a, 127 guardando, 128 modificando, 128

StatWizard, 9, 12, 129 suavización de gráfico de dispersión, 102 suavización LOWESS, 102 tabla ANOVA, 271 tabla de contingencia, 225 Tablas, 68 tablas de contingencia, 235 tablas de dos vías, 227 Tabulación, 221 Tabulación Cruzada, 225 Tabulación de Frecuencias, 164 transformación Box-Cox, 248 transformaciónes, 138 valores estudentizados, 158 valores-P, 159 valores-Z, 254 ventana de análisis, 21

manual principal

Documents