1 introducción al spss

1 Introducción al SPSS Estadísticas descriptivas

Utilice este módulo para calcular un conjunto de estadísticas descriptivas para una o varias variables, cualitativas o cuantitativas, y producir representaciones gráficas o semigráficas utilizadas en análisis exploratorio de datos.

Lista de las estadísticas calculadas en el caso de datos cuantitativos (los descriptores que tienen en cuenta los eventuales pesos, son señalados en negrita):

Núm. de valores utilizados: número de valores efectivamente utilizados en los cálculos, es decir, los valores que no faltan y de peso diferente a 0, Núm. de valores ignorados: número de valores ignorados durante los cálculos, es decir, valores que faltan o de peso nulo, Núm. de valor Min. : número de valores iguales al valor mínimo, % de valor Min. : porcentaje del número de valores iguales al valor mínimo, Mínimo : valor mínimo, El primer cuartil: valor por debajo del cual se encuentran el 25 % de los datos, Mediana : valor por debajo del cual se encuentran el 50 % de los datos, El tercer cuartil: valor por debajo del cual se encuentran el 75 % de los datos, Máximo : valor máximo, Recorrido : diferencia entre el máximo y el mínimo, Suma de peso: en el caso de datos ponderados, indica la suma de los pesos de valores utilizados en los cálculos, Total : suma de los valores, eventualmente ponderado, Media : suma de los valores, eventualmente ponderado, dividido por el número de valores utilizados, o por la suma de los pesos si los datos son ponderados, Media geométrica: media apenas influida por los valores elevados. La media geométrica no está definida para los datos que contienen valores negativos o nulos, Media armónica: media apenas influida por algunos valores mucho más elevados que el conjunto de los otros valores, pero sensible a los valores mucho más pequeños. La media armónica no está definida para los datos que contiene valores nulos, Aplastamiento (Pearson): coeficiente que caracteriza la forma del pico o el aplastamiento de una distribución con respecto a una distribución gaussiana. Para una distribución gaussiana (ley normal), el aplastamiento vale 0. Un valor negativo corresponde a una distribución más aplanada que la ley normal (distribución platicúrtica) mientras que un valor positivo corresponde a una distribución más picuda que la ley normal (distribución leptocúrtica), Asimetría (Pearson): coeficiente que caracteriza el grado de asimetría de una distribución con respecto a su media. Para una distribución gaussiana (ley normal), la asimetría vale 0. Un valor negativo corresponde a la presencia de una cola de distribución hacia la izquierda mientras que un valor positivo corresponde a una cola de distribución hacia la derecha, Aplastamiento: coeficiente de aplastamiento tal como está calculado por Excel, Asimetría : coeficiente de asimetría tal como está calculado por Excel, CV (Desviación típica / media): coeficiente de variación que mide la dispersión relativa obtenida dividiendo la desviación típica por la media. Este coeficiente permite comparar la dispersión de variables cuyas unidades son diferentes, o que tienen medias muy diferentes, Varianza de una muestra: varianza de datos, Varianza estimada: estimación de la varianza de una población cuyos datos constituyen una muestra (estimador sin sesgo), Desviación típica de una muestra: raíz cuadrada de la varianza de datos, Desviación típica estimada: raíz cuadrada de la estimación de la varianza de la población de origen de datos, Desviación absoluta media: medida de dispersión que indica la media de valores absolutos de las desviaciones de cada valor con respecto a la media, Varianza de la media: raíz cuadrada de la relación de la varianza estimada por el número de valores utilizados en los cálculos. Esta estimación de la varianza de la media es valida que si los datos constituyen una muestra conseguida al azar (y sin reemplazo) en el seno de una población infinita (muestra aleatoria simple de una población infinita / total). Gráficos productos en el caso de variables cuantitativas:

gráficos " caja y bigote " o box plots, nubes de puntos univariadas o scattergrams, colección de nubes de puntos bivariadas, gráficos " Cuantile-Cuantile " o Q-Q plots, gráficos " probabilidad-probabilidad " o p-p plots, diagramas " tallo y hoja " o stem and leaf plots.

Lista de las estadísticas calculadas en el caso de datos cualitativos

Síntesis para todas las variables:

Núm. de modalidades: número de modalidades de la variable, Moda: la moda es la modalidad cuyo efectivo es el más elevado o cuyo peso es el más elevado (si los datos son ponderados), Frecuencia moda: en el caso de datos no ponderados, efectivo de la moda, Peso moda: en el caso de datos ponderados, peso de la moda, % moda: porcentaje de la moda, Frec. rel. moda : frecuencia relativa de la moda.

Tabla de las estadísticas para cada variable:

Frecuencia : en el caso de datos no ponderados, frecuencia de la modalidad, Peso : en el caso de datos ponderados, peso de la modalidad, % : porcentaje de la modalidad, Frec. rel. : frecuencia relativa de la modalidad.

Gráficos productos en el caso de variables cualitativas: histogramas,

sectores.

El paquete estadístico SPSS (Statistical Package for Social Sciences), es un software para ordenadores personales de tipo modular destinado a realizar una gran variedad de análisis estadísticos.

Aunque son muchos los módulos que posee los más importantes son:

BASE. Forma el núcleo del sistema y como tal debe permanecer residente en memoria. En él se encuentran los comandos necesarios para el acceso, la manipulación, el análisis y la presentación de datos. Nos permite acceder a una gran variedad de fuentes de datos, entre las que se encuentran dBase, Lotus, Excel, y a través de ODBC, Access Paradox, SQL Server, Oracle, y muchos más. Los procedimientos estadísticos básicos que incluye, son Análisis Exploratorio de Datos, Tablas de Contingencia, Comparación de Medias, Análisis de la Varianza, Pruebas no Paramétricas, Correlación y Regresión Lineal Múltiple. Esta última versión del SPSS (v10.05) incluye además, Análisis Factorial, Discriminante, de Conglomerados, y Cálculo de Proximidades.

ESTADÍSTICAS PROFESIONALES. Este módulo contiene procedimientos estadísticos tales como Regresión logística, Regresión no lineal restringida y no restringida, Cuadrados mínimos

ponderados, Cuadrados mínimos en dos fases, Escalado Multidimensional, Modelos Logit y Probit y Análisis de Fiabilidad.

ESTADÍSTICAS AVANZADAS. En este módulo se recogen aquellos análisis estadísticos avanzados como son el Modelo Lineal General (MLG), el Análisis Loglineal, Hiloglineal, y Genlog, la Estimación de componentes de la varianza, el Análisis de Supervivencia, la Estimación Kaplan-Meier, la Regresión de Cox con covariables dependientes en el tiempo, los Modelos Manova y la Biblioteca de Macros.

TENDENCIAS. Este es el módulo dedicado al tratamiento y análisis de Series Temporales. Podemos separar las series en sus componentes guardando los factores estacionales, tendencias cíclicas, y componentes de error automáticamente. Incluye las Técnicas de Box-Jenkins y Análisis Espectral.

CATEGORÍAS. Aquí se incluyen programas relativos a los Procedimientos de Escalamiento, Análisis de Correspondencias Simple y Múltiple.

ANÁLISIS CONJUNTO. Permite trabajar con medidas del impacto de atributos individuales en productos o preferencias de consumidores y genera tarjetas en las que los entrevistadores pueden ordenar para indicar sus preferencias en función de los atributos.

TABLAS. Este último módulo contiene los programas encaminados a la elaboración de Tablas Pivote de alta calidad, con una gran cantidad de opciones de formato y presentación.

El SPSS se puede emplear de una manera interactiva, o como un programa en el que se procesan varias tareas de una sola vez. El Método Interactivo consiste en elegir el procedimiento estadístico que se desea a través de menús y cuadros de diálogo que recogen los aspectos más relevantes de la tarea que se vaya a realizar. Como programa, el SPSS está organizado en base a comandos, que constituyen los elementos de un lenguaje. Cada procedimiento tiene asociado una serie de comandos y con la combinación de los mismos se puede elaborar un fichero de sintaxis para llevar a cabo análisis estadísticos más complejos. Los ficheros de sintaxis se ejecutan directamente mediante la opción Ejecutar Proceso dentro del menú Utilidades. A esta opción se la denomina Proceso por lotes.

2.1 Creación de Un Fichero de Datos

En este apartado se muestra la forma de crear un fichero de datos, fase previa a cualquier análisis estadístico. Para ello, el primer paso consiste en definir las variables que se desea contenga el fichero, y en segundo lugar introducir los valores asignados a dichas variables.

Para configurar el fichero inicial de datos, se realizarán las siguientes operaciones:

i) Pulsar dos veces sobre el icono del SPSS. De esta forma aparece un cuadro de diálogo

que nos presenta las siguientes alternativas: ejecutar el tutorial (Ficheros de ayuda), introducir datos, consultar datos de una base creada anteriormente o abrir un fichero de datos ya existente.

ii) Seleccionamos la opción Introducir datos y pulsamos ACEPTAR.

iii) Una vez abierto el editor de datos del SPSS, procederemos a introducir las características que describen las variables que se quieren crear. Cada celda de una fila representa una característica de la variable y éstas son:

Nombre de variable. Se puede dar un nombre a la variable que tenga que ver con su contenido, o simplemente un nombre como var1, o v1. De una forma u otra, el nombre debe contener como máximo 8 caracteres que pueden ser alfabéticos, numéricos, o el símbolo de subrayado (_). No puede contener espacios en blanco ni caracteres especiales como !, ?, etc. El primer carácter debe ser alfabético, $, ó #. No pueden existir dos variables con el mismo nombre, y se ha de tener en cuenta el hecho de que el sistema no distingue entre mayúsculas y minúsculas (siendo la misma variable TIEMPO que tiempo).

Tipo. Al seleccionar esta celda se abre un cuadro de diálogo con los siguientes tipos de variable: Numérica, Coma, Punto, Notación Científica, Fecha, Dolar, Moneda Personalizada y Cadena. Según el tipo elegido se solicitará el ancho y el número de decimales, o el número de caracteres, etc.

Los tipos más utilizados son numérico y cadena. Generalmente las variables a escala se definen como numéricas, mientras que las categóricas se pueden definir tanto como numéricas como cadena. En el primer caso, los valores de la variable categórica son las modalidades, y en el segundo se consideran unos valores numéricos arbitrarios (variable nominal), o que indican un orden (variable ordinal), y posteriormente se les asocia a cada uno de ellos una etiqueta de valor.

Etiqueta. Dichas etiquetas nos permiten describir las variables, sobre todo cuando el nombre no es identificativo. El nombre de las etiquetas puede llevar cualquier tipo de signo o símbolo, acentos, ?, !, etc, pero no puede exceder de 120 caracteres.

En los resultados de cualquier análisis se puede especificar el que aparezca el nombre de la variable o su etiqueta. Para ello se debe elegir de forma seguida las siguientes opciones desde la barra del menú principal:

Valores. En esta celda se asignan las etiquetas de los valores de las variables discretas para identificar cada categoría. Al igual que en las etiquetas de las variables se puede usar cualquier símbolo, pero éstas no pueden superar los 60 caracteres.

Para asignar una etiqueta a un valor se abre un cuadro de diálogo, donde se introduce el valor en el campo Valor, y su correspondiente etiqueta en el campo Etiquetas de valor. Se pulsa entonces en el botón AÑADIR y se repite para otros valores.

Para eliminar alguna etiqueta ya introducida, se selecciona dicha etiqueta pulsando sobre ella con el ratón, y presionando el botón BORRAR.

Si se quiere hacer alguna modificación en la definición de los valores y sus etiquetas, se selecciona la que se quiere cambiar, se hace la modificación y se pulsa el botón CAMBIAR.

Perdidos. Son aquellos valores, que se asignan a la variable cuando se desconoce el valor para algún individuo de la muestra. Reciben el nombre de valores missing o valores perdidos. El SPSS distingue entre dos tipos de valores missing:

- Sistem missing: valores missing declarados por el SPSS, que es cualquier casilla en blanco dentro de la matriz de datos.

- User missing: valores missing declarados por el usuario. Estos pueden ser:

En las variables discretas un máximo de tres valores.

En las continuas un intervalo.

Para ambas, un intervalo y un valor fuera del mismo.

Columnas. Se refiere a la amplitud de la columna donde se introducen los datos de esa variable.

Alineación. Este se refiere a la colocación de los datos dentro de la celda: centrados, a la derecha o a la izquierda.

Medida. Aquí se indica si los datos que se introducen son a escala, de forma ordinal o de forma nominal.

iv) A continuación, para introducir los datos pasamos a otra ventana del editor de datos, seleccionando las opciones del menú principal:

o directamente pulsando en VISTA DE DATOS, en la parte inferior de la pantalla.

Los datos se almacenan en una matriz de dimensión , donde es el número de filas y se corresponde con las unidades del análisis, y es el número de columnas, que se corresponde con las variables. Se pueden introducir de dos formas diferentes: metiendo todos los valores de una determinada variable, es decir, por columnas, o metiendo todos los valores de una determinada unidad de análisis, esto es, por filas. En el primer caso después de introducir cada dato se pulsa ENTER y en el segundo después de cada dato se pulsa el TABULADOR.

v) Una vez finalizada la entrada de datos podemos guardar el contenido del fichero. Para ello vamos con el ratón a la opción:

o

En ambos casos se abrirá una ventana con los siguientes campos:

Guardar en: este campo se refiere a la unidad y carpeta en la que se quiere guardar el fichero creado.

Nombre de Archivo: aquí se especifica el nombre del fichero donde se van a almacenar los datos. Su longitud no puede exceder de 30 caracteres. En cuanto a la extensión del fichero, se suele utilizar la extensión .sav para los ficheros de datos creados con el SPSS.

Guardar Como Archivo Tipo: se utiliza para especificar el tipo del fichero en el que se desea almacenar los datos. Al pulsar sobre el símbolo de dicho campo aparece un menú con los tipos de ficheros disponibles: Fichero SPSS. Es un fichero binario que olo puede crearse y leerse con el SPSS para Windows o Unix. Estos ficheros tienen extensión *.sav. Fichero SPSS/PC+. Es un fichero binario que sólo puede crearse y leerse con el SPSS para Ms-Dos. Estos ficheros tienen extensión *.sys. Fichero SPSS transportable. Son archivos creados con otros sistemas operativos como Macintosh, OS2. Estos ficheros tienen extensión *.por. Hojas de Cálculo. Entre las que destaca:

Excel (*.xls): Archivos de Microsoft Excel.

Lotus (*.w*): Archivos Lotus 1-2-3.

Sylk (*.slk): Datos de Excel o Multiplan grabados en formato Sylk (Symbolic link).

Datos grabados en dBase: Son ficheros con extensión *.dbf. Fichero Ascii: Son archivos de texto ASCII delimitados con tabuladores. Estos ficheros tienen extensión *.dat.

Una vez finalizada la sesión de trabajo y guardado el contenido del fichero, se sale de la aplicación del SPSS, eligiendo las opciones:

2.3 Obtención de Información de los Datos

Si se desea conocer las características que definen a una variable de un fichero cargado en el editor de datos del SPSS, se elige de la barra del menú principal las opciones:

Entonces se abre una ventana con la lista de variables del fichero, y pulsando sobre la variable elegida se obtendrá la información correspondiente a la misma. Por otra parte, si lo que se desea es obtener información sobre todas las variables del fichero se elegiría

y en este caso, se mostraría la información en el visor.

3 Estadística Descriptiva Siempre que se va a realizar un análisis estadístico de una serie de datos es aconsejable previamente hacer una Estadística Descriptiva, para obtener información de las variables a analizar o simplemente para chequear posibles errores en los datos. En los siguientes apartados veremos como poder llevarla a cabo.

3.1 Análisis de Frecuencias

El procedimiento Frecuencias permite obtener una descripción de la distribución de la variable mediante:

- Tablas de Frecuencias. - Histogramas y Gráficos de Barras. - Cálculo de percentiles, Medidas de Tendencia Central y Medidas de Dispersión.

Para ejecutar tal procedimiento hemos de elegir una tras otra las siguientes opciones:

A continuación se abre un cuadro de diálogo con los siguientes campos:

Variables: donde se introducen las variables que se van a analizar. Estas se seleccionan de la lista que muestra el sistema, y después de marcarlas con el ratón se pulsa el botón con una flecha hacia la derecha para llevarlas a este campo.

Mostrar tablas de frecuencias: esta opción está activada por defecto y hace que el

sistema construya las tablas de frecuencias de las variables seleccionadas, mostrándose los valores de las variables, las frecuencias absolutas, los porcentajes sin incluir los valores missing e incluyéndolos, y las frecuencias relativas acumuladas. En caso de que no se quiera se deberá desactivar.

En la parte inferior del cuadro aparecen tres botones:

ESTADÍSTICOS. Este botón abre un cuadro donde se solicitan los estadísticos descriptivos de las variables numéricas seleccionadas. Entre los estadísticos que permite el sistema, se encuentran:

- Valores Percentiles. Este cuadro recoge entre otros a:

Los Cuartiles son cuatro valores que dividen el conjunto total de datos en cuatro partes iguales.

Los puntos de corte para dividir el conjunto total de datos en un cierto número específico de grupos iguales. Este número que se ha de introducir ha de estar entre 2 y 100. Por defecto es 10, luego se trata de los deciles.

Los Percentiles se pueden solicitar varios indicando el porcentaje que se desea, y luego pulsando el botón AÑADIR.

- Tendencia Central. Entre las medidas de tendencia central que permite están la media, la mediana, y la moda. También recoge la suma de los datos.

- Dispersión. Aquí se puede seleccionar la desviación típica, la varianza, el rango, el máximo, el mínimo y el error típico de la media.

- Distribución. En este cuadro se solicitan los coeficientes de Asimetría y Curtosis.

En el caso de variables continuas, se puede pedir que los cálculos de las medidas se realicen con los puntos medios de los intervalos, activando tal campo.

GRÁFICOS. Al pulsar este botón se abre un cuadro con las siguientes alternativas:

- Gráficos de Barras. Propios de variables discretas o categóricas.

- Histogramas. Adecuados para variables continuas. Sobre éstos se puede superponer la función de densidad de la Normal, si se activa el campo Con curva normal.

- Gráficos de Sectores. Tanto para variables discretas como continuas.

Por defecto está activado el campo Ninguno. El sistema permite elegir los valores con que se representa el gráfico sea bien con frecuencias o porcentajes.

FORMATO. Con este botón se puede cambiar el formato que presenta la tabla de frecuencias. Las alternativas que muestra al activarlo son:

Ordenar por. Entre las posibles formas a ordenar están:

- Valores Ascendentes: por defecto el sistema ordena la tabla de forma creciente atendiendo a los valores de la variable a analizar.

- Valores Descendentes: en este caso, ordenaría la tabla de forma decreciente según los valores de la variable.

- Frecuencias Ascendentes: el orden se realiza de forma creciente, pero atendiendo a los valores que toman las frecuencias.

- Frecuencias Descendentes: lo mismo que antes, pero de manera decreciente.

Múltiples Variables. Aquí se recogen dos opciones:

- Comparar variables: se utiliza cuando se han seleccionado varias variables y se quiere que los gráficos o tablas solicitados, aparezcan juntos para todas y poderlos comparar.

- Organizar resultados según variables: muestra todos los análisis para la primera variable, luego para la segunda y así, sucesivamente.

También presenta un campo que permite suprimir las tablas correspondientes a variables con más de un cierto número de categorías, número que se ha de indicar.

3.2 Análisis Exploratorio

El procedimiento Explorar nos ofrece las posibilidades de representar gráficamente los datos, examinar visualmente las distribuciones para varios grupos de datos, y realizar pruebas de normalidad y homogeneidad sobre los mismos. Para elegirlo hemos de seleccionar:

Después de esto se abre un cuadro de diálogo con los siguientes campos y botones:

Dependientes: en este campo se introduce la variable o variables cuantitativas que contiene los datos a analizar y de las que se quiere obtener los gráficos y/o estadísticos. Factores: aquí se indica la variable que sirve para dividir en grupos los datos. Puede ser numérica o carácter de cadena corta. Etiquetar los casos mediante: este otro campo se utiliza para etiquetar aquellos valores atípicos en los diagramas de caja. La variable que se usa puede ser numérica o carácter. Gráficos: activando este campo y pulsando el botón GRÁFICOS, se abre una ventana para seleccionar el gráfico a representar. Entre éstos se encuentran: Diagramas de Caja; Descriptivos (Gráficos de Tallo y Hoja, e Histogramas); Gráficos con prueba de Normalidad; y Gráficos de Dispersión por nivel con Prueba de Levene. Estadísticos: con este campo y su respectivo botón se abre una ventana donde se pueden elegir una serie de medidas de tendencia central y de dispersión. Así como una serie de estimadores robustos centrales, valores atípicos de los datos y percentiles. Ambos: en este punto se pueden seleccionar los botones tanto de GRÁFICOS como de ESTADÍSTICOS. Opciones: este botón sirve para controlar el tratamiento de los valores perdidos. Las alternativas que presenta son: Excluir casos según lista. Para excluir de todos los análisis los valores missing. Excluir casos según pareja. Para excluir los missing de las variables que intervienen sólo en ese grupo, y no en otros. Mostrar los valores perdidos. En este caso los valores perdidos para las variables factor se tratan como una categoría diferente y todos los resultados se generan para esa categoría adicional.

3.2.2 Estadísticos

Dentro de la ventana de ESTADÍSTICOS nos encontramos con:

Descriptivos. Por defecto muestra ciertas medidas de tendencia central, de dispersión y de la forma de la distribución.

Las medidas de tendencia central indican la localización de los datos e incluyen la media, la mediana y la media recortada al 5% (media aritmética calculada eliminando el 5% de las observaciones más bajas y el 5% de las más altas).

Las medidas de dispersión recogen la variabilidad de los datos y entre ellas están: los errores típicos, la varianza, la desviación típica, el mínimo, el máximo, el rango y el rango intercuartílico.

Las medidas de la forma de la distribución son: la asimetría y la curtosis junto con sus errores típicos.

Construye además, el intervalo de confianza para la media a un nivel del 95%, pudiendo especificarse otro.

Estimadores robustos centrales. Los estimadores se diferencian de las medidas de tendencia central en las ponderaciones que se aplican a los casos. Aquí se encuentran: el estimador M de Huber, el estimador en onda de Andrew, el estimador redescendente de Hampel y el estimador biponderado de Tuckey.

Valores Atípicos. Muestra los cinco valores mayores y los cinco menores, con las etiquetas de cada caso.

Percentiles. Muestra los valores de los percentiles 5, 10, 25, 50, 75, 90, y 95.

3.3.1 Tablas Básicas

El procedimiento Tablas Básicas nos permite construir tablas que muestran estadísticos de clasificación cruzados y de subgrupos. Al seleccionar

se abre un cuadro de diálogo con los siguientes campos:

Resumir: las variables que se introducen en este campo son aquellas para las cuales se calculan los estadísticos dentro de cada subgrupo, y se las denomina Variables Resumen. Con todas las variables de la tabla se emplean los mismos estadísticos, que por defecto es la media. La tabla muestra las etiquetas o los nombres de las variables resumen a lo largo de la parte izquierda de la misma. En caso de no seleccionar variables resumen se muestran las frecuencias.

Hacia abajo: es la primera dimensión de la tabla, y aquí se introducen las variables que se quiere aparezcan por filas.

A través: entramos en una segunda dimensión de la tabla, que recoge la variable o variables que irán en las columnas de la tabla.

Tablas Distintas: las variables de esta lista subdividen la tabla en capas o en grupos de capas, de manera que sólo se puede ver una capa de la tabla cada vez. Una vez que se muestre la tabla en el visor, podrá ver otras capas pulsando dos veces en la tabla y moviéndose con las flechas del icono de pivoteado de capas. Dentro de la opción de tablas distintas se pueden elegir entre:

Todas las combinaciones (anidadas): esto significa que se muestran las categorías de una variable bajo cada una de las categorías de la variable anterior.

Cada una por separado (apiladas): en este caso, se muestran las categorías de cada variable como un bloque. La apilación se puede entender como la extracción de tablas diferentes y su unión en la misma presentación.

También aparecen en la ventana una serie de botones, de entre los que destacaremos.

ESTADÍSTICOS. En el caso de variables categóricas incluyen frecuencias y porcentajes para diferentes partes de la tabla. Para las variables resumen incluyen medidas estándar de tendencia central y variabilidad, además de percentiles, sumas y porcentajes sobre los casos válidos para las distintas dimensiones de la tabla. Si no se seleccionan los estadísticos se asignará por defecto la media para las tablas con variables resumen y frecuencias para las tablas sin variables resumen. Al pulsar este botón se abre otra ventana con el siguiente contenido.

Estadísticos de casilla: ofrece una lista de los estadísticos que se mostrarán en la tabla completa. Entre otros están frecuencias, % por filas, por columnas, estratos o global de la tabla, estadísticos de tendencia central o variabilidad, etc.

- Se seleccionan y se pasan a este campo con el botón AÑADIR.

- Se pueden retirar con el botón BORRAR

- Para modificar su formato se seleccionan y luego se pulsa el botón CAMBIAR.

Formato y Etiqueta: puede elegir un formato de presentación, el ancho, el número de decimales y una etiqueta para cada estadístico. Los formatos disponibles incluyen formatos decimales, de porcentaje y de moneda preestablecidos.

Ordenación por el recuento en la casilla: reorganiza las casillas dentro de cada fila, columna, o capa de la tabla en función de las frecuencias de las casillas.

DISEÑO. Este botón abre otro cuadro con las siguientes alternativas:

Etiquetas de las variables resumidas: permite seleccionar la dimensión de las etiquetas de las variables resumen.

Etiquetas de estadísticos: nos permite elegir la dimensión de las etiquetas de los estadísticos.

Grupos en la dimensión de la variable resumida: aquí puede optar por anidar las variables resumen bajo cada categoría de la variable de agrupamiento o anidar la variable de agrupamiento bajo cada variable resumen.

Etiquetar los grupos sólo con las etiquetas de valor: elimina las etiquetas de las variables de agrupamiento de la tabla. Las categorías se siguen identificando por las etiquetas de valor o por los propios valores.

FORMATO. Botón que sirve para indicar el aspecto de las casillas vacías y como aparecen los estadísticos perdidos.

TÍTULOS. Con este otro se puede especificar un título para el procedimiento, un pie de página o incluso la fecha.

3.3.2 Tablas de Frecuencias

Este procedimiento es acosejable para aquellos casos en los que queremos analizar los resultados de una serie de variables, que tienen todas las mismas categorías de respuesta. Por defecto, las variables forman las columnas y las categorías las filas. Cada casilla muestra el número de casos de esa categoría. Si lo desea, puede seleccionar una o más variables de agrupamiento. Para elegir el mismo seleccionamos:

entonces se abre un cuadro de diálogo similar al del procedimiento Tablas Básicas con los campos:

Frecuencias para: este campo recoge aquellas variables con las mismas categorías y de las cuales vamos a calcular las fecuencias. En cada tabla: se introduce la variable de agrupamiento de las variables para las que calculamos su frecuencia, y permite dividir cada tabla en columnas. Tablas distintas: esta opción genera otra dimensión de agrupamiento de la tabla, en capas. Si se divide en diferentes capas, sólo se mostrará una capa de la tabla cada vez. Una vez que muestre la tabla en el Visor, podrá ver las otras capas pulsando dos veces en la tabla y después con las flechas del icono de pivoteado de capas. Si hay diversas variables de agrupamiento, puede elegir entre anidarlas o apilarlas.

Al margen de estas opciones del cuadro de diálogo de entrada, tenemos los cuatro botones que dan acceso a otros tantos subcuadros de diálogo. Sólo comentaremos el referido a ESTADÍSTICOS. Dentro de éste, se incluyen frecuencias, porcetajes y totales. Puede también especificar diferentes etiquetas, formatos de presentación, anchos y números de decimales para cada estadístico que decide mostrar, y además, si está activada la ponderación de los casos, puede solicitar recuentos no ponderados.

4 Estimación y Contrastes de Hipótesis El SPSS permite realizar comparaciones o diferencias de medias, tanto para muestras independientes como para muestras dependientes (medidas repetidas o datos relacionados a pares). También permite realizar una comparación entre la media de una variable y un valor empírico. Este tipo de análisis se encuentra en:

Una vez hecho esto, se abre un cuadro de diálogo con una serie de opciones y se elige el análisis estadístico que se desea aplicar.

4.1 Medias

El procedimiento Medias calcula las medias y estadísticos univariantes (la desviación estándar, la varianza, la suma y el número de individuos), para uno o más grupos de sujetos. Si lo desea también puede obtener el análisis de la varianza de un factor, la eta y las pruebas de linealidad. Una vez seleccionada dicha opción aparece entonces una ventana con los siguientes campos:

Dependientes: en este campo se introducen las variables de las que se quiere obtener la media. Éstas se seleccionan de la lista que muestra la misma ventana.

Independientes: aquí se definen los grupos de sujetos, introduciendo aquellas variables mediante las cuales se quiere agrupar las variables dependientes. Las variables independientes se pueden especificar en distintas capas, y cada capa contener más de una variable independiente. Si sólo se define una capa, se obtendrán las medias para cada uno de los valores que tome la variable o variables independientes elegidas. Si se definen más capas, se obtendrán las medias para cada grupo de sujetos, resultante de combinar cada variable independiente de una capa con cada una de las otras capas.

Opciones: este botón abre otra ventana donde se pueden seleccionar una serie de estadísticos como son la media, la mediana, la mediana agrupada, el error típico de la media, el mínimo, el máximo, el rango, la desviación típica, la varianza, la curtosis, el error típico de la curtosis, la asimetría, el error típico de la asimetría, la suma, etc. También se muestran estadísticos de resumen para cada variable a través de todas las categorías.

Dentro de OPCIONES también se tiene la posibilidad de realizar un análisis de la varianza con un factor, además de calcular la eta y la eta cuadrado (medidas de asociación) para cada variable independiente de la primera capa. Para ello se ha de activar el campo Tabla de anova y eta. La eta cuadrado representa la proporción de la varianza de la variable dependiente que es explicada por la diferencia entre los grupos y se mide como la razón de la suma de cuadrados entre grupos y la suma de cuadrados totales.

Por otro lado, activando el campo Contrastes de Linealidad se calcula el y el . Estas medidas son apropiadas cuando se ordenan las categorías de la variable independiente, para medir la bondad de ajuste a un modelo lineal.

4.3 Comparación de muestras independientes

Para comparar las medias de dos muestras aleatorias procedentes de dos poblaciones normales e independientes, se utiliza el procedimiento Prueba T para muestras independientes, y para ello, se selecciona:

A continuación se abre una ventana con los siguientes campos:

Contrastar variables: donde se han de introducir las variables que se van a analizar, es decir, aquellas variables sobre las que se va a contrastar si hay o no, diferencias de grupos. Variable de agrupación: aquí se debe introducir la variable que se utiliza para definir los grupos de sujetos sobre los que se estudian las diferencias. Entonces el sistema activa el botón DEFINIR GRUPOS y al presionarlo aparece una ventana donde se introducen los valores de la variable que definen los dos grupos de sujetos a comparar, o el valor de la variable que hará de corte para definir dichos

grupos. Si el valor de la variable para un individuo es menor o igual que el valor especificado, el individuo pertenecerá al primer grupo, y en caso contrario, al segundo. Opciones: presionando este botón se obtiene una ventana donde se especifica igual que en la sección anterior el nivel de confianza para el intervalo y la forma de tratar los valores missing.

Ejemplo 4.3. Vamos a comprobar si existen diferencias significativas entre los tiempos medios de dedicación a la docencia, para los profesores asociados y los titulares de universidad de Profesores2.sav. Para ello, seleccionamos el procedimiento Prueba T para muestras independientes, y elegimos la variable Tiemdoc para llevarla al campo Contrastar Variables. Seguidamente seleccionamos como Variable Agrupación la variable Categoría, presionamos el botón DEFINIR GRUPOS, y tecleamos un 1 en el primer grupo y un 3 en el segundo. Por último pulsamos CONTINUAR y ACEPTAR para ejecutar el procedimiento.

El resultado que muestra la Tabla 3 contiene dos tablas. La primera recoge para ambos grupos, profesores asociados y titulares de universidad, el número de casos en cada muestra, los tiempos medios dedicados a la docencia, las desviaciones típicas y los errores típicos de la media. La segunda tabla muestra el valor del estadístico para la prueba de Levene sobre la igualdad de varianzas, junto con su p-valor. Este se distribuye como una F de Snedecor y vale 0.808, mientras que su p-valor 0.373, lo que nos conduce a aceptar que las varianzas sean iguales, ya que el p-valor es mayor que 0.05. También aparece en la tabla el valor del estadístico para resolver el contraste de igualdad de medias, supuesto varianzas iguales y distintas, (en ambos casos se distribuye como una t de Student), junto con los correspondientes grados de libertad y sus p-valores. Puesto que hemos concluido que las varianzas coinciden, fijémonos en el que se han asumido varianzas iguales, el cual vale 8.661, y cuyo p-valor es 0, luego se rechaza que las medias coincidan. Razonamiento que también se puede deducir del intervalo de confianza, que no contiene el cero.

Tabla 3: Contraste sobre las Medias de dos Poblaciones Independientes

Prueba T Estadísticos de Grupo

Desviación Error típ. de

Categoría N Media típ. la media

Tiempo diario 1 29 251,3759 29,36731 5,4534

para la docencia 3 23 187,1000 22,5337 4,6986

Prueba de muestras independientes

Prueba de

Levene para

la igualdad Prueba T para la igualdad de medias

http://nereida.deioc.ull.es/~pcgull/ihiu01/cdrom/spss/contenido/node36.html#Tabla3

de varianzas

F Sig. t gl Sig.

bilateral Diferencia de

medias Error típico de la

diferencia Intervalo de confianza para

la diferencia

Inferior Superior

Tiempo Asumiendo 0.808 0,373 8,661 50 0.000 64,2759 7,4209 49,3704 79,1813

diario varianzas iguales

para la No

Asumiendo 8,929 49,961 0.000 64,2759 7,1983 49,8173 78,7345

docencia varianzas iguales

4.4 Comparación de muestras dependientes

Si se desea comparar las medias de dos muestras aleatorias procedentes de dos poblaciones normales pero dependientes, se ha de seleccionar las opciones:

Una vez hecho esto, aparece una ventana con los siguientes campos:

Variables Relacionadas: donde se introducen los pares de variables que se van a comparar. Se seleccionan las dos variables del campo Selecciones actuales, y se trasladan a este campo pulsando el botón con un triángulo hacia la derecha. Este proceso se repite para cada par de variables que se quieran comparar. Opciones: este campo tiene la misma utilidad que en secciones anteriores.

Ejemplo 4.4. Veamos como comparar los tiempos diarios medios dedicados por los profesores a la docencia y a la investigación. Para ello usamos el procedimiento Prueba T para muestras relacionadas, igual que se ha comentado y una vez en el cuadro de diálogo, seleccionamos las variables Tiemdoc y Tinvest. Después de trasladarlas al campo Variables relacionadas, pulsamos ACEPTAR y podemos observar los resultados. En este caso son tres las tablas que se obtienen:

1. La primera son los estadísticos para ambas muestras.

2. La segunda trae el coeficiente de correlación entre ambas variables, que en este caso vale 0.77, luego se puede decir que ambas variables están bastante relacionadas.

3. Y por último se muestra la Tabla 4, de donde se concluye que los tiempos medios dedicados a la docencia y a la investigación no son los mismos, ya que el p-valor vale 0.

Tabla 4: Contraste sobre las Medias de dos Poblaciones DependientesPrueba de muestras relacionadas

Diferencias relacionadas

Error 95% Intervalo de

típico confianza para la

Desv. de la diferencia Sig.

Media típ. media Inferior Superior t gl bilat.

Par1 Tiempo diario

para la docencia - -168,1401 35,9213 4,0161 -176,1340 -160,1462 -41,866 79 0,000

Tiempo diario

para investigación

5.1 Análisis de la Varianza con un sólo factor.

Esta es una prueba generalizada del contraste de medias para muestras con datos independiente. Se comparan tres o más muestras independientes cuya clasificación viene dada por la variable llamada Factor. La base de este procedimiento consiste en estudiar si el Factor influye sobre la Variable Respuesta, y la forma de hacerlo es analizando como varían los datos dentro de cada uno de los grupos en que clasifica el Factor a la observaciones de la Variable Respuesta.

Ejemplo 5.1. Supongamos que estamos interesados en conocer si existen diferencias significativas entre el tiempo diario de dedicación a la investigación de los profesores, en función de la categoría que tienen. Para ello, elegiremos las siguientes opciones desde el menú principal:


y con esto se abre un cuadro de diálogo con los siguientes campos:

Dependientes: en este campo se introduce la variable respuesta a analizar. En el Ejemplo 5.1 sería Tinvest (tiempo diario para la investigación). Factor: aquí se introduce la variable de clasificación, que ha de ser categórica. Para el ejemplo, se considera la Categoría de los profesores.

Además de los campos anteriores existen tres botones cuya utilidad es la siguiente:

CONTRASTES. Con este botón se trata de averiguar si los valores promedios de la variable dependiente para cada nivel del factor, siguen o no alguna tendencia determinada, lineal, cuadrática, cúbica, de grado 4 ó 5. Además de poder realizar cualquier tipo de comparación a priori, entre las medias de la variable respuesta para los niveles del factor que se elijan. Permite realizar hasta 10 contrastes diferentes, con 50 coeficientes en cada uno de ellos. Para excluir algún grupo se le asigna el coeficiente 0. POST HOC. Este tiene como finalidad averiguar cuál o cuáles de los diferentes grupos o niveles del factor son los que difieren entre sí, a través de una serie de pruebas diferentes (Contrastes a posteriori). OPCIONES. Este botón permite mostrar una serie de estadísticos descriptivos para cada grupo de la muestra o nivel del factor, el test de Levene para comprobar la homogeneidad de varianzas entre los distintos grupos, un gráfico de las medias de cada grupo y la forma de tratar los valores perdidos.

Ejecutamos el procedimiento con las variables indicadas anteriormente y elegimos dentro de OPCIONES la prueba de homogeneidad de varianzas, obteniéndose los siguientes resultados.

Tabla 5: Análisis de la Varianza con 1 Factor

ANOVA de un factor

Prueba de homogeneidad de varianzas Tiempo diario para la investigación

Estadístico

de Levene gl1 gl2 Sig.

1,713 5 74 0,142

ANOVA

Tiempo diario para la investigación

Suma de Media

cuadrados gl cuadrática F Sig.

Inter-grupos 190239,152 5 38047,830 47,177 ,000

Intra-grupos 59680,480 74 806,493

Total 249919,632 79

En la Tabla 5 aparecen los resultados sobre la homogeneidad de varianzas y el Anova. Como se puede apreciar en la homogeneidad de varianzas, el p-valor es de 0.142 que es mayor que 0.05, luego podemos aceptar la igualdad de varianzas entre los grupos. Mientras que en el Anova, podemos ver que el estadístico es bastante grande 47.177 y el p-valor vale 0, lo que nos conduce a rechazar el que los tiempos medios dedicados a la investigación sean iguales según la categoría que tiene el profesor.

Example 5.2. Puesto que el análisis ha dado significativo, veamos cuáles de los niveles del factor difieren entre sí. Para ello, volvemos a entrar en el procedimiento Anova de un factor, y con las mismas variables seleccionadas pulsamos en el botón POST HOC. Se muestra a continuación otro cuadro donde aparece una serie de posibles constrastes a posteriori. Supuestas las varianzas iguales, están el de Bonferroni, Scheffe, Tuckey, Duncan, etc., y entre los que se asume varianzas distintas el T2 de Tamnhane, el T3 de Dunnett, etc. Elegimos el test de Tuckey y pulsamos CONTINUAR y ACEPTAR.

Los resultados obtenidos indican que los tiempos medios dedicados a la investigación para los catedráticos de escuela, los titulares de universidad y los titulares de escuela se pueden considerar iguales, y por otro lado, también ocurre lo mismo con los de los profesores asociados y los de los ayudantes

5.2 Análisis de la Varianza Multifactorial

El procedimiento Modelo Lineal General Univariante proporciona un Análisis de Regresión y un Análisis de la Varianza para una variable dependiente (respuesta) con uno o más factores, o covariables. Los factores dividen la población en grupos. Con este procedimiento se pueden investigar las interacciones entre los factores, así como los efectos de los factores individuales, algunos de los cuales pueden ser aleatorios. Además se pueden incluir los efectos de las covariables y las interacciones de las covariables con los factores. Para el Análisis de Regresión, las variables independientes (predictoras) se especifican como covariables.

Se consideran tanto los modelos balanceados como los que no. Esto es, un diseño es balanceado si cada casilla del modelo contiene el mismo número de casos. Además de


contrastar las hipótesis el procedimiento MLGU genera las estimaciones de los parámetros.

También están disponibles en esta opción los contrastes a priori de uso más habitual. Por otra parte, si en el análisis de la varianza global la F ha mostrado cierta significación, se pueden emplear las pruebas Post Hoc para evaluar las diferencias entre las medias especificadas. Las medias marginales estimadas ofrecen estimaciones de los valores de las medias pronosticadas para las casillas del modelo; los Gráficos de Perfil de estas medias (gráficos de interacciones) permiten observar fácilmente algunas de las relaciones entre los factores.

Calcula los residuos, valores pronosticados, distancia de Cook, y valores de influencia como variables nuevas para comprobar los supuestos, información toda ella que permite guardar en un archivo de datos.

Para seleccionar este procedimiento elegimos de forma seguida las siguientes opciones desde el menú principal:

Entonces se abre un cuadro de diálogo con una serie de campos y botones. Entre los campos nos encontramos con:

Dependientes: se recoge aquí la variable respuesta que se desea analizar. Factores Fijos: se introducen aquellos factores cuyos efectos de los niveles se quieren estudiar de manera precisa. Factores Aleatorios: en este campo se colocan aquellos factores donde se selecciona de forma aleatoria los niveles a estudiar, y luego se extrapolan los resultados al resto. Covariables: se introducen las covariables, esto es, aquellas otras variables que guardan relación con la variable respuesta y están medidas como la misma, en escala de intervalo o de razón. Ponderación MCP: permite especificar una variable para ponderar las observaciones de forma diferente en un análisis de mínimos cuadrados ponderados (MCP). Esto se suele hacer para compensar la distinta precisión de las medidas.

En cuanto a los botones, se tienen los siguientes:

a) MODELO. Este botón esconde un cuadro con las siguientes opciones:

Especificar modelo. Por defecto está activa la opción Factorial Completo, la cual considera los efectos principales de todos los factores, los efectos principales de todas las covariables y todas las interacciones entre los factores. No contempla las interacciones entre las covariables, ni de los factores con las covariables. Para especificar un determinado conjunto de interacciones se ha de seleccionar el campo Personalizado. En este caso se activan los campos:

Factores y Covariables: muestra una lista de los factores y las covariables, etiquetando con F a los factores fijos, con C a las covariables y con R a los factores aleatorios.

Modelo: depende de la naturaleza de los datos. Aquí mediante el campo Construir término, se pueden elegir los efectos principales y las interacciones que sean de interés en el análisis, y que se quieren contemplar en el modelo.

Suma de Cuadrados. Aquí se indica el método para calcular las sumas de cuadrados, que por defecto es el Tipo III. Los otros tipos de sumas de cuadrados se utilizan según sea un modelo balanceado o no, anidado o no, con o sin categorías o combinación de categorías vacías. Así por ejemplo, si para alguna combinación de niveles el grupo está vacío se recomienda utilizar la suma de cuadrados Tipo IV.

Incluir la intersección en el modelo. La intersección se incluye normalmente en el modelo. Si se supone que los datos pasan por el origen se puede excluir ésta.

b) CONTRASTES. Este botón se usa para contrastar las diferencias entre los niveles de un factor. A los contrastes de este tipo se les denomina Contrastes Planificados o a Priori. Se puede especificar un contraste para cada factor en el modelo. Los contrastes representan las combinaciones lineales de los parámetros.

El contraste de hipótesis se basa en la hipótesis nula , donde es la matriz de coeficientes del contraste y es el vector de parámetros. Cuando se especifica un contraste, el SPSS crea una matriz en la que las columnas correspondientes al factor coinciden con el contraste. El resto de las columnas se corrigen para que la matriz sea estimable.

Los contrastes disponibles son:

Desviación. Compara las medias de los distintos niveles del factor, excepto la media de la categoría de referencia, con la media global de la variable dependiente de todos los niveles. Simples. Compara la media de cada nivel, excepto la del nivel de referencia con la media del nivel de referencia. Diferencia. Compara la media de cada nivel (excepto la del primero) con la media de todos los niveles que le preceden. Helmet. Compara la media de cada nivel (excepto la del último) con la media del resto de los niveles que le siguen. Repetida. Se compara la media de cada nivel del factor con la media del nivel que le precede. Polinomial. Cada fator es contrastado a través de un polinomio lineal, cuadrático, cúbico, etc.

En los contrastes de desviación y contrastes simples, se puede determinar la categoría de referencia pudiendo ser la primera o la última.

c) GRÁFICOS DE PERFIL. Son gráficos de líneas en el que cada punto indica la media marginal estimada de una variable dependiente (corregida respecto a las covariables) en un nivel de un factor. Los niveles de un segundo factor se pueden utilizar para generar líneas diferentes, mientras que cada nivel de un tercer factor se utilizaría para crear gráficos distintos. Permiten visualizar la posible interacción entre factores. Si las líneas en el gráfico se cruzan existe interacción, si por el contrario, las líneas son paralelas no la hay. También con ellos, se puede observar la tendencia de los valores promedios de la variable dependiente para los distintos niveles de cada factor.

Una vez se ha elegido los factores a representar, se debe pulsar el botón AÑADIR para incluirlos en la lista de gráficos. En caso contrario, el sistema muestra un aviso.

d) POST HOC. Tras saber que existen diferencias entre las medias, las pruebas de rango Post Hoc y las comparaciones múltiples por parejas permiten determinar las medias que difieren. Las comparaciones se realizan sobre valores sin corregir, y sólo se utilizan tales pruebas para factores de efectos fijos.

e) GUARDAR. Este botón nos abre un cuadro que nos permite guardar los valores pronosticados por el modelo, los residuos y las medidas relacionadas como variables nuevas en el editor de datos. Muchas veces, estas variables se pueden utilizar para examinar supuestos sobre los datos. Dentro de este cuadro se tiene:

Valores pronosticados: nos referimos a los pronosticados no tipificados y los errores tipificados de los valores pronosticados. Si ha seleccionado una variable de ponderación MCP, dispondrá así mismo de los valores pronosticados no tipificados ponderados.

Diagnósticos: son medidas para identificar casos con combinaciones pocos usuales de valores para las variables independientes, y casos que puedan tener un gran impacto en el modelo. Las opciones disponibles incluyen la distancia de Cook y los valores de influencia no centrados.

Residuos: un residuo no tipificado es el valor real de la variable dependiente menos el valor pronosticado por el modelo. También se encuentran disponibles residuos eliminados, estudentizados y tipificados. Si ha seleccionado una variable de ponderación MCP, contará además con residuos no tipificados ponderados.

Guardar en archivo nuevo: las estimaciones del modelo. Para cada variable dependiente habrá una fila de las estimaciones de los parámetros, una fila de valores de significación para los estadísticos t de Student correspondientes a las estimaciones de los parámetros, y una fila de grados de libertad.

f) OPCIONES. El cuadro de diálogo que se abre al pulsar este botón contiene estadísticos opcionales. Tales estadísticos se calculan utilizando un modelo de efectos fijos.

- Medias marginales estimadas. Se trata de las medias marginales para cada grupo. Estas medias se corrigen respecto a las covariables, si las hay.

Comparar los efectos principales: lleva a cabo comparaciones por parejas no corregidas, entre las medias marginales estimadas para cualquier efecto principal del modelo, tanto para los factores entre sujetos como para los de dentro de los sujetos. Este elemento sólo se encuentra disponible si los efectos principales están seleccionados en la lista de Mostrar las medias para.

Ajuste del Intervalo de Confianza: nos permite seleccionar un ajuste de menor diferencia significativa (DMS), Bonferroni o Sidak para los intervalos de confianza y la significación. Este elemento sólo estará disponible si se selecciona Comparar los efectos principales.

- Mostrar. Dentro de este cuadro se recogen las siguientes opciones:

Estadísticos Descriptivos: entre los que se encuentran medias muestrales, desviaciones típicas y frecuencias para cada variable dependiente en todos los grupos.

Estimaciones del tamaño del efecto: ofrece un valor parcial de eta-cuadrado para cada efecto y cada estimación de los parámetros. El estadístico eta-cuadrado describe la proporción de variabilidad total atribuible a un factor.

Potencia observada: produce la potencia de la prueba cuando la hipótesis alternativa se ha establecido basándose en el valor observado.

Estimaciones de los parámetros: genera las estimaciones de los parámetros, los errores típicos, las pruebas t de Student donde se contrastan los parámetros con el valor 0, los intervalos de confianza y la potencia observada de la prueba.

Matriz de coeficientes de contraste: con ella se obtiene la matriz .

Las pruebas de homogeneidad: realiza el test de Levene para contrastar la igualdad de varianzas para cada variable dependiente en todas las combinaciones de niveles de los factores entre sujetos.

Diagramas de dispersión por nivel y Gráfico de los residuos: son útiles para comprobar los supuestos sobre los datos. Estos elementos no están activos si no hay factores.

Gráficos de los residuos: produce un gráfico de los residuos observados respecto a los pronosticados, y respecto a los tipificados para cada variable dependiente. Estos gráficos son útiles para investigar el supuesto de varianzas iguales.

Falta de ajuste: para comprobar si el modelo puede describir de forma adecuada la relación entre la variable dependiente y las variables independientes.

Función estimable general: permite construir pruebas de hipótesis personales basadas en la función estimable general. Las filas en las matrices de coeficientes de contraste son combinaciones lineales de la función estimable general.

- Nivel de significación. Para indicar el nivel de significación usado en las pruebas Post Hoc y el nivel de confianza empleado para construir intervalos de confianza. El valor especificado también se utiliza para calcular la potencia observada para la prueba. Si especifica un nivel de significación, el cuadro de diálogo mostrará el nivel asociado de los intervalos de confianza.

Ejemplo 5.3. Veamos la influencia sobre el tiempo dedicado a la docencia (variable respuesta) de los factores Categoría y Número de Asignaturas que imparte el profesor. Para ello seleccionamos:

Entonces se abre el cuadro de diálogo en el que se introduce la variable Tiemdoc como Variable Dependiente, y las variables Categoría y Numasig como Factores de Efectos Fijos.

A continuación seleccionamos el botón GRÁFICOS y elegimos las variables Categoría para el Eje horizontal y Numasig para Líneas distintas. Presionamos AÑADIR y CONTINUAR para volver al cuadro principal. Con esto podemos ver si existe o no interacción.

Pulsamos también el botón OPCIONES y elegimos la Prueba de Homogeneidad y el Gráfico de los Residuos.

Volviendo al cuadro principal, pulsamos el botón de ACEPTAR para ejecutar el procedimiento. Con ello se obtienen tres tablas:

- En la primera se muestra un simple resumen del número de profesores de cada categoría y del número de profesores según el número de asignaturas que imparte.

- La segunda tabla se refiere al constraste de Levene sobre la igualdad de varianzas, cuyo resultado aparece en la Tabla 6. Como se puede ver, el p-valor 0.003 es menor que 0.05, luego se rechaza que las varianzas sean iguales.

Tabla 6: Contraste de Homogeneidad de VarianzasContraste de Levene sobre la igualdad de las varianzas error

Variable dependiente: Tiempo diario para la docencia

F gl1 gl2 Significación.


2,737 15 64 0,003

Contrasta la hipótesis nula de que la varianza error de la variable dependiente es igual a lo largo de todos los grupos.

a.Diseño: Intercept + Categoría + Numasig + Categoría*Numasig

- La última tabla que muestra 7 recoge el Anova. En ella, los p-valores son todos menores que 0.05, salvo el de la interacción que es de 0.685. Esto quiere decir, que tanto la categoría del profesor como el número de asignaturas que imparte influyen en el tiempo que dedica a la docencia, pero la interacción no. El sistema también muestra el R cuadrado que vale en este caso, 0.789, lo que indica que el 78.9% del tiempo dedicado a la docencia por los profesores es explicado por el modelo.

Tabla 7: Análisis de la Varianza con Dos FactoresPruebas de los efectos inter-sujetos

Variable dependiente: Tiempo diario para la docencia

Suma de

cuadrados Media

Fuente tipo III gl cuadrática F Significación

Modelo corregido 15 8670,273 16,890 ,000

Intercept 1305242,259 1 1305242,26 2542,707 ,000

Categoría 21788,020 5 4357,604 8,489 ,000

Numasig 8343,455 4 2085,864 4,063 ,005

Categoría * 2022,901 6 337,150 ,657 ,685

Numasig

Error 32852,977 64 513,328

Total 3785312,102 80

Total Corregida 162907,072 79

. R cuadrado =,789 (R cuadrado corregida = ,751)


Dentro de los resultados también se encuentran los siguientes gráficos. El Gráfico de los Residuos que muestra la Figura 7 y el Gráfico de Perfil que recoge la Figura 8. A partir del Gráfico de los Residuos se puede concluir que el modelo es relativamente bueno, ya que el gráfico de observados frente a pronosticados tiene una tendencia a estar sobre una recta creciente. Mientras que en los gráficos de los residuos frente a observados, y residuos frente a pronosticados, los puntos están al azar sin haber un patrón definido. Tal vez un poco menos en el gráfico de residuos frente a observados.

En el Gráfico de Perfil, se puede apreciar que existe cierta interacción entre los factores, ya que las rectas no son paralelas, y algunas se intersectan.

Ya que el Anova nos da que los tiempos medios difieren, podemos saber que grupos tienen medias iguales o distintas. Para ello, entramos de nuevo en el procedimiento MLGU y con las mismas variables seleccionadas, pulsamos el botón POST HOC. Entonces elegimos la variable Categoría y el Test de Duncan. Tras esto, el sistema mostrará dos tablas: en la primera de ellas se muestra las diferencias de medias, el error típico de tal diferencia, el p-valor para el contraste de cada par de medias y el intervalo de confianza. Mientras que en la segunda se recogen los subconjuntos homogéneos.

Las conclusiones que se obtienen es que hay dos grupos homogéneos, en cuanto al tiempo medio dedicado a la docencia, el de profesores ayudante y asociados; y el de titulares de universidad, de escuela y catedráticos de escuela

http://nereida.deioc.ull.es/~pcgull/ihiu01/cdrom/spss/contenido/node40.html#Perfil

http://nereida.deioc.ull.es/~pcgull/ihiu01/cdrom/spss/contenido/node40.html#Residuos

Figura 5: Histograma con Curva de Normal

1 introducción al spss

Documents