spss básico

57
1 Falcón Ramos, José Antonio Apuntes para Metodología, Bioestadística. SPSS Básico El Programa SPSS es un paquete estadístico complejo y de amplia extensión en el mundo de las ciencias de la salud. Con este manual se puede trabajar a partir de una base de datos “virtual” que se irá describiendo y servirá para ejemplificar el manejo del programa. Antes de entrar en la descripción y análisis de datos usando el paquete estadístico SPSS, es necesario dar un repaso inicial al programa que permita familiarizarnos con sus ventanas, menús, opciones y elementos más generales. Para entrar en el programa, lo primero es... abrirlo, y hasta ésto puede realizarse de dos formas distintas; a partir de un archivo o fichero de SPSS (con la extensión .sav que es la que atribuye el programa al fichero que contiene los datos) y picando dos veces sobre él con el botón izquierdo del ratón abrirá el programa estadístico, o bien desde el editor de datos (fig. 1.1) abriendo archivoà abrirà datos y seleccionamos la ubicación del fichero que queramos abrir. Fig. 1.1 Más sencillo aún si picamos en el icono "abrir" del menú superior (Fig. 1). 2) que viene representada con el dibujo de una carpeta abierta con una flecha. Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Upload: rickyramirezmx3514

Post on 23-Jun-2015

4.620 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: SPSS Básico

1Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

SPSS Básico

El Programa SPSS es un paquete estadístico complejo y de amplia extensión en el mundo de las ciencias de la salud. Con este manual se puede trabajar a partir de una base de datos “virtual” que se irá describiendo y servirá para ejemplificar el manejo del programa. Antes de entrar en la descripción y análisis de datos usando el paquete estadístico SPSS, es necesario dar un repaso inicial al programa que permita familiarizarnos con sus ventanas, menús, opciones y elementos más generales.

Para entrar en el programa, lo primero es... abrirlo, y hasta ésto puede realizarse de dos formas distintas; a partir de un archivo o fichero de SPSS (con la extensión .sav que es la que atribuye el programa al fichero que contiene los datos) y picando dos veces sobre él con el botón izquierdo del ratón abrirá el programa estadístico, o bien desde el editor de datos (fig. 1.1) abriendo archivoà abrirà datos y seleccionamos la ubicación del fichero que queramos abrir.

Fig. 1.1

Más sencillo aún si picamos en el icono "abrir" del menú superior (Fig. 1). 2) que viene representada con el dibujo de una carpeta abierta con una flecha.

Fig. 1.2

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 2: SPSS Básico

2Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Una vez abierto el editor de datos (fig. 1.1) pasemos a describir e identificar las opciones que tenemos en la barra de herramientas de SPSS (fig1.3)

Fig. 1.3

De izquierda a derecha encontramos los iconos "abrir archivo", "guardar", "imprimir", "recuperar cuadros de diálogo", "deshacer", "rehacer", "ir a gráfico", "ir a caso", "variables", "buscar", "insertar caso", "insertar variable", segmentar archivo", etc. ... y muchas otras más como las que aparecen en la figura que son el resultado de personalizar la barra de herramientas para poder acceder a las funciones más útiles de un modo más rápido.

Si vemos de nuevo la figura 1.1 y observamos el editor de datos, en la parte inferior izquierda existe una doble pestaña que nos permite seleccionar si lo que queremos ver es el propio editor de datos o bien la "vista de variables". Picando en esta pestaña de vista de variables aparece una segunda pantalla, la siguiente (fig. 1.4)

Fig.1.4

La barra de herramientas de esta pantalla de "vista de variables" es común a la ventana anterior, esto permite operar como si estuviéramos en el propio editor de datos y de un modo ágil poder intercambiar las vistas entre editor de datos y vista de variables. En esta posición vemos una fila de descriptores que vamos a explicar (fig. 1.5)

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 3: SPSS Básico

3Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Fig. 1.5

Nombre: nombre de la variable

Tipo: Tipo de variable, se puede elegir entre 8 tipos diferentes (numérico, coma, punto, notación científica, fecha, moneda personalizada y cadena). En SPSS es altamente recomendable que trabajéis siempre que sea posible con variables numéricas, convirtiendo incluso a numéricas cualquier variable susceptible de hacerlo.

Anchura y Decimales: Para especificar la anchura y el número de decimales que contiene en las variables de tipo numérico, coma, punto, notación científica, dólar y moneda personalizada. Para las variables tipo fecha se puede elegir entre otras muchas opciones.

Fig. 1.6

Etiqueta: aquí especificamos de un modo más claro que significa el nombre atribuido a la variable, máximo 8 caracteres. Cuando la variable es de tipo numérico podemos asignar las llamadas etiquetas de valor, ésto es, dar un valor numérico a cada uno de los valores que puede adoptar la variable en cuestión.

Fig. 1.7

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 4: SPSS Básico

4Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Columna valores: se pueden dar nombres a los valores numéricos de las variables nominales u ordinales. En el archivo de ejemplo se puede dar valores a la variable categórica sexo (por ejemplo 0 para varones y 1 para mujeres)

Fig. 1.8

Perdidos: A veces no es posible registrar para cada variable todas las respuestas posibles o simplemente dicha respuesta no existe (ej.: no respuesta), se trataría de un dato que no tendría utilidad a efectos del análisis estadístico. Bien por defecto, ésto es, dejando el dato en blanco, o bien asignándole un valor numérico al dato que nos indique que se trata de un valor perdido, se consigue identificar esta característica de la variable. Veamos el cuadro que nos da SPSS para identificar los valores perdidos (la otra opción, es dejar vacía la casilla):

Fig. 1.9

Columnas: Para definir el ancho de cada columna, bien mediante la introducción de un valor numérico o, casi más sencillo, arrastrando con el ratón en el editor de datos los márgenes de la columna para hacer ésta más grande.

Alineación: Hace referencia al contenido de la columna, que puede ser centrada, alienada a derecha o izquierda.

Medida: Hace referencia a sí se trata de una medida tipo escala (intervalo o razón), nominal u ordinal.

Definición y ejecución de un procedimientoPara poder definir cualquier procedimiento de análisis estadístico lo primero es que tengamos los datos en el editor estadístico, a continuación selecciono el procedimiento estadístico que se quiera emplear (para ello, se busca la opción elegida en el menú principal).

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 5: SPSS Básico

5Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Utilizando nuestra base de datos "hipertensión.sav" empezaremos por ver la distribución de frecuencias de la variable sexo:

Analizarà Estadísticos descriptivosà Frecuencias

Lo primero que obtenemos es la caja de diálogo para frecuencias tras picar en analizaràestadísticos descriptivosàfrecuencias. En la caja de la izquierda se encuentran las variables insertas de nuestro fichero. Ahora hemos de seleccionar aquella variable que queremos analizar, en este caso la variable sexo, e introducirla en la caja de

la derecha usando el botón  y posteriormente seleccionar las opciones que deseemos referentes a estadísticos, gráficos y formato, que se señalan en la parte inferior, picando si lo deseamos en la opción "mostrar tabla de frecuencias".

 Picando en la opción "estadísticos" aparecen cualquiera de los que cuantifican los cuatro aspectos básicos de una distribución (posición, tendencia central, variabilidad o dispersión, forma de la distribución):

Picando en gráficos nos aparecen los tres tipos posibles, de entrada mejor no seleccionar esta opción hasta que desarrollemos el análisis global detallado:

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 6: SPSS Básico

6Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

La última de las opciones el botón "formato" que proporciona todas las posibilidades que podéis observar en el gráfico:

Bien, pues seleccionemos la variable sexo y veamos que ocurre:

Como vemos hemos obtenido un resultado en una nueva ventana, la ventana o editor de resultados. Nos detalla en una primera tabla cuantos de los datos son válidos y si existen valores perdidos. A continuación en una segunda tabla obtenemos la frecuencia y

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 7: SPSS Básico

7Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

porcentaje de cada sexo (porcentaje y valido son los mismos porque no existen valores perdidos, de haberlos, hay que fijarse en la columna de porcentajes válidos). Finalmente colocamos un gráfico de distribución de sexos.

Observemos que en la parte izquierda de la ventana que hemos obtenido aparece un menú que permite navegar de forma ágil por los resultados y operaciones que vayamos realizando, siendo muy útil a medida que la información de resultados obtenida es cada vez, más voluminosa.

Editar y otros procesos usuales con datos en SPSS

Usando un fichero de ejemplo.

El presente apartado lo desarrollaremos utilizando como soporte un fichero imaginario creado en SPSS y que a través de las diferentes pantallas iremos conociendo; le llamaremos hipertension.sav. Dicho fichero va a ser la plantilla de trabajo para que podamos explicar los procedimientos estadísticos de un modo homogéneo.

Si vemos la ventana del editor de datos de dicho fichero, obtenemos algo así:

Fig. 2.1

 

Observamos la típica rejilla, análoga a la de cualquier hoja de cálculo, donde cada columna corresponde a una variable y cada fila corresponde a un caso. Las variables que se analizan pueden verse de múltiples maneras. Desde el propio editor vemos ya las variables clave, nombre, fecha, sexo, etc.... y picando en la ventana de variables vemos claramente cuáles son las que inicialmente están incluidas en el fichero (fig. 2.2).

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 8: SPSS Básico

8Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Fig. 2.2

Según la vista de variables ya podemos empezar a ver en la primera columna el nombre de cada variable, seguido en cada columna de cada uno de los atributos de ellas. Detallemos cada variable para seguir con nuestro fichero de ejemplo.

Clave: suele introducirse porque nos permite hacer intercambios entre diferentes bases de datos, y habitualmente se trata de un dato numérico.

Nombre: hace referencia al nombre de los pacientes del fichero, en este caso, ya que están codificados mediante un número de caso y un identificador es una variable de la que podríamos prescindir. Dado que está escrito con texto sería una variable tipo "cadena".f_nacim: Variable que se refiere a la fecha de nacimiento de los individuos incluidos. Se expresa en formato "fecha" y, como dijimos, existen muchas notaciones distintas para el formato fecha, habiendo utilizado aquí el más usual que es día-mes-año.f_inclus: hace referencia a la fecha de inclusión en el estudio. También es una variable tipo fecha con el mismo sistema de notación.Sexo: es una variable categórica a la que se han dado valores numéricos para que el análisis sea adecuado. Se asignó el valor 0 a los varones y 1 a las mujeres. Si picamos en la casilla resultante de la intersección entre la variable sexo y los valores se despliega la siguiente caja que aclara y permite modificar las asignaciones:

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 9: SPSS Básico

9Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Fig. 2.3

Altura: es la altura de los individuos, variable numérica expresada en este caso en centímetros. Vemos cómo está acotada para el número de decimales; ésto es, sin decimales. Lo mismo ocurre con la variable peso. Notemos que para que exista claridad a la hora de conocer de que variables estamos hablando hay una casilla "etiquetas" donde podemos escribir lo significa realmente el nombre de la variable.pad_ini: hace referencia a la presión diastólica inicial, al comienzo del estudio. Numérica. pad_fin: es la presión diastólica final, tras tomar el fármaco. Numérica.pas_ini: presión sistólica inicial. Numéricapas_fin: presión sistólica final, tras tomar el fármaco. NuméricaFármaco: recoge el tipo de fármaco tomado. Se codificaron mediante números los tres tipos de fármacos del estudio del siguiente modo (fig. 2.4)

Fig. 2.4

Como vemos, se asignó el valor 0 a aquellos pacientes a los que se administró placebo, 1 a aquellos que tomaron IECAs y 2 a los que tomaron una asociación de calcioantagonistas y diuréticos.

Transformación de Datos (CALCULAR (COMPUTE)Con bastante frecuencia a partir de las variables suministradas por el fichero inicial es necesario crear variables nuevas o recodificar las previas en otras distintas para permitir un adecuado análisis de las mismas. Con SPSS podremos hacer varias cosas distintas.

Puedo crear una variable nueva que sea el resultado de un cálculo matemático utilizando las variables insertas en el fichero. Por ejemplo, a partir de los datos de peso y talla que tenemos en nuestra base podemos calcular una nueva variable como es el índice de masa corporal (IMC); para ello nos vamos a TransformaràCalculary nos aparece la siguiente caja:

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 10: SPSS Básico

10Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Fig. 2.5

Si queremos calcular el IMC debemos saber que éste es el resultado de aplicar la fórmula IMC = peso (Kg)/talla (m)2; usando la ventana anterior indicamos en la opción "variable de destino" el nombre de la nueva variable, en nuestro caso "imc" y en la caja de expresión numérica expresamos la fórmula que el programa debe calcular (fig. 2.6)

Fig. 2.6

Finalmente damos a "aceptar" y obtendremos una nueva columna en el editor de datos con el nombre de variable "imc" y los datos calculados para cada caso (fig. 2.7).

Fig. 2.7

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 11: SPSS Básico

11Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

En resumen, las variables hay que elegirlas en la columna de la ventana variables de la caja (fig. 2.6) y se introducen con el ratón en la caja de la derecha siguiendo la expresión numérica/matemática adecuada haciendo uso de los operadores que tenemos debajo.

Es importante notar que cualquier operación puede ser restringida a casos concretos si indicamos al programa que utilice para calcular sólo los casos que cumplan una

determinada condición. Para ello, tenemos que picar en la ventana   dentro de la fig. 2.6 lo cual nos da acceso a la posibilidad de restringir los casos a los deseados. Si no queremos restringir los casos, dejamos marcada la opción por defecto (incluir todos los casos).

Repitamos el procedimiento de cálculo del IMC deteniéndonos en la sintaxis; realizamos el procedimiento Transformarà Calcular y obtenemos el cuadro de la fig. 2.6, ahora en lugar de aceptar directamente seleccionamos "pegar" y nos aparece la siguiente expresión en el editor de sintaxis:

COMPUTE imc = peso / (altura / 100) ** 2EXECUTE

Seleccionando ambas líneas y pulsando el botón  aparecerá la variable IMC en el editor de datos al igual que en el procedimiento anterior, pero con la ventaja de disponer de la sintaxis para futuras operaciones.

Þ Calculemos ahora la edad que tienen los pacientes cuando fueron incluidos en el estudio. Disponemos de dos variables con formato fecha, a saber, f_nacim (fecha de nacimiento) y f_inclus (fecha de inclusión); parece lógico pensar que la resta de ambas nos proporcionará la edad de los pacientes. TransformaràCalcular y la siguiente expresión numérica:

calcular_variables_destino_SPSS.jpg

Señalando "pegar" veremos la sintaxis de este procedimiento:

COMPUTE edad = CTIME.DAYS(f_inclus - f_nacim) / 365.25 EXECUTE

Picamos en  y aparece la nueva variable edad, pero lo que nosotros necesitamos es verla de modo que la información que nos proporcione sean los años cumplidos, para ello utilizamos el operador TRUNC antecediendo a la expresión numérica anterior, esto es:

COMPUTE edad = TRUNC (CTIME.DAYS(f_inclus - f_nacim) / 365.25) EXECUTE

Y obtengo la variable años cumplidos, de que he de definir sus propiedades, etiqueta, etc.

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 12: SPSS Básico

12Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Veamos otro ejemplo de la utilidad de la opción "CALCULAR". Creemos la variable hipertensíón partiendo del concepto de que serán tipificados como hipertensos aquellos pacientes con una tensión sistólica mayor de 140 y/o una diastólica mayor de 90. De nuevo TransformaràCalcularà ...à expresión numérica que permita excluir a aquellos pacientes que no cumplen la condición de hipertensos, esto es:NOT (pad_ini < 90 AND pas_ini < 140).

Si pico en "aceptar" ya dispongo de una nueva variable con resultados 0 (no hta) y 1(hta), pero hagámoslo usando sintaxis y marquemos "pegar" primero, obtengo el siguiente comando:

COMPUTE hta = NOT (pad_ini < 90 AND pas_ini < 140) VARIABLE LABELS hta 'hipertension' EXECUTE

Usaré LIST pad_ini pas_ini hta para conseguir un listado donde verificar que la recodificación está correcta.

Pico en  y me aparece ya la variable hta con estos valores, 0 y 1, no hta y hta respectivamente. Iré, como siempre, a la vista de variables para colocar la etiqueta y dar valores a la variable.

RECODIFICAR (RECODE)

A veces es necesario cambiar los valores que hemos asignado a cada una de las posibilidades que toma una variable, por meras necesidades para el cálculo; otras es necesario por ejemplo obtener estratos o categorías dentro de una variable que es de tipo cuantitativo continuo, y se consigue mediante el procedimiento de recodificación de las variables. Los valores de la nueva variable (la recodificada) han de tener el mismo formato que los de la variable de la que proceden.

Þ Existen varias formas de recodificar, a saber:1. En la misma variable2. En distinta variable3. Recodificación automática

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 13: SPSS Básico

13Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

En la recodificación en la misma variable, se sustituye la antigua por la nueva obtenida; sí recodificó en distinta variable, conservó la antigua y añadó la nueva (ésto es lo más aconsejable porque de haber algún error, no se pierden los datos iniciales). En la Recodificación automática el programa asigna, él solo, un valor a cada uno de las posibilidades que puede adoptar cada variable.Para acceder al menú de recodificación:

Transformarà Recodificarà En distintas variables

Recodificación de una variable continua:Supongamos que partiendo de nuestra base de ejemplo, queremos recodificar la variable pas_ini (presión arterial sistólica inicial), que viene expresada de modo continuo, en cinco categorías, las siguientes:

pas < 100 pas entre 100 y 110 pas entre 110 y 120 pas entre 120 y 130 pas > 130

El procedimiento sería el que sigue: primero TransformaràRecodificaràEn distintas variables, e incluyo en la caja de la izquierda la variable a recodificar (pas_ini). A la derecha la "variable de resultado" que es la nueva que voy a obtener por categorías y que llamare pasini_r y debajo escribo la etiqueta, por si se me olvida que he querido hace "presión sistólica inicial por categorías".

Una vez que la variable está renombrada, pasamos a picar en "valores antiguos y nuevos" apareciendo entonces una nueva ventana que nos permite seleccionar las características de cada categoría a la izquierda (valores antiguos) y le asignamos a cada categoría un valor numérico (apúntelo en hoja aparte, luego hará falta) que introducimos en la casilla "valor". Tras introducir cada valor picamos en "añadir" y se van incorporando las nuevas categorías a la caja que existe abajo en la columna de la derecha.

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 14: SPSS Básico

14Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Notemos que los intervalos que hemos creado comparten los valores extremos, por ejemplo el valor 110 aparentemente pudiera estar comprendido entre 100-110 o bien entre 110-120; cuando estamos recodificando una variable continua el programa asigna por defecto este valor extremo al primer intervalo que la contiene, por tanto el valor 110 pertenece y es analizado realmente en el estrato 100-110.

Vemos como ahora a cada "estrato" o categoría de la variable le corresponde un valor (en este caso de 0 a 4) y hemos de anotarlos porque luego, en la vista de variables de SPSS podemos decirle con texto, para mayor claridad a que rango de valores de tensión arterial corresponde cada uno de estos valores.Recodificada la variable obtendríamos algo así en el editor de datos:

Nos vamos a la vista de variables y buscamos con la variable pasini_r y en concreto picamos en la celda correspondiente a "valores" de modo que aparece esta venta:

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 15: SPSS Básico

15Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Introducimos los valores (de 0 a 4) en la casilla "valor" y su significado en la zona de "etiqueta de valor", así:

Tras haber hecho ésto, vemos como se transforma la columna de la variable pasini_r del siguiente modo:

Recurriendo de nuevo a la sintaxis, además del modo "menús" que es el que hemos usado antes, podríamos haber hecho lo siguiente:

1. Partimos de la ventana de recodificación:

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 16: SPSS Básico

16Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

2. Pico en "pegar" y obtengo el editor de sintaxis con los comandos:

RECODE pas_ini (Lowest thru 100=0) (100 thru 110=1) (110 thru 120=2) (120 thru 130=3) (130 thru Highest=4) INTO pasini_r .EXECUTE

Y ahora, picando en  obtengo la nueva variable, pasini_r, al igual que si lo hubiera hecho desde los menus, pero con las ventajas de conservar la sintaxis.Para comprobar que se ha codificado bien la variable listamos (desde la ventana de

sintaxis) usando el comando LIST pas_fin pasfin_r. 

Recodificación de una variable cuantitativa discreta

Disponemos de la variable ncigarr que hace referencia al número de cigarrillos/día que consume cada paciente de la base de datos y, se trata, obviamente, de una variable discreta que no toma valores entre números enteros.Queremos recodificar la variable cigarrillos (ncigarr) en la variable nivel de tabaquismo (nueva variable, "nivtab") de modo que se establezcan los intervalos siguientes: 0=0; 1-5= 1; 6-10=2; 10-15=3; 16-20=4 ; >21=5.

TransformaràRecodificarà En distintas variablesà

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 17: SPSS Básico

17Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Nos vamos a valores antiguos y nuevos y especificamos...

Como vemos, al tratarse de una variable discreta, los intervalos no tienen solapamiento en los extremos, y los valores de dichos extremos quedan contenidos sólo en uno de dichos estratos.Picamos en "continuar"à "pegar" y obtenemos la sintaxis:

RECODE ncigarr (0=0) (1 thru 5=1) (6 thru 10=2) (11 thru 15=3) (16 thru 20=4) (21 thru Highest=5) INTO nivtab .VARIABLE LABELS nivtab 'tabaquismo'.EXECUTE

Ejecutamos  y obtendremos la nueva variable nivtab que toma valores entre 0 y 5. Nos vamos a la vista de variables y asignamos valores, por ejemplo:

0à No fumador. 1à Fumador leve. 2à Fumador moderado. 3à Fumador severo. 4à Fumador muy severo, quedando así caracterizada la variable.

Como siempre, puedo usar el comando LIST para verificar que la recodificación ha sido correcta.

Si quiero tener una variable que me indique simplemente si son o no fumadores, puedo recodificar la variable nivtab de modo que aquellos que tomaban el valor 0 sean tipificados como no fumadores y los que tomen el valor >0 como fumadores...

C. Recodificación automática:

El procedimiento de recodificación automática también puede ser bastante útil. Supongamos una variable que puede adoptar 12 valores distintos, entonces en lugar de, manualmente, asignar un valor a cada unos de ellos, el programa puede hacer este trabajo por nosotros. Si tenemos una variable como puede ser "provincia de nacimiento" no he de asignar un valor numérico a cada provincia, sino que mediante el procedimiento Transformarà Recodificación automática entro en la ventana

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 18: SPSS Básico

18Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

y no tengo más que introducir la variable que quiero recodificar en el cajón de la derecha y posteriormente pulsar aceptar. El programa asignará un valor numérico a cada provincia y nos dará una salida de resultados informándonos de cual ha asignado a cada una de ellas. Este procedimiento es útil con las variables de tipo cadena (texto libre) como vemos.

ORDENAR CASOSPara ordenar los casos basándonos en el contenido de alguna variable elegimos la opción DatosàOrdenar casos, apareciendo el cuadro de diálogo siguiente:

A continuación pulsamos sobre aceptar y los casos quedarán ordenados siguiendo el criterio que hayamos indicado, en nuestro caso, la clave asignada a cada uno de los casos, concretamente en orden ascendente.

SELECCIONAR CASOSCuando iniciamos el análisis, éste puede realizarse sobre el total de datos de la base o bien sobre un subgrupo de la misma mediante el proceso de "seleccionar casos" que indicará al programa realizar los cálculos sólo sobre los datos seleccionados, siendo el resto, eliminados, o filtrados según le indiquemos.

Por tanto, el procedimiento permite "seleccionar" los casos según una determinada condición lógica según su orden en el archivo o de forma aleatoria.

Volviendo al fichero de ejemplo, supongamos que queremos realizar el análisis estadístico exclusivamente sobre las mujeres de la base de datos. En este caso iríamos a "DatosàSeleccionar casosà si se satisface la condiciónà... y nos aparece la siguiente pantalla:

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 19: SPSS Básico

19Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

En la caja de la izquierda vuelven a encontrarse las variables de que consta nuestra base y el criterio de selección para el filtraje de datos, lo introducimos de acuerdo a nuestra necesidad mediante las opciones que se despliegan en la porción derecha de la caja. En nuestro caso la variable sexo la habíamos codificado de tal modo que asignamos el valor 0 a los varones y 1 a las mujeres. Picamos en "si se satisface la condición" y explicitamos que se seleccionen aquellos casos en los que la variable sexo toma el valor 1 (seleccionamos pues, solo mujeres).

Picamos en "continuar" y observamos que en el editor de datos aparecen "tachados" con una línea oblicua los datos que corresponden a varones, esto es, aquellos que no serán analizados. Por defecto no se eliminan los datos no seleccionados sino que son filtrados, salvo indicación expresa de eliminarlos; ahora, cualquier cálculo que realicemos se hará sobre los datos seleccionados, esto es, sólo mujeres. Este es el modo de hacerlo a través de los menús del programa.

Cada vez que realicemos una selección de datos, SPSS crea una variable nueva (filter_$) que toma dos únicos valores (0 y 1) que corresponden a no seleccionados y

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 20: SPSS Básico

20Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

seleccionados respectivamente. Podemos cambiar el nombre a esta variable y más tarde utilizarla incorporándola al campo "usar variable de filtro".Hagámoslo usando la sintaxis: Continuarà Pegarà

USE ALL.COMPUTE filter_$=(sexo = 1).VARIABLE LABEL filter_$ 'sexo = 1 (FILTER)'.VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.FORMAT filter_$ (f1.0).FILTER BY filter_$.EXECUTE

 y observo el mismo resultado, los hombres filtrados (líneas oblicuas sobre los casos) y el análisis ulterior se restringirá a las mujeres.En la ventana de sintaxis podemos quitar directamente el Filtro, con la expresión:

FILTER OFF.     o bien usamos el menú del editor de datos:

Datosà Seleccionar casosàtodos los casosàaceptar.

Análisis Descriptivo de Datos

El análisis de cualquier fichero suele iniciarse por un estudio descriptivo de las variables contenidas en el mismo. Recordemos que dichas variables pueden ser cuantitativas ó cualitativas o categóricas (los valores que toman están restringidos a ciertas opciones) y, dentro de estas últimas dicotómicas si sólo es posible que tomen dos valores (ej. si/no, varón/mujer, etc.). Si pueden tomar más de dos opciones se habla de variables policotómicas y si además es posible ordenarlas según algún criterio se las denominará ordinales. Llamamos variables nominales a aquellas que no tienen ningún orden implícito.

Forma de codificar las variables categóricas con SPSS:

1. Variables tipo cadena: Texto. Nada recomendable.....2. Numéricas: Asigno un valor a cada una de las opciones que toma la v.a.

Ejemplo: Variable "cultura". Etiqueta: grado cultural. Opciones: 1: analfabeto. 2: estudios básicos. 3: estudios medios, etc...

Ejemplo: Variable hipertensión. Opciones: 0: no hipertenso; 1: hipertenso.

1. Medidas de frecuencia.Para estudiar las medidas de frecuencia (variables categóricas) seleccionamos "AnalizaràEstadísticos descriptivosàFrecuencias", apareciendo la ventana:

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 21: SPSS Básico

21Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Tras introducir en el cajón de la derecha las variables que queremos analizar, picamos en aceptar y se obtiene información tabulada consistente en: Nombre de la variable analizada con su etiqueta, Frecuencia absoluta, Porcentaje, Porcentaje válido (teniendo en cuenta los casos perdidos, esto es, eliminando los casos en que se desconoce el valor que toma la variable), y Porcentaje acumulado. Para la variable sexo de nuestro trabajo obtendríamos esta tabla:

A partir de estos datos de frecuencias puedo obtener una representación gráfica, en este caso podría ser un histograma por ejemplo o un gráfico sectorial, seleccionando "Gráficosà Barrasà....à....à"O bien puedo recurrir a picar dos veces en la tabla de SPSS y con el botón derecho del ratón se movilizan recursos gráficos a elegir.

Dentro de la opción de frecuencias vemos que aparecen tres opciones claras para poder picar, a saber: estadísticos, gráficos, formato (ver figura más arriba). Si picamos en estadísticos podemos seleccionar aquellos que queremos que SPSS nos calcule, teniendo en cuenta que son aplicables cuando trabajamos con datos cuantitativos. Deberíamos desactivar la opción "mostrar tablas de frecuencias" en este caso para no obtener una lista interminable sin mucha utilidad.

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 22: SPSS Básico

22Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Estadísticos

1. Percentiles: Podemos elegir entre cuartiles, que dividen a la población en cuatro grupos, cada uno de ellos con un 25% de los casos, de modo que los percentiles 25, 50 y 75 corresponden respectivamente a los cuartiles primero, segundo y tercero.

2. Medidas de tendencia central. Nos permite el cálculo de la media, mediana, moda y suma. Veamos un ejemplo: para nuestra base de datos podemos calcular respecto de la variable altura, las medidas de tendencia central; para ello Analizar à Estadísticos Descriptivos à Frecuencias ó Descriptivos.

Pulsando en aceptar obtendríamos la siguiente salida en el visor de resultados:

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 23: SPSS Básico

23Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Observamos el valor de las cuatro medidas de tendencia central que hemos comentado previamente. Si usamos la opción "descriptivos" en lugar de "frecuencias" podemos obtener también el error estándar para las medidas calculadas, lo cual es de extrema importancia a la hora de presentar los datos, si bien esto ya es una medida de dispersión.

3. Medidas de dispersión. Permite obtener la desviación típica, varianza, mínimo y máximo, amplitud o rango y el error típico o estándar de la media. Seguimos los mismos pasos "picando" las casillas que hacen referencia a estas medidas.

4. Distribucion. Está constituida por dos estadísticos (Asimetría y Curtosis). La asimetría indica el sesgo de la distribución de modo que un valor positivo indica que los valores más extremos están por encima de la media y viceversa. La curtosis es el índice que indica el grado en que una distribución acumula casos en sus colas comparado con los casos que se acumulan en las colas de una distribución normal. Un valor positivo indica que en las colas se acumulan más casos que en la normal luego la curva es de distribución puntiaguda e índice próximos a cero indican una semejanza con la normal.

5. Los valores son puntos medios de grupo. Si la variable está agrupada por intervalos, con esta opción puedo calcular los índices de posición, mediana, percentiles etc. interpolando valores (considerando que los casos se distribuyen de forma homogénea dentro del intervalo).

Gráficos

Cuando estamos calculando frecuencias, podemos obtener algunos gráficos tanto para las cuantitativas como cualitativas, picando en el botón "gráficos" del cuadro de diálogo "frecuencias".

Para la variable sexo podríamos pedir un gráfico de tipo sectorial, quedaría del siguiente modo:

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 24: SPSS Básico

24Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Descriptivos

Vimos que con el procedimiento de "frecuencias" pudimos analizar tanto variables cualitativas como cuantitativas, aunque con ciertas limitaciones para estas últimas. El procedimiento "descriptivos" nos permite múltiples opciones para procesar variables de tipo cuantitativo.

Para llegar: AnalizaràEstadísticos DescriptivosàDescriptivos

Mediante el botón "opciones" llegamos al mismo sitio que antes en frecuencias, ésto es, a las opciones de los estadísticos, sin cambios en este aspecto.

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 25: SPSS Básico

25Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Tablas de contingencia.

Es bastante habitual en ciencias de la salud tener que realizar análisis de variables cualitativas con pocas categorías y dicotómicas. Variables como el sexo, tratamientos, etc. son variables que se comportan de este modo y a las que se recurre con frecuencia.

Para el análisis de dos variables categóricas nos interesa estudiar cómo se distribuyen los casos según las combinaciones de categorías de cada variable. Por ejemplo, si disponemos de la variable angor y la variable tabaquismo, podemos estudiar cual es la distribución del tabaquismo en el grupo que presenta angor y en aquel que no lo presenta; para todo ésto lo ideal es expresarlo mediante una tabla de contingencia donde nos da lo mismo qué variable ocupe las filas y cual las columnas si se trata de variables independientes; para el caso de las variables dependientes una de otra se suele colocar la variable independiente (ejemplo: factor de riesgo) en las filas y la dependiente en columnas.

En SPSS construimos una tabla de contingencia mediante el procedimiento Analizarà Estadísticos descriptivosà Tablas de contingencia, con lo que llegamos a la siguiente ventana:

Vemos que las variables vuelven a quedar a la izquierda de la caja y que disponemos de dos ubicaciones, dos cajas en las que introducir la/s variables por filas o columnas según deseemos. Si queremos cruzar las variables de filas y columnas de acuerdo a alguna variable de agrupamiento introduciríamos esta última en la caja de "capas".

Siguiendo con nuestro fichero de ejemplo, podemos desear ver cuál es la distribución del grado de obesidad según el sexo. Obviamente habremos de transformar un dato cuantitativo continuo como es el índice de masa corporal (IMC) en una variable categórica (obeso/no obeso) para proceder a este análisis.

Actualmente se considera que según el índice de masa corporal (IMC) los pacientes pueden ser clasificados como obesos si tienen un índice de masa corporal (IMC) mayor de 29, por tanto puedo a partir de la variable índice de masa corporal (cuantitativa)

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 26: SPSS Básico

26Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

recodificar a una variable nueva, llamada obesidad, en función de este punto de corte para el índice de masa corporal (IMC). Para ello seguir el procedimiento dictado en el apartado de "recodificación", teniendo en cuenta que índice de masa corporal (IMC) 0-29: no obesoà valor 0 y índice de masa corporal (IMC)>29 = obesoà valor 1.

Ahora quiero saber la distribución de la obesidad por sexos: Analizarà Estadísticos descriptivosà Tablas de contingencia

Tabla de contingencia obesidad – sexo.

Vemos que se obtiene una tabla 2x2 donde queda claro cuántos varones son o no obesos y cuantas mujeres son o no obesas, según un sentido de lectura de la tabla. Disponemos de cifras totales por columnas, por filas y el total global. Además, puedo pedir al programa que muestre el gráfico asociado picando en la casilla "mostrar gráficos de barras agrupadas", con el siguiente resultado:

Las tablas de contingencia nos permiten obtener, aún antes de entrar en los estadísticos específicos, muchos más datos, veamos las opciones que se abren al picar en "casillas":

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 27: SPSS Básico

27Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Podemos obtener las frecuencias de presentación las variables (observadas y esperadas sí se desea); el porcentaje de ocurrencia de los casos mostrado por filas, columnas y el total. Los residuales hacen referencia a la diferencia existente entre los valores observados y los esperados y pueden mostrarse bien de modo estándar (tipificados) o corregidos.

Picando en porcentajes por fila, columna y totales la tabla anterior queda ahora así:

1. ESTADÍSTICOS

Una vez tenemos la tabla construida podemos empezar a entrever información pero no nos permite conocer si existe asociación entre las variables, para ello necesitaremos una prueba de significación, a la que se accede mediante el botón estadísticos, que da paso a esta pantalla:

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 28: SPSS Básico

28Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Debemos hablar de asociación pero no de dependencia tras aplicar los estadísticos que veremos a continuación. Que exista asociación significa que dos hechos suceden juntos pero no necesariamente que un hecho dependa del otro de un modo directo. Generalmente cuando existe asociación, debajo suele existir algún elemento que relaciona ambos fenómenos aunque no puedo hablar de causalidad con este tipo de estudios. Más concretamente diremos que existe dependencia cuando ya somos capaces de decir que las variaciones de una de las variables quedan explicadas o provocadas por un segundo factor.

1.1 CHI CUADRADO DE PEARSON.

Es el estadístico más usual en este tipo de tablas y se utiliza para determinar si hay o no asociación entre dos variables de carácter categórico. El test se basa en la comparación de las frecuencias observadas con las esperadas para un determinado fenómeno; la relación matemática entre los cuadrados de las diferencias de las frecuencias observadas y esperadas proporciona un valor para un determinado nivel de confianza y para los grados de libertad correspondientes. Si el valor calculado supera el que proporciona de modo teórico el Ji cuadrado se rechaza Ho (hipótesis nula) y concluimos que existe una relación o asociación entre las variables. El test no informa de cuan intensa es la fuerza de la asociación y se puede ver afectado por varios factores externos y factores de confusión.

Para aplicar este test es conveniente que:

1. Los datos procedan de muestras aleatorias de una distribución multinomial.2. Los valores esperados no sean muy pequeños. Se recomienda que, como mínimo, existan 5 casos en cada celda (en caso de que haya menos de 5 pero más de 3 habría que aplicar la corrección por continuidad de Yates).

Nota: Algunos autores recomiendan usar la corrección de continuidad de Yates siempre porque parece ser más sensible, de modo que si obtenemos significación tras aplicarla, es porque de no haberla usado también la habríamos obtenido. Cuando se comparan proporciones entre dos grupos independientes no hace falta calcularla, porque de ser el número de casos menor de 5 en una celda, SPSS calcula automáticamente la prueba exacta de Fisher. Tanto la corrección de Yates como la prueba de Fisher nos las da el

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 29: SPSS Básico

29Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

programa de modo automático cuando trabajamos con una tabla de contingencia con dos variables dicotómicas.

Veamos cómo se presenta la tabla de contingencia entre las variables sexo y obesidad, variables ambas dicotómicas:

Obtenemos la tabla y hemos seleccionado las casillas de proporcionar % por filas y por columnas, con lo que aumenta el global de información obtenida. Bajo esta tabla, si hemos seleccionado "Chi cuadrado" aparece ya la siguiente con los resultados del estadístico y Chi y además el test de Fisher y Yates que nos vienen datos por defecto al ser variables dicotómicas como se mencionó antes.

Observando la tabla vemos que el 40.6% de los obesos son varones y el 59.4% de los obesos son mujeres. La cuestión es ¿ambos porcentajes son realmente distintos o la diferencia que observo se debe solo al azar? Para responder a ésto deberíamos aplicar el estadístico Ji cuadrado.

Vemos que el Chi cuadrado proporciona una significación bilateral (dos colas) de 0.459 y como 0.459 > 0.05, entonces concluyo Ho, esto es, no existe asociación entre las variables sexo y obesidad. Además se calculó la corrección por continuidad y el exacto de Fisher, que de modo concordante, tampoco proporcionan significación estadística.

La razón de verosimilitud es un estadístico que también se distribuye según una chi

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 30: SPSS Básico

30Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

cuadrado y que se aplica para el estudio de variables categóricas cuando hay modelos log-lineales.1.2 MEDIDAS DE ASOCIACIÓN

El problema que plantea el test es que la significación puede variar en función del número de grados de libertad y del tamaño de la muestra (a mayor tamaño muestral, más probabilidad de obtener significación). Otros estadísticos, conocidos como Medidas de Asociación, se diseñaron con la idea de obtener índices que fueran de 0 a 1 y que nos permitieran cuantificar la asociación y comparar así muestras diferentes. En resumen, se trata de medidas que pretenden disminuir la influencia que sobre el test de Chi tiene el tamaño de la muestra.

1. MEDIDAS DE ASOCIACIÓN BASADAS EN EL CHI CUADRADO.A. Coeficiente PhiB. Coeficiente de ContingenciaC. V. de Kramer

2. MEDIDAS BASADAS EN LA REDUCCIÓN PROPORCIONAL DEL ERRORA. Lambda de Goodman y KruskalB. Tau de Goodman y KruskalC. Coeficiente de concordancia o Kappa de Cohen.

COEFICIENTE PHI

En las tablas con dos v.a dicotómicas, toma valores entre 0 y 1. Si una variable tiene más de dos categorías puede tomar valores mayores de 1.

COEFICIENTE DE CONTINGENCIA

Toma valores entre 0 y 1, pero es difícil que llegue a 1. Un valor de 0 indica independencia y cercano a 1 indica asociación.

V. DE KRAMER

Nunca excede de 1. En las tablas 2x2 toma el mismo valor que Phi. K es el menor del número de filas y columnas.

LAMBDA DE GOODMAN Y KRUSKAL

Tiene en cuenta la frecuencia de la categoría modal ( la más frecuente). Da valores entre 0 y 1. Según considere la fila como v.a independiente o dependiente, puedo calcular a partir de ella dos coeficientes (la lambda y la tau). Si no se cual es la independiente o dependiente, usar la versión simétrica del test. Lambda toma valores entre 0 y 1, el valor 0 indica que la va independiente no aporta nada en la reducción del error de predicción y 1 indica que el error de predicción se ha conseguido reducir por completo.

TAU DE GOODMAN Y KRUSKAL

Tiene en cuenta las proporciones de los marginales para determinar las probabilidades dentro de cada celda. Va de 0 a 1 y se acompaña de un error asintótico luego puedo

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 31: SPSS Básico

31Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

calcularle un intervalo de confianza. El significado de los valores 0 y 1 es el mismo que en lambda.

COEFICIENTE DE CONCORDANCIA O KAPPA DE COHEN

Se suele utilizar en los trabajos que pretenden evaluar el acuerdo entre dos observadores, por eso también se le llama "índice de acuerdo kappa". En resumen, dado un mismo fenómeno que es evaluado por dos observadores/jueces distintos, este estadístico me permite conocer la concordancia entre las aseveraciones de cada juez comparadas con las previsibles según el azar.

Toma valores entre 0 (mínima concordancia) y 1 (máxima). El programa da un error estándar (EE) que permite construir un intervalo de confianza (IC).Valores que toma:

< 0.20: muy débil0.21-0.40: débil0.41-0.60: moderada0.61-0.80: buena0.81-1:muy buena

2 ESTIMACIÓN DE RIESGOS

En ocasiones las variables se comportan como factor de riesgo una y como variable de resultado de fenómeno la otra de tal modo que la presencia de la primera va determine la aparición del resultado con una mayor frecuencia, es precisamente en este caso cuando decimos que se está comportando como un factor de riesgo.

Veamos las medidas de que disponemos para estudiar riesgos:

1. RIESGO RELATIVO.

Se utiliza en los estudios de cohortes.

RR= IAe/IAo IAe: incidencia en el grupo con el factor, expuestoIAo: incidencia en el grupo sin el factor, no expuesto

El procedimiento de cálculo seria: AnalizaràEstadísticos descriptivosàTablas de contingenciaà EstadísticosàRiesgo.

Es importante saber que el programa calcula el RR interpretando que la primera columna es la enfermedad y proporciona el RR de padecer la "V.A" ubicada en la primera columna de la tabla 2x2. Este detalle es importante a la hora de construir la tabla y, por supuesto, en el momento de interpretar el riesgo.

Valores: >1 indica que se trata de un F. de riesgo. <1 que se comporta como factor protector.

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 32: SPSS Básico

32Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

2. ODDS RATIO

Se utiliza en los estudios de casos y controles.OR = Odds en grupo casos / Odds en grupo controlesPara su cálculo, SPSS interpreta que los casos están en la primera fila y los controles en la segunda, así como que el factor de riesgo está en la primera columna y su ausencia en la segunda. La interpretación de sus valores es análoga al Riesgo Relativo. Si calculado el intervalo de confianza, el 1 estuviera incluido en él, nos indica que no existe significación.

Comparación de Medias

El estudio de las variables cuantitativas es fundamental en ciencias de la salud. La mayor parte de ellas se comportan como cuantitativas continuas y cumpliendo ciertas condiciones, las variables biológicas puede decirse que en líneas generales siguen una distribución normal.

Antes de realizar comparaciones entre varias muestras respecto de sus variables cuantitativas es conveniente realizar un análisis exploratorio, descriptivo, de dichas variables para posteriormente pasar al proceso de comparación. Bien mediante el procedimiento estudiado ya, ésto es, Analizar à Estadísticos Descriptivos à Frecuencias/Descriptivos o bien mediante el procedimiento Analizar à Estadísticos descriptivos à Explorar, podemos obtener unos datos iniciales muy valiosos respecto de las variables.

En nuestra base de datos vamos a iniciar la acción Analizar à Estadísticos Descriptivos à Explorar para las variables altura y peso:

Vemos como además de introducir en el cajón de las variables dependientes a analizar, tenemos la posibilidad de controlar por algún factor de riesgo en la caja inferior. En el apartado “gráficos” podemos elegir entre histograma o tallo y hojas.Si picamos en "estadísticos" se nos calculan los estadísticos univariantes fundamentales. Si picamos en el botón de estadísticos se nos ofrece además esta pantalla que nos permite especificar otros elementos.

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 33: SPSS Básico

33Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Vemos el resultado obtenido para la descripción de ambas variables:

Descriptivos

Vemos como para ambas variables se describen una serie de estadísticos, tanto de tendencia central como de dispersión, además se nos proporciona el EE para algunos de ellos. Fundamental: nos da el intervalo de confianza para las medias.

1. MEDIAS

Mediante el procedimiento Analizar à Comparar Medias à Medias... puedo obtener estadísticos descriptivos para una variable independiente teniendo en cuenta los grupos definidos por otra/s variables dependientes.

Así por ejemplo si quiero ver las medias para el peso en los grupos definidos por el sexo: Analizar à Comparar Medias à Medias y:

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 34: SPSS Básico

34Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

He introducido como variable dependiente el peso pues es la variable que "depende", que puede sufrir variaciones en función de otra que actúa como independiente, en este caso el "sexo". Se muestra el resultado que da SPSS para esta comparación:

Informe

Como vemos nos da el peso medio para cada sexo, con su desviación típica, pero no entra aún en establecer si ambas medias son realmente diferentes o no de un modo estadístico.

Recordar:

Dependientes: Las variables que quiero analizarIndependientes: Los factores que se comportan como variable independiente.

2. PRUEBA T PARA UNA MUESTRA

Mediante esta prueba puedo contrastar hipótesis sobre la media poblacional, obtenida de la literatura, por ejemplo y ver si la media de mi muestra es o no distinta a ella.

Supongamos que quiero saber en mi muestra si la altura media es o no distinta de 162 cm que es la media poblacional según la literatura. Entonces Analizar à Comparar medias à Prueba T para una muestra:

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 35: SPSS Básico

35Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

La salida de resultados es:

Prueba para una muestra

Por tanto vemos que en nuestra muestra la media para la v.a altura es de 167.78 cm con un EE de 1.04. Sabemos que la media poblacional es de 162 cms y es el valor a compara que introduce en la caja "valor de prueba". En la segunda tabla vemos que la significación es < 0.05, por tanto hay diferencias significativas. La diferencia entre ambas medias es de 5.78 cm y para esta diferencia se establece un intervalo de confianza al 95% que va desde 3.72 cm a 7.84 cm.

3. PRUEBA T PARA DOS MUESTRAS INDEPENDIENTES

Con esta prueba contrastamos la hipótesis de que las medias de dos poblaciones independientes son iguales. Generalmente la hipótesis nula que se contrasta es la que suele afirmar que las dos muestran tienen igual media porque proceden de la misma población. Cuando al realizar el contraste obtenemos significación (p<0.05) entonces rechazamos esta hipótesis nula (Ho) y aceptamos la alternativa (H1); que las medias son distintas tanto en cuanto que la probabilidad de que la diferencia hallada sea debida al azar es inferior al 5% (error alfa).

Para comparar medias entre dos muestras independientes seguimos el procedimiento Análisis à Comparar medias à Prueba T para muestras independientes, apareciendo el cuadro de diálogo siguiente:

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 36: SPSS Básico

36Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

En este caso, tal como vemos, si nos interesa saber si la presión sistólica inicial de nuestra población es igual en varones que en mujeres, procede una T de Student para datos independientes. En la caja "contrastar variables" se introduce la v.a de la cual quiero comparar su media, por tanto, la variable cuantitativa. En la "variable de agrupación" tengo que introducir una única variable cualitativa o cuantitativa. Después pulsamos el botón "definir grupos" e introducimos los valores que puede tomar la variable de agrupación (en nuestro caso asignamos el 0 a mujeres y 1 a varones). Luego aceptar...y obtenemos una comparación de medias de presión sistólica en varones y mujeres, tal que así:

Estadísticos de grupo

Prueba de muestras independientes

En la primera tabla obtenida encontramos el valor de la media, desviación típica y error estándar para la v.a presión arterial sistólica en los dos grupos (varones y mujeres). A continuación encontramos una segunda tabla que consta de dos grandes apartados:

Test de Levene: Se trata de conocer en primer lugar si las varianzas en ambos grupos son iguales o distintas, para lo cual se aplica este test. Como vemos la significación en Levene es 0.277, o sea, mayor de 0.05, por tanto no significativo, luego las varianzas son iguales.

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 37: SPSS Básico

37Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Conocido que las varianzas entre grupos son iguales ya sé que en la prueba T (parte derecha de la tabla) tengo que leer sólo la columna "se han asumido varianzas iguales" y, leyendo esta columna veo que la significación p= 0.219 (>0.05) y por tanto no existen diferencias significativas de la presión arterial sistólica inicial en ambos grupos. Nos proporciona la tabla, además un intervalo de confianza para la diferencia de las medias halladas, en este caso el intervalo es [-9.76,2.26] y, como vemos, incluye al cero al no ser significativo el contraste (no incluirá al cero cuando el contraste sea significativo).

4. PRUEBA T PARA DOS MUESTRAS APAREADAS

Se aplica cuando los valores que toma la variable son medidos en la misma muestra pero en dos momentos distintos. En la base de ejemplo tenemos el dato "tensión arterial sistólica inicial" y " tensión arterial sistólica final", esto es, tras tomar un tratamiento. Se trata de una misma muestra, pero existen valores antes y después de la toma del medicamento. La comparación de medias bajo la premisa de medir la misma variable antes/después se realiza mediante la T de Student para datos apareados.

El procedimiento es Analizar à Comparar medias à T para muestras relacionadas, obteniendo el cuadro de dialogo siguiente:

variables_comparar.jpg

Hemos introducido las variables pas_ini y pas_fin en la caja de la derecha, posteriormente aceptar y se obtiene el resultado siguiente: (pas – presión arterial sistólica)

Estadísticos de muestras relacionadas

Prueba de muestras relacionadas

En la primera tabla vemos la media de ambas variables con su DT y EE. En la tabla inferior se presenta la significación para la diferencia (en este caso 0.04, sí significativo); la media para el valor de la diferencia [diferencia media] (2.66) acompañada de su EE (0.90) y el intervalo de confianza para la media de las diferencias halladas. Por tanto en este ejemplo podemos decir que existen diferencias significativas en la presión arterial antes y después de tomar el fármaco, que la media de las diferencias es de 2.66 mmHg con un EE 0.90, IC al 95% [0.87-4.45]. Notemos que el IC no incluye al valor 0 y de ello se desprende ya que existe significación.

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 38: SPSS Básico

38Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Análisis de Varianza

Para la comparación de medias cuando tenemos más de dos muestras a analizar hemos de realizar un análisis de la varianza (ANOVA). Este procedimiento permite comparar las medias de varias muestras para saber si pertenecen o no a la misma población. En este capítulo nos referiremos exclusivamente al análisis univariante. Son requisitos indispensables para aplicar el ANOVA que la distribución de las muestras a analizar sea normal y que todas tengan la misma varianza.

A la variable categórica u ordinal que define los grupos la llamaremos variable independiente o "factor" y a la variable cuantitativa la llamaremos variable de respuesta o variable dependiente.

V.A. cualitativa/categórica/ordinalà V. Independiente = FactorV.A. cuantitativa-à Variable Dependiente = Variable de respuesta

Según este procedimiento, la hipótesis nula asumiría que las medias de todas las muestras son iguales y la alternativa, que son distintas, y por ende, asumiríamos que proceden de poblaciones diferentes.

La variabilidad que se presenta en el ANOVA puede corresponder a dos conceptos distintos; de un lado tenemos la denominada "variabilidad intragrupo" que hace referencia a si existe o no variabilidad dentro de cada grupo con respecto de la media del mismo; de otro lado, la "variabilidad entre grupos" es la variabilidad entre las medias de los distintos grupos a analizar.

Para realizar un ANOVA de un factor con SPSS sigamos el procedimiento Analizarà Comparar MediasàAnova de un factor..., obteniendo la ventana siguiente:

Vemos las dos cajas fundamentales, la superior, donde introduciremos la variable dependiente (la cuantitativa, de respuesta) y más abajo la caja de "factor" donde introduciremos la variable independiente y cualitativa. Tomando como ejemplo nuestra base de datos hta.sav, podríamos realizar un ANOVA para conocer si existen diferencias en la presión arterial sistólica inicial en función del nivel de tabaquismo (en 5 categorías este último).

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 39: SPSS Básico

39Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Analicemos las diferentes opciones que nos brinda el cuadro de diálogo para ANOVA en la figura previa:

a. Contrastes: Picando en esta opción podemos especificar el tipo de contraste que queremos se realice entre las medias.

b. Post hoc...: Este botón nos permite marcar todos los tests que queremos se realicen para verificar si hay igualdad entre las diferentes medias si bien todos ellos realizan una comparación múltiple por pares, aunque utilizando métodos distintos para la corrección del error inherente a la comparación. Al señalar este botón accedemos a la siguiente pantalla:

Tras seleccionar el/los tests que queremos realizar, podemos indicar de nuevo en la pantalla primera la caja de "opciones", lo que da paso a la siguiente pantalla, donde puedo indicar que calcule los descriptivos, realice un contraste de homogeneidad de varianzas, etc...

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 40: SPSS Básico

40Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Pruebas no paramétircas

En ciencias biológicas la mayor parte de las variables sigue una distribución normal, lo cual facilita en extremo el uso de la mayor parte de las técnicas estadísticas; no obstante es labor nuestra asegurarnos y confirmar que, efectivamente, las variables que vamos a utilizar en nuestros análisis siguen dicha distribución normal y, en caso contrario, tendremos que recurrir a los denominados contrastes no paramétricos.

En este capítulo nos ocuparemos primero de los contrastes que nos permiten conocer si una variable se distribuye o no de un modo normal y, a continuación, veremos cuáles son los principales test no paramétricos que podría utilizar en función de las comparaciones que deseemos realizar. En la tabla siguiente representamos los principales test no paramétricos, o cuando menos, los de uso más frecuente.

7.1. TEST DE KOLMOGOROV-SMIRNOV

Este test pretende permitirnos conocer si una variable se distribuye de un modo normal, lo cual nos permitirá posteriormente elegir adecuadamente los contrastes a utilizar aunque, en sentido estricto, también nos daría información de si la distribución de datos se ajusta a otras como una Poisson, uniforme, etc.

En primer lugar seleccionamos AnalizaràPruebas no paramétricasà K-S de 1 muestra lo que nos da paso al cuadro de diálogo que exponemos en la figura.

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 41: SPSS Básico

41Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

Como vemos se trata de contrastar la distribución de datos de nuestra variable, con las diferentes opciones que nos brinda SPSS, que abajo y a la izquierda en el cuadro de diálogo, son la Normal, Poisson, Uniforme o Exponencial. Pasamos a la caja de "contrastar variable" aquella que queremos que sea examinada, en nuestro caso podríamos introducir y, de no indicar nada, por defecto el contraste lo realiza sobre la Normal.

El contraste que realizamos es H0ºla variable a examen y la variable normal no difieren en su distribución vs H1ºla variable a examen y la variable normal sí difieren en su distribución; por tanto, si en la significación asintótica (bilateral) que obtendremos en los resultados obtenemos una p<0.05 concluiremos H1 y diremos que no se distribuye siguiendo la normal. Si por el contrario obtenemos para la/s variable/s significaciones > 0.05 entonces sí que podemos trabajar con ellas con la tranquilidad de que siguen una distribución normal.

Si queremos saber en nuestro ejemplo si siguen una distribución normal las variables altura, edad, número de cigarrillos e índice de masa corporal, las incluimos en el cuadro de diálogo de "contrastar variables" como vimos más arriba, dejando marcada la opción "normal" que viene por defecto y obtenemos el siguiente resultado:

Observamos que la significación bilateral para las tres variables es mayor de 0.05, del nivel crítico, por tanto se distribuyen de un modo normal todas excepto la variable "número de cigarrillos".

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 42: SPSS Básico

42Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

7.2 TEST DE MANN-WHITNEY

Para comparar dos muestras independientes cuando estas no siguen una distribución normal y estas son de tipo cuantitativo u ordinal, usaremos el test no paramétrico de Mann-Whitney

Supongamos que deseamos conocer si hay diferencias en el número de cigarrillos fumados en función del sexo. Se trata de comparar dos muestras independientes pero donde la variable a contrastar "numero de cigarrillos" sabemos que no sigue una distribución normal. Para ello AnalizaràPruebas no paramétricasà2 muestras independientes, y obtenemos el cuadro de diálogo siguiente, introduciendo las variable número de cigarrillos en la caja "contraste de variables" y la variable de agrupación que en nuestro caso es el sexo, no olvidando definir los grupos, en este caso sexo, según los valores 0 y 1 que asignamos inicialmente:

Notemos que además de la U de Mann-Whitney podemos seleccionar otros contrastes no paramétricos como la Z de Kolmogorov Smirnov o el test de Rachas de Wald Wolfowitz, etc. El resultado obtenido al ejecutar el cuadro de diálogo anterior es el siguiente:

Como el nivel crítico, la significación asintótica bilateral obtenida (0.186) es mayor de 0.05 concluimos H0, esto es, no hay diferencias en el número de cigarrillos en ambos grupos. Como observamos el procedimiento está basado (observemos la tabla de la izquierda) en calcular las medias de los rangos para cada muestra y posteriormente el programa contabiliza el número de veces que preceden los rangos de una muestra a los de la otra.

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 43: SPSS Básico

43Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

7.3 TEST DE WILCOXON

Si deseamos comparar dos muestras relacionadas o pares de variables cuantitativas u ordinales, realizaremos el test de Wilcoxon. Especificamos la secuencia de orden Analizar à Pruebas no paramétricas à 2 muestras relacionadas y accedemos al siguiente cuadro de diálogo:

Vemos que también nos permite realizar el test de Signos y el McNemar. El Test de signos básicamente contabiliza el número de diferencias que se dan entre ambas variables, tanto positivas como negativas, y a partir de su diferencia proporciona la comparación entre ambas. El Mc Nemar lo estudiaremos en el próximo apartado.

Retomando nuestro ejemplo, si deseamos contrastar la presión arterial sistólica inicial y final (suponiendo que fueran variables de distribución no normal), las introduciríamos en la caja de "contrastar pares" y obtendríamos el siguiente resultado:

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas

Page 44: SPSS Básico

44Falcón Ramos, José AntonioApuntes para Metodología, Bioestadística.

En la ventana de resultados podemos ver el número de empates y rangos, así como la significación; en este caso concreto concluimos H1, esto es, hay diferencias entre las variables analizadas por pares en este caso.

7.4. TEST DE McNEMAR

Cuando las variables a contrastar son dicotómicas podemos usar el test de McNemar (sólo en este caso), permitiéndonos pues la comparación de frecuencias y porcentajes obtenidos de dichas variables. Suponiendo en nuestro ejemplo que la variable obesidad no siguiera una distribución normal, la comparación para determinar si la proporción de obesos antes y después de un tratamiento difiere, podría hacerse mediante este test.

7.5. TEST DE KRUSKAL-WALLIS

Se utiliza para la comparación de varias muestras con objeto de determinar si proceden o no de la misma población, cuando se consideran como independientes.

Unidad Académica de Enfermería Universidad Autónoma de Zacatecas