con sas - unedsas. los programas sas se comunican con el ordenador por medio de senten-cias...

Alfonso

Garc

ıaPere

z.UNED

ESTADISTICA APLICADA

CON SAS

(Segunda Edicion)

Alfonso Garcıa Perez

Alfonso

Garc

ıaPere

z.UNED

Copyright c©2011 Alfonso Garcıa Perez

“No esta permitida la reproduccion total o parcial de estelibro, ni su tratamiento informatico, ni la transmision deninguna forma o por cualquier medio, ya sea electronico,mecanico, por fotocopia, por registro u otros medios, sin elpermiso previo y por escrito de los titulares del Copyright.El contenido de este libro esta registrado por el autor en elRegistro de la Propiedad Intelectual con ISBN: 84-362-2931-2y protegido por la Ley, que establece penas de prision ademasde las correspondientes indemnizaciones para quien lo plagiara”

Edita: Universidad Nacional de Educacion a Distancia

Alfonso

Garc

ıaPere

z.UNED

Prologo

Este libro esta pensado, fundamentalmente, como complemento del textoEstadıstica Aplicada: Conceptos Basicos, texto que en adelante abreviaremospor CB, con el proposito de aplicar los conceptos allı estudiados resolviendonumerosos problemas con ayuda del paquete estadıstico SAS. Los ejemplosallı tratados se hara con el acronimo CB. Los ejemplos del texto Metodos

Avanzados de Estadıstica Aplicada. Tecnicas Avanzadas seran referenciadoscon el acronimo TA.

En los tres capıtulos sobre Procedimientos en Analisis de Supervivencia, lacita de los ejemplos allı tratados se hara con el acronimo AS. Las referenciasde los ejemplos aparecen en el capıtulo de Analisis de Supervivencia.

En esta segunda edicion se han ido incorporando nuevos Procedimientospara aplicar este Paquete Estadıstico a tecnicas mas complejas.

El esquema de cada capıtulo consistira en, primero, hacer un breve estudiodel programa (Procedimiento en terminologıa SAS) al que se dedica el capıtulo,para resolver despues problemas concretos con dicho programa, acompanandocomentarios a dicha resolucion.

En la elaboracion de este libro hemos pensado que la mejor manera deaprender los procedimientos SAS es utilizarlos, por lo que la resolucion deproblemas constituira la parte principal de cada capıtulo, mientras que losconocimientos que se daran de cada uno de los programas estudiados seran losmınimos indispensables para que estos funcionen, no pretendiendo, en ningunmomento, que el texto se convierta en un tedioso manual de SAS, sino en unlibro de problemas de Estadıstica Aplicada con SAS.

Alfonso Garcıa Pereze-mail: [email protected]

i

Alfonso

Garc

ıaPere

z.UNED

Alfonso

Garc

ıaPere

z.UNED

Indice

1. Introduccion al SAS 1

1.1. Instrucciones SAS . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Sentencias tipo DATA . . . . . . . . . . . . . . . . . . . . . . . 3

1.3. Sentencias PROC . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4. Ejecucion de los programas SAS . . . . . . . . . . . . . . . . . 4

2. Procedimiento UNIVARIATE 7

2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2. Especificaciones del procedimiento UNIVARIATE . . . . . . . . 7

2.2.1. Opciones en PROC UNIVARIATE . . . . . . . . . . . . 8

2.2.2. Sentencias especıficas en PROC UNIVARIATE . . . . . 8

2.3. Analisis de los resultados . . . . . . . . . . . . . . . . . . . . . 8

3. Procedimiento PLOT 13

3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4. Procedimiento CORR 15

4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4.2. Especificaciones del procedimiento CORR . . . . . . . . . . . . 15

4.3. Estadıstica Descriptiva Bivariante y Analisis de la CorrelacionLineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.4. Contraste de Spearman de independencia de variables aleatorias 20

4.5. Analisis de Correlacion Parcial . . . . . . . . . . . . . . . . . . 23

5. Procedimiento GLM 25

5.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5.2. Especificaciones del procedimiento GLM . . . . . . . . . . . . . 25

5.3. Analisis de la varianza para un factor y un Diseno completa-mente aleatorizado . . . . . . . . . . . . . . . . . . . . . . . . . 27

5.4. Analisis de la varianza para un factor y un Diseno por bloquesaleatorizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

iii

Alfonso

Garc

ıaPere

z.UNED

5.5. Analisis de la varianza para un factor y un Diseno de cuadradolatino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.6. Analisis de la varianza para dos factores y un Diseno comple-tamente aleatorizado . . . . . . . . . . . . . . . . . . . . . . . . 39

5.7. Analisis de la regresion lineal simple . . . . . . . . . . . . . . . 41

5.8. Analisis de la regresion lineal multiple . . . . . . . . . . . . . . 42

5.9. Analisis de la covarianza para un factor y un diseno completa-mente aleatorizado . . . . . . . . . . . . . . . . . . . . . . . . . 44

5.10. Analisis de la covarianza para dos factores y un diseno comple-tamente aleatorizado . . . . . . . . . . . . . . . . . . . . . . . . 54

6. Procedimiento FREQ 57

6.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

6.2. Especificaciones del procedimiento FREQ . . . . . . . . . . . . 57

6.3. Contraste de homogeneidad de varias muestras . . . . . . . . . 58

6.4. Contraste de independencia de caracteres . . . . . . . . . . . . 61

7. Procedimiento NPAR1WAY 65

7.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

7.2. Especificaciones del procedimiento NPAR1WAY . . . . . . . . . 65

7.3. Contrastes relativos a dos muestras independientes . . . . . . . 66

7.4. El contraste de Kruskal-Wallis . . . . . . . . . . . . . . . . . . 68

8. Procedimiento LIFETEST 71

8.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

8.2. Especificaciones del procedimiento LIFETEST . . . . . . . . . 71

8.2.1. Opciones en PROC LIFETEST . . . . . . . . . . . . . . 72

8.2.2. Sentencias especıficas en PROC LIFETEST . . . . . . . 73

9. Procedimiento LIFEREG 93

9.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

9.2. Especificaciones del procedimiento LIFEREG . . . . . . . . . . 93

10.Procedimiento PHREG 99

10.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

10.2. Especificaciones del procedimiento PHREG . . . . . . . . . . . 99

11.Componentes Principales 111

12.Analisis de Correspondencias 113

13.Analisis Discriminante 117

Alfonso

Garc

ıaPere

z.UNED

14.Analisis Cluster 121

15.Regresion Logıstica 123

16.Analisis de Series Temporales 129

Alfonso

Garc

ıaPere

z.UNED

Capıtulo 1

Introduccion al SAS

1.1. Instrucciones SAS

Como todos los programas de ordenador, SAS requiere para su utilizacionde un lenguaje propio que permita indicar al ordenador que calculos deberealizar.

Estas instrucciones las debemos dar en lo que se denomina un programaSAS.

Los programas SAS se comunican con el ordenador por medio de senten-cias (statements) SAS, las cuales son de dos tipos: sentencias tipo DATA ysentencias tipo PROC.

Las sentencias tipo DATA indican a SAS cuestiones referentes a los datosy a las variables que dan origen a esos datos, sirviendo ademas, por ejemplo,para crear nuevas variables.

Las sentencias tipo PROC (abreviatura de PROCEDURE) indican al or-denador que clase de analisis estadıstico debe realizar con los datos, existiendoun procedimiento (procedure) para cada tratamiento estadıstico.

Todo programa SAS esta estructurado en tres partes: primero deberanaparecer sentencias tipo DATA, a continuacion los datos y por ultimo lassentencias tipo PROC.

Ası por ejemplo, supongamos que queremos realizar un analisis descriptivode los datos del ejemplo 2.1 del libro CB, el cual decıa

Ejemplo 1.1 (CB-ejemplo 2.1)

Se midieron los niveles de colinesterasa en un recuento de eritrocitos en µ mol/min/ml de34 agricultores expuestos a insecticidas agrıcolas, obteniendose los siguientes datos:

1

Alfonso

Garc

ıaPere

z.UNED2 Estadıstica Aplicada con SAS

Individuo Nivel Individuo Nivel Individuo Nivel1 10′6 13 12′2 25 11′82 12′5 14 10′8 26 12′73 11′1 15 16′5 27 11′44 9′2 16 15′0 28 9′35 11′5 17 10′3 29 8′66 9′9 18 12′4 30 8′57 11′9 19 9′1 31 10′18 11′6 20 7′8 32 12′49 14′9 21 11′3 33 11′110 12′5 22 12′3 34 10′211 12′5 23 9′712 12′3 24 12′0

Uno de los procedimientos que realiza analisis descriptivo de los datos es, como veremos masadelante, UNIVARIATE, por lo que nuestro programa SAS deberıa ser semejante al siguiente

DATA PRUEBA;

INPUT individu 1-2 nivel 4-7;

CARDS;

1 10.6

2 12.5

3 11.1

4 9.2

5 11.5

6 9.9

7 11.9

8 11.6

9 14.9

10 12.5

11 12.5

12 12.3

13 12.2

14 10.8

15 16.5

16 15.0

17 10.3

18 12.4

19 9.1

20 7.8

21 11.3

22 12.3

23 9.7

24 12.0

25 11.8

26 12.7

27 11.4

28 9.3

29 8.6

30 8.5

31 10.1

32 12.4

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 1. Introduccion al SAS 3

33 11.1

34 10.2

PROC UNIVARIATE;

VAR nivel;

RUN;

En todo programa SAS, como ocurre con el anterior, se distinguen tres partes: La primera,que comprende las tres primeras lıneas, corresponde a sentencias tipo DATA; a continuacion,aparecen —en 34 lıneas— los datos. La ultima parte, en este caso dos lıneas, corresponde asentencias tipo PROC.El programa termina con el comando RUN.

1.2. Sentencias tipo DATA

Las sentencias tipo DATA, como las que aparecen al principio del ejemploanterior, deben comenzar por la palabra DATA y deben acabar por la palabraCARDS (y el punto y coma).

Con la primera lınea indicamos que vamos a crear un conjunto de datosSAS, el cual en el ejemplo anterior hemos llamado PRUEBA.

En la segunda lınea, utilizando la sentencia INPUT (la cual es una sen-tencia tipo DATA), indicamos como llamar a la variable o variables que danlugar a los datos y ademas, donde encontrarlas. En el ejemplo anterior dijimosque apareceran datos correspondientes a dos variables, las cuales se llamaranindividu y nivel (los nombres de las variables no deben tener mas de ochocaracteres), cuyos datos asociados apareceran, para la primera variable en lascolumnas 1 y 2, y para la variable nivel en las columnas 4 a 7.

En nuestro ejemplo, todas las variables son de tipo cuantitativo. Si algunade las variables en consideracion fuera de tipo cualitativo, deberıamos indi-carlo en nuestro programa SAS con un $; ası por ejemplo, si en la columna9 fueramos a resenar el sexo de los individuos, en nuestra sentencia INPUT

deberıamos anadir

SEXO $ 9

Una forma alternativa —y mas utilizada— es incorporar los datos en for-mato libre. Para ello basta con senalar en INPUT el nombre de las variablesconcluyendo dicha sentencia con @@.

En ese caso los datos deberan estar separados por, al menos, un espacio enblanco.

Ası por ejemplo, el programa SAS anterior podrıa escribirse de la formaalternativa siguiente

DATA PRUEBA;

INPUT individu nivel @@;

Alfonso

Garc

ıaPere


CARDS;

1 10.6 2 12.5 3 11.1 4 9.2 5 11.5 6 9.9 7 11.9

8 11.6 9 14.9 10 12.5 11 12.5 12 12.3 13 12.2 14 10.8

15 16.5 16 15.0 17 10.3 18 12.4 19 9.1 20 7.8 21 11.3

22 12.3 23 9.7 24 12.0 25 11.8 26 12.7 27 11.4 28 9.3

29 8.6 30 8.5 31 10.1 32 12.4 33 11.1 34 10.2

PROC UNIVARIATE;

VAR nivel;

RUN;

1.3. Sentencias PROC

Como dijimos mas arriba, con las sentencias PROC indicamos al ordenadorque tratamiento estadıstico debe realizar y que peculiaridades debe tener dichotratamiento estadıstico.

Cada procedimento tiene asociadas una serie de especificaciones que per-miten realizar un tratamiento estadıstico mas adecuado; ası, en el ejemploanterior, con la especificacion

VAR nivel;

indicamos que solamente queremos resultados de la variable nivel y no deindividu.

Ademas, cada procedimiento posee una serie de opciones, las cuales iremosanalizando en los capıtulos posteriores.

1.4. Ejecucion de los programas SAS

Una vez creado nuestro programa SAS, debemos de ejecutarlo. Para ellodebemos abrir este paquete. AL abrirlo, apareceran en pantalla las tres estruc-turas (ventanas) que componen el SAS.

La primera de ellas es el Editor. Sobre el debemos teclear nuestro programaSAS, o bien incorporarlo.

La segunda estructura o ventana se denomina LOG y es un verificador

de nuestro programa SAS, el cual repasara nuestro programa, dandonos losposibles errores que pudieramos haber cometido.

La ultima estructura es el OUTPUT y en ella apareceran los analisis es-tadısticos requeridos por nuestro programa SAS.

En cualquiera de estas tres estructuras podemos importar o exportar con-tenidos con las opciones Archivo de la barra superior.

Para ejecutar el programa del ejemplo anterior deberemos presionar el elhombrecillo de negro de la barra superior.

Para los datos de nuestro ejemplo, obtendrıamos los siguientes resultadospara la estructura SAS LOG

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 1. Introduccion al SAS 5

NOTA: Copyright (c) 2002-2003 by SAS Institute Inc., Cary, NC, USA.

NOTA: SAS (r) 9.1 (TS1M3)Licensed to DEPARTAMENTO DE ESTADISTICA E I. OPERATIVA, Site 0080499003.

NOTA: Esta sesion se esta ejecutando en una plataforma WIN_PRO .

NOTA: inicio de SAS utilizado:tiempo real 6.39 segundos

tiempo de cpu 0.96 segundos

1 DATA PRUEBA;2 INPUT individu 1-2 nivel 4-7;3 CARDS;

NOTA: El conj. datos WORK.PRUEBA tiene 34 observaciones y 2 variables.

NOTA: Sentencia DATA utilizado (Tiempo de proceso total):tiempo real 0.25 segundostiempo de cpu 0.01 segundos

38 PROC UNIVARIATE;39 VAR nivel;

40 RUN;

NOTA: PROCEDIMIENTO UNIVARIATE utilizado (Tiempo de proceso total):

tiempo real 0.54 segundostiempo de cpu 0.03 segundos

la cual no localiza ningun error en nuestro programa SAS.Se obtienen tambien los siguientes resultados en la estructura OUTPUT

UNIVARIATE PROCEDURE

Variable=NIVEL

Moments

N 34 Sum Wgts 34Mean 11.35294 Sum 386Std Dev 1.874588 Variance 3.514082

Skewness 0.536323 Kurtosis 0.875633USS 4498.2 CSS 115.9647

CV 16.51192 Std Mean 0.321489T:Mean=0 35.31359 Prob>|T| 0.0001Sgn Rank 297.5 Prob>|S| 0.0001

Num ^= 0 34

Quantiles(Def=5)

100% Max 16.5 99% 16.575% Q3 12.4 95% 15

50% Med 11.45 90% 12.725% Q1 10.1 10% 9.1

0% Min 7.8 5% 8.51% 7.8

Range 8.7Q3-Q1 2.3Mode 12.5

Extremes

Lowest Obs Highest Obs7.8( 20) 12.5( 11)

8.5( 30) 12.7( 26)8.6( 29) 14.9( 9)

Alfonso

Garc

ıaPere


9.1( 19) 15( 16)9.2( 4) 16.5( 15)

los cuales, como corresponden a utilizar el procedimiento UNIVARIATE se ana-lizaran en el proximo capıtulo.

Alfonso

Garc

ıaPere

z.UNED

Capıtulo 2

Procedimiento UNIVARIATE

2.1. Introduccion

El procedimiento UNIVARIATE es uno de los procedimientos a utilizar cuan-do queremos realizar un analisis de datos unidimensionales.

El procedimiento UNIVARIATE nos da, por defecto,

Medidas de posicion (CB-seccion 2.3.2).

Medidas de dispersion (CB-seccion 2.3.3).

Medidas de asimetrıa (CB-seccion 2.3.4).

Medidas de curtosis (CB-seccion 14.4.3).

El test de la t de Student para la hipotesis nula H0 : µ = 0 (CB-seccion7.2).

El test de rangos signados de Wilcoxon para la hipotesis nula H0 : M = 0(CB-seccion 13.2.2).

2.2. Especificaciones del procedimiento UNIVARIA-

TE

Como en todo procedimiento SAS existen una serie de especificaciones quepermiten adecuar el analisis estadıstico a realizar.

El procedimiento UNIVARIATE permite, entre otras, las siguientes

PROC UNIVARIATE opciones;VAR variables;

7

Alfonso

Garc

ıaPere


2.2.1. Opciones en PROC UNIVARIATE

Detras de PROC UNIVARIATE podemos incluir uno o varios de los si-guientes comandos opcionales:

• plot

Con la cual se obtienen, ademas de los resultados antes mencionados,

Un diagrama de hojas y ramas (CB-seccion 14.2).

Un grafico de cajas (CB-seccion 14.5.1).

Un grafico de normalidad (CB-seccion 14.4.1).

• freq

Con la que se obtienen, ademas

Las distribuciones de frecuencias absolutas, relativas y relativas acumu-ladas (CB-seccion 2.3).

• normal

Con la que se obtiene

Un test de normalidad.

2.2.2. Sentencias especıficas en PROC UNIVARIATE

VAR variables;

Si no se utiliza esta especificacion, el procedimiento UNIVARIATE realizalos calculos analizados para todas las variables definidas en nuestro programaSAS. Mediante esta especificacion, indicamos que variables debe analizar.

En nuestro programa SAS del siguiente utilizaremos esta especificacionpara evitar que UNIVARIATE haga calculos de la variable individu que espuramente identificativa.

2.3. Analisis de los resultados

En el capıtulo anterior ya vimos que resultados obtenıamos cuando eje-cutabamos el procedimiento UNIVARIATE sin utilizar opciones. A continuacionvolveremos a resolver dicho ejemplo empleando las opciones antes mencionadasy analizando con detalle los resultados que se obtengan.

Ejemplo 2.1 (CB-ejemplo 2.1)Se midieron los niveles de colinesterasa en un recuento de eritrocitos en µ mol/min/ml de34 agricultores expuestos a insecticidas agrıcolas, obteniendose los siguientes datos:

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 2. Procedimiento UNIVARIATE 9

Individuo Nivel Individuo Nivel Individuo Nivel1 10′6 13 12′2 25 11′82 12′5 14 10′8 26 12′73 11′1 15 16′5 27 11′44 9′2 16 15′0 28 9′35 11′5 17 10′3 29 8′66 9′9 18 12′4 30 8′57 11′9 19 9′1 31 10′18 11′6 20 7′8 32 12′49 14′9 21 11′3 33 11′110 12′5 22 12′3 34 10′211 12′5 23 9′712 12′3 24 12′0

Un programa SAS con todas las opciones serıa el siguiente

DATA PRUEBA;

INPUT individu 1-2 nivel 4-7;

CARDS;

1 10.6

2 12.5

-omitimos 30 datos-

33 11.1

34 10.2

PROC UNIVARIATE plot freq normal;

VAR nivel;

RUN;

con el que se obtendrıan los siguientes resultados

UNIVARIATE PROCEDURE

Variable=NIVELMoments

N 34 Sum Wgts 34Mean 11.35294 Sum 386

Std Dev 1.874588 Variance 3.514082 [1]Skewness 0.536323 Kurtosis 0.875633

USS 4498.2 CSS 115.9647CV 16.51192 Std Mean 0.321489

T:Mean=0 35.31359 Prob>|T| 0.0001 [2]Sgn Rank 297.5 Prob>|S| 0.0001 [3]Num ^= 0 34

W:Normal 0.955313 Prob<W 0.2226 [4]

Quantiles(Def=5)

100% Max 16.5 99% 16.575% Q3 12.4 95% 15

50% Med 11.45 90% 12.725% Q1 10.1 10% 9.1

0% Min 7.8 5% 8.51% 7.8

Range 8.7

Q3-Q1 2.3Mode 12.5

Alfonso

Garc

ıaPere


Extremes

Lowest Obs Highest Obs7.8( 20) 12.5( 11)8.5( 30) 12.7( 26)

8.6( 29) 14.9( 9)9.1( 19) 15( 16)

9.2( 4) 16.5( 15)[5] [6]

Stem Leaf # Boxplot

16 5 1 015 0 1 |

14 9 1 |13 |

[7] 12 0233445557 10 +-----+

11 11345689 8 *--+--* [8]10 12368 5 +-----+

9 12379 5 |8 56 2 |

7 8 1 |----+----+----+----+

Normal Probability Plot

16.5+ * +| * +++++| *+++++

13.5+ ++++++| ***+*+* **

| *******10.5+ *****+ [9]

| *****| *++*+

7.5+ ++*+++

+----+----+----+----+----+----+----+----+----+----+-2 -1 0 +1 +2

Frequency Table

Percents Percents

Value Count Cell Cum Value Count Cell Cum7.8 1 2.9 2.9 10.6 1 2.9 35.38.5 1 2.9 5.9 10.8 1 2.9 38.2

8.6 1 2.9 8.8 11.1 2 5.9 44.19.1 1 2.9 11.8 11.3 1 2.9 47.1

9.2 1 2.9 14.7 11.4 1 2.9 50.09.3 1 2.9 17.6 11.5 1 2.9 52.9

9.7 1 2.9 20.6 11.6 1 2.9 55.99.9 1 2.9 23.5 11.8 1 2.9 58.810.1 1 2.9 26.5 11.9 1 2.9 61.8

10.2 1 2.9 29.4 12 1 2.9 64.710.3 1 2.9 32.4 12.2 1 2.9 67.6

Frequency Table (Cont.)

Percents PercentsValue Count Cell Cum Value Count Cell Cum

12.3 2 5.9 73.5 14.9 1 2.9 94.112.4 2 5.9 79.4 15 1 2.9 97.112.5 3 8.8 88.2 16.5 1 2.9 100.0

12.7 1 2.9 91.2

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 2. Procedimiento UNIVARIATE 11

En ellos se aprecia, en primer lugar, bajo el encabezamiento Moments, una serie de medidasdescriptivas, [1], algunas obvias, y ademas, USS, la suma de las observaciones al cuadrado,∑

x2i ; CSS, la suma de las observaciones corregidas al cuadrado,

∑

(xi − x)2; Sum, la sumade todas las observaciones,

∑

xi.Se obtienen, ademas, dos tests de hipotesis, uno de ellos, [2], el de la t de Student para lahipotesis nula H0 : µ = 0 (vease CB-seccion 7.2), y el otro, [3], el de los rangos signados deWilcoxon para H0 : M = 0 (vease CB-seccion 13.2.2); ambos con su p-valor.Se obtiene tambien en dicho apartado un contraste especıfico, [4], al haber incluido la opcionnormal en nuestro programa SAS, para la hipotesis nula de normalidad de los datos, ası comoel p-valor de dicho contraste.En el segundo apartado, bajo la denominacion Quantiles se da el maximo, el mınimo, elprimer y tercer cuartil Q1 y Q3 respectivamente, ası como seis centiles, del 1% al 99%.Se incluye tambien en este segundo apartado el rango, el recorrido intercuartılico, Q3-Q1, yla moda.En el tercer apartado, bajo la denominacion de Extremes, se dan las cinco observacionesmenores y el lugar que ocupan en los datos, [5], ası como las cinco mayores, [6].A continuacion aparecen tres graficos, al haber utilizado la opcion plot. Un diagrama dehojas y ramas, [7], un grafico de cajas, [8], y un grafico de normalidad, [9].Se concluye esta salida de ordenador con la distribucion de frecuencias absolutas, ası comola de frecuencias relativas y relativas acumuladas (estas dos ultimas en porcentaje) bajo ladenominacion Frecuency Table, distribuciones estas obtenidas al utilizar la opcion freq enla sentencia PROC UNIVARIATE.

Alfonso

Garc

ıaPere


Alfonso

Garc

ıaPere

z.UNED

Capıtulo 3

Procedimiento PLOT

3.1. Introduccion

Este procedimiento se utiliza, fundamentalmente, para realizar diagramasde dispersion (CB-seccion 2.4.1), por lo que suele venir asociado al procedi-miento CORR, procedimiento que se estudiara en el proximo capıtulo.

Por estas razones, es en dicho capıtulo donde se analizaran varios ejemplosde su utilizacion. Aquı mencionaremos, simplemente, que como especificacionnecesaria de dicho procedimiento hay que indicar la variable a representar enel eje de ordenadas, digamos Y, y la variable a representar en el eje de abscisas,digamos X, siendo un sentencia PROC tıpica la siguiente

PROC PLOT;

plot Y*X;

13

Alfonso

Garc

ıaPere


Alfonso

Garc

ıaPere

z.UNED

Capıtulo 4

Procedimiento CORR

4.1. Introduccion

Utilizando el procedimiento CORR se obtienen los siguientes resultados pordefecto,

El coeficiente de correlacion lineal de Pearson (CB-seccion 2.4.3), tam-bien denominado coeficiente de correlacion simple (CB-seccion 10.4.2) sipretendemos calcular correlaciones parciales.

El contraste de H0 : ρ = 0 frente a H1 : ρ 6= 0. (CB-seccion 9.6.2).

Algunas medidas descriptivas de los datos.

4.2. Especificaciones del procedimiento CORR

El procedimiento CORR permite, entre otras, las siguientes especificacio-nes

PROC CORR opciones;VAR variables;PARTIAL variables;

Si en la sentencia PROC CORR utilizamos las opcion spearman, obtendremos,en lugar del coeficiente de correlacion de Pearson, el coeficiente de correlacionde rangos de Spearman, ası como el test de independencia asociado a dichocoeficiente (CB-seccion 13.6).

Si utilizamos la especificacion PARTIAL variables podemos hacer un anali-sis de correlacion parcial entre las variables no especificadas en variables

(CB-seccion 10.4.2).

15

Alfonso

Garc

ıaPere


4.3. Estadıstica Descriptiva Bivariante y Analisis de

la Correlacion Lineal

Como ya dijimos en la introduccion, el procedimiento CORR permite realizarun analisis descriptivo de datos bidimensionales, para lo cual se acompana,habitualmente, del procedimiento PLOT.

Ejemplo 4.1 (CB-ejemplo 2.9)Se realizo un estudio para analizar el numero de horas semanales que entrenaban las personasde una determinada poblacion, y la marca obtenida en 100 metros lisos. Los resultadosobtenidos fueron los siguientes

Horas 21 32 15 40 27 18 26 50 33 51

Marca 13′2 12′6 13 12′2 15 14′8 14′8 12′2 13′6 12′6

Horas 36 16 19 22 16 39 56 29 45 25

Marca 13′1 14′9 13′9 13′2 15′1 14′1 13 13′5 12′7 14′2

Para analizar estos datos utilizaremos el siguiente programa SAS

DATA ATLE;

INPUT horas 1-2 marca 4-7;

CARDS;

21 13.2

32 12.6

-omitimos 16 pares de datos-

45 12.7

25 14.2

PROC PLOT;

plot marca*horas;

RUN;

PROC CORR;

RUN;


Plot of MARCA*HORAS. Legend: A = 1 obs, B = 2 obs, etc.

15 + B A| A A

|| A

14 + A A|

MARCA | A A| A A

13 + A A A

| A| A A

| A A12 +

-+-------------+-------------+-------------+-------------+-------------+

10 20 30 40 50 60HORAS

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 4. Procedimiento CORR 17

CORRELATION ANALYSIS

2 ’VAR’ Variables: HORAS MARCA

Simple Statistics

Variable N Mean Std Dev Sum

HORAS 20 30.80000 12.64328 616.00000 [1]MARCA 20 13.58500 0.95987 271.70000

Simple Statistics

Variable Minimum Maximum

HORAS 15.00000 56.00000 [1]MARCA 12.20000 15.10000


Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 20

HORAS MARCA

[2]HORAS 1.00000 -0.63041

0.0 0.0029 [3]

MARCA -0.63041 1.00000

0.0029 0.0

en ellos se observa, despues de un diagrama de dispersion, resultado de utilizar el pro-cedimiento PLOT junto con la especificacion plot marca*horas, una estadıstica de las dosvariables, [1].Se concluye con el valor del coeficiente de correlacion de Pearson, [2], entre ambas variables,−0′63041, y el p-valor, [3], para el contraste H0 : ρ = 0 frente a H1 : ρ 6= 0, el cual conduceen este caso a rechazar dicha hipotesis nula.

Ejemplo 4.2 (CB-ejemplo 9.1)Se midio el contenido de oxıgeno, variable Y , a diversas profundidades, variable X, en ellago Worther de Australia, obteniendose los siguientes datos, en miligramos por litro

X 15 20 30 40 50 60 70

Y 6′5 5′6 5′4 6 4′6 1′4 0′1

El programa SAS que utilizaremos sera el siguiente

DATA OXIGENO;

INPUT profun 1-2 oxigeno 4-6;

CARDS;

15 6.5

20 5.6

30 5.4

Alfonso

Garc

ıaPere


40 6

50 4.6

60 1.4

70 0.1

PROC PLOT;

plot oxigeno*profun;

RUN;

PROC CORR;

RUN;


Plot of OXIGENO*PROFUN. Legend: A = 1 obs, B = 2 obs, etc.

10 +

||

OXIGENO |

| A| A A

5 + A A||

|| A

|0 + A

--+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-15 20 25 30 35 40 45 50 55 60 65 70

PROFUN


2 ’VAR’ Variables: PROFUN OXIGENO

Simple Statistics


PROFUN 7 40.71429 20.49971 285.00000OXIGENO 7 4.22857 2.47434 29.60000

Simple Statistics


PROFUN 15.00000 70.00000OXIGENO 0.10000 6.50000



PROFUN OXIGENO

PROFUN 1.00000 -0.895850.0 0.0064

OXIGENO -0.89585 1.00000

0.0064 0.0

Se observa de nuevo la nube de puntos, unas estadısticas de ambas variables, y el coeficientede correlacion de Pearson, igual a −0′89585, ası como el p-valor del contraste H0 : ρ = 0

Alfonso

Garc

ıaPere


frente a H1 : ρ 6= 0, igual a 0′0064, el cual conduce en este caso a rechazar dicha hipotesisnula.

Ejemplo 4.3 (CB-ejemplo 9.2)Las calificaciones obtenidas en dos asignaturas por 17 alumnos de un centro escolar fueronlas siguientes

X 3 4 6 7 5 8 7 3 5 4 8 5 5 8 8 8 5

Y 5 5 8 7 7 9 10 4 7 4 10 5 7 9 10 5 7

¿Que se puede decir acerca del coeficiente de correlacion poblacional entre ambas variables?El programa SAS que utilizaremos sera el siguiente

DATA CALIFICA;

INPUT mate 1 fisica 3-4;

CARDS;

3 5

4 5

-omitimos 13 datos-

8 5

5 7

PROC PLOT;

plot fisica*mate;

RUN;

PROC CORR;

RUN;


Plot of FISICA*MATE. Legend: A = 1 obs, B = 2 obs, etc.

FISICA10 + A B

|

9 + B|

8 + A|

7 + D A|

6 +

|5 + A A A A

|4 + A A

---+------------+------------+------------+------------+------------+--3 4 5 6 7 8

MATE


2 ’VAR’ Variables: MATE FISICA

Alfonso

Garc

ıaPere


Simple Statistics


MATE 17 5.82353 1.81091 99.00000FISICA 17 7.00000 2.09165 119.00000

Simple Statistics


MATE 3.00000 8.00000FISICA 4.00000 10.00000



MATE FISICA

MATE 1.00000 0.75902

0.0 0.0004

FISICA 0.75902 1.00000

0.0004 0.0

en donde de nuevo, despues del grafico requerido por el procedimiento PLOT y de una brevesestadısticas, se da el coeficiente de correlacion de Pearson, igual a 0′75902 y el p-valor deltest (CB-seccion 9.6.2) H0 : ρ = 0 frente a H1 : ρ 6= 0, el cual es igual en este caso a 0′0004.(Observese que coincide con el obtenido por el BMDP; vesase EA BMDP-seccion 6.2.)

4.4. Contraste de Spearman de independencia de

variables aleatorias

Como antes dijimos, si en la sentencia PROC CORR utilizamos la opcionspearman, obtendremos, en lugar del coeficiente de correlacion de Pearson, elcoeficiente de correlacion de rangos de Spearman, ası como el test de indepen-dencia asociado a dicho coeficiente (CB-seccion 13.6).

Ejemplo 4.4 (CB-ejemplo 13.8)Con objeto de averiguar si son independientes o no el peso de las personas, X, de unadeterminada poblacion y su nivel de colesterol, Y , se seleccionaron al azar 10 personas,obteniendose los siguientes resultados, en kgrs. para el peso y en mgrs./100ml. para el nivelde colesterol

Individuo 1 2 3 4 5 6 7 8 9 10

Xi 62 70 80 72 67 71 82 79 66 69Yi 223 242 338 321 280 250 315 320 270 239


DATA COLESTE;

INPUT peso 1-2 coleste 4-6;

CARDS;

Alfonso

Garc

ıaPere


62 223

70 242

80 338

72 321

67 280

71 250

82 315

79 320

66 270

69 239

PROC CORR spearman;

RUN;



2 ’VAR’ Variables: PESO COLESTE

Simple Statistics

Variable N Mean Std Dev Median

PESO 10 71.80000 6.56252 70.50000

COLESTE 10 279.80000 41.15499 275.00000

Simple Statistics


PESO 62.00000 82.00000COLESTE 223.00000 338.00000


Spearman Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 10

PESO COLESTE

[1]PESO 1.00000 0.73333

0.0 0.0158 [2]

COLESTE 0.73333 1.00000

0.0158 0.0

Se observa, como en los ejemplos anteriores, una breve estadıstica descriptiva de las varia-bles, no apareciendo el diagrama de dispersion puesto que hemos omitido, en este caso, elprocedimiento PLOT.Se concluye con el valor del coeficiente de correlacion de rangos de Spearman, [1], iguala 0′73333, y se da, [2], el p-valor del test que tiene como hipotesis nula la independenciade ambas variables aleatorias. En esto aventaja el SAS al BMDP, ya que dicho paqueteestadıstico no da este test (vease EA BMDP-seccion 9.5).

Ejemplo 4.5 (CB-ejemplo 13.9)Se quiere investigar si existe o no independencia entre la edad X y los niveles de concentracionde un determinado mineral en los tejidos de los individuos.Para ello se seleccionaron al azar nueve individuos en los que se observaron ambas variables.Los resultados obtenidos fueron los siguientes

Alfonso

Garc

ıaPere


Individuo 1 2 3 4 5 6 7 8 9

Xi 49 30 30 38 38 38 26 55 55Yi 22′1 22′1 49 36 40 40 32 40 62


DATA MINERAL;

INPUT edad 1-2 nivel 4-7;

CARDS;

49 22.1

30 22.1

30 49.0

38 36.0

38 40.0

38 40.0

26 32.0

55 40.0

55 62.0

PROC CORR spearman;

RUN;



2 ’VAR’ Variables: EDAD NIVEL

Simple Statistics

Variable N Mean Std Dev Median

EDAD 9 39.88889 10.83333 38.00000NIVEL 9 38.13333 12.52228 40.00000

Simple Statistics


EDAD 26.00000 55.00000NIVEL 22.10000 62.00000


Spearman Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9

EDAD NIVEL

EDAD 1.00000 0.344980.0 0.3632

NIVEL 0.34498 1.000000.3632 0.0

De nuevo, despues de las estadısticas habituales se obtiene el coeficiente de correlacion deSpearman, igual a 0′34498, y el p-valor del test de independencia asociado, igual a 0′3632,que lleva claramente a aceptar la hipotesis nula de independencia entre ambas variables.

Alfonso

Garc

ıaPere


4.5. Analisis de Correlacion Parcial

Una ultima utilidad del procedimiento CORR es, como dijimos en la intro-duccion, permitir la realizacion de un analisis de correlacion parcial, utilizandola especificacion PARTIAL variables.

Ejemplo 4.6 (CB-ejemplo 10.2)Con objeto de estudiar la fuerza de la dependencia entre tres variables aleatorias observa-das en mujeres aparentemente normales, se eligieron al azar 11 de ellas, obteniendose lossiguientes datos sobre el nivel de colesterol en mg/100cc, Y , el peso en kgrs, X1 y la presionsanguınea sintolica, X2.

X1 51 52′9 56 56′5 58 60′1 58 61 59′4 56′1 61′2

X2 108 111 115 116 117 120 124 127 122 121 125

Y 162′2 158 157 155 156 154′1 169′1 181 174′9 180′2 174

Si queremos analizar la correlacion parcial existente entre el peso y la presion sanguınea unavez eliminado el efecto del nivel de colesterol, el programa SAS a utilizar serıa el siguiente.

DATA MUJERES;

INPUT peso 1-4 presion 6-8 coleste 10-14;

CARDS;

51 108 162.2

52.9 111 158

56 115 157

56.5 116 155

58 117 156

60.1 120 154.1

58 124 169.1

61 127 181

59.4 122 174.9

56.1 121 180.2

61.2 125 174

PROC CORR;

PARTIAL coleste;

RUN;

Con el se obtendrıan los siguientes resultados


1 ’PARTIAL’ Variables: COLESTE2 ’VAR’ Variables: PESO PRESION

Simple Statistics


COLESTE 11 165.59091 10.48651 1822

PESO 11 57.29091 3.23958 630.20000PRESION 11 118.72727 5.93449 1306

Simple Statistics


Alfonso

Garc

ıaPere


COLESTE 154.10000 181.00000PESO 51.00000 61.20000

PRESION 108.00000 127.00000

Simple Statisticsafter Partialling

Variable Variance Std Dev

PESO 9.95870 3.15574

PRESION 21.28461 4.61353


Pearson Partial Correlation Coefficients / Prob > |R| under Ho: Partial Rho=0/ N = 11

PESO PRESION[1]

PESO 1.00000 0.948360.0 0.0001 [2]

PRESION 0.94836 1.000000.0001 0.0

En ellos se observa, despues de una breves estadısticas de las tres variables en consideracion,el coeficiente de correlacion parcial, [1], el cual es igual a 0′94836, ası como, [2], el p-valordel test que tiene como hipotesis nula la igualdad a cero del coeficiente de correlacion parcialpoblacional. En este caso, al ser dicho p-valor igual a 0′0001, debemos concluir con quesı existe correlacion significativa entre peso y presion una vez eliminado el efecto del nivelde colesterol.Mencionemos por ultimo, que tampoco el BMDP da este test, (vease EA BMDP-seccion6.4).

Alfonso

Garc

ıaPere

z.UNED

Capıtulo 5

Procedimiento GLM

5.1. Introduccion

El procedimiento GLM es un procedimiento disenado para aplicar el modelolineal general —General Linear Model—, por lo que puede utilizarse en laresolucion de problemas de

Analisis de la varianza (CB-capıtulo 8).

Regresion lineal simple (CB-capıtulo 9).

Regresion lineal multiple (CB-capıtulo 10).

Analisis de la covarianza (CB-capıtulo 11).

5.2. Especificaciones del procedimiento GLM

El procedimiento GLM admite, entre otras, las siguientes especificaciones

PROC GLM;CLASS variables;MODEL dependientes = independientes;MEANS variable / opciones;

Como dijimos en la introduccion, al poderse utilizar este procedimientotanto en un analisis de la varianza, como en uno de la regresion o en uno de lacovarianza, debemos indicar, en nuestro programa SAS, cuales de las variablesque utilizamos son de tipo cualitativo —y, por tanto, validas en un analisisde la varianza— y cuales son de tipo cuantitativo —utilizadas en un analisisde la regresion—. Si aparecen de ambos tipos estaremos ante un analisis de lacovarianza.

25

Alfonso

Garc

ıaPere


La asignacion de las variables de tipo cualitativo se hace con la especifica-cion CLASS. Las variables no incluidas en dicha sentencia se entenderan comode tipo cuantitativo.

La especificacion MODEL es obligatoria y se utiliza para fijar el modelo enconsideracion.

Si por a, b, ... representamos variables cualitativas y por x1, x2, ...

cuantitativas, en la siguiente tabla aparecen los modelos a especificar segun eltipo de analisis que estemos realizando.

Especificacion Tipo de Analisis

model y = a Analisis de la varianza para un factor y undiseno completamente aleatorizado (CB-8.2)

model y = a b Analisis de la varianza para un factor y undiseno por bloques aleatorizados (CB-8.3)

model y = a b c Analisis de la varianza para un factor y undiseno de cuadrado latino (CB-8.4)

model y = a b a*b Analisis de la varianza para dos factores y undiseno completamente aleatorizado (CB-8.5)

model y = x1 Analisis de la regresion lineal simple (CB-9.3)model y = x1 x2 Analisis de la regresion lineal multiple (CB-10.3)model y = a x1 Analisis de la covarianza para un factor y un

diseno completamente aleatorizado (CB-11.2)model y = a b a*b x1 Analisis de la covarianza para dos factores y un

diseno completamente aleatorizado (CB-11.3)

Por ultimo, la especificacion

MEANS a / opciones;

se utiliza en un diseno completamente aleatorizado para un factor con objetode realizar comparaciones multiples, una vez rechazada la hipotesis nula deigualdad de los efectos medios de los tratamientos.

Las opciones en dicha especificacion son LSD, utilizada cuando queremosrealizar el contraste de la mınima diferencia significativa, y TUKEY, empleadapara realizar el contraste HSD.

Comentamos, por ultimo, que en los resultados apareceran Type I SS,ası como Type III SS. Las primeras, denominadas sumas secuenciales de cua-drados, corresponden al incremento que se produce en la suma de cuadradosdel error, SSE, por el efecto del factor en cuestion, mientras que las otras,denominadas sumas parciales de cuadrados, son las realmente utilizadas en elanalisis de la varianza.

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 5. Procedimiento GLM 27

5.3. Analisis de la varianza para un factor y un Di-

seno completamente aleatorizado

El desarrollo teorico de esta seccion puede seguirse en CB-seccion 8.2.

Ejemplo 5.1 (CB-ejemplo 8.1)Se quiere averiguar si tres dietas, A, B y C presentan diferencias significativas en cuanto asus efectos sobre el aumento de peso en ratones.Con este proposito se sometio a 5 ratones a cada una de ellas, obteniendose los siguientesaumentos de peso

Dieta Aumento de peso

A 32 37 34 33 30B 36 38 37 30 34C 35 30 36 29 31

Se trata de un diseno completamente aleatorizado para un factor, dieta. El programa SAS autilizar en dicho analisis serıa el siguiente

DATA dietas;

INPUT dieta $ peso @@; [1]

CARDS;

A 32 A 37 A 34 A 33 A 30 B 36 B 38 B 37

B 30 B 34 C 35 C 30 C 36 C 29 C 31

;

PROC GLM;

CLASS dieta;

MODEL peso = dieta;

RUN;

en el que se observa, [1], la incorporacion de las dos variables dieta y peso en formato libreal anadir @@, ası como que la primera de ellas no es numerica al aparecer despues de sunombre el $.Los resultados que se obtendrıan con dicho programa SAS serıan los siguientes

General Linear Models ProcedureClass Level Information

Class Levels Values

DIETA 3 A B C

Number of observations in data set = 15

General Linear Models Procedure

Dependent Variable: PESO

Sum of MeanSource DF Squares Square F Value Pr > F

Model 2 20.13333333 10.06666667 1.14 0.3510

Alfonso

Garc

ıaPere


Error 12 105.60000000 8.80000000[1]

Corrected Total 14 125.73333333

[2]

R-Square C.V. Root MSE PESO Mean

0.160127 8.863982 2.966479 33.4666667



Source DF Type I SS Mean Square F Value Pr > F

DIETA 2 20.13333333 10.06666667 1.14 0.3510

Source DF Type III SS Mean Square F Value Pr > F

DIETA 2 20.13333333 10.06666667 1.14 0.3510[3] [4] [5]

En ellos se observa, despues de una informacion general sobre el modelo, una primera tabla deanalisis de la varianza, —verdaderamente util en el analisis de la regresion—, que contrastacomo hipotesis nula que el modelo considerado es inadecuado, y que en el analisis de lavarianza que aquı estamos considerando solo nos sirve para calcular la suma de cuadrados,[1], del error, SSE, que en nuestro caso es igual a 105′6 ası como, [2], la suma total decuadrados, igual a 125′73.

En este ejemplo, al existir un solo factor, la suma de cuadrados de los tratamientos podıahaberse obtenido de la primera tabla. Lo habitual, no obstante, sera determinarla de lasegunda, en donde ademas, se da el caso de coincidir las sumas I y III de cuadrados, alexistir tambien un solo factor. En nuestro ejemplo toma el valor, [3], 20′13.

El valor del estadıstico, [4], se obtiene tambien aquı, ası como su p-valor asociado, [5], queen este caso, al ser bastante grande, 0′351, permite concluir con la aceptacion de la hipotesisnula de igualdad de los efectos medios de las tres dietas.


En un estudio sobre el efecto de la glucosa en la eliminacion de insulina, fueron trata-dos especımenes de tejidos pancreaticos de animales experimentales con cinco estimulantesdiferentes. Mas tarde fue determinada la cantidad de insulina eliminada obteniendose lossiguientes resultados:

Estimulante Observaciones

1 1′53 1′61 3′75 2′89 3′26 2′83 2′86 2′592 3′15 3′96 3′59 1′89 1′45 3′49 1′56 2′443 3′89 4′80 3′68 5′70 5′62 5′79 4′75 5′334 8′18 5′64 7′36 5′33 8′82 5′26 8′75 7′105 5′86 5′46 5′69 6′49 7′81 9′03 7′49 8′98

Se quiere saber si existe diferencia significativa entre los estimulantes, en relacion con lacantidad de insulina eliminada. Es decir, se quiere contrastar la hipotesis nula H0 : µ1 =µ2 = µ3 = µ4 = µ5 frente a la alternativa H1 : alguna distinta, utilizando un disenocompletamente aleatorizado.

Alfonso

Garc

ıaPere


En el siguiente programa SAS a utilizar hemos anadido, [1], los tests de comparacionesmultiples habituales; es decir, los tests LSD y HSD para la variable estimula

DATA insulina;

INPUT estimula insulina @@;

CARDS;

1 1.53 1 1.61 1 3.75 1 2.89 1 3.26 1 2.83 1 2.86 1 2.59

2 3.15 2 3.96 2 3.59 2 1.89 2 1.45 2 3.49 2 1.56 2 2.44

3 3.89 3 4.80 3 3.68 3 5.70 3 5.62 3 5.79 3 4.75 3 5.33

4 8.18 4 5.64 4 7.36 4 5.33 4 8.82 4 5.26 4 8.75 4 7.10

5 5.86 5 5.46 5 5.69 5 6.49 5 7.81 5 9.03 5 7.49 5 8.98

;

PROC GLM;

CLASS estimula;

MODEL insulina = estimula;

MEANS estimula / LSD TUKEY; [1]

RUN;

Con este programa se obtendrıan los siguientes resultados,


Class Level Information

Class Levels Values

ESTIMULA 5 1 2 3 4 5



Dependent Variable: INSULINASum of Mean

Source DF Squares Square F Value Pr > F

Model 4 154.9199350 38.7299838 29.75 0.0001

Error 35 45.5573750 1.3016393[1]


[2]

R-Square C.V. Root MSE INSULINA Mean

0.772755 23.32401 1.140894 4.89150000


Dependent Variable: INSULINA


ESTIMULA 4 154.9199350 38.7299838 29.75 0.0001


ESTIMULA 4 154.9199350 38.7299837 29.75 0.0001

Alfonso

Garc

ıaPere


[3] [4]


T tests (LSD) for variable: INSULINA

NOTE: This test controls the type I comparisonwise error rate not

the experimentwise error rate.

Alpha= 0.05 df= 35 MSE= 1.301639Critical Value of T= 2.03

Least Significant Difference= 1.1581 [5]

Means with the same letter are not significantly different.

T Grouping Mean N ESTIMULA

A 7.101 8 5A

A 7.055 8 4


T Grouping Mean N ESTIMULA

B 4.945 8 3

C 2.691 8 2C

C 2.665 8 1


Tukey’s Studentized Range (HSD) Test for variable: INSULINA

NOTE: This test controls the type I experimentwise error rate, butgenerally has a higher type II error rate than REGWQ.

Alpha= 0.05 df= 35 MSE= 1.301639Critical Value of Studentized Range= 4.066

Minimum Significant Difference= 1.6401 [6]


Tukey Grouping Mean N ESTIMULA

A 7.101 8 5

AA 7.055 8 4


Tukey Grouping Mean N ESTIMULA

B 4.945 8 3

C 2.691 8 2

CC 2.665 8 1

De ellos se obtiene tanto la suma de cuadrados residual, [1], como la suma total de cuadrados,[2]; no obstante, el resultado mas interesante es el valor del estadıstico, [3], ası como su

Alfonso

Garc

ıaPere


p-valor, [4], que sugieren rechazar la hipotesis nula de igualdad de los efectos medios de loscinco estimulantes.El primer test de comparaciones multiples, el LSD, proporciona, [5], para un nivel de signi-ficacion α = 0′05, un valor LSD igual a 1′1581, y unos grupos de tratamientos iguales {5, 4},{3} y {2, 1}.El test de Tukey proporciona, para el mismo nivel de significacion, un HSD, [6], igual a1′6401 y los mismos grupos de tratamientos que el test anterior.

Ejemplo 5.3 (CB-ejemplo 14.6)Los datos de la tabla de la pagina siguiente corresponden al nivel de educacion (primeracolumna) y al nivel de ingresos (segunda columna) de 294 personas encuestadas en LosAngeles en donde los niveles de educacion fueron: 1-Menos de high school, 2-Algo de high

school, 3-Completada la high school, 4-Algo de college, 5-Completado el college, 6-Finalizadauna licenciatura, y 7-Finalizado un doctorado. Los ingresos se midieron en miles de dolarespor ano.Se pretendıa hacer una analisis de la varianza con objeto de averiguar si considerando comovariable dependiente los ingresos, existıa diferencia entre los distintos grados de educacion.Con objeto de no rechazar de forma evidente la igualdad de los siete niveles, estos se agrupa-ron en cuatro (tratamientos): no grad el cual comprende los niveles 1 y 2, hs grad el cualcomprende el nivel 3, some col el cual comprende el nivel 4, y col grad el cual comprendelos niveles 5 a 7.

+-----------+-----------+-----------+-----------+-----------+-----------+| 2 4 | 2 5 | 5 19 | 4 7 | 3 19 | 3 7 |

| 4 15 | 4 28 | 3 8 | 3 13 | 2 7 | 3 9 || 3 28 | 4 5 | 6 65 | 3 5 | 4 19 | 2 9 || 3 9 | 2 7 | 3 35 | 5 8 | 3 19 | 5 55 |

| 3 35 | 2 23 | 5 35 | 5 5 | 3 6 | 4 15 || 3 11 | 5 6 | 3 13 | 3 11 | 3 8 | 5 2 |

| 2 11 | 2 20 | 6 7 | 3 19 | 3 28 | 2 11 || 3 9 | 3 23 | 5 18 | 3 16 | 4 28 | 3 28 |

| 3 23 | 2 15 | 4 23 | 5 35 | 5 23 | 4 13 || 2 35 | 3 28 | 2 27 | 5 32 | 2 23 | 4 35 || 2 25 | 3 6 | 3 9 | 6 35 | 2 23 | 3 15 |

| 3 24 | 4 35 | 3 15 | 5 65 | 2 28 | 6 13 || 2 28 | 3 23 | 5 23 | 7 42 | 2 6 | 1 13 |

| 3 13 | 1 8 | 2 2 | 3 5 | 3 8 | 2 9 || 3 15 | 2 9 | 7 23 | 4 36 | 1 5 | 3 23 || 2 6 | 4 28 | 5 19 | 7 65 | 3 15 | 3 9 |

| 4 8 | 3 11 | 5 15 | 6 45 | 3 11 | 3 15 || 2 19 | 7 45 | 5 15 | 5 55 | 3 19 | 4 15 |

| 6 15 | 4 19 | 5 8 | 3 19 | 3 35 | 5 23 || 2 9 | 4 4 | 2 9 | 2 8 | 3 11 | 7 65 |

| 3 6 | 4 45 | 3 65 | 3 19 | 2 45 | 5 35 || 3 35 | 5 13 | 3 9 | 2 9 | 4 65 | 5 13 || 3 7 | 2 2 | 5 19 | 1 5 | 4 65 | 3 15 |

| 3 19 | 5 7 | 2 2 | 2 19 | 4 55 | 3 11 || 3 6 | 3 12 | 2 4 | 3 6 | 5 28 | 4 11 |

| 2 19 | 3 12 | 3 9 | 3 4 | 3 13 | 2 8 || 3 13 | 3 65 | 4 7 | 3 6 | 7 31 | 3 6 |

| 2 5 | 2 7 | 4 9 | 4 55 | 5 7 | 5 23 || 3 19 | 2 11 | 6 15 | 5 23 | 4 15 | 5 6 || 3 20 | 2 7 | 3 15 | 3 23 | 4 8 | 3 35 |

| 5 19 | 2 5 | 5 19 | 3 15 | 4 55 | 4 45 || 4 45 | 2 4 | 3 11 | 3 13 | 6 45 | 5 35 |

| 3 35 | 2 7 | 1 7 | 3 9 | 4 35 | 3 28 || 3 23 | 3 13 | 4 8 | 3 19 | 4 65 | 2 4 || 3 23 | 6 35 | 5 13 | 2 6 | 5 11 | 4 13 |

| 3 15 | 5 35 | 3 35 | 2 7 | 4 55 | 3 35 || 4 19 | 3 11 | 3 15 | 3 23 | 3 7 | 4 35 |

Alfonso

Garc

ıaPere


| 2 15 | 7 13 | 6 45 | 3 7 | 3 13 | 3 28 || 2 23 | 3 28 | 5 45 | 3 13 | 3 19 | 2 28 |

| 5 23 | 3 19 | 5 2 | 2 5 | 3 45 | 7 23 || 3 11 | 2 2 | 3 9 | 2 15 | 3 45 | 5 35 |

| 7 23 | 4 8 | 4 13 | 2 9 | 4 37 | 4 55 || 6 55 | 4 15 | 6 45 | 3 2 | 3 23 | 6 28 || 4 28 | 2 19 | 2 20 | 4 45 | 3 19 | 3 9 |

| 3 23 | 5 65 | 3 28 | 2 4 | 2 7 | || 2 9 | 2 7 | 4 35 | 2 24 | 3 15 | |

| 3 35 | 4 8 | 3 11 | 5 45 | 3 15 | || 5 35 | 3 4 | 4 9 | 2 9 | 3 9 | |

| 6 55 | 2 11 | 3 19 | 3 26 | 3 28 | || 4 11 | 5 45 | 3 28 | 3 23 | 2 8 | |+-----------+-----------+-----------+-----------+-----------+-----------+

Ademas, vimos en CB que con objeto de conseguir homocedasticidad deberıamos transformarlos datos mediante la transformacion de Box-Cox siguiente

x1−0′86672 − 1

1 − 0′86672

Por estas razones, el programa SAS a utilizar sera el siguiente

DATA educacio;INPUT educacio ingresos @@; [1]

if educacio < 3 then grado = 1; [2]if educacio = 3 then grado = 2; [2]

if educacio = 4 then grado = 3; [2]if educacio > 4 then grado = 4; [2]renta =((ingresos)**(0.13328)-1)/0.13328; [3]

CARDS;2 4 2 5 5 19 4 7 3 19 3 7

4 15 4 28 3 8 3 13 2 7 3 93 28 4 5 6 65 3 5 4 19 2 93 9 2 7 3 35 5 8 3 19 5 55

3 35 2 23 5 35 5 5 3 6 4 153 11 5 6 3 13 3 11 3 8 5 2

2 11 2 20 6 7 3 19 3 28 2 113 9 3 23 5 18 3 16 4 28 3 28

3 23 2 15 4 23 5 35 5 23 4 132 35 3 28 2 27 5 32 2 23 4 352 25 3 6 3 9 6 35 2 23 3 15

3 24 4 35 3 15 5 65 2 28 6 132 28 3 23 5 23 7 42 2 6 1 13

3 13 1 8 2 2 3 5 3 8 2 93 15 2 9 7 23 4 36 1 5 3 232 6 4 28 5 19 7 65 3 15 3 9

4 8 3 11 5 15 6 45 3 11 3 152 19 7 45 5 15 5 55 3 19 4 15

6 15 4 19 5 8 3 19 3 35 5 232 9 4 4 2 9 2 8 3 11 7 65

3 6 4 45 3 65 3 19 2 45 5 353 35 5 13 3 9 2 9 4 65 5 133 7 2 2 5 19 1 5 4 65 3 15

3 19 5 7 2 2 2 19 4 55 3 113 6 3 12 2 4 3 6 5 28 4 11

2 19 3 12 3 9 3 4 3 13 2 83 13 3 65 4 7 3 6 7 31 3 6

2 5 2 7 4 9 4 55 5 7 5 233 19 2 11 6 15 5 23 4 15 5 63 20 2 7 3 15 3 23 4 8 3 35

5 19 2 5 5 19 3 15 4 55 4 454 45 2 4 3 11 3 13 6 45 5 35

3 35 2 7 1 7 3 9 4 35 3 283 23 3 13 4 8 3 19 4 65 2 43 23 6 35 5 13 2 6 5 11 4 13

3 15 5 35 3 35 2 7 4 55 3 354 19 3 11 3 15 3 23 3 7 4 35

Alfonso

Garc

ıaPere


2 15 7 13 6 45 3 7 3 13 3 282 23 3 28 5 45 3 13 3 19 2 28

5 23 3 19 5 2 2 5 3 45 7 233 11 2 2 3 9 2 15 3 45 5 35

7 23 4 8 4 13 2 9 4 37 4 556 55 4 15 6 45 3 2 3 23 6 284 28 2 19 2 20 4 45 3 19 3 9

3 23 5 65 3 28 2 4 2 72 9 2 7 4 35 2 24 3 15

3 35 4 8 3 11 5 45 3 155 35 3 4 4 9 2 9 3 9

6 55 2 11 3 19 3 26 3 284 11 5 45 3 28 3 23 2 8

;

PROC GLM;CLASS grado;

MODEL renta = grado; [4]MEANS grado / LSD TUKEY; [5]

RUN;

En el se observa, [1], como los datos que apareceran despues de CARDS se refieren a lasvariables educacio e ingresos. A continuacion, [2], aparecen los comandos con los que conse-guir el agrupamiento de niveles de educacio antes mencionado, definiendo una nueva variabledenominada grado, la cual solo tomara valores de 1 a 4.

En [3] se define una nueva variable, renta resultado de transformar ingreso por la transfor-macion de Box-Tiao antes mencionada con objeto de obtener homocedasticidad.

El modelo, en [4], se construye precisamente con esas dos nuevas variables. Se piden, en[5], los dos tests de comparaciones multiples habituales, previendo un rechazo de la hipotesisnula de igualdad de los efectos medios de los cuatro niveles de grado.

Los resultados obtenidos con este programa fueron


Class Levels Values

GRADO 4 1 2 3 4



Dependent Variable: RENTA


Model 3 62.25841106 20.75280369 19.78 0.0001

Error 290 304.26903874 1.04920358[1]

Corrected Total 293 366.52744979[2]

R-Square C.V. Root MSE RENTA Mean

0.169860 30.37113 1.024306 3.37263137

Alfonso

Garc

ıaPere



Dependent Variable: RENTA


GRADO 3 62.25841106 20.75280369 19.78 0.0001


GRADO 3 62.25841106 20.75280369 19.78 0.0001 [3]


T tests (LSD) for variable: RENTA

NOTE: This test controls the type I comparisonwise error rate notthe experimentwise error rate.

Alpha= 0.05 Confidence= 0.95 df= 290 MSE= 1.049204

Critical Value of T= 1.96818 [4]

Comparisons significant at the 0.05 level are indicated by ’***’.


Lower Difference Upper

GRADO Confidence Between ConfidenceComparison Limit Means Limit

4 - 3 -0.273 0.110 0.4924 - 2 0.309 0.621 0.933 *** [5]

4 - 1 0.900 1.251 1.602 *** [5]

3 - 4 -0.492 -0.110 0.2733 - 2 0.164 0.511 0.858 *** [6]

3 - 1 0.759 1.141 1.524 *** [6]

2 - 4 -0.933 -0.621 -0.309 *** [7]

2 - 3 -0.858 -0.511 -0.164 *** [7]2 - 1 0.319 0.630 0.942 *** [7]

1 - 4 -1.602 -1.251 -0.900 *** [8]

1 - 3 -1.524 -1.141 -0.759 *** [8]1 - 2 -0.942 -0.630 -0.319 *** [8]


Tukey’s Studentized Range (HSD) Test for variable: RENTA

NOTE: This test controls the type I experimentwise error rate.

Alpha= 0.05 Confidence= 0.95 df= 290 MSE= 1.049204Critical Value of Studentized Range= 3.654

Alfonso

Garc

ıaPere


Comparisons significant at the 0.05 level are indicated by ’***’.

Simultaneous SimultaneousLower Difference Upper

GRADO Confidence Between ConfidenceComparison Limit Means Limit

4 - 3 -0.392 0.110 0.6124 - 2 0.211 0.621 1.030 ***

4 - 1 0.791 1.251 1.712 ***

3 - 4 -0.612 -0.110 0.3923 - 2 0.055 0.511 0.966 ***3 - 1 0.639 1.141 1.643 ***

2 - 4 -1.030 -0.621 -0.211 ***

2 - 3 -0.966 -0.511 -0.055 ***2 - 1 0.221 0.630 1.040 ***

1 - 4 -1.712 -1.251 -0.791 ***1 - 3 -1.643 -1.141 -0.639 ***

1 - 2 -1.040 -0.630 -0.221 ***

En ellos se obtiene la suma de cuadrados del error, [1], ası como la suma total de cuadrados,[2].

La suma de cuadrados debida al factor en estudio, grado, y mas en concreto su p-valor,[3], llevan a rechazar la hipotesis nula de igualdad de los efectos medios de los cuatrotratamientos.

El estadıstico del test LSD, dado en [4] y de valor 1′96818, lleva, [5], a diferencias signi-ficativas —a nivel 0′05— entre los tratamientos 4 y 2 ası como entre los tratamientos 4 y1.

Tambien, [6], entre el 3 y el 2 y 3 y 1, y por ultimo, [7] y [8], del 2 y del 1 con todos losdemas. Los grupos de tratamientos que este test nos sugiere son, por tanto, {1}, {2}, {3, 4}.

El test de Tukey, al mismo nivel de significacion suministra los mismos grupos de equivalencia.


seno por bloques aleatorizados



Se quiere averiguar si tres tipos de complejos vitamınicos I , II y III , producen los mismosefectos respecto al aumento de peso en conejos.

Con este proposito se penso realizar un diseno completamente aleatorizado. No obstante, elinvestigador cree que dicho estudio puede verse alterado al ser los conejos de cuatro razasdiferentes, por lo que eligio tres conejos de cada una de las razas, asignando al azar los trescomplejos vitamınicos entre cada terna.

Los resultados obtenidos respecto al aumento de peso, en gramos, fueron

Razas A B C DComp. vitamınicos

I 94 89 87 98II 92 86 86 92III 90 86 84 82

Alfonso

Garc

ıaPere


Se trata de un diseno por bloques, siendo el programa SAS a utilizar el siguiente

DATA conejos;

INPUT vitamina raza $ peso @@;

CARDS;

1 A 94 1 B 89 1 C 87 1 D 98

2 A 92 2 B 86 2 C 86 2 D 92

3 A 90 3 B 86 3 C 84 3 D 82

;

PROC GLM;

CLASS vitamina raza;

MODEL peso = vitamina raza;

RUN;

con el que se obtuvieron los siguientes resultados


Class Levels Values

VITAMINA 3 1 2 3

RAZA 4 A B C D



Dependent Variable: PESOSum of Mean


Model 5 165.0000000 33.0000000 3.06 0.1028

Error 6 64.6666667 10.7777778

[1]


[2]

R-Square C.V. Root MSE PESO Mean

0.718433 3.695631 3.282953 88.8333333




VITAMINA 2 84.66666667 42.33333333 3.93 0.0812RAZA 3 80.33333333 26.77777778 2.48 0.1580


Alfonso

Garc

ıaPere


VITAMINA 2 84.66666667 42.33333333 3.93 0.0812 [4]RAZA 3 80.33333333 26.77777778 2.48 0.1580

[3]

En ellos se observa, en una primera tabla, la suma de cuadrados del error, [1], igual a 64′667,ası como la suma total de cuadrados, [2], igual a 229′667.De la segunda tabla se obtiene la suma de cuadrados debida a las razas (bloques), [3], y ladebida a los tratamientos, 84′667, que junto con el p-valor asociado, [4], indican rechazar lahipotesis nula de igualdad de los efectos medios de tres complejos vitamınicos para nivelesde significacion mayores que 0′0812.


seno de cuadrado latino


Ejemplo 5.5 (CB-ejemplo 8.4)Con objeto de estudiar el efecto contaminante de cuatro tipos de gasolina A, B, C y D, serealizo un experimento probando las cuatro gasolinas en diferentes coches, pilotados estospor diferentes conductores.El investigador piensa que la marca del vehıculo puede ser un factor perturbador al consi-derar que aun con el mismo tipo de gasolina, diferentes coches producen diferentes efectoscontaminates.Al mismo tiempo cree que los conductores no son igual de expertos, por lo que el tipo deconduccion puede ser otra fuente de variacion adicional no deseada.Por tanto, con objeto de comparar los cuatro tipos de gasolina, es decir, contrastar la hipotesisnula H0 : µA = µB = µC = µD frente a H1 : no todas iguales , el investigador utilizo elsiguiente diseno de cuadrado latino 4 × 4

Coche

1 2 3 4

1 A B D CConductor 2 D C A B

3 B D C A4 C A B D

el cual proporciono unos resultados en cuanto a reduccion de oxidos de nitrogeno de

Coche

1 2 3 4

1 21 26 20 25Conductor 2 23 26 20 27

3 15 13 16 164 17 15 20 20

Para contrastar las hipotesis{

H0 : µA = µB = µC = µD

H1 : alguna distintael programa SAS a utilizar serıa

el siguiente

Alfonso

Garc

ıaPere


DATA gasolina;

INPUT conducto coche gasolina $ oxidos @@;

CARDS;

1 1 A 21 1 2 B 26 1 3 D 20 1 4 C 25

2 1 D 23 2 2 C 26 2 3 A 20 2 4 B 27

3 1 B 15 3 2 D 13 3 3 C 16 3 4 A 16

4 1 C 17 4 2 A 15 4 3 B 20 4 4 D 20

;

PROC GLM;

CLASS conducto coche gasolina;

MODEL oxidos = conducto coche gasolina;

RUN;




Class Levels Values

CONDUCTO 4 1 2 3 4

COCHE 4 1 2 3 4

GASOLINA 4 A B C D



Dependent Variable: OXIDOSSum of Mean


Model 9 280.0000000 31.1111111 11.67 0.0037

Error 6 16.0000000 2.6666667

[1]


R-Square C.V. Root MSE OXIDOS Mean

0.945946 8.164966 1.632993 20.0000000


Dependent Variable: OXIDOS


CONDUCTO 3 216.0000000 72.0000000 27.00 0.0007

COCHE 3 24.0000000 8.0000000 3.00 0.1170GASOLINA 3 40.0000000 13.3333333 5.00 0.0452


CONDUCTO 3 216.0000000 72.0000000 27.00 0.0007COCHE 3 24.0000000 8.0000000 3.00 0.1170

Alfonso

Garc

ıaPere


GASOLINA 3 40.0000000 13.3333333 5.00 0.0452 [3]

De donde se obtiene, [1], la suma residual de cuadrados, igual a 16, ası como la suma totalde cuadrados, [2], igual a 296.

En la siguiente tabla se obtienen las restantes sumas de cuadrados: La suma de cuadradosdebida a los conductores, 216, la debida a los coches, 24, y la debida a los tratamientos—gasolina— igual a 40, cuyo p-valor asociado, [3], indica rechazar la hipotesis nula deigualdad de los cuatro tipos de gasolina a niveles de significacion superiores a 0′0452.

5.6. Analisis de la varianza para dos factores y un

Diseno completamente aleatorizado



Un investigador esta interesado en averiguar si el asma bronquial es una enfermedad alergicacuya virulencia depende de la estacion.

Ademas, dispone de tres farmacos antihistamınicos A, B y C, cuya eficacia desea comparar.

Para ello, tomo una muestra de 48 personas con asma cronico de intensidad analoga, divididasen 12 grupos, uno para cada farmaco y estacion. Los resultados, evaluados en una escala de0 a 100, fueron los siguientes:

Farmaco A B CEstacion

Primavera 23 28 32 18 56 58 53 55 42 41 36 37Verano 32 41 43 48 64 58 67 72 51 53 55 60Otono 18 16 21 10 48 50 47 47 28 31 23 33

Invierno 30 40 33 47 60 61 63 59 56 60 61 55

Determinar si existe diferencia significativa entre los tres farmacos; ¿y entre las cuatro esta-ciones? Existe interaccion entre ambos factores?

El programa SAS que utilizaremos en el analisis es el siguiente

DATA asma;

INPUT estacion $ farmaco $ asma @@;

CARDS;

P A 23 P A 28 P A 32 P A 18 P B 56 P B 58 P B 53 P B 55

P C 42 P C 41 P C 36 P C 37 V A 32 V A 41 V A 43 V A 48

V B 64 V B 58 V B 67 V B 72 V C 51 V C 53 V C 55 V C 60

O A 18 O A 16 O A 21 O A 10 O B 48 O B 50 O B 47 O B 47

O C 28 O C 31 O C 23 O C 33 I A 30 I A 40 I A 33 I A 47

I B 60 I B 61 I B 63 I B 59 I C 56 I C 60 I C 61 I C 55

;

PROC GLM;

CLASS estacion farmaco;

MODEL asma = estacion farmaco estacion*farmaco; [1]

RUN;

Alfonso

Garc

ıaPere


en donde se observa como novedad, [1], la incorporacion de la interaccion entre estacion yfarmaco, estacion*farmaco, como fuente de variacion en el modelo. Con el se obtuvieronlos siguientes resultados



Class Levels Values

ESTACION 4 I O P V

FARMACO 3 A B C



Dependent Variable: ASMASum of Mean


Model 11 10488.16667 953.46970 44.78 0.0001

Error 36 766.50000 21.29167

[1]


R-Square C.V. Root MSE ASMA Mean

0.931895 10.44745 4.614289 44.1666667


Dependent Variable: ASMA


ESTACION 3 4132.166667 1377.388889 64.69 0.0001

FARMACO 2 6017.166667 3008.583333 141.30 0.0001ESTACION*FARMACO 6 338.833333 56.472222 2.65 0.0311


ESTACION 3 4132.166667 1377.388889 64.69 0.0001 [3]FARMACO 2 6017.166667 3008.583333 141.30 0.0001 [4]

ESTACION*FARMACO 6 338.833333 56.472222 2.65 0.0311 [5]

La suma de cuadrados debida al error, [1], y la suma total de cuadrados, [2], se obtienen,como siempre, en la primera tabla.Las sumas de cuadrados debidas a la estacion, al farmaco y a la interaccion, ası como susp-valores, [3], [4] y [5] respectivamente, conducen a rechazar la hipotesis nula de igualdadde los efectos medios de las cuatro estaciones, a rechazar tambien la de igualdad de los tresfarmacos y, por ultimo, a aceptar la hipotesis nula de ausencia de interaccion entre ambosfactores a niveles de significacion menores a 0′0311.

Alfonso

Garc

ıaPere


5.7. Analisis de la regresion lineal simple

El desarrollo teorico de esta seccion puede seguirse en las secciones 9.2 y9.3 de CB.

Ejemplo 5.7 (CB-ejemplo 9.1)Se midio el contenido de oxıgeno, variable Y , a diversas profundidades, variable X, en ellago Worther de Australia, obteniendose los siguientes datos, en miligramos por litro

X 15 20 30 40 50 60 70

Y 6′5 5′6 5′4 6 4′6 1′4 0′1

Con objeto de determinar la recta de mınimos cuadrados y contrastar su validez, empleare-mos el siguiente programa SAS

DATA oxigeno;

INPUT profun oxigeno @@;

CARDS;

15 6.5 20 5.6 30 5.4 40 6 50 4.6 60 1.4 70 0.1

;

PROC GLM;

MODEL oxigeno = profun;

RUN;





Dependent Variable: OXIGENOSum of Mean


Model 1 29.48095710 29.48095710 20.32 0.0064 [4]

[1]

Error 5 7.25332861 1.45066572[2]


R-Square C.V. Root MSE OXIGENO Mean

0.802546 28.48328 1.204436 4.22857143[5]


Dependent Variable: OXIGENO


Alfonso

Garc

ıaPere


PROFUN 1 29.48095710 29.48095710 20.32 0.0064


PROFUN 1 29.48095710 29.48095710 20.32 0.0064

T for H0: Pr > |T| Std Error ofParameter Estimate Parameter=0 Estimate

INTERCEPT 8.631019830 8.01 0.0005 1.07747090

PROFUN -0.108130312 -4.51 [7] 0.0064 [8] 0.02398614[6]

De la primera tabla se obtienen las tres sumas de cuadrados que forman la tabla de analisisde la varianza para la regresion; la debida al modelo, [1], que toma en el ejemplo el valor29′4809, la residual, [2], igual a 7′2533 y la suma total de cuadrados, [3], de valor 36′73428.El p-valor del test, [4], en el que la hipotesis nula es la falta de relacion lineal entre ambasvariables, sugiere rechazar dicha hipotesis nula, concluyendo el analisis con una relacionlineal significativa entre el contenido de oxıgeno y la profundidad, relacion confirmada porel cuadrado del coeficiente de correlacion, [5], igual a 0′802546, denominado coeficiente dedeterminacion —vease CB-seccion 2.4.3.Mas abajo, [6], se obtiene la ecuacion de la recta de mınimos cuadrados,

OXIGENO = 8′63101983 − 0′10813 · PROFUN

ası como, [7], una forma alternativa de contrastar la regresion lineal, considerando comohipotesis nula la igualdad a cero del coeficiente de regresion, H0 : β = 0, sugiriendonos elp-valor del test, [8], tambien el rechazo de esta hipotesis nula.

5.8. Analisis de la regresion lineal multiple

El desarrollo teorico de esta seccion puede seguirse en las secciones 10.2 y10.3 de CB.

Ejemplo 5.8 (CB-ejemplo 10.1)Se considero que el numero de admisiones previas del paciente, X1, y su edad, X2, podıanservir para predecir la estancia en dias, Y , que pasaban en un determinado hospital ciertosenfermos cronicos.Con dicho proposito se tomo una muestra aleatoria simple de 15 pacientes la cual propor-ciono los siguientes datos

X1 0 0 0 1 1 1 1 2 2 2 3 3 4 4 5

X2 21 18 22 24 25 25 26 34 25 38 44 51 39 54 55

Y 15 15 21 28 30 35 40 35 30 45 50 60 45 60 50

Con objeto de realizar un analisis de la regresion lineal multiple, el programa SAS a utilizarserıa el siguiente

DATA hospital;

INPUT previas edad estancia @@;

CARDS;

0 21 15 0 18 15 0 22 21 1 24 28 1 25 30 1 25 35 1 26 40

2 34 35 2 25 30 2 38 45 3 44 50 3 51 60 4 39 45 4 54 60

Alfonso

Garc

ıaPere


5 55 50

;

PROC GLM;

MODEL estancia = previas edad;

RUN;

con el que se obtendrıan los siguiente resultados




Dependent Variable: ESTANCIA


Model 2 2502.390123 1251.195061 34.08 0.0001 [4][1]

Error 12 440.543211 36.711934

[2]


[3]

R-Square C.V. Root MSE ESTANCIA Mean

0.850305 16.25860 6.059037 37.2666667[5]




PREVIAS 1 2122.017303 2122.017303 57.80 0.0001EDAD 1 380.372820 380.372820 10.36 0.0074


PREVIAS 1 0.0174603 0.0174603 0.00 0.9830

EDAD 1 380.3728198 380.3728198 10.36 0.0074



T for H0: Pr > |T| Std Error ofParameter Estimate Parameter=0 Estimate

INTERCEPT 2.085724401 0.31 0.7623 6.73931143

PREVIAS 0.056987338 0.02 0.9830 2.61310424EDAD 1.050022956 3.22 0.0074 0.32621031

[6] [7]

en los que se aprecia la suma de cuadrados debida a la regresion lineal multiple, [1], SSEX =2502′39, la suma residual de cuadrados, [2], igual a SSNEX = 440′5432, ası como la sumatotal de cuadrados, igual a SST = 2942′933.

Alfonso

Garc

ıaPere


El p-valor, [4], conduce a inferir una significativa regresion lineal multiple, confirmada porel coeficiente de determinacion multiple, [5], igual a R2

y,12 = 0′850305, dada por la ecuacion,[6],

ESTACIA = 2′085724 + 0′05698 · PREVIAS + 1′05 · EDAD

No obstante, si se observa la columna [7] de p-valores asociados a los coeficientes de regre-sion, vemos que se deberıa de prescindir de la covariable PREVIAS, debiendo volver a ejecutarel programa sin esta covariable para obtener las estimaciones de los coeficientes de regresion.

5.9. Analisis de la covarianza para un factor y un

diseno completamente aleatorizado

El desarrollo teorico de esta seccion puede seguirse en la seccion 11.2 deCB.

Ejemplo 5.9 (CB-ejemplo 11.1)Se efectuo un experimento con dos grupos de ratones asignados aleatoriamente, con objetode determinar si existen diferencias significativas entre dos dietas, A y B.Se piensa que las diferencias de peso iniciales entre los ratones pueden falsear los resultadosdel experimento, por lo que se midieron los pesos de estos tanto antes de iniciar el tratamiento,X, como despues de realizado, Y . Los resultados obtenidos fueron los siguientes

Dieta A Dieta B

Predieta Postdieta Predieta Postdieta

Animal XA YA Animal XB YB

1 60 80 1 58 812 55 81 2 46 583 54 78 3 50 754 50 72 4 39 605 38 51 5 41 596 42 54 6 45 607 50 78 7 42 588 45 59 8 55 729 43 61 9 52 7510 52 78 10 45 57

Con objeto de hacer un analisis de la covarianza, el programa SAS a utilizar serıa el siguiente

DATA dietas;

INPUT dieta $ predieta posdieta @@;

CARDS;

A 60 80 A 55 81 A 54 78 A 50 72 A 38 51 A 42 54 A 50 78

A 45 59 A 43 61 A 52 78 B 58 81 B 46 58 B 50 75 B 39 60

B 41 59 B 45 60 B 42 58 B 55 72 B 52 75 B 45 57

;

Alfonso

Garc

ıaPere


PROC GLM;

CLASS dieta;

MODEL posdieta = dieta predieta;

RUN;




Class Levels Values

DIETA 2 A B



Dependent Variable: POSDIETA


Model 2 1711.807614 855.903807 43.21 0.0001

Error 17 336.742386 19.808376[1]


R-Square C.V. Root MSE POSDIETA Mean

0.835619 6.608256 4.450660 67.3500000


Dependent Variable: POSDIETA


DIETA 1 68.450000 68.450000 3.46 0.0804

PREDIETA 1 1643.357614 1643.357614 82.96 0.0001


[2] [3]DIETA 1 9.069361 9.069361 0.46 0.5077 [4]PREDIETA 1 1643.357614 1643.357614 82.96 0.0001 [6]

[5]

La suma de cuadrados residual, [1], la obtenemos, como siempre, de la primera tabla; eneste caso es igual a SSE = 336′7423.Al ser un analisis de la covarianza, la suma de cuadrados de la tratamientos, [2], la debemosbuscar en la segunda tabla, al igual que en el caso del analisis de la varianza. En este casotoma el valor SSTi = 9′069361.El valor del estadıstico del contraste, que tiene como hipotesis nula la igualdad de los efectosmedios de las dos dietas, se obtiene en [3] y es igual a 0′46, siendo el p-valor asociado, [4],igual a 0′5077 lo suficientemente claro como para inferir dicha igualdad.

Alfonso

Garc

ıaPere


En [5] y [6] se obtiene, respectivamente, el valor del estadıstico y el p-valor del contrasteque tiene como hipotesis nula la falta de regresion lineal entre la predieta y la posdieta; esdecir, que tiene como hipotesis nula que el analisis de la covarianza no ha sido adecuado.Dicho p-valor, igual a 0′0001 es lo suficientemente significativo como para rechazar de formaclara dicha hipotesis nula.

Ejemplo 5.10 (problema 11.1)Se quiere averiguar si existen diferencias significativas entre cuatro insecticidas empleadospara fumigar campos de cultivo; estos son, clorodinitrobenceno (CN), sulfuro de carbono

(SC), y dos productos comerciales, Cymag (CM) y Seekay (CK).Para ello se aplicaron al azar los cuatro insecticidas en 16 parcelas, observandose, despuesde fumigar, el numero de quistes, yij , encontrados en 40 gramos de tierra. Los resultadosfueron los siguientes:

yij

CN 106 126 110 102SC 92 87 79 99CM 143 124 130 140CK 89 110 92 100

¿Que diseno utilizarıa para analizar los datos anteriores? ¿Que conclusiones obtendrıa conel?Un analisis de las parcelas donde se iba a realizar el experimento fue llevado a cabo unosdıas antes, obteniendose los siguientes datos sobre el numero de quistes por cada 40 gramosde tierra, xij , correspondiendose la posicion de estos con los de la tabla anterior; es decir,para la parcela donde se obtuvo una y11 = 106 era x11 = 212, etc.

xij

212 250 199 195190 205 150 203295 245 250 285175 199 190 195

Si quisiera utilizar esta informacion, ¿que diseno elegirıa? ¿Que conclusiones obtendrıa conel?

Para la primera parte del problema, el diseno a utilizar (CB-seccion 8.2) es un Diseno Com-pletamente Aleatorizado para un factor, insecticida, el cual actua a cuatro niveles, CN, SC,CM y CK, siendo nuestro proposito el tratar de averiguar si presentan diferencias significati-vas, contrastando, mediante dicho diseno, la hipotesis nula H0 : µCN = µSC = µCM = µCK

frente a la alternativa de no ser todos iguales.Previendo la existencia de diferencias significativas entre los cuatro tratamientos, en el si-guiente programa SAS hemos requerido las habituales comparaciones multiples.

DATA insecti;

INPUT insecti quistes @@;

CARDS;

1 106 1 126 1 110 1 102 2 92 2 87 2 79 2 99

3 143 3 124 3 130 3 140 4 89 4 110 4 92 4 100

;

PROC GLM;

Alfonso

Garc

ıaPere


CLASS insecti;

MODEL quistes = insecti;

MEANS insecti / LSD TUKEY;

RUN;



Class Levels Values

INSECTI 4 1 2 3 4



Dependent Variable: QUISTES


Model 3 4618.687500 1539.562500 17.73 0.0001

Error 12 1042.250000 86.854167


R-Square C.V. Root MSE QUISTES Mean

0.815887 8.624230 9.319558 108.062500


Dependent Variable: QUISTES


INSECTI 3 4618.687500 1539.562500 17.73 0.0001


INSECTI 3 4618.687500 1539.562500 17.73 0.0001 [2][1]


T tests (LSD) for variable: QUISTES

NOTE: This test controls the type I comparisonwise error rate notthe experimentwise error rate.

Alpha= 0.05 df= 12 MSE= 86.85417

Critical Value of T= 2.18Least Significant Difference= 14.358


T Grouping Mean N INSECTI

A 134.250 4 3

B 111.000 4 1

BC B 97.750 4 4

Alfonso

Garc

ıaPere


CC 89.250 4 2


Tukey’s Studentized Range (HSD) Test for variable: QUISTES

NOTE: This test controls the type I experimentwise error rate, but

generally has a higher type II error rate than REGWQ.

Alpha= 0.05 df= 12 MSE= 86.85417

Critical Value of Studentized Range= 4.199Minimum Significant Difference= 19.565


Tukey Grouping Mean N INSECTI

A 134.250 4 3

B 111.000 4 1B

C B 97.750 4 4

CC 89.250 4 2

La tabla de Analisis de la Varianza proporciona un valor para el estadıstico del contraste,[1], igual a F = 17′73, cuyo p-valor asociado, [2], igual a 0′0001, es lo suficientementepequeno como para inferir diferencias significativas entre los cuatro tratamientos.Tanto el test LSD como el test de Tukey no son suficientemente concluyentes a nivel 0′05, alno ser totalmente disjuntos los grupos de tratamientos con diferencias no significativas; noobstante, la inferencia razonable serıa

{SC} ≺ {CN, CK} ≺ {CM}

en donde la ordenacion ≺ entre clases de tratamientos la obtenemos de las medias por grupos.

Si queremos utilizar la informacion adicional proporcionada por la covariable numero de

quistes observados antes de realizar el experimento, en el contraste de la hipotesis nulaanterior, H0 : µCN = µSC = µCM = µCK frente a la alternativa de no ser todos iguales,debemos hacer un Analisis de la Covarianza para un factor en dicho diseno completamentealeatorizado (CB-seccion 11.2), en cuyo caso, utilizaremos el siguiente programa SAS

DATA dietas;

INPUT insecti prequis posquis @@;

CARDS;

1 212 106 1 250 126 1 199 110 1 195 102

2 190 92 2 205 87 2 150 79 2 203 99

3 295 143 3 245 124 3 250 130 3 285 140

4 175 89 4 199 110 4 190 92 4 195 100

;

PROC GLM;

CLASS insecti;

MODEL posquis = insecti prequis;

RUN;


Alfonso

Garc

ıaPere



Class Levels Values

INSECTI 4 1 2 3 4



Dependent Variable: POSQUIS


Model 4 5375.044578 1343.761144 51.70 0.0001

Error 11 285.892922 25.990266[3]


R-Square C.V. Root MSE POSQUIS Mean

0.949497 4.717700 5.098065 108.062500


Dependent Variable: POSQUIS


INSECTI 3 4618.687500 1539.562500 59.24 0.0001

PREQUIS 1 756.357078 756.357078 29.10 0.0002


[4] [5]

INSECTI 3 268.8604726 89.6201575 3.45 0.0552 [6]PREQUIS 1 756.3570779 756.3570779 29.10 0.0002 [7]

La suma residual de cuadrados en el analisis de la covarianza se obtiene en [3], siendo eneste caso igual a 285′8929.La suma de cuadrados debida a los tratamientos, INSECTI, se obtiene en [4], siendo elestadıstico del contraste que tiene como hipotesis nula la igualdad de los efectos medios de loscuatro insecticidas el obtenido en [5] —igual a 3′45— sugiriendo el p-valor correspondiente,[6], aceptar dicha hipotesis nula a niveles de significacion menores que 0′0552.Por otro lado, el p-valor, [7], del contraste que tiene como hipotesis nula la ausencia derelacion lineal entre la variable dependiente Y y la covariable X, es lo suficientemente claro,al ser igual a 0′0002 como para rechazar dicha hipotesis nula y concluir el analisis confirmandola existencia de una correlacion —lineal— significativa entre dichas variables aleatorias.

Ejemplo 5.11 (problema 11.2)Se llevo a cabo un experimento con objeto de comparar la eficacia de cuatro anuncios televi-sivos de una determinada marca de leche. Para ello se emitio cada uno de los anuncios en uncanal autonomico diferente, observando el consumo, yij , de leche semanal (en litros), despues

Alfonso

Garc

ıaPere


de dos meses de emision, de cuatro familias elegidas al azar de cada region autonomica. Losresultados obtenidos fueron los siguientes:

yij

Anun. I 7 6 5 5Anun. II 3 4 6 4Anun. III 9 10 9 7Anun. IV 7 6 6 6

¿Que diseno utilizarıa para analizar los datos anteriores? ¿Que conclusiones obtendrıa conel?

Se considera que el numero de individuos, xij , que compone cada una de las familias elegidasal azar (dado por la siguiente tabla y en donde cada lugar (i, j) se corresponde con el mismo(i, j) de la tabla anterior; es decir, la familia que consumio y11 = 7 litros estaba formada porx11 = 4 miembros)

xij

4 3 2 31 2 3 24 5 5 34 3 3 2

puede alterar los resultados del experimento, por lo que parece razonable incorporar dichainformacion en el diseno.

Si quisiera utilizar esta informacion, ¿que diseno elegirıa? ¿Que conclusiones obtendrıa conel?

Puesto que se trata de comparar cuatro anuncios diferentes —cuatro tratamientos— el disenoa utilizar serıa un Diseno Completamente Aleatorizado para un factor (CB-seccion 8.2),anuncio, el cual actua a cuatro niveles, tratando de averiguar si estos presentan diferenciassignificativas, mediante el contraste de la hipotesis nula H0 : µAI = µAII = µAIII = µAIV

frente a la alternativa de no ser todos iguales.

Para contrastar dicha hipotesis nula utilizaremos el siguiente programa SAS, en el cual yahemos incluido los tests habituales de comparaciones multiples.

DATA anuncios;

INPUT anuncios consumo @@;

CARDS;

1 7 1 6 1 5 1 5

2 3 2 4 2 6 2 4

3 9 3 10 3 9 3 7

4 7 4 6 4 6 4 6

;

PROC GLM;

CLASS anuncios;

MODEL consumo = anuncios;

MEANS anuncios / LSD TUKEY;

RUN;

Con el se obtuvieron los siguientes resultados

Alfonso

Garc

ıaPere



Class Levels Values

ANUNCIOS 4 1 2 3 4



Dependent Variable: CONSUMOSum of Mean


Model 3 42.00000000 14.00000000 12.92 0.0005

Error 12 13.00000000 1.08333333[1]


R-Square C.V. Root MSE CONSUMO Mean

0.763636 16.65333 1.040833 6.25000000


Dependent Variable: CONSUMO


ANUNCIOS 3 42.00000000 14.00000000 12.92 0.0005


ANUNCIOS 3 42.00000000 14.00000000 12.92 0.0005 [4][2] [3]


T tests (LSD) for variable: CONSUMO

NOTE: This test controls the type I comparisonwise error rate not

the experimentwise error rate.

Alpha= 0.05 df= 12 MSE= 1.083333Critical Value of T= 2.18

Least Significant Difference= 1.6036


T Grouping Mean N ANUNCIOS

A 8.750 4 3

B 6.250 4 4B

C B 5.750 4 1 [5]CC 4.250 4 2

Alfonso

Garc

ıaPere



Tukey’s Studentized Range (HSD) Test for variable: CONSUMO

NOTE: This test controls the type I experimentwise error rate, butgenerally has a higher type II error rate than REGWQ.

Alpha= 0.05 df= 12 MSE= 1.083333

Critical Value of Studentized Range= 4.199Minimum Significant Difference= 2.185


Tukey Grouping Mean N ANUNCIOS

A 8.750 4 3

B 6.250 4 4B [6]

B 5.750 4 1BB 4.250 4 2

La suma de cuadrados residual, [1], igual a 13, y la suma de cuadrados debida a los tra-tamientos, [2], igual a 42, conducen a un estadıstico de contraste, [3], igual a 12′92, elcual indica, junto con el correspondiente p-valor del test, [4] igual a 0′0005, el rechazo dela hipotesis nula de igualdad de los efectos medios de los cuatro anuncios, con un disenocompletamente aleatorizado.El test LSD no es concluyente, [5], aunque ya es indicativo de lo que el test de Tukey, [6],sugerira, la ordenacion de clases homogeneas siguiente

{AI,AII,AIV } ≺ {AIII}

en donde la ordenacion ≺ entre las dos clases de tratamientos la obtenemos de las mediasde estos.

Si en el contraste de la hipotesis nula anterior, queremos utilizar la informacion adicionalproporcionada por la covariable numero de individuos que componen la familia entrevistada,debemos hacer un Analisis de la Covarianza para un factor en dicho diseno completamentealeatorizado (CB-seccion 11.2), en cuyo caso, utilizaremos el siguiente programa SAS

DATA anuncios;

INPUT anuncio miembros consumo @@;

CARDS;

1 4 7 1 3 6 1 2 5 1 3 5 2 1 3 2 2 4 2 3 6 2 2 4

3 4 9 3 5 10 3 5 9 3 3 7 4 4 7 4 3 6 4 3 6 4 2 6

;

PROC GLM;

CLASS anuncio;

MODEL consumo = anuncio miembros;

RUN;


Alfonso

Garc

ıaPere




Class Levels Values

ANUNCIO 4 1 2 3 4



Dependent Variable: CONSUMOSum of Mean


Model 4 51.77857143 12.94464286 44.20 0.0001

Error 11 3.22142857 0.29285714[7]


R-Square C.V. Root MSE CONSUMO Mean

0.941429 8.658604 0.541163 6.25000000


Dependent Variable: CONSUMO


ANUNCIO 3 42.00000000 14.00000000 47.80 0.0001

MIEMBROS 1 9.77857143 9.77857143 33.39 0.0001


[8] [9]ANUNCIO 3 5.04259783 1.68086594 5.74 0.0130 [10]MIEMBROS 1 9.77857143 9.77857143 33.39 0.0001 [12]

[11]

La suma residual de cuadrados en el analisis de la covarianza se obtiene en [7] y es igual a3′2214, siendo la suma de cuadrados debida a los tratamientos, [8], igual a 5′0425978.

El estadıstico del contraste, [9], que tiene como hipotesis nula la igualdad de los efectosmedios de los cuatro anuncios, igual a 5′74, tiene asociado un p-valor, [10], suficientementepequeno —igual a 0′013— como para rechazar, tambien con el analisis de la covarianza, laigualdad de efectos medios de los cuatro tratamientos.

El valor, [11], del estadıstico del contraste sobre la hipotesis nula de ausencia de correla-cion entre la variable dependiente y la covariable, tiene asociado un p-valor, [12], que nodeja dudas en cuanto al rechazo de dicha hipotesis nula y, en consecuencia, en cuanto a lacorrelacion significativa entre ambas variables aleatorias.

Alfonso

Garc

ıaPere


5.10. Analisis de la covarianza para dos factores y

un diseno completamente aleatorizado

El desarrollo teorico de esta seccion puede seguirse en la seccion 11.3 deCB.

Ejemplo 5.12 (CB-ejemplo 11.2)Un investigador desea comparar tres dietas en cuanto a sus efectos en la disminucion del nivelde colesterol. Ademas desea examinar el efecto de una droga sobre dicho nivel de colesterolal compararla con un grupo control y, finalmente, esta interesado en la presencia de posiblesefectos de interaccion entre las dietas y la droga.Con estos objetivos, treinta varones adultos fueron asignados al azar en grupos de cinco acada una de las combinaciones de los factores.Como se considera que el nivel previo de colesterol de los individuos puede afectar a losresultados del experimento, se observo, en cada uno de ellos, dicho nivel tanto antes derealizar el experimento, X, como despues de realizado, Y , obteniendose los siguientes datosnormalizados:

Dieta A Dieta B Dieta C

XA;cont. YA;cont. XB;cont. YB;cont. XC;cont. YC;cont.

c

o 40 5 50 10 50 10n 55 10 45 15 40 0t 65 20 60 10 50 20r 60 15 50 10 45 10o 55 10 45 0 45 10l

XA;drog. YA;drog. XB;drog. YB;drog. XC;drog. YC;drog.

d 55 5 60 20 45 5r 70 15 55 10 55 15o 55 0 50 0 65 20g 60 20 55 10 35 0a 48 0 50 15 45 0

Como se trata de hacer un analisis de la covarianza, el programa SAS a utilizar serıa elsiguiente

DATA coleste;

INPUT dieta $ droga $ precoles poscoles @@;

CARDS;

A N 40 5 A N 55 10 A N 65 20 A N 60 15 A N 55 10

B N 50 10 B N 45 15 B N 60 10 B N 50 10 B N 45 0

C N 50 10 C N 40 0 C N 50 20 C N 45 10 C N 45 10

A S 55 5 A S 70 15 A S 55 0 A S 60 20 A S 48 0

B S 60 20 B S 55 10 B S 50 0 B S 55 10 B S 50 15

C S 45 5 C S 55 15 C S 65 20 C S 35 0 C S 45 0

;

PROC GLM;

Alfonso

Garc

ıaPere


CLASS dieta droga;

MODEL poscoles = dieta droga dieta*droga precoles;

RUN;



Class Levels Values

DIETA 3 A B C

DROGA 2 N S



Dependent Variable: POSCOLES


Model 6 790.9551876 131.8258646 5.01 0.0021

Error 23 605.7114791 26.3352817[1]


R-Square C.V. Root MSE POSCOLES Mean

0.566316 53.08750 5.131791 9.66666667


Dependent Variable: POSCOLES


DIETA 2 6.6666667 3.3333333 0.13 0.8817

DROGA 1 13.3333333 13.3333333 0.51 0.4839DIETA*DROGA 2 46.6666667 23.3333333 0.89 0.4259

PRECOLES 1 724.2885209 724.2885209 27.50 0.0001


DIETA 2 110.6365917 [2] 55.3182958 2.10 0.1453 [5]

DROGA 1 92.9773802 [3] 92.9773802 3.53 0.0730 [6]DIETA*DROGA 2 32.2459846 [4] 16.1229923 0.61 0.5507 [7]

PRECOLES 1 724.2885209 724.2885209 27.50 0.0001 [8]

La suma residual de cuadrados se obtiene en [1] y es igual a 605′711.Las sumas de cuadrados debidas al tratamiento DIETA, al tratamiento DROGA y a la interaccionentre ambos, DIETA*DROGA, se obtiene, respectivamente en [2], [3] y [4], cuyos p-valoresasociados, [5], [6] y [7] respectivamente, llevan a aceptar la hipotesis nula de igualdad delos efectos medios de las tres dietas —al menos para p-valores menores que 0′1453, tambien aaceptar la igualdad del efecto medio de la droga y del grupo control —para p-valores menoresque 0′073— y por ultimo a aceptar, claramente, la hipotesis nula de ausencia de interaccionentre ambos factores, al ser este ultimo p-valor igual a 0′5507.

Alfonso

Garc

ıaPere


Por otro lado, la hipotesis nula de ausencia de relacion lineal entre la variable dependientey la covariable es rechazada claramente, al ser el p-valor asociado, [8], igual a 0′0001.

Alfonso

Garc

ıaPere

z.UNED

Capıtulo 6

Procedimiento FREQ

6.1. Introduccion

El procedimiento FREQ es un procedimiento disenado para trabajar condatos que sean recuentos de observaciones. Por tanto, es adecuado para resolverproblemas de

Contraste de homogeneidad de varias muestras (CB-seccion 12.3).

Contraste de independencia de caracteres (CB-seccion 12.4).

6.2. Especificaciones del procedimiento FREQ

El procedimiento FREQ admite, entre otras, las siguientes especificaciones

PROC FREQ;TABLES variables / opciones;WEIGHT variables;

Como dijimos en la introduccion, los datos que manejaremos seran recuen-tos de observaciones. Estos pueden venir dados individuo a individuo en lamatriz de datos; en este caso, no es necesaria la especificacion WEIGHT.

Por el contrario, si los datos son frecuencias absolutas de las clases que for-man la tabla de contingencia, dicha especificacion sı sera necesaria, indicandocon ella la mencionada frecuencia absoluta.

Por otro lado, entre las opciones de TABLES usaremos nocol norow

nopercent expected chisq, con objeto, respectivamente, de suprimir de lasalida los porcentajes por columnas, por filas y por celdas de la tabla de contin-gencia, de requerir las frecuencias esperadas por celdas, ası como determinarel test λ de Pearson.

57

Alfonso

Garc

ıaPere


6.3. Contraste de homogeneidad de varias muestras


Ejemplo 6.1 (CB-ejemplo 12.8)Con objeto de averiguar si existe o no diferencia significativa entre los habitos fumadores detres comunidades, se selecciono una muestra aleatoria simple de 100 individuos de cada unade las tres comunidades, obteniendose los siguientes resultados,

Comunidad fumadores no fumadores Total

A 13 87 100B 17 83 100C 18 82 100

48 252 300

¿Pueden considerarse homogeneas las tres poblaciones en cuanto a sus habitos fumadores?

Si los datos hubieran sido dados individuo a individuo, el programa SAS a utilizar hubierasido el siguiente

DATA fumar;

INPUT comuni $ fumar $ @@;

CARDS;

A F

-omitimos 11 datos-

A F

A NF

-omitimos 85 datos-

A NF

B F

-omitimos 198 datos-

C NF

;

PROC FREQ;

TABLES comuni*fumar / nocol norow nopercent expected chisq;

RUN;

en donde las tres comunidades se han tabulado por A, B y C, y el ser o no fumador, respec-tivamente por F y NF.No obstante, los datos que nos daran vendran en forma de tabla (como ocurre en CB). Enese caso, el programa SAS a utilizar sera el siguiente

DATA fumar;

INPUT comuni $ fumar $ frecu @@;

CARDS;

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 6. Procedimiento FREQ 59

A fuma 13 A no_fuma 87

B fuma 17 B no_fuma 83

C fuma 18 C no_fuma 82

;

PROC FREQ;

TABLES comuni*fumar / nocol norow nopercent expected chisq;

WEIGHT frecu;

RUN;


TABLE OF COMUNI BY FUMAR

COMUNI FUMAR

Frequency|Expected |fuma |no_fuma | Total

---------+--------+--------+A | 13 | 87 | 100

| 16 | 84 |

---------+--------+--------+B | 17 | 83 | 100 [1]

| 16 | 84 |---------+--------+--------+C | 18 | 82 | 100

| 16 | 84 |---------+--------+--------+

Total 48 252 300

STATISTICS FOR TABLE OF COMUNI BY FUMAR

Statistic DF Value Prob

------------------------------------------------------Chi-Square 2 1.042 0.594 [2]Likelihood Ratio Chi-Square 2 1.069 0.586

Mantel-Haenszel Chi-Square 1 0.927 0.336Phi Coefficient 0.059

Contingency Coefficient 0.059Cramer’s V 0.059

Sample Size = 300

En ellos se observa, [1], la tabla de contingencia con las frecuencias observadas y esperadas,ası como, [2], el valor del estadıstico de Pearson, λ = 1′042, el cual tiene asociado un p-valorlo suficientemente grande, 0′594, el cual permite concluir, claramente, con la aceptacion dela hipotesis nula de homogeneidad de las tres poblaciones en cuanto a sus habitos fumadores.


Se ha realizado un estudio sobre caries dental en ninos de seis ciudades con diferentes can-tidades de fluor en el suministro de agua.

Seleccionada una muestra aleatoria de 125 ninos de cada ciudad, los resultados obtenidosfueron los siguientes,

Alfonso

Garc

ıaPere


Comunidad no de ninos sin caries no de ninos con caries Total

A 38 87 125B 8 117 125C 30 95 125D 44 81 125E 64 61 125F 32 93 125

216 534 750

¿Son homogeneas las seis comunidades en cuanto a la existencia de caries dental?

El programa SAS a utilizar serıa el siguiente

DATA caries;

INPUT comuni $ caries $ frecu @@;

CARDS;

A nocaries 38 A caries 87

B nocaries 8 B caries 117

C nocaries 30 C caries 95

D nocaries 44 D caries 81

E nocaries 64 E caries 61

F nocaries 32 F caries 93

;

PROC FREQ;

TABLES comuni*caries / nocol norow nopercent expected chisq;

WEIGHT frecu;

RUN;


TABLE OF COMUNI BY CARIES

COMUNI CARIES

Frequency|

Expected |caries |nocaries| Total---------+--------+--------+

A | 87 | 38 | 125| 89 | 36 |

---------+--------+--------+

B | 117 | 8 | 125| 89 | 36 |

---------+--------+--------+C | 95 | 30 | 125

| 89 | 36 |---------+--------+--------+Total 534 216 750

(Continued)

TABLE OF COMUNI BY CARIES

COMUNI CARIES

Frequency|Expected |caries |nocaries| Total

---------+--------+--------+D | 81 | 44 | 125

| 89 | 36 |

---------+--------+--------+E | 61 | 64 | 125

Alfonso

Garc

ıaPere


| 89 | 36 |---------+--------+--------+

F | 93 | 32 | 125| 89 | 36 |

---------+--------+--------+Total 534 216 750

STATISTICS FOR TABLE OF COMUNI BY CARIES

Statistic DF Value Prob------------------------------------------------------Chi-Square 5 65.855 0.000 [1]

Likelihood Ratio Chi-Square 5 72.153 0.000Mantel-Haenszel Chi-Square 1 12.860 0.000

Phi Coefficient 0.296Contingency Coefficient 0.284Cramer’s V 0.296

Sample Size = 750

en donde despues de las frecuencias observadas y esperadas de la tabla de contingencia —endos mitades por razones de tamano de la pagina— se observa, [1], un valor del estadısticode Pearson tan grande, 65′855, que conduce claramente a rechazar la hipotesis nula dehomogeneidad de las seis comunidades, como sugiere el p-valor asociado.

6.4. Contraste de independencia de caracteres


Ejemplo 6.3 (CB-ejemplo 12.9)Se desea investigar una posible dependencia entre los sıntomas de deterioro psicogenetico del

pensamiento y depresion en una determinada poblacion.Con tal fin se selecciono una muestra aleatoria simple de 100 individuos de la poblacion encuestion, la cual dio los siguientes resultados

Depresion SI NODeterioro

SI 38 9NO 31 22

100

Con objeto de analizar esta posible dependencia, utilizaremos el siguiente programa SAS

DATA psico;

INPUT deterio $ depresio $ frecu @@;

CARDS;

SI SI 38 SI NO 9

NO SI 31 NO NO 22

;

PROC FREQ;

TABLES deterio*depresio / nocol norow nopercent expected chisq;

WEIGHT frecu;

RUN;

Alfonso

Garc

ıaPere


Los resultados que obtendrıamos serıan los siguientes

TABLE OF DETERIO BY DEPRESIO

DETERIO DEPRESIO

Frequency|

Expected |NO |SI | Total---------+--------+--------+NO | 22 | 31 | 53

| 16.43 | 36.57 |---------+--------+--------+

SI | 9 | 38 | 47| 14.57 | 32.43 |

---------+--------+--------+

Total 31 69 100

STATISTICS FOR TABLE OF DETERIO BY DEPRESIO

Statistic DF Value Prob

------------------------------------------------------Chi-Square 1 5.823 0.016 [1]

Likelihood Ratio Chi-Square 1 5.975 0.015Continuity Adj. Chi-Square 1 4.824 0.028Mantel-Haenszel Chi-Square 1 5.764 0.016

Fisher’s Exact Test (Left) 0.996(Right) 1.34E-02

(2-Tail) 1.83E-02Phi Coefficient 0.241

Contingency Coefficient 0.235Cramer’s V 0.241

Sample Size = 100

que conducen, [1], a rechazar la hipotesis nula de independencia a niveles de significacionmayores que 0′016.

Ejemplo 6.4 (CB-ejemplo 12.3)Se quiere analizar si existe relacion de dependencia entre el peso y la talla de los individuosde una poblacion. Con tal proposito se selecciono una muestra de 100 individuos de lamencionada poblacion, obteniendose los siguientes resultados

Talla 1′55 − 1′65 1′65 − 1′75 1′75 − 1′85 1′85 − 1′95Peso

50-60 10 8 2 160-70 6 14 6 270-80 2 8 18 580-90 0 4 6 8

100

Para analizar la posible dependencia entre el peso y la talla, utilizaremos el siguiente pro-grama SAS

DATA pobla;

INPUT peso $ talla $ frecu @@;

CARDS;

50-60 1’55-1’65 10 50-60 1’65-1’75 8 50-60 1’75-1’85 2 50-60 1’85-1’95 1

60-70 1’55-1’65 6 60-70 1’65-1’75 14 60-70 1’75-1’85 6 60-70 1’85-1’95 2

Alfonso

Garc

ıaPere


70-80 1’55-1’65 2 70-80 1’65-1’75 8 70-80 1’75-1’85 18 70-80 1’85-1’95 5

80-90 1’55-1’65 0 80-90 1’65-1’75 4 80-90 1’75-1’85 6 80-90 1’85-1’95 8

;

PROC FREQ;

TABLES peso*talla / nocol norow nopercent expected chisq;

WEIGHT frecu;

RUN;


TABLE OF PESO BY TALLAPESO TALLA

Frequency|Expected |1’55-1’6|1’65-1’7|1’75-1’8|1’85-1’9| Total

---------+--------+--------+--------+--------+50-60 | 10 | 8 | 2 | 1 | 21

| 3.78 | 7.14 | 6.72 | 3.36 |---------+--------+--------+--------+--------+60-70 | 6 | 14 | 6 | 2 | 28

| 5.04 | 9.52 | 8.96 | 4.48 |---------+--------+--------+--------+--------+

Total 18 34 32 16 100(Continued)

TABLE OF PESO BY TALLA

PESO TALLA

Frequency|

Expected |1’55-1’6|1’65-1’7|1’75-1’8|1’85-1’9| Total---------+--------+--------+--------+--------+

70-80 | 2 | 8 | 18 | 5 | 33| 5.94 | 11.22 | 10.56 | 5.28 |

---------+--------+--------+--------+--------+80-90 | 0 | 4 | 6 | 8 | 18

| 3.24 | 6.12 | 5.76 | 2.88 |

---------+--------+--------+--------+--------+Total 18 34 32 16 100

STATISTICS FOR TABLE OF PESO BY TALLA

Statistic DF Value Prob------------------------------------------------------

Chi-Square 9 41.834 0.000 [1]Likelihood Ratio Chi-Square 9 41.180 0.000Mantel-Haenszel Chi-Square 1 30.111 0.000

Phi Coefficient 0.647Contingency Coefficient 0.543

Cramer’s V 0.373

Sample Size = 100

WARNING: 31% of the cells have expected counts less [2]than 5. Chi-Square may not be a valid test.

que de nuevo conduce, [1], al ser el estadıstico λ de Pearson igual a 41′834 al rechazo de lahipotesis nula de independencia entre el peso y la talla.El programa SAS nos advierte del peligro que supone el que en algunas celdas —el 31 %—las frecuencias esperadas sean menores que 5.

Alfonso

Garc

ıaPere


Alfonso

Garc

ıaPere

z.UNED

Capıtulo 7

Procedimiento NPAR1WAY

7.1. Introduccion

El procedimiento NPAR1WAY es un procedimiento SAS disenado para eltratamiento no parametrico de datos clasificados en dos o mas poblaciones,por lo que es adecuado para resolver problemas en los que haya que realizaralguno de los siguientes contrastes:

Contraste de Wilcoxon-Mann-Whitney (CB-seccion 13.4.1).

Contraste de Kolmogorov-Smirnov para dos muestras (CB-seccion 13.4.2).

Contraste de la mediana (CB-seccion 13.4.3).

Contraste de Kruskal-Wallis (CB-seccion 13.5.1).

7.2. Especificaciones del procedimiento NPAR1WAY

El procedimiento NPAR1WAY admite, entre otras, las siguientes especifica-ciones

PROC NPAR1WAY opciones;CLASS variable;

La especificacion CLASS es obligatoria y utilizada para indicar la variableque forma los grupos o niveles de los tratamientos.

Por otro lado, dentro de las opciones del procedimiento se encuentran EDF,

MEDIAN y WILCOXON, con las que requerimos, respectivamente, los tests parados muestras independientes siguientes: el test de Kolmogorov-Smirnov, el dela mediana y el de Wilcoxon-Mann-Whitney.

Si existen mas de dos poblaciones, con el comando WILCOXON requerimosel de Kruskal-Wallis.

65

Alfonso

Garc

ıaPere


7.3. Contrastes relativos a dos muestras indepen-

dientes


Ejemplo 7.1 (CB-ejemplo 13.5)Se realizo un estudio con objeto de averiguar si el numero de pulsaciones por minuto puedeconsiderarse igual entre los hombres y mujeres de una determinada poblacion.Para ello se eligieron al azar 12 hombres y 12 mujeres de la mencionada poblacion obte-niendose los siguientes datos

Individuo 1 2 3 4 5 6 7 8 9 10 11 12

Hombres 74 77 71 76 79 74 83 79 83 72 79 77

Mujeres 81 84 80 73 78 80 82 84 80 84 75 82

Si representamos por X la pulsacion en la poblacion de hombres y por Y la pulsacion en la demujeres, las hipotesis que se quieren contrastar son H0 : MX = MY frente a H1 : MX 6= MY

El programa SAS a utilizar sera el siguiente

DATA pulsa;

INPUT individu $ pulsacio @@;

CARDS;

H 74 M 81 H 77 M 84 H 71 M 80 H 76 M 73 H 79 M 78 H 74 M 80

H 83 M 82 H 79 M 84 H 83 M 80 H 72 M 84 H 79 M 75 H 77 M 82

;

PROC NPAR1WAY edf median wilcoxon;

CLASS individu;

RUN;


N P A R 1 W A Y P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable PULSACIOClassified by Variable INDIVIDU

Sum of Expected Std Dev Mean

INDIVIDU N Scores Under H0 Under H0 Score

H 12 113.0 150.0 17.2601577 9.4166667M 12 187.0 150.0 17.2601577 15.5833333

Average Scores were used for TiesWilcoxon 2-Sample Test (Normal Approximation)(with Continuity Correction of .5)

S= 113.000 Z= -2.11470 Prob > |Z| = 0.0345

T-Test approx. Significance = 0.0455


Kruskal-Wallis Test (Chi-Square Approximation)CHISQ= 4.5953 DF= 1 Prob > CHISQ= 0.0321

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 7. Procedimiento NPAR1WAY 67


Median Scores (Number of Points above Median)for Variable PULSACIO

Classified by Variable INDIVIDU

Sum of Expected Std Dev MeanINDIVIDU N Scores Under H0 Under H0 Score

H 12 2.0 5.50000000 1.24673487 0.166666667

M 12 9.0 5.50000000 1.24673487 0.750000000Average Scores were used for Ties

Median 2-Sample Test (Normal Approximation)S= 2.00000 Z= -2.80733 Prob > |Z| = 0.0050


Median 1-Way Analysis (Chi-Square Approximation)

CHISQ= 7.8811 DF= 1 Prob > CHISQ= 0.0050


Kolmogorov-Smirnov Test for Variable PULSACIOClassified by Variable INDIVIDU

Deviation

EDF from MeanINDIVIDU N at maximum at maximum

H 12 0.8 1.01036297M 12 0.2 -1.01036297

-------- ---- -----------24 0.5

Maximum Deviation occurred at Observation 15Value of PULSACIO at maximum 79.0000000


Kolmogorov-Smirnov 2-Sample Test (Asymptotic)KS = 0.291667 D = 0.583333 [1]

KSa = 1.42887 Prob > KSa = 0.0337


Cramer-von Mises Test for Variable PULSACIO

Classified by Variable INDIVIDU

SummedDeviation

INDIVIDU N from Mean

H 12 0.283854167

M 12 0.283854167

Cramer-von Mises Statistic (Asymptotic)CM = 0.023655 CMa = 0.567708

Alfonso

Garc

ıaPere



Kuiper Test for Variable PULSACIOClassified by Variable INDIVIDU

DeviationINDIVIDU N from Mean

H 12 0.583333333

M 12 0.000000000

Kuiper 2-Sample Test (Asymptotic)K = 0.583333 Ka = 1.42887 Prob > Ka = 0.2415

en donde se obtiene, [1], en correspondencia con CB, el valor del estadıstico de Kolmogorov-Smirnov, Dm,n = 0′58333.

7.4. El contraste de Kruskal-Wallis

El desarrollo teorico de esta seccion puede seguirse en CB-seccion 13.5.1.

Ejemplo 7.2 (CB-ejemplo 13.6)Con objeto de analizar si existen diferencias significativas, en el aumento de peso, entre tresdietas alimenticias A, B y C, se decidio someter a 5 ratones a cada una de ellas, obteniendoselos siguientes resultados

Dieta Aumento de peso

A 32 37 34 33 30B 36 38 37 30 34C 35 30 36 29 31

El programa SAS a utilizar serıa el siguiente:

DATA dieta;

INPUT dieta $ peso @@;

CARDS;

A 32 A 37 A 34 A 33 A 30

B 36 B 38 B 37 B 30 B 34

C 35 C 30 C 36 C 29 C 31

;

PROC NPAR1WAY wilcoxon;

CLASS dieta;

RUN;


Alfonso

Garc

ıaPere

z.UNEDCapıtulo 7. Procedimiento NPAR1WAY 69


Wilcoxon Scores (Rank Sums) for Variable PESOClassified by Variable DIETA

Sum of Expected Std Dev Mean

DIETA N Scores Under H0 Under H0 Score

A 5 38.0000000 40.0 8.11377430 7.6000000B 5 51.5000000 40.0 8.11377430 10.3000000

C 5 30.5000000 40.0 8.11377430 6.1000000Average Scores were used for Ties

Kruskal-Wallis Test (Chi-Square Approximation)CHISQ= 2.2937 DF= 2 Prob > CHISQ= 0.3176

[1] [2]

en donde se observa, [1], el valor del estadıstico —corregido por los empates— el cual tomael valor T ′ = 2′2937, ası como su p-valor, [2], el cual, al ser igual a 0′3176, conduce a concluircon la no existencia de diferencias significativas entre las tres dietas.

Alfonso

Garc

ıaPere


Alfonso

Garc

ıaPere

z.UNED

Capıtulo 8

Procedimiento LIFETEST

8.1. Introduccion

El procedimiento LIFETEST se utiliza con datos algunos de los cuales pue-den ser censurados por la derecha, con objeto de

Determinar y representar estimadores, S(t), de la funcion de superviven-cia —el de Kaplan-Meier (AS-seccion 5.1) y el obtenido por el metodode la tabla de supervivencia (AS-seccion 5.2).

Realizar, para el estimador de la funcion de supervivencia S(t) elegido,las graficas {ti , − log(S(ti))} y {log ti , log(− log(S(ti)))} con objeto deaveriguar si la distribucion de tiempo de fallo es, respectivamente, expo-nencial o de Weibull. (AS-seccion 3.1)

Realizar tests de rangos con los que inferir el grado de relacion existenteentre las covariables y la variable dependiente de tiempo de fallo.

Si los datos vienen agrupados por poblaciones, realizar tests de rangoscon objeto de contrastar la igualdad entre las funciones de supervivenciade las poblaciones.

8.2. Especificaciones del procedimiento LIFETEST

Como en todo procedimiento SAS existen una serie de especificaciones quepermiten adecuar el analisis estadıstico a realizar.

Las mas importantes que permite el procedimiento LIFETEST son las si-guientes

71

Alfonso

Garc

ıaPere


PROC LIFETEST opciones;TIME fallo especificacion;STRATA variable (rango);TEST variables;FREQ variable;

Todas, excepto TIME, son opcionales.

8.2.1. Opciones en PROC LIFETEST

Detras de PROC LIFETEST podemos incluir uno o varios de los siguientescomandos opcionales:

• method= pl , lt

Mediante la opcion method=pl especificamos que el metodo a utilizar en laestimacion de la funcion de supervivencia es el del producto lımite.

Si empleamos la opcion method=lt requerimos el metodo de la tabla desupervivencia en la estimacion de la distribucion de tiempo de fallo.

Si no se utiliza esta opcion, el procedimiento LIFETEST determina, pordefecto, el del producto lımite.

• plots= s , ls , lls , h , p

Con la opcion plots=s se realiza un grafico de los pares de puntos

(ti , S(ti))

plots=ls se utiliza para realizar un grafico de los pares de puntos

(ti , − log(S(ti)))

Con plots=lls el grafico que se obtiene es el de los pares

(log ti , log(− log(S(ti))))

plots=h permite obtener un grafico de los pares

(ti , λ(ti))

siendo λ el estimador de la tasa de azar obtenido por el metodo de la tabla desupervivencia.

Por ultimo, plots=p lleva a la obtencion de un grafico de los pares de puntos

(ti , f(ti))

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 8. Procedimiento LIFETEST 73

siendo f el estimador de la funcion de densidad obtenido por el metodo de latabla de supervivencia. Esas dos ultimas opciones, en consecuencia, solo sonvalidas si se especifico dicho metodo.

Es posible hacer varias especificaciones a la vez, por ejemplo, pidiendolelos tres primeros graficos, mediante la opcion plots=(s,ls,lls)

• intervalsUtilizada para especificar los extremos de los intervalos a considerar en el

metodo de la tabla de supervivencia.

8.2.2. Sentencias especıficas en PROC LIFETEST

TIME fallo especificacion;La sentencia TIME se usa para especificar las variables que definen el tiempo

de supervivencia y la variable de censura.La estructura de esta sentencia es

TIME fallo<*corte(numero)>

mediante la cual indicamos que la variable de tiempo de fallo es fallo. Si,opcionalmente, utilizamos la expresion entre < >, senalaremos que aquellosfallos para los que la variable de censura corte tome el valor numero, sontiempos censurados por la derecha.

STRATA variable (rango);

La sentencia STRATA especifica la variable o variables que definen las po-blaciones (estratos) del analisis.

TEST variables;Mediante la sentencia TEST especificamos las covariables numericas cuyo

grado de asociacion con la variable dependiente tiempo de fallo T queremoscontrastar.

El grado de dependencia de cada variable independiente con la variable T

es contrastado de forma separada, contrastandose tambien una “correlacionmultiple.entre el conjunto de covariables y la variable dependiente T .

FREQ variable;Mediante esta sentencia indicamos que los valores de la variable variable

son frecuencias absolutas, es decir, recuentos de observaciones.

Ejemplo 8.1 (AS-ejemplo 1)Para analizar los datos de este ejemplo emplearemos el siguiente programa SAS

DATA ejemplo1; [1]

Alfonso

Garc

ıaPere


INPUT dias @@; [2]

censura = (dias < 0); [3]

dias = abs(dias); [4]

if _n_ < 20 then grupo = ’pretrat1’; [5]

else grupo = ’pretrat2’;

CARDS;

143 164 188 188 190 192 206 209 213 216

220 227 230 234 246 265 304 -216 -244

142 156 163 198 205 232 232 233 233 233 233

239 240 261 280 280 296 296 323 -204 -344

;

PROC LIFETEST plots=(s,ls,lls); [6]

TIME dias*censura(1); [7]

STRATA grupo; [8]

RUN;

Con las sentencias DATA indicamos, en primer lugar, [1], que vamos a crear un conjunto dedatos SAS al que denominamos ejemplo1.A continuacion, [2], con la sentencia INPUT indicamos que la variable que dara origen alos datos la llamaremos dias y que estos vendran en formato libre, al anadir @@.Despues, [3], definimos la variable censura como una variable indicador sobre dias, redefi-niendo posteriormente en [4] la variables dias como el valor absoluto de las observaciones.Se definen por ultimo, [5], los dos grupos (estratos) a comparar, formando el grupo 1,pretrat1, las 19 primeras observaciones, y pretrat2 las restantesLa opcion plots, [6], nos permitira obtener graficos del estimador de la funcion de supervi-vencia, el cual por defecto sera el de Kaplan-Meier, ası como de adecuadas transformacionessuyas.Mediante la sentencia TIME, [7], indicamos que datos son tiempos de fallo y cuales decensura. Los tiempos de fallo son aquellos datos proporcionados por la variable dias (40observaciones positivas puesto que fue redefinida en [4]) menos aquellos en los que ademasla variable censura tome el valor 1, en cuyo caso la observacion sera un dato censurado.Por ultimo, mediante la sentencia STRATA senalamos, [8], que variable se utiliza para formarlas poblaciones; en nuestro caso grupo.Con el programa anterior se obtendrıan los siguientes resultados

Product-Limit Survival Estimates

GRUPO = pretrat1

Survival

Standard Number NumberDIAS Survival Failure Error Failed Left

0.000 1.0000 0 0 0 19143.000 0.9474 0.0526 0.0512 1 18

164.000 0.8947 0.1053 0.0704 2 17188.000 . . . 3 16

188.000 0.7895 0.2105 0.0935 4 15190.000 0.7368 0.2632 0.1010 5 14192.000 0.6842 0.3158 0.1066 6 13

206.000 0.6316 0.3684 0.1107 7 12209.000 0.5789 0.4211 0.1133 8 11

213.000 0.5263 0.4737 0.1145 9 10216.000 0.4737 0.5263 0.1145 10 9216.000* . . . 10 8

220.000 0.4145 0.5855 0.1145 11 7227.000 0.3553 0.6447 0.1124 12 6

Alfonso

Garc

ıaPere


230.000 0.2961 0.7039 0.1082 13 5234.000 0.2368 0.7632 0.1015 14 4

244.000* . . . 14 3246.000 0.1579 0.8421 0.0934 15 2

265.000 0.0789 0.9211 0.0728 16 1304.000 0 1.0000 0 17 0

* Censored Observation

[1] [2] [3]

Quantiles 75% 234.000 Mean 218.757 [4]50% 216.000 Standard Error 9.403 [5]25% 190.000

Product-Limit Survival EstimatesGRUPO = pretrat2

Survival

Standard Number NumberDIAS Survival Failure Error Failed Left

0.000 1.0000 0 0 0 21142.000 0.9524 0.0476 0.0465 1 20

156.000 0.9048 0.0952 0.0641 2 19163.000 0.8571 0.1429 0.0764 3 18198.000 0.8095 0.1905 0.0857 4 17

204.000* . . . 4 16205.000 0.7589 0.2411 0.0941 5 15

232.000 . . . 6 14232.000 0.6577 0.3423 0.1053 7 13

233.000 . . . 8 12233.000 . . . 9 11233.000 . . . 10 10

233.000 0.4554 0.5446 0.1114 11 9239.000 0.4048 0.5952 0.1099 12 8

240.000 0.3542 0.6458 0.1072 13 7261.000 0.3036 0.6964 0.1031 14 6280.000 . . . 15 5

280.000 0.2024 0.7976 0.0902 16 4296.000 . . . 17 3

296.000 0.1012 0.8988 0.0678 18 2323.000 0.0506 0.9494 0.0493 19 1

344.000* . . . 19 0* Censored Observation

[1] [2] [3]

Quantiles 75% 280.000 Mean 240.795 [4]

50% 233.000 Standard Error 11.206 [5]25% 232.000

NOTE: The last observation was censored so the estimate of the mean is biased.

Summary of the Number of Censored and Uncensored Values

GRUPO Total Failed Censored %Censored

pretrat1 19 17 2 10.5263pretrat2 21 19 2 9.5238

Total 40 36 4 10.0000

Alfonso

Garc

ıaPere


Survival Function Estimates

SDF ||

||

|S 1.0 +*---------------------------*P

u | B|-Br | P---Pv | B-*----P

i | B----|-Bv | | |

a 0.8 + P BBl | | B----B

| P |

D | P--P |i | | BB

s | PP |t 0.6 + | |

r | PP |i | P |b | | |

u | PP BB [6]t | | |

i 0.4 + PP Bo | PP B---Bn | | |

| PP B---BF | | |

u | P-P |n 0.2 + | B--B

c | P---P |t | | |i | | B-----B

o | P-------P Bn | |

0.0 + P||

||

|-+----+----+----+----+----+----+----+----+----+----+----+----+----+----+

0 25 50 75 100 125 150 175 200 225 250 275 300 325 350

DIAS

Censored Observations

Strata

B + B B [8]P + P P

-------+------+------+------+------+------+------+------+-------

0 50 100 150 200 250 300 350DIAS

Alfonso

Garc

ıaPere


-Log(Survival Function) Estimates-LOG SDF |

|3.0 + B

| +| +| +

| +| +

2.5 + P +| + +

| + +| + B

N | + +

e | + +g 2.0 + + +

a | + +t | P +i | + +

v | + +e | + B

1.5 + + +L | P + [9]

o | + +g | P +

| + +B

S | + ++D 1.0 + P B

F | P B| + +| P B

| P +| P +

0.5 + +P +| P +B

| P ++| +P+BB| B++

| +++++++++++*+*P0.0 + *+++++++++++

||-----+-------+-------+-------+-------+-------+-------+-------+-----

0 50 100 150 200 250 300 350DIAS

Alfonso

Garc

ıaPere


Log(-Log(Survival Function)) Estimates

L(-L(S)) ||

|||

2 +|

||

|L | +Bo 1 + +P +++

g | ++ B+| P+ ++

N | ++ +Be | P ++g | P ++B

a 0 + P B++t | P B+B

i | P +v | P +

e | P +| ++P +B [10]

L -1 + P++ +++

o | P ++g | + +B+

| +P++BS | ++++++D | B++++

F -2 + + ++| + P

| B++| +++

| ++| +++

-3 + BP

||

|||

---+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+---4.9 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9

Log DIAS

Legend for Strata Symbols

P:GRUPO=pretrat1 B:GRUPO=pretrat2 [7]

Testing Homogeneity of Survival Curves over Strata

Rank Statistics

GRUPO Log-Rank Wilcoxon

pretrat1 4.762466 114pretrat2 -4.76247 -114

Alfonso

Garc

ıaPere


Covariance Matrix for the Log-Rank Statistics

GRUPO pretrat1 pretrat2

pretrat1 7.26327 -7.26327pretrat2 -7.26327 7.26327

Covariance Matrix for the Wilcoxon Statistics

GRUPO pretrat1 pretrat2

pretrat1 4902.22 -4902.22pretrat2 -4902.22 4902.22

Test of Equality over Strata

Pr >

Test Chi-Square DF Chi-Square

Log-Rank 3.1227 1 0.0772 [11]Wilcoxon 2.6510 1 0.1035 [12]

-2Log(LR) 0.0775 1 0.7807 [13]

En ellos se observa, en primer lugar, una tabla para cada una de las dos poblaciones, endonde aparecen, [1], los tiempos de fallo, ti, y de censura (valores con asterisco), ası como,[2], los valores del estimador de la funcion de supervivencia, S(ti), en dichos tiempos defallo, el cual, al no haber utilizado la opcion method sera el de Kaplan-Meier. En [3] aparecesu desviacion tıpica estimada.

Destacan tambien, el tiempo medio de supervivencia estimado, [4], y su error de muestreo,[5].

A continuacion aparecen los graficos del estimador de la funcion de supervivencia para cadauna de las dos poblaciones, [6], en las que, como se indica en [7], la marcada con una Pcorresponde a la primera y la marcada con una B a la segunda.

El grafico [8] muestra donde se produjeron los valores censurados en cada una de las dospoblaciones.

El grafico [9] es una representacion de los pares de puntos

{ti , − log(S(ti))}

los cuales, al no estar alineados sugieren (vease AS-seccion 3.1) que un modelo exponencialpara la distribucion de tiempo de fallo no es adecuado.

Por el contrario, el grafico [10], en el cual se representan los pares

{log ti , log(− log(S(ti)))}

sı sugiere (vease AS-seccion 3.1) una distribucion de Weibull como distribucion de tiempode fallo.

Aunque ni el test de Savage (vease AS-seccion 6), dado por [11], ni el de Wilcoxon, dadopor [12], sean demasiado concluyentes, en todo caso llevan a aceptar la hipotesis nula deigualdad entre ambas poblaciones a niveles de significacion menores que 0′0772.

El test de razon de verosimilitudes, dado por [13], no es indicativo de nada, pues requierepara su realizacion que la distribucion de tiempo de fallo en cada una de las poblaciones, seaexponencial, supuesto descartado, como vimos, por el grafico [9].

Alfonso

Garc

ıaPere


Ejemplo 8.2Los siguientes datos, Feigl y Zelen (1965) corresponden a tiempos de fallo en semanas, T , ynumero de globulos blancos, WBC, de pacientes con leucemia. Los datos vienen agrupadosen dos poblaciones, una con AG positivo y otra con AG negativo, estando interesados encomparar ambas poblaciones

AG+ AG–

WBC T WBC T

2′3 65 4′4 560′75 156 3 654′3 100 4 172′6 134 1′5 7

6 16 9 1610′5 108 5′3 22

10 121 10 317 4 19 45′4 39 27 2

7 143 28 39′4 56 31 832 26 26 435 22 21 3

100 1 79 30100 1 100 452 5 100 43

100 65

Existen dos diferencias con el ejemplo anterior. Aquı suponemos una covariable, WBC, yademas que los grupos no se definen previamente, sino mediante una cantidad no controlada,AG.El programa SAS que utilizaremos sera el siguiente

DATA ejemplo2;

INPUT wbc t @@; [1]

if _n_ < 18 then grupo = ’AG+’; [2]

else grupo = ’AG-’;

lwbc=log(wbc); [3]

CARDS;

2.3 65 .75 156 4.3 100 2.6 134 6 16 10.5 108

10 121 17 4 5.4 39 7 143 9.4 56 32 26

35 22 100 1 100 1 52 5 100 65

4.4 56 3 65 4 17 1.5 7 9 16 5.3 22

10 3 19 4 27 2 28 3 31 8 26 4

21 3 79 30 100 4 100 43

;

PROC LIFETEST;

TIME t; [4]

STRATA grupo; [5]

TEST lwbc; [6]

RUN;

En el se observa, dentro de las sentencias DATA, que con INPUT indicamos, [1], que los datosque aparecen a continuacion, son pares de observaciones de las variables wbc y t, indicandocon @@ que dichos datos vendran en formato libre.

Alfonso

Garc

ıaPere


A continuacion, [2], formamos las dos poblaciones, estando en AG+ las 17 primeras obser-vaciones que aparecen despues.

Se concluye las sentencias DATA definiendo en [3] una nueva variable, lwbc, como el logaritmode wbc.

En este ejemplo hacemos las siguientes especificaciones en PROC LIFETEST: con la sentenciaTIME senalamos, [4], que la variable tiempo de fallo es t, con STRATA que la variable utilizadapara formar los grupos [5], es grupo, y por ultimo, [6], con TEST requerimos un test deasociacion de la covariable lwbc y la variable tiempo de fallo t.

Con este programa obtendrıamos los siguientes resultados:

Product-Limit Survival EstimatesGRUPO = AG+

Survival

Standard Number NumberT Survival Failure Error Failed Left

0.000 1.0000 0 0 0 171.000 . . . 1 16

1.000 0.8824 0.1176 0.0781 2 154.000 0.8235 0.1765 0.0925 3 145.000 0.7647 0.2353 0.1029 4 13

16.000 0.7059 0.2941 0.1105 5 1222.000 0.6471 0.3529 0.1159 6 11

26.000 0.5882 0.4118 0.1194 7 1039.000 0.5294 0.4706 0.1211 8 9

56.000 0.4706 0.5294 0.1211 9 865.000 . . . 10 765.000 0.3529 0.6471 0.1159 11 6

100.000 0.2941 0.7059 0.1105 12 5108.000 0.2353 0.7647 0.1029 13 4

121.000 0.1765 0.8235 0.0925 14 3134.000 0.1176 0.8824 0.0781 15 2143.000 0.0588 0.9412 0.0571 16 1

156.000 0 1.0000 0 17 0[1] [2] [3]

Quantiles 75% 108.000 Mean 62.471 [4]

50% 56.000 Standard Error 13.183 [5]25% 16.000

Product-Limit Survival EstimatesGRUPO = AG-

SurvivalStandard Number Number

T Survival Failure Error Failed Left

0.000 1.0000 0 0 0 162.000 0.9375 0.0625 0.0605 1 15

3.000 . . . 2 143.000 . . . 3 133.000 0.7500 0.2500 0.1083 4 12

4.000 . . . 5 114.000 . . . 6 10

4.000 0.5625 0.4375 0.1240 7 97.000 0.5000 0.5000 0.1250 8 8

8.000 0.4375 0.5625 0.1240 9 716.000 0.3750 0.6250 0.1210 10 617.000 0.3125 0.6875 0.1159 11 5

22.000 0.2500 0.7500 0.1083 12 430.000 0.1875 0.8125 0.0976 13 3

43.000 0.1250 0.8750 0.0827 14 256.000 0.0625 0.9375 0.0605 15 165.000 0 1.0000 0 16 0

[1] [2] [3]

Alfonso

Garc

ıaPere


Quantiles 75% 26.000 Mean 17.937 [4]

50% 7.500 Standard Error 5.076 [5]25% 3.500


GRUPO Total Failed Censored %Censored

AG+ 17 17 0 0.0000

AG- 16 16 0 0.0000

Total 33 33 0 0.0000

Testing Homogeneity of Survival Curves over Strata

Rank Statistics

GRUPO Log-Rank Wilcoxon

AG+ -6.70336 -128AG- 6.70336 128

Covariance Matrix for the Log-Rank Statistics

GRUPO AG+ AG-

AG+ 5.31858 -5.31858AG- -5.31858 5.31858

Covariance Matrix for the Wilcoxon Statistics

GRUPO AG+ AG-

AG+ 2927.69 -2927.69

AG- -2927.69 2927.69

Test of Equality over Strata

Pr >Test Chi-Square DF Chi-Square

Log-Rank 8.4487 1 0.0037 [6]Wilcoxon 5.5962 1 0.0180 [7]

-2Log(LR) 11.9401 1 0.0005 [8]

Rank Tests for the Association of Response with CovariatesPooled over Strata

[9] Univariate Chi-Squares for the WILCOXON Test

Test Pr >

Variable Statistic Variance Chi-Square Chi-Square

LWBC -11.7337 15.8531 8.6848 0.0032 [11]

Covariance Matrix for the WILCOXON Statistics

Alfonso

Garc

ıaPere


Variable LWBC

LWBC 15.8531

[10] Forward Stepwise Sequence of Chi-Squares for the WILCOXON Test

Pr > Chi-Square Pr >Variable DF Chi-Square Chi-Square Increment Increment

LWBC 1 8.6848 0.0032 8.6848 0.0032

[9] Univariate Chi-Squares for the LOG RANK Test

Test Pr >Variable Statistic Variance Chi-Square Chi-Square

LWBC -19.4051 50.7236 7.4237 0.0064 [12]

Covariance Matrix for the LOG RANK Statistics

Variable LWBC

LWBC 50.7236

[10] Forward Stepwise Sequence of Chi-Squares for the LOG RANK Test

Pr > Chi-Square Pr >

Variable DF Chi-Square Chi-Square Increment Increment

LWBC 1 7.4237 0.0064 7.4237 0.0064

Se observa en ellos, en primer lugar, una tabla para cada una de las dos poblaciones, endonde aparecen, [1], los tiempos de fallo, ti, [2], los valores del estimador de la funcionde supervivencia, S(ti), en dichos tiempos de fallo, el cual, al no haber utilizado la opcionmethod sera el de Kaplan-Meier, y [3], su desviacion tıpica estimada. (AS-Seccion 5.1).Destacan tambien, el tiempo medio de supervivencia estimado, [4], y su error de muestreo,[5].A continuacion, los tests de Savage, [6], de Wilcoxon, [7], y de razon de verosimilitudes, [8],concluyen, al ser sus p-valores suficientemente pequenos, que existen diferencias significativasentre las poblaciones comparadas, es decir, que no pueden considerarse equivalentes losgrupos AG+ y AG–.Por ultimo aparecen dos tests utilizados para contrastar el grado de dependencia de lacovariable senalada en nuestro programa SAS con la sentencia TEST, lwbc, con la variabledependiente tiempo de fallo, senalada en TIME, t.Cada uno de estos dos tests, el de Wilcoxon y el de los rangos logarıtmicos de Savage, realizaprimero, [9], tests marginales de dependencia entre cada una de las covariables —senaladasen TEST— y la variable dependiente, y luego, [10], una secuencia de tests de dependenciaen donde va incluyendo a cada paso una nueva covariable. En nuestro ejemplo, al no existirnada mas que una covariable, esta segunda secuencia de tests coincide con la primera.El test de Wilcoxon y el de los rangos logarıtmicos, consideran como hipotesis nula, tantoen sus versiones marginales, [9], como en las secuenciales, [10], la ausencia de correlacionentre la variable dependiente T y la covariable —en el caso marginal [9]— o covariables—en la secuencia de tests [10].

Alfonso

Garc

ıaPere


Es decir, que H0 indicara que la covariable o covariables consideradas no explican adecua-damente a la variable dependiente T , o con mas precision, que el vector de parametros β esigual al vector 0.Un p-valor pequeno llevara a rechazar la correspondiente hipotesis nula y a aceptar, enconsecuencia, una correlacion significativa entre las variables consideradas.En nuestro ejemplo, tanto el test de Wilcoxon, [11], como el de Savage, [12], concluyen conla existencia de una correlacion significativa entre la variable tiempo de fallo y el logaritmo delnumero de globulos blancos en la sangre, al ser sus p-valores, 0′0032 y 0′0064 suficientementepequenos.

Ejemplo 8.3Los siguientes datos, Lee (1980), representan, respectivamente, el numero de tiempos de falloy de censura de hombres con angina de pecho, que se presentan en cada uno de los intervalossenalados

Intervalo no¯ de fallos no

¯ de censuras

[0,1) 456 0[1,2) 226 39[2,3) 152 22[3,4) 171 23[4,5) 135 24[5,6) 125 107[6,7) 83 133[7,8) 74 102[8,9) 51 68[9,10) 42 64[10,11) 43 45[11,12) 34 53[12,13) 18 33[13,14) 9 27[14,15) 6 23≥ 15 0 30

Con objeto de estimar, entre otras cosas, su funcion de supervivencia, se realizo el siguienteprograma SAS

DATA ejemplo3; KEEP freq tiempo c; [1]

RETAIN tiempo -.5; [2]

INPUT fallo censura @@; [3]

tiempo = tiempo + 1; [4]

c = 0; freq = fallo; output; [5]

c = 1; freq = censura; output;

CARDS;

456 0 226 39 152 22 171 23 135 24 125 107

83 133 74 102 51 68 42 64 43 45 34 53

18 33 9 27 6 23 0 0 0 30

;

PROC LIFETEST plots = (s,ls,lls,h,p) [6]

intervals = (0 to 15)

method = act;

TIME tiempo*c(1); [7]

Alfonso

Garc

ıaPere


FREQ freq; [8]

RUN;

En el se observa, [1], que las variables a utilizar por el procedimiento mas abajo empleadoson las senaladas por KEEP, es decir, freq, tiempo y c.

Se indica, [2], que en cada paso del programa, debe mantenerse —retain— la variable tiempo,la cual ademas debe comenzar en −,5 , para ir aumentando, [4], de uno en uno.Se indica, [3], mediante INPUT que los datos que apareceran mas abajo son, respectivamenteal anadirse @@, datos de fallo y censura.No obstante, [5], queremos que nuestros “datos salida.aparezcan bajo la variable freq

aunque divididos en dos grupos segun los valores de la variable c.Despues de los datos aparecen las sentencias propias del procedimiento LIFETEST referidas,como indicamos con KEEP, a las variables freq, tiempo y c.Primero, dentro de las opciones de dicho procedimiento, le indicamos, [6], que realice losgraficos del estimador de la funcion de supervivencia, s, del − log de dicho estimador, ls, dellog(− log) del estimador, lls, del estimador de la tasa de azar, h y del estimador de la funcionde densidad, p (vease AS-seccion 2.1). Estos dos ultimos, posibles porque en la opcion method

indicamos que el estimador de la funcion de supervivencia a determinar fuera el obtenido porel metodo de la tabla de supervivencia, method = act, en donde los intervalos a consideraren dicho metodo deberan llegar hasta el de extremo 15.

Con la sentencia TIME indicamos, [7], que la variable de tiempo de fallo es tiempo siempreque c no sea igual a 1.Por ultimo, [8], con la sentencia FREQ senalamos que los valores dados por la variable freq

son recuentos, es decir frecuencias absolutas.Con este programa se obtendrıan los siguientes resultados

Life Table Survival Estimates

Conditional

Effective Conditional ProbabilityInterval Number Number Sample Probability Standard

[Lower, Upper) Failed Censored Size of Failure Error

0 1 456 0 2418.0 0.1886 0.00796

1 2 226 39 1942.5 0.1163 0.007282 3 152 22 1686.0 0.0902 0.00698

3 4 171 23 1511.5 0.1131 0.008154 5 135 24 1317.0 0.1025 0.008365 6 125 107 1116.5 0.1120 0.00944

6 7 83 133 871.5 0.0952 0.00997 8 74 102 671.0 0.1103 0.0121

8 9 51 68 512.0 0.0996 0.01329 10 42 64 395.0 0.1063 0.0155

10 11 43 45 298.5 0.1441 0.020311 12 34 53 206.5 0.1646 0.025812 13 18 33 129.5 0.1390 0.0304

13 14 9 27 81.5 0.1104 0.034714 15 6 23 47.5 0.1263 0.0482

15 . 0 30 15.0 0 0

[1] [1] [1] [2] [3] [4]

Survival Median Median

Interval Standard Residual Standard[Lower, Upper) Survival Failure Error Lifetime Error

0 1 1.0000 0 0 5.3313 0.17491 2 0.8114 0.1886 0.00796 6.2499 0.2001

2 3 0.7170 0.2830 0.00918 6.3432 0.23613 4 0.6524 0.3476 0.0097 6.2262 0.2361

Alfonso

Garc

ıaPere


4 5 0.5786 0.4214 0.0101 6.2185 0.18535 6 0.5193 0.4807 0.0103 5.9077 0.1806

6 7 0.4611 0.5389 0.0104 5.5962 0.18557 8 0.4172 0.5828 0.0105 5.1671 0.2713

8 9 0.3712 0.6288 0.0106 4.9421 0.27639 10 0.3342 0.6658 0.0107 4.8258 0.4141

10 11 0.2987 0.7013 0.0109 4.6888 0.4183

11 12 0.2557 0.7443 0.0111 . .12 13 0.2136 0.7864 0.0114 . .

13 14 0.1839 0.8161 0.0118 . .14 15 0.1636 0.8364 0.0123 . .

15 . 0.1429 0.8571 0.0133 . .

[5] [6] [7] [8] [9]

Evaluated at the Midpoint of the Interval

PDF Hazard

Interval Standard Standard[Lower, Upper) PDF Error Hazard Error

0 1 0.1886 0.00796 0.208219 0.009698

1 2 0.0944 0.00598 0.123531 0.0082012 3 0.0646 0.00507 0.09441 0.0076493 4 0.0738 0.00543 0.119916 0.009154

4 5 0.0593 0.00495 0.108043 0.0092855 6 0.0581 0.00503 0.118596 0.010589

6 7 0.0439 0.00469 0.1 0.0109637 8 0.0460 0.00518 0.116719 0.0135458 9 0.0370 0.00502 0.10483 0.014659

9 10 0.0355 0.00531 0.112299 0.01730110 11 0.0430 0.00627 0.155235 0.023602

11 12 0.0421 0.00685 0.17942 0.03064612 13 0.0297 0.00668 0.149378 0.03511

13 14 0.0203 0.00651 0.116883 0.03889414 15 0.0207 0.00804 0.134831 0.05491915 . . . . .

[10] [11] [12] [13]


Total Failed Censored %Censored

2418 1625 793 32.7957

NOTE: There were 4 observations with missing values.

Alfonso

Garc

ıaPere


Survival Function Estimates

SDF ||

|||

S 1.0 + Au | +

r | +v | +

i | +v | +a 0.8 + A

l | ++| A+

D | ++i | As | +

t 0.6 + +r | A++

i | +Ab | ++

u | A++ [14]t | +Ai 0.4 + ++

o | A++n | +A+

| +A++F | +Au | ++

n 0.2 + A+++A+c | +A++

t | +Ai |

o |n |0.0 +

||

|||

--------+------+------+------+------+------+------+------+------+-------0 2 4 6 8 10 12 14 16

TIEMPO

Alfonso

Garc

ıaPere


-Log(Survival Function) Estimates

2.00 +

| A| ++| +

| A1.75 + ++

| A| ++

| +| A

1.50 + +

| +N -LOG SDF | +

e | Ag | ++a 1.25 + +

t | Ai | ++

v | +Ae | ++

1.00 + AL | + [15]o | +

g | +A| ++

S 0.75 + AD | ++F | +A

| ++| A

0.50 + ++| +A

| ++| A| +

0.25 + +| A

| +| +| +

0.00 + A-----+------+------+------+------+------+------+------+------+-----

0 2 4 6 8 10 12 14 16

TIEMPO

Alfonso

Garc

ıaPere


Log(-Log(Survival Function)) Estimates

L(-L(S)) ||

1.0 +

||

|| A

| +A0.5 + A

| +A

L | Ao | +

g | +A| +A

N 0.0 + A

e | ++g | +A

a | +A+t | ++

i | +Av -0.5 + ++e | +A [16]

| ++L | ++

o | +Ag | +++

-1.0 + ++

S | +A+D | ++

F | ++| +++

| ++-1.5 + ++

| A+

||

||

-2.0 +

||

------+----+----+----+----+----+----+----+----+----+----+----+-----0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75

Log TIEM

Alfonso

Garc

ıaPere


Hazard Function Estimates

Hazard ||

||

|0.25 +

|

||

|| A

0.20 + +

| +H | + A

a | + + +z | + + +

a | + A +r 0.15 + + + Ad | + + +

| + + + +AF | A + + ++

u | + A++ +A+ A++ + A [17]n | + + +A+ ++ ++ +A++Ac 0.10 + + + A

t | Ai |

o |n |

|0.05 +

|

||

||

0.00 +||

||

|------+------+------+------+------+------+------+------+------+------

0 2 4 6 8 10 12 14 16

TIEMPO

Alfonso

Garc

ıaPere


Probability Density Function Estimates

0.200 +|

| A| +

| +0.175 + +

| +| +| +

| +0.150 + +

| +D PDF | +e | +

n | +s 0.125 + +

i | +t | +

y | +| +

F 0.100 + +

u | A [18]n | +

c | +t | +i 0.075 + + A

o | + ++ ++n | A +

| A++A| ++

0.050 + +| A++A+ +A+| ++ ++ +A+

| A++A ++| A

0.025 + ++| A+++A|

||

0.000 +-------+------+------+------+------+------+------+------+------+------

0 2 4 6 8 10 12 14 16

TIEMPO

En ellos se observa, al haberse solicitado que el metodo de estimacion de la curva de super-vivencia fuera el de la tabla de supervivencia, la distribucion de frecuencias, por intervalos,de los tiempos de fallo y de censura, [1].Ademas, vease AS-seccion 5.2, el numero, [2], de individuos en riesgo al comienzo de cadaintervalo, nj , el estimador, [3], de la probabilidad condicionada de fallo en cada uno de losintervalos, qj , ası como su error de muestreo, [4].Tambien se obtiene, [5], el estimador S(t) de la funcion de supervivencia al comienzo decada intervalo, su error de muestreo, [7], ası como 1 − S(t), [6].Se obtiene tambien, [8], un estimador del tiempo de vida residual mediano, el cual se definecomo la cantidad de tiempo transcurrido antes de que el numero de unidades en riesgo sereduzca a la mitad. Este valor tambien se denomina tiempo de vida futuro mediano. Se datambien, [9], su error de muestreo.A continuacion aparece, [10], la funcion de densidad estimada, f(t), en el punto medio delintervalo, ası como su error de muestreo, [11].

Alfonso

Garc

ıaPere


Por ultimo se observa, [12] y [13] respectivamente, el estimador de la tasa de azar, λ,ası como su error de muestreo.Los resultados concluyen con los graficos antes mencionados. Primero se representa, [14],los pares de puntos

(ti , S(ti))

a continuacion, [15], el de los pares de puntos,

(ti , − log(S(ti)))

En [16] el de los pares

(log ti , log(− log(S(ti))))

En [17] el de la tasa de azar, es decir, el de los pares

(ti , λ(ti))

apareciendo, por ultimo, en [18], el de la funcion de densidad estimada,

(ti , f(ti))

Alfonso

Garc

ıaPere

z.UNED

Capıtulo 9

Procedimiento LIFEREG

9.1. Introduccion

El procedimiento LIFEREG se utiliza con datos, algunos de los cuales puedenser censurados por la derecha, o por la izquierda o por intervalos (vease AS-seccion 2), con objeto de

Ajustar un modelo de tiempo de fallo acelerado (AS-seccion 4.3) a dichostiempos de fallo, de la forma

Y = x′β + W

con W = log T0 la variable de error con distribucion base dada por unafuncion de densidad f0, siendo Y la variable dependiente o de respuestay x′ el vector de covariables o variables independientes.

Los parametros β se estiman por maxima verosimilitud usando el metodode Newton-Raphson.

9.2. Especificaciones del procedimiento LIFEREG

Como en todo procedimiento SAS el procedimiento LIFEREG permite unaserie de especificaciones. La mas importante, ademas de obligatoria, es la sen-tencia MODEL,

PROC LIFEREG;MODEL respuesta = covariables / opciones;

Con esta sentencia especificamos cual es la variable dependiente, respuesta,y cuales las covariables o variables independientes, covariables.

93

Alfonso

Garc

ıaPere


Si existen datos censurados debemos indicarlo de una de las siguientesmaneras:

• Si existe una variable indicadora de censura, para unos determinadosvalores de la cual, los datos observados en respuesta son censurados por laderecha, debemos expresarlo de la forma

MODEL respuesta< ∗censura(numero) >= covariables / opciones;

Ası por ejemplo, si la variable de respuesta es muerte, salvo en aquelloscasos en los que la variable perdida tome los valores 0 y 1, en cuyo caso losdatos son tiempos censurados por la derecha en lugar de tiempos de fallo, loindicaremos de la forma

MODEL muerte∗perdida(0,1) = covariables / opciones;

• Si existe un intervalo de censura (minimo , maximo) fuera del cual losdatos son censurados, lo expresaremos de la forma

MODEL (minimo, maximo) = covariables / opciones;

Si se omite el extremo inferior del intervalo de censura, se obtienen datoscensurados por la izquierda. La ausencia del extremo superior se utiliza, porsu parte, para indicar una censura por la derecha.

En todos los casos, en opciones se fija la distribucion base de la variablede error W .

Debemos expresarlo de la forma

MODEL respuesta = covariables / DIST = distribucion;

y entre las posibles distribuciones a especificar en distribucion se incluyen

WEIBULL, comando mediante el cual se especifica la distribucion de Weibull.No obstante, esta distribucion se tiene por defecto.

EXPONENTIAL, especifica una distribucion exponencial.

LNORMAL, especifica una distribucion Log-Normal.

LLOGISTIC, especifica una distribucion Log-Logıstica.

GAMMA, especifica una distribucion gamma.

NORMAL, especifica una distribucion normal.

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 9. Procedimiento LIFEREG 95

LOGISTIC, especifica una distribucion logıstica.

Si queremos ajustar mas de un modelo, especificaremos una lınea para cadauno de ellos, etiquetandolos al comienzo. Por ejemplo,A: MODEL ...

B: MODEL ...

Ejemplo 9.1Los siguientes datos, Nelson y Hahn (1972), corresponden al numero de horas hasta el fallode 40 motores actuando bajo determinadas temperaturas

Temp. Horas hasta el fallo

150oC Ninguno de los 10 fallo a las 8064 horas170oC 1764 2772 3444 3542 3780 4860 5196 No fallaron 3

a las 5448 horas190oC 408 408 1344 1344 1440 No fallaron 5 a las 1680 horas220oC 408 408 504 504 504 No fallaron 5 a las 528 horas

El principal proposito del experimento fue estimar el tiempo mediano de vida a una tempe-ratura de 130oC, utilizando un modelo de tiempo de fallo acelerado con una sola covariablex = 1000/(273′2 + tempe) y una distribucion base log-normal, o de Weibull.Como el metodo de mınimos cuadrados ponderados, utilizado para estimar los parametrosde regresion β, requiere al menos dos fallos en cada temperatura, se eliminaron los datosreferentes a 150oC.Por otro lado, con objeto de utilizar la misma notacion que el SAS, expresaremos el modelode tiempo de fallo acelerado de la forma

Y = α + xβ + σω


DATA ejemplo4;

INPUT tiempo censura tempe @@; [1]

x = 1000/(273.2+tempe); [2]

CARDS;

1764 1 170 2772 1 170 3444 1 170 3542 1 170 3780 1 170 4860 1 170

5196 1 170 5448 0 170 5448 0 170 5448 0 170 408 1 190 408 1 190

1344 1 190 1344 1 190 1440 1 190 1680 0 190 1680 0 190 1680 0 190

1680 0 190 1680 0 190 408 1 220 408 1 220 504 1 220 504 1 220

504 1 220 528 0 220 528 0 220 528 0 220 528 0 220 528 0 220

;

PROC LIFEREG;

A: MODEL tiempo*censura(0) = x; [3]

B: MODEL tiempo*censura(0) = x / DIST = LNORMAL; [4]

RUN;

En el se observa, [1], que los datos corresponden a las variables tiempo, censura y tempe,los cuales se introducen en formato libre al anadirse @@.Se define a continuacion, [2], la variable x, la cual sera utilizada mas abajo por el procedi-miento como covariable en el modelo.

Alfonso

Garc

ıaPere


Despues de los datos aparecen las sentencias propias del procedimiento LIFEREG, en dondese especifican dos modelos a considerar, uno con distribucion de Weibull para los errores,[3], y el otro con distribucion log-normal, [4].

En ellos se senala que aquellos tiempos en los que la variable censura tome el valor 0 sera datoscensurados, y el resto tiempos de fallo. En ambos se expresa como covariable x.

Los resultados obtenidos con dicho programa SAS serıan los siguientes

L I F E R E G P R O C E D U R E

Data Set =WORK.EJEMPLO4Dependent Variable=Log(TIEMPO)

Censoring Variable=CENSURACensoring Value(s)= 0

Noncensored Values= 17 Right Censored Values= 13 [1]Left Censored Values= 0 Interval Censored Values= 0 [1]

Log Likelihood for WEIBULL -22.95148315 [2]


Variable DF Estimate Std Err ChiSquare Pr>Chi Label/Value

INTERCPT 1 -11.89122 1.965507 36.6019 0.0001 InterceptX 1 9.03834032 0.905993 99.52392 0.0001

SCALE 1 0.36128138 0.079501 Extreme value scale paramet[3] [4] [5] [6]


Data Set =WORK.EJEMPLO4

Dependent Variable=Log(TIEMPO)Censoring Variable=CENSURA

Censoring Value(s)= 0Noncensored Values= 17 Right Censored Values= 13

Left Censored Values= 0 Interval Censored Values= 0

Log Likelihood for LNORMAL -24.47381031 [7]



INTERCPT 1 -10.470563 2.77192 14.26851 0.0002 Intercept

X 1 8.3220835 1.284124 42.00011 0.0001SCALE 1 0.6040344 0.110729 Normal scale parameter

[8]

En ellos se observa, despues de un recuento de cuales datos son no censurados y cualescensurados (y de que tipo), [1], el valor alcanzado por la verosimilitud bajo un modeloWeibull para los errores, [2], igual a −22′95148.

La tabla que aparece a continuacion recoge las estimaciones, [3], de los parametros delmodelo de tiempo de fallo acelerado

Y = α + xβ + σω

las cuales son α = −11′891, β = 9′038 y σ = 0′3613.

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 9. Procedimiento LIFEREG 97

Se observa tambien su desviacion tıpica, [4], ası como los tests para contrastar la hipotesisnula de igualdad a cero de los parametros de regresion, los cuales tienen unos valores del es-tadıstico de contraste dados por [5], siendo el p-valor de cada uno de ellos, [6], lo suficiente-mente significativo como para rechazar dicha hipotesis nula y aceptar, en consecuencia, el mo-delo propuesto, el cual, al ser para 130oC la covariable igual a x0 = 1000/(273′2+130) = 2′48implica una prediccion para el logaritmo del tiempo de vida mediano igual a

y0′5 = −11′891 + 2′48 · 9′038 + 0′3613 · 0 = 10′523

al ser w0′5 = 0.

En la segunda parte de los resultados se observa de nuevo, logicamente, el mismo recuento devalores censurados y no censurados, una verosimilitud, [7], bajo una distribucion log-normal,algo menor, −24′4738, —lo cual sugiere utilizar el modelo con distribucion de Weibull—, confirmando los tests de la ultima tabla las estimaciones dadas en [8], α = −10′471,β = 8′322 y σ = 0′604, las cuales proporcionan ahora una estimacion para el logaritmo deltiempo de vida mediano igual a

y0′5 = −10′471 + 2′48 · 8′322 + 0′604 · 0 = 10′17

Utilizando el modelo de tiempo de fallo acelerado, con una distribucion de Weibull para loserrores, el tiempo de vida mediano estimado sera, por tanto, exp{10′523} = 37160′4.

Ejemplo 9.2

Los siguientes datos, Tobin (1958), corresponden a 20 observaciones de tres variables, dura-

cion, edad y liquidez, obtenidos con objeto de ajustar un modelo de tiempo de fallo acelerado,en donde figure como variable dependiente duracion y en donde se admita como distribucionbase una normal.

Se supone que la variable duracion esta censurada por la izquierda en cero, por lo quedebemos eliminar aquellos datos en los que dicha variable tome el valor 0.


DATA ejemplo5;

INPUT duracion edad liquidez @@;

IF duracion=0 THEN menor=.; [1]

ELSE menor=duracion;

CARDS;

0.0 57.7 236 0.0 59.8 216 10.4 46.8 207 0.0 39.9 219

0.7 50.9 283 0.0 44.3 284 0.0 58.0 249 0.0 33.4 240

0.0 48.5 207 3.7 45.1 221 0.0 58.9 246 3.5 48.1 266

0.0 41.7 220 0.0 51.7 275 0.0 40.0 277 6.1 46.1 214

0.0 47.7 238 3.0 50.0 269 1.5 34.1 231 0.0 53.1 251

;

PROC LIFEREG;

MODEL (menor , duracion) = edad liquidez / DIST = NORMAL; [2]

RUN;

En el se observa la introduccion de la variable menor con la que definir el intervalo de censurautilizado en [2]. El resto de las sentencias son ya conocidas.


Alfonso

Garc

ıaPere



Data Set =WORK.EJEMPLO5

Dependent Variable=MENORDependent Variable=DURACIONNoncensored Values= 7 Right Censored Values= 0

Left Censored Values= 13 Interval Censored Values= 0

Log Likelihood for NORMAL -28.92596097



INTERCPT 1 15.2771208 16.03272 0.907964 0.3407 Intercept

EDAD 1 -0.1340075 0.218931 0.374664 0.5405LIQUIDEZ 1 -0.0451356 0.058269 0.600026 0.4386

SCALE 1 5.56935051 1.728145 Normal scale parameter[1] [2]

En ellos se observan las estimaciones del modelo, quedando este de la forma

Y = 15′277 − 0′134 · EDAD − 0′045 · LIQUIDEZ + 5′569 ω

No obstante, los p-valores, [2], de los tests que contrastan como hipotesis nula la igualdadde cero de los parametros del modelo, sugieren que el ajuste efectuado no es el adecuado.

Alfonso

Garc

ıaPere

z.UNED

Capıtulo 10

Procedimiento PHREG

10.1. Introduccion

El procedimiento PHREG se utiliza con datos, algunos de los cuales puedenser censurados por la derecha, con objeto de

Realizar un analisis de regresion basado en el modelo de azar proporcional(vease AS-seccion 4.2) el cual supone una funcion tasa de azar de la forma

λ(t;x) = λ0(t) ex′β

y, en consecuencia, una funcion de supervivencia de la forma

S(t;x) = [S0(t)]exp{x′β}

en donde λ0 es la denominada tasa de azar base y S0 la correspondientefuncion de supervivencia base.

10.2. Especificaciones del procedimiento PHREG

Como en todo procedimiento SAS el procedimiento PHREG permite una seriede especificaciones. La mas importante, ademas de obligatoria, es la sentenciaMODEL,

PROC PHREG;MODEL respuesta = covariables / opciones;

Con esta sentencia especificamos cual es la variable dependiente, respuesta,y cuales las covariables o variables independientes, covariables.

Si existen datos censurados debemos indicarlo introduciendo una variableindicadora de censura, para unos determinados valores de la cual, los datos

99

Alfonso

Garc

ıaPere


observados en respuesta son censurados por la derecha, debemos expresarlo dela forma

MODEL respuesta< ∗censura(numero) >= covariables / opciones;

Ası por ejemplo, si la variable de respuesta es muerte, salvo en aquelloscasos en los que la variable perdida tome los valores 1 y 2, en cuyo caso losdatos son tiempos de censura en lugar de tiempos de fallo, lo indicaremos dela forma

MODEL muerte∗perdida(1,2) = covariables / opciones;

Entre la opciones de MODEL estan las siguientes

SELECTION = opcion

Mediante SELECTION determinamos la manera en la que SAS selecciona lascovariables significativas en el modelo de azar proporcional.

Podemos elegir, entre otras, stepwise, con la cual elegimos el metodo step-

wise de seleccion, o score con el cual identificamos un numero determinado demodelos con un mayor estadıstico χ2 de entre todos los posibles modelos quepodemos formar con las covariables, utilizando desde una hasta todas ellas. Elnumero de modelos, n, se determina con BEST=n.

SLENTRY = α

Especifica el nivel de significacion con el que se realiza el contraste paraincorporar las variables con el metodo stepwise. Entre todas las covariablesque no esten en el modelo, se incorpora aquella con el p-valor mas pequeno, sieste es menor o igual que α.

SLSTAY = α

Especifica el nivel de significacion con el que se realiza el contraste paraeliminar las variables con el metodo stepwise. Entre todas las covariables queestan en el modelo, se elimina aquella con el mayor p-valor, si este es mayorque α.

DETAILS

Permite obtener detalles del proceso de seleccion de las variables por elmetodo stepwise.

Como primer ejemplo de estimacion en un modelo de azar proporcionalvolveremos a considerar un ejemplo ya analizado anteriormente.

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 10. Procedimiento PHREG 101

Ejemplo 10.1 (AS-ejemplo 1)La siguiente tabla recoge, Pike (1966), los dıas transcurridos desde que varias ratas fueroninoculadas con el carcinogen DMBA hasta su muerte por cancer vaginal. Se distinguierondos grupos a causa de dos tratamientos previos a dicha inoculacion.

Grupo 1 143 164 188 188 190 192 206 209 213 216220 227 230 234 246 265 304 216∗ 244∗

Grupo 2 142 156 163 198 205 232 232 233 233 233233 239 240 261 280 280 296 296 323 204∗

344∗

Los datos con ∗ son datos censurados.

El proposito es comparar las poblaciones, utilizando un modelo de azar proporcional endonde se considera a la variable de respuesta dias, funcion —a traves de dicho modelo— dela covariable grupo.Contrastar la hipotesis nula H0 : β = 0 es equivalente a contrastar la igualdad de laspoblaciones.El programa SAS a utilizar serıa el siguiente

DATA ejemplo6;

INPUT dias estatus grupo @@;

CARDS;

143 1 1 164 1 1 188 1 1 188 1 1 190 1 1 192 1 1 206 1 1

209 1 1 213 1 1 216 1 1 220 1 1 227 1 1 230 1 1 234 1 1

246 1 1 265 1 1 304 1 1 216 0 1 244 0 1 142 1 2 156 1 2

163 1 2 198 1 2 205 1 2 232 1 2 232 1 2 233 1 2 233 1 2

233 1 2 233 1 2 239 1 2 240 1 2 261 1 2 280 1 2 280 1 2

296 1 2 296 1 2 323 1 2 204 0 2 344 0 2

;

PROC PHREG;

MODEL dias*estatus(0) = grupo; [1]

RUN;

En el se observa, [1], la identificacion de la censura como el valor 0 de la variable estatus,ası como que en dicho modelo la covariable utilizada es grupo. El resto de las sentencias sonya conocidas.Los resultados obtenidos con dicho programa SAS serıan los siguientes

The PHREG Procedure

Data Set: WORK.EJEMPLO6

Dependent Variable: DIASCensoring Variable: ESTATUS

Censoring Value(s): 0Ties Handling: BRESLOW

Summary of the Number of

Event and Censored Values

PercentTotal Event Censored Censored

40 36 4 10.00

Alfonso

Garc

ıaPere


Testing Global Null Hypothesis: BETA=0

Without With

Criterion Covariates Covariates Model Chi-Square

-2 LOG L 204.317 201.438 2.878 with 1 DF (p=0.0898) [1]

Score . . 3.000 with 1 DF (p=0.0833) [1]Wald . . 2.925 with 1 DF (p=0.0872) [1]

Analysis of Maximum Likelihood Estimates

Parameter Standard Wald Pr > Risk

Variable DF Estimate Error Chi-Square Chi-Square Ratio

GRUPO 1 -0.595896 0.34840 2.92532 0.0872 0.551[2]

Como la variable grupo toma solamente dos valores, la hipotesis nula de igualdad entre losdos grupos, resulta equivalente a la hipotesis nula aquı contrastada H0 : β = 0. Los p-valores,[1], de los tres tests realizados, no son nada concluyentes.

Se incluye tambien, [2], el valor del cociente entre las tasas de azar de cada uno de los dosgrupos. El valor de dicho estadıstico, 0′551, implica que la tasa de azar para el grupo 2 esmenor que para el grupo 1. Es decir, las ratas del grupo 2 viven mas tiempo que las delgrupo 1.

Observese que la comparacion de las curvas de supervivencia aquı realizada es diferente a ladel capıtulo 8. Aquı, ambas funciones de supervivencia son modeladas a traves de un modelode azar proporcional. Allı eran estimadas por medio del estimador de Kaplan-Meier o pormedio de la tabla de supervivencia y luego comparadas.

Ejemplo 10.2

Krall, Uthoff y Harley (1975) analizaron datos procedentes de un estudio sobre cancer dehuesos, en el cual, los investigadores trataron 65 pacientes con agentes alcalinos. De esospacientes, 48 murieron (por el mal en cuestion) durante el estudio y 17 sobrevivieron.

Cuando diagnosticaron a los pacientes su enfermedad, los investigadores observaron en elloslas siguientes variables: logbun el logaritmo de bun, hgb niveles de hemoglobina, plaqueta

niveles de plaquetas, edad de los pacientes, logwbc el logaritmo de wbc, frac numero defracturas, logplas logaritmo del porcentaje de celulas con plasma en la medula de los huesos,proteina niveles de proteınas y suerocal niveles de suero calcico.

El proposito del experimento es determinar que variables de entre las anteriores son signifi-cativas, supuesto un modelo de azar proporcional para el tiempo de supervivencia.

Los datos obtenidos aparecen ya en el siguiente programa SAS, los cuales incluyen tambienel tiempo de fallo de cada individuo y una variable de censura para indicar los 17 individuosque sobrevivieron al estudio y que, por tanto, corresponden a datos censurados.

DATA ejemplo7;

INPUT tiempo censura logbun hgb plaqueta edad logwbc frac

logplas proteina suerocal;

CARDS;

1.25 1 2.2175 9.4 1 67 3.6628 1 1.9542 12 10

1.25 1 1.9395 12.0 1 38 3.9868 1 1.9542 20 18

2.00 1 1.5185 9.8 1 81 3.8751 1 2.0000 2 15

2.00 1 1.7482 11.3 0 75 3.8062 1 1.2553 0 12

2.00 1 1.3010 5.1 0 57 3.7243 1 2.0000 3 9

3.00 1 1.5441 6.7 1 46 4.4757 0 1.9345 12 10

Alfonso

Garc

ıaPere


5.00 1 2.2355 10.1 1 50 4.9542 1 1.6628 4 9

5.00 1 1.6812 6.5 1 74 3.7324 0 1.7324 5 9

6.00 1 1.3617 9.0 1 77 3.5441 0 1.4624 1 8

6.00 1 2.1139 10.2 0 70 3.5441 1 1.3617 1 8

6.00 1 1.1139 9.7 1 60 3.5185 1 1.3979 0 10

6.00 1 1.4150 10.4 1 67 3.9294 1 1.6902 0 8

7.00 1 1.9777 9.5 1 48 3.3617 1 1.5682 5 10

7.00 1 1.0414 5.1 0 61 3.7324 1 2.0000 1 10

7.00 1 1.1761 11.4 1 53 3.7243 1 1.5185 1 13

9.00 1 1.7243 8.2 1 55 3.7993 1 1.7404 0 12

11.00 1 1.1139 14.0 1 61 3.8808 1 1.2788 0 10

11.00 1 1.2304 12.0 1 43 3.7709 1 1.1761 1 9

11.00 1 1.3010 13.2 1 65 3.7993 1 1.8195 1 10

11.00 1 1.5682 7.5 1 70 3.8865 0 1.6721 0 12

11.00 1 1.0792 9.6 1 51 3.5051 1 1.9031 0 9

13.00 1 0.7782 5.5 0 60 3.5798 1 1.3979 2 10

14.00 1 1.3979 14.6 1 66 3.7243 1 1.2553 2 10

15.00 1 1.6021 10.6 1 70 3.6902 1 1.4314 0 11

16.00 1 1.3424 9.0 1 48 3.9345 1 2.0000 0 10

16.00 1 1.3222 8.8 1 62 3.6990 1 0.6990 17 10

17.00 1 1.2304 10.0 1 53 3.8808 1 1.4472 4 9

17.00 1 1.5911 11.2 1 68 3.4314 0 1.6128 1 10

18.00 1 1.4472 7.5 1 65 3.5682 0 0.9031 7 8

19.00 1 1.0792 14.4 1 51 3.9191 1 2.0000 6 15

19.00 1 1.2553 7.5 0 60 3.7924 1 1.9294 5 9

24.00 1 1.3010 14.6 1 56 4.0899 1 0.4771 0 9

25.00 1 1.0000 12.4 1 67 3.8195 1 1.6435 0 10

26.00 1 1.2304 11.2 1 49 3.6021 1 2.0000 27 11

32.00 1 1.3222 10.6 1 46 3.6990 1 1.6335 1 9

35.00 1 1.1139 7.0 0 48 3.6532 1 1.1761 4 10

37.00 1 1.6021 11.0 1 63 3.9542 0 1.2041 7 9

41.00 1 1.0000 10.2 1 69 3.4771 1 1.4771 6 10

41.00 1 1.1461 5.0 1 70 3.5185 1 1.3424 0 9

51.00 1 1.5682 7.7 0 74 3.4150 1 1.0414 4 13

52.00 1 1.0000 10.1 1 60 3.8573 1 1.6532 4 10

54.00 1 1.2553 9.0 1 49 3.7243 1 1.6990 2 10

58.00 1 1.2041 12.1 1 42 3.6990 1 1.5798 22 10

66.00 1 1.4472 6.6 1 59 3.7853 1 1.8195 0 9

67.00 1 1.3222 12.8 1 52 3.6435 1 1.0414 1 10

88.00 1 1.1761 10.6 1 47 3.5563 0 1.7559 21 9

89.00 1 1.3222 14.0 1 63 3.6532 1 1.6232 1 9

92.00 1 1.4314 11.0 1 58 4.0755 1 1.4150 4 11

4.00 0 1.9542 10.2 1 59 4.0453 0 0.7782 12 10

4.00 0 1.9243 10.0 1 49 3.9590 0 1.6232 0 13

7.00 0 1.1139 12.4 1 48 3.7993 1 1.8573 0 10

7.00 0 1.5315 10.2 1 81 3.5911 0 1.8808 0 11

8.00 0 1.0792 9.9 1 57 3.8325 1 1.6532 0 8

12.00 0 1.1461 11.6 1 46 3.6435 0 1.1461 0 7

11.00 0 1.6128 14.0 1 60 3.7324 1 1.8451 3 9

12.00 0 1.3979 8.8 1 66 3.8388 1 1.3617 0 9

13.00 0 1.6628 4.9 0 71 3.6435 0 1.7924 0 9

Alfonso

Garc

ıaPere


16.00 0 1.1461 13.0 1 55 3.8573 0 0.9031 0 9

19.00 0 1.3222 13.0 1 59 3.7709 1 2.0000 1 10

19.00 0 1.3222 10.8 1 69 3.8808 1 1.5185 0 10

28.00 0 1.2304 7.3 1 82 3.7482 1 1.6721 0 9

41.00 0 1.7559 12.8 1 72 3.7243 1 1.4472 1 9

53.00 0 1.1139 12.0 1 66 3.6128 1 2.0000 1 11

57.00 0 1.2553 12.5 1 66 3.9685 0 1.9542 0 11

77.00 0 1.0792 14.0 1 60 3.6812 0 0.9542 0 12

;

PROC PHREG;

MODEL tiempo*censura(0)=logbun hgb plaqueta edad logwbc frac

logplas proteina suerocal /

SELECTION=stepwise [1]

SLENTRY=0.25 [2]

SLSTAY=0.15 [3]

DETAILS; [4]

RUN;

Las sentencias tipo DATA son ya conocidas. Respecto a las sentencias especıficas del proce-dimiento PHREG, se indica, [1], que el metodo de seleccion de variables es stepwise y que losniveles de significacion para incorporar variables, [2], y para excluirlas, [3] son respectiva-mente 0′25 y 0′15. Se requiere, por ultimo, [4], que el proceso se muestre detalladamente.


The PHREG Procedure

Data Set: WORK.EJEMPLO7Dependent Variable: TIEMPOCensoring Variable: CENSURA


Summary of the Number ofEvent and Censored Values

PercentTotal Event Censored Censored

65 48 17 26.15

Analysis of Variables Not in the Model

Score Pr >Variable Chi-Square Chi-Square

LOGBUN 8.5164 0.0035HGB 5.0664 0.0244

PLAQUETA 3.1816 0.0745EDAD 0.0183 0.8924

LOGWBC 0.5658 0.4519 [1]FRAC 0.9151 0.3388LOGPLAS 0.5846 0.4445

PROTEINA 0.1466 0.7018SUEROCAL 1.1109 0.2919

Residual Chi-square = 18.4550 with 9 DF (p=0.0302)

Step 1: Variable LOGBUN is entered. The model contains the following

Alfonso

Garc

ıaPere


explanatory variables.

LOGBUN

The PHREG Procedure


Without With

Criterion Covariates Covariates Model Chi-Square

-2 LOG L 309.716 301.959 7.757 with 1 DF (p=0.0053)

Score . . 8.516 with 1 DF (p=0.0035)Wald . . 8.339 with 1 DF (p=0.0039)




LOGBUN 1 1.745947 0.60460 8.33919 0.0039 5.731[2]



HGB 4.3468 0.0371

PLAQUETA 2.0183 0.1554EDAD 0.7159 0.3975LOGWBC 0.0704 0.7908 [3]

FRAC 1.0354 0.3089LOGPLAS 1.0334 0.3094



Step 2: Variable HGB is entered. The model contains the following


LOGBUN HGB

The PHREG Procedure


Without WithCriterion Covariates Covariates Model Chi-Square

-2 LOG L 309.716 297.767 11.949 with 2 DF (p=0.0025)Score . . 12.725 with 2 DF (p=0.0017)

Wald . . 12.190 with 2 DF (p=0.0023)


Parameter Standard Wald Pr > RiskVariable DF Estimate Error Chi-Square Chi-Square Ratio

Alfonso

Garc

ıaPere


LOGBUN 1 1.674399 0.61209 7.48330 0.0062 5.336HGB 1 -0.118987 0.05751 4.28112 0.0385 0.888

[4]



PLAQUETA 0.2266 0.6341EDAD 1.3508 0.2451

LOGWBC 0.3785 0.5384FRAC 1.0491 0.3057

LOGPLAS 0.6741 0.4116PROTEINA 0.6592 0.4168SUEROCAL 1.8225 0.1770 [5]


Step 3: Variable SUEROCAL is entered. The model contains the following


LOGBUN HGB SUEROCAL

The PHREG Procedure



-2 LOG L 309.716 296.078 13.638 with 3 DF (p=0.0034)





LOGBUN 1 1.635924 0.62359 6.88214 0.0087 5.134

HGB 1 -0.126428 0.05868 4.64194 0.0312 0.881SUEROCAL 1 0.132856 0.09868 1.81254 0.1782 1.142

[6]

Step 4: Variable SUEROCAL is removed. The model contains the followingexplanatory variable(s).

LOGBUN HGB



-2 LOG L 309.716 297.767 11.949 with 2 DF (p=0.0025)


Alfonso

Garc

ıaPere


The PHREG Procedure


Parameter Standard Wald Pr > RiskVariable DF Estimate Error Chi-Square Chi-Square Ratio

LOGBUN 1 1.674399 0.61209 7.48330 0.0062 5.336

HGB 1 -0.118987 0.05751 4.28112 0.0385 0.888


Score Pr >

Variable Chi-Square Chi-Square

PLAQUETA 0.2266 0.6341EDAD 1.3508 0.2451LOGWBC 0.3785 0.5384

FRAC 1.0491 0.3057LOGPLAS 0.6741 0.4116



NOTE: Model building terminates because the variable to be entered is the

variable that was removed in the last step.

[7]Summary of Stepwise Procedure

Variable Number Score Wald Pr >

Step Entered Removed In Chi-Square Chi-Square Chi-Square

1 LOGBUN 1 8.5164 . 0.0035

2 HGB 2 4.3468 . 0.03713 SUEROCAL 3 1.8225 . 0.1770

4 SUEROCAL 2 . 1.8125 0.1782

El procedimiento de seleccion stepwise es un proceso a pasos de inclusion y exclusion decovariables.

Primero se realizan, [1], unos tests χ2 para cada una de las covariables. El primer pasoconsiste en incluir aquella covariable para la que se haya obtenido un menor p-valor enlos tests χ2 anteriores, y siempre y cuando dicho p-valor sea menor o igual que el lımiteestablecido en la opcion SLENTRY.

En nuestro caso, dicho lımite era 0′25, por lo que incorporamos la covariable logbun, dep-valor “marginal”0′0035. Vease Step 1.

A continuacion, como el test de Wald, [2], proporciona un p-valor (0′0039) menor que ellımite de exclusion de covariables fijado en la opcion SLSTAY, (0′15 en nuestro programa), lacovariable logbun se queda en el modelo.

Una nueva serie de tests χ2, [3], indican que la siguiente covariable a incorporar al modeloes hgb de p-valor 0′0371 menor que el lımite antes mencionado 0′25.

De nuevo el test de Wald, [4], indica valores significativos, tanto para logbun como para hgb,al no llegar ninguno de los dos p-valores al lımite 0′15, con lo que se infiere, por tanto, lapermanencia de la covariables logbun y hgb en el modelo.

La siguiente baterıa de tests, [5], sugiere incorporar ahora a la covariable suerocal, formandoun modelo con las covariables logbun, hgb y suerocal.

No obstante, el test de Wald, [6], resulta no ser significativo para la variable suerocal (p-valor= 0′1782), con lo que es excluida del modelo. Vease Step 4.

Alfonso

Garc

ıaPere


El proceso concluye, [7], con un resumen de los pasos dados, que para nuestro ejemploimplican incorporar al modelo, en definitiva, las covariables logbun y hgb.

Ejemplo 10.3

Como antes dijimos, una forma alternativa de seleccionar las variables a incorporar al modeloes la de utilizar la opcion score en SELECTION. A continuacion vamos a repetir el ejemploanterior, utilizando esta opcion. El programa SAS a utilizar serıa el siguiente

DATA ejemplo8;

INPUT tiempo censura logbun hgb plaqueta edad logwbc frac

logplas proteina suerocal;

CARDS;

1.25 1 2.2175 9.4 1 67 3.6628 1 1.9542 12 10

1.25 1 1.9395 12.0 1 38 3.9868 1 1.9542 20 18

2.00 1 1.5185 9.8 1 81 3.8751 1 2.0000 2 15

2.00 1 1.7482 11.3 0 75 3.8062 1 1.2553 0 12

2.00 1 1.3010 5.1 0 57 3.7243 1 2.0000 3 9

3.00 1 1.5441 6.7 1 46 4.4757 0 1.9345 12 10

5.00 1 2.2355 10.1 1 50 4.9542 1 1.6628 4 9

5.00 1 1.6812 6.5 1 74 3.7324 0 1.7324 5 9

6.00 1 1.3617 9.0 1 77 3.5441 0 1.4624 1 8

6.00 1 2.1139 10.2 0 70 3.5441 1 1.3617 1 8

6.00 1 1.1139 9.7 1 60 3.5185 1 1.3979 0 10

6.00 1 1.4150 10.4 1 67 3.9294 1 1.6902 0 8

7.00 1 1.9777 9.5 1 48 3.3617 1 1.5682 5 10

7.00 1 1.0414 5.1 0 61 3.7324 1 2.0000 1 10

7.00 1 1.1761 11.4 1 53 3.7243 1 1.5185 1 13

9.00 1 1.7243 8.2 1 55 3.7993 1 1.7404 0 12

11.00 1 1.1139 14.0 1 61 3.8808 1 1.2788 0 10

11.00 1 1.2304 12.0 1 43 3.7709 1 1.1761 1 9

11.00 1 1.3010 13.2 1 65 3.7993 1 1.8195 1 10

11.00 1 1.5682 7.5 1 70 3.8865 0 1.6721 0 12

11.00 1 1.0792 9.6 1 51 3.5051 1 1.9031 0 9

13.00 1 0.7782 5.5 0 60 3.5798 1 1.3979 2 10

14.00 1 1.3979 14.6 1 66 3.7243 1 1.2553 2 10

15.00 1 1.6021 10.6 1 70 3.6902 1 1.4314 0 11

16.00 1 1.3424 9.0 1 48 3.9345 1 2.0000 0 10

16.00 1 1.3222 8.8 1 62 3.6990 1 0.6990 17 10

17.00 1 1.2304 10.0 1 53 3.8808 1 1.4472 4 9

17.00 1 1.5911 11.2 1 68 3.4314 0 1.6128 1 10

18.00 1 1.4472 7.5 1 65 3.5682 0 0.9031 7 8

19.00 1 1.0792 14.4 1 51 3.9191 1 2.0000 6 15

19.00 1 1.2553 7.5 0 60 3.7924 1 1.9294 5 9

24.00 1 1.3010 14.6 1 56 4.0899 1 0.4771 0 9

25.00 1 1.0000 12.4 1 67 3.8195 1 1.6435 0 10

26.00 1 1.2304 11.2 1 49 3.6021 1 2.0000 27 11

32.00 1 1.3222 10.6 1 46 3.6990 1 1.6335 1 9

35.00 1 1.1139 7.0 0 48 3.6532 1 1.1761 4 10

37.00 1 1.6021 11.0 1 63 3.9542 0 1.2041 7 9

41.00 1 1.0000 10.2 1 69 3.4771 1 1.4771 6 10

Alfonso

Garc

ıaPere


41.00 1 1.1461 5.0 1 70 3.5185 1 1.3424 0 9

51.00 1 1.5682 7.7 0 74 3.4150 1 1.0414 4 13

52.00 1 1.0000 10.1 1 60 3.8573 1 1.6532 4 10

54.00 1 1.2553 9.0 1 49 3.7243 1 1.6990 2 10

58.00 1 1.2041 12.1 1 42 3.6990 1 1.5798 22 10

66.00 1 1.4472 6.6 1 59 3.7853 1 1.8195 0 9

67.00 1 1.3222 12.8 1 52 3.6435 1 1.0414 1 10

88.00 1 1.1761 10.6 1 47 3.5563 0 1.7559 21 9

89.00 1 1.3222 14.0 1 63 3.6532 1 1.6232 1 9

92.00 1 1.4314 11.0 1 58 4.0755 1 1.4150 4 11

4.00 0 1.9542 10.2 1 59 4.0453 0 0.7782 12 10

4.00 0 1.9243 10.0 1 49 3.9590 0 1.6232 0 13

7.00 0 1.1139 12.4 1 48 3.7993 1 1.8573 0 10

7.00 0 1.5315 10.2 1 81 3.5911 0 1.8808 0 11

8.00 0 1.0792 9.9 1 57 3.8325 1 1.6532 0 8

12.00 0 1.1461 11.6 1 46 3.6435 0 1.1461 0 7

11.00 0 1.6128 14.0 1 60 3.7324 1 1.8451 3 9

12.00 0 1.3979 8.8 1 66 3.8388 1 1.3617 0 9

13.00 0 1.6628 4.9 0 71 3.6435 0 1.7924 0 9

16.00 0 1.1461 13.0 1 55 3.8573 0 0.9031 0 9

19.00 0 1.3222 13.0 1 59 3.7709 1 2.0000 1 10

19.00 0 1.3222 10.8 1 69 3.8808 1 1.5185 0 10

28.00 0 1.2304 7.3 1 82 3.7482 1 1.6721 0 9

41.00 0 1.7559 12.8 1 72 3.7243 1 1.4472 1 9

53.00 0 1.1139 12.0 1 66 3.6128 1 2.0000 1 11

57.00 0 1.2553 12.5 1 66 3.9685 0 1.9542 0 11

77.00 0 1.0792 14.0 1 60 3.6812 0 0.9542 0 12

;

PROC PHREG;

MODEL tiempo*censura(0)=logbun hgb plaqueta edad logwbc frac

logplas proteina suerocal /

SELECTION=score

BEST=3; [1]

RUN;

en donde se observa, [1], que SAS debe elegir, en este caso tres, mejores modelos de cadatamano. Es decir, el procedimiento debera mostrar los tres modelos con mayor estadısticoχ2 —los mas significativos, es decir, para aquellos que se rechace mas claramente la hipotesisH0 : β = 0— de todos los modelos posibles con cada numero indicado de covariables.Los resultados obtenidos con este programa fueron los siguientes

The PHREG Procedure

Data Set: WORK.EJEMPLO8

Dependent Variable: TIEMPOCensoring Variable: CENSURA


Summary of the Number of

Event and Censored Values

Percent

Total Event Censored Censored

Alfonso

Garc

ıaPere


65 48 17 26.15

The PHREG Procedure

Regression Models Selected by Score Criterion

ScoreIn Value Variables Included in Model

1 8.516 LOGBUN1 5.066 HGB

1 3.182 PLAQUETA------------------------------

2 12.725 LOGBUN HGB2 11.184 LOGBUN PLAQUETA2 9.996 LOGBUN SUEROCAL

-------------------------------------3 15.305 LOGBUN HGB SUEROCAL

3 13.991 LOGBUN HGB EDAD3 13.579 LOGBUN HGB FRAC

-------------------------------------4 16.987 LOGBUN HGB EDAD SUEROCAL4 16.046 LOGBUN HGB FRAC SUEROCAL

4 15.762 LOGBUN HGB LOGPLAS SUEROCAL-------------------------------------------------

5 17.629 LOGBUN HGB EDAD FRAC SUEROCAL5 17.352 LOGBUN HGB EDAD LOGPLAS SUEROCAL5 17.192 LOGBUN HGB EDAD LOGWBC SUEROCAL

-----------------------------------------------------6 17.912 LOGBUN HGB EDAD FRAC LOGPLAS SUEROCAL

6 17.795 LOGBUN HGB EDAD LOGWBC FRAC SUEROCAL6 17.774 LOGBUN HGB PLAQUETA EDAD FRAC SUEROCAL

------------------------------------------------------------7 18.152 LOGBUN HGB PLAQUETA EDAD FRAC LOGPLAS SUEROCAL7 18.057 LOGBUN HGB EDAD LOGWBC FRAC LOGPLAS SUEROCAL

7 18.022 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC SUEROCAL-------------------------------------------------------------------

8 18.392 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC LOGPLAS SUEROCAL8 18.164 LOGBUN HGB PLAQUETA EDAD FRAC LOGPLAS PROTEINA SUEROCAL8 18.131 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC PROTEINA SUEROCAL

----------------------------------------------------------------------------9 18.455 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC LOGPLAS PROTEINA

SUEROCAL

------------------------------------------------------------------------------

En ellos se observa, en la primera columna, el numero de covariables utilizadas en cadamodelo y, en la ultima, el nombre de cada una de las covariables utilizadas en el.Los modelos son listados en orden decreciente de su estadıstico de contraste. Por ejemplo,entre todos los modelos conteniendo tres covariables, el formado por las covariables logbun,hgb y suerocal es el que proporciona un mayor valor para el estadıstico de contraste, elformado por logbun, hgb y edad el segundo mayor valor y el formado por logbun, hgb y frac

el tercer mayor valor.Los estadısticos obtenidos por este procedimiento son los estadısticos score del metodo an-terior, por lo que los valores obtenidos por este metodo en la segunda columna, deben con-frontarse con los puntos crıticos de las tablas de dicho test para determinar los que sonsignificativos.

Alfonso

Garc

ıaPere

z.UNED

Capıtulo 11

Componentes Principales

En la realizacion de un Analisis de Componentes Principales utilizaremosel Procedimiento PRINCOMP del modulo STAT.

Ejemplo 2.1-TAEl programa SAS que utilizaremos sera el siguiente

DATA recien;

INPUT X1 X2 X3 X4 X5 X6 X7 X8 @@;

CARDS;

32 17 67 112 28 10 17 71

32 9 64 142 32 14 0 66

22 25 66 122 23 12 25 68

18 25 60 101 21 14 12 66

21 0 67 125 20 15 2 67

41 7 65 126 37 14 25 68

21 8 64 123 24 12 0 71

20 7 63 109 20 10 34 69

22 6 62 123 27 12 7 73

20 35 67 125 23 12 50 72

23 25 69 167 21 12 23 71

29 12 65 115 33 13 0 69

31 0 65 125 31 16 0 72

22 7 62 113 23 14 25 78

;

PROC PRINCOMP;

RUN;

con el que se obtienen los siguientes resultados, comentados en TA. Por ejemplo, en [1], seobtienen las Componentes Principales, es decir, los coeficientes de las combinaciones linealesde las 8 variables originales.Los autovalores los vemos en [2], cuyas proporciones (en tantos por uno) las vemos en [3]

y las proporciones acumuladas en [4].

Procedimiento PRINCOMP

Observaciones 14

111

Alfonso

Garc

ıaPere


Variables 8

Estadısticos simples

X1 X2 X3 X4

Media 25.28571429 13.07142857 64.71428571 123.4285714

StD 6.60336245 10.62988737 2.43147854 15.8876550

Estadısticos simples

X5 X6 X7 X8

Media 25.92857143 12.85714286 15.71428571 70.07142857

StD 5.46969674 1.74784011 15.41442168 3.22166430

Matriz de correlacion

X1 X2 X3 X4 X5 X6 X7 X8

X1 1.0000 -.3192 0.2211 0.1710 0.9100 0.2304 -.2062 -.1565

X2 -.3192 1.0000 0.2568 0.1173 -.3188 -.4010 0.6071 -.0855X3 0.2211 0.2568 1.0000 0.6207 0.0099 -.1551 0.1926 -.0561

X4 0.1710 0.1173 0.6207 1.0000 0.0606 0.0855 -.0331 -.0232X5 0.9100 -.3188 0.0099 0.0606 1.0000 0.2885 -.3278 -.1088X6 0.2304 -.4010 -.1551 0.0855 0.2885 1.0000 -.4585 -.0937

X7 -.2062 0.6071 0.1926 -.0331 -.3278 -.4585 1.0000 0.2436X8 -.1565 -.0855 -.0561 -.0232 -.1088 -.0937 0.2436 1.0000

Autovalores de la matriz de correlacion

Autovalor Diferencia Proporcion Acumulada

1 2.68616770 0.82420599 0.3358 0.33582 1.86196171 0.74955901 0.2327 0.5685

3 1.11240271 0.08196084 0.1391 0.70764 1.03044187 0.41123736 0.1288 0.83645 0.61920451 0.25192635 0.0774 0.9138

6 0.36727816 0.08989355 0.0459 0.95977 0.27738461 0.23222587 0.0347 0.9944

8 0.04515874 0.0056 1.0000

[2] [3] [4]

[1] Procedimiento PRINCOMP

Autovectores

Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7 Prin8

X1 0.459276 0.330070 0.422215 -.069128 0.014059 -.094846 -.089366 -.692745

X2 -.429758 0.266224 0.087726 -.326886 0.445127 0.453338 0.439552 -.181725X3 -.069008 0.638725 -.167265 0.115755 -.186804 -.525313 0.459733 0.153909

X4 0.038809 0.559781 -.419990 0.275033 0.007091 0.449978 -.480087 0.009494X5 0.489813 0.199734 0.445282 -.077258 0.091430 0.271646 0.107493 0.649800X6 0.383900 -.116354 -.371509 0.147172 0.782396 -.244184 0.087289 -.003984

X7 -.438721 0.186702 0.422000 0.025484 0.378384 -.382411 -.521624 0.180079X8 -.135402 -.102785 0.308691 0.878093 0.055148 0.165530 0.256328 -.092836

Por defecto el procedimiento utiliza la matriz de datos estandarizada (esdecir, la de correlaciones). Si queremos que no estandarice los datos, deberemosutilizar el comando cov despues de PRINCOMP.

Alfonso

Garc

ıaPere

z.UNED

Capıtulo 12

Analisis de Correspondencias

Para realizar un Analisis de Correspondencias con SAS debemos utilizarel Procedimiento CORRESP.

Ejemplo 3.2-TAEl programa SAS que utilizaremos sera el siguiente

DATA MaBe;

INPUT Madre $ Bebe $ frecu @@;

CARDS;

jnf pm 50 jnf pv 315 jnf gcm 24 jnf gcv 4012

jf pm 9 jf pv 40 jf gcm 6 jf gcv 459

mnf pm 41 mnf pv 147 mnf gcm 14 mnf gcv 1594

mf pm 4 mf pv 11 mf gcm 1 mf gcv 124

;

PROC CORRESP data=MaBe outc=resultado short;

TABLES Madre Bebe;

WEIGHT frecu;

RUN;

%plotit(data=resultado, datatype=corresp, plotvars=Dim1 Dim2); [1]

RUN;

de comandos muy similares a los que obtenıamos en el analisis de tablas de contingencia.Es de destacar el comando que aparece en [1] mediante el cual le requerimos el graficode asociaciones habitualmente buscado en el Analisis de Correspondencias. Los resultadosobtenidos aparecen comentados en TA.

Procedimiento CORRESP

Inercia y descomposicion chi-cuadrado

Valor Inercia Chi- Porcentajesingular principal cuadrado Porcenta. acumulado 4 8 12 16 20

----+----+----+----+----+0.52516 0.27579 7557.8 18.37 18.37 ***********************

0.50781 0.25787 7066.7 17.18 35.54 *********************0.50183 0.25183 6901.2 16.77 52.32 *********************0.49817 0.24818 6801.0 16.53 68.85 *********************

0.49219 0.24225 6638.7 16.14 84.98 ********************0.47484 0.22547 6178.9 15.02 100.00 *******************

113

Alfonso

Garc

ıaPere


Figura 12.1 : Valores de las variables Madre y Bebe

Total 1.50139 41144.2 100.00

Grados de libertad = 49

Coordinadas de la fila

Dim1 Dim2

jf 0.4456 1.6994

jnf -0.3860 -0.0614mf 1.0877 -1.0290

mnf 0.7335 -0.2557gcm 2.1051 5.8545

gcv -0.1282 -0.0152pm 3.6565 -1.4619pv 0.6210 -0.0337

Coordenadas de la columna

Dim1 Dim2

jf 0.4456 1.6994

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 12. Analisis de Correspondencias 115

jnf -0.3860 -0.0614mf 1.0877 -1.0290

mnf 0.7335 -0.2557gcm 2.1051 5.8545

gcv -0.1282 -0.0152pm 3.6565 -1.4619pv 0.6210 -0.0337

Alfonso

Garc

ıaPere


Alfonso

Garc

ıaPere

z.UNED

Capıtulo 13

Analisis Discriminante

El Analisis Discriminante, lineal y cuadratico, se realiza con SAS medianteel Procedimiento DISCRIM.

Ejemplo 6.2-TA

Para analizar este ejemplo utilizaremos el siguiente programa SAS, en donde aparece en [1]

la variable que forma los dos grupos

DATA craneos;

INPUT x1 x2 x3 x4 x5 Pobla @@;

CARDS;

190.5 152.5 145.0 73.5 136.5 1

172.5 132.0 125.5 63.0 121.0 1

167.0 130.0 125.5 69.5 119.5 1

169.5 150.5 133.5 64.5 128.0 1

175.0 138.5 126.0 77.5 135.5 1

177.5 142.5 142.5 71.5 131.0 1

179.5 142.5 127.5 70.5 134.5 1

179.5 138.0 133.5 73.5 132.5 1

173.5 135.5 130.5 70.0 133.5 1

162.5 139.0 131.0 62.0 126.0 1

178.5 135.0 136.0 71.0 124.0 1

171.5 148.5 132.5 65.0 146.5 1

180.5 139.0 132.0 74.5 134.5 1

183.0 149.0 121.5 76.5 142.0 1

169.5 130.0 131.0 68.0 119.0 1

172.0 140.0 136.0 70.5 133.5 1

170.0 126.5 134.5 66.0 118.5 1

182.5 136.0 138.5 76.0 134.0 2

179.5 135.0 128.5 74.0 132.0 2

191.0 140.5 140.5 72.5 131.5 2

184.5 141.5 134.5 76.5 141.5 2

181.0 142.0 132.5 79.0 136.5 2

173.5 136.5 126.0 71.5 136.5 2

188.5 130.0 143.0 79.5 136.0 2

175.0 153.0 130.0 76.5 142.0 2

117

Alfonso

Garc

ıaPere


196.0 142.5 123.5 76.0 134.0 2

200.0 139.5 143.5 82.5 146.0 2

185.0 134.5 140.0 81.5 137.0 2

174.5 143.5 132.5 74.0 136.5 2

195.5 144.0 138.5 78.5 144.0 2

197.0 131.5 135.0 80.5 139.0 2

182.5 131.0 135.0 68.5 136.0 2

;

PROC DISCRIM;

CLASS Pobla; [1]

RUN;

Los resultados aparecen a continuacion, observandose, por ejemplo en [2], los valores cuyasdiferencias dan lugar a los coeficientes de la funcion discriminante lineal,

Procedimiento DISCRIM

Observacione 32 Total DF 31

Variables 5 Clases Within DF 30Clases 2 Clases Between DF 1

Informacion del nivel de la clase

Nombre de Probabilidad

Pobla variable Frecuencia Peso Proporcion anterior

1 _1 17 17.0000 0.531250 0.500000

2 _2 15 15.0000 0.468750 0.500000

Informacion de la matriz de covarianza ponderada

Registro natural de laRango de la matriz Determinante de la

de covarianza matriz de covarianza

5 16.72724


Distancias cuadradas generalizadas dos a dos entre grupos

2 _ _ -1 _ _D (i|j) = (X - X )’ COV (X - X )

i j i j

Distancia cuadrada generalizada para Pobla

De Pobla 1 2

1 0 3.501442 3.50144 0

Funcion discriminante lineal

_ -1 _ -1 _Constant = -.5 X’ COV X Coefficient Vector = COV X

j j j

Funcion discriminante lineal para Pobla

Variable 1 2

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 13. Analisis Discriminante 119

Constant -514.26257 -544.72605e

[2] x1 1.46831 1.55762x2 2.36106 2.20528

x3 2.75219 2.74696x4 0.77530 0.95250x5 0.19475 0.37216


Resumen de clasificacion para los datos calibrados: WORK.CRANEOSResumen de resustitucion usando Funcion discriminante lineal

Funcion de la distancia cuadrada generalizada

2 _ -1 _D (X) = (X-X )’ COV (X-X )

j j j

Probabilidad posterior de miembro en cada Pobla

2 2

Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X))j k k

Numero de observaciones y porcentaje clasificado en Pobla

De Pobla 1 2 Total

1 14 3 1782.35 17.65 100.00

2 3 12 15

20.00 80.00 100.00

Total 17 15 3253.13 46.88 100.00

Anteriores 0.5 0.5

Estimaciones de cuenta de error para Pobla

1 2 Total

Tasa 0.1765 0.2000 0.1882Anteriores 0.5000 0.5000

Alfonso

Garc

ıaPere


Alfonso

Garc

ıaPere

z.UNED

Capıtulo 14

Analisis Cluster

Para realizar un analisis cluster con SAS debemos utilizar el ProcedimientoCLUSTER.

Este Procedimiento admite los cinco metodos de agrupamiento estudiadosen TA. Ası, con method=single realizaremos un agrupamiento simple; conmethod=complete realizaremos un agrupamiento completo; con method=average

realizaremos un agrupamiento promedio; con method=centroid realizaremosun agrupamiento centroide, y utilizaremos el metodo de Ward con method=ward.

Ası, si queremos realizar con nuestros datos un agrupamiento centroide,las especificaciones que deberemos anadir al final de nuestro Programa SAS,seran

PROC CLUSTER method = centroid;

RUN;

Ejemplo 5.6-TA

Para formar los clusters utilizando un agrupamiento centroide, deberemos ejecutar el siguien-te programa SAS

DATA ejemplo;

INPUT talla sueldo @@;

CARDS;

180 175

170 180

175 165

189 100

185 110

;

PROC CLUSTER method = centroid;

RUN;

con el que obtendrıamos los siguientes resultados

121

Alfonso

Garc

ıaPere


Centroid Hierarchical Cluster Analysis

Eigenvalues of the Covariance Matrix

Eigenvalue Difference Proportion Cumulative

1 1488.74 1477.29 0.992364 0.99236

2 11.46 . 0.007636 1.00000

Root-Mean-Square Total-Sample Standard Deviation = 27.38795Root-Mean-Square Distance Between Observations = 54.77591

Centroid Hierarchical Cluster Analysis

Number Frequency Normalizedof of New Centroid

Clusters Clusters Joined Cluster Distance Tie

4 OB4 OB5 [1] 2 0.196625

3 OB1 OB2 [2] 2 0.204111 T2 CL3 OB3 [3] 3 0.228203

1 CL2 CL4 [4] 5 1.266597

en donde vemos que, en un primer paso, marcada con [1], se unen los individuos 4 y 5 (OB4y OB5). En un segundo paso, [2], se unen los individuos 1 y 2 (OB1 y OB2). En un tercer paso,[3], se une el individuo 3 (OB3) al cluster CL3 que es el formado en [2] ya que al principiode la lınea de ese paso aparece un 3.Finalmente, marcado con [4], se unen el cluster anterior CL2, por comenzar la lınea con un2, con el cluster CL4, es decir, el cluster formado al comienzo del proceso de amalgamiento,donde la lınea comenzaba con un 4.Con el siguiente programa se abrirıa el Procedimiento TREE y obtendrıamos el dendograma,

DATA ejemplo;

INPUT talla sueldo @@;

CARDS;

180 175

170 180

175 165

189 100

185 110

;

PROC CLUSTER method = centroid outtree=dibu;

RUN;

PROC TREE data=dibu;

RUN;

Alfonso

Garc

ıaPere

z.UNED

Capıtulo 15

Regresion Logıstica

La forma mas comoda de realizar una Regresion Logıstica con SAS es utili-zar dos procedimientos, especialmente si nuestras covariables son de dos tipos—cualitativas y cuantitativas—, y queremos evitar definir variables indicado-ras.

Primero usaremos el Procedimiento CATMOD, analizado en la seccion ante-rior, con el cual detectaremos cuales de las covariables utilizadas son significa-tivas a la hora de predecir a la variable dependiente (en realidad al logaritmode su odd); pero ademas, como con la Regresion Logıstica deseamos tambienpoder hacer predicciones, nos interesara conocer una estimacion de los coefi-cientes de regresion de las variables significativas, para lo que utilizaremos, enun segundo lugar, el Procedimiento LOGISTIC.

Podremos ahorrarnos el primer paso si todas nuestras covariables son detipo cuantitativo o, preferimos utilizar variables indicadoras.

Ejemplo 9.1-TA

Para realizar un Analisis de Regresion Logıstica primero detectaremos cuales de las co-variables son significativas con el siguiente programa SAS, en el que observamos algunaspeculiaridades en el Procedimiento CATMOD. En [1] debemos indicar al ordenador, tras elcomando DIRECT que covariables son de tipo cuantitativo y no incluiremos (como hacıamosen la seccion anterior) el comando LOGLIN = model

DATA logis;

INPUT edad activi infarto angina presion @@;

CARDS;

52 1 1 1 0

66 2 1 1 0

56 2 1 1 0

57 2 1 1 0

42 1 1 1 1

62 0 1 0 1

46 2 1 1 1

123

Alfonso

Garc

ıaPere


44 2 0 1 1

50 1 0 1 1

76 3 0 1 0

48 2 1 1 0

53 2 1 1 0

51 3 1 1 1

59 0 0 1 1

54 3 1 1 1

41 2 1 1 1

56 2 1 0 1

38 0 0 1 1

40 3 1 1 0

42 1 1 1 0

51 1 0 1 0

52 1 1 1 0

37 0 0 1 0

48 1 1 0 0

35 0 1 1 0

35 1 1 0 0

48 3 0 1 1

52 2 0 1 1

46 2 0 1 1

51 3 0 1 0

52 2 1 1 0

66 1 1 1 0

56 2 1 1 0

57 2 1 1 0

42 1 1 1 1

62 0 1 0 1

46 0 1 1 1

44 2 0 1 1

50 1 0 1 1

76 3 0 1 1

48 2 1 1 0

53 2 0 0 0

51 3 1 1 1

59 0 0 1 1

54 3 1 1 1

41 2 1 1 1

56 2 1 0 1

38 0 0 1 1

40 3 1 1 0

42 1 1 1 0

;

PROC CATMOD;

DIRECT edad; [1]

MODEL infarto = edad activi angina presion /

freq ml nogls;

RUN;

Con este programa obtendrıamos, entre otras cosas, la siguiente tabla de resultados

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 15. Regresion Logıstica 125

MAXIMUM LIKELIHOOD ANALYSIS OF VARIANCE TABLE

[2]

Source DF Chi-Square Prob--------------------------------------------------INTERCEPT 1 2.26 0.1328

EDAD 1 0.98 0.3226ACTIVI 3 2.06 0.5594

ANGINA 1 2.25 0.1338PRESION 1 2.81 0.0936

LIKELIHOOD RATIO 26 52.89 0.0014

en la que detectamos, observando la columna de p-valores [2], que, a nivel α = 0′1, la unicacovariable significativa a la hora de explicar a Infarto es Presion.

Ahora, para ajustar el Modelo de Regresion Logıstica, utilizaremos el siguiente programaSAS

DATA logis;

INPUT edad activi infarto angina presion @@;

CARDS;

52 1 1 1 0

66 2 1 1 0

56 2 1 1 0

57 2 1 1 0

42 1 1 1 1

62 0 1 0 1

46 2 1 1 1

44 2 0 1 1

50 1 0 1 1

76 3 0 1 0

48 2 1 1 0

53 2 1 1 0

51 3 1 1 1

59 0 0 1 1

54 3 1 1 1

41 2 1 1 1

56 2 1 0 1

38 0 0 1 1

40 3 1 1 0

42 1 1 1 0

51 1 0 1 0

52 1 1 1 0

37 0 0 1 0

48 1 1 0 0

35 0 1 1 0

35 1 1 0 0

48 3 0 1 1

52 2 0 1 1

46 2 0 1 1

51 3 0 1 0

52 2 1 1 0

Alfonso

Garc

ıaPere


66 1 1 1 0

56 2 1 1 0

57 2 1 1 0

42 1 1 1 1

62 0 1 0 1

46 0 1 1 1

44 2 0 1 1

50 1 0 1 1

76 3 0 1 1

48 2 1 1 0

53 2 0 0 0

51 3 1 1 1

59 0 0 1 1

54 3 1 1 1

41 2 1 1 1

56 2 1 0 1

38 0 0 1 1

40 3 1 1 0

42 1 1 1 0

;

PROC LOGISTIC;

MODEL infarto = presion;

RUN;

con el que obtenemos los siguientes resultados

The LOGISTIC Procedure

Data Set: WORK.LOGISResponse Variable: INFARTO

Response Levels: 2Number of Observations: 50Link Function: Logit

Response Profile

Ordered

Value INFARTO Count

1 0 172 1 33


Simple Statistics for Explanatory Variables

Standard

Variable Mean Deviation Minimum Maximum

PRESION 0.520000 0.504672 0 1.00000


Criteria for Assessing Model Fit

Intercept

Alfonso

Garc

ıaPere

z.UNEDCapıtulo 15. Regresion Logıstica 127

Intercept andCriterion Only Covariates Chi-Square for Covariates

AIC 66.104 64.453 .

SC 68.016 68.277 .-2 LOG L 64.104 60.453 3.650 with 1 DF (p=0.0561)Score . . 3.566 with 1 DF (p=0.0590)



Parameter Standard Wald Pr > Standardized

Variable Estimate Error Chi-Square Chi-Square Estimate

INTERCPT -1.3350 0.5026 7.0547 0.0079 .PRESION 1.1809 0.6383 3.4228 0.0643 0.328560

[3]

Association of Predicted Probabilities and Observed Responses

Concordant = 40.6% Somers’ D = 0.282

Discordant = 12.5% Gamma = 0.530Tied = 46.9% Tau-a = 0.129(561 pairs) c = 0.641

en donde observamos, [3], los mismos estimadores (siempre con signo cambiado) que habıamosobtenido TA.

Alfonso

Garc

ıaPere


Alfonso

Garc

ıaPere

z.UNED

Capıtulo 16

Analisis de Series Temporales

Para analizar Series Temporales con SAS y ajustar un Modelo ARIMA,debemos de utilizar el Procedimiento ARIMA.

Ejemplo 13.1-TASi queremos ajustar un Modelo ARIMA(1,0,1) utilizaremos el siguiente programa SAS, endonde se indica en [1] la variable que va indicando los datos y, en [2], el orden de las partesno nulas del modelo ARIMA a ajustar.

DATA lute;

INPUT x @@;

CARDS;

2.4 2.4 2.4 2.2 2.1 1.5 2.3 2.3 2.5 2.0 1.9 1.7 2.2 1.8 3.2 3.2

2.7 2.2 2.2 1.9 1.9 1.8 2.7 3.0 2.3 2.0 2.0 2.9 2.9 2.7 2.7 2.3

2.6 2.4 1.8 1.7 1.5 1.4 2.1 3.3 3.5 3.5 3.1 2.6 2.1 3.4 3.0 2.9

;

PROC ARIMA;

identify var=x; [1]

estimate p=(1) q=(1); [2]

RUN;

Los resultados obtenidos, entre otros, fueron los siguientes, observandose en [3], los valoresde las estimaciones de los parametros del modelo ajustado.

Proc ARIMA

Nombre de la variable = x

Media de series de trabajo 2.4

Desviacion estandar 0.545817Numero de observaciones 48

Estimacion por mınimos cuadrados condicional

Error Approx

Parametro Estimador estandar Valor t Pr > |t| Retardo

MU 2.41020 0.14102 17.09 <.0001 0

MA1,1 -0.20038 0.24243 -0.83 0.4129 1AR1,1 0.46321 0.22023 2.10 0.0411 1

129

Alfonso

Garc

ıaPere


[3]

Constante Estimacion 1.293783

Varianza Estimacion 0.205093Error estand Estimacion 0.452872AIC 63.07416

SBC 68.68777Numero de residuales 48

* AIC y SBC no incluyen determinante de la log.

Correlations of Parameter Estimates

Parametro MU MA1,1 AR1,1

MU 1.000 0.022 0.036MA1,1 0.022 1.000 0.796AR1,1 0.036 0.796 1.000

Proc ARIMA

Autocorrelation Check of Residuals

Para Chi- Pr >retardo cuadrado DF ChiSq -----------------Autocorrelaciones----------

6 5.70 4 0.2229 0.025 0.077 -0.238 -0.049 -0.153 0.125

12 9.63 10 0.4740 -0.056 0.155 -0.122 -0.065 -0.118 0.05818 12.55 16 0.7053 0.110 -0.055 0.040 0.097 0.027 0.11224 16.42 22 0.7947 -0.048 -0.097 -0.098 -0.138 0.007 0.051

Modelo para la variable x

Media estimada 2.410199

Factores autoregresivos

Factor 1: 1 - 0.46321 B**(1)

Factores de la media movil

Factor 1: 1 + 0.20038 B**(1)

con sas - unedsas. los programas sas se comunican con el ordenador por medio de senten-cias...

Documents