con sas - unedsas. los programas sas se comunican con el ordenador por medio de senten-cias...
TRANSCRIPT
Alfonso
Garc
ıaPere
z.UNED
ESTADISTICA APLICADA
CON SAS
(Segunda Edicion)
Alfonso Garcıa Perez
Alfonso
Garc
ıaPere
z.UNED
Copyright c©2011 Alfonso Garcıa Perez
“No esta permitida la reproduccion total o parcial de estelibro, ni su tratamiento informatico, ni la transmision deninguna forma o por cualquier medio, ya sea electronico,mecanico, por fotocopia, por registro u otros medios, sin elpermiso previo y por escrito de los titulares del Copyright.El contenido de este libro esta registrado por el autor en elRegistro de la Propiedad Intelectual con ISBN: 84-362-2931-2y protegido por la Ley, que establece penas de prision ademasde las correspondientes indemnizaciones para quien lo plagiara”
Edita: Universidad Nacional de Educacion a Distancia
Alfonso
Garc
ıaPere
z.UNED
Prologo
Este libro esta pensado, fundamentalmente, como complemento del textoEstadıstica Aplicada: Conceptos Basicos, texto que en adelante abreviaremospor CB, con el proposito de aplicar los conceptos allı estudiados resolviendonumerosos problemas con ayuda del paquete estadıstico SAS. Los ejemplosallı tratados se hara con el acronimo CB. Los ejemplos del texto Metodos
Avanzados de Estadıstica Aplicada. Tecnicas Avanzadas seran referenciadoscon el acronimo TA.
En los tres capıtulos sobre Procedimientos en Analisis de Supervivencia, lacita de los ejemplos allı tratados se hara con el acronimo AS. Las referenciasde los ejemplos aparecen en el capıtulo de Analisis de Supervivencia.
En esta segunda edicion se han ido incorporando nuevos Procedimientospara aplicar este Paquete Estadıstico a tecnicas mas complejas.
El esquema de cada capıtulo consistira en, primero, hacer un breve estudiodel programa (Procedimiento en terminologıa SAS) al que se dedica el capıtulo,para resolver despues problemas concretos con dicho programa, acompanandocomentarios a dicha resolucion.
En la elaboracion de este libro hemos pensado que la mejor manera deaprender los procedimientos SAS es utilizarlos, por lo que la resolucion deproblemas constituira la parte principal de cada capıtulo, mientras que losconocimientos que se daran de cada uno de los programas estudiados seran losmınimos indispensables para que estos funcionen, no pretendiendo, en ningunmomento, que el texto se convierta en un tedioso manual de SAS, sino en unlibro de problemas de Estadıstica Aplicada con SAS.
Alfonso Garcıa Pereze-mail: [email protected]
i
Alfonso
Garc
ıaPere
z.UNED
Alfonso
Garc
ıaPere
z.UNED
Indice
1. Introduccion al SAS 1
1.1. Instrucciones SAS . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Sentencias tipo DATA . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Sentencias PROC . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Ejecucion de los programas SAS . . . . . . . . . . . . . . . . . 4
2. Procedimiento UNIVARIATE 7
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Especificaciones del procedimiento UNIVARIATE . . . . . . . . 7
2.2.1. Opciones en PROC UNIVARIATE . . . . . . . . . . . . 8
2.2.2. Sentencias especıficas en PROC UNIVARIATE . . . . . 8
2.3. Analisis de los resultados . . . . . . . . . . . . . . . . . . . . . 8
3. Procedimiento PLOT 13
3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4. Procedimiento CORR 15
4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.2. Especificaciones del procedimiento CORR . . . . . . . . . . . . 15
4.3. Estadıstica Descriptiva Bivariante y Analisis de la CorrelacionLineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.4. Contraste de Spearman de independencia de variables aleatorias 20
4.5. Analisis de Correlacion Parcial . . . . . . . . . . . . . . . . . . 23
5. Procedimiento GLM 25
5.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.2. Especificaciones del procedimiento GLM . . . . . . . . . . . . . 25
5.3. Analisis de la varianza para un factor y un Diseno completa-mente aleatorizado . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.4. Analisis de la varianza para un factor y un Diseno por bloquesaleatorizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
iii
Alfonso
Garc
ıaPere
z.UNED
5.5. Analisis de la varianza para un factor y un Diseno de cuadradolatino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.6. Analisis de la varianza para dos factores y un Diseno comple-tamente aleatorizado . . . . . . . . . . . . . . . . . . . . . . . . 39
5.7. Analisis de la regresion lineal simple . . . . . . . . . . . . . . . 41
5.8. Analisis de la regresion lineal multiple . . . . . . . . . . . . . . 42
5.9. Analisis de la covarianza para un factor y un diseno completa-mente aleatorizado . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.10. Analisis de la covarianza para dos factores y un diseno comple-tamente aleatorizado . . . . . . . . . . . . . . . . . . . . . . . . 54
6. Procedimiento FREQ 57
6.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.2. Especificaciones del procedimiento FREQ . . . . . . . . . . . . 57
6.3. Contraste de homogeneidad de varias muestras . . . . . . . . . 58
6.4. Contraste de independencia de caracteres . . . . . . . . . . . . 61
7. Procedimiento NPAR1WAY 65
7.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.2. Especificaciones del procedimiento NPAR1WAY . . . . . . . . . 65
7.3. Contrastes relativos a dos muestras independientes . . . . . . . 66
7.4. El contraste de Kruskal-Wallis . . . . . . . . . . . . . . . . . . 68
8. Procedimiento LIFETEST 71
8.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
8.2. Especificaciones del procedimiento LIFETEST . . . . . . . . . 71
8.2.1. Opciones en PROC LIFETEST . . . . . . . . . . . . . . 72
8.2.2. Sentencias especıficas en PROC LIFETEST . . . . . . . 73
9. Procedimiento LIFEREG 93
9.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
9.2. Especificaciones del procedimiento LIFEREG . . . . . . . . . . 93
10.Procedimiento PHREG 99
10.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
10.2. Especificaciones del procedimiento PHREG . . . . . . . . . . . 99
11.Componentes Principales 111
12.Analisis de Correspondencias 113
13.Analisis Discriminante 117
Alfonso
Garc
ıaPere
z.UNED
14.Analisis Cluster 121
15.Regresion Logıstica 123
16.Analisis de Series Temporales 129
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 1
Introduccion al SAS
1.1. Instrucciones SAS
Como todos los programas de ordenador, SAS requiere para su utilizacionde un lenguaje propio que permita indicar al ordenador que calculos deberealizar.
Estas instrucciones las debemos dar en lo que se denomina un programaSAS.
Los programas SAS se comunican con el ordenador por medio de senten-cias (statements) SAS, las cuales son de dos tipos: sentencias tipo DATA ysentencias tipo PROC.
Las sentencias tipo DATA indican a SAS cuestiones referentes a los datosy a las variables que dan origen a esos datos, sirviendo ademas, por ejemplo,para crear nuevas variables.
Las sentencias tipo PROC (abreviatura de PROCEDURE) indican al or-denador que clase de analisis estadıstico debe realizar con los datos, existiendoun procedimiento (procedure) para cada tratamiento estadıstico.
Todo programa SAS esta estructurado en tres partes: primero deberanaparecer sentencias tipo DATA, a continuacion los datos y por ultimo lassentencias tipo PROC.
Ası por ejemplo, supongamos que queremos realizar un analisis descriptivode los datos del ejemplo 2.1 del libro CB, el cual decıa
Ejemplo 1.1 (CB-ejemplo 2.1)
Se midieron los niveles de colinesterasa en un recuento de eritrocitos en µ mol/min/ml de34 agricultores expuestos a insecticidas agrıcolas, obteniendose los siguientes datos:
1
Alfonso
Garc
ıaPere
z.UNED2 Estadıstica Aplicada con SAS
Individuo Nivel Individuo Nivel Individuo Nivel1 10′6 13 12′2 25 11′82 12′5 14 10′8 26 12′73 11′1 15 16′5 27 11′44 9′2 16 15′0 28 9′35 11′5 17 10′3 29 8′66 9′9 18 12′4 30 8′57 11′9 19 9′1 31 10′18 11′6 20 7′8 32 12′49 14′9 21 11′3 33 11′110 12′5 22 12′3 34 10′211 12′5 23 9′712 12′3 24 12′0
Uno de los procedimientos que realiza analisis descriptivo de los datos es, como veremos masadelante, UNIVARIATE, por lo que nuestro programa SAS deberıa ser semejante al siguiente
DATA PRUEBA;
INPUT individu 1-2 nivel 4-7;
CARDS;
1 10.6
2 12.5
3 11.1
4 9.2
5 11.5
6 9.9
7 11.9
8 11.6
9 14.9
10 12.5
11 12.5
12 12.3
13 12.2
14 10.8
15 16.5
16 15.0
17 10.3
18 12.4
19 9.1
20 7.8
21 11.3
22 12.3
23 9.7
24 12.0
25 11.8
26 12.7
27 11.4
28 9.3
29 8.6
30 8.5
31 10.1
32 12.4
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 1. Introduccion al SAS 3
33 11.1
34 10.2
PROC UNIVARIATE;
VAR nivel;
RUN;
En todo programa SAS, como ocurre con el anterior, se distinguen tres partes: La primera,que comprende las tres primeras lıneas, corresponde a sentencias tipo DATA; a continuacion,aparecen —en 34 lıneas— los datos. La ultima parte, en este caso dos lıneas, corresponde asentencias tipo PROC.El programa termina con el comando RUN.
1.2. Sentencias tipo DATA
Las sentencias tipo DATA, como las que aparecen al principio del ejemploanterior, deben comenzar por la palabra DATA y deben acabar por la palabraCARDS (y el punto y coma).
Con la primera lınea indicamos que vamos a crear un conjunto de datosSAS, el cual en el ejemplo anterior hemos llamado PRUEBA.
En la segunda lınea, utilizando la sentencia INPUT (la cual es una sen-tencia tipo DATA), indicamos como llamar a la variable o variables que danlugar a los datos y ademas, donde encontrarlas. En el ejemplo anterior dijimosque apareceran datos correspondientes a dos variables, las cuales se llamaranindividu y nivel (los nombres de las variables no deben tener mas de ochocaracteres), cuyos datos asociados apareceran, para la primera variable en lascolumnas 1 y 2, y para la variable nivel en las columnas 4 a 7.
En nuestro ejemplo, todas las variables son de tipo cuantitativo. Si algunade las variables en consideracion fuera de tipo cualitativo, deberıamos indi-carlo en nuestro programa SAS con un $; ası por ejemplo, si en la columna9 fueramos a resenar el sexo de los individuos, en nuestra sentencia INPUT
deberıamos anadir
SEXO $ 9
Una forma alternativa —y mas utilizada— es incorporar los datos en for-mato libre. Para ello basta con senalar en INPUT el nombre de las variablesconcluyendo dicha sentencia con @@.
En ese caso los datos deberan estar separados por, al menos, un espacio enblanco.
Ası por ejemplo, el programa SAS anterior podrıa escribirse de la formaalternativa siguiente
DATA PRUEBA;
INPUT individu nivel @@;
Alfonso
Garc
ıaPere
z.UNED4 Estadıstica Aplicada con SAS
CARDS;
1 10.6 2 12.5 3 11.1 4 9.2 5 11.5 6 9.9 7 11.9
8 11.6 9 14.9 10 12.5 11 12.5 12 12.3 13 12.2 14 10.8
15 16.5 16 15.0 17 10.3 18 12.4 19 9.1 20 7.8 21 11.3
22 12.3 23 9.7 24 12.0 25 11.8 26 12.7 27 11.4 28 9.3
29 8.6 30 8.5 31 10.1 32 12.4 33 11.1 34 10.2
PROC UNIVARIATE;
VAR nivel;
RUN;
1.3. Sentencias PROC
Como dijimos mas arriba, con las sentencias PROC indicamos al ordenadorque tratamiento estadıstico debe realizar y que peculiaridades debe tener dichotratamiento estadıstico.
Cada procedimento tiene asociadas una serie de especificaciones que per-miten realizar un tratamiento estadıstico mas adecuado; ası, en el ejemploanterior, con la especificacion
VAR nivel;
indicamos que solamente queremos resultados de la variable nivel y no deindividu.
Ademas, cada procedimiento posee una serie de opciones, las cuales iremosanalizando en los capıtulos posteriores.
1.4. Ejecucion de los programas SAS
Una vez creado nuestro programa SAS, debemos de ejecutarlo. Para ellodebemos abrir este paquete. AL abrirlo, apareceran en pantalla las tres estruc-turas (ventanas) que componen el SAS.
La primera de ellas es el Editor. Sobre el debemos teclear nuestro programaSAS, o bien incorporarlo.
La segunda estructura o ventana se denomina LOG y es un verificador
de nuestro programa SAS, el cual repasara nuestro programa, dandonos losposibles errores que pudieramos haber cometido.
La ultima estructura es el OUTPUT y en ella apareceran los analisis es-tadısticos requeridos por nuestro programa SAS.
En cualquiera de estas tres estructuras podemos importar o exportar con-tenidos con las opciones Archivo de la barra superior.
Para ejecutar el programa del ejemplo anterior deberemos presionar el elhombrecillo de negro de la barra superior.
Para los datos de nuestro ejemplo, obtendrıamos los siguientes resultadospara la estructura SAS LOG
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 1. Introduccion al SAS 5
NOTA: Copyright (c) 2002-2003 by SAS Institute Inc., Cary, NC, USA.
NOTA: SAS (r) 9.1 (TS1M3)Licensed to DEPARTAMENTO DE ESTADISTICA E I. OPERATIVA, Site 0080499003.
NOTA: Esta sesion se esta ejecutando en una plataforma WIN_PRO .
NOTA: inicio de SAS utilizado:tiempo real 6.39 segundos
tiempo de cpu 0.96 segundos
1 DATA PRUEBA;2 INPUT individu 1-2 nivel 4-7;3 CARDS;
NOTA: El conj. datos WORK.PRUEBA tiene 34 observaciones y 2 variables.
NOTA: Sentencia DATA utilizado (Tiempo de proceso total):tiempo real 0.25 segundostiempo de cpu 0.01 segundos
38 PROC UNIVARIATE;39 VAR nivel;
40 RUN;
NOTA: PROCEDIMIENTO UNIVARIATE utilizado (Tiempo de proceso total):
tiempo real 0.54 segundostiempo de cpu 0.03 segundos
la cual no localiza ningun error en nuestro programa SAS.Se obtienen tambien los siguientes resultados en la estructura OUTPUT
UNIVARIATE PROCEDURE
Variable=NIVEL
Moments
N 34 Sum Wgts 34Mean 11.35294 Sum 386Std Dev 1.874588 Variance 3.514082
Skewness 0.536323 Kurtosis 0.875633USS 4498.2 CSS 115.9647
CV 16.51192 Std Mean 0.321489T:Mean=0 35.31359 Prob>|T| 0.0001Sgn Rank 297.5 Prob>|S| 0.0001
Num ^= 0 34
Quantiles(Def=5)
100% Max 16.5 99% 16.575% Q3 12.4 95% 15
50% Med 11.45 90% 12.725% Q1 10.1 10% 9.1
0% Min 7.8 5% 8.51% 7.8
Range 8.7Q3-Q1 2.3Mode 12.5
Extremes
Lowest Obs Highest Obs7.8( 20) 12.5( 11)
8.5( 30) 12.7( 26)8.6( 29) 14.9( 9)
Alfonso
Garc
ıaPere
z.UNED6 Estadıstica Aplicada con SAS
9.1( 19) 15( 16)9.2( 4) 16.5( 15)
los cuales, como corresponden a utilizar el procedimiento UNIVARIATE se ana-lizaran en el proximo capıtulo.
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 2
Procedimiento UNIVARIATE
2.1. Introduccion
El procedimiento UNIVARIATE es uno de los procedimientos a utilizar cuan-do queremos realizar un analisis de datos unidimensionales.
El procedimiento UNIVARIATE nos da, por defecto,
Medidas de posicion (CB-seccion 2.3.2).
Medidas de dispersion (CB-seccion 2.3.3).
Medidas de asimetrıa (CB-seccion 2.3.4).
Medidas de curtosis (CB-seccion 14.4.3).
El test de la t de Student para la hipotesis nula H0 : µ = 0 (CB-seccion7.2).
El test de rangos signados de Wilcoxon para la hipotesis nula H0 : M = 0(CB-seccion 13.2.2).
2.2. Especificaciones del procedimiento UNIVARIA-
TE
Como en todo procedimiento SAS existen una serie de especificaciones quepermiten adecuar el analisis estadıstico a realizar.
El procedimiento UNIVARIATE permite, entre otras, las siguientes
PROC UNIVARIATE opciones;VAR variables;
7
Alfonso
Garc
ıaPere
z.UNED8 Estadıstica Aplicada con SAS
2.2.1. Opciones en PROC UNIVARIATE
Detras de PROC UNIVARIATE podemos incluir uno o varios de los si-guientes comandos opcionales:
• plot
Con la cual se obtienen, ademas de los resultados antes mencionados,
Un diagrama de hojas y ramas (CB-seccion 14.2).
Un grafico de cajas (CB-seccion 14.5.1).
Un grafico de normalidad (CB-seccion 14.4.1).
• freq
Con la que se obtienen, ademas
Las distribuciones de frecuencias absolutas, relativas y relativas acumu-ladas (CB-seccion 2.3).
• normal
Con la que se obtiene
Un test de normalidad.
2.2.2. Sentencias especıficas en PROC UNIVARIATE
VAR variables;
Si no se utiliza esta especificacion, el procedimiento UNIVARIATE realizalos calculos analizados para todas las variables definidas en nuestro programaSAS. Mediante esta especificacion, indicamos que variables debe analizar.
En nuestro programa SAS del siguiente utilizaremos esta especificacionpara evitar que UNIVARIATE haga calculos de la variable individu que espuramente identificativa.
2.3. Analisis de los resultados
En el capıtulo anterior ya vimos que resultados obtenıamos cuando eje-cutabamos el procedimiento UNIVARIATE sin utilizar opciones. A continuacionvolveremos a resolver dicho ejemplo empleando las opciones antes mencionadasy analizando con detalle los resultados que se obtengan.
Ejemplo 2.1 (CB-ejemplo 2.1)Se midieron los niveles de colinesterasa en un recuento de eritrocitos en µ mol/min/ml de34 agricultores expuestos a insecticidas agrıcolas, obteniendose los siguientes datos:
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Procedimiento UNIVARIATE 9
Individuo Nivel Individuo Nivel Individuo Nivel1 10′6 13 12′2 25 11′82 12′5 14 10′8 26 12′73 11′1 15 16′5 27 11′44 9′2 16 15′0 28 9′35 11′5 17 10′3 29 8′66 9′9 18 12′4 30 8′57 11′9 19 9′1 31 10′18 11′6 20 7′8 32 12′49 14′9 21 11′3 33 11′110 12′5 22 12′3 34 10′211 12′5 23 9′712 12′3 24 12′0
Un programa SAS con todas las opciones serıa el siguiente
DATA PRUEBA;
INPUT individu 1-2 nivel 4-7;
CARDS;
1 10.6
2 12.5
-omitimos 30 datos-
33 11.1
34 10.2
PROC UNIVARIATE plot freq normal;
VAR nivel;
RUN;
con el que se obtendrıan los siguientes resultados
UNIVARIATE PROCEDURE
Variable=NIVELMoments
N 34 Sum Wgts 34Mean 11.35294 Sum 386
Std Dev 1.874588 Variance 3.514082 [1]Skewness 0.536323 Kurtosis 0.875633
USS 4498.2 CSS 115.9647CV 16.51192 Std Mean 0.321489
T:Mean=0 35.31359 Prob>|T| 0.0001 [2]Sgn Rank 297.5 Prob>|S| 0.0001 [3]Num ^= 0 34
W:Normal 0.955313 Prob<W 0.2226 [4]
Quantiles(Def=5)
100% Max 16.5 99% 16.575% Q3 12.4 95% 15
50% Med 11.45 90% 12.725% Q1 10.1 10% 9.1
0% Min 7.8 5% 8.51% 7.8
Range 8.7
Q3-Q1 2.3Mode 12.5
Alfonso
Garc
ıaPere
z.UNED10 Estadıstica Aplicada con SAS
Extremes
Lowest Obs Highest Obs7.8( 20) 12.5( 11)8.5( 30) 12.7( 26)
8.6( 29) 14.9( 9)9.1( 19) 15( 16)
9.2( 4) 16.5( 15)[5] [6]
Stem Leaf # Boxplot
16 5 1 015 0 1 |
14 9 1 |13 |
[7] 12 0233445557 10 +-----+
11 11345689 8 *--+--* [8]10 12368 5 +-----+
9 12379 5 |8 56 2 |
7 8 1 |----+----+----+----+
Normal Probability Plot
16.5+ * +| * +++++| *+++++
13.5+ ++++++| ***+*+* **
| *******10.5+ *****+ [9]
| *****| *++*+
7.5+ ++*+++
+----+----+----+----+----+----+----+----+----+----+-2 -1 0 +1 +2
Frequency Table
Percents Percents
Value Count Cell Cum Value Count Cell Cum7.8 1 2.9 2.9 10.6 1 2.9 35.38.5 1 2.9 5.9 10.8 1 2.9 38.2
8.6 1 2.9 8.8 11.1 2 5.9 44.19.1 1 2.9 11.8 11.3 1 2.9 47.1
9.2 1 2.9 14.7 11.4 1 2.9 50.09.3 1 2.9 17.6 11.5 1 2.9 52.9
9.7 1 2.9 20.6 11.6 1 2.9 55.99.9 1 2.9 23.5 11.8 1 2.9 58.810.1 1 2.9 26.5 11.9 1 2.9 61.8
10.2 1 2.9 29.4 12 1 2.9 64.710.3 1 2.9 32.4 12.2 1 2.9 67.6
Frequency Table (Cont.)
Percents PercentsValue Count Cell Cum Value Count Cell Cum
12.3 2 5.9 73.5 14.9 1 2.9 94.112.4 2 5.9 79.4 15 1 2.9 97.112.5 3 8.8 88.2 16.5 1 2.9 100.0
12.7 1 2.9 91.2
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 2. Procedimiento UNIVARIATE 11
En ellos se aprecia, en primer lugar, bajo el encabezamiento Moments, una serie de medidasdescriptivas, [1], algunas obvias, y ademas, USS, la suma de las observaciones al cuadrado,∑
x2i ; CSS, la suma de las observaciones corregidas al cuadrado,
∑
(xi − x)2; Sum, la sumade todas las observaciones,
∑
xi.Se obtienen, ademas, dos tests de hipotesis, uno de ellos, [2], el de la t de Student para lahipotesis nula H0 : µ = 0 (vease CB-seccion 7.2), y el otro, [3], el de los rangos signados deWilcoxon para H0 : M = 0 (vease CB-seccion 13.2.2); ambos con su p-valor.Se obtiene tambien en dicho apartado un contraste especıfico, [4], al haber incluido la opcionnormal en nuestro programa SAS, para la hipotesis nula de normalidad de los datos, ası comoel p-valor de dicho contraste.En el segundo apartado, bajo la denominacion Quantiles se da el maximo, el mınimo, elprimer y tercer cuartil Q1 y Q3 respectivamente, ası como seis centiles, del 1% al 99%.Se incluye tambien en este segundo apartado el rango, el recorrido intercuartılico, Q3-Q1, yla moda.En el tercer apartado, bajo la denominacion de Extremes, se dan las cinco observacionesmenores y el lugar que ocupan en los datos, [5], ası como las cinco mayores, [6].A continuacion aparecen tres graficos, al haber utilizado la opcion plot. Un diagrama dehojas y ramas, [7], un grafico de cajas, [8], y un grafico de normalidad, [9].Se concluye esta salida de ordenador con la distribucion de frecuencias absolutas, ası comola de frecuencias relativas y relativas acumuladas (estas dos ultimas en porcentaje) bajo ladenominacion Frecuency Table, distribuciones estas obtenidas al utilizar la opcion freq enla sentencia PROC UNIVARIATE.
Alfonso
Garc
ıaPere
z.UNED12 Estadıstica Aplicada con SAS
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 3
Procedimiento PLOT
3.1. Introduccion
Este procedimiento se utiliza, fundamentalmente, para realizar diagramasde dispersion (CB-seccion 2.4.1), por lo que suele venir asociado al procedi-miento CORR, procedimiento que se estudiara en el proximo capıtulo.
Por estas razones, es en dicho capıtulo donde se analizaran varios ejemplosde su utilizacion. Aquı mencionaremos, simplemente, que como especificacionnecesaria de dicho procedimiento hay que indicar la variable a representar enel eje de ordenadas, digamos Y, y la variable a representar en el eje de abscisas,digamos X, siendo un sentencia PROC tıpica la siguiente
PROC PLOT;
plot Y*X;
13
Alfonso
Garc
ıaPere
z.UNED14 Estadıstica Aplicada con SAS
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 4
Procedimiento CORR
4.1. Introduccion
Utilizando el procedimiento CORR se obtienen los siguientes resultados pordefecto,
El coeficiente de correlacion lineal de Pearson (CB-seccion 2.4.3), tam-bien denominado coeficiente de correlacion simple (CB-seccion 10.4.2) sipretendemos calcular correlaciones parciales.
El contraste de H0 : ρ = 0 frente a H1 : ρ 6= 0. (CB-seccion 9.6.2).
Algunas medidas descriptivas de los datos.
4.2. Especificaciones del procedimiento CORR
El procedimiento CORR permite, entre otras, las siguientes especificacio-nes
PROC CORR opciones;VAR variables;PARTIAL variables;
Si en la sentencia PROC CORR utilizamos las opcion spearman, obtendremos,en lugar del coeficiente de correlacion de Pearson, el coeficiente de correlacionde rangos de Spearman, ası como el test de independencia asociado a dichocoeficiente (CB-seccion 13.6).
Si utilizamos la especificacion PARTIAL variables podemos hacer un anali-sis de correlacion parcial entre las variables no especificadas en variables
(CB-seccion 10.4.2).
15
Alfonso
Garc
ıaPere
z.UNED16 Estadıstica Aplicada con SAS
4.3. Estadıstica Descriptiva Bivariante y Analisis de
la Correlacion Lineal
Como ya dijimos en la introduccion, el procedimiento CORR permite realizarun analisis descriptivo de datos bidimensionales, para lo cual se acompana,habitualmente, del procedimiento PLOT.
Ejemplo 4.1 (CB-ejemplo 2.9)Se realizo un estudio para analizar el numero de horas semanales que entrenaban las personasde una determinada poblacion, y la marca obtenida en 100 metros lisos. Los resultadosobtenidos fueron los siguientes
Horas 21 32 15 40 27 18 26 50 33 51
Marca 13′2 12′6 13 12′2 15 14′8 14′8 12′2 13′6 12′6
Horas 36 16 19 22 16 39 56 29 45 25
Marca 13′1 14′9 13′9 13′2 15′1 14′1 13 13′5 12′7 14′2
Para analizar estos datos utilizaremos el siguiente programa SAS
DATA ATLE;
INPUT horas 1-2 marca 4-7;
CARDS;
21 13.2
32 12.6
-omitimos 16 pares de datos-
45 12.7
25 14.2
PROC PLOT;
plot marca*horas;
RUN;
PROC CORR;
RUN;
con el que se obtendrıan los siguientes resultados
Plot of MARCA*HORAS. Legend: A = 1 obs, B = 2 obs, etc.
15 + B A| A A
|| A
14 + A A|
MARCA | A A| A A
13 + A A A
| A| A A
| A A12 +
-+-------------+-------------+-------------+-------------+-------------+
10 20 30 40 50 60HORAS
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 4. Procedimiento CORR 17
CORRELATION ANALYSIS
2 ’VAR’ Variables: HORAS MARCA
Simple Statistics
Variable N Mean Std Dev Sum
HORAS 20 30.80000 12.64328 616.00000 [1]MARCA 20 13.58500 0.95987 271.70000
Simple Statistics
Variable Minimum Maximum
HORAS 15.00000 56.00000 [1]MARCA 12.20000 15.10000
CORRELATION ANALYSIS
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 20
HORAS MARCA
[2]HORAS 1.00000 -0.63041
0.0 0.0029 [3]
MARCA -0.63041 1.00000
0.0029 0.0
en ellos se observa, despues de un diagrama de dispersion, resultado de utilizar el pro-cedimiento PLOT junto con la especificacion plot marca*horas, una estadıstica de las dosvariables, [1].Se concluye con el valor del coeficiente de correlacion de Pearson, [2], entre ambas variables,−0′63041, y el p-valor, [3], para el contraste H0 : ρ = 0 frente a H1 : ρ 6= 0, el cual conduceen este caso a rechazar dicha hipotesis nula.
Ejemplo 4.2 (CB-ejemplo 9.1)Se midio el contenido de oxıgeno, variable Y , a diversas profundidades, variable X, en ellago Worther de Australia, obteniendose los siguientes datos, en miligramos por litro
X 15 20 30 40 50 60 70
Y 6′5 5′6 5′4 6 4′6 1′4 0′1
El programa SAS que utilizaremos sera el siguiente
DATA OXIGENO;
INPUT profun 1-2 oxigeno 4-6;
CARDS;
15 6.5
20 5.6
30 5.4
Alfonso
Garc
ıaPere
z.UNED18 Estadıstica Aplicada con SAS
40 6
50 4.6
60 1.4
70 0.1
PROC PLOT;
plot oxigeno*profun;
RUN;
PROC CORR;
RUN;
con el que se obtendrıan los siguientes resultados
Plot of OXIGENO*PROFUN. Legend: A = 1 obs, B = 2 obs, etc.
10 +
||
OXIGENO |
| A| A A
5 + A A||
|| A
|0 + A
--+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-15 20 25 30 35 40 45 50 55 60 65 70
PROFUN
CORRELATION ANALYSIS
2 ’VAR’ Variables: PROFUN OXIGENO
Simple Statistics
Variable N Mean Std Dev Sum
PROFUN 7 40.71429 20.49971 285.00000OXIGENO 7 4.22857 2.47434 29.60000
Simple Statistics
Variable Minimum Maximum
PROFUN 15.00000 70.00000OXIGENO 0.10000 6.50000
CORRELATION ANALYSIS
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 7
PROFUN OXIGENO
PROFUN 1.00000 -0.895850.0 0.0064
OXIGENO -0.89585 1.00000
0.0064 0.0
Se observa de nuevo la nube de puntos, unas estadısticas de ambas variables, y el coeficientede correlacion de Pearson, igual a −0′89585, ası como el p-valor del contraste H0 : ρ = 0
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 4. Procedimiento CORR 19
frente a H1 : ρ 6= 0, igual a 0′0064, el cual conduce en este caso a rechazar dicha hipotesisnula.
Ejemplo 4.3 (CB-ejemplo 9.2)Las calificaciones obtenidas en dos asignaturas por 17 alumnos de un centro escolar fueronlas siguientes
X 3 4 6 7 5 8 7 3 5 4 8 5 5 8 8 8 5
Y 5 5 8 7 7 9 10 4 7 4 10 5 7 9 10 5 7
¿Que se puede decir acerca del coeficiente de correlacion poblacional entre ambas variables?El programa SAS que utilizaremos sera el siguiente
DATA CALIFICA;
INPUT mate 1 fisica 3-4;
CARDS;
3 5
4 5
-omitimos 13 datos-
8 5
5 7
PROC PLOT;
plot fisica*mate;
RUN;
PROC CORR;
RUN;
con el que se obtendrıan los siguientes resultados
Plot of FISICA*MATE. Legend: A = 1 obs, B = 2 obs, etc.
FISICA10 + A B
|
9 + B|
8 + A|
7 + D A|
6 +
|5 + A A A A
|4 + A A
---+------------+------------+------------+------------+------------+--3 4 5 6 7 8
MATE
CORRELATION ANALYSIS
2 ’VAR’ Variables: MATE FISICA
Alfonso
Garc
ıaPere
z.UNED20 Estadıstica Aplicada con SAS
Simple Statistics
Variable N Mean Std Dev Sum
MATE 17 5.82353 1.81091 99.00000FISICA 17 7.00000 2.09165 119.00000
Simple Statistics
Variable Minimum Maximum
MATE 3.00000 8.00000FISICA 4.00000 10.00000
CORRELATION ANALYSIS
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 17
MATE FISICA
MATE 1.00000 0.75902
0.0 0.0004
FISICA 0.75902 1.00000
0.0004 0.0
en donde de nuevo, despues del grafico requerido por el procedimiento PLOT y de una brevesestadısticas, se da el coeficiente de correlacion de Pearson, igual a 0′75902 y el p-valor deltest (CB-seccion 9.6.2) H0 : ρ = 0 frente a H1 : ρ 6= 0, el cual es igual en este caso a 0′0004.(Observese que coincide con el obtenido por el BMDP; vesase EA BMDP-seccion 6.2.)
4.4. Contraste de Spearman de independencia de
variables aleatorias
Como antes dijimos, si en la sentencia PROC CORR utilizamos la opcionspearman, obtendremos, en lugar del coeficiente de correlacion de Pearson, elcoeficiente de correlacion de rangos de Spearman, ası como el test de indepen-dencia asociado a dicho coeficiente (CB-seccion 13.6).
Ejemplo 4.4 (CB-ejemplo 13.8)Con objeto de averiguar si son independientes o no el peso de las personas, X, de unadeterminada poblacion y su nivel de colesterol, Y , se seleccionaron al azar 10 personas,obteniendose los siguientes resultados, en kgrs. para el peso y en mgrs./100ml. para el nivelde colesterol
Individuo 1 2 3 4 5 6 7 8 9 10
Xi 62 70 80 72 67 71 82 79 66 69Yi 223 242 338 321 280 250 315 320 270 239
El programa SAS que utilizaremos sera el siguiente
DATA COLESTE;
INPUT peso 1-2 coleste 4-6;
CARDS;
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 4. Procedimiento CORR 21
62 223
70 242
80 338
72 321
67 280
71 250
82 315
79 320
66 270
69 239
PROC CORR spearman;
RUN;
con el que se obtendrıan los siguientes resultados
CORRELATION ANALYSIS
2 ’VAR’ Variables: PESO COLESTE
Simple Statistics
Variable N Mean Std Dev Median
PESO 10 71.80000 6.56252 70.50000
COLESTE 10 279.80000 41.15499 275.00000
Simple Statistics
Variable Minimum Maximum
PESO 62.00000 82.00000COLESTE 223.00000 338.00000
CORRELATION ANALYSIS
Spearman Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 10
PESO COLESTE
[1]PESO 1.00000 0.73333
0.0 0.0158 [2]
COLESTE 0.73333 1.00000
0.0158 0.0
Se observa, como en los ejemplos anteriores, una breve estadıstica descriptiva de las varia-bles, no apareciendo el diagrama de dispersion puesto que hemos omitido, en este caso, elprocedimiento PLOT.Se concluye con el valor del coeficiente de correlacion de rangos de Spearman, [1], iguala 0′73333, y se da, [2], el p-valor del test que tiene como hipotesis nula la independenciade ambas variables aleatorias. En esto aventaja el SAS al BMDP, ya que dicho paqueteestadıstico no da este test (vease EA BMDP-seccion 9.5).
Ejemplo 4.5 (CB-ejemplo 13.9)Se quiere investigar si existe o no independencia entre la edad X y los niveles de concentracionde un determinado mineral en los tejidos de los individuos.Para ello se seleccionaron al azar nueve individuos en los que se observaron ambas variables.Los resultados obtenidos fueron los siguientes
Alfonso
Garc
ıaPere
z.UNED22 Estadıstica Aplicada con SAS
Individuo 1 2 3 4 5 6 7 8 9
Xi 49 30 30 38 38 38 26 55 55Yi 22′1 22′1 49 36 40 40 32 40 62
El programa SAS que utilizaremos sera el siguiente
DATA MINERAL;
INPUT edad 1-2 nivel 4-7;
CARDS;
49 22.1
30 22.1
30 49.0
38 36.0
38 40.0
38 40.0
26 32.0
55 40.0
55 62.0
PROC CORR spearman;
RUN;
con el que se obtendrıan los siguientes resultados
CORRELATION ANALYSIS
2 ’VAR’ Variables: EDAD NIVEL
Simple Statistics
Variable N Mean Std Dev Median
EDAD 9 39.88889 10.83333 38.00000NIVEL 9 38.13333 12.52228 40.00000
Simple Statistics
Variable Minimum Maximum
EDAD 26.00000 55.00000NIVEL 22.10000 62.00000
CORRELATION ANALYSIS
Spearman Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
EDAD NIVEL
EDAD 1.00000 0.344980.0 0.3632
NIVEL 0.34498 1.000000.3632 0.0
De nuevo, despues de las estadısticas habituales se obtiene el coeficiente de correlacion deSpearman, igual a 0′34498, y el p-valor del test de independencia asociado, igual a 0′3632,que lleva claramente a aceptar la hipotesis nula de independencia entre ambas variables.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 4. Procedimiento CORR 23
4.5. Analisis de Correlacion Parcial
Una ultima utilidad del procedimiento CORR es, como dijimos en la intro-duccion, permitir la realizacion de un analisis de correlacion parcial, utilizandola especificacion PARTIAL variables.
Ejemplo 4.6 (CB-ejemplo 10.2)Con objeto de estudiar la fuerza de la dependencia entre tres variables aleatorias observa-das en mujeres aparentemente normales, se eligieron al azar 11 de ellas, obteniendose lossiguientes datos sobre el nivel de colesterol en mg/100cc, Y , el peso en kgrs, X1 y la presionsanguınea sintolica, X2.
X1 51 52′9 56 56′5 58 60′1 58 61 59′4 56′1 61′2
X2 108 111 115 116 117 120 124 127 122 121 125
Y 162′2 158 157 155 156 154′1 169′1 181 174′9 180′2 174
Si queremos analizar la correlacion parcial existente entre el peso y la presion sanguınea unavez eliminado el efecto del nivel de colesterol, el programa SAS a utilizar serıa el siguiente.
DATA MUJERES;
INPUT peso 1-4 presion 6-8 coleste 10-14;
CARDS;
51 108 162.2
52.9 111 158
56 115 157
56.5 116 155
58 117 156
60.1 120 154.1
58 124 169.1
61 127 181
59.4 122 174.9
56.1 121 180.2
61.2 125 174
PROC CORR;
PARTIAL coleste;
RUN;
Con el se obtendrıan los siguientes resultados
CORRELATION ANALYSIS
1 ’PARTIAL’ Variables: COLESTE2 ’VAR’ Variables: PESO PRESION
Simple Statistics
Variable N Mean Std Dev Sum
COLESTE 11 165.59091 10.48651 1822
PESO 11 57.29091 3.23958 630.20000PRESION 11 118.72727 5.93449 1306
Simple Statistics
Variable Minimum Maximum
Alfonso
Garc
ıaPere
z.UNED24 Estadıstica Aplicada con SAS
COLESTE 154.10000 181.00000PESO 51.00000 61.20000
PRESION 108.00000 127.00000
Simple Statisticsafter Partialling
Variable Variance Std Dev
PESO 9.95870 3.15574
PRESION 21.28461 4.61353
CORRELATION ANALYSIS
Pearson Partial Correlation Coefficients / Prob > |R| under Ho: Partial Rho=0/ N = 11
PESO PRESION[1]
PESO 1.00000 0.948360.0 0.0001 [2]
PRESION 0.94836 1.000000.0001 0.0
En ellos se observa, despues de una breves estadısticas de las tres variables en consideracion,el coeficiente de correlacion parcial, [1], el cual es igual a 0′94836, ası como, [2], el p-valordel test que tiene como hipotesis nula la igualdad a cero del coeficiente de correlacion parcialpoblacional. En este caso, al ser dicho p-valor igual a 0′0001, debemos concluir con quesı existe correlacion significativa entre peso y presion una vez eliminado el efecto del nivelde colesterol.Mencionemos por ultimo, que tampoco el BMDP da este test, (vease EA BMDP-seccion6.4).
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 5
Procedimiento GLM
5.1. Introduccion
El procedimiento GLM es un procedimiento disenado para aplicar el modelolineal general —General Linear Model—, por lo que puede utilizarse en laresolucion de problemas de
Analisis de la varianza (CB-capıtulo 8).
Regresion lineal simple (CB-capıtulo 9).
Regresion lineal multiple (CB-capıtulo 10).
Analisis de la covarianza (CB-capıtulo 11).
5.2. Especificaciones del procedimiento GLM
El procedimiento GLM admite, entre otras, las siguientes especificaciones
PROC GLM;CLASS variables;MODEL dependientes = independientes;MEANS variable / opciones;
Como dijimos en la introduccion, al poderse utilizar este procedimientotanto en un analisis de la varianza, como en uno de la regresion o en uno de lacovarianza, debemos indicar, en nuestro programa SAS, cuales de las variablesque utilizamos son de tipo cualitativo —y, por tanto, validas en un analisisde la varianza— y cuales son de tipo cuantitativo —utilizadas en un analisisde la regresion—. Si aparecen de ambos tipos estaremos ante un analisis de lacovarianza.
25
Alfonso
Garc
ıaPere
z.UNED26 Estadıstica Aplicada con SAS
La asignacion de las variables de tipo cualitativo se hace con la especifica-cion CLASS. Las variables no incluidas en dicha sentencia se entenderan comode tipo cuantitativo.
La especificacion MODEL es obligatoria y se utiliza para fijar el modelo enconsideracion.
Si por a, b, ... representamos variables cualitativas y por x1, x2, ...
cuantitativas, en la siguiente tabla aparecen los modelos a especificar segun eltipo de analisis que estemos realizando.
Especificacion Tipo de Analisis
model y = a Analisis de la varianza para un factor y undiseno completamente aleatorizado (CB-8.2)
model y = a b Analisis de la varianza para un factor y undiseno por bloques aleatorizados (CB-8.3)
model y = a b c Analisis de la varianza para un factor y undiseno de cuadrado latino (CB-8.4)
model y = a b a*b Analisis de la varianza para dos factores y undiseno completamente aleatorizado (CB-8.5)
model y = x1 Analisis de la regresion lineal simple (CB-9.3)model y = x1 x2 Analisis de la regresion lineal multiple (CB-10.3)model y = a x1 Analisis de la covarianza para un factor y un
diseno completamente aleatorizado (CB-11.2)model y = a b a*b x1 Analisis de la covarianza para dos factores y un
diseno completamente aleatorizado (CB-11.3)
Por ultimo, la especificacion
MEANS a / opciones;
se utiliza en un diseno completamente aleatorizado para un factor con objetode realizar comparaciones multiples, una vez rechazada la hipotesis nula deigualdad de los efectos medios de los tratamientos.
Las opciones en dicha especificacion son LSD, utilizada cuando queremosrealizar el contraste de la mınima diferencia significativa, y TUKEY, empleadapara realizar el contraste HSD.
Comentamos, por ultimo, que en los resultados apareceran Type I SS,ası como Type III SS. Las primeras, denominadas sumas secuenciales de cua-drados, corresponden al incremento que se produce en la suma de cuadradosdel error, SSE, por el efecto del factor en cuestion, mientras que las otras,denominadas sumas parciales de cuadrados, son las realmente utilizadas en elanalisis de la varianza.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 27
5.3. Analisis de la varianza para un factor y un Di-
seno completamente aleatorizado
El desarrollo teorico de esta seccion puede seguirse en CB-seccion 8.2.
Ejemplo 5.1 (CB-ejemplo 8.1)Se quiere averiguar si tres dietas, A, B y C presentan diferencias significativas en cuanto asus efectos sobre el aumento de peso en ratones.Con este proposito se sometio a 5 ratones a cada una de ellas, obteniendose los siguientesaumentos de peso
Dieta Aumento de peso
A 32 37 34 33 30B 36 38 37 30 34C 35 30 36 29 31
Se trata de un diseno completamente aleatorizado para un factor, dieta. El programa SAS autilizar en dicho analisis serıa el siguiente
DATA dietas;
INPUT dieta $ peso @@; [1]
CARDS;
A 32 A 37 A 34 A 33 A 30 B 36 B 38 B 37
B 30 B 34 C 35 C 30 C 36 C 29 C 31
;
PROC GLM;
CLASS dieta;
MODEL peso = dieta;
RUN;
en el que se observa, [1], la incorporacion de las dos variables dieta y peso en formato libreal anadir @@, ası como que la primera de ellas no es numerica al aparecer despues de sunombre el $.Los resultados que se obtendrıan con dicho programa SAS serıan los siguientes
General Linear Models ProcedureClass Level Information
Class Levels Values
DIETA 3 A B C
Number of observations in data set = 15
General Linear Models Procedure
Dependent Variable: PESO
Sum of MeanSource DF Squares Square F Value Pr > F
Model 2 20.13333333 10.06666667 1.14 0.3510
Alfonso
Garc
ıaPere
z.UNED28 Estadıstica Aplicada con SAS
Error 12 105.60000000 8.80000000[1]
Corrected Total 14 125.73333333
[2]
R-Square C.V. Root MSE PESO Mean
0.160127 8.863982 2.966479 33.4666667
General Linear Models Procedure
Dependent Variable: PESO
Source DF Type I SS Mean Square F Value Pr > F
DIETA 2 20.13333333 10.06666667 1.14 0.3510
Source DF Type III SS Mean Square F Value Pr > F
DIETA 2 20.13333333 10.06666667 1.14 0.3510[3] [4] [5]
En ellos se observa, despues de una informacion general sobre el modelo, una primera tabla deanalisis de la varianza, —verdaderamente util en el analisis de la regresion—, que contrastacomo hipotesis nula que el modelo considerado es inadecuado, y que en el analisis de lavarianza que aquı estamos considerando solo nos sirve para calcular la suma de cuadrados,[1], del error, SSE, que en nuestro caso es igual a 105′6 ası como, [2], la suma total decuadrados, igual a 125′73.
En este ejemplo, al existir un solo factor, la suma de cuadrados de los tratamientos podıahaberse obtenido de la primera tabla. Lo habitual, no obstante, sera determinarla de lasegunda, en donde ademas, se da el caso de coincidir las sumas I y III de cuadrados, alexistir tambien un solo factor. En nuestro ejemplo toma el valor, [3], 20′13.
El valor del estadıstico, [4], se obtiene tambien aquı, ası como su p-valor asociado, [5], queen este caso, al ser bastante grande, 0′351, permite concluir con la aceptacion de la hipotesisnula de igualdad de los efectos medios de las tres dietas.
Ejemplo 5.2 (CB-ejemplo 8.2)
En un estudio sobre el efecto de la glucosa en la eliminacion de insulina, fueron trata-dos especımenes de tejidos pancreaticos de animales experimentales con cinco estimulantesdiferentes. Mas tarde fue determinada la cantidad de insulina eliminada obteniendose lossiguientes resultados:
Estimulante Observaciones
1 1′53 1′61 3′75 2′89 3′26 2′83 2′86 2′592 3′15 3′96 3′59 1′89 1′45 3′49 1′56 2′443 3′89 4′80 3′68 5′70 5′62 5′79 4′75 5′334 8′18 5′64 7′36 5′33 8′82 5′26 8′75 7′105 5′86 5′46 5′69 6′49 7′81 9′03 7′49 8′98
Se quiere saber si existe diferencia significativa entre los estimulantes, en relacion con lacantidad de insulina eliminada. Es decir, se quiere contrastar la hipotesis nula H0 : µ1 =µ2 = µ3 = µ4 = µ5 frente a la alternativa H1 : alguna distinta, utilizando un disenocompletamente aleatorizado.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 29
En el siguiente programa SAS a utilizar hemos anadido, [1], los tests de comparacionesmultiples habituales; es decir, los tests LSD y HSD para la variable estimula
DATA insulina;
INPUT estimula insulina @@;
CARDS;
1 1.53 1 1.61 1 3.75 1 2.89 1 3.26 1 2.83 1 2.86 1 2.59
2 3.15 2 3.96 2 3.59 2 1.89 2 1.45 2 3.49 2 1.56 2 2.44
3 3.89 3 4.80 3 3.68 3 5.70 3 5.62 3 5.79 3 4.75 3 5.33
4 8.18 4 5.64 4 7.36 4 5.33 4 8.82 4 5.26 4 8.75 4 7.10
5 5.86 5 5.46 5 5.69 5 6.49 5 7.81 5 9.03 5 7.49 5 8.98
;
PROC GLM;
CLASS estimula;
MODEL insulina = estimula;
MEANS estimula / LSD TUKEY; [1]
RUN;
Con este programa se obtendrıan los siguientes resultados,
General Linear Models Procedure
Class Level Information
Class Levels Values
ESTIMULA 5 1 2 3 4 5
Number of observations in data set = 40
General Linear Models Procedure
Dependent Variable: INSULINASum of Mean
Source DF Squares Square F Value Pr > F
Model 4 154.9199350 38.7299838 29.75 0.0001
Error 35 45.5573750 1.3016393[1]
Corrected Total 39 200.4773100
[2]
R-Square C.V. Root MSE INSULINA Mean
0.772755 23.32401 1.140894 4.89150000
General Linear Models Procedure
Dependent Variable: INSULINA
Source DF Type I SS Mean Square F Value Pr > F
ESTIMULA 4 154.9199350 38.7299838 29.75 0.0001
Source DF Type III SS Mean Square F Value Pr > F
ESTIMULA 4 154.9199350 38.7299837 29.75 0.0001
Alfonso
Garc
ıaPere
z.UNED30 Estadıstica Aplicada con SAS
[3] [4]
General Linear Models Procedure
T tests (LSD) for variable: INSULINA
NOTE: This test controls the type I comparisonwise error rate not
the experimentwise error rate.
Alpha= 0.05 df= 35 MSE= 1.301639Critical Value of T= 2.03
Least Significant Difference= 1.1581 [5]
Means with the same letter are not significantly different.
T Grouping Mean N ESTIMULA
A 7.101 8 5A
A 7.055 8 4
General Linear Models Procedure
T Grouping Mean N ESTIMULA
B 4.945 8 3
C 2.691 8 2C
C 2.665 8 1
General Linear Models Procedure
Tukey’s Studentized Range (HSD) Test for variable: INSULINA
NOTE: This test controls the type I experimentwise error rate, butgenerally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 35 MSE= 1.301639Critical Value of Studentized Range= 4.066
Minimum Significant Difference= 1.6401 [6]
Means with the same letter are not significantly different.
Tukey Grouping Mean N ESTIMULA
A 7.101 8 5
AA 7.055 8 4
General Linear Models Procedure
Tukey Grouping Mean N ESTIMULA
B 4.945 8 3
C 2.691 8 2
CC 2.665 8 1
De ellos se obtiene tanto la suma de cuadrados residual, [1], como la suma total de cuadrados,[2]; no obstante, el resultado mas interesante es el valor del estadıstico, [3], ası como su
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 31
p-valor, [4], que sugieren rechazar la hipotesis nula de igualdad de los efectos medios de loscinco estimulantes.El primer test de comparaciones multiples, el LSD, proporciona, [5], para un nivel de signi-ficacion α = 0′05, un valor LSD igual a 1′1581, y unos grupos de tratamientos iguales {5, 4},{3} y {2, 1}.El test de Tukey proporciona, para el mismo nivel de significacion, un HSD, [6], igual a1′6401 y los mismos grupos de tratamientos que el test anterior.
Ejemplo 5.3 (CB-ejemplo 14.6)Los datos de la tabla de la pagina siguiente corresponden al nivel de educacion (primeracolumna) y al nivel de ingresos (segunda columna) de 294 personas encuestadas en LosAngeles en donde los niveles de educacion fueron: 1-Menos de high school, 2-Algo de high
school, 3-Completada la high school, 4-Algo de college, 5-Completado el college, 6-Finalizadauna licenciatura, y 7-Finalizado un doctorado. Los ingresos se midieron en miles de dolarespor ano.Se pretendıa hacer una analisis de la varianza con objeto de averiguar si considerando comovariable dependiente los ingresos, existıa diferencia entre los distintos grados de educacion.Con objeto de no rechazar de forma evidente la igualdad de los siete niveles, estos se agrupa-ron en cuatro (tratamientos): no grad el cual comprende los niveles 1 y 2, hs grad el cualcomprende el nivel 3, some col el cual comprende el nivel 4, y col grad el cual comprendelos niveles 5 a 7.
+-----------+-----------+-----------+-----------+-----------+-----------+| 2 4 | 2 5 | 5 19 | 4 7 | 3 19 | 3 7 |
| 4 15 | 4 28 | 3 8 | 3 13 | 2 7 | 3 9 || 3 28 | 4 5 | 6 65 | 3 5 | 4 19 | 2 9 || 3 9 | 2 7 | 3 35 | 5 8 | 3 19 | 5 55 |
| 3 35 | 2 23 | 5 35 | 5 5 | 3 6 | 4 15 || 3 11 | 5 6 | 3 13 | 3 11 | 3 8 | 5 2 |
| 2 11 | 2 20 | 6 7 | 3 19 | 3 28 | 2 11 || 3 9 | 3 23 | 5 18 | 3 16 | 4 28 | 3 28 |
| 3 23 | 2 15 | 4 23 | 5 35 | 5 23 | 4 13 || 2 35 | 3 28 | 2 27 | 5 32 | 2 23 | 4 35 || 2 25 | 3 6 | 3 9 | 6 35 | 2 23 | 3 15 |
| 3 24 | 4 35 | 3 15 | 5 65 | 2 28 | 6 13 || 2 28 | 3 23 | 5 23 | 7 42 | 2 6 | 1 13 |
| 3 13 | 1 8 | 2 2 | 3 5 | 3 8 | 2 9 || 3 15 | 2 9 | 7 23 | 4 36 | 1 5 | 3 23 || 2 6 | 4 28 | 5 19 | 7 65 | 3 15 | 3 9 |
| 4 8 | 3 11 | 5 15 | 6 45 | 3 11 | 3 15 || 2 19 | 7 45 | 5 15 | 5 55 | 3 19 | 4 15 |
| 6 15 | 4 19 | 5 8 | 3 19 | 3 35 | 5 23 || 2 9 | 4 4 | 2 9 | 2 8 | 3 11 | 7 65 |
| 3 6 | 4 45 | 3 65 | 3 19 | 2 45 | 5 35 || 3 35 | 5 13 | 3 9 | 2 9 | 4 65 | 5 13 || 3 7 | 2 2 | 5 19 | 1 5 | 4 65 | 3 15 |
| 3 19 | 5 7 | 2 2 | 2 19 | 4 55 | 3 11 || 3 6 | 3 12 | 2 4 | 3 6 | 5 28 | 4 11 |
| 2 19 | 3 12 | 3 9 | 3 4 | 3 13 | 2 8 || 3 13 | 3 65 | 4 7 | 3 6 | 7 31 | 3 6 |
| 2 5 | 2 7 | 4 9 | 4 55 | 5 7 | 5 23 || 3 19 | 2 11 | 6 15 | 5 23 | 4 15 | 5 6 || 3 20 | 2 7 | 3 15 | 3 23 | 4 8 | 3 35 |
| 5 19 | 2 5 | 5 19 | 3 15 | 4 55 | 4 45 || 4 45 | 2 4 | 3 11 | 3 13 | 6 45 | 5 35 |
| 3 35 | 2 7 | 1 7 | 3 9 | 4 35 | 3 28 || 3 23 | 3 13 | 4 8 | 3 19 | 4 65 | 2 4 || 3 23 | 6 35 | 5 13 | 2 6 | 5 11 | 4 13 |
| 3 15 | 5 35 | 3 35 | 2 7 | 4 55 | 3 35 || 4 19 | 3 11 | 3 15 | 3 23 | 3 7 | 4 35 |
Alfonso
Garc
ıaPere
z.UNED32 Estadıstica Aplicada con SAS
| 2 15 | 7 13 | 6 45 | 3 7 | 3 13 | 3 28 || 2 23 | 3 28 | 5 45 | 3 13 | 3 19 | 2 28 |
| 5 23 | 3 19 | 5 2 | 2 5 | 3 45 | 7 23 || 3 11 | 2 2 | 3 9 | 2 15 | 3 45 | 5 35 |
| 7 23 | 4 8 | 4 13 | 2 9 | 4 37 | 4 55 || 6 55 | 4 15 | 6 45 | 3 2 | 3 23 | 6 28 || 4 28 | 2 19 | 2 20 | 4 45 | 3 19 | 3 9 |
| 3 23 | 5 65 | 3 28 | 2 4 | 2 7 | || 2 9 | 2 7 | 4 35 | 2 24 | 3 15 | |
| 3 35 | 4 8 | 3 11 | 5 45 | 3 15 | || 5 35 | 3 4 | 4 9 | 2 9 | 3 9 | |
| 6 55 | 2 11 | 3 19 | 3 26 | 3 28 | || 4 11 | 5 45 | 3 28 | 3 23 | 2 8 | |+-----------+-----------+-----------+-----------+-----------+-----------+
Ademas, vimos en CB que con objeto de conseguir homocedasticidad deberıamos transformarlos datos mediante la transformacion de Box-Cox siguiente
x1−0′86672 − 1
1 − 0′86672
Por estas razones, el programa SAS a utilizar sera el siguiente
DATA educacio;INPUT educacio ingresos @@; [1]
if educacio < 3 then grado = 1; [2]if educacio = 3 then grado = 2; [2]
if educacio = 4 then grado = 3; [2]if educacio > 4 then grado = 4; [2]renta =((ingresos)**(0.13328)-1)/0.13328; [3]
CARDS;2 4 2 5 5 19 4 7 3 19 3 7
4 15 4 28 3 8 3 13 2 7 3 93 28 4 5 6 65 3 5 4 19 2 93 9 2 7 3 35 5 8 3 19 5 55
3 35 2 23 5 35 5 5 3 6 4 153 11 5 6 3 13 3 11 3 8 5 2
2 11 2 20 6 7 3 19 3 28 2 113 9 3 23 5 18 3 16 4 28 3 28
3 23 2 15 4 23 5 35 5 23 4 132 35 3 28 2 27 5 32 2 23 4 352 25 3 6 3 9 6 35 2 23 3 15
3 24 4 35 3 15 5 65 2 28 6 132 28 3 23 5 23 7 42 2 6 1 13
3 13 1 8 2 2 3 5 3 8 2 93 15 2 9 7 23 4 36 1 5 3 232 6 4 28 5 19 7 65 3 15 3 9
4 8 3 11 5 15 6 45 3 11 3 152 19 7 45 5 15 5 55 3 19 4 15
6 15 4 19 5 8 3 19 3 35 5 232 9 4 4 2 9 2 8 3 11 7 65
3 6 4 45 3 65 3 19 2 45 5 353 35 5 13 3 9 2 9 4 65 5 133 7 2 2 5 19 1 5 4 65 3 15
3 19 5 7 2 2 2 19 4 55 3 113 6 3 12 2 4 3 6 5 28 4 11
2 19 3 12 3 9 3 4 3 13 2 83 13 3 65 4 7 3 6 7 31 3 6
2 5 2 7 4 9 4 55 5 7 5 233 19 2 11 6 15 5 23 4 15 5 63 20 2 7 3 15 3 23 4 8 3 35
5 19 2 5 5 19 3 15 4 55 4 454 45 2 4 3 11 3 13 6 45 5 35
3 35 2 7 1 7 3 9 4 35 3 283 23 3 13 4 8 3 19 4 65 2 43 23 6 35 5 13 2 6 5 11 4 13
3 15 5 35 3 35 2 7 4 55 3 354 19 3 11 3 15 3 23 3 7 4 35
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 33
2 15 7 13 6 45 3 7 3 13 3 282 23 3 28 5 45 3 13 3 19 2 28
5 23 3 19 5 2 2 5 3 45 7 233 11 2 2 3 9 2 15 3 45 5 35
7 23 4 8 4 13 2 9 4 37 4 556 55 4 15 6 45 3 2 3 23 6 284 28 2 19 2 20 4 45 3 19 3 9
3 23 5 65 3 28 2 4 2 72 9 2 7 4 35 2 24 3 15
3 35 4 8 3 11 5 45 3 155 35 3 4 4 9 2 9 3 9
6 55 2 11 3 19 3 26 3 284 11 5 45 3 28 3 23 2 8
;
PROC GLM;CLASS grado;
MODEL renta = grado; [4]MEANS grado / LSD TUKEY; [5]
RUN;
En el se observa, [1], como los datos que apareceran despues de CARDS se refieren a lasvariables educacio e ingresos. A continuacion, [2], aparecen los comandos con los que conse-guir el agrupamiento de niveles de educacio antes mencionado, definiendo una nueva variabledenominada grado, la cual solo tomara valores de 1 a 4.
En [3] se define una nueva variable, renta resultado de transformar ingreso por la transfor-macion de Box-Tiao antes mencionada con objeto de obtener homocedasticidad.
El modelo, en [4], se construye precisamente con esas dos nuevas variables. Se piden, en[5], los dos tests de comparaciones multiples habituales, previendo un rechazo de la hipotesisnula de igualdad de los efectos medios de los cuatro niveles de grado.
Los resultados obtenidos con este programa fueron
General Linear Models ProcedureClass Level Information
Class Levels Values
GRADO 4 1 2 3 4
Number of observations in data set = 294
General Linear Models Procedure
Dependent Variable: RENTA
Sum of MeanSource DF Squares Square F Value Pr > F
Model 3 62.25841106 20.75280369 19.78 0.0001
Error 290 304.26903874 1.04920358[1]
Corrected Total 293 366.52744979[2]
R-Square C.V. Root MSE RENTA Mean
0.169860 30.37113 1.024306 3.37263137
Alfonso
Garc
ıaPere
z.UNED34 Estadıstica Aplicada con SAS
General Linear Models Procedure
Dependent Variable: RENTA
Source DF Type I SS Mean Square F Value Pr > F
GRADO 3 62.25841106 20.75280369 19.78 0.0001
Source DF Type III SS Mean Square F Value Pr > F
GRADO 3 62.25841106 20.75280369 19.78 0.0001 [3]
General Linear Models Procedure
T tests (LSD) for variable: RENTA
NOTE: This test controls the type I comparisonwise error rate notthe experimentwise error rate.
Alpha= 0.05 Confidence= 0.95 df= 290 MSE= 1.049204
Critical Value of T= 1.96818 [4]
Comparisons significant at the 0.05 level are indicated by ’***’.
General Linear Models Procedure
Lower Difference Upper
GRADO Confidence Between ConfidenceComparison Limit Means Limit
4 - 3 -0.273 0.110 0.4924 - 2 0.309 0.621 0.933 *** [5]
4 - 1 0.900 1.251 1.602 *** [5]
3 - 4 -0.492 -0.110 0.2733 - 2 0.164 0.511 0.858 *** [6]
3 - 1 0.759 1.141 1.524 *** [6]
2 - 4 -0.933 -0.621 -0.309 *** [7]
2 - 3 -0.858 -0.511 -0.164 *** [7]2 - 1 0.319 0.630 0.942 *** [7]
1 - 4 -1.602 -1.251 -0.900 *** [8]
1 - 3 -1.524 -1.141 -0.759 *** [8]1 - 2 -0.942 -0.630 -0.319 *** [8]
General Linear Models Procedure
Tukey’s Studentized Range (HSD) Test for variable: RENTA
NOTE: This test controls the type I experimentwise error rate.
Alpha= 0.05 Confidence= 0.95 df= 290 MSE= 1.049204Critical Value of Studentized Range= 3.654
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 35
Comparisons significant at the 0.05 level are indicated by ’***’.
Simultaneous SimultaneousLower Difference Upper
GRADO Confidence Between ConfidenceComparison Limit Means Limit
4 - 3 -0.392 0.110 0.6124 - 2 0.211 0.621 1.030 ***
4 - 1 0.791 1.251 1.712 ***
3 - 4 -0.612 -0.110 0.3923 - 2 0.055 0.511 0.966 ***3 - 1 0.639 1.141 1.643 ***
2 - 4 -1.030 -0.621 -0.211 ***
2 - 3 -0.966 -0.511 -0.055 ***2 - 1 0.221 0.630 1.040 ***
1 - 4 -1.712 -1.251 -0.791 ***1 - 3 -1.643 -1.141 -0.639 ***
1 - 2 -1.040 -0.630 -0.221 ***
En ellos se obtiene la suma de cuadrados del error, [1], ası como la suma total de cuadrados,[2].
La suma de cuadrados debida al factor en estudio, grado, y mas en concreto su p-valor,[3], llevan a rechazar la hipotesis nula de igualdad de los efectos medios de los cuatrotratamientos.
El estadıstico del test LSD, dado en [4] y de valor 1′96818, lleva, [5], a diferencias signi-ficativas —a nivel 0′05— entre los tratamientos 4 y 2 ası como entre los tratamientos 4 y1.
Tambien, [6], entre el 3 y el 2 y 3 y 1, y por ultimo, [7] y [8], del 2 y del 1 con todos losdemas. Los grupos de tratamientos que este test nos sugiere son, por tanto, {1}, {2}, {3, 4}.
El test de Tukey, al mismo nivel de significacion suministra los mismos grupos de equivalencia.
5.4. Analisis de la varianza para un factor y un Di-
seno por bloques aleatorizados
El desarrollo teorico de esta seccion puede seguirse en CB-seccion 8.3.
Ejemplo 5.4 (CB-ejemplo 8.3)
Se quiere averiguar si tres tipos de complejos vitamınicos I , II y III , producen los mismosefectos respecto al aumento de peso en conejos.
Con este proposito se penso realizar un diseno completamente aleatorizado. No obstante, elinvestigador cree que dicho estudio puede verse alterado al ser los conejos de cuatro razasdiferentes, por lo que eligio tres conejos de cada una de las razas, asignando al azar los trescomplejos vitamınicos entre cada terna.
Los resultados obtenidos respecto al aumento de peso, en gramos, fueron
Razas A B C DComp. vitamınicos
I 94 89 87 98II 92 86 86 92III 90 86 84 82
Alfonso
Garc
ıaPere
z.UNED36 Estadıstica Aplicada con SAS
Se trata de un diseno por bloques, siendo el programa SAS a utilizar el siguiente
DATA conejos;
INPUT vitamina raza $ peso @@;
CARDS;
1 A 94 1 B 89 1 C 87 1 D 98
2 A 92 2 B 86 2 C 86 2 D 92
3 A 90 3 B 86 3 C 84 3 D 82
;
PROC GLM;
CLASS vitamina raza;
MODEL peso = vitamina raza;
RUN;
con el que se obtuvieron los siguientes resultados
General Linear Models ProcedureClass Level Information
Class Levels Values
VITAMINA 3 1 2 3
RAZA 4 A B C D
Number of observations in data set = 12
General Linear Models Procedure
Dependent Variable: PESOSum of Mean
Source DF Squares Square F Value Pr > F
Model 5 165.0000000 33.0000000 3.06 0.1028
Error 6 64.6666667 10.7777778
[1]
Corrected Total 11 229.6666667
[2]
R-Square C.V. Root MSE PESO Mean
0.718433 3.695631 3.282953 88.8333333
General Linear Models Procedure
Dependent Variable: PESO
Source DF Type I SS Mean Square F Value Pr > F
VITAMINA 2 84.66666667 42.33333333 3.93 0.0812RAZA 3 80.33333333 26.77777778 2.48 0.1580
Source DF Type III SS Mean Square F Value Pr > F
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 37
VITAMINA 2 84.66666667 42.33333333 3.93 0.0812 [4]RAZA 3 80.33333333 26.77777778 2.48 0.1580
[3]
En ellos se observa, en una primera tabla, la suma de cuadrados del error, [1], igual a 64′667,ası como la suma total de cuadrados, [2], igual a 229′667.De la segunda tabla se obtiene la suma de cuadrados debida a las razas (bloques), [3], y ladebida a los tratamientos, 84′667, que junto con el p-valor asociado, [4], indican rechazar lahipotesis nula de igualdad de los efectos medios de tres complejos vitamınicos para nivelesde significacion mayores que 0′0812.
5.5. Analisis de la varianza para un factor y un Di-
seno de cuadrado latino
El desarrollo teorico de esta seccion puede seguirse en CB-seccion 8.4.
Ejemplo 5.5 (CB-ejemplo 8.4)Con objeto de estudiar el efecto contaminante de cuatro tipos de gasolina A, B, C y D, serealizo un experimento probando las cuatro gasolinas en diferentes coches, pilotados estospor diferentes conductores.El investigador piensa que la marca del vehıculo puede ser un factor perturbador al consi-derar que aun con el mismo tipo de gasolina, diferentes coches producen diferentes efectoscontaminates.Al mismo tiempo cree que los conductores no son igual de expertos, por lo que el tipo deconduccion puede ser otra fuente de variacion adicional no deseada.Por tanto, con objeto de comparar los cuatro tipos de gasolina, es decir, contrastar la hipotesisnula H0 : µA = µB = µC = µD frente a H1 : no todas iguales , el investigador utilizo elsiguiente diseno de cuadrado latino 4 × 4
Coche
1 2 3 4
1 A B D CConductor 2 D C A B
3 B D C A4 C A B D
el cual proporciono unos resultados en cuanto a reduccion de oxidos de nitrogeno de
Coche
1 2 3 4
1 21 26 20 25Conductor 2 23 26 20 27
3 15 13 16 164 17 15 20 20
Para contrastar las hipotesis{
H0 : µA = µB = µC = µD
H1 : alguna distintael programa SAS a utilizar serıa
el siguiente
Alfonso
Garc
ıaPere
z.UNED38 Estadıstica Aplicada con SAS
DATA gasolina;
INPUT conducto coche gasolina $ oxidos @@;
CARDS;
1 1 A 21 1 2 B 26 1 3 D 20 1 4 C 25
2 1 D 23 2 2 C 26 2 3 A 20 2 4 B 27
3 1 B 15 3 2 D 13 3 3 C 16 3 4 A 16
4 1 C 17 4 2 A 15 4 3 B 20 4 4 D 20
;
PROC GLM;
CLASS conducto coche gasolina;
MODEL oxidos = conducto coche gasolina;
RUN;
con el que se obtendrıan los siguientes resultados
General Linear Models Procedure
Class Level Information
Class Levels Values
CONDUCTO 4 1 2 3 4
COCHE 4 1 2 3 4
GASOLINA 4 A B C D
Number of observations in data set = 16
General Linear Models Procedure
Dependent Variable: OXIDOSSum of Mean
Source DF Squares Square F Value Pr > F
Model 9 280.0000000 31.1111111 11.67 0.0037
Error 6 16.0000000 2.6666667
[1]
Corrected Total 15 296.0000000[2]
R-Square C.V. Root MSE OXIDOS Mean
0.945946 8.164966 1.632993 20.0000000
General Linear Models Procedure
Dependent Variable: OXIDOS
Source DF Type I SS Mean Square F Value Pr > F
CONDUCTO 3 216.0000000 72.0000000 27.00 0.0007
COCHE 3 24.0000000 8.0000000 3.00 0.1170GASOLINA 3 40.0000000 13.3333333 5.00 0.0452
Source DF Type III SS Mean Square F Value Pr > F
CONDUCTO 3 216.0000000 72.0000000 27.00 0.0007COCHE 3 24.0000000 8.0000000 3.00 0.1170
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 39
GASOLINA 3 40.0000000 13.3333333 5.00 0.0452 [3]
De donde se obtiene, [1], la suma residual de cuadrados, igual a 16, ası como la suma totalde cuadrados, [2], igual a 296.
En la siguiente tabla se obtienen las restantes sumas de cuadrados: La suma de cuadradosdebida a los conductores, 216, la debida a los coches, 24, y la debida a los tratamientos—gasolina— igual a 40, cuyo p-valor asociado, [3], indica rechazar la hipotesis nula deigualdad de los cuatro tipos de gasolina a niveles de significacion superiores a 0′0452.
5.6. Analisis de la varianza para dos factores y un
Diseno completamente aleatorizado
El desarrollo teorico de esta seccion puede seguirse en CB-seccion 8.5.
Ejemplo 5.6 (CB-ejemplo 8.5)
Un investigador esta interesado en averiguar si el asma bronquial es una enfermedad alergicacuya virulencia depende de la estacion.
Ademas, dispone de tres farmacos antihistamınicos A, B y C, cuya eficacia desea comparar.
Para ello, tomo una muestra de 48 personas con asma cronico de intensidad analoga, divididasen 12 grupos, uno para cada farmaco y estacion. Los resultados, evaluados en una escala de0 a 100, fueron los siguientes:
Farmaco A B CEstacion
Primavera 23 28 32 18 56 58 53 55 42 41 36 37Verano 32 41 43 48 64 58 67 72 51 53 55 60Otono 18 16 21 10 48 50 47 47 28 31 23 33
Invierno 30 40 33 47 60 61 63 59 56 60 61 55
Determinar si existe diferencia significativa entre los tres farmacos; ¿y entre las cuatro esta-ciones? Existe interaccion entre ambos factores?
El programa SAS que utilizaremos en el analisis es el siguiente
DATA asma;
INPUT estacion $ farmaco $ asma @@;
CARDS;
P A 23 P A 28 P A 32 P A 18 P B 56 P B 58 P B 53 P B 55
P C 42 P C 41 P C 36 P C 37 V A 32 V A 41 V A 43 V A 48
V B 64 V B 58 V B 67 V B 72 V C 51 V C 53 V C 55 V C 60
O A 18 O A 16 O A 21 O A 10 O B 48 O B 50 O B 47 O B 47
O C 28 O C 31 O C 23 O C 33 I A 30 I A 40 I A 33 I A 47
I B 60 I B 61 I B 63 I B 59 I C 56 I C 60 I C 61 I C 55
;
PROC GLM;
CLASS estacion farmaco;
MODEL asma = estacion farmaco estacion*farmaco; [1]
RUN;
Alfonso
Garc
ıaPere
z.UNED40 Estadıstica Aplicada con SAS
en donde se observa como novedad, [1], la incorporacion de la interaccion entre estacion yfarmaco, estacion*farmaco, como fuente de variacion en el modelo. Con el se obtuvieronlos siguientes resultados
General Linear Models Procedure
Class Level Information
Class Levels Values
ESTACION 4 I O P V
FARMACO 3 A B C
Number of observations in data set = 48
General Linear Models Procedure
Dependent Variable: ASMASum of Mean
Source DF Squares Square F Value Pr > F
Model 11 10488.16667 953.46970 44.78 0.0001
Error 36 766.50000 21.29167
[1]
Corrected Total 47 11254.66667[2]
R-Square C.V. Root MSE ASMA Mean
0.931895 10.44745 4.614289 44.1666667
General Linear Models Procedure
Dependent Variable: ASMA
Source DF Type I SS Mean Square F Value Pr > F
ESTACION 3 4132.166667 1377.388889 64.69 0.0001
FARMACO 2 6017.166667 3008.583333 141.30 0.0001ESTACION*FARMACO 6 338.833333 56.472222 2.65 0.0311
Source DF Type III SS Mean Square F Value Pr > F
ESTACION 3 4132.166667 1377.388889 64.69 0.0001 [3]FARMACO 2 6017.166667 3008.583333 141.30 0.0001 [4]
ESTACION*FARMACO 6 338.833333 56.472222 2.65 0.0311 [5]
La suma de cuadrados debida al error, [1], y la suma total de cuadrados, [2], se obtienen,como siempre, en la primera tabla.Las sumas de cuadrados debidas a la estacion, al farmaco y a la interaccion, ası como susp-valores, [3], [4] y [5] respectivamente, conducen a rechazar la hipotesis nula de igualdadde los efectos medios de las cuatro estaciones, a rechazar tambien la de igualdad de los tresfarmacos y, por ultimo, a aceptar la hipotesis nula de ausencia de interaccion entre ambosfactores a niveles de significacion menores a 0′0311.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 41
5.7. Analisis de la regresion lineal simple
El desarrollo teorico de esta seccion puede seguirse en las secciones 9.2 y9.3 de CB.
Ejemplo 5.7 (CB-ejemplo 9.1)Se midio el contenido de oxıgeno, variable Y , a diversas profundidades, variable X, en ellago Worther de Australia, obteniendose los siguientes datos, en miligramos por litro
X 15 20 30 40 50 60 70
Y 6′5 5′6 5′4 6 4′6 1′4 0′1
Con objeto de determinar la recta de mınimos cuadrados y contrastar su validez, empleare-mos el siguiente programa SAS
DATA oxigeno;
INPUT profun oxigeno @@;
CARDS;
15 6.5 20 5.6 30 5.4 40 6 50 4.6 60 1.4 70 0.1
;
PROC GLM;
MODEL oxigeno = profun;
RUN;
con el que se obtendrıan los siguientes resultados
General Linear Models Procedure
Number of observations in data set = 7
General Linear Models Procedure
Dependent Variable: OXIGENOSum of Mean
Source DF Squares Square F Value Pr > F
Model 1 29.48095710 29.48095710 20.32 0.0064 [4]
[1]
Error 5 7.25332861 1.45066572[2]
Corrected Total 6 36.73428571[3]
R-Square C.V. Root MSE OXIGENO Mean
0.802546 28.48328 1.204436 4.22857143[5]
General Linear Models Procedure
Dependent Variable: OXIGENO
Source DF Type I SS Mean Square F Value Pr > F
Alfonso
Garc
ıaPere
z.UNED42 Estadıstica Aplicada con SAS
PROFUN 1 29.48095710 29.48095710 20.32 0.0064
Source DF Type III SS Mean Square F Value Pr > F
PROFUN 1 29.48095710 29.48095710 20.32 0.0064
T for H0: Pr > |T| Std Error ofParameter Estimate Parameter=0 Estimate
INTERCEPT 8.631019830 8.01 0.0005 1.07747090
PROFUN -0.108130312 -4.51 [7] 0.0064 [8] 0.02398614[6]
De la primera tabla se obtienen las tres sumas de cuadrados que forman la tabla de analisisde la varianza para la regresion; la debida al modelo, [1], que toma en el ejemplo el valor29′4809, la residual, [2], igual a 7′2533 y la suma total de cuadrados, [3], de valor 36′73428.El p-valor del test, [4], en el que la hipotesis nula es la falta de relacion lineal entre ambasvariables, sugiere rechazar dicha hipotesis nula, concluyendo el analisis con una relacionlineal significativa entre el contenido de oxıgeno y la profundidad, relacion confirmada porel cuadrado del coeficiente de correlacion, [5], igual a 0′802546, denominado coeficiente dedeterminacion —vease CB-seccion 2.4.3.Mas abajo, [6], se obtiene la ecuacion de la recta de mınimos cuadrados,
OXIGENO = 8′63101983 − 0′10813 · PROFUN
ası como, [7], una forma alternativa de contrastar la regresion lineal, considerando comohipotesis nula la igualdad a cero del coeficiente de regresion, H0 : β = 0, sugiriendonos elp-valor del test, [8], tambien el rechazo de esta hipotesis nula.
5.8. Analisis de la regresion lineal multiple
El desarrollo teorico de esta seccion puede seguirse en las secciones 10.2 y10.3 de CB.
Ejemplo 5.8 (CB-ejemplo 10.1)Se considero que el numero de admisiones previas del paciente, X1, y su edad, X2, podıanservir para predecir la estancia en dias, Y , que pasaban en un determinado hospital ciertosenfermos cronicos.Con dicho proposito se tomo una muestra aleatoria simple de 15 pacientes la cual propor-ciono los siguientes datos
X1 0 0 0 1 1 1 1 2 2 2 3 3 4 4 5
X2 21 18 22 24 25 25 26 34 25 38 44 51 39 54 55
Y 15 15 21 28 30 35 40 35 30 45 50 60 45 60 50
Con objeto de realizar un analisis de la regresion lineal multiple, el programa SAS a utilizarserıa el siguiente
DATA hospital;
INPUT previas edad estancia @@;
CARDS;
0 21 15 0 18 15 0 22 21 1 24 28 1 25 30 1 25 35 1 26 40
2 34 35 2 25 30 2 38 45 3 44 50 3 51 60 4 39 45 4 54 60
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 43
5 55 50
;
PROC GLM;
MODEL estancia = previas edad;
RUN;
con el que se obtendrıan los siguiente resultados
General Linear Models Procedure
Number of observations in data set = 15
General Linear Models Procedure
Dependent Variable: ESTANCIA
Sum of MeanSource DF Squares Square F Value Pr > F
Model 2 2502.390123 1251.195061 34.08 0.0001 [4][1]
Error 12 440.543211 36.711934
[2]
Corrected Total 14 2942.933333
[3]
R-Square C.V. Root MSE ESTANCIA Mean
0.850305 16.25860 6.059037 37.2666667[5]
General Linear Models Procedure
Dependent Variable: ESTANCIA
Source DF Type I SS Mean Square F Value Pr > F
PREVIAS 1 2122.017303 2122.017303 57.80 0.0001EDAD 1 380.372820 380.372820 10.36 0.0074
Source DF Type III SS Mean Square F Value Pr > F
PREVIAS 1 0.0174603 0.0174603 0.00 0.9830
EDAD 1 380.3728198 380.3728198 10.36 0.0074
General Linear Models Procedure
Dependent Variable: ESTANCIA
T for H0: Pr > |T| Std Error ofParameter Estimate Parameter=0 Estimate
INTERCEPT 2.085724401 0.31 0.7623 6.73931143
PREVIAS 0.056987338 0.02 0.9830 2.61310424EDAD 1.050022956 3.22 0.0074 0.32621031
[6] [7]
en los que se aprecia la suma de cuadrados debida a la regresion lineal multiple, [1], SSEX =2502′39, la suma residual de cuadrados, [2], igual a SSNEX = 440′5432, ası como la sumatotal de cuadrados, igual a SST = 2942′933.
Alfonso
Garc
ıaPere
z.UNED44 Estadıstica Aplicada con SAS
El p-valor, [4], conduce a inferir una significativa regresion lineal multiple, confirmada porel coeficiente de determinacion multiple, [5], igual a R2
y,12 = 0′850305, dada por la ecuacion,[6],
ESTACIA = 2′085724 + 0′05698 · PREVIAS + 1′05 · EDAD
No obstante, si se observa la columna [7] de p-valores asociados a los coeficientes de regre-sion, vemos que se deberıa de prescindir de la covariable PREVIAS, debiendo volver a ejecutarel programa sin esta covariable para obtener las estimaciones de los coeficientes de regresion.
5.9. Analisis de la covarianza para un factor y un
diseno completamente aleatorizado
El desarrollo teorico de esta seccion puede seguirse en la seccion 11.2 deCB.
Ejemplo 5.9 (CB-ejemplo 11.1)Se efectuo un experimento con dos grupos de ratones asignados aleatoriamente, con objetode determinar si existen diferencias significativas entre dos dietas, A y B.Se piensa que las diferencias de peso iniciales entre los ratones pueden falsear los resultadosdel experimento, por lo que se midieron los pesos de estos tanto antes de iniciar el tratamiento,X, como despues de realizado, Y . Los resultados obtenidos fueron los siguientes
Dieta A Dieta B
Predieta Postdieta Predieta Postdieta
Animal XA YA Animal XB YB
1 60 80 1 58 812 55 81 2 46 583 54 78 3 50 754 50 72 4 39 605 38 51 5 41 596 42 54 6 45 607 50 78 7 42 588 45 59 8 55 729 43 61 9 52 7510 52 78 10 45 57
Con objeto de hacer un analisis de la covarianza, el programa SAS a utilizar serıa el siguiente
DATA dietas;
INPUT dieta $ predieta posdieta @@;
CARDS;
A 60 80 A 55 81 A 54 78 A 50 72 A 38 51 A 42 54 A 50 78
A 45 59 A 43 61 A 52 78 B 58 81 B 46 58 B 50 75 B 39 60
B 41 59 B 45 60 B 42 58 B 55 72 B 52 75 B 45 57
;
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 45
PROC GLM;
CLASS dieta;
MODEL posdieta = dieta predieta;
RUN;
con el que se obtendrıan los siguientes resultados
General Linear Models Procedure
Class Level Information
Class Levels Values
DIETA 2 A B
Number of observations in data set = 20
General Linear Models Procedure
Dependent Variable: POSDIETA
Sum of MeanSource DF Squares Square F Value Pr > F
Model 2 1711.807614 855.903807 43.21 0.0001
Error 17 336.742386 19.808376[1]
Corrected Total 19 2048.550000
R-Square C.V. Root MSE POSDIETA Mean
0.835619 6.608256 4.450660 67.3500000
General Linear Models Procedure
Dependent Variable: POSDIETA
Source DF Type I SS Mean Square F Value Pr > F
DIETA 1 68.450000 68.450000 3.46 0.0804
PREDIETA 1 1643.357614 1643.357614 82.96 0.0001
Source DF Type III SS Mean Square F Value Pr > F
[2] [3]DIETA 1 9.069361 9.069361 0.46 0.5077 [4]PREDIETA 1 1643.357614 1643.357614 82.96 0.0001 [6]
[5]
La suma de cuadrados residual, [1], la obtenemos, como siempre, de la primera tabla; eneste caso es igual a SSE = 336′7423.Al ser un analisis de la covarianza, la suma de cuadrados de la tratamientos, [2], la debemosbuscar en la segunda tabla, al igual que en el caso del analisis de la varianza. En este casotoma el valor SSTi = 9′069361.El valor del estadıstico del contraste, que tiene como hipotesis nula la igualdad de los efectosmedios de las dos dietas, se obtiene en [3] y es igual a 0′46, siendo el p-valor asociado, [4],igual a 0′5077 lo suficientemente claro como para inferir dicha igualdad.
Alfonso
Garc
ıaPere
z.UNED46 Estadıstica Aplicada con SAS
En [5] y [6] se obtiene, respectivamente, el valor del estadıstico y el p-valor del contrasteque tiene como hipotesis nula la falta de regresion lineal entre la predieta y la posdieta; esdecir, que tiene como hipotesis nula que el analisis de la covarianza no ha sido adecuado.Dicho p-valor, igual a 0′0001 es lo suficientemente significativo como para rechazar de formaclara dicha hipotesis nula.
Ejemplo 5.10 (problema 11.1)Se quiere averiguar si existen diferencias significativas entre cuatro insecticidas empleadospara fumigar campos de cultivo; estos son, clorodinitrobenceno (CN), sulfuro de carbono
(SC), y dos productos comerciales, Cymag (CM) y Seekay (CK).Para ello se aplicaron al azar los cuatro insecticidas en 16 parcelas, observandose, despuesde fumigar, el numero de quistes, yij , encontrados en 40 gramos de tierra. Los resultadosfueron los siguientes:
yij
CN 106 126 110 102SC 92 87 79 99CM 143 124 130 140CK 89 110 92 100
¿Que diseno utilizarıa para analizar los datos anteriores? ¿Que conclusiones obtendrıa conel?Un analisis de las parcelas donde se iba a realizar el experimento fue llevado a cabo unosdıas antes, obteniendose los siguientes datos sobre el numero de quistes por cada 40 gramosde tierra, xij , correspondiendose la posicion de estos con los de la tabla anterior; es decir,para la parcela donde se obtuvo una y11 = 106 era x11 = 212, etc.
xij
212 250 199 195190 205 150 203295 245 250 285175 199 190 195
Si quisiera utilizar esta informacion, ¿que diseno elegirıa? ¿Que conclusiones obtendrıa conel?
Para la primera parte del problema, el diseno a utilizar (CB-seccion 8.2) es un Diseno Com-pletamente Aleatorizado para un factor, insecticida, el cual actua a cuatro niveles, CN, SC,CM y CK, siendo nuestro proposito el tratar de averiguar si presentan diferencias significati-vas, contrastando, mediante dicho diseno, la hipotesis nula H0 : µCN = µSC = µCM = µCK
frente a la alternativa de no ser todos iguales.Previendo la existencia de diferencias significativas entre los cuatro tratamientos, en el si-guiente programa SAS hemos requerido las habituales comparaciones multiples.
DATA insecti;
INPUT insecti quistes @@;
CARDS;
1 106 1 126 1 110 1 102 2 92 2 87 2 79 2 99
3 143 3 124 3 130 3 140 4 89 4 110 4 92 4 100
;
PROC GLM;
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 47
CLASS insecti;
MODEL quistes = insecti;
MEANS insecti / LSD TUKEY;
RUN;
con el que se obtendrıan los siguientes resultados
General Linear Models ProcedureClass Level Information
Class Levels Values
INSECTI 4 1 2 3 4
Number of observations in data set = 16
General Linear Models Procedure
Dependent Variable: QUISTES
Sum of MeanSource DF Squares Square F Value Pr > F
Model 3 4618.687500 1539.562500 17.73 0.0001
Error 12 1042.250000 86.854167
Corrected Total 15 5660.937500
R-Square C.V. Root MSE QUISTES Mean
0.815887 8.624230 9.319558 108.062500
General Linear Models Procedure
Dependent Variable: QUISTES
Source DF Type I SS Mean Square F Value Pr > F
INSECTI 3 4618.687500 1539.562500 17.73 0.0001
Source DF Type III SS Mean Square F Value Pr > F
INSECTI 3 4618.687500 1539.562500 17.73 0.0001 [2][1]
General Linear Models Procedure
T tests (LSD) for variable: QUISTES
NOTE: This test controls the type I comparisonwise error rate notthe experimentwise error rate.
Alpha= 0.05 df= 12 MSE= 86.85417
Critical Value of T= 2.18Least Significant Difference= 14.358
Means with the same letter are not significantly different.
T Grouping Mean N INSECTI
A 134.250 4 3
B 111.000 4 1
BC B 97.750 4 4
Alfonso
Garc
ıaPere
z.UNED48 Estadıstica Aplicada con SAS
CC 89.250 4 2
General Linear Models Procedure
Tukey’s Studentized Range (HSD) Test for variable: QUISTES
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 12 MSE= 86.85417
Critical Value of Studentized Range= 4.199Minimum Significant Difference= 19.565
Means with the same letter are not significantly different.
Tukey Grouping Mean N INSECTI
A 134.250 4 3
B 111.000 4 1B
C B 97.750 4 4
CC 89.250 4 2
La tabla de Analisis de la Varianza proporciona un valor para el estadıstico del contraste,[1], igual a F = 17′73, cuyo p-valor asociado, [2], igual a 0′0001, es lo suficientementepequeno como para inferir diferencias significativas entre los cuatro tratamientos.Tanto el test LSD como el test de Tukey no son suficientemente concluyentes a nivel 0′05, alno ser totalmente disjuntos los grupos de tratamientos con diferencias no significativas; noobstante, la inferencia razonable serıa
{SC} ≺ {CN, CK} ≺ {CM}
en donde la ordenacion ≺ entre clases de tratamientos la obtenemos de las medias por grupos.
Si queremos utilizar la informacion adicional proporcionada por la covariable numero de
quistes observados antes de realizar el experimento, en el contraste de la hipotesis nulaanterior, H0 : µCN = µSC = µCM = µCK frente a la alternativa de no ser todos iguales,debemos hacer un Analisis de la Covarianza para un factor en dicho diseno completamentealeatorizado (CB-seccion 11.2), en cuyo caso, utilizaremos el siguiente programa SAS
DATA dietas;
INPUT insecti prequis posquis @@;
CARDS;
1 212 106 1 250 126 1 199 110 1 195 102
2 190 92 2 205 87 2 150 79 2 203 99
3 295 143 3 245 124 3 250 130 3 285 140
4 175 89 4 199 110 4 190 92 4 195 100
;
PROC GLM;
CLASS insecti;
MODEL posquis = insecti prequis;
RUN;
Con el se obtendrıan los siguientes resultados
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 49
General Linear Models ProcedureClass Level Information
Class Levels Values
INSECTI 4 1 2 3 4
Number of observations in data set = 16
General Linear Models Procedure
Dependent Variable: POSQUIS
Sum of MeanSource DF Squares Square F Value Pr > F
Model 4 5375.044578 1343.761144 51.70 0.0001
Error 11 285.892922 25.990266[3]
Corrected Total 15 5660.937500
R-Square C.V. Root MSE POSQUIS Mean
0.949497 4.717700 5.098065 108.062500
General Linear Models Procedure
Dependent Variable: POSQUIS
Source DF Type I SS Mean Square F Value Pr > F
INSECTI 3 4618.687500 1539.562500 59.24 0.0001
PREQUIS 1 756.357078 756.357078 29.10 0.0002
Source DF Type III SS Mean Square F Value Pr > F
[4] [5]
INSECTI 3 268.8604726 89.6201575 3.45 0.0552 [6]PREQUIS 1 756.3570779 756.3570779 29.10 0.0002 [7]
La suma residual de cuadrados en el analisis de la covarianza se obtiene en [3], siendo eneste caso igual a 285′8929.La suma de cuadrados debida a los tratamientos, INSECTI, se obtiene en [4], siendo elestadıstico del contraste que tiene como hipotesis nula la igualdad de los efectos medios de loscuatro insecticidas el obtenido en [5] —igual a 3′45— sugiriendo el p-valor correspondiente,[6], aceptar dicha hipotesis nula a niveles de significacion menores que 0′0552.Por otro lado, el p-valor, [7], del contraste que tiene como hipotesis nula la ausencia derelacion lineal entre la variable dependiente Y y la covariable X, es lo suficientemente claro,al ser igual a 0′0002 como para rechazar dicha hipotesis nula y concluir el analisis confirmandola existencia de una correlacion —lineal— significativa entre dichas variables aleatorias.
Ejemplo 5.11 (problema 11.2)Se llevo a cabo un experimento con objeto de comparar la eficacia de cuatro anuncios televi-sivos de una determinada marca de leche. Para ello se emitio cada uno de los anuncios en uncanal autonomico diferente, observando el consumo, yij , de leche semanal (en litros), despues
Alfonso
Garc
ıaPere
z.UNED50 Estadıstica Aplicada con SAS
de dos meses de emision, de cuatro familias elegidas al azar de cada region autonomica. Losresultados obtenidos fueron los siguientes:
yij
Anun. I 7 6 5 5Anun. II 3 4 6 4Anun. III 9 10 9 7Anun. IV 7 6 6 6
¿Que diseno utilizarıa para analizar los datos anteriores? ¿Que conclusiones obtendrıa conel?
Se considera que el numero de individuos, xij , que compone cada una de las familias elegidasal azar (dado por la siguiente tabla y en donde cada lugar (i, j) se corresponde con el mismo(i, j) de la tabla anterior; es decir, la familia que consumio y11 = 7 litros estaba formada porx11 = 4 miembros)
xij
4 3 2 31 2 3 24 5 5 34 3 3 2
puede alterar los resultados del experimento, por lo que parece razonable incorporar dichainformacion en el diseno.
Si quisiera utilizar esta informacion, ¿que diseno elegirıa? ¿Que conclusiones obtendrıa conel?
Puesto que se trata de comparar cuatro anuncios diferentes —cuatro tratamientos— el disenoa utilizar serıa un Diseno Completamente Aleatorizado para un factor (CB-seccion 8.2),anuncio, el cual actua a cuatro niveles, tratando de averiguar si estos presentan diferenciassignificativas, mediante el contraste de la hipotesis nula H0 : µAI = µAII = µAIII = µAIV
frente a la alternativa de no ser todos iguales.
Para contrastar dicha hipotesis nula utilizaremos el siguiente programa SAS, en el cual yahemos incluido los tests habituales de comparaciones multiples.
DATA anuncios;
INPUT anuncios consumo @@;
CARDS;
1 7 1 6 1 5 1 5
2 3 2 4 2 6 2 4
3 9 3 10 3 9 3 7
4 7 4 6 4 6 4 6
;
PROC GLM;
CLASS anuncios;
MODEL consumo = anuncios;
MEANS anuncios / LSD TUKEY;
RUN;
Con el se obtuvieron los siguientes resultados
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 51
General Linear Models ProcedureClass Level Information
Class Levels Values
ANUNCIOS 4 1 2 3 4
Number of observations in data set = 16
General Linear Models Procedure
Dependent Variable: CONSUMOSum of Mean
Source DF Squares Square F Value Pr > F
Model 3 42.00000000 14.00000000 12.92 0.0005
Error 12 13.00000000 1.08333333[1]
Corrected Total 15 55.00000000
R-Square C.V. Root MSE CONSUMO Mean
0.763636 16.65333 1.040833 6.25000000
General Linear Models Procedure
Dependent Variable: CONSUMO
Source DF Type I SS Mean Square F Value Pr > F
ANUNCIOS 3 42.00000000 14.00000000 12.92 0.0005
Source DF Type III SS Mean Square F Value Pr > F
ANUNCIOS 3 42.00000000 14.00000000 12.92 0.0005 [4][2] [3]
General Linear Models Procedure
T tests (LSD) for variable: CONSUMO
NOTE: This test controls the type I comparisonwise error rate not
the experimentwise error rate.
Alpha= 0.05 df= 12 MSE= 1.083333Critical Value of T= 2.18
Least Significant Difference= 1.6036
Means with the same letter are not significantly different.
T Grouping Mean N ANUNCIOS
A 8.750 4 3
B 6.250 4 4B
C B 5.750 4 1 [5]CC 4.250 4 2
Alfonso
Garc
ıaPere
z.UNED52 Estadıstica Aplicada con SAS
General Linear Models Procedure
Tukey’s Studentized Range (HSD) Test for variable: CONSUMO
NOTE: This test controls the type I experimentwise error rate, butgenerally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 12 MSE= 1.083333
Critical Value of Studentized Range= 4.199Minimum Significant Difference= 2.185
Means with the same letter are not significantly different.
Tukey Grouping Mean N ANUNCIOS
A 8.750 4 3
B 6.250 4 4B [6]
B 5.750 4 1BB 4.250 4 2
La suma de cuadrados residual, [1], igual a 13, y la suma de cuadrados debida a los tra-tamientos, [2], igual a 42, conducen a un estadıstico de contraste, [3], igual a 12′92, elcual indica, junto con el correspondiente p-valor del test, [4] igual a 0′0005, el rechazo dela hipotesis nula de igualdad de los efectos medios de los cuatro anuncios, con un disenocompletamente aleatorizado.El test LSD no es concluyente, [5], aunque ya es indicativo de lo que el test de Tukey, [6],sugerira, la ordenacion de clases homogeneas siguiente
{AI,AII,AIV } ≺ {AIII}
en donde la ordenacion ≺ entre las dos clases de tratamientos la obtenemos de las mediasde estos.
Si en el contraste de la hipotesis nula anterior, queremos utilizar la informacion adicionalproporcionada por la covariable numero de individuos que componen la familia entrevistada,debemos hacer un Analisis de la Covarianza para un factor en dicho diseno completamentealeatorizado (CB-seccion 11.2), en cuyo caso, utilizaremos el siguiente programa SAS
DATA anuncios;
INPUT anuncio miembros consumo @@;
CARDS;
1 4 7 1 3 6 1 2 5 1 3 5 2 1 3 2 2 4 2 3 6 2 2 4
3 4 9 3 5 10 3 5 9 3 3 7 4 4 7 4 3 6 4 3 6 4 2 6
;
PROC GLM;
CLASS anuncio;
MODEL consumo = anuncio miembros;
RUN;
Con el se obtendrıan los siguientes resultados
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 53
General Linear Models Procedure
Class Level Information
Class Levels Values
ANUNCIO 4 1 2 3 4
Number of observations in data set = 16
General Linear Models Procedure
Dependent Variable: CONSUMOSum of Mean
Source DF Squares Square F Value Pr > F
Model 4 51.77857143 12.94464286 44.20 0.0001
Error 11 3.22142857 0.29285714[7]
Corrected Total 15 55.00000000
R-Square C.V. Root MSE CONSUMO Mean
0.941429 8.658604 0.541163 6.25000000
General Linear Models Procedure
Dependent Variable: CONSUMO
Source DF Type I SS Mean Square F Value Pr > F
ANUNCIO 3 42.00000000 14.00000000 47.80 0.0001
MIEMBROS 1 9.77857143 9.77857143 33.39 0.0001
Source DF Type III SS Mean Square F Value Pr > F
[8] [9]ANUNCIO 3 5.04259783 1.68086594 5.74 0.0130 [10]MIEMBROS 1 9.77857143 9.77857143 33.39 0.0001 [12]
[11]
La suma residual de cuadrados en el analisis de la covarianza se obtiene en [7] y es igual a3′2214, siendo la suma de cuadrados debida a los tratamientos, [8], igual a 5′0425978.
El estadıstico del contraste, [9], que tiene como hipotesis nula la igualdad de los efectosmedios de los cuatro anuncios, igual a 5′74, tiene asociado un p-valor, [10], suficientementepequeno —igual a 0′013— como para rechazar, tambien con el analisis de la covarianza, laigualdad de efectos medios de los cuatro tratamientos.
El valor, [11], del estadıstico del contraste sobre la hipotesis nula de ausencia de correla-cion entre la variable dependiente y la covariable, tiene asociado un p-valor, [12], que nodeja dudas en cuanto al rechazo de dicha hipotesis nula y, en consecuencia, en cuanto a lacorrelacion significativa entre ambas variables aleatorias.
Alfonso
Garc
ıaPere
z.UNED54 Estadıstica Aplicada con SAS
5.10. Analisis de la covarianza para dos factores y
un diseno completamente aleatorizado
El desarrollo teorico de esta seccion puede seguirse en la seccion 11.3 deCB.
Ejemplo 5.12 (CB-ejemplo 11.2)Un investigador desea comparar tres dietas en cuanto a sus efectos en la disminucion del nivelde colesterol. Ademas desea examinar el efecto de una droga sobre dicho nivel de colesterolal compararla con un grupo control y, finalmente, esta interesado en la presencia de posiblesefectos de interaccion entre las dietas y la droga.Con estos objetivos, treinta varones adultos fueron asignados al azar en grupos de cinco acada una de las combinaciones de los factores.Como se considera que el nivel previo de colesterol de los individuos puede afectar a losresultados del experimento, se observo, en cada uno de ellos, dicho nivel tanto antes derealizar el experimento, X, como despues de realizado, Y , obteniendose los siguientes datosnormalizados:
Dieta A Dieta B Dieta C
XA;cont. YA;cont. XB;cont. YB;cont. XC;cont. YC;cont.
c
o 40 5 50 10 50 10n 55 10 45 15 40 0t 65 20 60 10 50 20r 60 15 50 10 45 10o 55 10 45 0 45 10l
XA;drog. YA;drog. XB;drog. YB;drog. XC;drog. YC;drog.
d 55 5 60 20 45 5r 70 15 55 10 55 15o 55 0 50 0 65 20g 60 20 55 10 35 0a 48 0 50 15 45 0
Como se trata de hacer un analisis de la covarianza, el programa SAS a utilizar serıa elsiguiente
DATA coleste;
INPUT dieta $ droga $ precoles poscoles @@;
CARDS;
A N 40 5 A N 55 10 A N 65 20 A N 60 15 A N 55 10
B N 50 10 B N 45 15 B N 60 10 B N 50 10 B N 45 0
C N 50 10 C N 40 0 C N 50 20 C N 45 10 C N 45 10
A S 55 5 A S 70 15 A S 55 0 A S 60 20 A S 48 0
B S 60 20 B S 55 10 B S 50 0 B S 55 10 B S 50 15
C S 45 5 C S 55 15 C S 65 20 C S 35 0 C S 45 0
;
PROC GLM;
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 5. Procedimiento GLM 55
CLASS dieta droga;
MODEL poscoles = dieta droga dieta*droga precoles;
RUN;
con el que se obtendrıan los siguientes resultados
General Linear Models ProcedureClass Level Information
Class Levels Values
DIETA 3 A B C
DROGA 2 N S
Number of observations in data set = 30
General Linear Models Procedure
Dependent Variable: POSCOLES
Sum of MeanSource DF Squares Square F Value Pr > F
Model 6 790.9551876 131.8258646 5.01 0.0021
Error 23 605.7114791 26.3352817[1]
Corrected Total 29 1396.6666667
R-Square C.V. Root MSE POSCOLES Mean
0.566316 53.08750 5.131791 9.66666667
General Linear Models Procedure
Dependent Variable: POSCOLES
Source DF Type I SS Mean Square F Value Pr > F
DIETA 2 6.6666667 3.3333333 0.13 0.8817
DROGA 1 13.3333333 13.3333333 0.51 0.4839DIETA*DROGA 2 46.6666667 23.3333333 0.89 0.4259
PRECOLES 1 724.2885209 724.2885209 27.50 0.0001
Source DF Type III SS Mean Square F Value Pr > F
DIETA 2 110.6365917 [2] 55.3182958 2.10 0.1453 [5]
DROGA 1 92.9773802 [3] 92.9773802 3.53 0.0730 [6]DIETA*DROGA 2 32.2459846 [4] 16.1229923 0.61 0.5507 [7]
PRECOLES 1 724.2885209 724.2885209 27.50 0.0001 [8]
La suma residual de cuadrados se obtiene en [1] y es igual a 605′711.Las sumas de cuadrados debidas al tratamiento DIETA, al tratamiento DROGA y a la interaccionentre ambos, DIETA*DROGA, se obtiene, respectivamente en [2], [3] y [4], cuyos p-valoresasociados, [5], [6] y [7] respectivamente, llevan a aceptar la hipotesis nula de igualdad delos efectos medios de las tres dietas —al menos para p-valores menores que 0′1453, tambien aaceptar la igualdad del efecto medio de la droga y del grupo control —para p-valores menoresque 0′073— y por ultimo a aceptar, claramente, la hipotesis nula de ausencia de interaccionentre ambos factores, al ser este ultimo p-valor igual a 0′5507.
Alfonso
Garc
ıaPere
z.UNED56 Estadıstica Aplicada con SAS
Por otro lado, la hipotesis nula de ausencia de relacion lineal entre la variable dependientey la covariable es rechazada claramente, al ser el p-valor asociado, [8], igual a 0′0001.
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 6
Procedimiento FREQ
6.1. Introduccion
El procedimiento FREQ es un procedimiento disenado para trabajar condatos que sean recuentos de observaciones. Por tanto, es adecuado para resolverproblemas de
Contraste de homogeneidad de varias muestras (CB-seccion 12.3).
Contraste de independencia de caracteres (CB-seccion 12.4).
6.2. Especificaciones del procedimiento FREQ
El procedimiento FREQ admite, entre otras, las siguientes especificaciones
PROC FREQ;TABLES variables / opciones;WEIGHT variables;
Como dijimos en la introduccion, los datos que manejaremos seran recuen-tos de observaciones. Estos pueden venir dados individuo a individuo en lamatriz de datos; en este caso, no es necesaria la especificacion WEIGHT.
Por el contrario, si los datos son frecuencias absolutas de las clases que for-man la tabla de contingencia, dicha especificacion sı sera necesaria, indicandocon ella la mencionada frecuencia absoluta.
Por otro lado, entre las opciones de TABLES usaremos nocol norow
nopercent expected chisq, con objeto, respectivamente, de suprimir de lasalida los porcentajes por columnas, por filas y por celdas de la tabla de contin-gencia, de requerir las frecuencias esperadas por celdas, ası como determinarel test λ de Pearson.
57
Alfonso
Garc
ıaPere
z.UNED58 Estadıstica Aplicada con SAS
6.3. Contraste de homogeneidad de varias muestras
El desarrollo teorico de esta seccion puede seguirse en CB-seccion 12.3.
Ejemplo 6.1 (CB-ejemplo 12.8)Con objeto de averiguar si existe o no diferencia significativa entre los habitos fumadores detres comunidades, se selecciono una muestra aleatoria simple de 100 individuos de cada unade las tres comunidades, obteniendose los siguientes resultados,
Comunidad fumadores no fumadores Total
A 13 87 100B 17 83 100C 18 82 100
48 252 300
¿Pueden considerarse homogeneas las tres poblaciones en cuanto a sus habitos fumadores?
Si los datos hubieran sido dados individuo a individuo, el programa SAS a utilizar hubierasido el siguiente
DATA fumar;
INPUT comuni $ fumar $ @@;
CARDS;
A F
-omitimos 11 datos-
A F
A NF
-omitimos 85 datos-
A NF
B F
-omitimos 198 datos-
C NF
;
PROC FREQ;
TABLES comuni*fumar / nocol norow nopercent expected chisq;
RUN;
en donde las tres comunidades se han tabulado por A, B y C, y el ser o no fumador, respec-tivamente por F y NF.No obstante, los datos que nos daran vendran en forma de tabla (como ocurre en CB). Enese caso, el programa SAS a utilizar sera el siguiente
DATA fumar;
INPUT comuni $ fumar $ frecu @@;
CARDS;
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 6. Procedimiento FREQ 59
A fuma 13 A no_fuma 87
B fuma 17 B no_fuma 83
C fuma 18 C no_fuma 82
;
PROC FREQ;
TABLES comuni*fumar / nocol norow nopercent expected chisq;
WEIGHT frecu;
RUN;
con el que se obtendrıan los siguientes resultados
TABLE OF COMUNI BY FUMAR
COMUNI FUMAR
Frequency|Expected |fuma |no_fuma | Total
---------+--------+--------+A | 13 | 87 | 100
| 16 | 84 |
---------+--------+--------+B | 17 | 83 | 100 [1]
| 16 | 84 |---------+--------+--------+C | 18 | 82 | 100
| 16 | 84 |---------+--------+--------+
Total 48 252 300
STATISTICS FOR TABLE OF COMUNI BY FUMAR
Statistic DF Value Prob
------------------------------------------------------Chi-Square 2 1.042 0.594 [2]Likelihood Ratio Chi-Square 2 1.069 0.586
Mantel-Haenszel Chi-Square 1 0.927 0.336Phi Coefficient 0.059
Contingency Coefficient 0.059Cramer’s V 0.059
Sample Size = 300
En ellos se observa, [1], la tabla de contingencia con las frecuencias observadas y esperadas,ası como, [2], el valor del estadıstico de Pearson, λ = 1′042, el cual tiene asociado un p-valorlo suficientemente grande, 0′594, el cual permite concluir, claramente, con la aceptacion dela hipotesis nula de homogeneidad de las tres poblaciones en cuanto a sus habitos fumadores.
Ejemplo 6.2 (CB-ejemplo 12.2)
Se ha realizado un estudio sobre caries dental en ninos de seis ciudades con diferentes can-tidades de fluor en el suministro de agua.
Seleccionada una muestra aleatoria de 125 ninos de cada ciudad, los resultados obtenidosfueron los siguientes,
Alfonso
Garc
ıaPere
z.UNED60 Estadıstica Aplicada con SAS
Comunidad no de ninos sin caries no de ninos con caries Total
A 38 87 125B 8 117 125C 30 95 125D 44 81 125E 64 61 125F 32 93 125
216 534 750
¿Son homogeneas las seis comunidades en cuanto a la existencia de caries dental?
El programa SAS a utilizar serıa el siguiente
DATA caries;
INPUT comuni $ caries $ frecu @@;
CARDS;
A nocaries 38 A caries 87
B nocaries 8 B caries 117
C nocaries 30 C caries 95
D nocaries 44 D caries 81
E nocaries 64 E caries 61
F nocaries 32 F caries 93
;
PROC FREQ;
TABLES comuni*caries / nocol norow nopercent expected chisq;
WEIGHT frecu;
RUN;
con el que se obtendrıan los siguientes resultados
TABLE OF COMUNI BY CARIES
COMUNI CARIES
Frequency|
Expected |caries |nocaries| Total---------+--------+--------+
A | 87 | 38 | 125| 89 | 36 |
---------+--------+--------+
B | 117 | 8 | 125| 89 | 36 |
---------+--------+--------+C | 95 | 30 | 125
| 89 | 36 |---------+--------+--------+Total 534 216 750
(Continued)
TABLE OF COMUNI BY CARIES
COMUNI CARIES
Frequency|Expected |caries |nocaries| Total
---------+--------+--------+D | 81 | 44 | 125
| 89 | 36 |
---------+--------+--------+E | 61 | 64 | 125
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 6. Procedimiento FREQ 61
| 89 | 36 |---------+--------+--------+
F | 93 | 32 | 125| 89 | 36 |
---------+--------+--------+Total 534 216 750
STATISTICS FOR TABLE OF COMUNI BY CARIES
Statistic DF Value Prob------------------------------------------------------Chi-Square 5 65.855 0.000 [1]
Likelihood Ratio Chi-Square 5 72.153 0.000Mantel-Haenszel Chi-Square 1 12.860 0.000
Phi Coefficient 0.296Contingency Coefficient 0.284Cramer’s V 0.296
Sample Size = 750
en donde despues de las frecuencias observadas y esperadas de la tabla de contingencia —endos mitades por razones de tamano de la pagina— se observa, [1], un valor del estadısticode Pearson tan grande, 65′855, que conduce claramente a rechazar la hipotesis nula dehomogeneidad de las seis comunidades, como sugiere el p-valor asociado.
6.4. Contraste de independencia de caracteres
El desarrollo teorico de esta seccion puede seguirse en CB-seccion 12.4.
Ejemplo 6.3 (CB-ejemplo 12.9)Se desea investigar una posible dependencia entre los sıntomas de deterioro psicogenetico del
pensamiento y depresion en una determinada poblacion.Con tal fin se selecciono una muestra aleatoria simple de 100 individuos de la poblacion encuestion, la cual dio los siguientes resultados
Depresion SI NODeterioro
SI 38 9NO 31 22
100
Con objeto de analizar esta posible dependencia, utilizaremos el siguiente programa SAS
DATA psico;
INPUT deterio $ depresio $ frecu @@;
CARDS;
SI SI 38 SI NO 9
NO SI 31 NO NO 22
;
PROC FREQ;
TABLES deterio*depresio / nocol norow nopercent expected chisq;
WEIGHT frecu;
RUN;
Alfonso
Garc
ıaPere
z.UNED62 Estadıstica Aplicada con SAS
Los resultados que obtendrıamos serıan los siguientes
TABLE OF DETERIO BY DEPRESIO
DETERIO DEPRESIO
Frequency|
Expected |NO |SI | Total---------+--------+--------+NO | 22 | 31 | 53
| 16.43 | 36.57 |---------+--------+--------+
SI | 9 | 38 | 47| 14.57 | 32.43 |
---------+--------+--------+
Total 31 69 100
STATISTICS FOR TABLE OF DETERIO BY DEPRESIO
Statistic DF Value Prob
------------------------------------------------------Chi-Square 1 5.823 0.016 [1]
Likelihood Ratio Chi-Square 1 5.975 0.015Continuity Adj. Chi-Square 1 4.824 0.028Mantel-Haenszel Chi-Square 1 5.764 0.016
Fisher’s Exact Test (Left) 0.996(Right) 1.34E-02
(2-Tail) 1.83E-02Phi Coefficient 0.241
Contingency Coefficient 0.235Cramer’s V 0.241
Sample Size = 100
que conducen, [1], a rechazar la hipotesis nula de independencia a niveles de significacionmayores que 0′016.
Ejemplo 6.4 (CB-ejemplo 12.3)Se quiere analizar si existe relacion de dependencia entre el peso y la talla de los individuosde una poblacion. Con tal proposito se selecciono una muestra de 100 individuos de lamencionada poblacion, obteniendose los siguientes resultados
Talla 1′55 − 1′65 1′65 − 1′75 1′75 − 1′85 1′85 − 1′95Peso
50-60 10 8 2 160-70 6 14 6 270-80 2 8 18 580-90 0 4 6 8
100
Para analizar la posible dependencia entre el peso y la talla, utilizaremos el siguiente pro-grama SAS
DATA pobla;
INPUT peso $ talla $ frecu @@;
CARDS;
50-60 1’55-1’65 10 50-60 1’65-1’75 8 50-60 1’75-1’85 2 50-60 1’85-1’95 1
60-70 1’55-1’65 6 60-70 1’65-1’75 14 60-70 1’75-1’85 6 60-70 1’85-1’95 2
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 6. Procedimiento FREQ 63
70-80 1’55-1’65 2 70-80 1’65-1’75 8 70-80 1’75-1’85 18 70-80 1’85-1’95 5
80-90 1’55-1’65 0 80-90 1’65-1’75 4 80-90 1’75-1’85 6 80-90 1’85-1’95 8
;
PROC FREQ;
TABLES peso*talla / nocol norow nopercent expected chisq;
WEIGHT frecu;
RUN;
con el que se obtendrıan los siguientes resultados
TABLE OF PESO BY TALLAPESO TALLA
Frequency|Expected |1’55-1’6|1’65-1’7|1’75-1’8|1’85-1’9| Total
---------+--------+--------+--------+--------+50-60 | 10 | 8 | 2 | 1 | 21
| 3.78 | 7.14 | 6.72 | 3.36 |---------+--------+--------+--------+--------+60-70 | 6 | 14 | 6 | 2 | 28
| 5.04 | 9.52 | 8.96 | 4.48 |---------+--------+--------+--------+--------+
Total 18 34 32 16 100(Continued)
TABLE OF PESO BY TALLA
PESO TALLA
Frequency|
Expected |1’55-1’6|1’65-1’7|1’75-1’8|1’85-1’9| Total---------+--------+--------+--------+--------+
70-80 | 2 | 8 | 18 | 5 | 33| 5.94 | 11.22 | 10.56 | 5.28 |
---------+--------+--------+--------+--------+80-90 | 0 | 4 | 6 | 8 | 18
| 3.24 | 6.12 | 5.76 | 2.88 |
---------+--------+--------+--------+--------+Total 18 34 32 16 100
STATISTICS FOR TABLE OF PESO BY TALLA
Statistic DF Value Prob------------------------------------------------------
Chi-Square 9 41.834 0.000 [1]Likelihood Ratio Chi-Square 9 41.180 0.000Mantel-Haenszel Chi-Square 1 30.111 0.000
Phi Coefficient 0.647Contingency Coefficient 0.543
Cramer’s V 0.373
Sample Size = 100
WARNING: 31% of the cells have expected counts less [2]than 5. Chi-Square may not be a valid test.
que de nuevo conduce, [1], al ser el estadıstico λ de Pearson igual a 41′834 al rechazo de lahipotesis nula de independencia entre el peso y la talla.El programa SAS nos advierte del peligro que supone el que en algunas celdas —el 31 %—las frecuencias esperadas sean menores que 5.
Alfonso
Garc
ıaPere
z.UNED64 Estadıstica Aplicada con SAS
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 7
Procedimiento NPAR1WAY
7.1. Introduccion
El procedimiento NPAR1WAY es un procedimiento SAS disenado para eltratamiento no parametrico de datos clasificados en dos o mas poblaciones,por lo que es adecuado para resolver problemas en los que haya que realizaralguno de los siguientes contrastes:
Contraste de Wilcoxon-Mann-Whitney (CB-seccion 13.4.1).
Contraste de Kolmogorov-Smirnov para dos muestras (CB-seccion 13.4.2).
Contraste de la mediana (CB-seccion 13.4.3).
Contraste de Kruskal-Wallis (CB-seccion 13.5.1).
7.2. Especificaciones del procedimiento NPAR1WAY
El procedimiento NPAR1WAY admite, entre otras, las siguientes especifica-ciones
PROC NPAR1WAY opciones;CLASS variable;
La especificacion CLASS es obligatoria y utilizada para indicar la variableque forma los grupos o niveles de los tratamientos.
Por otro lado, dentro de las opciones del procedimiento se encuentran EDF,
MEDIAN y WILCOXON, con las que requerimos, respectivamente, los tests parados muestras independientes siguientes: el test de Kolmogorov-Smirnov, el dela mediana y el de Wilcoxon-Mann-Whitney.
Si existen mas de dos poblaciones, con el comando WILCOXON requerimosel de Kruskal-Wallis.
65
Alfonso
Garc
ıaPere
z.UNED66 Estadıstica Aplicada con SAS
7.3. Contrastes relativos a dos muestras indepen-
dientes
El desarrollo teorico de esta seccion puede seguirse en CB-seccion 13.4.
Ejemplo 7.1 (CB-ejemplo 13.5)Se realizo un estudio con objeto de averiguar si el numero de pulsaciones por minuto puedeconsiderarse igual entre los hombres y mujeres de una determinada poblacion.Para ello se eligieron al azar 12 hombres y 12 mujeres de la mencionada poblacion obte-niendose los siguientes datos
Individuo 1 2 3 4 5 6 7 8 9 10 11 12
Hombres 74 77 71 76 79 74 83 79 83 72 79 77
Mujeres 81 84 80 73 78 80 82 84 80 84 75 82
Si representamos por X la pulsacion en la poblacion de hombres y por Y la pulsacion en la demujeres, las hipotesis que se quieren contrastar son H0 : MX = MY frente a H1 : MX 6= MY
El programa SAS a utilizar sera el siguiente
DATA pulsa;
INPUT individu $ pulsacio @@;
CARDS;
H 74 M 81 H 77 M 84 H 71 M 80 H 76 M 73 H 79 M 78 H 74 M 80
H 83 M 82 H 79 M 84 H 83 M 80 H 72 M 84 H 79 M 75 H 77 M 82
;
PROC NPAR1WAY edf median wilcoxon;
CLASS individu;
RUN;
con el que se obtendrıan los siguientes resultados
N P A R 1 W A Y P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable PULSACIOClassified by Variable INDIVIDU
Sum of Expected Std Dev Mean
INDIVIDU N Scores Under H0 Under H0 Score
H 12 113.0 150.0 17.2601577 9.4166667M 12 187.0 150.0 17.2601577 15.5833333
Average Scores were used for TiesWilcoxon 2-Sample Test (Normal Approximation)(with Continuity Correction of .5)
S= 113.000 Z= -2.11470 Prob > |Z| = 0.0345
T-Test approx. Significance = 0.0455
N P A R 1 W A Y P R O C E D U R E
Kruskal-Wallis Test (Chi-Square Approximation)CHISQ= 4.5953 DF= 1 Prob > CHISQ= 0.0321
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 7. Procedimiento NPAR1WAY 67
N P A R 1 W A Y P R O C E D U R E
Median Scores (Number of Points above Median)for Variable PULSACIO
Classified by Variable INDIVIDU
Sum of Expected Std Dev MeanINDIVIDU N Scores Under H0 Under H0 Score
H 12 2.0 5.50000000 1.24673487 0.166666667
M 12 9.0 5.50000000 1.24673487 0.750000000Average Scores were used for Ties
Median 2-Sample Test (Normal Approximation)S= 2.00000 Z= -2.80733 Prob > |Z| = 0.0050
N P A R 1 W A Y P R O C E D U R E
Median 1-Way Analysis (Chi-Square Approximation)
CHISQ= 7.8811 DF= 1 Prob > CHISQ= 0.0050
N P A R 1 W A Y P R O C E D U R E
Kolmogorov-Smirnov Test for Variable PULSACIOClassified by Variable INDIVIDU
Deviation
EDF from MeanINDIVIDU N at maximum at maximum
H 12 0.8 1.01036297M 12 0.2 -1.01036297
-------- ---- -----------24 0.5
Maximum Deviation occurred at Observation 15Value of PULSACIO at maximum 79.0000000
N P A R 1 W A Y P R O C E D U R E
Kolmogorov-Smirnov 2-Sample Test (Asymptotic)KS = 0.291667 D = 0.583333 [1]
KSa = 1.42887 Prob > KSa = 0.0337
N P A R 1 W A Y P R O C E D U R E
Cramer-von Mises Test for Variable PULSACIO
Classified by Variable INDIVIDU
SummedDeviation
INDIVIDU N from Mean
H 12 0.283854167
M 12 0.283854167
Cramer-von Mises Statistic (Asymptotic)CM = 0.023655 CMa = 0.567708
Alfonso
Garc
ıaPere
z.UNED68 Estadıstica Aplicada con SAS
N P A R 1 W A Y P R O C E D U R E
Kuiper Test for Variable PULSACIOClassified by Variable INDIVIDU
DeviationINDIVIDU N from Mean
H 12 0.583333333
M 12 0.000000000
Kuiper 2-Sample Test (Asymptotic)K = 0.583333 Ka = 1.42887 Prob > Ka = 0.2415
en donde se obtiene, [1], en correspondencia con CB, el valor del estadıstico de Kolmogorov-Smirnov, Dm,n = 0′58333.
7.4. El contraste de Kruskal-Wallis
El desarrollo teorico de esta seccion puede seguirse en CB-seccion 13.5.1.
Ejemplo 7.2 (CB-ejemplo 13.6)Con objeto de analizar si existen diferencias significativas, en el aumento de peso, entre tresdietas alimenticias A, B y C, se decidio someter a 5 ratones a cada una de ellas, obteniendoselos siguientes resultados
Dieta Aumento de peso
A 32 37 34 33 30B 36 38 37 30 34C 35 30 36 29 31
El programa SAS a utilizar serıa el siguiente:
DATA dieta;
INPUT dieta $ peso @@;
CARDS;
A 32 A 37 A 34 A 33 A 30
B 36 B 38 B 37 B 30 B 34
C 35 C 30 C 36 C 29 C 31
;
PROC NPAR1WAY wilcoxon;
CLASS dieta;
RUN;
con el que se obtendrıan los siguientes resultados
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 7. Procedimiento NPAR1WAY 69
N P A R 1 W A Y P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable PESOClassified by Variable DIETA
Sum of Expected Std Dev Mean
DIETA N Scores Under H0 Under H0 Score
A 5 38.0000000 40.0 8.11377430 7.6000000B 5 51.5000000 40.0 8.11377430 10.3000000
C 5 30.5000000 40.0 8.11377430 6.1000000Average Scores were used for Ties
Kruskal-Wallis Test (Chi-Square Approximation)CHISQ= 2.2937 DF= 2 Prob > CHISQ= 0.3176
[1] [2]
en donde se observa, [1], el valor del estadıstico —corregido por los empates— el cual tomael valor T ′ = 2′2937, ası como su p-valor, [2], el cual, al ser igual a 0′3176, conduce a concluircon la no existencia de diferencias significativas entre las tres dietas.
Alfonso
Garc
ıaPere
z.UNED70 Estadıstica Aplicada con SAS
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 8
Procedimiento LIFETEST
8.1. Introduccion
El procedimiento LIFETEST se utiliza con datos algunos de los cuales pue-den ser censurados por la derecha, con objeto de
Determinar y representar estimadores, S(t), de la funcion de superviven-cia —el de Kaplan-Meier (AS-seccion 5.1) y el obtenido por el metodode la tabla de supervivencia (AS-seccion 5.2).
Realizar, para el estimador de la funcion de supervivencia S(t) elegido,las graficas {ti , − log(S(ti))} y {log ti , log(− log(S(ti)))} con objeto deaveriguar si la distribucion de tiempo de fallo es, respectivamente, expo-nencial o de Weibull. (AS-seccion 3.1)
Realizar tests de rangos con los que inferir el grado de relacion existenteentre las covariables y la variable dependiente de tiempo de fallo.
Si los datos vienen agrupados por poblaciones, realizar tests de rangoscon objeto de contrastar la igualdad entre las funciones de supervivenciade las poblaciones.
8.2. Especificaciones del procedimiento LIFETEST
Como en todo procedimiento SAS existen una serie de especificaciones quepermiten adecuar el analisis estadıstico a realizar.
Las mas importantes que permite el procedimiento LIFETEST son las si-guientes
71
Alfonso
Garc
ıaPere
z.UNED72 Estadıstica Aplicada con SAS
PROC LIFETEST opciones;TIME fallo especificacion;STRATA variable (rango);TEST variables;FREQ variable;
Todas, excepto TIME, son opcionales.
8.2.1. Opciones en PROC LIFETEST
Detras de PROC LIFETEST podemos incluir uno o varios de los siguientescomandos opcionales:
• method= pl , lt
Mediante la opcion method=pl especificamos que el metodo a utilizar en laestimacion de la funcion de supervivencia es el del producto lımite.
Si empleamos la opcion method=lt requerimos el metodo de la tabla desupervivencia en la estimacion de la distribucion de tiempo de fallo.
Si no se utiliza esta opcion, el procedimiento LIFETEST determina, pordefecto, el del producto lımite.
• plots= s , ls , lls , h , p
Con la opcion plots=s se realiza un grafico de los pares de puntos
(ti , S(ti))
plots=ls se utiliza para realizar un grafico de los pares de puntos
(ti , − log(S(ti)))
Con plots=lls el grafico que se obtiene es el de los pares
(log ti , log(− log(S(ti))))
plots=h permite obtener un grafico de los pares
(ti , λ(ti))
siendo λ el estimador de la tasa de azar obtenido por el metodo de la tabla desupervivencia.
Por ultimo, plots=p lleva a la obtencion de un grafico de los pares de puntos
(ti , f(ti))
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 8. Procedimiento LIFETEST 73
siendo f el estimador de la funcion de densidad obtenido por el metodo de latabla de supervivencia. Esas dos ultimas opciones, en consecuencia, solo sonvalidas si se especifico dicho metodo.
Es posible hacer varias especificaciones a la vez, por ejemplo, pidiendolelos tres primeros graficos, mediante la opcion plots=(s,ls,lls)
• intervalsUtilizada para especificar los extremos de los intervalos a considerar en el
metodo de la tabla de supervivencia.
8.2.2. Sentencias especıficas en PROC LIFETEST
TIME fallo especificacion;La sentencia TIME se usa para especificar las variables que definen el tiempo
de supervivencia y la variable de censura.La estructura de esta sentencia es
TIME fallo<*corte(numero)>
mediante la cual indicamos que la variable de tiempo de fallo es fallo. Si,opcionalmente, utilizamos la expresion entre < >, senalaremos que aquellosfallos para los que la variable de censura corte tome el valor numero, sontiempos censurados por la derecha.
STRATA variable (rango);
La sentencia STRATA especifica la variable o variables que definen las po-blaciones (estratos) del analisis.
TEST variables;Mediante la sentencia TEST especificamos las covariables numericas cuyo
grado de asociacion con la variable dependiente tiempo de fallo T queremoscontrastar.
El grado de dependencia de cada variable independiente con la variable T
es contrastado de forma separada, contrastandose tambien una “correlacionmultiple.entre el conjunto de covariables y la variable dependiente T .
FREQ variable;Mediante esta sentencia indicamos que los valores de la variable variable
son frecuencias absolutas, es decir, recuentos de observaciones.
Ejemplo 8.1 (AS-ejemplo 1)Para analizar los datos de este ejemplo emplearemos el siguiente programa SAS
DATA ejemplo1; [1]
Alfonso
Garc
ıaPere
z.UNED74 Estadıstica Aplicada con SAS
INPUT dias @@; [2]
censura = (dias < 0); [3]
dias = abs(dias); [4]
if _n_ < 20 then grupo = ’pretrat1’; [5]
else grupo = ’pretrat2’;
CARDS;
143 164 188 188 190 192 206 209 213 216
220 227 230 234 246 265 304 -216 -244
142 156 163 198 205 232 232 233 233 233 233
239 240 261 280 280 296 296 323 -204 -344
;
PROC LIFETEST plots=(s,ls,lls); [6]
TIME dias*censura(1); [7]
STRATA grupo; [8]
RUN;
Con las sentencias DATA indicamos, en primer lugar, [1], que vamos a crear un conjunto dedatos SAS al que denominamos ejemplo1.A continuacion, [2], con la sentencia INPUT indicamos que la variable que dara origen alos datos la llamaremos dias y que estos vendran en formato libre, al anadir @@.Despues, [3], definimos la variable censura como una variable indicador sobre dias, redefi-niendo posteriormente en [4] la variables dias como el valor absoluto de las observaciones.Se definen por ultimo, [5], los dos grupos (estratos) a comparar, formando el grupo 1,pretrat1, las 19 primeras observaciones, y pretrat2 las restantesLa opcion plots, [6], nos permitira obtener graficos del estimador de la funcion de supervi-vencia, el cual por defecto sera el de Kaplan-Meier, ası como de adecuadas transformacionessuyas.Mediante la sentencia TIME, [7], indicamos que datos son tiempos de fallo y cuales decensura. Los tiempos de fallo son aquellos datos proporcionados por la variable dias (40observaciones positivas puesto que fue redefinida en [4]) menos aquellos en los que ademasla variable censura tome el valor 1, en cuyo caso la observacion sera un dato censurado.Por ultimo, mediante la sentencia STRATA senalamos, [8], que variable se utiliza para formarlas poblaciones; en nuestro caso grupo.Con el programa anterior se obtendrıan los siguientes resultados
Product-Limit Survival Estimates
GRUPO = pretrat1
Survival
Standard Number NumberDIAS Survival Failure Error Failed Left
0.000 1.0000 0 0 0 19143.000 0.9474 0.0526 0.0512 1 18
164.000 0.8947 0.1053 0.0704 2 17188.000 . . . 3 16
188.000 0.7895 0.2105 0.0935 4 15190.000 0.7368 0.2632 0.1010 5 14192.000 0.6842 0.3158 0.1066 6 13
206.000 0.6316 0.3684 0.1107 7 12209.000 0.5789 0.4211 0.1133 8 11
213.000 0.5263 0.4737 0.1145 9 10216.000 0.4737 0.5263 0.1145 10 9216.000* . . . 10 8
220.000 0.4145 0.5855 0.1145 11 7227.000 0.3553 0.6447 0.1124 12 6
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 8. Procedimiento LIFETEST 75
230.000 0.2961 0.7039 0.1082 13 5234.000 0.2368 0.7632 0.1015 14 4
244.000* . . . 14 3246.000 0.1579 0.8421 0.0934 15 2
265.000 0.0789 0.9211 0.0728 16 1304.000 0 1.0000 0 17 0
* Censored Observation
[1] [2] [3]
Quantiles 75% 234.000 Mean 218.757 [4]50% 216.000 Standard Error 9.403 [5]25% 190.000
Product-Limit Survival EstimatesGRUPO = pretrat2
Survival
Standard Number NumberDIAS Survival Failure Error Failed Left
0.000 1.0000 0 0 0 21142.000 0.9524 0.0476 0.0465 1 20
156.000 0.9048 0.0952 0.0641 2 19163.000 0.8571 0.1429 0.0764 3 18198.000 0.8095 0.1905 0.0857 4 17
204.000* . . . 4 16205.000 0.7589 0.2411 0.0941 5 15
232.000 . . . 6 14232.000 0.6577 0.3423 0.1053 7 13
233.000 . . . 8 12233.000 . . . 9 11233.000 . . . 10 10
233.000 0.4554 0.5446 0.1114 11 9239.000 0.4048 0.5952 0.1099 12 8
240.000 0.3542 0.6458 0.1072 13 7261.000 0.3036 0.6964 0.1031 14 6280.000 . . . 15 5
280.000 0.2024 0.7976 0.0902 16 4296.000 . . . 17 3
296.000 0.1012 0.8988 0.0678 18 2323.000 0.0506 0.9494 0.0493 19 1
344.000* . . . 19 0* Censored Observation
[1] [2] [3]
Quantiles 75% 280.000 Mean 240.795 [4]
50% 233.000 Standard Error 11.206 [5]25% 232.000
NOTE: The last observation was censored so the estimate of the mean is biased.
Summary of the Number of Censored and Uncensored Values
GRUPO Total Failed Censored %Censored
pretrat1 19 17 2 10.5263pretrat2 21 19 2 9.5238
Total 40 36 4 10.0000
Alfonso
Garc
ıaPere
z.UNED76 Estadıstica Aplicada con SAS
Survival Function Estimates
SDF ||
||
|S 1.0 +*---------------------------*P
u | B|-Br | P---Pv | B-*----P
i | B----|-Bv | | |
a 0.8 + P BBl | | B----B
| P |
D | P--P |i | | BB
s | PP |t 0.6 + | |
r | PP |i | P |b | | |
u | PP BB [6]t | | |
i 0.4 + PP Bo | PP B---Bn | | |
| PP B---BF | | |
u | P-P |n 0.2 + | B--B
c | P---P |t | | |i | | B-----B
o | P-------P Bn | |
0.0 + P||
||
|-+----+----+----+----+----+----+----+----+----+----+----+----+----+----+
0 25 50 75 100 125 150 175 200 225 250 275 300 325 350
DIAS
Censored Observations
Strata
B + B B [8]P + P P
-------+------+------+------+------+------+------+------+-------
0 50 100 150 200 250 300 350DIAS
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 8. Procedimiento LIFETEST 77
-Log(Survival Function) Estimates-LOG SDF |
|3.0 + B
| +| +| +
| +| +
2.5 + P +| + +
| + +| + B
N | + +
e | + +g 2.0 + + +
a | + +t | P +i | + +
v | + +e | + B
1.5 + + +L | P + [9]
o | + +g | P +
| + +B
S | + ++D 1.0 + P B
F | P B| + +| P B
| P +| P +
0.5 + +P +| P +B
| P ++| +P+BB| B++
| +++++++++++*+*P0.0 + *+++++++++++
||-----+-------+-------+-------+-------+-------+-------+-------+-----
0 50 100 150 200 250 300 350DIAS
Alfonso
Garc
ıaPere
z.UNED78 Estadıstica Aplicada con SAS
Log(-Log(Survival Function)) Estimates
L(-L(S)) ||
|||
2 +|
||
|L | +Bo 1 + +P +++
g | ++ B+| P+ ++
N | ++ +Be | P ++g | P ++B
a 0 + P B++t | P B+B
i | P +v | P +
e | P +| ++P +B [10]
L -1 + P++ +++
o | P ++g | + +B+
| +P++BS | ++++++D | B++++
F -2 + + ++| + P
| B++| +++
| ++| +++
-3 + BP
||
|||
---+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+---4.9 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9
Log DIAS
Legend for Strata Symbols
P:GRUPO=pretrat1 B:GRUPO=pretrat2 [7]
Testing Homogeneity of Survival Curves over Strata
Rank Statistics
GRUPO Log-Rank Wilcoxon
pretrat1 4.762466 114pretrat2 -4.76247 -114
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 8. Procedimiento LIFETEST 79
Covariance Matrix for the Log-Rank Statistics
GRUPO pretrat1 pretrat2
pretrat1 7.26327 -7.26327pretrat2 -7.26327 7.26327
Covariance Matrix for the Wilcoxon Statistics
GRUPO pretrat1 pretrat2
pretrat1 4902.22 -4902.22pretrat2 -4902.22 4902.22
Test of Equality over Strata
Pr >
Test Chi-Square DF Chi-Square
Log-Rank 3.1227 1 0.0772 [11]Wilcoxon 2.6510 1 0.1035 [12]
-2Log(LR) 0.0775 1 0.7807 [13]
En ellos se observa, en primer lugar, una tabla para cada una de las dos poblaciones, endonde aparecen, [1], los tiempos de fallo, ti, y de censura (valores con asterisco), ası como,[2], los valores del estimador de la funcion de supervivencia, S(ti), en dichos tiempos defallo, el cual, al no haber utilizado la opcion method sera el de Kaplan-Meier. En [3] aparecesu desviacion tıpica estimada.
Destacan tambien, el tiempo medio de supervivencia estimado, [4], y su error de muestreo,[5].
A continuacion aparecen los graficos del estimador de la funcion de supervivencia para cadauna de las dos poblaciones, [6], en las que, como se indica en [7], la marcada con una Pcorresponde a la primera y la marcada con una B a la segunda.
El grafico [8] muestra donde se produjeron los valores censurados en cada una de las dospoblaciones.
El grafico [9] es una representacion de los pares de puntos
{ti , − log(S(ti))}
los cuales, al no estar alineados sugieren (vease AS-seccion 3.1) que un modelo exponencialpara la distribucion de tiempo de fallo no es adecuado.
Por el contrario, el grafico [10], en el cual se representan los pares
{log ti , log(− log(S(ti)))}
sı sugiere (vease AS-seccion 3.1) una distribucion de Weibull como distribucion de tiempode fallo.
Aunque ni el test de Savage (vease AS-seccion 6), dado por [11], ni el de Wilcoxon, dadopor [12], sean demasiado concluyentes, en todo caso llevan a aceptar la hipotesis nula deigualdad entre ambas poblaciones a niveles de significacion menores que 0′0772.
El test de razon de verosimilitudes, dado por [13], no es indicativo de nada, pues requierepara su realizacion que la distribucion de tiempo de fallo en cada una de las poblaciones, seaexponencial, supuesto descartado, como vimos, por el grafico [9].
Alfonso
Garc
ıaPere
z.UNED80 Estadıstica Aplicada con SAS
Ejemplo 8.2Los siguientes datos, Feigl y Zelen (1965) corresponden a tiempos de fallo en semanas, T , ynumero de globulos blancos, WBC, de pacientes con leucemia. Los datos vienen agrupadosen dos poblaciones, una con AG positivo y otra con AG negativo, estando interesados encomparar ambas poblaciones
AG+ AG–
WBC T WBC T
2′3 65 4′4 560′75 156 3 654′3 100 4 172′6 134 1′5 7
6 16 9 1610′5 108 5′3 22
10 121 10 317 4 19 45′4 39 27 2
7 143 28 39′4 56 31 832 26 26 435 22 21 3
100 1 79 30100 1 100 452 5 100 43
100 65
Existen dos diferencias con el ejemplo anterior. Aquı suponemos una covariable, WBC, yademas que los grupos no se definen previamente, sino mediante una cantidad no controlada,AG.El programa SAS que utilizaremos sera el siguiente
DATA ejemplo2;
INPUT wbc t @@; [1]
if _n_ < 18 then grupo = ’AG+’; [2]
else grupo = ’AG-’;
lwbc=log(wbc); [3]
CARDS;
2.3 65 .75 156 4.3 100 2.6 134 6 16 10.5 108
10 121 17 4 5.4 39 7 143 9.4 56 32 26
35 22 100 1 100 1 52 5 100 65
4.4 56 3 65 4 17 1.5 7 9 16 5.3 22
10 3 19 4 27 2 28 3 31 8 26 4
21 3 79 30 100 4 100 43
;
PROC LIFETEST;
TIME t; [4]
STRATA grupo; [5]
TEST lwbc; [6]
RUN;
En el se observa, dentro de las sentencias DATA, que con INPUT indicamos, [1], que los datosque aparecen a continuacion, son pares de observaciones de las variables wbc y t, indicandocon @@ que dichos datos vendran en formato libre.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 8. Procedimiento LIFETEST 81
A continuacion, [2], formamos las dos poblaciones, estando en AG+ las 17 primeras obser-vaciones que aparecen despues.
Se concluye las sentencias DATA definiendo en [3] una nueva variable, lwbc, como el logaritmode wbc.
En este ejemplo hacemos las siguientes especificaciones en PROC LIFETEST: con la sentenciaTIME senalamos, [4], que la variable tiempo de fallo es t, con STRATA que la variable utilizadapara formar los grupos [5], es grupo, y por ultimo, [6], con TEST requerimos un test deasociacion de la covariable lwbc y la variable tiempo de fallo t.
Con este programa obtendrıamos los siguientes resultados:
Product-Limit Survival EstimatesGRUPO = AG+
Survival
Standard Number NumberT Survival Failure Error Failed Left
0.000 1.0000 0 0 0 171.000 . . . 1 16
1.000 0.8824 0.1176 0.0781 2 154.000 0.8235 0.1765 0.0925 3 145.000 0.7647 0.2353 0.1029 4 13
16.000 0.7059 0.2941 0.1105 5 1222.000 0.6471 0.3529 0.1159 6 11
26.000 0.5882 0.4118 0.1194 7 1039.000 0.5294 0.4706 0.1211 8 9
56.000 0.4706 0.5294 0.1211 9 865.000 . . . 10 765.000 0.3529 0.6471 0.1159 11 6
100.000 0.2941 0.7059 0.1105 12 5108.000 0.2353 0.7647 0.1029 13 4
121.000 0.1765 0.8235 0.0925 14 3134.000 0.1176 0.8824 0.0781 15 2143.000 0.0588 0.9412 0.0571 16 1
156.000 0 1.0000 0 17 0[1] [2] [3]
Quantiles 75% 108.000 Mean 62.471 [4]
50% 56.000 Standard Error 13.183 [5]25% 16.000
Product-Limit Survival EstimatesGRUPO = AG-
SurvivalStandard Number Number
T Survival Failure Error Failed Left
0.000 1.0000 0 0 0 162.000 0.9375 0.0625 0.0605 1 15
3.000 . . . 2 143.000 . . . 3 133.000 0.7500 0.2500 0.1083 4 12
4.000 . . . 5 114.000 . . . 6 10
4.000 0.5625 0.4375 0.1240 7 97.000 0.5000 0.5000 0.1250 8 8
8.000 0.4375 0.5625 0.1240 9 716.000 0.3750 0.6250 0.1210 10 617.000 0.3125 0.6875 0.1159 11 5
22.000 0.2500 0.7500 0.1083 12 430.000 0.1875 0.8125 0.0976 13 3
43.000 0.1250 0.8750 0.0827 14 256.000 0.0625 0.9375 0.0605 15 165.000 0 1.0000 0 16 0
[1] [2] [3]
Alfonso
Garc
ıaPere
z.UNED82 Estadıstica Aplicada con SAS
Quantiles 75% 26.000 Mean 17.937 [4]
50% 7.500 Standard Error 5.076 [5]25% 3.500
Summary of the Number of Censored and Uncensored Values
GRUPO Total Failed Censored %Censored
AG+ 17 17 0 0.0000
AG- 16 16 0 0.0000
Total 33 33 0 0.0000
Testing Homogeneity of Survival Curves over Strata
Rank Statistics
GRUPO Log-Rank Wilcoxon
AG+ -6.70336 -128AG- 6.70336 128
Covariance Matrix for the Log-Rank Statistics
GRUPO AG+ AG-
AG+ 5.31858 -5.31858AG- -5.31858 5.31858
Covariance Matrix for the Wilcoxon Statistics
GRUPO AG+ AG-
AG+ 2927.69 -2927.69
AG- -2927.69 2927.69
Test of Equality over Strata
Pr >Test Chi-Square DF Chi-Square
Log-Rank 8.4487 1 0.0037 [6]Wilcoxon 5.5962 1 0.0180 [7]
-2Log(LR) 11.9401 1 0.0005 [8]
Rank Tests for the Association of Response with CovariatesPooled over Strata
[9] Univariate Chi-Squares for the WILCOXON Test
Test Pr >
Variable Statistic Variance Chi-Square Chi-Square
LWBC -11.7337 15.8531 8.6848 0.0032 [11]
Covariance Matrix for the WILCOXON Statistics
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 8. Procedimiento LIFETEST 83
Variable LWBC
LWBC 15.8531
[10] Forward Stepwise Sequence of Chi-Squares for the WILCOXON Test
Pr > Chi-Square Pr >Variable DF Chi-Square Chi-Square Increment Increment
LWBC 1 8.6848 0.0032 8.6848 0.0032
[9] Univariate Chi-Squares for the LOG RANK Test
Test Pr >Variable Statistic Variance Chi-Square Chi-Square
LWBC -19.4051 50.7236 7.4237 0.0064 [12]
Covariance Matrix for the LOG RANK Statistics
Variable LWBC
LWBC 50.7236
[10] Forward Stepwise Sequence of Chi-Squares for the LOG RANK Test
Pr > Chi-Square Pr >
Variable DF Chi-Square Chi-Square Increment Increment
LWBC 1 7.4237 0.0064 7.4237 0.0064
Se observa en ellos, en primer lugar, una tabla para cada una de las dos poblaciones, endonde aparecen, [1], los tiempos de fallo, ti, [2], los valores del estimador de la funcionde supervivencia, S(ti), en dichos tiempos de fallo, el cual, al no haber utilizado la opcionmethod sera el de Kaplan-Meier, y [3], su desviacion tıpica estimada. (AS-Seccion 5.1).Destacan tambien, el tiempo medio de supervivencia estimado, [4], y su error de muestreo,[5].A continuacion, los tests de Savage, [6], de Wilcoxon, [7], y de razon de verosimilitudes, [8],concluyen, al ser sus p-valores suficientemente pequenos, que existen diferencias significativasentre las poblaciones comparadas, es decir, que no pueden considerarse equivalentes losgrupos AG+ y AG–.Por ultimo aparecen dos tests utilizados para contrastar el grado de dependencia de lacovariable senalada en nuestro programa SAS con la sentencia TEST, lwbc, con la variabledependiente tiempo de fallo, senalada en TIME, t.Cada uno de estos dos tests, el de Wilcoxon y el de los rangos logarıtmicos de Savage, realizaprimero, [9], tests marginales de dependencia entre cada una de las covariables —senaladasen TEST— y la variable dependiente, y luego, [10], una secuencia de tests de dependenciaen donde va incluyendo a cada paso una nueva covariable. En nuestro ejemplo, al no existirnada mas que una covariable, esta segunda secuencia de tests coincide con la primera.El test de Wilcoxon y el de los rangos logarıtmicos, consideran como hipotesis nula, tantoen sus versiones marginales, [9], como en las secuenciales, [10], la ausencia de correlacionentre la variable dependiente T y la covariable —en el caso marginal [9]— o covariables—en la secuencia de tests [10].
Alfonso
Garc
ıaPere
z.UNED84 Estadıstica Aplicada con SAS
Es decir, que H0 indicara que la covariable o covariables consideradas no explican adecua-damente a la variable dependiente T , o con mas precision, que el vector de parametros β esigual al vector 0.Un p-valor pequeno llevara a rechazar la correspondiente hipotesis nula y a aceptar, enconsecuencia, una correlacion significativa entre las variables consideradas.En nuestro ejemplo, tanto el test de Wilcoxon, [11], como el de Savage, [12], concluyen conla existencia de una correlacion significativa entre la variable tiempo de fallo y el logaritmo delnumero de globulos blancos en la sangre, al ser sus p-valores, 0′0032 y 0′0064 suficientementepequenos.
Ejemplo 8.3Los siguientes datos, Lee (1980), representan, respectivamente, el numero de tiempos de falloy de censura de hombres con angina de pecho, que se presentan en cada uno de los intervalossenalados
Intervalo no¯ de fallos no
¯ de censuras
[0,1) 456 0[1,2) 226 39[2,3) 152 22[3,4) 171 23[4,5) 135 24[5,6) 125 107[6,7) 83 133[7,8) 74 102[8,9) 51 68[9,10) 42 64[10,11) 43 45[11,12) 34 53[12,13) 18 33[13,14) 9 27[14,15) 6 23≥ 15 0 30
Con objeto de estimar, entre otras cosas, su funcion de supervivencia, se realizo el siguienteprograma SAS
DATA ejemplo3; KEEP freq tiempo c; [1]
RETAIN tiempo -.5; [2]
INPUT fallo censura @@; [3]
tiempo = tiempo + 1; [4]
c = 0; freq = fallo; output; [5]
c = 1; freq = censura; output;
CARDS;
456 0 226 39 152 22 171 23 135 24 125 107
83 133 74 102 51 68 42 64 43 45 34 53
18 33 9 27 6 23 0 0 0 30
;
PROC LIFETEST plots = (s,ls,lls,h,p) [6]
intervals = (0 to 15)
method = act;
TIME tiempo*c(1); [7]
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 8. Procedimiento LIFETEST 85
FREQ freq; [8]
RUN;
En el se observa, [1], que las variables a utilizar por el procedimiento mas abajo empleadoson las senaladas por KEEP, es decir, freq, tiempo y c.
Se indica, [2], que en cada paso del programa, debe mantenerse —retain— la variable tiempo,la cual ademas debe comenzar en −,5 , para ir aumentando, [4], de uno en uno.Se indica, [3], mediante INPUT que los datos que apareceran mas abajo son, respectivamenteal anadirse @@, datos de fallo y censura.No obstante, [5], queremos que nuestros “datos salida.aparezcan bajo la variable freq
aunque divididos en dos grupos segun los valores de la variable c.Despues de los datos aparecen las sentencias propias del procedimiento LIFETEST referidas,como indicamos con KEEP, a las variables freq, tiempo y c.Primero, dentro de las opciones de dicho procedimiento, le indicamos, [6], que realice losgraficos del estimador de la funcion de supervivencia, s, del − log de dicho estimador, ls, dellog(− log) del estimador, lls, del estimador de la tasa de azar, h y del estimador de la funcionde densidad, p (vease AS-seccion 2.1). Estos dos ultimos, posibles porque en la opcion method
indicamos que el estimador de la funcion de supervivencia a determinar fuera el obtenido porel metodo de la tabla de supervivencia, method = act, en donde los intervalos a consideraren dicho metodo deberan llegar hasta el de extremo 15.
Con la sentencia TIME indicamos, [7], que la variable de tiempo de fallo es tiempo siempreque c no sea igual a 1.Por ultimo, [8], con la sentencia FREQ senalamos que los valores dados por la variable freq
son recuentos, es decir frecuencias absolutas.Con este programa se obtendrıan los siguientes resultados
Life Table Survival Estimates
Conditional
Effective Conditional ProbabilityInterval Number Number Sample Probability Standard
[Lower, Upper) Failed Censored Size of Failure Error
0 1 456 0 2418.0 0.1886 0.00796
1 2 226 39 1942.5 0.1163 0.007282 3 152 22 1686.0 0.0902 0.00698
3 4 171 23 1511.5 0.1131 0.008154 5 135 24 1317.0 0.1025 0.008365 6 125 107 1116.5 0.1120 0.00944
6 7 83 133 871.5 0.0952 0.00997 8 74 102 671.0 0.1103 0.0121
8 9 51 68 512.0 0.0996 0.01329 10 42 64 395.0 0.1063 0.0155
10 11 43 45 298.5 0.1441 0.020311 12 34 53 206.5 0.1646 0.025812 13 18 33 129.5 0.1390 0.0304
13 14 9 27 81.5 0.1104 0.034714 15 6 23 47.5 0.1263 0.0482
15 . 0 30 15.0 0 0
[1] [1] [1] [2] [3] [4]
Survival Median Median
Interval Standard Residual Standard[Lower, Upper) Survival Failure Error Lifetime Error
0 1 1.0000 0 0 5.3313 0.17491 2 0.8114 0.1886 0.00796 6.2499 0.2001
2 3 0.7170 0.2830 0.00918 6.3432 0.23613 4 0.6524 0.3476 0.0097 6.2262 0.2361
Alfonso
Garc
ıaPere
z.UNED86 Estadıstica Aplicada con SAS
4 5 0.5786 0.4214 0.0101 6.2185 0.18535 6 0.5193 0.4807 0.0103 5.9077 0.1806
6 7 0.4611 0.5389 0.0104 5.5962 0.18557 8 0.4172 0.5828 0.0105 5.1671 0.2713
8 9 0.3712 0.6288 0.0106 4.9421 0.27639 10 0.3342 0.6658 0.0107 4.8258 0.4141
10 11 0.2987 0.7013 0.0109 4.6888 0.4183
11 12 0.2557 0.7443 0.0111 . .12 13 0.2136 0.7864 0.0114 . .
13 14 0.1839 0.8161 0.0118 . .14 15 0.1636 0.8364 0.0123 . .
15 . 0.1429 0.8571 0.0133 . .
[5] [6] [7] [8] [9]
Evaluated at the Midpoint of the Interval
PDF Hazard
Interval Standard Standard[Lower, Upper) PDF Error Hazard Error
0 1 0.1886 0.00796 0.208219 0.009698
1 2 0.0944 0.00598 0.123531 0.0082012 3 0.0646 0.00507 0.09441 0.0076493 4 0.0738 0.00543 0.119916 0.009154
4 5 0.0593 0.00495 0.108043 0.0092855 6 0.0581 0.00503 0.118596 0.010589
6 7 0.0439 0.00469 0.1 0.0109637 8 0.0460 0.00518 0.116719 0.0135458 9 0.0370 0.00502 0.10483 0.014659
9 10 0.0355 0.00531 0.112299 0.01730110 11 0.0430 0.00627 0.155235 0.023602
11 12 0.0421 0.00685 0.17942 0.03064612 13 0.0297 0.00668 0.149378 0.03511
13 14 0.0203 0.00651 0.116883 0.03889414 15 0.0207 0.00804 0.134831 0.05491915 . . . . .
[10] [11] [12] [13]
Summary of the Number of Censored and Uncensored Values
Total Failed Censored %Censored
2418 1625 793 32.7957
NOTE: There were 4 observations with missing values.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 8. Procedimiento LIFETEST 87
Survival Function Estimates
SDF ||
|||
S 1.0 + Au | +
r | +v | +
i | +v | +a 0.8 + A
l | ++| A+
D | ++i | As | +
t 0.6 + +r | A++
i | +Ab | ++
u | A++ [14]t | +Ai 0.4 + ++
o | A++n | +A+
| +A++F | +Au | ++
n 0.2 + A+++A+c | +A++
t | +Ai |
o |n |0.0 +
||
|||
--------+------+------+------+------+------+------+------+------+-------0 2 4 6 8 10 12 14 16
TIEMPO
Alfonso
Garc
ıaPere
z.UNED88 Estadıstica Aplicada con SAS
-Log(Survival Function) Estimates
2.00 +
| A| ++| +
| A1.75 + ++
| A| ++
| +| A
1.50 + +
| +N -LOG SDF | +
e | Ag | ++a 1.25 + +
t | Ai | ++
v | +Ae | ++
1.00 + AL | + [15]o | +
g | +A| ++
S 0.75 + AD | ++F | +A
| ++| A
0.50 + ++| +A
| ++| A| +
0.25 + +| A
| +| +| +
0.00 + A-----+------+------+------+------+------+------+------+------+-----
0 2 4 6 8 10 12 14 16
TIEMPO
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 8. Procedimiento LIFETEST 89
Log(-Log(Survival Function)) Estimates
L(-L(S)) ||
1.0 +
||
|| A
| +A0.5 + A
| +A
L | Ao | +
g | +A| +A
N 0.0 + A
e | ++g | +A
a | +A+t | ++
i | +Av -0.5 + ++e | +A [16]
| ++L | ++
o | +Ag | +++
-1.0 + ++
S | +A+D | ++
F | ++| +++
| ++-1.5 + ++
| A+
||
||
-2.0 +
||
------+----+----+----+----+----+----+----+----+----+----+----+-----0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75
Log TIEM
Alfonso
Garc
ıaPere
z.UNED90 Estadıstica Aplicada con SAS
Hazard Function Estimates
Hazard ||
||
|0.25 +
|
||
|| A
0.20 + +
| +H | + A
a | + + +z | + + +
a | + A +r 0.15 + + + Ad | + + +
| + + + +AF | A + + ++
u | + A++ +A+ A++ + A [17]n | + + +A+ ++ ++ +A++Ac 0.10 + + + A
t | Ai |
o |n |
|0.05 +
|
||
||
0.00 +||
||
|------+------+------+------+------+------+------+------+------+------
0 2 4 6 8 10 12 14 16
TIEMPO
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 8. Procedimiento LIFETEST 91
Probability Density Function Estimates
0.200 +|
| A| +
| +0.175 + +
| +| +| +
| +0.150 + +
| +D PDF | +e | +
n | +s 0.125 + +
i | +t | +
y | +| +
F 0.100 + +
u | A [18]n | +
c | +t | +i 0.075 + + A
o | + ++ ++n | A +
| A++A| ++
0.050 + +| A++A+ +A+| ++ ++ +A+
| A++A ++| A
0.025 + ++| A+++A|
||
0.000 +-------+------+------+------+------+------+------+------+------+------
0 2 4 6 8 10 12 14 16
TIEMPO
En ellos se observa, al haberse solicitado que el metodo de estimacion de la curva de super-vivencia fuera el de la tabla de supervivencia, la distribucion de frecuencias, por intervalos,de los tiempos de fallo y de censura, [1].Ademas, vease AS-seccion 5.2, el numero, [2], de individuos en riesgo al comienzo de cadaintervalo, nj , el estimador, [3], de la probabilidad condicionada de fallo en cada uno de losintervalos, qj , ası como su error de muestreo, [4].Tambien se obtiene, [5], el estimador S(t) de la funcion de supervivencia al comienzo decada intervalo, su error de muestreo, [7], ası como 1 − S(t), [6].Se obtiene tambien, [8], un estimador del tiempo de vida residual mediano, el cual se definecomo la cantidad de tiempo transcurrido antes de que el numero de unidades en riesgo sereduzca a la mitad. Este valor tambien se denomina tiempo de vida futuro mediano. Se datambien, [9], su error de muestreo.A continuacion aparece, [10], la funcion de densidad estimada, f(t), en el punto medio delintervalo, ası como su error de muestreo, [11].
Alfonso
Garc
ıaPere
z.UNED92 Estadıstica Aplicada con SAS
Por ultimo se observa, [12] y [13] respectivamente, el estimador de la tasa de azar, λ,ası como su error de muestreo.Los resultados concluyen con los graficos antes mencionados. Primero se representa, [14],los pares de puntos
(ti , S(ti))
a continuacion, [15], el de los pares de puntos,
(ti , − log(S(ti)))
En [16] el de los pares
(log ti , log(− log(S(ti))))
En [17] el de la tasa de azar, es decir, el de los pares
(ti , λ(ti))
apareciendo, por ultimo, en [18], el de la funcion de densidad estimada,
(ti , f(ti))
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 9
Procedimiento LIFEREG
9.1. Introduccion
El procedimiento LIFEREG se utiliza con datos, algunos de los cuales puedenser censurados por la derecha, o por la izquierda o por intervalos (vease AS-seccion 2), con objeto de
Ajustar un modelo de tiempo de fallo acelerado (AS-seccion 4.3) a dichostiempos de fallo, de la forma
Y = x′β + W
con W = log T0 la variable de error con distribucion base dada por unafuncion de densidad f0, siendo Y la variable dependiente o de respuestay x′ el vector de covariables o variables independientes.
Los parametros β se estiman por maxima verosimilitud usando el metodode Newton-Raphson.
9.2. Especificaciones del procedimiento LIFEREG
Como en todo procedimiento SAS el procedimiento LIFEREG permite unaserie de especificaciones. La mas importante, ademas de obligatoria, es la sen-tencia MODEL,
PROC LIFEREG;MODEL respuesta = covariables / opciones;
Con esta sentencia especificamos cual es la variable dependiente, respuesta,y cuales las covariables o variables independientes, covariables.
93
Alfonso
Garc
ıaPere
z.UNED94 Estadıstica Aplicada con SAS
Si existen datos censurados debemos indicarlo de una de las siguientesmaneras:
• Si existe una variable indicadora de censura, para unos determinadosvalores de la cual, los datos observados en respuesta son censurados por laderecha, debemos expresarlo de la forma
MODEL respuesta< ∗censura(numero) >= covariables / opciones;
Ası por ejemplo, si la variable de respuesta es muerte, salvo en aquelloscasos en los que la variable perdida tome los valores 0 y 1, en cuyo caso losdatos son tiempos censurados por la derecha en lugar de tiempos de fallo, loindicaremos de la forma
MODEL muerte∗perdida(0,1) = covariables / opciones;
• Si existe un intervalo de censura (minimo , maximo) fuera del cual losdatos son censurados, lo expresaremos de la forma
MODEL (minimo, maximo) = covariables / opciones;
Si se omite el extremo inferior del intervalo de censura, se obtienen datoscensurados por la izquierda. La ausencia del extremo superior se utiliza, porsu parte, para indicar una censura por la derecha.
En todos los casos, en opciones se fija la distribucion base de la variablede error W .
Debemos expresarlo de la forma
MODEL respuesta = covariables / DIST = distribucion;
y entre las posibles distribuciones a especificar en distribucion se incluyen
WEIBULL, comando mediante el cual se especifica la distribucion de Weibull.No obstante, esta distribucion se tiene por defecto.
EXPONENTIAL, especifica una distribucion exponencial.
LNORMAL, especifica una distribucion Log-Normal.
LLOGISTIC, especifica una distribucion Log-Logıstica.
GAMMA, especifica una distribucion gamma.
NORMAL, especifica una distribucion normal.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 9. Procedimiento LIFEREG 95
LOGISTIC, especifica una distribucion logıstica.
Si queremos ajustar mas de un modelo, especificaremos una lınea para cadauno de ellos, etiquetandolos al comienzo. Por ejemplo,A: MODEL ...
B: MODEL ...
Ejemplo 9.1Los siguientes datos, Nelson y Hahn (1972), corresponden al numero de horas hasta el fallode 40 motores actuando bajo determinadas temperaturas
Temp. Horas hasta el fallo
150oC Ninguno de los 10 fallo a las 8064 horas170oC 1764 2772 3444 3542 3780 4860 5196 No fallaron 3
a las 5448 horas190oC 408 408 1344 1344 1440 No fallaron 5 a las 1680 horas220oC 408 408 504 504 504 No fallaron 5 a las 528 horas
El principal proposito del experimento fue estimar el tiempo mediano de vida a una tempe-ratura de 130oC, utilizando un modelo de tiempo de fallo acelerado con una sola covariablex = 1000/(273′2 + tempe) y una distribucion base log-normal, o de Weibull.Como el metodo de mınimos cuadrados ponderados, utilizado para estimar los parametrosde regresion β, requiere al menos dos fallos en cada temperatura, se eliminaron los datosreferentes a 150oC.Por otro lado, con objeto de utilizar la misma notacion que el SAS, expresaremos el modelode tiempo de fallo acelerado de la forma
Y = α + xβ + σω
El programa SAS a utilizar sera el siguiente
DATA ejemplo4;
INPUT tiempo censura tempe @@; [1]
x = 1000/(273.2+tempe); [2]
CARDS;
1764 1 170 2772 1 170 3444 1 170 3542 1 170 3780 1 170 4860 1 170
5196 1 170 5448 0 170 5448 0 170 5448 0 170 408 1 190 408 1 190
1344 1 190 1344 1 190 1440 1 190 1680 0 190 1680 0 190 1680 0 190
1680 0 190 1680 0 190 408 1 220 408 1 220 504 1 220 504 1 220
504 1 220 528 0 220 528 0 220 528 0 220 528 0 220 528 0 220
;
PROC LIFEREG;
A: MODEL tiempo*censura(0) = x; [3]
B: MODEL tiempo*censura(0) = x / DIST = LNORMAL; [4]
RUN;
En el se observa, [1], que los datos corresponden a las variables tiempo, censura y tempe,los cuales se introducen en formato libre al anadirse @@.Se define a continuacion, [2], la variable x, la cual sera utilizada mas abajo por el procedi-miento como covariable en el modelo.
Alfonso
Garc
ıaPere
z.UNED96 Estadıstica Aplicada con SAS
Despues de los datos aparecen las sentencias propias del procedimiento LIFEREG, en dondese especifican dos modelos a considerar, uno con distribucion de Weibull para los errores,[3], y el otro con distribucion log-normal, [4].
En ellos se senala que aquellos tiempos en los que la variable censura tome el valor 0 sera datoscensurados, y el resto tiempos de fallo. En ambos se expresa como covariable x.
Los resultados obtenidos con dicho programa SAS serıan los siguientes
L I F E R E G P R O C E D U R E
Data Set =WORK.EJEMPLO4Dependent Variable=Log(TIEMPO)
Censoring Variable=CENSURACensoring Value(s)= 0
Noncensored Values= 17 Right Censored Values= 13 [1]Left Censored Values= 0 Interval Censored Values= 0 [1]
Log Likelihood for WEIBULL -22.95148315 [2]
L I F E R E G P R O C E D U R E
Variable DF Estimate Std Err ChiSquare Pr>Chi Label/Value
INTERCPT 1 -11.89122 1.965507 36.6019 0.0001 InterceptX 1 9.03834032 0.905993 99.52392 0.0001
SCALE 1 0.36128138 0.079501 Extreme value scale paramet[3] [4] [5] [6]
L I F E R E G P R O C E D U R E
Data Set =WORK.EJEMPLO4
Dependent Variable=Log(TIEMPO)Censoring Variable=CENSURA
Censoring Value(s)= 0Noncensored Values= 17 Right Censored Values= 13
Left Censored Values= 0 Interval Censored Values= 0
Log Likelihood for LNORMAL -24.47381031 [7]
L I F E R E G P R O C E D U R E
Variable DF Estimate Std Err ChiSquare Pr>Chi Label/Value
INTERCPT 1 -10.470563 2.77192 14.26851 0.0002 Intercept
X 1 8.3220835 1.284124 42.00011 0.0001SCALE 1 0.6040344 0.110729 Normal scale parameter
[8]
En ellos se observa, despues de un recuento de cuales datos son no censurados y cualescensurados (y de que tipo), [1], el valor alcanzado por la verosimilitud bajo un modeloWeibull para los errores, [2], igual a −22′95148.
La tabla que aparece a continuacion recoge las estimaciones, [3], de los parametros delmodelo de tiempo de fallo acelerado
Y = α + xβ + σω
las cuales son α = −11′891, β = 9′038 y σ = 0′3613.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 9. Procedimiento LIFEREG 97
Se observa tambien su desviacion tıpica, [4], ası como los tests para contrastar la hipotesisnula de igualdad a cero de los parametros de regresion, los cuales tienen unos valores del es-tadıstico de contraste dados por [5], siendo el p-valor de cada uno de ellos, [6], lo suficiente-mente significativo como para rechazar dicha hipotesis nula y aceptar, en consecuencia, el mo-delo propuesto, el cual, al ser para 130oC la covariable igual a x0 = 1000/(273′2+130) = 2′48implica una prediccion para el logaritmo del tiempo de vida mediano igual a
y0′5 = −11′891 + 2′48 · 9′038 + 0′3613 · 0 = 10′523
al ser w0′5 = 0.
En la segunda parte de los resultados se observa de nuevo, logicamente, el mismo recuento devalores censurados y no censurados, una verosimilitud, [7], bajo una distribucion log-normal,algo menor, −24′4738, —lo cual sugiere utilizar el modelo con distribucion de Weibull—, confirmando los tests de la ultima tabla las estimaciones dadas en [8], α = −10′471,β = 8′322 y σ = 0′604, las cuales proporcionan ahora una estimacion para el logaritmo deltiempo de vida mediano igual a
y0′5 = −10′471 + 2′48 · 8′322 + 0′604 · 0 = 10′17
Utilizando el modelo de tiempo de fallo acelerado, con una distribucion de Weibull para loserrores, el tiempo de vida mediano estimado sera, por tanto, exp{10′523} = 37160′4.
Ejemplo 9.2
Los siguientes datos, Tobin (1958), corresponden a 20 observaciones de tres variables, dura-
cion, edad y liquidez, obtenidos con objeto de ajustar un modelo de tiempo de fallo acelerado,en donde figure como variable dependiente duracion y en donde se admita como distribucionbase una normal.
Se supone que la variable duracion esta censurada por la izquierda en cero, por lo quedebemos eliminar aquellos datos en los que dicha variable tome el valor 0.
El programa SAS a utilizar sera el siguiente
DATA ejemplo5;
INPUT duracion edad liquidez @@;
IF duracion=0 THEN menor=.; [1]
ELSE menor=duracion;
CARDS;
0.0 57.7 236 0.0 59.8 216 10.4 46.8 207 0.0 39.9 219
0.7 50.9 283 0.0 44.3 284 0.0 58.0 249 0.0 33.4 240
0.0 48.5 207 3.7 45.1 221 0.0 58.9 246 3.5 48.1 266
0.0 41.7 220 0.0 51.7 275 0.0 40.0 277 6.1 46.1 214
0.0 47.7 238 3.0 50.0 269 1.5 34.1 231 0.0 53.1 251
;
PROC LIFEREG;
MODEL (menor , duracion) = edad liquidez / DIST = NORMAL; [2]
RUN;
En el se observa la introduccion de la variable menor con la que definir el intervalo de censurautilizado en [2]. El resto de las sentencias son ya conocidas.
Los resultados obtenidos con dicho programa SAS serıan los siguientes
Alfonso
Garc
ıaPere
z.UNED98 Estadıstica Aplicada con SAS
L I F E R E G P R O C E D U R E
Data Set =WORK.EJEMPLO5
Dependent Variable=MENORDependent Variable=DURACIONNoncensored Values= 7 Right Censored Values= 0
Left Censored Values= 13 Interval Censored Values= 0
Log Likelihood for NORMAL -28.92596097
L I F E R E G P R O C E D U R E
Variable DF Estimate Std Err ChiSquare Pr>Chi Label/Value
INTERCPT 1 15.2771208 16.03272 0.907964 0.3407 Intercept
EDAD 1 -0.1340075 0.218931 0.374664 0.5405LIQUIDEZ 1 -0.0451356 0.058269 0.600026 0.4386
SCALE 1 5.56935051 1.728145 Normal scale parameter[1] [2]
En ellos se observan las estimaciones del modelo, quedando este de la forma
Y = 15′277 − 0′134 · EDAD − 0′045 · LIQUIDEZ + 5′569 ω
No obstante, los p-valores, [2], de los tests que contrastan como hipotesis nula la igualdadde cero de los parametros del modelo, sugieren que el ajuste efectuado no es el adecuado.
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 10
Procedimiento PHREG
10.1. Introduccion
El procedimiento PHREG se utiliza con datos, algunos de los cuales puedenser censurados por la derecha, con objeto de
Realizar un analisis de regresion basado en el modelo de azar proporcional(vease AS-seccion 4.2) el cual supone una funcion tasa de azar de la forma
λ(t;x) = λ0(t) ex′β
y, en consecuencia, una funcion de supervivencia de la forma
S(t;x) = [S0(t)]exp{x′β}
en donde λ0 es la denominada tasa de azar base y S0 la correspondientefuncion de supervivencia base.
10.2. Especificaciones del procedimiento PHREG
Como en todo procedimiento SAS el procedimiento PHREG permite una seriede especificaciones. La mas importante, ademas de obligatoria, es la sentenciaMODEL,
PROC PHREG;MODEL respuesta = covariables / opciones;
Con esta sentencia especificamos cual es la variable dependiente, respuesta,y cuales las covariables o variables independientes, covariables.
Si existen datos censurados debemos indicarlo introduciendo una variableindicadora de censura, para unos determinados valores de la cual, los datos
99
Alfonso
Garc
ıaPere
z.UNED100 Estadıstica Aplicada con SAS
observados en respuesta son censurados por la derecha, debemos expresarlo dela forma
MODEL respuesta< ∗censura(numero) >= covariables / opciones;
Ası por ejemplo, si la variable de respuesta es muerte, salvo en aquelloscasos en los que la variable perdida tome los valores 1 y 2, en cuyo caso losdatos son tiempos de censura en lugar de tiempos de fallo, lo indicaremos dela forma
MODEL muerte∗perdida(1,2) = covariables / opciones;
Entre la opciones de MODEL estan las siguientes
SELECTION = opcion
Mediante SELECTION determinamos la manera en la que SAS selecciona lascovariables significativas en el modelo de azar proporcional.
Podemos elegir, entre otras, stepwise, con la cual elegimos el metodo step-
wise de seleccion, o score con el cual identificamos un numero determinado demodelos con un mayor estadıstico χ2 de entre todos los posibles modelos quepodemos formar con las covariables, utilizando desde una hasta todas ellas. Elnumero de modelos, n, se determina con BEST=n.
SLENTRY = α
Especifica el nivel de significacion con el que se realiza el contraste paraincorporar las variables con el metodo stepwise. Entre todas las covariablesque no esten en el modelo, se incorpora aquella con el p-valor mas pequeno, sieste es menor o igual que α.
SLSTAY = α
Especifica el nivel de significacion con el que se realiza el contraste paraeliminar las variables con el metodo stepwise. Entre todas las covariables queestan en el modelo, se elimina aquella con el mayor p-valor, si este es mayorque α.
DETAILS
Permite obtener detalles del proceso de seleccion de las variables por elmetodo stepwise.
Como primer ejemplo de estimacion en un modelo de azar proporcionalvolveremos a considerar un ejemplo ya analizado anteriormente.
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 10. Procedimiento PHREG 101
Ejemplo 10.1 (AS-ejemplo 1)La siguiente tabla recoge, Pike (1966), los dıas transcurridos desde que varias ratas fueroninoculadas con el carcinogen DMBA hasta su muerte por cancer vaginal. Se distinguierondos grupos a causa de dos tratamientos previos a dicha inoculacion.
Grupo 1 143 164 188 188 190 192 206 209 213 216220 227 230 234 246 265 304 216∗ 244∗
Grupo 2 142 156 163 198 205 232 232 233 233 233233 239 240 261 280 280 296 296 323 204∗
344∗
Los datos con ∗ son datos censurados.
El proposito es comparar las poblaciones, utilizando un modelo de azar proporcional endonde se considera a la variable de respuesta dias, funcion —a traves de dicho modelo— dela covariable grupo.Contrastar la hipotesis nula H0 : β = 0 es equivalente a contrastar la igualdad de laspoblaciones.El programa SAS a utilizar serıa el siguiente
DATA ejemplo6;
INPUT dias estatus grupo @@;
CARDS;
143 1 1 164 1 1 188 1 1 188 1 1 190 1 1 192 1 1 206 1 1
209 1 1 213 1 1 216 1 1 220 1 1 227 1 1 230 1 1 234 1 1
246 1 1 265 1 1 304 1 1 216 0 1 244 0 1 142 1 2 156 1 2
163 1 2 198 1 2 205 1 2 232 1 2 232 1 2 233 1 2 233 1 2
233 1 2 233 1 2 239 1 2 240 1 2 261 1 2 280 1 2 280 1 2
296 1 2 296 1 2 323 1 2 204 0 2 344 0 2
;
PROC PHREG;
MODEL dias*estatus(0) = grupo; [1]
RUN;
En el se observa, [1], la identificacion de la censura como el valor 0 de la variable estatus,ası como que en dicho modelo la covariable utilizada es grupo. El resto de las sentencias sonya conocidas.Los resultados obtenidos con dicho programa SAS serıan los siguientes
The PHREG Procedure
Data Set: WORK.EJEMPLO6
Dependent Variable: DIASCensoring Variable: ESTATUS
Censoring Value(s): 0Ties Handling: BRESLOW
Summary of the Number of
Event and Censored Values
PercentTotal Event Censored Censored
40 36 4 10.00
Alfonso
Garc
ıaPere
z.UNED102 Estadıstica Aplicada con SAS
Testing Global Null Hypothesis: BETA=0
Without With
Criterion Covariates Covariates Model Chi-Square
-2 LOG L 204.317 201.438 2.878 with 1 DF (p=0.0898) [1]
Score . . 3.000 with 1 DF (p=0.0833) [1]Wald . . 2.925 with 1 DF (p=0.0872) [1]
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Risk
Variable DF Estimate Error Chi-Square Chi-Square Ratio
GRUPO 1 -0.595896 0.34840 2.92532 0.0872 0.551[2]
Como la variable grupo toma solamente dos valores, la hipotesis nula de igualdad entre losdos grupos, resulta equivalente a la hipotesis nula aquı contrastada H0 : β = 0. Los p-valores,[1], de los tres tests realizados, no son nada concluyentes.
Se incluye tambien, [2], el valor del cociente entre las tasas de azar de cada uno de los dosgrupos. El valor de dicho estadıstico, 0′551, implica que la tasa de azar para el grupo 2 esmenor que para el grupo 1. Es decir, las ratas del grupo 2 viven mas tiempo que las delgrupo 1.
Observese que la comparacion de las curvas de supervivencia aquı realizada es diferente a ladel capıtulo 8. Aquı, ambas funciones de supervivencia son modeladas a traves de un modelode azar proporcional. Allı eran estimadas por medio del estimador de Kaplan-Meier o pormedio de la tabla de supervivencia y luego comparadas.
Ejemplo 10.2
Krall, Uthoff y Harley (1975) analizaron datos procedentes de un estudio sobre cancer dehuesos, en el cual, los investigadores trataron 65 pacientes con agentes alcalinos. De esospacientes, 48 murieron (por el mal en cuestion) durante el estudio y 17 sobrevivieron.
Cuando diagnosticaron a los pacientes su enfermedad, los investigadores observaron en elloslas siguientes variables: logbun el logaritmo de bun, hgb niveles de hemoglobina, plaqueta
niveles de plaquetas, edad de los pacientes, logwbc el logaritmo de wbc, frac numero defracturas, logplas logaritmo del porcentaje de celulas con plasma en la medula de los huesos,proteina niveles de proteınas y suerocal niveles de suero calcico.
El proposito del experimento es determinar que variables de entre las anteriores son signifi-cativas, supuesto un modelo de azar proporcional para el tiempo de supervivencia.
Los datos obtenidos aparecen ya en el siguiente programa SAS, los cuales incluyen tambienel tiempo de fallo de cada individuo y una variable de censura para indicar los 17 individuosque sobrevivieron al estudio y que, por tanto, corresponden a datos censurados.
DATA ejemplo7;
INPUT tiempo censura logbun hgb plaqueta edad logwbc frac
logplas proteina suerocal;
CARDS;
1.25 1 2.2175 9.4 1 67 3.6628 1 1.9542 12 10
1.25 1 1.9395 12.0 1 38 3.9868 1 1.9542 20 18
2.00 1 1.5185 9.8 1 81 3.8751 1 2.0000 2 15
2.00 1 1.7482 11.3 0 75 3.8062 1 1.2553 0 12
2.00 1 1.3010 5.1 0 57 3.7243 1 2.0000 3 9
3.00 1 1.5441 6.7 1 46 4.4757 0 1.9345 12 10
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 10. Procedimiento PHREG 103
5.00 1 2.2355 10.1 1 50 4.9542 1 1.6628 4 9
5.00 1 1.6812 6.5 1 74 3.7324 0 1.7324 5 9
6.00 1 1.3617 9.0 1 77 3.5441 0 1.4624 1 8
6.00 1 2.1139 10.2 0 70 3.5441 1 1.3617 1 8
6.00 1 1.1139 9.7 1 60 3.5185 1 1.3979 0 10
6.00 1 1.4150 10.4 1 67 3.9294 1 1.6902 0 8
7.00 1 1.9777 9.5 1 48 3.3617 1 1.5682 5 10
7.00 1 1.0414 5.1 0 61 3.7324 1 2.0000 1 10
7.00 1 1.1761 11.4 1 53 3.7243 1 1.5185 1 13
9.00 1 1.7243 8.2 1 55 3.7993 1 1.7404 0 12
11.00 1 1.1139 14.0 1 61 3.8808 1 1.2788 0 10
11.00 1 1.2304 12.0 1 43 3.7709 1 1.1761 1 9
11.00 1 1.3010 13.2 1 65 3.7993 1 1.8195 1 10
11.00 1 1.5682 7.5 1 70 3.8865 0 1.6721 0 12
11.00 1 1.0792 9.6 1 51 3.5051 1 1.9031 0 9
13.00 1 0.7782 5.5 0 60 3.5798 1 1.3979 2 10
14.00 1 1.3979 14.6 1 66 3.7243 1 1.2553 2 10
15.00 1 1.6021 10.6 1 70 3.6902 1 1.4314 0 11
16.00 1 1.3424 9.0 1 48 3.9345 1 2.0000 0 10
16.00 1 1.3222 8.8 1 62 3.6990 1 0.6990 17 10
17.00 1 1.2304 10.0 1 53 3.8808 1 1.4472 4 9
17.00 1 1.5911 11.2 1 68 3.4314 0 1.6128 1 10
18.00 1 1.4472 7.5 1 65 3.5682 0 0.9031 7 8
19.00 1 1.0792 14.4 1 51 3.9191 1 2.0000 6 15
19.00 1 1.2553 7.5 0 60 3.7924 1 1.9294 5 9
24.00 1 1.3010 14.6 1 56 4.0899 1 0.4771 0 9
25.00 1 1.0000 12.4 1 67 3.8195 1 1.6435 0 10
26.00 1 1.2304 11.2 1 49 3.6021 1 2.0000 27 11
32.00 1 1.3222 10.6 1 46 3.6990 1 1.6335 1 9
35.00 1 1.1139 7.0 0 48 3.6532 1 1.1761 4 10
37.00 1 1.6021 11.0 1 63 3.9542 0 1.2041 7 9
41.00 1 1.0000 10.2 1 69 3.4771 1 1.4771 6 10
41.00 1 1.1461 5.0 1 70 3.5185 1 1.3424 0 9
51.00 1 1.5682 7.7 0 74 3.4150 1 1.0414 4 13
52.00 1 1.0000 10.1 1 60 3.8573 1 1.6532 4 10
54.00 1 1.2553 9.0 1 49 3.7243 1 1.6990 2 10
58.00 1 1.2041 12.1 1 42 3.6990 1 1.5798 22 10
66.00 1 1.4472 6.6 1 59 3.7853 1 1.8195 0 9
67.00 1 1.3222 12.8 1 52 3.6435 1 1.0414 1 10
88.00 1 1.1761 10.6 1 47 3.5563 0 1.7559 21 9
89.00 1 1.3222 14.0 1 63 3.6532 1 1.6232 1 9
92.00 1 1.4314 11.0 1 58 4.0755 1 1.4150 4 11
4.00 0 1.9542 10.2 1 59 4.0453 0 0.7782 12 10
4.00 0 1.9243 10.0 1 49 3.9590 0 1.6232 0 13
7.00 0 1.1139 12.4 1 48 3.7993 1 1.8573 0 10
7.00 0 1.5315 10.2 1 81 3.5911 0 1.8808 0 11
8.00 0 1.0792 9.9 1 57 3.8325 1 1.6532 0 8
12.00 0 1.1461 11.6 1 46 3.6435 0 1.1461 0 7
11.00 0 1.6128 14.0 1 60 3.7324 1 1.8451 3 9
12.00 0 1.3979 8.8 1 66 3.8388 1 1.3617 0 9
13.00 0 1.6628 4.9 0 71 3.6435 0 1.7924 0 9
Alfonso
Garc
ıaPere
z.UNED104 Estadıstica Aplicada con SAS
16.00 0 1.1461 13.0 1 55 3.8573 0 0.9031 0 9
19.00 0 1.3222 13.0 1 59 3.7709 1 2.0000 1 10
19.00 0 1.3222 10.8 1 69 3.8808 1 1.5185 0 10
28.00 0 1.2304 7.3 1 82 3.7482 1 1.6721 0 9
41.00 0 1.7559 12.8 1 72 3.7243 1 1.4472 1 9
53.00 0 1.1139 12.0 1 66 3.6128 1 2.0000 1 11
57.00 0 1.2553 12.5 1 66 3.9685 0 1.9542 0 11
77.00 0 1.0792 14.0 1 60 3.6812 0 0.9542 0 12
;
PROC PHREG;
MODEL tiempo*censura(0)=logbun hgb plaqueta edad logwbc frac
logplas proteina suerocal /
SELECTION=stepwise [1]
SLENTRY=0.25 [2]
SLSTAY=0.15 [3]
DETAILS; [4]
RUN;
Las sentencias tipo DATA son ya conocidas. Respecto a las sentencias especıficas del proce-dimiento PHREG, se indica, [1], que el metodo de seleccion de variables es stepwise y que losniveles de significacion para incorporar variables, [2], y para excluirlas, [3] son respectiva-mente 0′25 y 0′15. Se requiere, por ultimo, [4], que el proceso se muestre detalladamente.
Los resultados obtenidos con dicho programa SAS serıan los siguientes
The PHREG Procedure
Data Set: WORK.EJEMPLO7Dependent Variable: TIEMPOCensoring Variable: CENSURA
Censoring Value(s): 0Ties Handling: BRESLOW
Summary of the Number ofEvent and Censored Values
PercentTotal Event Censored Censored
65 48 17 26.15
Analysis of Variables Not in the Model
Score Pr >Variable Chi-Square Chi-Square
LOGBUN 8.5164 0.0035HGB 5.0664 0.0244
PLAQUETA 3.1816 0.0745EDAD 0.0183 0.8924
LOGWBC 0.5658 0.4519 [1]FRAC 0.9151 0.3388LOGPLAS 0.5846 0.4445
PROTEINA 0.1466 0.7018SUEROCAL 1.1109 0.2919
Residual Chi-square = 18.4550 with 9 DF (p=0.0302)
Step 1: Variable LOGBUN is entered. The model contains the following
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 10. Procedimiento PHREG 105
explanatory variables.
LOGBUN
The PHREG Procedure
Testing Global Null Hypothesis: BETA=0
Without With
Criterion Covariates Covariates Model Chi-Square
-2 LOG L 309.716 301.959 7.757 with 1 DF (p=0.0053)
Score . . 8.516 with 1 DF (p=0.0035)Wald . . 8.339 with 1 DF (p=0.0039)
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Risk
Variable DF Estimate Error Chi-Square Chi-Square Ratio
LOGBUN 1 1.745947 0.60460 8.33919 0.0039 5.731[2]
Analysis of Variables Not in the Model
Score Pr >Variable Chi-Square Chi-Square
HGB 4.3468 0.0371
PLAQUETA 2.0183 0.1554EDAD 0.7159 0.3975LOGWBC 0.0704 0.7908 [3]
FRAC 1.0354 0.3089LOGPLAS 1.0334 0.3094
PROTEINA 0.5214 0.4703SUEROCAL 1.4150 0.2342
Residual Chi-square = 9.3164 with 8 DF (p=0.3163)
Step 2: Variable HGB is entered. The model contains the following
explanatory variables.
LOGBUN HGB
The PHREG Procedure
Testing Global Null Hypothesis: BETA=0
Without WithCriterion Covariates Covariates Model Chi-Square
-2 LOG L 309.716 297.767 11.949 with 2 DF (p=0.0025)Score . . 12.725 with 2 DF (p=0.0017)
Wald . . 12.190 with 2 DF (p=0.0023)
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > RiskVariable DF Estimate Error Chi-Square Chi-Square Ratio
Alfonso
Garc
ıaPere
z.UNED106 Estadıstica Aplicada con SAS
LOGBUN 1 1.674399 0.61209 7.48330 0.0062 5.336HGB 1 -0.118987 0.05751 4.28112 0.0385 0.888
[4]
Analysis of Variables Not in the Model
Score Pr >Variable Chi-Square Chi-Square
PLAQUETA 0.2266 0.6341EDAD 1.3508 0.2451
LOGWBC 0.3785 0.5384FRAC 1.0491 0.3057
LOGPLAS 0.6741 0.4116PROTEINA 0.6592 0.4168SUEROCAL 1.8225 0.1770 [5]
Residual Chi-square = 5.3635 with 7 DF (p=0.6157)
Step 3: Variable SUEROCAL is entered. The model contains the following
explanatory variables.
LOGBUN HGB SUEROCAL
The PHREG Procedure
Testing Global Null Hypothesis: BETA=0
Without WithCriterion Covariates Covariates Model Chi-Square
-2 LOG L 309.716 296.078 13.638 with 3 DF (p=0.0034)
Score . . 15.305 with 3 DF (p=0.0016)Wald . . 14.454 with 3 DF (p=0.0023)
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Risk
Variable DF Estimate Error Chi-Square Chi-Square Ratio
LOGBUN 1 1.635924 0.62359 6.88214 0.0087 5.134
HGB 1 -0.126428 0.05868 4.64194 0.0312 0.881SUEROCAL 1 0.132856 0.09868 1.81254 0.1782 1.142
[6]
Step 4: Variable SUEROCAL is removed. The model contains the followingexplanatory variable(s).
LOGBUN HGB
Testing Global Null Hypothesis: BETA=0
Without WithCriterion Covariates Covariates Model Chi-Square
-2 LOG L 309.716 297.767 11.949 with 2 DF (p=0.0025)
Score . . 12.725 with 2 DF (p=0.0017)Wald . . 12.190 with 2 DF (p=0.0023)
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 10. Procedimiento PHREG 107
The PHREG Procedure
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > RiskVariable DF Estimate Error Chi-Square Chi-Square Ratio
LOGBUN 1 1.674399 0.61209 7.48330 0.0062 5.336
HGB 1 -0.118987 0.05751 4.28112 0.0385 0.888
Analysis of Variables Not in the Model
Score Pr >
Variable Chi-Square Chi-Square
PLAQUETA 0.2266 0.6341EDAD 1.3508 0.2451LOGWBC 0.3785 0.5384
FRAC 1.0491 0.3057LOGPLAS 0.6741 0.4116
PROTEINA 0.6592 0.4168SUEROCAL 1.8225 0.1770
Residual Chi-square = 5.3635 with 7 DF (p=0.6157)
NOTE: Model building terminates because the variable to be entered is the
variable that was removed in the last step.
[7]Summary of Stepwise Procedure
Variable Number Score Wald Pr >
Step Entered Removed In Chi-Square Chi-Square Chi-Square
1 LOGBUN 1 8.5164 . 0.0035
2 HGB 2 4.3468 . 0.03713 SUEROCAL 3 1.8225 . 0.1770
4 SUEROCAL 2 . 1.8125 0.1782
El procedimiento de seleccion stepwise es un proceso a pasos de inclusion y exclusion decovariables.
Primero se realizan, [1], unos tests χ2 para cada una de las covariables. El primer pasoconsiste en incluir aquella covariable para la que se haya obtenido un menor p-valor enlos tests χ2 anteriores, y siempre y cuando dicho p-valor sea menor o igual que el lımiteestablecido en la opcion SLENTRY.
En nuestro caso, dicho lımite era 0′25, por lo que incorporamos la covariable logbun, dep-valor “marginal”0′0035. Vease Step 1.
A continuacion, como el test de Wald, [2], proporciona un p-valor (0′0039) menor que ellımite de exclusion de covariables fijado en la opcion SLSTAY, (0′15 en nuestro programa), lacovariable logbun se queda en el modelo.
Una nueva serie de tests χ2, [3], indican que la siguiente covariable a incorporar al modeloes hgb de p-valor 0′0371 menor que el lımite antes mencionado 0′25.
De nuevo el test de Wald, [4], indica valores significativos, tanto para logbun como para hgb,al no llegar ninguno de los dos p-valores al lımite 0′15, con lo que se infiere, por tanto, lapermanencia de la covariables logbun y hgb en el modelo.
La siguiente baterıa de tests, [5], sugiere incorporar ahora a la covariable suerocal, formandoun modelo con las covariables logbun, hgb y suerocal.
No obstante, el test de Wald, [6], resulta no ser significativo para la variable suerocal (p-valor= 0′1782), con lo que es excluida del modelo. Vease Step 4.
Alfonso
Garc
ıaPere
z.UNED108 Estadıstica Aplicada con SAS
El proceso concluye, [7], con un resumen de los pasos dados, que para nuestro ejemploimplican incorporar al modelo, en definitiva, las covariables logbun y hgb.
Ejemplo 10.3
Como antes dijimos, una forma alternativa de seleccionar las variables a incorporar al modeloes la de utilizar la opcion score en SELECTION. A continuacion vamos a repetir el ejemploanterior, utilizando esta opcion. El programa SAS a utilizar serıa el siguiente
DATA ejemplo8;
INPUT tiempo censura logbun hgb plaqueta edad logwbc frac
logplas proteina suerocal;
CARDS;
1.25 1 2.2175 9.4 1 67 3.6628 1 1.9542 12 10
1.25 1 1.9395 12.0 1 38 3.9868 1 1.9542 20 18
2.00 1 1.5185 9.8 1 81 3.8751 1 2.0000 2 15
2.00 1 1.7482 11.3 0 75 3.8062 1 1.2553 0 12
2.00 1 1.3010 5.1 0 57 3.7243 1 2.0000 3 9
3.00 1 1.5441 6.7 1 46 4.4757 0 1.9345 12 10
5.00 1 2.2355 10.1 1 50 4.9542 1 1.6628 4 9
5.00 1 1.6812 6.5 1 74 3.7324 0 1.7324 5 9
6.00 1 1.3617 9.0 1 77 3.5441 0 1.4624 1 8
6.00 1 2.1139 10.2 0 70 3.5441 1 1.3617 1 8
6.00 1 1.1139 9.7 1 60 3.5185 1 1.3979 0 10
6.00 1 1.4150 10.4 1 67 3.9294 1 1.6902 0 8
7.00 1 1.9777 9.5 1 48 3.3617 1 1.5682 5 10
7.00 1 1.0414 5.1 0 61 3.7324 1 2.0000 1 10
7.00 1 1.1761 11.4 1 53 3.7243 1 1.5185 1 13
9.00 1 1.7243 8.2 1 55 3.7993 1 1.7404 0 12
11.00 1 1.1139 14.0 1 61 3.8808 1 1.2788 0 10
11.00 1 1.2304 12.0 1 43 3.7709 1 1.1761 1 9
11.00 1 1.3010 13.2 1 65 3.7993 1 1.8195 1 10
11.00 1 1.5682 7.5 1 70 3.8865 0 1.6721 0 12
11.00 1 1.0792 9.6 1 51 3.5051 1 1.9031 0 9
13.00 1 0.7782 5.5 0 60 3.5798 1 1.3979 2 10
14.00 1 1.3979 14.6 1 66 3.7243 1 1.2553 2 10
15.00 1 1.6021 10.6 1 70 3.6902 1 1.4314 0 11
16.00 1 1.3424 9.0 1 48 3.9345 1 2.0000 0 10
16.00 1 1.3222 8.8 1 62 3.6990 1 0.6990 17 10
17.00 1 1.2304 10.0 1 53 3.8808 1 1.4472 4 9
17.00 1 1.5911 11.2 1 68 3.4314 0 1.6128 1 10
18.00 1 1.4472 7.5 1 65 3.5682 0 0.9031 7 8
19.00 1 1.0792 14.4 1 51 3.9191 1 2.0000 6 15
19.00 1 1.2553 7.5 0 60 3.7924 1 1.9294 5 9
24.00 1 1.3010 14.6 1 56 4.0899 1 0.4771 0 9
25.00 1 1.0000 12.4 1 67 3.8195 1 1.6435 0 10
26.00 1 1.2304 11.2 1 49 3.6021 1 2.0000 27 11
32.00 1 1.3222 10.6 1 46 3.6990 1 1.6335 1 9
35.00 1 1.1139 7.0 0 48 3.6532 1 1.1761 4 10
37.00 1 1.6021 11.0 1 63 3.9542 0 1.2041 7 9
41.00 1 1.0000 10.2 1 69 3.4771 1 1.4771 6 10
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 10. Procedimiento PHREG 109
41.00 1 1.1461 5.0 1 70 3.5185 1 1.3424 0 9
51.00 1 1.5682 7.7 0 74 3.4150 1 1.0414 4 13
52.00 1 1.0000 10.1 1 60 3.8573 1 1.6532 4 10
54.00 1 1.2553 9.0 1 49 3.7243 1 1.6990 2 10
58.00 1 1.2041 12.1 1 42 3.6990 1 1.5798 22 10
66.00 1 1.4472 6.6 1 59 3.7853 1 1.8195 0 9
67.00 1 1.3222 12.8 1 52 3.6435 1 1.0414 1 10
88.00 1 1.1761 10.6 1 47 3.5563 0 1.7559 21 9
89.00 1 1.3222 14.0 1 63 3.6532 1 1.6232 1 9
92.00 1 1.4314 11.0 1 58 4.0755 1 1.4150 4 11
4.00 0 1.9542 10.2 1 59 4.0453 0 0.7782 12 10
4.00 0 1.9243 10.0 1 49 3.9590 0 1.6232 0 13
7.00 0 1.1139 12.4 1 48 3.7993 1 1.8573 0 10
7.00 0 1.5315 10.2 1 81 3.5911 0 1.8808 0 11
8.00 0 1.0792 9.9 1 57 3.8325 1 1.6532 0 8
12.00 0 1.1461 11.6 1 46 3.6435 0 1.1461 0 7
11.00 0 1.6128 14.0 1 60 3.7324 1 1.8451 3 9
12.00 0 1.3979 8.8 1 66 3.8388 1 1.3617 0 9
13.00 0 1.6628 4.9 0 71 3.6435 0 1.7924 0 9
16.00 0 1.1461 13.0 1 55 3.8573 0 0.9031 0 9
19.00 0 1.3222 13.0 1 59 3.7709 1 2.0000 1 10
19.00 0 1.3222 10.8 1 69 3.8808 1 1.5185 0 10
28.00 0 1.2304 7.3 1 82 3.7482 1 1.6721 0 9
41.00 0 1.7559 12.8 1 72 3.7243 1 1.4472 1 9
53.00 0 1.1139 12.0 1 66 3.6128 1 2.0000 1 11
57.00 0 1.2553 12.5 1 66 3.9685 0 1.9542 0 11
77.00 0 1.0792 14.0 1 60 3.6812 0 0.9542 0 12
;
PROC PHREG;
MODEL tiempo*censura(0)=logbun hgb plaqueta edad logwbc frac
logplas proteina suerocal /
SELECTION=score
BEST=3; [1]
RUN;
en donde se observa, [1], que SAS debe elegir, en este caso tres, mejores modelos de cadatamano. Es decir, el procedimiento debera mostrar los tres modelos con mayor estadısticoχ2 —los mas significativos, es decir, para aquellos que se rechace mas claramente la hipotesisH0 : β = 0— de todos los modelos posibles con cada numero indicado de covariables.Los resultados obtenidos con este programa fueron los siguientes
The PHREG Procedure
Data Set: WORK.EJEMPLO8
Dependent Variable: TIEMPOCensoring Variable: CENSURA
Censoring Value(s): 0Ties Handling: BRESLOW
Summary of the Number of
Event and Censored Values
Percent
Total Event Censored Censored
Alfonso
Garc
ıaPere
z.UNED110 Estadıstica Aplicada con SAS
65 48 17 26.15
The PHREG Procedure
Regression Models Selected by Score Criterion
ScoreIn Value Variables Included in Model
1 8.516 LOGBUN1 5.066 HGB
1 3.182 PLAQUETA------------------------------
2 12.725 LOGBUN HGB2 11.184 LOGBUN PLAQUETA2 9.996 LOGBUN SUEROCAL
-------------------------------------3 15.305 LOGBUN HGB SUEROCAL
3 13.991 LOGBUN HGB EDAD3 13.579 LOGBUN HGB FRAC
-------------------------------------4 16.987 LOGBUN HGB EDAD SUEROCAL4 16.046 LOGBUN HGB FRAC SUEROCAL
4 15.762 LOGBUN HGB LOGPLAS SUEROCAL-------------------------------------------------
5 17.629 LOGBUN HGB EDAD FRAC SUEROCAL5 17.352 LOGBUN HGB EDAD LOGPLAS SUEROCAL5 17.192 LOGBUN HGB EDAD LOGWBC SUEROCAL
-----------------------------------------------------6 17.912 LOGBUN HGB EDAD FRAC LOGPLAS SUEROCAL
6 17.795 LOGBUN HGB EDAD LOGWBC FRAC SUEROCAL6 17.774 LOGBUN HGB PLAQUETA EDAD FRAC SUEROCAL
------------------------------------------------------------7 18.152 LOGBUN HGB PLAQUETA EDAD FRAC LOGPLAS SUEROCAL7 18.057 LOGBUN HGB EDAD LOGWBC FRAC LOGPLAS SUEROCAL
7 18.022 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC SUEROCAL-------------------------------------------------------------------
8 18.392 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC LOGPLAS SUEROCAL8 18.164 LOGBUN HGB PLAQUETA EDAD FRAC LOGPLAS PROTEINA SUEROCAL8 18.131 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC PROTEINA SUEROCAL
----------------------------------------------------------------------------9 18.455 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC LOGPLAS PROTEINA
SUEROCAL
------------------------------------------------------------------------------
En ellos se observa, en la primera columna, el numero de covariables utilizadas en cadamodelo y, en la ultima, el nombre de cada una de las covariables utilizadas en el.Los modelos son listados en orden decreciente de su estadıstico de contraste. Por ejemplo,entre todos los modelos conteniendo tres covariables, el formado por las covariables logbun,hgb y suerocal es el que proporciona un mayor valor para el estadıstico de contraste, elformado por logbun, hgb y edad el segundo mayor valor y el formado por logbun, hgb y frac
el tercer mayor valor.Los estadısticos obtenidos por este procedimiento son los estadısticos score del metodo an-terior, por lo que los valores obtenidos por este metodo en la segunda columna, deben con-frontarse con los puntos crıticos de las tablas de dicho test para determinar los que sonsignificativos.
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 11
Componentes Principales
En la realizacion de un Analisis de Componentes Principales utilizaremosel Procedimiento PRINCOMP del modulo STAT.
Ejemplo 2.1-TAEl programa SAS que utilizaremos sera el siguiente
DATA recien;
INPUT X1 X2 X3 X4 X5 X6 X7 X8 @@;
CARDS;
32 17 67 112 28 10 17 71
32 9 64 142 32 14 0 66
22 25 66 122 23 12 25 68
18 25 60 101 21 14 12 66
21 0 67 125 20 15 2 67
41 7 65 126 37 14 25 68
21 8 64 123 24 12 0 71
20 7 63 109 20 10 34 69
22 6 62 123 27 12 7 73
20 35 67 125 23 12 50 72
23 25 69 167 21 12 23 71
29 12 65 115 33 13 0 69
31 0 65 125 31 16 0 72
22 7 62 113 23 14 25 78
;
PROC PRINCOMP;
RUN;
con el que se obtienen los siguientes resultados, comentados en TA. Por ejemplo, en [1], seobtienen las Componentes Principales, es decir, los coeficientes de las combinaciones linealesde las 8 variables originales.Los autovalores los vemos en [2], cuyas proporciones (en tantos por uno) las vemos en [3]
y las proporciones acumuladas en [4].
Procedimiento PRINCOMP
Observaciones 14
111
Alfonso
Garc
ıaPere
z.UNED112 Estadıstica Aplicada con SAS
Variables 8
Estadısticos simples
X1 X2 X3 X4
Media 25.28571429 13.07142857 64.71428571 123.4285714
StD 6.60336245 10.62988737 2.43147854 15.8876550
Estadısticos simples
X5 X6 X7 X8
Media 25.92857143 12.85714286 15.71428571 70.07142857
StD 5.46969674 1.74784011 15.41442168 3.22166430
Matriz de correlacion
X1 X2 X3 X4 X5 X6 X7 X8
X1 1.0000 -.3192 0.2211 0.1710 0.9100 0.2304 -.2062 -.1565
X2 -.3192 1.0000 0.2568 0.1173 -.3188 -.4010 0.6071 -.0855X3 0.2211 0.2568 1.0000 0.6207 0.0099 -.1551 0.1926 -.0561
X4 0.1710 0.1173 0.6207 1.0000 0.0606 0.0855 -.0331 -.0232X5 0.9100 -.3188 0.0099 0.0606 1.0000 0.2885 -.3278 -.1088X6 0.2304 -.4010 -.1551 0.0855 0.2885 1.0000 -.4585 -.0937
X7 -.2062 0.6071 0.1926 -.0331 -.3278 -.4585 1.0000 0.2436X8 -.1565 -.0855 -.0561 -.0232 -.1088 -.0937 0.2436 1.0000
Autovalores de la matriz de correlacion
Autovalor Diferencia Proporcion Acumulada
1 2.68616770 0.82420599 0.3358 0.33582 1.86196171 0.74955901 0.2327 0.5685
3 1.11240271 0.08196084 0.1391 0.70764 1.03044187 0.41123736 0.1288 0.83645 0.61920451 0.25192635 0.0774 0.9138
6 0.36727816 0.08989355 0.0459 0.95977 0.27738461 0.23222587 0.0347 0.9944
8 0.04515874 0.0056 1.0000
[2] [3] [4]
[1] Procedimiento PRINCOMP
Autovectores
Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7 Prin8
X1 0.459276 0.330070 0.422215 -.069128 0.014059 -.094846 -.089366 -.692745
X2 -.429758 0.266224 0.087726 -.326886 0.445127 0.453338 0.439552 -.181725X3 -.069008 0.638725 -.167265 0.115755 -.186804 -.525313 0.459733 0.153909
X4 0.038809 0.559781 -.419990 0.275033 0.007091 0.449978 -.480087 0.009494X5 0.489813 0.199734 0.445282 -.077258 0.091430 0.271646 0.107493 0.649800X6 0.383900 -.116354 -.371509 0.147172 0.782396 -.244184 0.087289 -.003984
X7 -.438721 0.186702 0.422000 0.025484 0.378384 -.382411 -.521624 0.180079X8 -.135402 -.102785 0.308691 0.878093 0.055148 0.165530 0.256328 -.092836
Por defecto el procedimiento utiliza la matriz de datos estandarizada (esdecir, la de correlaciones). Si queremos que no estandarice los datos, deberemosutilizar el comando cov despues de PRINCOMP.
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 12
Analisis de Correspondencias
Para realizar un Analisis de Correspondencias con SAS debemos utilizarel Procedimiento CORRESP.
Ejemplo 3.2-TAEl programa SAS que utilizaremos sera el siguiente
DATA MaBe;
INPUT Madre $ Bebe $ frecu @@;
CARDS;
jnf pm 50 jnf pv 315 jnf gcm 24 jnf gcv 4012
jf pm 9 jf pv 40 jf gcm 6 jf gcv 459
mnf pm 41 mnf pv 147 mnf gcm 14 mnf gcv 1594
mf pm 4 mf pv 11 mf gcm 1 mf gcv 124
;
PROC CORRESP data=MaBe outc=resultado short;
TABLES Madre Bebe;
WEIGHT frecu;
RUN;
%plotit(data=resultado, datatype=corresp, plotvars=Dim1 Dim2); [1]
RUN;
de comandos muy similares a los que obtenıamos en el analisis de tablas de contingencia.Es de destacar el comando que aparece en [1] mediante el cual le requerimos el graficode asociaciones habitualmente buscado en el Analisis de Correspondencias. Los resultadosobtenidos aparecen comentados en TA.
Procedimiento CORRESP
Inercia y descomposicion chi-cuadrado
Valor Inercia Chi- Porcentajesingular principal cuadrado Porcenta. acumulado 4 8 12 16 20
----+----+----+----+----+0.52516 0.27579 7557.8 18.37 18.37 ***********************
0.50781 0.25787 7066.7 17.18 35.54 *********************0.50183 0.25183 6901.2 16.77 52.32 *********************0.49817 0.24818 6801.0 16.53 68.85 *********************
0.49219 0.24225 6638.7 16.14 84.98 ********************0.47484 0.22547 6178.9 15.02 100.00 *******************
113
Alfonso
Garc
ıaPere
z.UNED114 Estadıstica Aplicada con SAS
Figura 12.1 : Valores de las variables Madre y Bebe
Total 1.50139 41144.2 100.00
Grados de libertad = 49
Coordinadas de la fila
Dim1 Dim2
jf 0.4456 1.6994
jnf -0.3860 -0.0614mf 1.0877 -1.0290
mnf 0.7335 -0.2557gcm 2.1051 5.8545
gcv -0.1282 -0.0152pm 3.6565 -1.4619pv 0.6210 -0.0337
Coordenadas de la columna
Dim1 Dim2
jf 0.4456 1.6994
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 12. Analisis de Correspondencias 115
jnf -0.3860 -0.0614mf 1.0877 -1.0290
mnf 0.7335 -0.2557gcm 2.1051 5.8545
gcv -0.1282 -0.0152pm 3.6565 -1.4619pv 0.6210 -0.0337
Alfonso
Garc
ıaPere
z.UNED116 Estadıstica Aplicada con SAS
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 13
Analisis Discriminante
El Analisis Discriminante, lineal y cuadratico, se realiza con SAS medianteel Procedimiento DISCRIM.
Ejemplo 6.2-TA
Para analizar este ejemplo utilizaremos el siguiente programa SAS, en donde aparece en [1]
la variable que forma los dos grupos
DATA craneos;
INPUT x1 x2 x3 x4 x5 Pobla @@;
CARDS;
190.5 152.5 145.0 73.5 136.5 1
172.5 132.0 125.5 63.0 121.0 1
167.0 130.0 125.5 69.5 119.5 1
169.5 150.5 133.5 64.5 128.0 1
175.0 138.5 126.0 77.5 135.5 1
177.5 142.5 142.5 71.5 131.0 1
179.5 142.5 127.5 70.5 134.5 1
179.5 138.0 133.5 73.5 132.5 1
173.5 135.5 130.5 70.0 133.5 1
162.5 139.0 131.0 62.0 126.0 1
178.5 135.0 136.0 71.0 124.0 1
171.5 148.5 132.5 65.0 146.5 1
180.5 139.0 132.0 74.5 134.5 1
183.0 149.0 121.5 76.5 142.0 1
169.5 130.0 131.0 68.0 119.0 1
172.0 140.0 136.0 70.5 133.5 1
170.0 126.5 134.5 66.0 118.5 1
182.5 136.0 138.5 76.0 134.0 2
179.5 135.0 128.5 74.0 132.0 2
191.0 140.5 140.5 72.5 131.5 2
184.5 141.5 134.5 76.5 141.5 2
181.0 142.0 132.5 79.0 136.5 2
173.5 136.5 126.0 71.5 136.5 2
188.5 130.0 143.0 79.5 136.0 2
175.0 153.0 130.0 76.5 142.0 2
117
Alfonso
Garc
ıaPere
z.UNED118 Estadıstica Aplicada con SAS
196.0 142.5 123.5 76.0 134.0 2
200.0 139.5 143.5 82.5 146.0 2
185.0 134.5 140.0 81.5 137.0 2
174.5 143.5 132.5 74.0 136.5 2
195.5 144.0 138.5 78.5 144.0 2
197.0 131.5 135.0 80.5 139.0 2
182.5 131.0 135.0 68.5 136.0 2
;
PROC DISCRIM;
CLASS Pobla; [1]
RUN;
Los resultados aparecen a continuacion, observandose, por ejemplo en [2], los valores cuyasdiferencias dan lugar a los coeficientes de la funcion discriminante lineal,
Procedimiento DISCRIM
Observacione 32 Total DF 31
Variables 5 Clases Within DF 30Clases 2 Clases Between DF 1
Informacion del nivel de la clase
Nombre de Probabilidad
Pobla variable Frecuencia Peso Proporcion anterior
1 _1 17 17.0000 0.531250 0.500000
2 _2 15 15.0000 0.468750 0.500000
Informacion de la matriz de covarianza ponderada
Registro natural de laRango de la matriz Determinante de la
de covarianza matriz de covarianza
5 16.72724
Procedimiento DISCRIM
Distancias cuadradas generalizadas dos a dos entre grupos
2 _ _ -1 _ _D (i|j) = (X - X )’ COV (X - X )
i j i j
Distancia cuadrada generalizada para Pobla
De Pobla 1 2
1 0 3.501442 3.50144 0
Funcion discriminante lineal
_ -1 _ -1 _Constant = -.5 X’ COV X Coefficient Vector = COV X
j j j
Funcion discriminante lineal para Pobla
Variable 1 2
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 13. Analisis Discriminante 119
Constant -514.26257 -544.72605e
[2] x1 1.46831 1.55762x2 2.36106 2.20528
x3 2.75219 2.74696x4 0.77530 0.95250x5 0.19475 0.37216
Procedimiento DISCRIM
Resumen de clasificacion para los datos calibrados: WORK.CRANEOSResumen de resustitucion usando Funcion discriminante lineal
Funcion de la distancia cuadrada generalizada
2 _ -1 _D (X) = (X-X )’ COV (X-X )
j j j
Probabilidad posterior de miembro en cada Pobla
2 2
Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X))j k k
Numero de observaciones y porcentaje clasificado en Pobla
De Pobla 1 2 Total
1 14 3 1782.35 17.65 100.00
2 3 12 15
20.00 80.00 100.00
Total 17 15 3253.13 46.88 100.00
Anteriores 0.5 0.5
Estimaciones de cuenta de error para Pobla
1 2 Total
Tasa 0.1765 0.2000 0.1882Anteriores 0.5000 0.5000
Alfonso
Garc
ıaPere
z.UNED120 Estadıstica Aplicada con SAS
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 14
Analisis Cluster
Para realizar un analisis cluster con SAS debemos utilizar el ProcedimientoCLUSTER.
Este Procedimiento admite los cinco metodos de agrupamiento estudiadosen TA. Ası, con method=single realizaremos un agrupamiento simple; conmethod=complete realizaremos un agrupamiento completo; con method=average
realizaremos un agrupamiento promedio; con method=centroid realizaremosun agrupamiento centroide, y utilizaremos el metodo de Ward con method=ward.
Ası, si queremos realizar con nuestros datos un agrupamiento centroide,las especificaciones que deberemos anadir al final de nuestro Programa SAS,seran
PROC CLUSTER method = centroid;
RUN;
Ejemplo 5.6-TA
Para formar los clusters utilizando un agrupamiento centroide, deberemos ejecutar el siguien-te programa SAS
DATA ejemplo;
INPUT talla sueldo @@;
CARDS;
180 175
170 180
175 165
189 100
185 110
;
PROC CLUSTER method = centroid;
RUN;
con el que obtendrıamos los siguientes resultados
121
Alfonso
Garc
ıaPere
z.UNED122 Estadıstica Aplicada con SAS
Centroid Hierarchical Cluster Analysis
Eigenvalues of the Covariance Matrix
Eigenvalue Difference Proportion Cumulative
1 1488.74 1477.29 0.992364 0.99236
2 11.46 . 0.007636 1.00000
Root-Mean-Square Total-Sample Standard Deviation = 27.38795Root-Mean-Square Distance Between Observations = 54.77591
Centroid Hierarchical Cluster Analysis
Number Frequency Normalizedof of New Centroid
Clusters Clusters Joined Cluster Distance Tie
4 OB4 OB5 [1] 2 0.196625
3 OB1 OB2 [2] 2 0.204111 T2 CL3 OB3 [3] 3 0.228203
1 CL2 CL4 [4] 5 1.266597
en donde vemos que, en un primer paso, marcada con [1], se unen los individuos 4 y 5 (OB4y OB5). En un segundo paso, [2], se unen los individuos 1 y 2 (OB1 y OB2). En un tercer paso,[3], se une el individuo 3 (OB3) al cluster CL3 que es el formado en [2] ya que al principiode la lınea de ese paso aparece un 3.Finalmente, marcado con [4], se unen el cluster anterior CL2, por comenzar la lınea con un2, con el cluster CL4, es decir, el cluster formado al comienzo del proceso de amalgamiento,donde la lınea comenzaba con un 4.Con el siguiente programa se abrirıa el Procedimiento TREE y obtendrıamos el dendograma,
DATA ejemplo;
INPUT talla sueldo @@;
CARDS;
180 175
170 180
175 165
189 100
185 110
;
PROC CLUSTER method = centroid outtree=dibu;
RUN;
PROC TREE data=dibu;
RUN;
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 15
Regresion Logıstica
La forma mas comoda de realizar una Regresion Logıstica con SAS es utili-zar dos procedimientos, especialmente si nuestras covariables son de dos tipos—cualitativas y cuantitativas—, y queremos evitar definir variables indicado-ras.
Primero usaremos el Procedimiento CATMOD, analizado en la seccion ante-rior, con el cual detectaremos cuales de las covariables utilizadas son significa-tivas a la hora de predecir a la variable dependiente (en realidad al logaritmode su odd); pero ademas, como con la Regresion Logıstica deseamos tambienpoder hacer predicciones, nos interesara conocer una estimacion de los coefi-cientes de regresion de las variables significativas, para lo que utilizaremos, enun segundo lugar, el Procedimiento LOGISTIC.
Podremos ahorrarnos el primer paso si todas nuestras covariables son detipo cuantitativo o, preferimos utilizar variables indicadoras.
Ejemplo 9.1-TA
Para realizar un Analisis de Regresion Logıstica primero detectaremos cuales de las co-variables son significativas con el siguiente programa SAS, en el que observamos algunaspeculiaridades en el Procedimiento CATMOD. En [1] debemos indicar al ordenador, tras elcomando DIRECT que covariables son de tipo cuantitativo y no incluiremos (como hacıamosen la seccion anterior) el comando LOGLIN = model
DATA logis;
INPUT edad activi infarto angina presion @@;
CARDS;
52 1 1 1 0
66 2 1 1 0
56 2 1 1 0
57 2 1 1 0
42 1 1 1 1
62 0 1 0 1
46 2 1 1 1
123
Alfonso
Garc
ıaPere
z.UNED124 Estadıstica Aplicada con SAS
44 2 0 1 1
50 1 0 1 1
76 3 0 1 0
48 2 1 1 0
53 2 1 1 0
51 3 1 1 1
59 0 0 1 1
54 3 1 1 1
41 2 1 1 1
56 2 1 0 1
38 0 0 1 1
40 3 1 1 0
42 1 1 1 0
51 1 0 1 0
52 1 1 1 0
37 0 0 1 0
48 1 1 0 0
35 0 1 1 0
35 1 1 0 0
48 3 0 1 1
52 2 0 1 1
46 2 0 1 1
51 3 0 1 0
52 2 1 1 0
66 1 1 1 0
56 2 1 1 0
57 2 1 1 0
42 1 1 1 1
62 0 1 0 1
46 0 1 1 1
44 2 0 1 1
50 1 0 1 1
76 3 0 1 1
48 2 1 1 0
53 2 0 0 0
51 3 1 1 1
59 0 0 1 1
54 3 1 1 1
41 2 1 1 1
56 2 1 0 1
38 0 0 1 1
40 3 1 1 0
42 1 1 1 0
;
PROC CATMOD;
DIRECT edad; [1]
MODEL infarto = edad activi angina presion /
freq ml nogls;
RUN;
Con este programa obtendrıamos, entre otras cosas, la siguiente tabla de resultados
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 15. Regresion Logıstica 125
MAXIMUM LIKELIHOOD ANALYSIS OF VARIANCE TABLE
[2]
Source DF Chi-Square Prob--------------------------------------------------INTERCEPT 1 2.26 0.1328
EDAD 1 0.98 0.3226ACTIVI 3 2.06 0.5594
ANGINA 1 2.25 0.1338PRESION 1 2.81 0.0936
LIKELIHOOD RATIO 26 52.89 0.0014
en la que detectamos, observando la columna de p-valores [2], que, a nivel α = 0′1, la unicacovariable significativa a la hora de explicar a Infarto es Presion.
Ahora, para ajustar el Modelo de Regresion Logıstica, utilizaremos el siguiente programaSAS
DATA logis;
INPUT edad activi infarto angina presion @@;
CARDS;
52 1 1 1 0
66 2 1 1 0
56 2 1 1 0
57 2 1 1 0
42 1 1 1 1
62 0 1 0 1
46 2 1 1 1
44 2 0 1 1
50 1 0 1 1
76 3 0 1 0
48 2 1 1 0
53 2 1 1 0
51 3 1 1 1
59 0 0 1 1
54 3 1 1 1
41 2 1 1 1
56 2 1 0 1
38 0 0 1 1
40 3 1 1 0
42 1 1 1 0
51 1 0 1 0
52 1 1 1 0
37 0 0 1 0
48 1 1 0 0
35 0 1 1 0
35 1 1 0 0
48 3 0 1 1
52 2 0 1 1
46 2 0 1 1
51 3 0 1 0
52 2 1 1 0
Alfonso
Garc
ıaPere
z.UNED126 Estadıstica Aplicada con SAS
66 1 1 1 0
56 2 1 1 0
57 2 1 1 0
42 1 1 1 1
62 0 1 0 1
46 0 1 1 1
44 2 0 1 1
50 1 0 1 1
76 3 0 1 1
48 2 1 1 0
53 2 0 0 0
51 3 1 1 1
59 0 0 1 1
54 3 1 1 1
41 2 1 1 1
56 2 1 0 1
38 0 0 1 1
40 3 1 1 0
42 1 1 1 0
;
PROC LOGISTIC;
MODEL infarto = presion;
RUN;
con el que obtenemos los siguientes resultados
The LOGISTIC Procedure
Data Set: WORK.LOGISResponse Variable: INFARTO
Response Levels: 2Number of Observations: 50Link Function: Logit
Response Profile
Ordered
Value INFARTO Count
1 0 172 1 33
The LOGISTIC Procedure
Simple Statistics for Explanatory Variables
Standard
Variable Mean Deviation Minimum Maximum
PRESION 0.520000 0.504672 0 1.00000
The LOGISTIC Procedure
Criteria for Assessing Model Fit
Intercept
Alfonso
Garc
ıaPere
z.UNEDCapıtulo 15. Regresion Logıstica 127
Intercept andCriterion Only Covariates Chi-Square for Covariates
AIC 66.104 64.453 .
SC 68.016 68.277 .-2 LOG L 64.104 60.453 3.650 with 1 DF (p=0.0561)Score . . 3.566 with 1 DF (p=0.0590)
The LOGISTIC Procedure
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Standardized
Variable Estimate Error Chi-Square Chi-Square Estimate
INTERCPT -1.3350 0.5026 7.0547 0.0079 .PRESION 1.1809 0.6383 3.4228 0.0643 0.328560
[3]
Association of Predicted Probabilities and Observed Responses
Concordant = 40.6% Somers’ D = 0.282
Discordant = 12.5% Gamma = 0.530Tied = 46.9% Tau-a = 0.129(561 pairs) c = 0.641
en donde observamos, [3], los mismos estimadores (siempre con signo cambiado) que habıamosobtenido TA.
Alfonso
Garc
ıaPere
z.UNED128 Estadıstica Aplicada con SAS
Alfonso
Garc
ıaPere
z.UNED
Capıtulo 16
Analisis de Series Temporales
Para analizar Series Temporales con SAS y ajustar un Modelo ARIMA,debemos de utilizar el Procedimiento ARIMA.
Ejemplo 13.1-TASi queremos ajustar un Modelo ARIMA(1,0,1) utilizaremos el siguiente programa SAS, endonde se indica en [1] la variable que va indicando los datos y, en [2], el orden de las partesno nulas del modelo ARIMA a ajustar.
DATA lute;
INPUT x @@;
CARDS;
2.4 2.4 2.4 2.2 2.1 1.5 2.3 2.3 2.5 2.0 1.9 1.7 2.2 1.8 3.2 3.2
2.7 2.2 2.2 1.9 1.9 1.8 2.7 3.0 2.3 2.0 2.0 2.9 2.9 2.7 2.7 2.3
2.6 2.4 1.8 1.7 1.5 1.4 2.1 3.3 3.5 3.5 3.1 2.6 2.1 3.4 3.0 2.9
;
PROC ARIMA;
identify var=x; [1]
estimate p=(1) q=(1); [2]
RUN;
Los resultados obtenidos, entre otros, fueron los siguientes, observandose en [3], los valoresde las estimaciones de los parametros del modelo ajustado.
Proc ARIMA
Nombre de la variable = x
Media de series de trabajo 2.4
Desviacion estandar 0.545817Numero de observaciones 48
Estimacion por mınimos cuadrados condicional
Error Approx
Parametro Estimador estandar Valor t Pr > |t| Retardo
MU 2.41020 0.14102 17.09 <.0001 0
MA1,1 -0.20038 0.24243 -0.83 0.4129 1AR1,1 0.46321 0.22023 2.10 0.0411 1
129
Alfonso
Garc
ıaPere
z.UNED130 Estadıstica Aplicada con SAS
[3]
Constante Estimacion 1.293783
Varianza Estimacion 0.205093Error estand Estimacion 0.452872AIC 63.07416
SBC 68.68777Numero de residuales 48
* AIC y SBC no incluyen determinante de la log.
Correlations of Parameter Estimates
Parametro MU MA1,1 AR1,1
MU 1.000 0.022 0.036MA1,1 0.022 1.000 0.796AR1,1 0.036 0.796 1.000
Proc ARIMA
Autocorrelation Check of Residuals
Para Chi- Pr >retardo cuadrado DF ChiSq -----------------Autocorrelaciones----------
6 5.70 4 0.2229 0.025 0.077 -0.238 -0.049 -0.153 0.125
12 9.63 10 0.4740 -0.056 0.155 -0.122 -0.065 -0.118 0.05818 12.55 16 0.7053 0.110 -0.055 0.040 0.097 0.027 0.11224 16.42 22 0.7947 -0.048 -0.097 -0.098 -0.138 0.007 0.051
Modelo para la variable x
Media estimada 2.410199
Factores autoregresivos
Factor 1: 1 - 0.46321 B**(1)
Factores de la media movil
Factor 1: 1 + 0.20038 B**(1)