tema 2 inferencias para la normal multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf ·...

22
infnormal.doc 24/03/2015 [email protected] 1 Tema 2 Inferencias para la Normal Multivariante Una distribución de probabilidad desconocida rige el comportamiento aleatorio de un vector p-dimensional. Para obtener información acerca de ella, repetimos el experimento aleatorio n veces y en cada una de ellas observamos las p variables que componen el vector. Así, obtenemos n observaciones p-dimensionales independientes, que componen una muestra aleatoria simple: n vectores aleatorios p-dim independientes, igualmente distribuidos, con distribución común p- dimensional desconocida, P. A partir de la muestra trataremos de tomar decisiones sobre la distribución subyacente P, respondiendo preguntas del tipo: ¿Es Normal p-dim? ¿Su media es una determinada, 0 ? ¿Son incorreladas sus p componentes? … 0 Notación x 1 , ... x n m.a.s. de vectores aleatorios N p (, ); observamos p variables sobre p individuos. x ij valor de la variable j (j=1...p) en el individuo i (i=1... n) X=( x ij ) matriz de datos 11 1p 1+ n1 np n+ +1 +p ++ x x x X= x x x x x x fila i de X : x i t = (x i1 ...x ip ) vector con los p datos del individuo i suma= x i+ columna j de X : (x j ) t =(x 1j ...x nj ) n observaciones independientes de la variable j suma= x +j x vector media muestral x= n i i=1 1 x n = X t 1 n 1 n = 1 1 p p x x 1 n x x X matriz de datos centrados X =(x ij - j x )= X - 1 n x t = X - 1 n 1 n 1 n t X = X - P 1 X = P 1X Q matriz de productos cruzados (Nota: Demostrar que X t X= n t i i i1 xx ) Q= X t X = X t P 1X = n t i i i1 (x x)(x x) = X t X - n x x t = n (Cov(x i , x j )) = = n n n 2 i1 1 i1 1 i2 2 i1 1 ip p i1 i1 i1 n ip p i1 1 i1 (x x) (x x )(x x) (x x )(x x) (x x )(x x) n 2 ip p i1 (x x) matriz de varianzas-covarianzas muestrales = 1 Q n S matriz de cuasi varianzas-covarianzas muestrales S= 1 Q n 1

Upload: others

Post on 13-May-2020

9 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 1

Tema 2 Inferencias para la Normal Multivariante

Una distribución de probabilidad desconocida rige el comportamiento aleatorio de un vector p-dimensional. Para obtener información acerca de ella, repetimos el experimento aleatorio n veces y en cada una de ellas observamos las p variables que componen el vector. Así, obtenemos n observaciones p-dimensionales independientes, que componen una muestra aleatoria simple: n vectores aleatorios p-dim independientes, igualmente distribuidos, con distribución común p-dimensional desconocida, P. A partir de la muestra trataremos de tomar decisiones sobre la distribución subyacente P, respondiendo preguntas del tipo: ¿Es Normal p-dim? ¿Su media es una determinada, 0? ¿Son incorreladas sus p componentes? … 0 Notación x1, ... xn m.a.s. de vectores aleatorios Np(, ); observamos p variables sobre p individuos. xij valor de la variable j (j=1...p) en el individuo i (i=1... n)

X=( xij) matriz de datos

11 1p 1+

n1 np n+

+1 +p ++

x … x x

X=

x … x x

x x x

fila i de X : xi

t = (xi1...xip) vector con los p datos del individuo i suma= xi+

columna j de X : (xj)t=(x1j...xnj) n observaciones independientes de la variable j suma= x+j

x vector media muestral x = n

ii=1

1x

n = Xt 1n

1

n =

1 1

p p

x x1

n

x x

X matriz de datos centrados X =(xij- jx )= X - 1n x t = X - 1n1

n1n

t X = X - P1X = P1┴ X

Q matriz de productos cruzados (Nota: Demostrar que XtX=n

ti i

i 1

x x )

Q= X t X = Xt P1┴ X = n

ti i

i 1

(x x)(x x)

= Xt X - n x x t = n (Cov(xi, xj)) =

=

n n n2

i1 1 i1 1 i2 2 i1 1 ip pi 1 i 1 i 1

n

ip p i1 1i 1

(x x ) (x x )(x x ) … (x x )(x x )

(x x )(x x )

n

2ip p

i 1

… (x x )

matriz de varianzas-covarianzas muestrales = 1

Qn

S matriz de cuasi varianzas-covarianzas muestrales S= 1

Qn 1

Page 2: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 2

1 Distancia de Mahalanobis La distancia usual para medir distancias en el espacio Rp es la Euclídea unitaria 2 t

r s r s r sd (x , x ) (x x ) (x x ) = (xr1-xs1)2+(xr2-xs2)

2+… +(xrp-xsp)2

Esta distancia trata por igual las p componentes y todas las direcciones de Rp . La distancia entre individuos se evalúa sin tener en cuenta en qué coordenadas o componentes difieran.

En el gráfico aparecen las curvas de equidensidad del vector aleatorio (x1, x2). Con la distancia Euclídea unitaria, los puntos 1 y 2 están a la misma distancia de … pero una misma distancia d en la dirección →1 es mucho más relevante que en la →2. Una buena medida debe apreciar que 1 es mucho más atípico que 2.

Entonces, al trabajar con observaciones aleatorias p-dimensionales…

…la distancia Euclídea unitaria no es la más apropiada porque…

a) no tiene en cuenta la dispersión de cada componente:

Esta dispersión depende de la escala que utilicemos para medir cada una de las p variables;

… y la elección de escala es una cuestión arbitraria (mm, cm, m ...; °F, °C ...)

Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos de paso parciales, peso, estatura, talla del pié, longitud de pierna, tamaño de la zancada... en 100 marchadores internacionales de diferentes países. A la hora de calcular parecidos y diferencias entre atletas a partir de las p características observadas, la elección de escala influye de forma determinante. Si medimos la estatura en centímetros en lugar de metros, una diferencia de talla de 0.13 m pasa a ser de 13 cm, por lo que el efecto de esta variable talla se dispara al evaluar distancia entre dos individuos. Lo mismo si utilizo cm en lugar de pulgadas o libras en lugar de Kg; gr en lugar de Kgr, minutos en lugar de segundos, etc. En definitiva, el parecido p-dimensional entre atletas dependería de las escalas de medida utilizadas, lo cuál no suele ser razonable.

Una homogeneización de varianzas resuelve el problema sólo parcialmente, puesto que exite un segundo problema, y es que la distancia Euclídea unitaria…

b) tampoco tiene en cuenta la estructura de correlaciones entre las p componentes del vector:

Si observo en cada individuo varias variables fuertemente correladas, una diferencia grande entre dos individuos en una determinada componente irá acompañada por diferencias también grandes en las componentes correladas con ella. Así, en el cálculo de la distancia aparece un efecto multiplicador, en detrimento de variables que no pertenezcan a haces de variables altamente correladas.

Siguiendo con en el ejemplo anterior, los tiempos de paso parciales estarán fuertemente correlados, entre sí. Algo parecido puede ocurrir con las medidas antropométricas (estatura, talla del pié, longitud de pierna, tamaño de zancada...). Un atleta de zancada amplia aventajará a uno de zancada corta en cada toma parcial de datos, de forma que al tomar medidas en 4 momentos de la carrera, habrá 4 coordenadas "zancada" con diferencias similares altas. Aparece así ese efecto multiplicador. También aparece si se toman varias medidas antropométricas relacionadas con la talla. En definitiva, estamos manejando uno o varios grupos de variables correladas, y esto influye en la distancia entre individuos, pues estoy considerando varias veces el mismo efecto.

La distancia de Mahalanobis tiene en cuenta estos dos aspectos y los corrige (diferencia de varianzas entre componentes y posible presencia de variables correladas).

Page 3: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 3

Distacia de Mahalanobis entre dos observaciones o dos puntos cualesquiera de Rp

(xr, xs)= 1

2 t 1r s r s r sd (x , x ) (x x ) (x x )

versión teórica

Cuando se desconoce , se utiliza su estimador S, dando lugar a la versión muestral:

D(xr, xs)= 1

2 t 1r s r s r sS

d (x , x ) (x x ) S (x x ) versión muestral

2 Estimadores puntuales de y

Sea x1, ... xn una m.a.s. de una distribución Np(, ) no degenerada.

Función de verosimilitud

L() =

p

n nt -1

N (μ,Σ) i i inpi=1i=1

1 1f (x ) = exp - x -μ Σ x -μ

22π Σ n

Estimadores máximo verosímiles (EMV) de y : y (media y covarianzas empíricas)

= x= n

ii=1

1x

n ; =

Q

n ; (estimador insesgado de : S=

Q

n 1=n

n 1

)

Distribución de y :

p

p

1x ~ N ( , )

n

Q = (n-1) S= n ~ W (n 1, ) independiente de x

Nota: x es una transformación de la matriz de datos X: tp

1x = X 1

n

y Q es una forma cuadrática generalizada en X: Q = Xt P1┴ X t 1 2

pn(x ) (x ) ~

es n veces la distancia2 de Mahalanobis teórica entre x y : n 1

2d (x, ) = n ( x, )

se usa para contrastar y construir regiones de confianza para con conocida. t 1 2

p, n-1n (x ) S (x ) ~ T

es n veces la distancia2 de Mahalanobis muestral entre x y : n 1

2

Sd (x, ) = n D( x, )

se usa para contrastar y construir regiones de confianza para con desconocida.

Utilizar la distancia de Mahalanobis sobre puntos expresados en las variables originales equivale a utilizar la distancia Euclídea Unitaria (distancia usual) calculada después de

transformar linealmente las p variables en otras p incorreladas y estandarizadas: ( Transformación -1/2≡ -1/2Pt , o S-1/2 en la versión muestral)

Page 4: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 4

H0 H0

H0

H1

H1

H0

H0

H0

3 Contrastes y regiones de confianza para la media H0: = 0 vs H1: ≠ 0

n ( x- )t -1 ( x- ) ~ 2p [ aplico xt x ~ 2

rg(A) (tA) A es idempotente a n ( x - ) ~ Np (0, /n) ]

n ( x- )t S-1 ( x- ) ~ 2p, n-1 T [ aplico k xt W-1 x ~ T2

p, k (t -1 ) a n ( x - ) y (n-1)S ~ Wp(k, ) ]

3.1 conocida Test 2

Estadístico de contraste: 20 = n ( x, 0) = n ( x- 0)

t -1 ( x- 0) ~ 2p

~ 2p ( n (, 0))

Región crítica de nivel : C= [ 20 > 2

p , 1- ] verifica 0Hp (C)=

p-valor: p[ 2p > 2

0 ]

potencia para detectar 1 (1 ≠ 0): 1Hp (C) = p[ 2

p ( ) > 2p, 1-]

con = n (, 0) = n t 11 0 1 0( ) ( )

3.2 desconocida Test 2 de Hotelling

Estadístico de contraste: 2 = n D( x, 0) = n ( x- 0)

t S-1 ( x- 0) ~ 2p, n-1 T

~ 2p, n-1 T ( n (, 0))

es decir, F0= n p

p(n 1)

2 ~ p, n-p F

Región crítica de nivel a: C= [n p

p(n 1)

2 > Fp, n-p, 1- ] verifica

0Hp (C)= .

p-valor: p[ Fp, n-p > F0 ] potencia para detectar 1 (1 ≠ 0):

1Hp (C) = p[ Fp, n-p() > Fp, n-p, 1-]

con = n (, 0) = n t 11 0 1 0( ) ( )

3.2.1 Propiedades del test 2

i)Para p=1, el test T02 es el test t (contraste de dos lados sobre la media de una N1 con 2 desconocida

T02 = ( 0

*

xn

S

) 2 ~ F1, n-1 equivale a t0

= 0*

xn

S

~ tn-1

para p ≥ 2 sus propiedades resultan similares a las del test t:

ii) Es invariante frente a cambios lineales no singulares de localización y escala y=Fx+C; el test NO depende de las unidades de medida utilizadas: m/cm/pulgadas/pies , °F/°K/°C, Kg/g/libra ...

En efecto:

Sea un cambio y=Ax+b con A (pxp) no singular y bRp constantes cualesquiera,

Sea = A+b ; 0= A0+b

Las hipótesis H0: = 0 H1: ≠ 0 equivalen a

H0: = 0 H1: ≠ 0

La muestra x1, ... xn se transforma (yi= Axi+b; i=1...n) en

y1, ... yn m.a.s. Np(, A At)

Page 5: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 5

Resulta facil comprobar que 2 (x)=

2 (z), pues, intercalando AA-1 se obtiene

2 (x)= n ( x- 0)

t Sx-1 ( x- 0) = n ( y- 0)

t Sy-1 ( y - 0) =

2 (z).

iii) Es T.R.V., T.U.M.P, invariante y admisible.

3.3 Contrastes sobre una o varias combinaciones lineales de

H0: A=b vs H1: A ≠ b

3.3.1 Aplicación1: Análisis de la Varianza con medidas repetidas

Introducción

Vamos a extender al caso de más de dos poblaciones el conocido contraste de igualdad de medias para dos muestras pareadas, reconduciendo el problema hasta expresarlo bajo la forma

H0: A= 0 contra H1: A≠ 0

Repaso del caso bidimensional: Comparación de los efectos de una droga y un placebo.

Ilustramos la situación con un ejemplo: Supongamos que se desea contrastar el efecto de una nueva droga que actúa sobre la presión diastólica de la sangre. A cada uno de los n pacientes que forman la muestra se le mide la presión diastólica en dos ocasiones: Una antes de administrarle la droga (X1) y otra después de administrarle un placebo (X2).

El contraste de no efecto de la droga es

0 1 2

1 1 2

H :

H :

que se escribe en la forma t

0

t1

H : a 0

H : a 0

con at= (1 -1), pues at =1- 2.

Equivale pues a contrastar 0 Y

1 Y

H : 0

H : 0

siendo Y= X1- X2 = (1 -1) 1

2

X

X

En definitiva, se toman las diferencias Y, y se contrasta que su media es 0.

De esta forma, la dimensión del problema se ha reducido en uno (pasa de dim 2 a dim 1)

Extensión al caso multivariante: (p-1) drogas comparadas con un placebo.

A cada uno de los n pacientes que forman la muestra se le mide la presión en p ocasiones: Una vez después de administrarle la droga 1 (X1), otra vez bajo la droga 2 (X2) ... y finalmente, tras administrarle un placebo (Xp).

Queremos contrastar la hipótesis de no efecto de los tratamientos (la respuesta media es la misma bajo cualquiera de las p circunstancias). El problema es el de un ANOVA de un factor (igualdad de p medias), pero no puede aplicarse éste porque falla la independencia entre las observaciones: Cada individuo es observado en p ocasiones, y las p medidas así obtenidas estarán correladas.

La hipótesis de no efecto se escribe:

[ H0: 1= 2=...= p ] ≡ [ H0: 1- p= ... = p-1- p= 0 ] ≡ [ H0: A = 0 ]

para A=

1 0 ... 0 1

0 1 ... 0 1

0 0 ... 1 1

Page 6: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 6

H0

H0: y=b

H0: y=0

Empleamos la misma idea que en el caso p=2:

Tomar las diferencias de cada droga con el placebo: Yij=Xij- Xip; j=1... p-1.

Las p-1 diferencias Y para el individuo i forman el vector yi= Axi. (Y= A)

Y= 0 La hipótesis de no efecto se puede escribir ahora como H0: Y= 0 y ya estamos en terreno conocido: Aplicamos el test T0

2 a la nueva muestra y1 ... yn Np-1(A, AAt)

2 (A) ~ 2

p-1, n-1 T

Otra forma de plantear la misma hipótesis de no efecto. Para p drogas sin placebo:

[ H0: 1= 2=...= p ] ≡ [ H0: 1- 2= ... = p-1- p= 0 ] ≡ [ H0: A1 = 0 ]

para A1=

1 -1 ... 0 0

0 1 -1.. 0 0

0 0 ... 1 -1

El nuevo valor 2 (A1) coincide con el anterior

2 (A) por la invariancia del test 2 .

El estadístico 2 (A) para este problema de ANOVA de un factor con medidas repetidas no

depende de la matriz A que se emplee para expresar la hipótesis de no efecto; de hecho, se demuestra

que 2 (A) puede computarse directamente a partir de x y Sx sin necesidad de construir ninguna A:

2 (A) = n x t Sx

-1 x - t 1 2

x p

t 1p x p

(x S 1 )n

1 S 1

Generalización final:

Este procedimiento que consiste en aplicar el contraste T02 a la muestra transformada por A

es válido con carácter general. Igual que hemos hecho con el problema de ANOVA de medidas repetidas, los planteamientos de otros problemas diferentes (como el contraste de Simetría o la Tendencia Polinomial de Crecimiento) se reconducen hasta conseguir expresarlos en esta forma general A = 0. Desarrollamos esta idea a continuación.

3.3.2 Contraste general A=b (para A cualquier matriz qxp y b cualquier vector de Rp)

Para contrastar [1] 0

1

H : A b

H : A b

i i y

transformamos la muestra y = Ax =A y contrastamos [2]

0 y

1 y

H : b

H : b

:

las xi son v.a.i.i.d. Np(xx) ⇒ las yi serán v.a.i.i.d. Np(yy) ≡ Np (AxxAt )

El estadístico T02 para [2] es:

T02 (A)= n ( y- b)t Sy

-1 ( y- b) = n (A x- b)t (ASx At) -1 (A x- b) ~ T2

q, n-1

que para el caso particular b=0 se convierte en:

T02 (A)= n y t Sy

-1 y = n x t At (ASx At) -1 A x ~ T2

q, n-1

Nota: Toda hipótesis del tipo A=b puede también expresarse en la forma A=0 reparametrizando adecuadamente el problema (ver Seber p.72), por lo que es suficiente saber contrastar A=0.

Page 7: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 7

H0

3.3.3 Aplicación 2: Contraste de Simetría ( 2 muestras p-dim relacionadas)

H0: 1= 2 vs H1: 1 ≠ 2 (muestras relacionadas)

Comparación de medias en DOS poblaciones Np relacionadas (muestras p-dim pareadas)

Introducción: El problema de simetría izquierdo/derecho en un ser vivo es un clásico en biología (zoología, botánica ...), La comparación de efectos producidos por dos tratamientos sobre un conjunto de variables es otro clásico en medicina, farmacia, agricultura, ingeniería …

Antecedentes: Conocemos ya contrastes para comparar dos medias univariantes en muestras pareadas ó relacionadas.

Planteamiento: Abordemos ahora la versión multivariante del mismo problema de comparación de medias en dos poblaciones relacionadas. Ahora, sobre cada unidad experimental observamos más de una variable. Observamos p características (no una) en dos poblaciones relacionadas: antes/después del tratamiento, características del hombre/mujer en una pareja, características lado derecho/izquierdo, características del hijo mayor y del 2º hijo ...

Antes del tratamiento Después del tratamiento

variable 1 variable 2 … variable p variable 1 variable 2 … variable p PAmin PAmax Colesterol PAmin PAmax Colesterol

1 Pepe Pérez 10 18 … 320 8 14 … 280

2 Pío Pí 11 13 … 244 9 13 … 200

n José Jolín 10 15 … 270 10 14 … 280

La muestra se compone de n observaciones p-dimensionales pareadas

i

i

x

y

~ N2p (xx xyx

y yx yy

Σ Σμ,

μ Σ Σ

) i= 1... n

Contraste de Simetría o de igualdad de medias en las dos poblaciones: 0 x y

1 x y

H : μ μ

H : μ μ

La hipótesis nula es H0: xj = yj j=1 ... p. que se expresa en la forma vista en 3.3.2 A=0 tomando la matriz A apropiada:

A=

1 0 0 -1 0 0

0 1 0 0 -1 0 I | - Ip p

0 0 1 0 0 -1

Solución: T02 (A)= n ( x- y)t (Sxx - Sxy - Syx + Syy)

-1 ( x- y) ~ T2p, n-1

donde el vector de medias muestrales y S se han partido en dos y cuatro cajas, igual que y

Page 8: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 8

3.4 Intervalos de confianza para combinaciones lineales: I. de C. para at

3.4.1 Para una función lineal at

Notaremos como a2 la varianza de at x, que vale at a.

t-intervalos

t t 2a t t

n-1tt 2 tn-12

a

1a x ~ N(a μ, σ )

n n (a x a μ) ~ t

1 a Saa Sa ~ indep. de a xσ

I. de C. de confianza 100(1-)% para at: t

n-1, 1- 2

a x t 1

n(atSa)1/2

3.4.2 Para r combinaciones lineales {ait }i=1...r preespecificadas: A

t-intervalos simultáneos de Bonferroni

I. simultáneos de confianza ≥ 100(1- para las r c.l. ait: t

in-1, 1-

2 r

a x t 1

n(ai

tSai)1/2

pues para cada combinación lineal construyo un t-intervalo de nivel 1-/r, y así tenemos: probabilidad de algún fallo en los r recubrimientos ≤ i (prob. falla el intervalo i) = rα/r= α probabilidad de recubrimiento simultáneo ≥ 1-

3.4.3 Para r combinaciones lineales no preespecificadas: A

S-método de Schefée:

Construye un i. de c. para todas las c.l. ait simultáneamente

La relación 1Ax

2

Sd (A x, A)=n ( x- )t At (ASx A

t) -1 A( x- ) ~ T2q, n-1, permite construir una

región de confianza (elipsoide) para las componentes de A y todas sus combinaciones lineales:

{ n (A x- A)t (ASx At) -1 (A x- A) ≤

1

nT2

q, n-1; 1- }

Tomando en particular A=I, tenemos que los intervalos t 2i p, n-1, 1-

1a x ( T

n aitSai)

1/2

recubren con una probabilidad simultánea ≥ 1- todas las posibles c.l. ait del vector de medias .

Page 9: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 9

H0

H0

H0

4 Contrastes y regiones de confianza para Sea x1, ... xn una m.a.s. de una distribución Np(, )

4.1 Independencia de Bloques4.1.1 2 bloques independientes H0: 12= 0 (Jobson p.68)

Separo cada vector xi en dos bloques yi y zi de dimensiones p1 y p2 (p1 ≥ p2) :

i 1 11 12 11 12 11 12i

i 2 21 22 21 22 21 22

y Q Q S S1x = = = Q= S= Q=

z Q Q S Sn 1

H0: 12= 0 (cada Yi independiente de Zi)

T.R.V. Se basa en 22.1

11 22 22

| Q || Q |

| Q | | Q | | Q |

-[ n -1

2( p1+ p2+ 3)] log | I - S22

-1 S21 S11-1 S12| ~

1 2

2p p asintóticamente

4.1.2 r bloques independientes H0: ij= 0 i≠ j (Seber p.91)

H0:

11

22

r r

O O

O O=

O O

con cada ii desconocida de dimensiones pix pi

T.R.V. Se basa en 11 r r

| Q |

| Q | | Q |

- 2 log ~ 2 asintóticamente, con

r2 2

ii 1

1 (p - p )

2

En particular, para p1=...= pr =1 H0 se convierte en H01: (matriz diagonal desconocida)

4.2 Contraste de esfericidad e independencia H0: = Ip (Jobson p.165)

H0: = Ip componentes independientes y homocedásticas

Los elipsoides de concentración son esferas centradas en .

Es un caso particular del contraste 4.1.2, con todos los ii= y las pi=1

T.R.V. Se basa en 1/ p| Q |

1| tr Q |p

Contrasta si todos los autovalores de son iguales (media geométrica= media aritmética)

sean pp

1/pj j

j 1 j 1

1A , B= ( )

2

y 1 ... p los autovalores de S; entonces

np log ~ 21

(p 1)(p 2)2

asintóticamente. (Jobson p.165)

Page 10: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 10

H0

H0

También se conocen contrastes para:

H03: = Ip componentes independientes de varianza 1

H0: = 0 o incluso H0: = 0 se reducen a la forma H03:

mediante la transformación 0-1/2 y

1

0

-1/2 respectivamente (Seber p.94)

H05: = pp bloques diagonales iguales

(suponiendo iguales todos los bloques no diagonales) (Seber p.95)

4.3 Contrastes sobre correlaciones

Matriz de correlaciones: R = -1/2 -1/2,

donde es la matriz diagonal formada con las varianzas (diagonal de ).

Matriz de correlaciones muestrales: R = D-1/2 S D-1/2,

donde D es la matriz diagonal formada con las varianzas muestrales (diagonal de S).

H0: R= Ip correlaciones nulas (componentes incorreladas ó diagonal) (Jobson p.165)

ETRV: - [ n -1

6( 2p + 11)]

p

jj 1

log

~ 21

p (p 1)2

asintóticamente

siendo 1 ... p los autovalores de R.

H06: 2

1

1 =

1

≡ Varianzas iguales () y correlaciones iguales ()

ETRV: - [ (n-1) -1

6

2

2

p(p 1) (2p 3)

(p 1)(p p 4)

log L] p

jj 1

log

~ 21

p (p 1) 22

asintóticamente

siendo L= p p p

jk 2 2j 2 p p 1 2

j 1 j 1 k 1k j

s| S | 1 1; s s ; r

(s ) (1 r ) [1 (p 1) r ] p p(p 1) s

(Jobson 162 y 166)

H07:

1

1 R=

1

≡ correlaciones iguales () Nota: las varianzas pueden diferir

(Jobson p.167) Correlaciones parciales y correlaciones múltiples, transformación Z de Fisher (Jobson 168)

Page 11: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 11

H0

4.4 Intervalos de confianza para (Seber p.96)

4.4.1 Regiones de confianza simultáneas para los 1

2p(p-1) coeficientes de correlación rjk = jk

j k

Bajo la hipótesis de normalidad, Q ~ Wp(n-1, );

Entonces, lRp, l≠ 0 se tiene que t

t

l Q l

l l~ 2

n 1

Tomando l= (1...0...0)t tenemos un I.de C. para 1

l= (0...1...0)t , un I.de C. para i

l= (1 1 0 ...0)t , un I.de C. para 12

12

A partir de estos I.deC. se construyen otros para ij, ij ... mediante sumas, cocientes... Nota: Las inferencias sobre son muy sensibles a la falta de normalidad. 5 Comparación de medias en DOS poblaciones Np independientes

H0: 1= 2 vs H1: 1≠ 2 (muestras independientes) [5.1]

Problema:

Dadas dos poblaciones Np se pretende comparar sus medias p-dim 1y 2,

Para decidir tomamos sendas m.a.s independientes (NO relacionadas)

muestra en la población 1: v1, ... 1nv m.a.s. de una distribución Np(1, 1)

muestra en la población 2: w1, ...2nw m.a.s. de una distribución Np(2, 2)

Es la misma situación que en el test de simetría ya estudiado, salvo por una diferencia: aquí las muestras no están relacionadas, si no que son independientes. La muestra de la población 1 ahora es independiente de la muestra de la población 2, mientras que en el test de simetría las muestras estaban pareadas, relacionadas por algún tipo de conexión. En el test de simetría, cada individuo (o unidad experimental) i es medido en la izquierda y en la derecha ó antes y después del tratamiento. Ahora se cambia de individuo. A uno se le toman las p medidas en las condiciones 1 (antes/izquierda...) y a otro, en las condiciones 2 (después/derecha...).

El problema va a tener distinta solución según que las matrices de dispersión i sean iguales (apartado 5.1) o no (apartado 5.2). Por eso, y como paso previo (apartado 5.0), haremos un primer contraste para ver si los datos sustentan la hipótesis de igualdad de matrices de dispersión.

5.0 Comparación de matrices de dispersión en DOS poblaciones Np independientes

H0: 1= 2 vs H0: 1≠2 (muestras independientes) (Seber 102)

ETRV: -2 log T ~ 21

p (p 1)2

asintóticamente,

siendo T= C12

1 2n n

2 21 2

n

21 2

| Q | | Q |

| Q Q |; C12= p / 2

nn n1 2

1 2

nn n ; n=n1+n2

Page 12: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 12

H0

H0

H0

H0

5.1 Asumiendo 1= 2 = desconocida queremos contrastar [5.1] (Seber 108)

H0: 1= 2 equivale a H0: 1- 2 = 0

1

2

nt

p 1 1 i i p 1i 11

nt

p 2 2 i i p 2i 12

v ~ N ( , ) indepediente de Q (v v)(v v) ~ W (n 1, )n

w ~ N ( , ) indepediente de Q (w w)(w w) ~ W (n 1, )n

independientes,

luego p 1 2

1 2

1 2 p 1 2

1 1v- w ~ N ( + , ( ) )

n n

Q Q ~ W (n +n 2, )

independientes

ETRV: T02 = 1 2

1 2

n n

n + n( v- w )t Sp

-1 ( v- w ) ~ 1 2

2p, n n 2T siendo Sp

= 1 2

1 2

Q Q

n + n 2

equivalentemente, F0= 1 2

1 2

n + n p 1

(n + n 2) p

T02 ~

1 2p, n n p 1F

Nota sobre normalidad: Los teoremas centrales del límite permiten asumir que v- w tendrá distribución aproximadamente Normal en muestras grandes aunque las distribuciones originales no sean Np. Por esta razón, el test es robusto en muestras grandes frente a la falta de Normalidad.

Nota sobre común: La falta de igualdad entre las matrices de covarianza tiene un efecto muy fuerte sobre el tamaño y la potencia del test.

5.2 Sin asumir 1= 2 = desconocidas, queremos contrastar [5.1] (Seber 114)

5.2.1 n1 = n2 = n0 se reduce al problema de sólo una muestra

Las diferencias di=vi-wi ; i= 1... n0 forman una m.a.s. Np (d, d) con d= 1- 2, d=1+2

Se contrasta H0: d= 0 utilizando T02 = n0 d t Sd

-1 d ~ 0

2p, n 1T con d = v- w

5.2.2 n1 ≠ n2 estamos ante una versión multivariante del problema de Beherens-Fisher y no se conoce solución exacta. (Sriva 118)

Se utiliza el estadístico T02 = ( v- w )t 1

TS ( v- w ) ~ 2p, fT (aproximadamente)

donde 1 2T

1 2

S SS

n n y f=

12t 1 12T i i T

t 1i 1 i T

(v- w) S (S / n )S (v- w)1

n 1 (v- w) S (v- w)

Seber p.115 da

esta expresión para f, mientras que Srivastava p.118 utiliza otra aproximación diferente

Page 13: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 13

H0

H0

H0

H0

5.3 RESUMEN Comparación de medias en 2 poblaciones Np H0: 1= 2

En el problema de comparación de medias (multivariantes) en dos poblaciones normales, distinguimos la misma casística que tratábamos en el caso univariante, cada una con su solución específica.

muestras relacionadas (test de simetría)

T02 = n ( x - y )t (Sxx - Sxy - Syx - Syy)

-1 ( x - y ) ~ T2p, n-1 (apartado 3.3.2)

muestras independientes asumiendo 1= 2 (contraste 1= 2 en 5.0)

T02 = 1 2

1 2

n n

n + n( v- w )t Sp

-1 ( v- w ) ~ 1 2

2p, n n 2T con Sp

= 1 2

1 2

Q Q

n + n 2

(5.1)

muestras independientes sin asumir 1= 2

n1 = n2 = n0 T02 = n0 ( v- w )t Sd

-1 ( v- w ) ~ 0

2p, n 1T con Sd

= 0n ti ii 1

(d d)(d d)

(5.2.1)

n1 ≠ n2 T02 = ( v- w )t 1

TS ( v- w ) ~ 2p, fT aprox. (problema de B-F) (5.2.2)

Nota final: El Modelo Lineal Multivariante nos permite contrastar la igualdad de medias p-dim. en k poblaciones Normales Multivariantes (k ≥ 2), tanto independientes como relacionadas.

H0: 1= 2= ... = k

Page 14: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 14

6 Contrastes de normalidad H0: X ~ Np ó H0: X ~ Np(, )

Problema:

A partir de una m.a.s p-dimensional x1, ... xn debemos decidir si la población es Np

Idea: Las componentes de cualquier vector Np deben ser N1.

Esta es una condición necesaria pero no suficiente, por tanto,

si alguna componente falla N1, el vector no será Np.

si todas las componentes superan el test, no tenemos asegurada aún la Np de X y efectuaremos más pruebas basadas en propiedades multivariantes de la Np.

6.1 Utilizando contrastes de ajuste univariantes

Si detectamos falta de Normalidad a nivel /p en alguna componente de X, se rechaza H0 a nivel al menos. (Bonferroni: pHo(URCi) ≤ pHo(RCi) =p/p=).

Recodemos los contrastes de Normalidad univariante.

Test de Kolmogorov.

Se basa en la máxima separación entre la función de distribución muestral, Fn y la teórica F, en nuestro caso N1. Los parámetros y deben especificarse en H0. En la variante conocida como test de Lilliefords o Kolmogorov-Smirnov, y son desconocidos y se estiman a partir de la misma muestra, calculándose luego la máxima separación entre Fn y F de la N1( x,s2) .

Test de ajuste 2.

La muestra se discretiza en intervalos, con lo que se pierde parte de la información.

Métodos gráficos: Plots de normalidad (rankit plot o qq-plots)

Shapiro-Wilks.

El estadístico W=

2n

i (i)i 1

n2

ii 1

a x

(x x)

es el cociente entre dos estimadores de dispersión

la habitual suma de cuadrados de desviaciones a la media, y otro basado en el estadístico ordenado y sus valores esperados bajo normalidad. Rechaza H0 para valores pequeños de W.

El W test resulta muy potente y es capaz de detectar pequeñas desviaciones de la normal univariante incluso con tamaños muestrales relativamente pequeños. Implementado en los paquetes de programas para muestras cada vez mayores, se va imponiendo a los demás.

Anderson-Darling y Cramer-vonMises.

Aparecen en las salidas del Proc Univariate de SAS. Son del tipo EDF cuadrático, pues se basan en un estadístico Q que promedia la desviación cuadrática entre la función de distribución

muestral y la poblacional con diferentes funciones de peso (x): 2nR

Q n (F (x)-F(x)) Ψ(x) dx

Cramer-vonMises utiliza función de pesos uniforme: (x)= 1 (área2 entre Fn y F)

Anderson-Darling da más importancia a las colas de la distribución: (x)= [ F(x) (1-F(x)]-1

Mientras el estadístico D de Kolmogoroff, sólo mide la máxima diferencia entre Fn y F, el estadístico Q de los contrastes EDF cuadrático tiene en cuenta todos las diferencias Fn (x)-F(x)

Page 15: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 15

6 Contrastes de normalidad H0: X ~ Np ó H0: X ~ Np(, )

Problema:

A partir de una m.a.s p-dimensional x1, ... xn debemos decidir si la población es Np

Idea: Las componentes de cualquier vector Np deben ser N1.

Esta es una condición necesaria pero no suficiente, por tanto,

si alguna componente falla N1, el vector no será Np.

si todas las componentes superan el test, no tenemos asegurada aún la Np de X y efectuaremos más pruebas basadas en propiedades multivariantes de la Np.

6.1 Utilizando contrastes de ajuste univariantes

Si detectamos falta de Normalidad a nivel /p en alguna componente de X, se rechaza H0 a nivel al menos. (Bonferroni: pHo(URCi) ≤ pHo(RCi) =p/p=).

Recodemos los contrastes de Normalidad univariante.

Test de Kolmogorov.

Se basa en la máxima separación entre la función de distribución muestral, Fn y la teórica F, en nuestro caso N1. Los parámetros y deben especificarse en H0. En la variante conocida como test de Lilliefords, y son desconocidos y se estiman a partir de la misma muestra, calculándose luego la máxima separación entre Fn y F de la N1( x,s2) .

Test de ajuste 2.

La muestra se discretiza en intervalos, con lo que se pierde parte de la información.

Métodos gráficos: Plots de normalidad (rankit plot o qq-plots)

Shapiro-Wilks.

El estadístico W=

2n

i (i)i 1

n2

ii 1

a x

(x x)

es el cociente entre dos estimadores de dispersión (la habitual

suma de cuadrados de desviaciones a la media, y otro basado en el estadístico ordenado y sus valores esperados bajo normalidad). Rechaza H0 para valores pequeños de W.

El W test resulta muy potente y es capaz de detectar pequeñas desviaciones de la normal univariante incluso con tamaños muestrales relativamente pequeños. Implementado en los paquetes de programas para muestras cada vez mayores, se va imponiendo a los demás.

Anderson-Darling y Cramer-vonMises.

Aparecen en las salidas del Proc Univariate de SAS. Son del tipo EDF cuadrático, pues se basan en un estadístico Q que promedia la desviación cuadrática entre la función de distribución

muestral y la poblacional con diferentes funciones de peso (x): 2nR

Q n (F (x)-F(x)) Ψ(x) dx

Cramer-vonMises utiliza función de pesos uniforme: (x)= 1

Anderson-Darling da más importancia a las colas de la distribución: (x)= [ F(x) (1-F(x)]-1

Mientras el estadístico D de Kolmogoroff, sólo mide la máxima diferencia entre Fn y F, el estadístico Q de los contrastes EDF cuadrático tiene en cuenta todos las diferencias Fn (x)-F(x)

Page 16: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 16

6 Contrastes de normalidad H0: X ~ Np ó H0: X ~ Np(, )

Problema:

A partir de una m.a.s p-dimensional x1, ... xn debemos decidir si la población es Np

Idea: Las componentes de cualquier vector Np deben ser N1.

Esta es una condición necesaria pero no suficiente, por tanto,

si alguna componente falla N1, el vector no será Np.

si todas las componentes superan el test, no tenemos asegurada aún la Np de X y efectuaremos más pruebas basadas en propiedades multivariantes de la Np.

6.1 Utilizando contrastes de ajuste univariantes

Si detectamos falta de Normalidad a nivel /p en alguna componente de X, se rechaza H0 a nivel al menos. (Bonferroni: pHo(URCi) ≤ pHo(RCi) =p/p=).

Recodemos los contrastes de Normalidad univariante.

Test de Kolmogorov.

Se basa en la máxima separación entre la función de distribución muestral, Fn y la teórica F, en nuestro caso N1. Los parámetros y deben especificarse en H0. En la variante conocida como test de Lilliefords, y son desconocidos y se estiman a partir de la misma muestra, calculándose luego la máxima separación entre Fn y F de la N1( x,s2) .

Test de ajuste 2.

La muestra se discretiza en intervalos, con lo que se pierde parte de la información.

Métodos gráficos: Plots de normalidad (rankit plot o qq-plots)

Shapiro-Wilks.

El estadístico W=

2n

i (i)i 1

n2

ii 1

a x

(x x)

es el cociente entre dos estimadores de dispersión (la habitual

suma de cuadrados de desviaciones a la media, y otro basado en el estadístico ordenado y sus valores esperados bajo normalidad). Rechaza H0 para valores pequeños de W.

El W test resulta muy potente y es capaz de detectar pequeñas desviaciones de la normal univariante incluso con tamaños muestrales relativamente pequeños. Implementado en los paquetes de programas para muestras cada vez mayores, se va imponiendo a los demás.

Anderson-Darling y Cramer-vonMises.

Aparecen en las salidas del Proc Univariate de SAS. Son del tipo EDF cuadrático, pues se basan en un estadístico Q que promedia la desviación cuadrática entre la función de distribución

muestral y la poblacional con diferentes funciones de peso (x): 2nR

Q n (F (x)-F(x)) Ψ(x) dx

Cramer-vonMises utiliza función de pesos uniforme: (x)= 1

Anderson-Darling da más importancia a las colas de la distribución: (x)= [ F(x) (1-F(x)]-1

Mientras el estadístico D de Kolmogoroff, sólo mide la máxima diferencia entre Fn y F, el estadístico Q de los contrastes EDF cuadrático tiene en cuenta todos las diferencias Fn (x)-F(x)

Page 17: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 17

6.2.2 Contraste basado en Medida de Asimetría multivariante (skewness)

Skewness Poblacional:

1, p= E((x- )t-1 (y- ))3 , siendo x e y dos vectores aleatorios i.i.d.

para p=1 se tiene que: 1,p = E(x

)3 , skewness univariante.

Para x, y v.a.i.i.d. Np(, ) se obtiene 1, p= 0

Skewness Muestral: Ap= b1, p= n

3ij2

i, j 1

1g

n con gij= (xi - x )t

1 (xj - x );

a veces se utiliza S-1 en lugar de 1

Si x1, ... xn es una m.a.s. Np(, ) , entonces E b1, p= 0 y,

21,p 1

p(p 1)(p 2)6

nb ~

6 cuando n

(para n>50 es satisfactoria la aproximación por la ley asintótica)

6.2.3 ... y en una Medida de Kurtosis multivariante (skewness)

Kurtosis Poblacional:

2, p= E((x- )t-1 (x- ))2 , siendo x un vector aleatorio

para p=1 se tiene que: 2, p -3 = E(x

)4 , kurtosis univariante.

Para x ~ Np(, ) se obtiene 2,p= p(p+2)

Kurtosis Muestral: Kp= b2, p= n

2ii

i 1

1g

n

Si x1, ... xn es una m.a.s. Np(, ), entonces E b2, p= n 1

n 1

y,

2,p

8b ~ N(p(p 2), p(p 2))

n cuando n

(para n>50 es satisfactoria la aproximación por la ley asintótica)

Los contrastes de normalidad 6.2.2 y 6.2.3 basados en las medidas de kurtosis y asimetría multivariantes resultan invariantes para transformaciones lineales. No son muy potentes, pero resultan útiles para detectar falta de normalidad en datos con valores de asimetría o kurtosis claramente fuera de rango.

Page 18: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 18

7 Outliers multidimensionales/ Tests basados en distancias de Mahalanobis.

7.1 Observación más alejada (Srivastava p.58)

Test para contrastar, bajo normalidad,

si la observación más alejada tiene media diferente a las n-1 observaciones restantes:

La observación más alejada es Np(, ), y todas las demás Np(, )

Contraste: H0: = H1: ≠ ( y desconocidos)

Se basa en la distancia de Mahalanobis muestral de cada observación, xi, al centro de los datos, x:

Di =D(xi, x )= (xi- x)tS-1 (xi- x) Q= maxi Di

R.C.: Declaro outlier si Q > Q , siendo Q =2c (n 1)

1 c n

, c = p,n p 1,1

n

pF

n p 1

Justificación: Sea Ti= 2

n

(n 1)Di ; se tiene que Fi = i

i

Tn p 1

p 1 T

~ Fp, n-p-1

aplicando Bonferroni con nivel n

sobre los n valores Fi

se obtiene un test de nivel ≤ :

La observación más alejada de xserá declarada outlier si Q > Q

El test se aplica de forma iterada:

Si Q > Q , elimino el outlier …y repito el proceso con los individuos restantes

hasta que Q ya no supere el valor crítico Q.

7.2 Alternativa

Pueden utilizarse los momentos muestrales (i)x yS(i) (computados sin el elemento xi) :

bi2 = (xi - (i)x )t S(i)

-1 (xi - (i)x )

7.3 Razón de varianzas generalizadas

ri2 = (i)| S |

| S |

Los tres estadísticos Q, bi2 y ri

2 definidos en 7.1, 7.2 y 7.3

dan lugar a la misma ordenación de las observaciones extremas.

7.4 Grupos de outliers y grupos diferenciados

La detección de grupos de outliers es más compleja, especialmente si el grupo candidato a outlier no está identificado de antemano. Se puede generalizar el estadístico bi

2 eliminando un grupo i de t observaciones (en lugar de sólo una) para computar (i)x yS(i).

Si se detectan varios grupos sospechosos de comportamiento diferenciado, se puede emplear un MANOVA confirmatorio (compara las medias p-dim a través de los t grupos)

Ho: 1= 2= … = p

Page 19: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 19

8 Transformaciones para obtener Normalidad

Los fallos de asimetría y kurtosis univariante se corrigen mediante la familia de transformaciones potencia de Box y Cox y la familia de transformaciones módulo de Johnson-Draper respectivamente, para conseguir valores compatibles con la normalidad. Para cada muestra se encuentra el valor que proporciona la transformación óptima.

Para corregir los fallos de asimetría y kurtosis multivariante, los algoritmos de optimización de los ’s requieren cálculos fuertemente intensivos y resultan poco operativos:

sup

L () = sup

[ ( )

n 1log | S |

2

] con = ( 1, ... p)

Por eso recurrimos a las transformaciones univariantes. El procedimiento univariante aplicado componente a componente en principio no garantiza normalidad multivariante, pero es lo que se emplea porque resulta operativo y en la práctica suele dar resultados suficientemente satisfactorios.

En cualquier caso, después de aplicar las transformaciones univariantes apropiadas comprobaremos si los nuevos datos superan los tests de normalidad multivariante.

8.1 Transformaciones univariantes

Las transformaciones univariantes usuales para conseguir normalidad son éstas:

T1 Transformación potencia de Box y Cox. Tiende a eliminar la asimetría de los datos.

1

( ) i 1i

1 i

(x 1) / g si 0y

g log x si = 0

donde g1= n1 nx ...x es la media geométrica de los datos.

Debe aplicarse a datos x1 ... xn todos positivos.

T1a Si hay alguna observación xi negativa, se trasladan los datos una cantidad a para hacerlos positivos y después se aplica la transformación potencia:

1

( ) i 2i

2 i

[(x a) 1] / g si 0y

g log (x +a) si = 0

donde g2= n1 n(x a)...(x a) es la media geométrica de los datos trasladados.

T2 Transformación módulo de Johnson y Draper, para datos simétricos con kurtosis ≠ 0.

1

i 3 i( )i

3 i i

[(| x b | +1 ) 1] / g signo(x b) si 0z

g log ( | x b | +1 ) signo(x b) si = 0

donde g3= n1 n(| x b | 1)...(| x b | 1) y

como valor b suele tomarse la media aritmética o geométrica de los datos.

Page 20: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 20

8.2 Efecto que produce la transformación, según sea

Valor =1 : no transforma los datos.

Valores >1

Se separan los valores altos de x y se comprimen los menores; tanto más cuanto mayor sea .

Valores <1

trabaja al revés, separando los pequeños y comprimiendo los grandes.

Estas familias incluyen en particular las transformaciones log x, x y 1/x.

8.3 Valor óptimo de

Una vez elegida la familia (T1 ó T2 de 8.1), buscamos el mejor valor de aplicando el criterio de máxima verosimilitud: si un miembro de la familia de transformaciones produce datos compatibles con la Normalidad, la verosimilitud (o log-verosimilitud) normal alcanzará su valor máximo.

El EMV será por tanto el valor que maximiza la log-verosimilitud: 2n 1 n 1log( S )

2 2

,

donde 2S representa la cuasivarianza muestral de los datos transformados;

Equivalentemente, es el valor que maximiza L () = - log 2S o sea, el que minimiza 2S .

Las salidas gráficas de los programas suelen proporcionar plots (, 2S ) para detectar de

forma aproximada el valor óptimo de .

8.4 Conveniencia de transformar los datos para conseguir normalidad

Los contrastes T2 de localización son robustos para falta de asimetría ó kurtosis y los niveles de significación pueden mantenerse para datos aproximadamente normales.

La falta de normalidad por otras razones (por ejemplo mixtura de normales) les afecta más.

La normalidad multivariante muchas veces falla porque se da una de estas dos situaciones:

Situación 1: Las marginales son aproximadamente simétricas y las relaciones de dependencia son aproximadamente lineales, pero hay unos pocos valores atípicos (outliers).

Solución : Eliminamos los outliers, o utilizamos estimadores robustos de y .

(ver las opciones Trimmed y Winsorized de SAS/ Proc Univariate)

Situación 2: Las marginales son asimétricas en su mayor parte y aparecen relaciones no lineales entre variables.

Solución : Transformamos los datos en busca de simetría y relaciones lineales entre componentes.

Page 21: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 21

INDICE del Tema2: Inferencias en la Np

0 Notación 1 Distancia de Mahalanobis 2 Estimadores puntuales de y

3 Contrastes y regiones de confianza para 3.1 Test 2 3.2 Test

2 de Hotelling; propiedades 3.3 Contrastes sobre una o varias combinaciones lineales de H0: A=b 3.3.1 Aplicación1: Análisis de la Varianza con medidas repetidas 3.3.2 Contraste general A=b (para A cualquier matriz qxp y b cualquier vector de Rp) 3.3.3 Aplicación 2: Contraste de Simetría H0: 1= 2 (muestras relacionadas) 3.4 Intervalos de confianza para combinaciones lineales: I. de C. para at 3.4.1 Para una función lineal: at 3.4.2 Para r combinaciones lineales {ai

t }i=1...r preespecificadas: A 3.4.3 Para r combinaciones lineales no preespecificadas: A

4 Contrastes y regiones de confianza para 4.1 Independencia de Bloques4.1.1 2 bloques independientes H0: 12= 0 4.1.2 r bloques independientes H0: ij= 0 i≠ j 4.2 Contraste de esfericidad e independencia H0: = Ip 4.3 Contraste sobre correlaciones 4.4 Intervalos de confianza para 4.4.1 Regiones de confianza simultáneas para los coeficientes de correlación rjk

5 Comparación de medias de DOS poblaciones Np independientes 5.0 Comparación de matrices de dispersión en DOS poblaciones Np independientes H0: 1= 2 (muestras independientes) 5.1 H0: 1= 2 muestras independientes (asumiendo 1= 2 = ) 5.2 H0: 1= 2 muestras independientes (sin asumir 1= 2 = 5.2.1 n1 = n2 = n0 se reduce al problema de una sola muestra 5.2.2 n1 ≠ n2 problema de Beherens-Fisher 5.3 Resumen H0: 1= 2 Comparación de medias p-dim en 2 poblaciones Np

6 Contrastes de normalidad H0: X ~ Np ó H0: X ~ Np(, ) 6.1 Utilizando contrastes de ajuste univariantes 6.2 Utilizando características multivariantes de la Np

6.2.1 Plot de Normalidad multivariante 6.2.2 Contraste basado en Medida de Asimetría multivariante (skewness) 6.2.3 ... y en una Medida de Kurtosis multivariante (skewness)

7 Outliers multidimensionales/ Tests basados en distancias de Mahalanobis. 7.1 Observación más alejada 7.2 Alternativa 7.3 Razón de varianzas generalizadas

8 Transformaciones para obtener Normalidad 8.1 Transformaciones univariantes 8.2 Efecto de la transformación, según sea 8.3 Valor óptimo de 8.4 Conveniencia de transformar los datos para conseguir normalidad Apéndice 1 Computación secuencial de momentos muestrales

Page 22: Tema 2 Inferencias para la Normal Multivariantevalentin/ad3d/anadat/np/jtv/infnormal.pdf · Ejemplo: Supongamos que en varias pruebas de 20 Km marcha se toman datos sobre tiempos

infnormal.doc 24/03/2015 [email protected] 22

Apéndice 1 Computación secuencial de momentos muestrales Cómo se modifica la media muestral y la matriz de covariancias empíricas al añadir a la muestra una nueva observación xn+1 (resp. al eliminar una de ellas, xn). Esto permite calcular los momentos muestrales de forma secuencial sin necesidad de manejar la matriz de datos completa.