influencia local en regresión logística
Post on 16-Oct-2021
8 Views
Preview:
TRANSCRIPT
© D
el d
ocum
ento
, de
los a
utor
es. D
igita
lizac
ión
real
izad
a po
r ULP
GC
. Bib
liote
ca U
nive
rsita
ria, 2
017
Rev. Acad. Canar. Cienc., XII (Núms. 1-2), 23-31 (2000) - (Publicado en julio de 2001)
INFLUENCIA LOCAL EN REGRESIÓN LOGÍSTICA
Miguel A. González Sierra MAGSIERR@ULL.ES
M. Mercedes Suárez Rancel MSUAREZ@ULL.ES
Departamento de Estadística, Investigación Operativa y Computación Facultad de Matemáticas. Universidad de La Laguna
Tenerife (38271) España
Abstract
The method of local influence was introduced by Cook [4] and a simplification variation
proposal by Billor & Loynes [1). In this paper we develop the concept oflocal influence, following
Billor & Loynes, to the logistic regression model.
Keywords: Logistic Regression, Local Influence.
CLASSIFICATION AMS: 62J20.
Resumen
El concepto de influencia local fue introducido por Cook [4] y una variante simplificadora
propuesta por Billor & Loynes [1). ~n este trabajo se desarrolla el concepto de influencia local,
según Billor & Loynes, al modelo de regresión logística.
Palabras clave: Influencia local, Regresión logística
CLASSIFICATION AMS: 62J20.
23
© D
el d
ocum
ento
, de
los a
utor
es. D
igita
lizac
ión
real
izad
a po
r ULP
GC
. Bib
liote
ca U
nive
rsita
ria, 2
017
l. INTRODUCCIÓN
Cook [4] propuso un método general para evaluar la influencia local sobre las hipótesis de
partida basadas en modelos de log-verosimilitudes (no necesariamente modelos de regresión). El
punto de partida es que una perturbación pequeña en el modelo puede producir un mayor cambio en
partes esenciales de los resultados del análisis, entonces habrá evidencia de una dificultad. Esto
sugiere medir la sensibilidad de cambio en el modelo por algún tipo de derivada. Cook sugirió usar
la curvatura normal del desplazamiento en la superficie de verosimilitudes. Billor y Loynes [1)
puntualizaron algunas dificultades de calculo para la máxima curvatura en aplicaciones practicas y
propusieron una nueva medida de influencia local más simple de calcular.
Atendiendo a dicha simplicidad, se traslada el concepto de influencia local en el sentido de
Billor y Loynes al modelo de regresión logística. En la sección 2 damos una idea general de la
influencia local. Sección 3 describe el ajuste del modelo logístico. En la sección 4 adaptamos la
influencia local según hemos mencionado, al caso de regresión logística. En la sección 5 aportamos
varios ejemplos.
2. INFLUENCIA LOCAL
Consideremos el modelo estándar de regresión lineal
(1)
donde e es un vector n x 1 cuyos elementos son asumidos como variables aleatorias independientes
de media cero y varianza conocida ri, X es una matriz conocida de n x k con rango de columna
máximo, 13 es un k x 1 vector de parámetros e Y es un n x 1 vector de la variable respuesta.
24
© D
el d
ocum
ento
, de
los a
utor
es. D
igita
lizac
ión
real
izad
a po
r ULP
GC
. Bib
liote
ca U
nive
rsita
ria, 2
017
Muchas medidas han sido sugeridas para evaluar la influencia de observaciones en el
modelo de regresión. Chaterjee y Hadi [2] dieron una excelente revisión del tema. Cook [4]
considero una versión general de la distancia de Cook [3]
llir-Í',,,11· D, = kq'
donde Y, Ycl) son los n x 1 vectores de valores ajustados basados en el conjunto de todas las
observaciones y los datos sin la observación i-esima, respectivamente. Este autor propuso
generalizar a
llir-Í',.,11· D,(w)= kd
donde Y,., representa el vector de valores ajustados cuando la i-ésima observación se pondera con
un peso w (O < w ~ 1) y el resto de observaciones con un peso 1.
Esta idea se puede extender a modelos más generales. La extensión esta parcialmente
motivada por la siguiente relación entre D¡(w) y la log-verosimilitud L(p) del modelo (1)
kD,(w) ~ [llr-Y.~ }- ~'] ~ 2[ L(/J)-L().)] ,
" " . donde /J= /3_1 y /J. son los estimadores de máxima verosimilitud de P cuando la i-ésima
observación tiene un peso igual a w. La forma de esta relación es una consecuencia de la estructura
estadística asumida para los errores del modelo (1).
La log-verosimilitud para los modelos no perturbados y perturbados son denotados por L(0)
y L(01w), respectivamente. Entonces el desplazamiento LD(w) es definido por
LD(w) = 2[ L(O)-L(O.,) J ,
25
© D
el d
ocum
ento
, de
los a
utor
es. D
igita
lizac
ión
real
izad
a po
r ULP
GC
. Bib
liote
ca U
nive
rsita
ria, 2
017
donde fJ y (Jw son Jos estimadores de máxima verosimilitud bajo los modelos no perturbados y
perturbados, respectivamente.
El gráfico de LD(w) frente a w (gráfico de influencia) contendrá la información esencial de
Ja influencia del esquema de perturbación seleccionado. Este grafico puede ser considerado como
una superficie geométrica formada por el vector a(w)=(w' ,LD(w)) cuando wen. Cook [4] propuso
un método basado en Ja dirección donde Ja curvatura Cd es máxima ( dmAx) e indico el grafico de
LD(w0+admAx) frente a 'a' para determinar las observaciones localmente influyentes.
Billor & Loynes [1] muestran algunas dificultades teóricas sobre el enfoque de Cook [4],
además de no tener una expresión analítica general para dicha curvatura máxima. Para evitar estas
dificultades sugieren un desplazamiento de verosimilitud alternativo
LD• (w) = -2[ L(O)-L(Bw J w) J (2)
" donde L(&w J w) es Ja Jog-verosimilitud del modelo perturbado. Además sugieren que Ja primera
derivada de LD• aporta información valiosa acerca del comportamiento local de LD•, así ellos usan
Ja dirección que produce el máximo incremento de LD •, con Ja pendiente
Si tomamos el modelo perturbado:
Y=XJ3+e (la)
con var(e)=cr2W 1 siendo W = diag(l,l,. . .,l+w¡ ,1,. . .,1) entonces se tiene:
l = l . = (1- ej J i max.i 2 (j
(3)
26
© D
el d
ocum
ento
, de
los a
utor
es. D
igita
lizac
ión
real
izad
a po
r ULP
GC
. Bib
liote
ca U
nive
rsita
ria, 2
017
3. MODELO DE REGRESIÓN LOGÍSTICO
Si consideramos una muestra den variables respuesta binomial y1 - B(n1,p1), la función de
log-verosimilitud de la muestra es
(4)
llamando fJ1 = 1ogit(p1) = log(p1 /(1- p1 ))
Dado el correspondiente conjunto de k variables explicativas (X.,X2 ,. .. ,Xk) el modelo de
regresión logística utiliza la relación
fJ = log it(p) = X/J
como la descripción lineal de la componente sistemática de la variable respuesta Y.
En términos del vector /J tenemos la siguiente expresión para la función de log-
verosimilitud (4):
L(/J,Y)= f.L(/J,y¡)= f.[y1x;/J+n11oj_l _·x J+lojn,)] (4a) l•I i•I 6\.l+eA 1 6\_y,
El estimador de máxima verosimilitud de fJ es una solución de :~ = O que nos lleva a
f.(y1 -n1 ;,)xy =O j = 1,2, ... ,k ;-1
o matricialmente a X's = x' (Y -h siendo s =Y - n ~
Estas ecuaciones, similares a las del modelo (1), son no lineales en /J y deben resolverse
iterativamente. Típicamente, usando el algoritmo de Newton-Rapshon se llega al procedimiento
iterativo siguiente
t=O,l, ...
27
© D
el d
ocum
ento
, de
los a
utor
es. D
igita
lizac
ión
real
izad
a po
r ULP
GC
. Bib
liote
ca U
nive
rsita
ria, 2
017
donde V y 's' son evaluados en fJ' , además [- ~~e:] = X' V-\" siendo V = diag{ n, p1 (1- p:)}
Este procedimiento puede expresarse en la siguiente forma más útil
/J'+I = (X1vxr1 X'Vz'
utilizando el seudovector de observaciones z' = X/J' + v-1s
En la convergencia se tiene z =X P+ v-1s (5) y por tanto p = (X1vxr1 X'Vz. Este método
se le conoce también como método iterativo de mínimos cuadrados reponderados.
Una vez ajustado el modelo disponemos, usualmente, de dos estadísticos de bondad de
ajuste, de los modelos log lineales, el estadístico z2 y la deviance D, que nos pennite evaluar dicho
ajuste globalmente y de los residuales a través de los componentes individuales de dichos
estadísticos:
ó residual de Pearson estandarizado r; = ,.,2-;:...¡ l - h11
Para las observaciones influyentes, en analogía al modelo lineal, dadas las ecuaciones
resultantes, la matriz de proyección es
M = l - H = I - V112 X(X'VXr1 X'V112 = (m11 )
así observaciones con pequeño valor de m¡¡ o grandes de h¡¡, serán útiles para detectar puntos
extremos en el espacio del diseño.
Sabemos que la forma usual de detectar puntos influyentes es observar el efecto de eliminar
dicha observación en los resultados de la regresión. En nuestro caso particular, para los coeficientes
de regresión, tenemos
28
© D
el d
ocum
ento
, de
los a
utor
es. D
igita
lizac
ión
real
izad
a po
r ULP
GC
. Bib
liote
ca U
nive
rsita
ria, 2
017
" " " " " 2h ' oih l::i./J - (/J- n )'(X'VX)(/J- n ) - r, " - !j__g_ ' - fJ(t) tJ¡1¡ - (l-h¡¡)2 -1-hu
" utilizando en ftc,> el estimador de una etapa.
Si llevamos este esquema de eliminación a los residuales, tendremos respectivamente
la observación de estas cantidades junto con h¡¡ determinara la naturaleza del punto anómalo, en
caso de su existencia.
4. PERTURBACIONES EN EL MOD~Ló DE REGRESIÓN LOGÍSTICA
Dada la naturaleza no lineal del modelo de regresión logística proponemos el siguiente
esquema ,de desplazamientos en el logit de p¡ para la observadón x¡.
logit(p1) = (1 + w, )/! x, (6)
Se tiene la siguiente función de log-verosimilitud del modelo perturbado
de donde, la pendiente de la dirección de máximo incremento de LD• es
(3a)
Si fuesen perturbadas todas las observaciones según (6) se tendría
29
© D
el d
ocum
ento
, de
los a
utor
es. D
igita
lizac
ión
real
izad
a po
r ULP
GC
. Bib
liote
ca U
nive
rsita
ria, 2
017
5.EJEMPLOS
5.1 Datos de Finney
Como primera aplicación, consideremos los datos de Finney, utilizados por Pregibon [6] .
Los datos reflejan los valores del volumen y tasa de aire inspirado sobre la vasoconstricción
transitoria en la piel de los dedos, registrados en varios sujetos. Dada la característica de la variable
respuesta solo se pudo registrar la ocurrencia o no de la vasoconstricción de una manera fiable. Se
ajusto el siguiente modelo a los datos
logit(p) =Po+ P1 log(Tasa) + P2 log(Volumen)
Los datos contienen dos observaciones, la 4 y 18, que no se ajustan bien al modelo
propuesto.y producen los mayores residuales. Como se puede observar en la tabla I, estas
observaciones también producen mayores valores sobre la medida l; de (3a).
T bl ID a a . a tos d . . , d F' e vasoconstncc1on e inney: M d'd d 'nfl e i as e1 uenc1a Casos r¡ d¡ hij . A ó.z, 2 w , Curva t. ¡1,¡ 'í ó./l¡ Cook
4 3.518 2.278 .087 3.681 1.287 13.552 6.363 1.074 2.328 18 2.906 2.119 .095 3.056 .984 9.336 5.382 .806 1.908
5.2 Datos ficticios de Pregibon
Este autor propone un conjunto de datos ficticios entre dos variables, que ajusta a un modelo
logístico, donde se refleja notoramiente que la última observación es influyente. Al igual que en el
ejemplo anterior en la tabla II aportamos los valores de los estadísticos, donde también se pone de
manifiesto la detección por parte de la medida que se propone.
30
© D
el d
ocum
ento
, de
los a
utor
es. D
igita
lizac
ión
real
izad
a po
r ULP
GC
. Bib
liote
ca U
nive
rsita
ria, 2
017
Tabla 11. Datos ficticios de Pregibon
X y r¡ d¡ h¡¡ l¡ C¡
1 1 -.781 -.976 .255 .187 .155
2 1 -.832 -1.026 .203 .151 .140
3 1 -.886 -1.077 .160 .106 .125
4 1 -.944 -1.129 .127 .055 .113
5 o .995 1.173 .106 .005 .105
6 o .934 1.120 .097 .064 .085
7 o .877 1.068 .101 .114 .077
8 o .823 1.017 .116 .157 .079
9 o .773 .968 .142 .193 .085
10 o .725 .919 .178 .221 .094
17 1 -2.145 -1.856 .516 -1.254 2.373
BIBLIOGRAFIA
[1] Billor, N., Loynes, R.M. (1993). "Local Influence: A New Approach".Comm. Statist.-Theory
Meth.,22, 1595-1611.
[2] Chatterjee, S. and A. S. Hadi (1986). "influential observations, high leverage points, and outliers
in linear regression". Statistical Science, 1 (3), 379-416
[3] Cook, R. D. (1977). "Detection of Influential Observations in Linear Regression'',
Technometrics, 19, 15-18.
[4] Cook, R.D. (1986). "Assessment of Local Influence (with discussion)". Journal of de Royal
Statistical Society, Ser. B., 48, 133-169.
[5] Pregibon, D. (1981). "Logistic Regression Diagnostics". Annals of Statistics, 9, 705-724.
31
top related