influencia local en regresión logística

ria, 2

Rev. Acad. Canar. Cienc., XII (Núms. 1-2), 23-31 (2000) - (Publicado en julio de 2001)

INFLUENCIA LOCAL EN REGRESIÓN LOGÍSTICA

Miguel A. González Sierra MAGSIERR@ULL.ES

M. Mercedes Suárez Rancel MSUAREZ@ULL.ES

Departamento de Estadística, Investigación Operativa y Computación Facultad de Matemáticas. Universidad de La Laguna

Tenerife (38271) España

Abstract

The method of local influence was introduced by Cook [4] and a simplification variation

proposal by Billor & Loynes [1). In this paper we develop the concept oflocal influence, following

Billor & Loynes, to the logistic regression model.

Keywords: Logistic Regression, Local Influence.

CLASSIFICATION AMS: 62J20.

Resumen

El concepto de influencia local fue introducido por Cook [4] y una variante simplificadora

propuesta por Billor & Loynes [1). ~n este trabajo se desarrolla el concepto de influencia local,

según Billor & Loynes, al modelo de regresión logística.

Palabras clave: Influencia local, Regresión logística

CLASSIFICATION AMS: 62J20.

ria, 2

l. INTRODUCCIÓN

Cook [4] propuso un método general para evaluar la influencia local sobre las hipótesis de

partida basadas en modelos de log-verosimilitudes (no necesariamente modelos de regresión). El

punto de partida es que una perturbación pequeña en el modelo puede producir un mayor cambio en

partes esenciales de los resultados del análisis, entonces habrá evidencia de una dificultad. Esto

sugiere medir la sensibilidad de cambio en el modelo por algún tipo de derivada. Cook sugirió usar

la curvatura normal del desplazamiento en la superficie de verosimilitudes. Billor y Loynes [1)

puntualizaron algunas dificultades de calculo para la máxima curvatura en aplicaciones practicas y

propusieron una nueva medida de influencia local más simple de calcular.

Atendiendo a dicha simplicidad, se traslada el concepto de influencia local en el sentido de

Billor y Loynes al modelo de regresión logística. En la sección 2 damos una idea general de la

influencia local. Sección 3 describe el ajuste del modelo logístico. En la sección 4 adaptamos la

influencia local según hemos mencionado, al caso de regresión logística. En la sección 5 aportamos

varios ejemplos.

2. INFLUENCIA LOCAL

Consideremos el modelo estándar de regresión lineal

donde e es un vector n x 1 cuyos elementos son asumidos como variables aleatorias independientes

de media cero y varianza conocida ri, X es una matriz conocida de n x k con rango de columna

máximo, 13 es un k x 1 vector de parámetros e Y es un n x 1 vector de la variable respuesta.

ria, 2

Muchas medidas han sido sugeridas para evaluar la influencia de observaciones en el

modelo de regresión. Chaterjee y Hadi [2] dieron una excelente revisión del tema. Cook [4]

considero una versión general de la distancia de Cook [3]

llir-Í',,,11· D, = kq'

donde Y, Ycl) son los n x 1 vectores de valores ajustados basados en el conjunto de todas las

observaciones y los datos sin la observación i-esima, respectivamente. Este autor propuso

generalizar a

llir-Í',.,11· D,(w)= kd

donde Y,., representa el vector de valores ajustados cuando la i-ésima observación se pondera con

un peso w (O < w ~ 1) y el resto de observaciones con un peso 1.

Esta idea se puede extender a modelos más generales. La extensión esta parcialmente

motivada por la siguiente relación entre D¡(w) y la log-verosimilitud L(p) del modelo (1)

kD,(w) ~ [llr-Y.~ }- ~'] ~ 2[ L(/J)-L().)] ,

" " . donde /J= /3_1 y /J. son los estimadores de máxima verosimilitud de P cuando la i-ésima

observación tiene un peso igual a w. La forma de esta relación es una consecuencia de la estructura

estadística asumida para los errores del modelo (1).

La log-verosimilitud para los modelos no perturbados y perturbados son denotados por L(0)

y L(01w), respectivamente. Entonces el desplazamiento LD(w) es definido por

LD(w) = 2[ L(O)-L(O.,) J ,

ria, 2

donde fJ y (Jw son Jos estimadores de máxima verosimilitud bajo los modelos no perturbados y

perturbados, respectivamente.

El gráfico de LD(w) frente a w (gráfico de influencia) contendrá la información esencial de

Ja influencia del esquema de perturbación seleccionado. Este grafico puede ser considerado como

una superficie geométrica formada por el vector a(w)=(w' ,LD(w)) cuando wen. Cook [4] propuso

un método basado en Ja dirección donde Ja curvatura Cd es máxima ( dmAx) e indico el grafico de

LD(w0+admAx) frente a 'a' para determinar las observaciones localmente influyentes.

Billor & Loynes [1] muestran algunas dificultades teóricas sobre el enfoque de Cook [4],

además de no tener una expresión analítica general para dicha curvatura máxima. Para evitar estas

dificultades sugieren un desplazamiento de verosimilitud alternativo

LD• (w) = -2[ L(O)-L(Bw J w) J (2)

" donde L(&w J w) es Ja Jog-verosimilitud del modelo perturbado. Además sugieren que Ja primera

derivada de LD• aporta información valiosa acerca del comportamiento local de LD•, así ellos usan

Ja dirección que produce el máximo incremento de LD •, con Ja pendiente

Si tomamos el modelo perturbado:

Y=XJ3+e (la)

con var(e)=cr2W 1 siendo W = diag(l,l,. . .,l+w¡ ,1,. . .,1) entonces se tiene:

l = l . = (1- ej J i max.i 2 (j

ria, 2

3. MODELO DE REGRESIÓN LOGÍSTICO

Si consideramos una muestra den variables respuesta binomial y1 - B(n1,p1), la función de

log-verosimilitud de la muestra es

llamando fJ1 = 1ogit(p1) = log(p1 /(1- p1 ))

Dado el correspondiente conjunto de k variables explicativas (X.,X2 ,. .. ,Xk) el modelo de

regresión logística utiliza la relación

fJ = log it(p) = X/J

como la descripción lineal de la componente sistemática de la variable respuesta Y.

En términos del vector /J tenemos la siguiente expresión para la función de log-

verosimilitud (4):

L(/J,Y)= f.L(/J,y¡)= f.[y1x;/J+n11oj_l _·x J+lojn,)] (4a) l•I i•I 6\.l+eA 1 6\_y,

El estimador de máxima verosimilitud de fJ es una solución de :~ = O que nos lleva a

f.(y1 -n1 ;,)xy =O j = 1,2, ... ,k ;-1

o matricialmente a X's = x' (Y -h siendo s =Y - n ~

Estas ecuaciones, similares a las del modelo (1), son no lineales en /J y deben resolverse

iterativamente. Típicamente, usando el algoritmo de Newton-Rapshon se llega al procedimiento

iterativo siguiente

t=O,l, ...

ria, 2

donde V y 's' son evaluados en fJ' , además [- ~~e:] = X' V-\" siendo V = diag{ n, p1 (1- p:)}

Este procedimiento puede expresarse en la siguiente forma más útil

/J'+I = (X1vxr1 X'Vz'

utilizando el seudovector de observaciones z' = X/J' + v-1s

En la convergencia se tiene z =X P+ v-1s (5) y por tanto p = (X1vxr1 X'Vz. Este método

se le conoce también como método iterativo de mínimos cuadrados reponderados.

Una vez ajustado el modelo disponemos, usualmente, de dos estadísticos de bondad de

ajuste, de los modelos log lineales, el estadístico z2 y la deviance D, que nos pennite evaluar dicho

ajuste globalmente y de los residuales a través de los componentes individuales de dichos

estadísticos:

ó residual de Pearson estandarizado r; = ,.,2-;:...¡ l - h11

Para las observaciones influyentes, en analogía al modelo lineal, dadas las ecuaciones

resultantes, la matriz de proyección es

M = l - H = I - V112 X(X'VXr1 X'V112 = (m11 )

así observaciones con pequeño valor de m¡¡ o grandes de h¡¡, serán útiles para detectar puntos

extremos en el espacio del diseño.

Sabemos que la forma usual de detectar puntos influyentes es observar el efecto de eliminar

dicha observación en los resultados de la regresión. En nuestro caso particular, para los coeficientes

de regresión, tenemos

ria, 2

" " " " " 2h ' oih l::i./J - (/J- n )'(X'VX)(/J- n ) - r, " - !j__g_ ' - fJ(t) tJ¡1¡ - (l-h¡¡)2 -1-hu

" utilizando en ftc,> el estimador de una etapa.

Si llevamos este esquema de eliminación a los residuales, tendremos respectivamente

la observación de estas cantidades junto con h¡¡ determinara la naturaleza del punto anómalo, en

caso de su existencia.

4. PERTURBACIONES EN EL MOD~Ló DE REGRESIÓN LOGÍSTICA

Dada la naturaleza no lineal del modelo de regresión logística proponemos el siguiente

esquema ,de desplazamientos en el logit de p¡ para la observadón x¡.

logit(p1) = (1 + w, )/! x, (6)

Se tiene la siguiente función de log-verosimilitud del modelo perturbado

de donde, la pendiente de la dirección de máximo incremento de LD• es

Si fuesen perturbadas todas las observaciones según (6) se tendría

ria, 2

5.EJEMPLOS

5.1 Datos de Finney

Como primera aplicación, consideremos los datos de Finney, utilizados por Pregibon [6] .

Los datos reflejan los valores del volumen y tasa de aire inspirado sobre la vasoconstricción

transitoria en la piel de los dedos, registrados en varios sujetos. Dada la característica de la variable

respuesta solo se pudo registrar la ocurrencia o no de la vasoconstricción de una manera fiable. Se

ajusto el siguiente modelo a los datos

logit(p) =Po+ P1 log(Tasa) + P2 log(Volumen)

Los datos contienen dos observaciones, la 4 y 18, que no se ajustan bien al modelo

propuesto.y producen los mayores residuales. Como se puede observar en la tabla I, estas

observaciones también producen mayores valores sobre la medida l; de (3a).

T bl ID a a . a tos d . . , d F' e vasoconstncc1on e inney: M d'd d 'nfl e i as e1 uenc1a Casos r¡ d¡ hij . A ó.z, 2 w , Curva t. ¡1,¡ 'í ó./l¡ Cook

4 3.518 2.278 .087 3.681 1.287 13.552 6.363 1.074 2.328 18 2.906 2.119 .095 3.056 .984 9.336 5.382 .806 1.908

5.2 Datos ficticios de Pregibon

Este autor propone un conjunto de datos ficticios entre dos variables, que ajusta a un modelo

logístico, donde se refleja notoramiente que la última observación es influyente. Al igual que en el

ejemplo anterior en la tabla II aportamos los valores de los estadísticos, donde también se pone de

manifiesto la detección por parte de la medida que se propone.

ria, 2

Tabla 11. Datos ficticios de Pregibon

X y r¡ d¡ h¡¡ l¡ C¡

1 1 -.781 -.976 .255 .187 .155

2 1 -.832 -1.026 .203 .151 .140

3 1 -.886 -1.077 .160 .106 .125

4 1 -.944 -1.129 .127 .055 .113

5 o .995 1.173 .106 .005 .105

6 o .934 1.120 .097 .064 .085

7 o .877 1.068 .101 .114 .077

8 o .823 1.017 .116 .157 .079

9 o .773 .968 .142 .193 .085

10 o .725 .919 .178 .221 .094

17 1 -2.145 -1.856 .516 -1.254 2.373

BIBLIOGRAFIA

[1] Billor, N., Loynes, R.M. (1993). "Local Influence: A New Approach".Comm. Statist.-Theory

Meth.,22, 1595-1611.

[2] Chatterjee, S. and A. S. Hadi (1986). "influential observations, high leverage points, and outliers

in linear regression". Statistical Science, 1 (3), 379-416

[3] Cook, R. D. (1977). "Detection of Influential Observations in Linear Regression'',

Technometrics, 19, 15-18.

[4] Cook, R.D. (1986). "Assessment of Local Influence (with discussion)". Journal of de Royal

Statistical Society, Ser. B., 48, 133-169.

[5] Pregibon, D. (1981). "Logistic Regression Diagnostics". Annals of Statistics, 9, 705-724.

influencia local en regresión logística

Documents

curso introduccion analisis multivariado 21 · observaiones...

modelos de regresión logística incondicional

elecciÓn del mejor modelo de regresiÓn logÍstica …

regresión logística · regresión logística p....

fundamento del modelo de regresiÓn logÍstica

regresión logística simple y múltiple

regresión logística ordinal aplicado al estudio de la

“software estadÍstico para regresiÓn. el caso de ...

regresiÓn logÍstica - fuenterrebollo

plinio11.files.wordpress.com · web viewla regresión...

regresiÓn logÍstica aplicada a la … iv 2009/10- regres...

regresión logística y máxima verosimilitud para

regresiÓn logÍstica en estudios epidemiolÓgicos de …

un modelo de regresión logística asimétrico que puede

anÁlisis de datos y regresiÓn logÍstica con

comparaciÓn entre regresiÓn logÍstica y redes …

regresiÓn logÍstica - sergas.es€¦ · epidat 4: ayuda...

validación interna de modelos predictivos de regresión...

empleo de la regresiÓn logÍstica ordinal para la

Árboles de clasificación vs regresión logística en el