residuales de la regresiÓn biometria ii 10-o. residuales en la regresión definición –es la...

35
RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O

Upload: melchor-maya

Post on 27-Jan-2016

224 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

RESIDUALES DE LA REGRESIÓN

BIOMETRIA II

10-O

Page 2: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Residuales En la regresión

• Definición

– Es la diferencia entre el punto Observado y el predicho por el modelo de la regresión

(Y^ - Y)

Page 3: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Interpretaciones(formas de verlo)

• Es aquello que no es explicado por el modelo de regresión

• Son considerados el error de observación es por eso que se llama el error en el ANOVA.

Page 4: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo
Page 5: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Propiedades de los Residuales

• Σ Ri = 0

• Ri ~ N (0,δ)

• Pero si esto último no se da entonces los residuales manifiestan situaciones particulares en la que NO se cumplen algunos de los supuestos

Page 6: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Forma de análisis

• El análisis de residuales se puede llevar a cabo gráficamente o en forma analítica.

• Distribución Normal

• Igualdad de las varianzas

• Independencia de las observaciones.

Page 7: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

1.- Distribución normal

• El NCSS preseta cinco diferntes pruebas numéricas para la normalidad de los residuales. Las pruebas de Shapiro-Wilk y Anderson-Darling son normalmente considerados las mejores.

• Desafortundamente , estas pruebas tienen poca potencia (probabilidad de detectar datos nonormales. A menos de que el tamaño de la muestra sea grande, digamos arriba de 300. Por tanto si la decisión es rechazar la normalidad , se puede tener una buena certeza de que los datos no son normales. Sin embargo, si la decisipon es no rechazar , la situación es no clara, pero si se tienen más de trescientos datos se puede asegurar que los datos siguen distribución normal.

• En caso de grupos pequeños de datos

Page 8: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Shapiro-Wilk W Test

• Esta Prueba de normalidad, desarrollada por Shapiro and Wilk (1965), ha sido descrita como la más poderosa prueba en muchas situaciones. Esta es el cociente de dos estimados de la varianza de una distribución normal basado en una muestra aleratoria de N observaciones. El numerador es proporcional al cuadrado del mejor estimador lineal de la desviación estandar. El denominador es la suma de cuadrados the las observaciones de la media de la. W puede ser escrita como el cuadrado del coeficiente de correlación de Pearson entre las observaciones ordenadas y el un grupo de “pesos” que son usados para calcular el numerador Debido a que los pesos son asintoticamente proportcional al correapondiente orden Normal, W is aproximadamente una medida de la rectitud de la distribución normal quantil-quantil. Mientras mas cerca esta W a uno, más normal es la muestra.

• Las medidas de W son válidas para muestras de 3 a 5000.

Page 9: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Prueba deAnderson-Darling

• Esta prueba, desarrollada por Anderson and Darling (1954), esta basada en la estadistica EDF. En algunas situaciones se ha encontrado que es tan potente como la prueba de Shapiro-Wilk .

• La prueba no se calcula cuand se especifica una una tabla de frecuencia.

Page 10: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Prueba D’Agostino para el Sesgo

• D’Agostino (1990) propuso una prueba de normalidad basada en el coeficiente de sesgo. Debido que la distribución es simétrica el estadistico es igual a cero para una distribución normal. Por tanto, una prueba puede hacerse si el valor es significativamente diferente de. Si lo es los datos son obviamente nonormal. El estadístico es, bajo la hipótesis nula de normalidad, distribuida aproximadamente normal. El cómputo de esta estadística esta a tamaños de muestra mayores de 8.

Page 11: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Prueba D’Agostino para la Curtosis

• D’Agostino (1990) propuso otra prueba de normalidad, pero basada en el coeficiente de Curtosis. Para la Distribución normal el valor teórico es 3. Por lo tanto, una prueba puede ser hecha para determinar si el valor es significativamente diferente de 3. Si lo es, los residuales obviamente no son Normales. La priueba estadística es bajo la hipótesis nula de normalidad, aproximadamente para tamaños de muestra N > 20.

Page 12: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Prueba Omnibus D’Agostino

• D’Agostino (1990) Propone una prueba mas que combina las dos pruebas anteriores (sesgo y Kurtosis) proposed a normality test that combines the tests for skewness and kurtosis. The statistic, , is approximately distributed as a chi-square with two degrees of freedom.

Page 13: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Sesgo y Curtosis

Leptocúrtica

Platiocúrtica

Sesgada (negativa)

Normal

Page 14: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Ejemplo

• 1.- Para realizar un manejo de pastizales se realizó un experimento de quema controlada en diferentes parcelas, doce en total, el fuego se mantuvo durante diferentes tiempos y después se extinguió con agua. Posteriormente se midió el contenido de materia orgánica en un espacio de un metro cuadrado de cada parcela. Se pretendía predecir el contenido de materia orgánica en fuegos de duración media. Determine y presente el modelo completo y diga si cumple o no los supuestos de la regresión.

Page 15: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Grafica

0.0

7.5

15.0

22.5

30.0

0.0 20.0 40.0 60.0 80.0

M_O_ vs Duración

Duración

M_

O_

Page 16: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Gráfica para probar normalidad

-6.0

-2.5

1.0

4.5

8.0

-2.0 -1.0 0.0 1.0 2.0

Normal Probability Plot of Residuals of M_O_

Expected Normals

Re

sid

ua

ls o

f M

_O

_

Page 17: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

2. Homogeneidad de la varianza de los residuales

• La regresión lineal asume que los residuales tienen varianza constante (para cada valor de x) La validez de este supuesto puede ser probada usando la prreba de Levine modificada o bien usando la gráfica de residuales vs la variable explicativa.

Page 18: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Prueba modificada de Levene

• La prueba modificada de Levene puede ser usada para evaluar la validez del supuesto de la homogenidad de varianzas. Ha probado ser una prueba confiable aún y cuando los residuales no siguen la distribución normal.

• La prueba se construye agrupando los residules de acuerdo a los valores de X. El número de grupos es arbitrario sin embargo usualmente, dos grupos son usados . En este caso el valor absoluto de los residulas con bajos valores de X se compara con otro grupo con altos valores de X. Si la variabilidad es constante la varioabilidad de estos grupos debe ser igual en estos grupos

Page 19: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Constant Variance

• Los errores se suponen constante a lo largo de los diferentes valores de X si se tiene un grupo de datos grande (N > 100), la homogeneidad de la varianza puede ser detectada en la gráfica de los residuales contra X, sin embargo la herramienta más importante es la gráfica de los varlores absolutos de los residuales vs X. Frecuentemente el supuesto es violado porque la varianza se incrementa con X, mostrando un esquema como de Megáfono

Page 20: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Grafica de R vs X

-60.0

-30.0

0.0

30.0

60.0

0.0 125.0 250.0 375.0 500.0

Residuals of Noreste vs Medición

Medición

Re

sid

ua

ls o

f N

ore

ste

Page 21: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Residuales Absolutos Vs X

0.0

15.0

30.0

45.0

60.0

0.0 125.0 250.0 375.0 500.0

|Residuals of Noreste| vs Medición

Medición

|Re

sid

ua

ls o

f N

ore

ste

|

Page 22: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Residuales mostrando tendencias cuadráticas

-1.5

-0.8

0.0

0.8

1.5

0.0 125.0 250.0 375.0 500.0

RStudent of Noreste vs Medición

Medición

RS

tud

en

t o

f N

ore

ste

Page 23: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

3 – Independencia de los Errores

• Las Y’s, y sus errores, se asumen como independietes. Este supuesto es usualmente ignorada (porque es muy poco lo que se puede hacer ) a menos de que se tenga una Razón suficientemente fuerte para consider que es violada, como cuando las observaciones fueron tomadas en el tiempo. Una forma fácil de evaluar este supuesto es usar el diagrama de los residuales vs la secuencia de su numero (asumiendo que los data estan arreglados en secuencia de tiempo). Si no hay “correlación Serial esta rafica debe mostrar un patron relativamente al azar.

Page 24: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Gráfica de correlación serial

-30.0

-12.5

5.0

22.5

40.0

-25.0 -13.8 -2.5 8.8 20.0

Serial Correlation of Residuals

Lagged Residuals of Noreste

Re

sid

ua

ls o

f N

ore

ste

Page 25: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Gráfica sin correlación serial

-3.0

-1.3

0.5

2.3

4.0

-3.0 -1.3 0.5 2.3 4.0

Serial Correlation of Residuals

Lagged Residuals of Norte

Re

sid

ua

ls o

f N

ort

e

Page 26: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Durbin-Watson

• LA prueba de Durbin-Watson es usada como una prueba formal (numérica) de la presencia de correlación serial de primer orden. Autocorrelaciones grandes son encontradas probando las llamadas transformaciones de Fisher, pero son raras en Biología.

Page 27: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Efectos

• Si la independencia es violada, los intervalo de confianza y pruebas de hipótesis son erroneos. Algunos métodos remediales que ayudan con esta falta de independencia deben ser adoptados. Tal como la técnica de usar las primeras diferencias o el procedimiento de Cochrane-Orcutt.

Page 28: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Residuales de Influencia

Page 29: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Explicación

• Otra utilidad de los residuales es el poder determinar la influencia de los datos y los llamados outliers o valores disparados.

• Para esto se desarrollan varias estadísticas (en esta clase veremos las que proporciona el NCSS)

Page 30: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Gráfica con valores disparados

0.0

150.0

300.0

450.0

600.0

0.0 125.0 250.0 375.0 500.0

Noreste vs Medición

Medición

No

rest

e

Page 31: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Estadisticas que determinan la influencia

• Dffits es la diferencia estandarizada entre el valor predicho de Y con y sin observación j. Este representaque el valor predicho el numero de los errores estandar estimados que cambia si las observacion es omitida. Dffits > 1 marcaran las observaciones que tienen una alta influencia en la predicción.

Page 32: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Cook’s D

• intenta medirla influencia de una observación en todos los N valores fijos.. The formula for Cook’s D is

• Dj = Σ wj [ỹj - ỹj(i) ]2/ps2

• Las ỹj(i) son encontradas removiendo la observación i antes de los cálculos. Una Cook’s D de valor mayor a 1 indica una observación con gran influencia. Algunas veces algunos estadísticos han sugerido. Que la mejor cota es 4 / (N - 2).

Page 33: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

DFBETAS(1)

• DFBETAS(1) es el cambio estandarizado de la pendiente cuando la observación es omitida del analisis. Belsley, Kuh, y Welsch (1980) recomiendan usar un corte de 2/√N cuando N es mayor que 100. Cuando N es menor se ha sugerido usar 1 o 2 del valor absoluto.

Page 34: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Residuales

Row (X) Residual RStudentDiagonal Cook's D MSEi1 0 -7.0909 -0.0628 0.3182 0.001 187292 50 2.8545 0.0239 0.2364 0.0001 187363 100 3.8 0.0305 0.1727 0.0001 187364 150 1.7455 0.0136 0.1273 0 187375 200 7.6909 0.0592 0.1 0.0002 187306 250 -0.3636 -0.0028 0.0909 0 187387 300 -36.418 -0.2818 0.1 0.0049 185548 350 -165.47 -1.4552 0.1273 0.1374 148169 400 333.47 *8.3349 0.1727 0.8425 1935

10 450 -66.582 -0.5677 0.2364 0.0539 1801211 500 -73.636 -0.6695 0.3182 0.1114 17744

Page 35: RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O. Residuales En la regresión Definición –Es la diferencia entre el punto Observado y el predicho por el modelo

Sección de dejar un renglon fuera

Leave One Row Out SectionRow RStudent DFFITS Cook's D CovRatio DFBETAS(0) DFBETAS(1)

1 -0.0628 -0.0429 0.001 * 1.8544 -0.0429 0.03622 0.0239 0.0133 0.0001 * 1.6571 0.0132 -0.01043 0.0305 0.0139 0.0001 1.5295 0.0135 -0.00964 0.0136 0.0052 0 1.4501 0.0047 -0.00285 0.0592 0.0197 0.0002 1.405 0.0151 -0.0066 -0.0028 -0.0009 0 1.3922 -0.0005 07 -0.2818 -0.0939 0.0049 1.3787 -0.0239 -0.02838 -1.4552 -0.5557 0.1374 0.9067 0 -0.2979 * 8.3349 * 3.8085 * 0.8425 0.0163 -0.7384 * 2.6212

10 -0.5677 -0.3158 0.0539 1.5315 0.1047 -0.247811 -0.6695 -0.4573 0.1114 * 1.6645 0.196 -0.3865