curso de bioestadística parte 16 regresión lineal dr. en c. nicolás padilla raygoza departamento...

36
Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud e Ingenierías Campus Celaya-Salvatierra Universidad de Guanajuato México

Upload: leticia-mieras

Post on 16-Feb-2015

13 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Curso de BioestadísticaParte 16

Regresión lineal

Dr. en C. Nicolás Padilla RaygozaDepartamento de Enfermería y ObstetriciaDivisión Ciencias de la Salud e Ingenierías

Campus Celaya-SalvatierraUniversidad de Guanajuato México

Page 2: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Presentación

Médico Cirujano por la Universidad Autónoma de Guadalajara. Pediatra por el Consejo Mexicano de Certificación en Pediatría. Diplomado en Epidemiología, Escuela de Higiene y Medicina

Tropical de Londres, Universidad de Londres. Master en Ciencias con enfoque en Epidemiología, Atlantic

International University. Doctorado en Ciencias con enfoque en Epidemiología, Atlantic

International University. Profesor Asociado B, Facultad de Enfermería y Obstetricia de

Celaya, Universidad de Guanajuato. [email protected]

Page 3: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Competencias

Conocerá como trazar una línea de regresión Sabrá como probar hipótesis acerca de la

línea de regresión Sabrá como realizar un análisis ANOVA

Page 4: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Introducción

Cuando se piensa que una variable depende de la otra, se debe cuantificar la relación entre ellas.

Al hacer esto, podemos estimar el valor de una variable, si conocemos el valor de la otra.

Este método se llama regresión.

Page 5: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Regresión lineal

La gráfica de puntos dispersos muestra la relación entre edad y presión arterial sistólica de 37 mujeres.

La presión arterial cambia con la edad.

Relación entre edad y presión arterial sistólica

050

100150200250

0 50 100

Edad (años)

Ten

sió

n a

rteri

al

sis

tólica (

mm

Hg

)

Page 6: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Trazando una línea de regresión

Nuestro objetivo es trazar una línea, que mejor describa la relación entre X y Y.

Se puede trazar una línea con una regla, que una los puntos, pero es improbable que obtengamos una misma línea y cada una de ellas, da diferente descripción de la relación entre X y Y.

Relación entre edad y hemoglobina

05

101520

0 20 40 60 80

Edad (años)

Hem

og

lob

ina

(gr/

dl)

Page 7: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Trazando una línea de regresión

Cada distancia vertical es la diferencia entre el valor observado para la variable dependiente (en el eje y) y el valor de la línea trazada para el correspondiente valor del eje x.

La distancia vertical entre los valores observados y los trazados es conocida como residual. Llamamos a cada uno de los residuales e1.

Relación entre edad y hemoglobina

0

5

10

15

20

0 20 40 60 80

Edad (años)

Heo

blo

bin

a (

gr/

dl)

Residuales e1

Page 8: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Trazando una línea de regresión La línea que mejor traza los datos se le conoce como línea de

regresión. Da una estimación del valor promedio de y por algún valor de x.

En general decimos que es una regresión de y sobre x. Se puede pensar en la línea de regresión como una línea que

une los valores medios de y por cada valor de x.

0

5

10

15

20

0 5 10 15

Page 9: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Trazando una línea de regresión

La expresión matemática para la línea de regresión es la ecuación:

y= α + βx

donde α es la intersección de la línea con el eje y, β es la pendiente de la línea.

Regresión de los cuadrados mínimos da una línea de mejor trazo con una intersección y una pendiente determinada.

Page 10: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Trazando una línea de regresión

Podemos trabajar sobre la pendiente de la línea tomando dos puntos a lo largo de la línea.

Por ejemplo, tomamos los puntos 1 y 2 de la gráfica de abajo. Punto 1 tiene los valores x=4, y= 16 Punto 2 tiene los valores x=8, y=22

0

5

10

15

20

25

30

0 5 10 15

1

2

Page 11: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Trazando una línea de regresión Esta gráfica corresponde

a un valor fijo de a= 10 y un valor de b diferente.

Muestra tres líneas que corresponden a un valor fijo de a y un valor diferente de y.

Esta gráfica corresponde a un valor fijo de b y un valor diferente de a.

210.5

a=10

20

10

5

Page 12: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Interpretando una línea de regresión

Una vez que se obtiene la línea de regresión, podemos usarla para dar un resumen de la relación entre la variable explicativa y respuesta (independiente, dependiente).

Podemos decir: Por una unidad de incremento en x, y se incrementa por un cierto valor (el valor de b). y = a + bx

Page 13: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Relación entre edad y hemoglobina

0

5

10

15

20

0 20 40 60 80

Edad (años)

Hem

og

lob

ina

(gr/

dl)

y = 7.9 + 0.136x

Interpretando una línea de regresión

Page 14: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Inferencias con una línea de regresión

Hasta ahora hemos visto sólo la descripción de la relación entre dos variables con una línea de regresión, donde a (la intersección) y b (la pendiente) son estimadas de los puntos de los datos de la muestra.

La ecuación de regresión describiendo la relación entre dos variables en la población se escribe: y = a + bx Así, a es una estimación de α y b es una estimación de β.

Población MuestraIntercepción α aPendiente β b

Page 15: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Inferencias con una línea de regresión

La línea de regresión da una estimación de la relación entre las dos variables x y, y en la población.

De la misma forma que hemos usado la inferencia para hacer conclusiones acerca de medias y proporciones, usaremos la línea de regresión para llegar a conclusiones acerca de la relación entre dos variables cuantitativas en la población.

Si tomamos diferentes muestras de la población, con cada muestra podemos obtener una línea de regresión trazada por el método de los cuadrados mínimos.

En la población hay una relación lineal entre dos variables y cada muestra puede ser ligeramente diferente.

Page 16: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Inferencias con una línea de regresión

En la muestra y = a + bx. En la población y =α + βx. Hay tres suposiciones subyacentes en el

método de regresión lineal:

1. La variable respuesta, y, tiene una distribución Normal en cada x

2. La variabilidad de y deberá ser la misma a través de x

3. La relación entre x y deberá ser lineal.

Page 17: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Inferencias con una línea de regresión

La pendiente b es de fundamental interés en el análisis de regresión.

Nos da la más importante información acerca de la relación entre x y, esto es, el cambio promedio en y por una unidad de cambio en x.

Obteniendo el error estándar de b, podemos calcular el intervalo de confianza y realizar una prueba de hipótesis sobre b.

Page 18: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Ejemplo

La ecuación de regresión para la relación entre altura y madurez ósea es:

Estatura = 97.9 + 0.215 x edad gestacional al nace

020406080

100120140

0 20 40 60

Edad gestacional al nacer (semanas)

Esta

tura

(cm

)

Page 19: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Ejemplo

Cuando esos valores fueron analizados usando un programa de computación los siguientes valores para la intersección, pendiente y sus errores estándar fueron calculados: a = 97.9, b = 0.215, ES(a) = 3.20, ES(b) = 0.0781.

Note que cuando edad gestacional fue de 0, la estatura es de 97.9 cm. ¿Es posible esto?

Page 20: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Intervalos de confianza para b

La gráfica sugiere una relación lineal razonable entre estatura y edad gestacional al nacer.

¿Pero es debido al valor de b que hemos obtenido en estos 21 niños?

Podemos calcular el intervalo de confianza para b para obtener un rango de valores que podemos tener la confianza contiene la verdadera pendiente de β.

Un intervalo de confianza al 95% para la pendiente b es calculado usando la distribución t. b ± t0.05ES(b)

donde t es a n-2 grados de libertad.

Page 21: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Intervalos de confianza para b

Para la relación entre altura y edad gestacional:

b = 0.215,n - 2 = 21 - 2 = 19,t19, 0.05 = 2.093,ES(b) = 0.0781 Entonces el intervalo de confianza al 95%

para b es: 0.052 a 0.378 Esto sugiere que la verdadera inclinación en

la población no es cero.

Page 22: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Prueba de hipótesis para b

Podemos calcular la prueba de hipótesis acerca de la verdadera pendiente β, la pendiente de la relación lineal entre dos variables en la población. Hipótesis nula

La hipótesis nula es que la pendiente en la población es cero.

Esto está implícito cuando decimos que no hay relación lineal entre altura y madurez ósea.

Ho: b = 0 Hipótesis alternativa

La hipótesis alternativa es que la pendiente en la población no es cero. Si esto es verdad, podemos decir que hay una relación lineal entre estatura y madurez ósea.

H1: b ≠ 0

Page 23: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Prueba de hipótesis para b

Para probar la hipótesis nula dividimos la estimación de b entre su error estándar y comparamos el resultado en la distribución t con n - 2 grados de libertad. En este ejemplo, b = 0.215, ES(b) = 0.0781 Ahora, refiriéndonos a las tablas de la distribución t

con (n - 2) = (21 - 2) = 19 grados de libertad, el valor de p es 0.01< P < 0.02.

¿Qué concluimos de este resultado? Rechazamos la hipótesis nula y decimos que hay

evidencia de que la pendiente de la relación entre estatura y madurez ósea en la población no es cero.

Page 24: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Análisis de varianza (ANOVA)

Evaluación de un análisis de regresión involucra la comparación de la varianza de los residuales y la variación en los datos explicada por la línea de regresión.

Esto se puede mostrar en una tabla de análisis de varianza.

Este análisis se le llama ANOVA.

Page 25: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Análisis de varianza (ANOVA)

Regresión La gráfica muestra la relación entre x y, con

cuatro puntos. Se traza la línea de regresión y se analiza las

diferentes partes de la variación en la relación entre x y, para evaluar la regresión

0

24

68

10

1214

16

0 1 2 3 4 5

1

1

1

1

Línea de la hipótesis nula

Residuales para suma total de cuadrados3.5 – 2.5 – 0.5 - 5.5

Page 26: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

La diferencia entre la suma total de cuadrados y la suma de los cuadrados de los residuales (la variación que permanece después de que es trazada una línea a través de los puntos) es la variación que es explicada por la regresión de y sobre x.

En el ejemplo: La suma de los cuadrados de los residuales

es 4 La suma total de cuadrados es 49.

Análisis de varianza (ANOVA)

Page 27: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

¿Qué es la suma de cuadrados de regresión? La línea de regresión trazada explica la

proporción de la variabilidad en la variable respuesta mientras que los residuales indican la cantidad de variabilidad sin explicación.

Una línea de regresión que describe bien los datos y explica la mayoría de la variación es preferible.

Análisis de varianza (ANOVA)

Page 28: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

La suma de cuadrados muestran cuanto de la variación es explicada por la línea de regresión y cuánto es explicada por los residuales.

Esto se muestra en un análisis de varianza a través de la tabla ANOVA.

Análisis de varianza (ANOVA)

Page 29: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Tabla de análisis de varianza (ANOVA)

Análisis de varianza (ANOVA)

Fuente Suma de cuadrados Grados de libertad Media de suma de cuadrados F Valor de p

Regresión 45 1 45 22.5 0.042

Residual 4 2 2

Total 49 3

El enfoque del análisis de varianza es comparar las dos fuentes de variación (regresión y residual) para saber cuál explica mejor la variación en la variable respuesta. Para hacer esto, usamos una prueba que compara la variación en regresión y la variación residual, conocida como la prueba F.

Page 30: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

La razón de usar una prueba F es que la razón de dos varianzas tiene una distribución de muestreo conocida como distribución F. La suma de cuadrados debido a la línea de regresión

tiene un grado de libertad. La suma de cuadrados debido a la variación residual

(inexplicable) tiene n-2 grados de libertad. Para tomar en cuenta los grados de libertad,

calculamos la media de la suma de cuadrados, dividiendo la suma de cuadrados entre los grados de libertad.

Media de la suma de cuadrados = Suma de cuadrados/grados de libertad

Análisis de varianza (ANOVA)

Page 31: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Podemos calcular el valor de F como la razón de la media suma de cuadrados: F = Media de suma de cuadrados de regresión/ media de suma de cuadrados de residuales = 45/2 = 22.5

La prueba F, basada en ANOVA, es una forma alternativa de probar la hipótesis nula, β = 0.

Es equivalente al cuadrado de la prueba de t sobre la pendiente b.

La prueba F y la prueba t son para probar la hipótesis nula de que x no tiene relación con y.

El valor de F es referido a las tablas de la distribución F con 1 y n-2 grados de libertad, para obtener el valor correspondiente de p. p = 0.042

Análisis de varianza (ANOVA)

Page 32: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

¿Qué concluimos del valor de p? El valor de p nos dice la probabilidad de

observar una relación lineal en la muestra si la hipótesis nula fuera verdad y no hubiera relación lineal en la población.

Así, para un valor de p bajo podemos rechazar la hipótesis nula y decir que hay una relación lineal en la población y la línea de regresión traza bien los datos.

Análisis de varianza (ANOVA)

Page 33: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

R2 Hemos trabajado en casi todos los términos de una

tabla ANOVA. Sólo falta calcular el porcentaje de la variación total

explicada por la línea de regresión. Es una forma general de evaluar qué bien la línea de

regresión traza los datos. ¿Cuánto de la variación total de la variable respuesta

puede ser explicada por la línea de regresión? Llamamos a este valor R² y lo calculamos como la

razón de la suma de cuadrados de la regresión dividida entre la total suma de cuadrados.

R2 = Suma de cuadrados de regresión/Total suma de cuadrados x100

Análisis de varianza (ANOVA)

Page 34: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Suposiciones para la regresión Recuerde las suposiciones que están

subyacentes al método de regresión lineal: La variable respuesta deberá estar normalmente

distribuida La variabilidad de y deberá ser la misma a través

de todos los valores de x Deberá haber una relación lineal entre x y.

¿Cuándo es válido usar la regresión?

Page 35: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Precauciones Es posible obtener una línea de regresión de

cualquier gráfica de puntos dispersos pero una regresión lineal deberá sólo ser aplicada donde existe una relación lineal.

Una asociación lineal entre dos variables no significa que una causa a la otra.

Puede ser necesario ajustar para confusores potenciales.

¿Cuándo es válido usar la regresión?

Page 36: Curso de Bioestadística Parte 16 Regresión lineal Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud

Bibliografía

1.- Last JM. A dictionary of epidemiology. New York, 4ª ed. Oxford University Press, 2001:173.

2.- Kirkwood BR. Essentials of medical ststistics. Oxford, Blackwell Science, 1988: 1-4.

3.- Altman DG. Practical statistics for medical research. Boca Ratón, Chapman & Hall/ CRC; 1991: 1-9.