correlacion y regresion dr paul pachas ok
DESCRIPTION
Correlacion y RegresionTRANSCRIPT
Bioestadística
Paúl E. Pachas MD, MPH (C), MSc (C) Instituto Nacional de Salud
Ministerio de Salud
Correlación y
regresión
Estudio conjunto de dos variables
• A la derecha tenemos una posible manera de recoger los datos obtenido observando dos variables en varios individuos de una muestra.
– En cada fila tenemos los datos de un individuo
– Cada columna representa los valores de cada variable.
– Las individuos no se muestran en ningún orden particular.
• Dichas observaciones pueden ser representadas en un diagrama de dispersión (‘scatterplot’). En ellos, cada individuos es un punto cuyas coordenadas son los valores de las variables.
• Intentaremos reconocer a partir de estos valores si hay relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra.
Altura en cm.
Peso en Kg.
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
... ...
Relación entre variables
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Tenemos las alturas y los pesos de 30 individuos en un diagrama de dispersión.
Parece que el peso aumenta con la alturaPeso
Talla
Coeficiente de correlación de Pearson• El coeficiente de correlación lineal de
Pearson de dos variables cuantitativas, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).
• r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,...)
Propiedades de r• Es adimensional• Sólo toma valores en [-1,1]• Las variables son incorreladas r=0• Relación lineal perfecta entre dos variables r=+1 o r=-
1– Excluimos los casos de puntos alineados horiz. o verticalmente.
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.– Siempre que no existan observaciones anómalas.
-1 +10
Relación inversa perfecta
Relación directa
casi perfecta
Variables incorreladas
Correlaciones positivas
r=0,1
30
80
130
180
230
280
330
140 150 160 170 180 190 200
r=0,4
30405060708090
100110120130
140 150 160 170 180 190 200
r=0,8
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=0,99
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Correlaciones negativas
r=-0,5
0
10
20
30
40
50
60
70
80
90
140 150 160 170 180 190 200
r=-0,7
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,95
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,999
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Otros coeficientes de correlación
• Cuando las variables en vez de ser cuantitativas son ordinales, es posible preguntarse si hay algún tipo de correlación entre ellas.
• Disponemos para estos casos de dos estadísticos :– ρ (‘ro’) de Spearman– τ (‘tau’) de Kendall
• Son estadísticos análogos a r y que se usan cuando las variables son ordinales o cuantitativas con distribución no normal.
Maurice George Kendall
Charles Edward Spearman
Análisis de Regresión• Estudia la relación funcional entre variables; la
finalidad es predecir una variable en función de la(s) otra(s).
– X = Variable independiente• Predictora• Explicativa• Exógena
– ¿Es posible descubrir una relación? Y = f(X) + error
– f es una función de un tipo determinado– el error es aleatorio, pequeño, y no depende de X
– Y = Variable dependiente• Predicha• Explicada• Endógena• Respuesta
Análisis de Regresión Simple
• Intervienen solo dos variables:– Y (dependiente)– X (independiente, explicativa, predictora)
• buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y mediante la ecuación:
Ŷ = a + bXDonde
• Ŷ es el valor estimado de Y para distintos valores de X• a es la intersección o el valor estimado de Y cuando X=0, es
constante)• b es la pendiente de la línea, o el cambio promedio de Y’ para
cada cambio en una unidad de X
X
Y
Línea de regresión
a es la intersección o el valor estimado de Y cuando X=0, es constante)
a
(var. dependiente)
(var. independiente)
b
b es la pendiente de la línea, o el cambio promedio de Y’ para cada cambio en una unidad de X
Ŷ = a + bX
Análisis de Regresión Simple
Trazando líneas de regresión
• Esta gráfica corresponde a un valor fijo de a= 10 y un valor de b diferente.
• Muestra tres líneas que corresponden a un valor fijo de a y un valor diferente de b.
• Esta gráfica corresponde a un valor diferente de a y un valor fijo de b.
10
20
10
5
Ordenada
Abcisa
Líneas posibles de regresión en la regresión lineal simple
xx
Y
Relación lineal positiva
Línea de regresión
La pendiente b es positiva
a
x
Y
Relación lineal negativa
Línea de regresión
La pendiente b es negativaa
No hay relación
Y
Línea de regresión
La pendiente b es 0
a
Ordenada cuando X=0
a
Resumen sobre bondad de ajuste
• La bondad de ajuste de un modelo de regresión se mide con el coeficiente de determinación R2
• R2 es la proporción de la variación total en la variable dependiente Y, que es explicada por la variación en la variable independiente X
• A R2 también se le denomina porcentaje de variabilidad explicado por el modelo de regresión.
• R2 es el cuadrado del coeficiente de correlación (R2=r2 ), es una cantidad adimensional que sólo puede tomar valores en [0, 1]
• Cuando un ajuste es bueno, R2 será cercano a uno, es malo cuando R2 es cercano a cero.