tema 2: la recta de regresión por mínimos cuadrados - i · 2019-09-16 · la recta de regresión...
TRANSCRIPT
![Page 1: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos](https://reader033.vdocuments.co/reader033/viewer/2022050405/5f830dc69a3a2011ce0cc6b9/html5/thumbnails/1.jpg)
Tema 2: La recta de regresión por mínimos cuadrados - I
Biología sanitaria - UAH
Marcos Marvá Ruiz
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 1 / 1
![Page 2: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos](https://reader033.vdocuments.co/reader033/viewer/2022050405/5f830dc69a3a2011ce0cc6b9/html5/thumbnails/2.jpg)
La recta de regresiónConsideramos dos variables cuantitativas medidas sobre los mismos individuos
X Yx1 y1x2 y2x3 y3· · · · · ·xn yn
Queremos relacionar dos variables cuantitativas:1 Variable explicativa (independiente)2 Variable respuesta (dependiente)
Construir modelo ideal del tipo y = f (x)
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 2 / 1
![Page 3: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos](https://reader033.vdocuments.co/reader033/viewer/2022050405/5f830dc69a3a2011ce0cc6b9/html5/thumbnails/3.jpg)
La recta de regresiónConocemos relaciones funcionales
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
−1.0 −0.5 0.0 0.5 1.0
−0.
20.
20.
4
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
−1.0 −0.5 0.0 0.5 1.0
02
46
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 3 / 1
![Page 4: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos](https://reader033.vdocuments.co/reader033/viewer/2022050405/5f830dc69a3a2011ce0cc6b9/html5/thumbnails/4.jpg)
La recta de regresiónObserva las siguientes nubes de puntos: ¿hay relación entre cada par de variables?
40 50 60 70
100
200
300
400
500
600
700
Framingham
Edad
Col
este
rol t
otal
15 20 25 30 35 40 45
2030
4050
Leptograpsus variegatus
Longitud caparazón
Anc
hura
cap
araz
ón
10 20 30 40 50
010
0020
0030
0040
00
Hayas, parcela Navarra
Diámetro medio
Pie
s/H
a
Fuentes de ruido: variabilidad individual, variables no consideradas
Las relaciones y = f (x): son unívocas pero obvian el ruido
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 4 / 1
![Page 5: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos](https://reader033.vdocuments.co/reader033/viewer/2022050405/5f830dc69a3a2011ce0cc6b9/html5/thumbnails/5.jpg)
Número de “cricks” que hace un grillo y la temperatura ambiente
Big bang theory
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 5 / 1
![Page 6: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos](https://reader033.vdocuments.co/reader033/viewer/2022050405/5f830dc69a3a2011ce0cc6b9/html5/thumbnails/6.jpg)
En la realidad hay señal + ruidoNo todos los individios responden igual a un estímuloVariables no consideradas
<!– Las relaciones y = f (x) son unívocas pero obvian el ruido –>
0.0 0.4 0.8
2.5
3.5
4.5
0.0 0.4 0.8
0.00
0.15
0.0 0.4 0.8
−4
02
4
Izq. y centro: mucha señal y poco ruido. Dcha: poca señal y mucho ruido.
Empezaremos con rectas
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 6 / 1
![Page 7: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos](https://reader033.vdocuments.co/reader033/viewer/2022050405/5f830dc69a3a2011ce0cc6b9/html5/thumbnails/7.jpg)
La recta de regresiónIdeas buscar una recta
y(x) = b0 + b1 · x
que ‘’mejor describa” la nube de puntos
Hay que comprender:1 Cómo elegir la "mejor" recta2 En qué sentido es la mejor3 Que, a veces, la mejor recta sigue siendo muy mala
Sección 10.2 del libro
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 7 / 1
![Page 8: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos](https://reader033.vdocuments.co/reader033/viewer/2022050405/5f830dc69a3a2011ce0cc6b9/html5/thumbnails/8.jpg)
La recta de regresiónEn rojo: valores observados En verde: valores predichos
Residuo = observado - predicho
Buscar b0 y b1 que minimizan la media de los residuos (errores) al cuadrado
Interpretación geométrica del EC fichero GeoGebra
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 8 / 1
![Page 9: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos](https://reader033.vdocuments.co/reader033/viewer/2022050405/5f830dc69a3a2011ce0cc6b9/html5/thumbnails/9.jpg)
La recta de regresiónComparar los valores observados para la variable respuesta
y1, y2, · · · , yn
con los valores predichos por la recta
y1, y2, · · · , yn
Objetivo: minimizar error cuadrático asociado a la recta y = b0 + b1x
EC =n∑
i=1
(yi − yi )2 =n∑
i=1
(yi − b0 − b1 · xi )2
Recuerda:
xi , yi , yi son números concretos
Cada elección de b0 y b1 produce residuos diferentes
El error cuadrático medio ECM muestral es:
ECM = ECn − 1
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 9 / 1
![Page 10: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos](https://reader033.vdocuments.co/reader033/viewer/2022050405/5f830dc69a3a2011ce0cc6b9/html5/thumbnails/10.jpg)
Recta de regresión (o de mínimos cuadrados). Covarianza.
Dado el conjunto de puntos (x1, y1), (x2, y2), (x3, y3), . . . , (xn, yn), Los val-ores que minimizan el ECM son
b1 = Cov(x , y)s2
x, b0 = y − Cov(x , y)
s2x
· x .
donde
Cov(x , y) =
n∑i=1
(xi − x)(yi − y)
n − 1es la covarianza muestral. Al sustituir en y = b0 + b1x se tiene la rectade regresión o de mínimos cuadrados que, al reordenar términos, estádada por
(y − y) = Cov(x , y)s2
x· (x − x),
La recta de regresión pasa por el punto (x , y)
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 10 / 1
![Page 11: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos](https://reader033.vdocuments.co/reader033/viewer/2022050405/5f830dc69a3a2011ce0cc6b9/html5/thumbnails/11.jpg)
Ejemplo: medidas des carazón de ciertos cangrejos
Longitud (mm) 81 97 103 123 150 182 195Anchura (mm) 54.5 59.5 63.5 67.5 72.0 78.5 83.0
80 100 120 140 160 180
5560
6570
7580
Longitud
Anc
hura
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 11 / 1
![Page 12: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos](https://reader033.vdocuments.co/reader033/viewer/2022050405/5f830dc69a3a2011ce0cc6b9/html5/thumbnails/12.jpg)
Ejemplo: medidas des carazón de ciertos cangrejos
Longitud (mm) 81 97 103 123 150 182 195Anchura (mm) 54.5 59.5 63.5 67.5 72.0 78.5 83.0
partir de estos datos calculamos
x = mean(x) ≈ 133, s2x = var(x) ≈ 1922.333
y = mean(y) ≈ 68.36, Cov(x , y) = cov(x,y) ≈ 443.42Por lo tanto, la recta de regresión es
Anchura(mm) = 37.7 + 0.23 · longitud(mm)
80 100 120 140 160 180
5565
75
Longitud
Anc
hura
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 12 / 1
![Page 13: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos](https://reader033.vdocuments.co/reader033/viewer/2022050405/5f830dc69a3a2011ce0cc6b9/html5/thumbnails/13.jpg)
Observaciones: usos de la recta de regresiónla recta de regresión es
Anchura(mm) = 37.7 + 0.23 · longitud(mm)
Usos de la recta de regresión
Predecir valores no observados: ¿anchura para ‘longitud‘=140?
Interpretar la pendiente
ExtrapolaciónNunca, bajo ningún concepto, puedes usar de la recta para predecir valores de ycorrespondientes a valores de x fuera del recorrido de x en la muestra. Hacer eso sedenomina extrapolación, y es uno de los errores más graves que pueden cometerse usandola recta de regresión.
Recuerda que
Una predicción debe ir acompañada de una estimación del error que se comete.Volveremos sobre esto más adelante.
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 13 / 1
![Page 14: Tema 2: La recta de regresión por mínimos cuadrados - I · 2019-09-16 · La recta de regresión Ideas buscarunarecta y(x) = b 0 + b 1 · x que‘’mejordescriba”lanubedepuntos](https://reader033.vdocuments.co/reader033/viewer/2022050405/5f830dc69a3a2011ce0cc6b9/html5/thumbnails/14.jpg)
Observaciones: usos de la recta de regresiónLa recta es una buena aproximación local
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 14 / 1