regresión y correlación -...

63
Regresión y Correlación U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA 1.- El número de turistas (en millones) entrados en España mensualmente durante los años 2001 y 2002 se expone en la siguiente estadística. a) Calcular en qué año hubo mayor dispersión de turistas por mes. b) Calcular la matriz de covarianzas. c) Calcular el coeficiente de correlación lineal entre los dos años e interpretarlo. 2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qué edad tuvieron su primer hijo. La información se recoge en la tabla adjunta (x = edad del padre, y = edad de la madre). Se pide: a) Estimar mediante la recta de regresión, la edad del padre, si la madre tuvo una edad de 25 años. b) Estimar mediante la recta de regresión la edad de la madre si el padre tuvo una edad de 25 años. c) Calcular e interpretar el coeficiente de correlación lineal (r) y el coeficiente de determinación (R 2 ). d) Representar el polígono de frecuencias absoluta y el polígono de frecuencias absolutas acumuladas de la distribución marginal de los padres. e) Calcular la mediana y el percentil 90 de la distribución marginal de las madres. f) Qué media es más representativa. Justificar la respuesta. 3. La tabla siguiente muestra las respectivas estaturas x, y de una muestra de 12 padres y sus hijos mayores. Estatura x del padre 169 164 174 167 177 162 182 172 177 174 179 185 Estatura y del hijo 177 172 177 169 180 172 177 169 185 174 177 182 A) Calcular Q1, Q3 y la mediana de las estaturas “y” de los hijos. B) Explicar cuál de las dos estaturas es más dispersa. C) Hallar e interpretar el coeficiente de correlación lineal. D) Calcular la recta de regresión de x sobre y. Varianza explicada y residual. E) ¿Qué estatura tendrá el hijo mayor de un padre que mide 177 cm? Nº Turistas 2001 2,76 2,62 2,92 3,8 4,4 4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 5,4129 Nº Turistas 2002 2,89 2,63 3,2 3,19 4,52 4,77 8,91 9,99 5,95 4,35 2,87 3,7 4,7475 5,3203 x\y 17-21 21-25 25-29 29-33 33-37 18-22 5 2 22-26 3 9 1 26-30 4 6 10 30-34 6 7 34-38 3 4

Upload: vukiet

Post on 18-Oct-2018

308 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

1.- El número de turistas (en millones) entrados en España mensualmente durante los años 2001 y 2002 se expone en la siguiente estadística.

a) Calcular en qué año hubo mayor dispersión de turistas por mes. b) Calcular la matriz de covarianzas. c) Calcular el coeficiente de correlación lineal entre los dos años e interpretarlo.

2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qué edad tuvieron su primer hijo. La información se recoge en la tabla adjunta (x = edad del padre, y = edad de la madre).

Se pide:

a) Estimar mediante la recta de regresión, la edad del padre, si la madre tuvo una edad de 25 años.

b) Estimar mediante la recta de regresión la edad de la madre si el padre tuvo una edad de 25 años.

c) Calcular e interpretar el coeficiente de correlación lineal (r) y el coeficiente de determinación (R2).

d) Representar el polígono de frecuencias absoluta y el polígono de frecuencias absolutas acumuladas de la distribución marginal de los padres.

e) Calcular la mediana y el percentil 90 de la distribución marginal de las madres. f) Qué media es más representativa. Justificar la respuesta.

3. La tabla siguiente muestra las respectivas estaturas x, y de una muestra de 12 padres y sus hijos mayores.

Estatura x del padre 169 164 174 167 177 162 182 172 177 174 179 185

Estatura y del hijo 177 172 177 169 180 172 177 169 185 174 177 182

A) Calcular Q1, Q3 y la mediana de las estaturas “y” de los hijos. B) Explicar cuál de las dos estaturas es más dispersa. C) Hallar e interpretar el coeficiente de correlación lineal. D) Calcular la recta de regresión de x sobre y. Varianza explicada y residual. E) ¿Qué estatura tendrá el hijo mayor de un padre que mide 177 cm?

Nº Turistas 2001 2,76 2,62 2,92 3,8 4,4 4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 5,4129

Nº Turistas 2002 2,89 2,63 3,2 3,19 4,52 4,77 8,91 9,99 5,95 4,35 2,87 3,7 4,7475 5,3203

x\y 17-21 21-25 25-29 29-33 33-37 18-22 5 2 22-26 3 9 1 26-30 4 6 10 30-34 6 7 34-38 3 4

Page 2: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

4.- La tabla siguiente muestra cómo se distribuye las notas en Matemáticas y Física de 25 estudiantes

X\Y [20 a 26) [26 a 32) [32 a 38) [38 a 44) [44 a 50) [14 a 20) 1 [20 a 26) 3 1 [26 a 32) 2 5 2 [32 a 38) 1 4 1 [38 a 44) 1 3 [44 a 50) 1

Sobre la distribución marginal X (Matemáticas) calcular: a) La media, y la cuasivarianza.b) Representar un diagrama de cajas y estudiar si existen puntos atípicos.Sobre la distribución marginal Y (Física) calcular:

c) La media, la varianza.d) Representar el histograma de frecuencias absolutas y el polígono de frecuencias

absolutas acumuladas.Respecto de ambas variables

e) Hallar e interpretar el coeficiente de correlación lineal.f) Calcular el porcentaje de la variación total de la variable nota de física que se

explica mediante la relación con la variable nota de matemáticas.g) Hallar la recta de regresión que permite estimar la nota de física conocida la nota

de matemáticas.

5.- De una variable estadística bidimensional se conocen los siguientes datos:

x yx 140; y 90; N 12; 3.5; 2.2= = = σ = σ =∑ ∑ y el coeficiente de correlación lineal r =

0.9. Calcular: A) La recta de regresión de y sobre x.B) La recta de regresión de x sobre y.C) El valor de x para un valor de y=7.D) El punto de intersección de las rectas de regresión.E) Varianza residual.F) Varianza explicada.G) Coeficiente de determinación.H) Matriz de covarianzas.

6.- De un cierto estudio estadístico se sabe, que las rectas de regresión de la variable

estadística (X,Y) son 4x 2y 1

5x 3y 1

+ = + =

y que la varianza marginal de la variable Y es 2y 1σ = .

Hallar: a) El coeficiente de correlación lineal. b) Las medias marginales. c) La varianza

marginal de X ( 2xσ ).d) El valor estimado para y sabiendo que x=0.

Page 3: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

7.-Se han realizado 10 mediciones de distintas distancias (Y) y se ha estimado el correspondiente error (X), cuyos resultados vienen reflejados en la siguiente tabla de doble entrada: a) Hallar la distancia media, el error medio. y las varianzas de las variables distancias y errores. b) Hallar ambas rectas de regresión, los coeficientes de regresión, las pendientes de las rectas de regresión y el coeficiente de correlación lineal.

8.- Se han hallado la velocidad media y la distancia a la Tierra de 10 nebulosas, tal como se indica en la siguiente tabla: x 6 9 24 38 46 48 52 75 118 196 y 1,2 1,8 3,3 7,2 7 9,1 11 14,5 22,9 36,3

La variable x representa la velocidad media en cientos de km/s, y la variable y, la distancia a la Tierra en millones de parsecs. El parsec equivale a 3,6 años-luz, o sea, es la distancia a la cual se ve el diámetro de la órbita terrestre bajo un ángulo de 1’. Determinar el coeficiente de correlación lineal.

9.- Sea una parcela o porción de terreno, en la cual se han tomado las coordenadas relativas de los 12 puntos que se expresan en la tabla:

Estaca X Y

1 37 64

2 39 71

3 29 53

4 42 67

5 31 55

6 30 58

7 35 77

8 28 57

9 32 56

10 22 51

11 41 76

12 37 68

a) Hallar el intervalo XX ±σ . ¿Qué tanto por ciento de valores en la variable X

quedan dentro de dicho intervalo?

Y 0.1 0.2 0.3 0.4 0.5

X

0.01 3 0 0 0 0

0.02 1 1 0 0 0

0.03 0 1 2 0 0

0.04 0 0 0 1 1

Page 4: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

Siendo la distribución conjunta (X, Y) b) Calcular la matriz de covarianzas. c) El coeficiente correlación lineal.

Interpretarlo d) La recta de regresión de Y sobre X. e) Varianza residual. f) El coeficiente de determinación. Interpretarlo.

10.- Se ha preguntado a 10 alumnos las horas de estudio (X) y la calificación obtenida en

Estadística (Y) y como resultado obtenemos las rectas de regresión:x 2y 1

5x 3y 1

− + = − + =

y que

la varianza marginal de la variable Y es 2y 1σ = . Se pide:

a) El coeficiente de correlación lineal. b) Las medias marginales.c) La covarianzad) ¿Qué tiempo tiene que dedicar como mínimo para poder aprobar?

11.-. La intensidad de corriente I, que se aprecia en un amperímetro varía con la fuerza electromotriz aplicada E, de acuerdo con la tabla de datos experimentales adjunta:

E 5 10 1.5 20 25 30

I -7 -2 1.0 4 10 12

Determinar: a) La matriz de covarianzas.b) El coeficiente de correlación lineal e interpretarlo.c) La recta de regresión de la variable intensidad sobre la fuerza electromotriz. ¿Cuálserá el valor estimado de la intensidad para una fuerza electromotriz de 20?

12.- La siguiente tabla representa una muestra de 6 valores de una variable estadística bidimensional (x,y).

x 5 4 3 2 1 0 y 6.2 5.6 3.4 2.3 1.9 1.2

a) Representar el diagrama de dispersión. A la vista del diagrama de dispersión eslógico adoptar un ajuste lineal.

b) Calcular:b1) La matriz de covarianzas. b2) El coeficiente de correlación lineal. Interpretarlo. c) Hallar la ecuación de la recta de regresión lineal y estimar el valor de “y” para x = 4.d) Calculard1) La varianza residual. d2La varianza explicada por el ajuste lineal.

13.- Los siguientes datos representan los resultados, notas, de una determinada asignatura (Y) y el número de horas de estudio semanales (X) de 16 alumnos.

96ii

x =∑ 64ii

y =∑ 492i ii

x y⋅ =∑2 657i

ix =∑ 2 526i

iy =∑

Se pide: a) Estimar el modelo de regresión simple que relaciona los resultados obtenidos conel número de horas dedicadas al estudio. b) Calcular una medida de la bondad del ajuste e interpretar el resultado.c) Si un alumno ha estudiado 8 horas, ¿qué nota espera obtener en el examen?

Page 5: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

d) ¿Cuál es el número de horas mínimo que un alumno debe estudiar para superar laasignatura?

14.- La siguiente tabla indica los litros de cerveza vendidos en un bar y la temperatura (en ºC) en la ciudad durante 5 días, temperatura 34 25 32 37 39 cerveza 187 123 198 232 267

a) ¿Existe correlación entre la temperatura y los litros de cerveza vendidos?b) Hallar e interpretar el coeficiente de determinación.c) Calcular la varianza residual del ajuste lineal de y (litros) sobre x (temperatura).d) Predecir la cantidad de cerveza que se vendería en este bar un día con una

temperatura de 35ºC.

15.- Los neumáticos subinflados o sobreinflados pueden acelerar el desgaste de los neumáticos y aumentar o disminuir el consumo. Se toma una muestra de tamaño 14 resultando:

a) Hallar la matriz de covarianzas.b) Los coeficientes de correlación lineal (r) y de determinación (R2). Interpretarlos.c) Calcular la recta de regresión de L/Md) Calcular la varianza residual

16.- Conocidas la media aritmética y la varianza de cada una de las variables asociadas a

una distribución bidimensional, X =3, Y =2, σ2x=6, σ2y=8 de la que se conoce, además, la recta de regresión de Y sobre X, 2x+3y-12=0. Obtener el coeficiente de correlación lineal y la recta de regresión de X sobre Y.

17.- Sea la distribución conjunta de la variable x = “número de habitaciones de un piso” con respecto a la variable y = “precio de alquiler en euros”.

x\y 0-500 500-1000 1000- 1500 2 2 2 0 3 8 12 16 4 4 13 18

Se pide: a) Distribuciones marginales de las variables x e y.b) Moda y mediana de las variables x e y.c) Centro de gravedad de la distribución conjunta.d) Recta de regresión de x sobre y.

L: libras por pulg2 30 30 31 31 32 32 33

M : millas 29.5 30.2 32.1 34.5 36.3 35.0 38.2

L: libras por pulg2 33 34 34 35 35 36 36

M : millas 37.6 37.7 36.1 33.6 34.2 26.8 27.4

Page 6: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

Peso Edad en años en kilos 0 1 2 3 4

0 – 4 2 4 – 8 4 2 2

8 – 12 8 9 7 12 – 16 1 2 8 14 16 - 20 1

e) Coeficiente de correlación lineal.f) Si disponemos de 600 euros ¿Cuál es el mayor número de habitaciones de un piso dealquiler que podemos conseguir?

18.- A partir del diagrama de dispersión

Se pide: a) Coeficiente de correlación lineal. b) Recta de regresión de y sobre x. c) Si y=2 ¿qué valor se puede estimar para la variable x? d) Representar las rectas de regresión sobre el diagrama de dispersión.

19.- En una unidad de pediatría, se obtuvieron los siguientes datos respecto a los pesos y edades de los niños atendidos.

a) Obtener la mediana del peso en kilos.b) ¿Qué distribución tiene mayor dispersión relativa?c) Si un niño tiene 2 años y pesa 10 kg, ¿qué percentil representa entre los niños

de 2 años?d) Hallar el sesgo de la distribución de peso en kilos.e) Hallar el coeficiente de correlación lineal. Interpretarlo.f) Si un niño tiene un año ¿cuál será su peso estimado?g) Si un niño pesa 10 kilos ¿cuántos años se estima que tendrá?

20.- Al probar un geodímetro se obtuvieron los siguientes resultados: D (km) 8.7 3.7 6 3.3 5.1 6.1 2.7 4.9 3.1 3.7 5.7 4.9 5.6 7.6 4.2 2 4 6.5 7.2 2.7

∆ (cm) 7 3 4 3 4 4 3 4 4 2 6 5 3 4 3 2 2 5 6 2 Determinar el coeficiente de correlación lineal entre la distancia medida D y el error medio en una vuelta ∆ e interpretarlo.

Page 7: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

21.- Decir razonadamente si las ecuaciones 2x+y+1=0; 5x+3y+4=0 pueden corresponder a las rectas de regresión de una distribución estadística bidimensional. En caso afirmativo, determinar el coeficiente de correlación lineal.

Page 8: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

1.- El número de turistas (en millones) entrados en España mensualmente durante los años 2001 y 2002 se expone en la siguiente estadística.

a) Calcular en qué año hubo mayor dispersión de turistas por mes. b) Calcular la matriz de covarianzas. c) Calcular el coeficiente de correlación lineal entre los dos años e interpretarlo. Solución:

a)

x 2,3266CV(2001)

X 4,7283

σ= = ≈ 0,49205 . y 2,3066

CV(2002)Y 4,7475

σ= = ≈ 0,4850 .

La dispersión en el año 2001 es un poco mayor.

b)

i i ii

xy

x y n12611,5

XY 4,7283 4,7475 4,7475n 12

σ = − = − ⋅ =∑

2x xy

2xy y

σ σΣ = = σ σ

5,4129 5,3438

5,3438 5,3203

c)

xyxy

x y

5,3438r

2,3266 2,32066

σ= = ≈σ σ ⋅

0,996 . La correlación lineal es directa y casi perfecta

Nº Turistas 2001 2,76 2,62 2,92 3,8 4,4 4,81 8,93 9,98 5,91 4,34 2,62 3,65 4,7283 2,3266

Nº Turistas 2002 2,89 2,63 3,2 3,19 4,52 4,77 8,91 9,99 5,95 4,35 2,87 3,7 4,7475 2,3066

X xσ

Page 9: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

2.- Se ha tomado un grupo de parejas (con hijos) y se les ha preguntado a qué edad tuvieron su primer hijo. La información se recoge en la tabla adjunta (x = edad del padre, y = edad de la madre). Se pide: a) Estimar mediante la recta de regresión, la edad del padre, si la madre tuvo una edad de 25 años. b) Estimar mediante la recta de regresión la edad de la madre si el padre tuvo una edad de 25 años. c) Calcular e interpretar el coeficiente de correlación lineal (r) y el coeficiente de determinación (R2). d) Representar el polígono de frecuencias absoluta y el polígono de frecuencias absolutas acumuladas de la distribución marginal de los padres. e) Calcular la mediana y el percentil 90 de la distribución marginal de las madres. f) Qué media es más representativa. Justificar la respuesta.

Solución:

x\y 19 23 27 31 35 ni. ni.xi ni.(xi-m)2

20 5 2 7 140 448

24 3 9 1 13 312 208

28 4 6 10 20 560 0

32 6 7 13 416 208

36 3 4 7 252 448

n.j 5 5 13 16 21 60 1680 1312

n.jyj 95 115 351 496 735 Y = 29,87 X = 28 2xσ =21,87

n.j(yj-m)2 590,78 235,98 107,08 20,43 552,65 2yσ = 25,12

f) 28x = 68,4x =σ CV(x)=0,17

y 29,87= 01,5y =σ CV(y)=0,17

Las dos medias, son igual de representativas, ya que, los coeficientes de variación son iguales.

x y 17-21 21-25 25-29 29-33 33-37 18-22 5 2 22-26 3 9 1 26-30 4 6 10 30-34 6 7 34-38 3 4

Page 10: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

a) Recta de regresión de x sobre y: ( )xy

2y

x X y Yσ

− = −σ

( ) ( )18,13x 28 y 29,87

21,87− = − x 0,83y 3,24⇒ = + ⇒ x 0,83 25 3,24 24= ⋅ + =

b) Recta de regresión de y sobre x: ( )xy

2x

y Y x Xσ

− = −σ

( ) ( )18,13y 29,87 x 28

25,12− = − y 0,72x 9,66⇒ = + ⇒ y 0,72 25 9,66 27,7= ⋅ + =

c) xyxy

x y

= =σ σ

0,77 , por tanto, la relación lineal es directa pero no demasiado buena.

6,0R2 = , el ajuste no es demasiado bueno.

d) Polígonos de frecuencia, absoluta y absoluta acumulada de la distribución marginal “padres”.

e) Mediana; 28

M 2916

= + = 30,75 Percentil 90; 90

60P 33

21= + = 35,86

x\y 19 23 27 31 35

20 1900 920

24 1656 5832 744

28 3024 5208 9800

32 5952 7840

36 3348 5040

1900 2576 8856 15252 22680 51264

covarianza 18,13

0

5

10

15

20

25

16. 18 - 22 22 - 26 26 - 30 30 - 34 34 - 38 40.0

10203040506070

18. 22. 26. 30. 34. 38.

Page 11: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

3. La tabla siguiente muestra las respectivas estaturas x, y de una muestra de 12 padres y sus hijos mayores.

Estatura x del padre 169 164 174 167 177 162 182 172 177 174 179 185

Estatura y del hijo 177 172 177 169 180 172 177 169 185 174 177 182

A) Calcular Q1, Q3 y la mediana de las estaturas “y” de los hijos. B) Explicar cuál de las dos estaturas es más dispersa. C) Hallar e interpretar el coeficiente de correlación lineal. D) Calcular la recta de regresión de x sobre y. Varianza explicada y residual. E) ¿Qué estatura tendrá el hijo mayor de un padre que mide 177 cm?

Solución:

A) Si ordenamos la variable y de menor a mayor

N3

4= ⇒ 1Q 172= ;

3N9

4= ⇒ 3Q 177.5= ;

N6

2= ⇒ M 177=

2082X 173.5;

12= = 2

x

54745.5833

12σ = =

x 6.7515σ = 6.7515

CV(x) 0.0389173.5

= =

2111Y 175.916

12= = . 2

y

270.91722.5764

12σ = = .

y 4.7514σ = 4.7514

CV(y) 0.027175.916

= =

B) La estatura de los padres es más dispersa

por tener su coeficiente de variación mayor.

xy

366522173.5 175.916 22.074

12σ = − ⋅ = .

C) xy

22.074r

6.7515 4.7514= =

⋅0.688 Directa

D) Recta de regresión de x sobre y:

( )xy

2y

x X y Yσ

− = −σ

22.074x 173.5 (y 175.916)

22.5764− = −

y 169 172 174 177 180 182 185

ni 2 2 1 4 1 1 1

Ni 2 4 5 9 10 11 12

x y ( )2x X−

( )2y Y− xy

169 177 20,25 1.17506 29913

164 172 90.25 15.3351 28208

174 177 0.25 1.17506 30798

167 169 42.25 47.8311 28223

177 180 12.25 16.6791 31860

162 172 132.25 15.3351 27864

182 177 72.25 1.17506 32214

172 169 2.25 47.8311 29068

177 185 12.25 82.5191 32745

174 174 0.25 3.67106 30276

179 177 30.25 1.17506 31683

185 182 132.25 37.0151 33670

2082 2111 547 270.917 366522

Page 12: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

499.1y978.0x +=

La varianza explicada 2 2y Rσ ⋅ = 222,5764 0,688⋅ ≈ 10.686

La varianza residual o no explicada 2 2 2r y (1 R )σ = σ − = ( )222,5764 1 0,688⋅ − ≈ 11.89

E) Recta de regresión de Y sobre X: ( )xy

2x

y Y x Xσ

− = −σ

22.074y 175.916 (x 173.5)

45.5833− = − ó 897.91x484.0y +=

Si la estatura del padre es x=177 sustituyendo en la ecuación anterior se obtiene y=177.56.

Page 13: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

4.- La tabla siguiente muestra cómo se distribuye las notas en Matemáticas y Física de 25 estudiantes

X\Y [20 a 26) [26 a 32) [32 a 38) [38 a 44) [44 a 50)

[14 a 20) 1

[20 a 26) 3 1

[26 a 32) 2 5 2

[32 a 38) 1 4 1

[38 a 44) 1 3

[44 a 50) 1

Sobre la distribución marginal X (Matemáticas) calcular: a) La media, y la cuasivarianza. b) Representar un diagrama de cajas y estudiar si existen puntos atípicos.

Sobre la distribución marginal Y (Física) calcular: c) La media, la varianza de la muestra. d) Representar el histograma de frecuencias absolutas y el polígono de frecuencias absolutas acumuladas.

Respecto de ambas variables e) Hallar e interpretar el coeficiente de correlación lineal. f) Calcular el porcentaje de la variación total de la variable nota de física que se explica mediante la relación con la variable nota de matemáticas. g) Hallar la recta de regresión que permite estimar la nota de física conocida la nota de matemáticas. Solución:

a) 64,3125

791X == , 24,51

24

8,1229S2

x ==

b) 14.875IQR*1.5 , 75,36Q , 833.26Q 31 ===

31M ,625,51IQR*5.1Q , 96,11QR1*5.1Q 31 ==+=−

c) 911

Y25

= = 36,44 2y

884.16

25σ = = 35,366

d)

11.96 14

26,8 31 36.7

50 51.62

20 26 32 38 44

Page 14: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

e) xyr 0,7719 Correlación directa y aceptable

f) 2R 0,5959 59,59%

g) Recta de regresión de Y sobre X: xy

2x

y Y x X

 

32,198y 36, 44 (x 31,64)

49,19  

y 0,654566745x 15,7  

Page 15: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

5.- De una variable estadística bidimensional se conocen los siguientes datos:

x yx 140; y 90; N 12; 3.5; 2.2 y el coeficiente de correlación lineal r =

0.9. Calcular: A) La recta de regresión de y sobre x. B) La recta de regresión de x sobre y. C) El valor de x para un valor de y=7. D) El punto de intersección de las rectas de regresión. E) Varianza residual. F) varianza explicada. G) Coeficiente de determinación. H) Matriz de covarianzas Solución:

ix140 35

X ;N 12 3

iy

90 15Y ;

N 12 2

xy xyxy xy

x y

r 0,9 6,933,5 2, 2

a) Recta de regresión de y sobre x: xy

2x

y Y x X

2

15 6,93 35y x

2 3,5 3

y 0,5657142857ꞏx 0,9

b) Recta de regresión de x sobre y: xy

2y

x X y Y

2

35 6,93 15x y

3 2, 2 2

x 1,431818181 y 0,928030303

c) El valor de x se obtiene de la recta de regresión de x sobre y

x 1.431818181 y 0.928030303=1.431818181 7 0.928030303 10.95075757  

d) El punto de intersección corresponde al centro de gravedad:

X,Y  35 15

,3 2

 

e) Depende de la recta de regresión

Para la recta de regresión de y sobre x

La varianza residual o no explicada 2 2 2r x (1 R ) 2 23,5 1 0,9 2,3275  

Para la recta de regresión de x sobre y

La varianza residual o no explicada 2 2 2r y (1 R ) 2 22, 2 1 0,9 0,9196  

Page 16: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

f)

La varianza explicada 2 2x Rσ ⋅ = 2 23,5 0,9⋅ ≈ 9,9225

La varianza explicada 2 2y Rσ ⋅ = 2 22, 2 0,9⋅ ≈ 3,9204

g)

2 2 2R r 0,9= = = 0,81

Es bastante fiable, pues explica el 81% de la variación entre las variables.

h)

2x xy

2xy y

σ σΣ = = σ σ

4,84 6,93

6,93 12,25

Page 17: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

6.- De un cierto estudio estadístico se sabe, que las rectas de regresión de la variable

estadística (X,Y) son 4x 2y 1

5x 3y 1

+ = + =

y que la varianza marginal de la variable Y es 2y 1σ = .

Hallar: a) El coeficiente de correlación lineal. b) Las medias marginales. c) La varianza

marginal de X ( 2xσ ). d) el valor estimado para y sabiendo que x=0.

Solución:

Buscaremos los coeficientes de regresión despejando x e y:

( )2xy yx

1y 2x

4x 2y 1 3 62 r b b 2 11 35x 3y 1 5 5

x y5 5

= −+ = ⇒ ⇒ = ⋅ = − ⋅ − = > + = = −

¡Imposible!

Entonces

2xy yx

1 1x y

4x 2y 1 1 5 54 2 r b b 11 55x 3y 1 2 3 6

y x3 3

= −+ = ⇒ ⇒ = ⋅ = − ⋅ − = < + = = −

a)

2 5 5r r

6 6= ⇒ = ± -0,9128709291

Correlación inversa y muy fuerte

b)

4x 2y 1

5x 3y 1

+ = ⇒ + =

1X

21

Y2

= = −

c)

xy xy xyxy xy yx2 2 2

y x x

1 1 1/ 2 5b b

1 2 2 3

σ σ σ −= = = − ⇒ σ = − ⇒ = = = − ⇒σ σ σ

2x

3

10σ =

d)

Debemos utilizar la recta de regresión de y sobre x para pode predecir el valor de y:

1 5 1 5y x 0

3 3 3 3= − = − =

1

3

Page 18: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

7.- Se han realizado 10 mediciones de distintas distancias (Y) y se ha estimado el correspondiente error (X), cuyos resultados vienen reflejados en la siguiente tabla de doble entrada: a) Hallar la distancia media, el error medio. y las varianzas de las variables distancias y errores. b) Hallar ambas rectas de regresión, los coeficientes de regresión, las pendientes de las rectas de regresión y el coeficiente de correlación lineal.

Solución:

X\Y 0,1 0,2 0,3 0,4 0,5 ni. Xini. Xi2ni.

0,01 3 0 0 0 0 3 0,03 0,0003

0,02 1 1 0 0 0 2 0,04 0,0008

0,03 0 1 2 0 0 3 0,09 0,0027

0,04 0 0 0 1 1 2 0,08 0,0032

n.j 4 2 2 1 1 10 0,24 0,007

Yjn.j 0,4 0,4 0,6 0,4 0,50 2,3 Yj

2n.j 0,04 0,08 0,18 0,16 0,25 0,71

0,05 0,05 0,06 0,04 0,04 0,24

0,005 0,01 0,018 0,016 0,02 0,07

RESULTADOS:

X Y

m1 0,024 0,23

m2 0,0007 0,071

0,000124 0,0181

m11 0,0069

0,00138

r 0,92115

a) Error medio Distancia media

i ii

10

x n0,24

m Xn 10

= = = =∑

0,024 ; i i

i01

y n2,3

m Yn 10

= = = =∑

0,23

Varianzas:

( ) ( )2i i2 2

2 2ix 20

x n0,007

m X X 0,024n 10

σ = − = − = − =∑

0,000124

( ) ( )2i i2 2

2 2iy 02

y n0,71

m Y Y 0,23n 10

σ = − = − = − =∑

0,0181

xyσ

Page 19: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

Covarianza:

i i ii

xy 11

x y n0,069

m XY XY 0,024 0,23n 10

σ = − = − = − ⋅ =∑

0,00138

b) Rectas de regresión

Recta de regresión de y sobre x: ( )xy

2x

y Y x Xσ

− = −σ

( ) ( )0,00138y 0,23 x 0,024

0,000124− = − ⇒ y 11,12903225·x 0.03709677419= −

Recta de regresión de x sobre y: ( )xy

2y

x X y Yσ

− = −σ

( ) ( )0,00138x 0,024 y 0,23

0,0181− = − ⇒ x 0,07624309392 y 0.006464088397= ⋅ +

Los coeficientes de regresión

xyyx 2

x

= =σ

11,12903225

xyxy 2

y

= =σ

0,07624309392

Las pendientes:

yx b tg 11.12903225= α = ⇒ 84º 51'56 ''α =

xy

1 b 0.07624309392

tg= = ⇒

β 85º 38'24 ''β =

El coeficiente de correlación lineal:

xyyx xy

x y

r b bσ

= ± ⋅ = =σ σ

0,92115 Correlación fuerte y directa

Page 20: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

8.- Se han hallado la velocidad media y la distancia a la Tierra de 10 nebulosas, tal como se indica en la siguiente tabla:

x 6 9 24 38 46 48 52 75 118 196

y 1,2 1,8 3,3 7,2 7 9,1 11 14,5 22,9 36,3

La variable x representa la velocidad media en cientos de km/s, y la variable y, la distancia a la Tierra en millones de parsecs. El parsec equivale a 3,6 años-luz, o sea, es la distancia a la cual se ve el diámetro de la órbita terrestre bajo un ángulo de 1’. Determinar el coeficiente de correlación lineal.

Solución:

x y x*y x2 y2 6 1,2 7,2 36 1,44 9 1,8 16,2 81 3,24 24 3,3 79,2 576 10,89 38 7,2 273,6 1444 51,84 46 7 322 2116 49 48 9,1 436,8 2304 82,81 52 11 572 2704 121 75 14,5 1087,5 5625 210,25 118 22,9 2702,2 13924 524,41 196 36,3 7114,8 38416 1317,69

sumas 612 114,3 12611,5 67226 2372,57 momentos 61,2 11,43 1261,15 6722,6 237,257

covarianza 561,634 2977,16 106,6121 coeficientes de regresión: 0,1886476 5,268013668

Medias:

i ii

x n612

Xn 10

= = =∑

61, 2 ; i i

i

y n114,3

Yn 10

= = =∑

11,43

Varianzas:

( ) ( )2i i2 2

2 2ix 20

x n67226

m X X 61,2n 10

σ = − = − = − =∑

2977,16

( ) ( )2i i2 2

2 2iy 02

y n2372,57

m Y Y 11, 43n 10

σ = − = − = − =∑

106,6121

Page 21: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

Covarianza:

i i ii

xy 11

x y n12611,5

m XY XY 61,2 11,43n 10

σ = − = − = − ⋅ =∑

561,634

Los coeficientes de regresión:

xyyx 2

x

561,634 b

2977,16

σ= = =σ

0,1886476

xyxy 2

y

561,634b

106,6121

σ= = =σ

5,268013668

Coeficiente de correlación lineal:

yx xyr b b 0,1886476 5,268013668= ± ⋅ = ⋅ ≈ 0,996 .

La correlación lineal es directa y casi perfecta

Page 22: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

9.- Sea una parcela o porción de terreno, en la cual se han tomado las coordenadas relativas de los 12 puntos que se expresan en la tabla:

Estaca X Y

1 37 64

2 39 71

3 29 53

4 42 67

5 31 55

6 30 58

7 35 77

8 28 57

9 32 56

10 22 51

11 41 76

12 37 68

c) Hallar el intervalo XX ±σ . ¿Qué tanto por ciento de valores en la variable X

quedan dentro de dicho intervalo?

Siendo la distribución conjunta (X, Y)

d) Calcular la matriz de covarianzas. c) El coeficiente correlación lineal. Interpretarlo d) La recta de regresión de Y sobre X. e) Varianza residual. f) El coeficiente de determinación. Interpretarlo.

Solución:

X Y XY X2 Y2

37 64 2368 1369 4096

39 71 2769 1521 5041

29 53 1537 841 2809 42 67 2814 1764 4489 31 55 1705 961 3025 30 58 1740 900 3364 35 77 2695 1225 5929 28 57 1596 784 3249

32 56 1792 1024 3136

Page 23: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

22 51 1122 484 2601 41 76 3116 1681 5776 37 68 2516 1369 4624

Sumas 403 753 25770 13923 48139 a) XX ±σ

12

ii 1

x403

X 33,5833;12 12== = =∑

( )12

2i 2

2 2i 1x

x13923

X 33,58333 32,4097222n 12

=σ = − = − =∑

[ ]X XX ,X 33.58333333 32.4097222 , 33.58333333 32,4097222 27.89,39.276 −σ +σ = − + = Resultan 9 de los 12 valores de X

22 28 29 30 31 32 35 37 37 39 41 42

Tenemos el 75% de los valores

b) ( )12

2i 2

2 2i 1y

y48139

Y 62,75 74,0208333n 12

=σ = − = − =∑

12

i i ii 1

xy

x y n25770

XY 33,58333333 62,75 40,1458333n 12

=σ = − = − ⋅ =∑

2x xy

2xy y

σ σΣ = = σ σ

32,4097222 40,1458333

40,1458333 74,0208333

c) xyxy

x y

40,1458333r

32,4097222 74,0208333

σ= = ≈σ σ

0,8196

por tanto, la relación lineal es directa y buena

d) Recta de regresión de y sobre x: ( )xy

2x

y Y x Xσ

− = −σ

( ) ( )40,146y 62,75 x 33,583

32,4097− = − y 21,15 1,2387x⇒ = +

e) La varianza residual o no explicada 2 2 2r y (1 R )σ = σ − = ( )274,0208 1 0,8196⋅ − ≈ 49,729

f) 2 0,6718R = 67,18%

es el porcentaje de la variación total de las y que se explica mediante la relación con x

Page 24: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

10.- Se ha preguntado a 10 alumnos las horas de estudio (X) y la calificación obtenida en

Estadística (Y) y como resultado obtenemos las rectas de regresión:x 2y 1

5x 3y 1

y que

la varianza marginal de la variable Y es 2y 1 . Se pide:

a) El coeficiente de correlación lineal. b) Las medias marginales. c) La covarianza

d) ¿Qué tiempo tiene que dedicar como mínimo para poder aprobar?

Solución:

a) Buscaremos los coeficientes de regresión despejando x e y:

2xy yx

1 1y x

x 2y 1 3 1 32 2 r b b 11 35x 3y 1 5 2 10

x y5 5

Entonces

2 3 3r r

10 10 0,5477226<0,7  

Correlación directa y muy débil. No se acepta el ajuste.

b)

x 2y 1

5x 3y 1

1X

74

Y7

 

 

c) xy xy xyxy xy yx2 2 2

y x x

3 3 3 / 5 1b b

1 5 5 2

2x

6

5

 

 

d) No podemos predecir el valor de la Y.

Page 25: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

11.-. La intensidad de corriente I, que se aprecia en un amperímetro varía con la fuerza electromotriz aplicada E, de acuerdo con la tabla de datos experimentales adjunta:

E 5 10 1.5 20 25 30

I -7 -2 1.0 4 10 12

Determinar:

a) La matriz de covarianzas.

b) El coeficiente de correlación lineal e interpretarlo.

c) La recta de regresión de la variable intensidad sobre la fuerza electromotriz. ¿Cuál

será el valor estimado de la intensidad para una fuerza electromotriz de 20?

Solución:

La media para cada variable es: i iE IE 15.25; I 3

n n= = = =∑ ∑

Para el cálculo de varianzas y covarianzas, podemos formar la tabla

E I E E− I I− ( )E E− ( )I I− ( )2

E E− ( )2I I−

5 -7 -10.25 -10 102.50 105.0625 100

10 -2 -5.25 -5 26.25 27.5625 25

1.5 1 -13.75 -2 27.50 189.0625 4

20.0 4 4.75 1 4.75 22.5625 1

25.0 10 9.75 +7 68.25 95.0625 49

30.0 12 14.75 +9 132.75 217.5625 81

SUMAS 91,5 18 0 0 362.00 656.8750 260

a) Para obtener la matriz de covarianza aplicamos 2E EI

2EI I

σ σ=

σ σ

109.4791 60.3

60.3 43.3

b) Para calcular el coeficiente de correlación aplicamos la siguiente ecuación:

EIEI

E I

r 0.876σ

= = ⇒σ σ

2EIr 0,767= , por tanto, la correlación es positiva (a mayor

fuerza electromotriz mayor intensidad, además es buena el modelo explica el 76,7%

La recta de regresión de I/E es: ( )xy

2E

I I E Eσ

− = − ⇒σ

I 0,5511E 5,4042= −

c) Para un valor de E = 20 esperamos una intensidad de 0,5511·20 - 5.4042 = 5,6176

Page 26: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

12.- La siguiente tabla representa una muestra de 6 valores de una variable estadística bidimensional (x,y).

x 5 4 3 2 1 0

y 6.2 5.6 3.4 2.3 1.9 1.2

a) Representar el diagrama de dispersión. A la vista del diagrama de dispersión es lógico adoptar un ajuste lineal.

b) Calcular: b1) La matriz de covarianzas. b2) El coeficiente de correlación lineal. Interpretarlo.

c) Hallar la ecuación de la recta de regresión lineal y estimar el valor de “y” para x = 4. d) Calcular:

d1) La varianza residual. ,d2)La varianza explicada por el ajuste lineal.

Solución:

a) Los puntos parecen estar próximos a una recta, por tanto, es lógico efectuar un ajuste lineal.

b) En primer lugar calculamos las medias y varianzas marginales de la muestra, así como la covarianza muestral.

2 2x x y y xyX 2.5; S 3.5 S 1.87; Y 3.43; S 4.19; S 2.05; S 3.72= = ⇒ ≈ ≈ ≈ ≈ ≈

La matriz de covarianzas viene dada por: 2x xy

2xy y

S S 3.5 3.72

S S 3.72 4.19

=

El coeficiente de correlación lineal es xyxy

x y

S 3.72r

S ·S 1.87·2.05= = ≈ 0.97 . La relación entre X

e Y es muy buena, además nos indica que a mayor valor de la variable X mayor valor para la variable Y (correlación directa).

c) La ecuación de la recta de Y sobre X es:

( ) ( )xy

2x

S 3.72y Y x X y 3.43 x 2.5

S 3.5− = − ⇒ − = − ⇒ y 0.77 1.06x= +

El valor estimado para “y” cuando x = 4 es y = 0.77 + 1.06·4 = 5.01 d) En la recta de Y/X la varianza residual o no explicada es

2 2 2r yS S (1 R ) 4.19(1 0.94)= − = − ≈ 0.24

La varianza explicada es igual a la varianza total menos la varianza no explicada. 2 2 2explicada y rS S S 4.19 0.24 3.95= − = − = , o bien

2 2 2explicada yS S ·R 4.19·0.94= = ≈ 3.95

Page 27: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

13.- Los siguientes datos representan los resultados, notas, de una determinada asignatura (Y) y el número de horas de estudio semanales (X) de 16 alumnos.

ii

x 96=∑ ii

y 64=∑ i ii

x y 492⋅ =∑ 2i

i

x 657=∑ 2i

i

y 526=∑

Se pide: a) Estimar el modelo de regresión simple que relaciona los resultados obtenidos

con el número de horas dedicadas al estudio. b) Calcule una medida de la bondad del ajuste e interprete el resultado. c) Si un alumno ha estudiado 8 horas, ¿qué nota espera obtener en el examen? d) ¿Cuál es el número de horas mínimo que un alumno debe estudiar para

superar la asignatura? Considerad que el 5 es el aprobado.

Solución: a)

16 16

i ii 1 i 1

x y96 64

X 6;Y 4n 16 n 16

= == = = = = =∑ ∑

( )16

2i 2

2 2i 1x

x657

X -6 5,0625n 16

=σ = − = =∑

( )16

2i 2

2 2i 1y

y526

Y 4 16,875n 16

=σ = − = − =∑

16

i i ii

xy

x y n492

XY 6 4 6,75n 16

σ = − = − ⋅ =∑

La ecuación de la recta de Y sobre X es:

( ) ( )xy

2x

6,75y Y x X y 4 x 6

5,0625

σ− = − ⇒ − = − ⇒

σ

4y x 4

3= −

b) xyxy

x y

6,75r

5,0625 16,875

σ= = ≈σ σ

0,7302967433

por tanto, la relación lineal es directa y buena

c) Si x=8 horas, entonces 4

y 8 4 6,63

= ⋅ − ≈

d) Recta de regresión de X sobre Y: ( )xy

2y

x X y Yσ

− = −σ

e y=5

( )6,75x-6 5 4

16,875= − ⇒ x 6,4= horas

Page 28: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

14.- La siguiente tabla indica los litros de cerveza vendidos en un bar y la temperatura

(en ºC) en la ciudad durante 5 días,

temperatura 34 25 32 37 39

cerveza 187 123 198 232 267

a) ¿Existe correlación entre la temperatura y los litros de cerveza vendidos?

b) Hallar e interpretar el coeficiente de determinación.

c) Calcular la varianza residual del ajuste lineal de y (litros) sobre x (temperatura).

d) Predecir la cantidad de cerveza que se vendería en este bar un día con una

temperatura de 35ºC.

Solución:

=σ 2x 23,44; =σ 2

y 2321,04; =σxy 226,44

xy

x y

r 0,9708072925σ

= =σ σ

a) El coeficiente de correlación lineal es

muy próximo a 1, luego existe correlación

directa entre la temperatura y los litros de

cerveza vendidos.

b)

2

xy2 2

x y

R 0,9781 0,9424667991 σ

= = ≈ ⇒ σ σ

94,25% se explica por el modelo.

c) En la recta de Y/X la varianza residual o

no explicada es

2 2 2r y (1 R ) 2321,04(1 0,9425)σ = σ − = − ≈

133,52

d) Para predecir los litros de cerveza se utiliza la recta de regresión de y sobre x, es decir,

yxy y b (x x) 201,4 9,66041(35 33,4)= + − = + − = 216,857

x y ( )2xx − ( )2yy − xy

169 177 20,25 1.17506 29913

164 172 90.25 15.3351 28208

174 177 0.25 1.17506 30798

167 169 42.25 47.8311 28223

177 180 12.25 16.6791 31860

162 172 132.25 15.3351 27864

182 177 72.25 1.17506 32214

172 169 2.25 47.8311 29068

177 185 12.25 82.5191 32745

174 174 0.25 3.67106 30276

179 177 30.25 1.17506 31683

185 182 132.25 37.0151 33670

2082 2111 547 270.917 366522

Page 29: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

15.- Los neumáticos subinflados o sobreinflados pueden acelerar el desgaste de los neumáticos y aumentar o disminuir el consumo. Se toma una muestra de tamaño 14 resultando:

a) Hallar la matriz de covarianzas. b) Los coeficientes de correlación lineal (r) y de determinación (R2). Interpretarlos. c) Calcular la recta de regresión de L/M d) Calcular la varianza residual

Solución:

a) 2L 4 ; 2

M 13.27 ; LM 0.828 13.27 0.828

0.828 4

.

b) LMLM

L M

r

0.1137 la correlación lineal es mala y negativa como podemos observar en

el diagrama de dispersión. Si ajustamos una recta R2 = 0.0129, la proporción de varianza explicada por la recta es muy pequeño, deberíamos intentar otro tipo de ajuste. c) La ecuación de la recta pedida es L = 0.2071ꞏM + 40.85 d) La varianza residual o no explicada es 2 2 2

r L1 R 3.45 .

L: libras por pulg2 30 30 31 31 32 32 33

M : millas 29.5 30.2 32.1 34.5 36.3 35.0 38.2

L: libras por pulg2 33 34 34 35 35 36 36

M : millas 37.6 37.7 36.1 33.6 34.2 26.8 27.4

y = ‐0,2071x + 40,35R² = 0,0129

0

10

20

30

40

50

28 30 32 34 36 38

Millas

Libras

Diagrama de dispersión

Page 30: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

16.- Conocidas la media aritmética y la varianza de cada una de las variables

asociadas a una distribución bidimensional, X =3, Y =2, σ2x=6, σ2y=8 de la que se conoce, además, la recta de regresión de Y sobre X, 2x+3y-12=0. Obtener el coeficiente de correlación lineal y la recta de regresión de X sobre Y. Solución:

Al ser la recta de regresión de Y sobre X despejamos:

xy xyyx xy2

x

2 2y x 4 b 4

3 6 3

σ σ= − + ⇒ = = = − ⇒ σ = −

σ

xyxy

x y

-4 1r

6 8 3

σ= = = − ≈σ σ

0,57− correlación mala

Recta de regresión de X sobre Y: ( )xy

2y

x X y Yσ

− = −σ

( )4x 3 y 2

8− = − −

1x y 4

2⇒ = − +

Page 31: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

17.- Sea la distribución conjunta de la variable x = “número de habitaciones de un piso” con respecto a la variable y = “precio de alquiler en euros”.

x\y 0-500 500-1000 1000- 1500

2 2 2 0

3 8 12 16

4 4 13 18

Se pide: a) Distribuciones marginales de las variables x e y. b) Moda y mediana de las variables x e y. c) Centro de gravedad de la distribución conjunta. d) Recta de regresión de x sobre y. e) Coeficiente de correlación lineal. f) Si disponemos de 600 euros ¿Cuál es el mayor número de habitaciones de un piso de alquiler que podemos conseguir? Solución:

x\y 250 750 1250 ni. xini. xi2ni.

2 2 2 0 4 8 16 3 8 12 16 36 108 324 4 4 13 18 35 140 560 n,j 14 27 34 75 256 900

yjn.j 3500 20250 42500 66250 yj

2n.j 875000 15187500 53125000 69187500

i iji

x n 44 92 120 256

j i iji

y x n 11000 69000 150000 230000

RESULTADOS: x y

m1 3,413333333 883,3333333

m2 12,00000 922500

varianzas 0,34916 142222,22222

m11 3066,666667 covarianza 51,55555556 r 0,231356797

a) Distribución marginal de x: x ni,

2 4

3 36

4 35

Distribución marginal de y:

y 0-500 500-1000 1000-1500

n,j 14 27 34

b) Moda (x) = 3; Moda (y) = (1000, 1500) Mediana (x)

Page 32: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

x ni, Ni,

2 4 4

3 36 40

4 35 75

La mediana de x es 3

Mediana (y)

y n,j N,j

0-500 14 14

500-1000 27 41

1000-1500 34 75

La mediana es el valor que deja a su izquierda el 50% de la población, es decir,

N 7537,5 14,41

2 2 que no se corresponde con un valor de la columna de frecuencias

absolutas acumuladas y por tanto hay interpolar en el intervalo (50,100),

i 1

e i 1i

N 75N a 14 500

2 2M e 500

n 27

935,185

c) Centro de gravedad:

256 66250 256 2650X, Y , ,

75 75 75 3

3.41,883.3

d) Recta de regresión de x sobre y: xy

2y

x X y Y

i j iji, j

xy

x y n230000 256 2650

XY 51,56N 75 75 3

2

2i i 22 iy

y n691875 2650

Y 142222,22N 75 3

e) 256 51,56 2650

x y75 142222,22 3

x 0.000036253125y+3,093125

f) xyxy

x y

51,56r 0, 23

0,3491 142222, 2

, El ajuste es “malo” por ser un valor

próximo a cero, g) No se puede predecir.

Page 33: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

18.- A partir del diagrama de dispersión

Se pide: a) Coeficiente de correlación lineal. b) Recta de regresión de y sobre x. c) Si y=2 ¿qué valor se puede estimar para la variable x? d) Representar las rectas de regresión sobre el diagrama de dispersión. Solución:

x y xy x2 y2

0 1 0 0 1

1 3 3 1 9

2 4 8 4 16

3 4 12 9 16 6 12 23 14 42

ii

1 6X x 1,5

N 4= = =∑ ;

22 2 2x i

i

1 14x X 1,5 1,25

N 4σ = − = − =∑

jj

1 12Y y 3

N 4= = =∑ ;

22 2 2y j

j

1 42y Y 3 1,5

N 4σ = − = − =∑

xy i ji j

1 23x y XY 1,5 3 1,25

N 4σ = − = − ⋅ =∑∑

a) xyxy

x y

1, 25r

1,25 1,5

σ= = ≈σ σ

0,9128709291 Ajuste directo y muy bueno.

b) La recta de regresión de Y sobre X:

( ) ( )xy

2x

1, 25y Y x X y 3 x 1.5

1,25

σ− = − ⇒ − = − ⇒

σ⇒ y= x + 1.5

c) La recta de regresión de x sobre y:

( ) ( )xy

2y

1, 25x X y Y x 1.5 y 3

1,5

σ− = − ⇒ − = − ⇒

σ ⇒ x= 5/6 y - 1

Para un valor de y=2 se obtiene x= (5/6) 3-1=3/2 d)

Page 34: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

Peso Edad en años en kilos 0 1 2 3 4

0 – 4 2

4 – 8 4 2 2

8 – 12 8 9 7

12 – 16 1 2 8 14 16 - 20 1

19.- En una unidad de pediatría, se obtuvieron los siguientes datos respecto a los pesos y edades de los niños atendidos.

a) Obtener la mediana del peso en kilos. b) ¿Qué distribución tiene mayor dispersión relativa? c) Si un niño tiene 2 años y pesa 10 kg, ¿qué percentil representa entre los niños de

2 años? d) Hallar el sesgo de la distribución de peso en kilos. e) Hallar el coeficiente de correlación lineal. Interpretarlo. f) Si un niño tiene un año ¿cuál será su peso estimado? g) Si un niño pesa 10 kilos ¿cuántos años se estima que tendrá?

Solución

x\y 0 1 2 3 4 ni. xini. xi2ni.

2 2 2 4 8

6 4 2 2 8 48 288

10 8 9 7 24 240 2400

14 1 2 8 14 25 350 4900

18 1 1 18 324

n.j 6 11 13 15 15 60 660 7920

yjn.j 0 11 26 45 60 142

yj2n.j 0 11 52 135 240 438

28 106 130 182 214

xiyjnij 0 106 260 546 856 1768

RESULTADOS:

X Y

m1 11 2,366667

m2 132 7,3

Page 35: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

σ2 11 1,698889

CV 0,301511 0,550738

m11 29,46667

σxy 3,433333

r 0,794213

a) Para obtener la mediana de la variable x escribimos la distribución marginal de x:

x ni. Ni.

0 – 4 2 2

4 – 8 8 10

8 – 12 24 34

12 – 16 25 59

16 - 20 1 60

n/2=30; M=8+(30-10)*4/24=11,333 b) Medias

5

.1

1

=

= ∑ i ii

x x nn

=660

1160

= ; 5

.1

1

=

= ∑ j jj

y y nn

=142

2,36666760

=

Varianzas

52 2 2

.1

1

=

= −∑x i ii

x n xn

σ 2792011 11

60= − = ;

52 2 2

.1

1

=

= −∑y j jj

y n yn

σ2

438 1421,698889

60 60 = − =

Coeficiente de variación

11( ) 0,30

11= = ≈xCV x

;1,698889

( ) 0,552,366667

= = ≈yCV yyσ

. La edad de los niños.

c) La distribución de frecuencias acumuladas para el total de 13 niños con 2 años es:

x ni Ni

0-4 0

4-8 2 2

8-12 9 11

12-16 2 13

Page 36: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

Teniendo en cuenta que el peso de 10 kg es justamente la mitad del intervalo (8,12) le corresponde la mitad de 9, es decir, la frecuencia absoluta acumulada es 2+9/2=6,5 sobre el total de 13. Justamente el 50%. Percentil 50 o mediana.

d) Sesgo o coeficiente de asimetría 31 3

x ni. (xi-media)3ni.

2 2 -1458

6 8 -1000

10 24 -24

14 25 675

18 1 343

sumatorio -1464

μ3 -24,4

( )( )

3

i. i.

1 33

1x X n 24,4Ng 0,67

11

− −= = ≈ −

σ

∑ Asimétrica por la izquierda.

e) i i i

ixy

x y n1768 162

XY 11 3,43N 60 60

σ = − = − ⋅ =∑

xyxy

x y

3, 43r 0,79

11 1,698889

σ= = ≈σ σ

. El ajuste es “bueno” y directo por ser un valor

superior a 0,7 f) La recta de regresión de x sobre y permite determinar los valores de x para valores

conocidos de y: ( )xy

2y

x X y Yσ

− = −σ

3, 43 162x 11 y

1,698889 60 − = − ⇒

x = 2,020907769·y + 6,21651131

Para y=1 se obtiene un peso de x= 2,020907769 + 6,21651131 = 8,23741907 kg g) La recta de regresión dey sobre x permite determinar los valores de y para valores

conocidos de x: ( )xy

2x

y Y x Xσ

− = −σ

( )162 3,43y x 11

60 11− = − ⇒ y = 0,3121181818·x – 1,0663

Para x=10 se obtiene un peso de y = 0.3121181818·10 – 1,0663= 2,054545 años

Page 37: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

20.- Al probar un geodímetro se obtuvieron los siguientes resultados:

D (km)

8.7 3.7 6.0 3.3 5.1 6.1 2.7 4.9 3.1 3.7 5.7 4.9 5.6 7.6 4.2 2.0 4.0 6.5 7.2 2.7

∆ (cm)

7 3 4 3 4 4 3 4 4 2 6 5 3 4 3 2 2 5 6 2

Determinar el coeficiente de correlación lineal entre la distancia medida D y el error medio en una vuelta ∆ e interpretarlo. Solución:

D ∆ (D-media)2 (∆-media)2 (∆-media) (D-media) 8,7 7 14,554225 10,24 12,208

3,7 3 1,404225 0,64 0,948

6 4 1,243225 0,04 0,223

3,3 3 2,512225 0,64 1,268

5,1 4 0,046225 0,04 0,043

6,1 4 1,476225 0,04 0,243

2,7 3 4,774225 0,64 1,748

4,9 4 0,000225 0,04 0,003

3,1 4 3,186225 0,04 -0,357

3,7 2 1,404225 3,24 2,133

5,7 6 0,664225 4,84 1,793

4,9 5 0,000225 1,44 0,018

5,6 3 0,511225 0,64 -0,572

7,6 4 7,371225 0,04 0,543

4,2 3 0,469225 0,64 0,548

2 2 8,323225 3,24 5,193

4 2 0,783225 3,24 1,593

6,5 5 2,608225 1,44 1,938

7,2 6 5,359225 4,84 5,093

2,7 2 4,774225 3,24 3,933

4,88 3,8 3,073275 1,96 1,927

ii

1D D 4,885

N= =∑ ; ( )2

2D i

i

1D D 3,07

Nσ = − =∑

Page 38: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

jj

13,8

N∆ = ∆ =∑ ; ( )2

2j

j

11,96

N∆σ = ∆ −∆ =∑

( )( )D i ii

1x X y Y 1,927

N∆σ = − − =∑

DD

D

1,927r

3,07 1,96∆

∆∆

σ= = ≈σ σ

0,78 Aceptable.

Page 39: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Regresión y Correlación

U. D. de Matemáticas de la ETSITGC Asignatura: ESTADÍSTICA

21.- Decir razonadamente si las ecuaciones 2x+y+1=0; 5x+3y+4=0 pueden corresponder a las rectas de regresión de una distribución estadística bidimensional. En caso afirmativo, determinar el coeficiente de correlación lineal.

Solución:

Buscaremos los coeficientes de regresión despejando x e y:

( )2yx xy

y 2x 12x y 1 0 3 6

r b b 2 13 45x 3y 4 0 5 5x y

5 5

= − −+ + = ⇒ ⇒ = ⋅ = − ⋅ − = > + + = = − −

¡Imposible!

Entonces

2xy yx

1 1x y

2x y 1 0 1 5 52 2 r b b 15 45x 3y 4 0 2 3 6

y x3 3

= − −+ + = ⇒ ⇒ = ⋅ = − ⋅ − = < + + = = − −

2 5 5r r

6 6= ⇒ = ± ≈ -0,9128709291 Correlación perfecta e inversa.

Page 40: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 27

Coeficiente de variación de Pearson

Es el cociente de la desviación típica y la media. CVX

Es siempre positivo y no existe si la media vale cero. Es frecuente expresarlo en tanto por ciento.

Es independiente de la unidad que se utilice, pues no tiene unidades y por tanto nos permite comparar la dispersión de dos distribuciones que tengan unidades diferentes, o que tengan medias muy distintas.

Page 41: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 128

Matriz de covarianzas Llamamos matriz de covarianzas, a la matriz cuadrada simétrica que tiene en la diagonal principal las varianzas marginales, y fuera de la diagonal principal

las covarianzas, es decir 2x xy

2yx y

S S

S S

; que es simétrica, pues S Sxy yx . O bien

x xy

xy y

2

2

Se llama varianza generalizada al valor 2 2 2

x y xyS S S 0 y mide

aproximadamente el área ocupado por el conjunto de datos.

Page 42: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 27

Coeficiente de correlación lineal Coeficiente de correlación lineal es la media geométrica de los coeficientes de regresión byx y bxy.

2xy xy xy xy2

yx xy 2 2 2 2x y x y x y

r b b r

El coeficiente de correlación lineal es un número abstracto y es independiente de las unidades utilizadas en las variables, cuyo signo es el de la covarianza, ya que las varianzas son positivas, y comprendido entre -1 y +1.

Page 43: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

http://www2.topografia.upm.es/...ero/Apuntes/Vademecum/Recta%20de%20regresi%f3n%20de%20y%20sobre%20x.JPG[26/02/2012 21:00:48]

Page 44: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 149

Recta de regresión de x sobre y Es el ajuste por mínimos cuadrados, a una recta.

xy

2y

x a by x X (y Y)

que es la ecuación de la recta de regresión de x sobre y.

Esta recta permite calcular, aproximadamente, los valores de x dados los de y. Interpretación geométrica.

2 2 2 2 21 1 N N 1 Nx Mv (x a by ) ...... (x a by ) e ...... e MÍNIMA

como i i i i ie x a by x x error horizontal o distancia horizontal i(x teórico)

xxj*xi

yj

y

Recta de regresión de y sobre x Es el ajuste por mínimos cuadrados, a una recta.

xy

2x

y a bx y Y (x X)

que es la ecuación de la recta de regresión de y sobre x.

Esta recta permite calcular, aproximadamente, los valores de y dados los de x. Interpretación geométrica.

2 2 2 2 21 1 N N 1 Ny Mv (y a bx ) ...... (y a bx ) e ...... e MÍNIMA

como e y a bx y yi i i i i error vertical o distancia vertical ( )y teóricoi

eiyi

yi*

xi

y=a+bx

Una vez construidas las rectas de regresión, la pendiente de la de x sobre y es mayor que la correspondiente a la recta de regresión de y sobre x.

Page 45: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 27

Coeficiente de determinación Es el porcentaje de varianza explicada por la recta de regresión y su valor siempre estará entre 0 y 1 y siempre es igual al cuadrado del coeficiente de correlación. Es una medida de la proximidad o de ajuste de la recta de regresión a la nube de puntos. También se le denomina bondad del ajuste. 1-R2 nos indica qué porcentaje de las variaciones no se explica a través del modelo de regresión.

Page 46: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 158

Polígono de frecuencias

Polígono de frecuencias de una variable discreta, sin agrupar: es una línea que se obtiene uniendo los extremos superiores de las barras en el diagrama de barras.

frecuencia (absoluta o relativa)

0

2

4

6

8

10

12

14

16

00,10,20,30,40,50,60,70,80,91

Para variables estadísticas agrupadas en intervalos de clase.

El polígono de frecuencias es una línea que se obtiene uniendo los puntos medios de las bases superiores (los techos) de cada rectángulo en el histograma. De forma que empiece y acabe sobre el eje de abscisas, en el punto medio del que sería el intervalo anterior al primero y el último respectivamente.

xx x x x x0 1 i k k+1

Page 47: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 155

Polígono de frecuencias acumuladas

Para variables estadísticas sin agrupar en intervalos de clase. Representamos en el eje de abscisas los distintos valores de la variable

estadística. Levantamos sobre cada uno de ellos un perpendicular cuya longitud

será la frecuencia (absoluta, Ni, o relativa, Fi) acumulada correspondiente a ese

valor. De esta forma aparece un diagrama de barras creciente. Trazando

segmentos horizontales de cada extremo de barra a cortar la barra situada a su

derecha se obtiene el diagrama o polígono de frecuencias acumuladas.

0

5

10

15

20

25

30

35

40 N

xi

i

Para variables estadísticas agrupadas en intervalos de clase. En el eje de abscisas representamos los distintos intervalos de clase de una variable estadística que han de estar naturalmente solapados. Sobre el extremo superior de cada intervalo se levanta una línea vertical de longitud equivalente a la frecuencia (absoluta o relativa) acumulada del mismo. Se obtiene así un diagrama de barras creciente, que uniendo sus extremos da lugar al polígono de frecuencias acumuladas. Alcanzará su máxima altura en el último intervalo, que tendrá de frecuencia N ó 1 según se trate de frecuencias acumuladas absolutas o relativas.

e e e e e0 1 i i+1 k

N i

N

Page 48: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 63

Distribución marginal

Distribución marginal de la variable "x" son los valores que toma dicha variable con sus respectivas frecuencias en la distribución conjunta de la variable bidimensional (x,y)

x ni..

x1 n1.

x2 n2.

.... .... xi ni.

.... .... xr nr.

Page 49: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Mediana

Mediana de un triángulo es el segmento que une un vértice con el punto medio del lado opuesto. Mediana de un triángulo esférico es el arco de circunferencia máxima que une un vértice con el punto medio del lado opuesto. En Estadística: La mediana es el valor de la variable que ocupa el lugar central, es decir, que la mitad de la población es menor y la otra mitad es mayor que él. La mediana es un valor M tal que F(M)=1/2, se define así como raíz de una ecuación.

Para las variables estadísticas se ordenan en forma creciente, dejando igual número de observaciones inferiores que superiores a ella.

a) En las distribuciones sin agrupar, en general, no tiene solución, puesto que la función F(x) varía por saltos: 1) Si ningún valor posible xi corresponde a F(xi )=1/2 se conviene en considerar

como mediana el valor xi tal que: F x F xi i( ) ( ) 1

1

2

2) Si uno de los valores xi corresponde a F xi( ) 1

2 (lo que ocurre solamente si el

total N de la población es par) la mediana está indeterminada entre los valores xi y xi+1. El

intervalo (xi, xi+1) se denomina mediano, o bien llamamos mediana al punto medio de

dicho intervalo. b) En las agrupadas pueden darse dos casos:

INTERVALO xi ni Ni

e0 -- e1 x1 n1 N1

e1 -- e2 x2 n2 N2

............ ... ... .... ej-2 – ej-1 xj-1 Nj-1 Nj-1

ej-1 -- ej xj nj Nj

............ ... ... ... ek-1 -- ek xk nk N

1) N

2 coincide con uno de los recogidos en la columna de frecuencias acumuladas,

por ejemplo Nj, en este caso la mediana es ej.

2) N

2 está entre N j1 y N j. La mediana se encontrará en el intervalo ( , )e ej j1 . La

mediana será M e hj 1 y por interpolación lineal se obtiene h.

Amplitud del intervalo: a = e ej j-1

j

j 1

n a

NN h

2

h

NN a

nM e

NN a

n

j

jj

j

j

( ) ( )2 21

1

1

Page 50: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 33

Cuantiles Cuantil de orden es un valor de la variable estadística que deja a su izquierda una parte de la población y a la derecha una parte 1- de la población. El Cuantil de orden (0 1) es x tal que F(x)=. Siendo F la función de distribución o la frecuencia relativa acumulada. Los más utilizados son los cuartiles Q1, Q2 y Q3 que dejan a su izquierda 1/4, 1/2 y 3/4 de la población respectivamente. Obsérvese que Q2 = M (Mediana). Los deciles D1, D2, ..... , D9 dejan a su izquierda 1/10, 2/10, ..., 9/10 de la población respectivamente. Los percentiles P1, P2, ........, P99 dejan a su izquierda 1/100, 2/100, ..... 99/100 de la población respectivamente. El cálculo de los mismos es similar al cálculo de la mediana.

Page 51: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 168

Varianza residual La varianza residual se define como la varianza de los errores o residuos

Varianza residual de una variable aleatoria X con respecto a otra Y es igual a la varianza de Y por (1-r2), siendo r el coeficiente de correlación lineal entre ambas variables.

La varianza residual o no explicada 2 2r i j ij

i, j

1(y * y ) n

n 2 2

y (1 r )

Siendo el valor ajustado o teórico= iy *

Page 52: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 201

Varianza explicada

En la recta de regresión de la Y sobre X la varianza total de la variable Y puede descomponerse en dos partes una parte explicada por la regresión (la varianza de la regresión) y otra parte no explicada (la varianza residual). La varianza explicada, será la obtenida por el producto de la varianza de Y por el coeficiente de determinación R2.

Page 53: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 136

Media aritmética La media de una variable estadística es la suma ponderada de los valores

posibles por sus respectivas frecuencias: X f xn

Nx

Nn xi

i

k

ii

i

k

i ii

k

i

1 1 1

1

xi = valores que toma la variable o marca de clase. fi = frecuencias relativas. ni = frecuencias absolutas. N = número total de la población o muestra. Relación entre las medias armónica, geométrica y aritmética: H G X La media o esperanza matemática de una variable aleatoria es: 1m E x

E = x P Xi ii

n

( )

1

para una variable discreta y finita.

E = x.f (x).dx

cuando la variable es continua con función de

densidad f(x). Media armónica

Medida de tendencia central de una variable estadística es el cociente entre el tamaño de la muestra y la suma de los cocientes de las frecuencias por los

valores de las correspondientes de la variable: ki

i 1 i

NH

n

x

xi = valores que toma la variable o marca de clase. fi = frecuencias relativas. ni = frecuencias absolutas. N = número total de la población o muestra. Relación entre las medias armónica, geométrica y aritmética: H G X

Media cuadrática

Medida de tendencia central de una variable estadística es la raíz cuadrada de la suma ponderada de los cuadrados de los posibles valores de la variable multiplicados por sus respectivas frecuencias:

k k2 2i

i i ii 1 i 1

nMC f x x

N

Media geométrica Medida de tendencia central de una variable estadística que resulta de la raíz n-ésima del producto de los valores posibles de la variable, elevados a a sus respectivas frecuencias: 1 2 kn n nN

1 2 kG x .x ...x

xi = valores que toma la variable o marca de clase. fi = frecuencias relativas. ni = frecuencias absolutas. N = número total de la población o muestra. Relación entre las medias armónica, geométrica y aritmética: H G X

Page 54: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 207

Varianza muestral o cuasivarianza La varianza muestral viene dada por:

SN

N2 2

1

, es decir: S N

N

x X

N

x X

N

ii

k

ii

k

2

2

1

2

1

1 1

( ) ( )

Nótese que para N suficientemente grande la diferencia entre 2 y S2 es muy pequeña.

Page 55: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 56

Diagrama de cajas o Box-plot

Se construye sólo para variables cuantitativas. Pasos a seguir: •Se dibuja un rectángulo cuyos extremos son Q1 y Q3 y se indica la posición de la mediana mediante una línea vertical. También se indica la media mediante una cruz (+). •Se dibuja una línea desde cada extremo del rectángulo hasta el valor más alejado no atípico. •Se calculan los límites de admisión (barreras o bigotes)

LI =Q1 -1,5 (Q3- Q1) LS =Q3 +1,5 (Q3- Q1)

•Se marcan todos los datos considerados como atípicos (outliers) son los que quedan fuera de los límites de admisión se indican mediante un círculo. Existen otros valores atípicos más graves (atípicos extremos) que superen 3 veces el rango intercuartilíco y se representan por cruces (x). Si no hubiese ningún dato atípico las barreras llegarían hasta el valor mínimo y máximo.

Q1-1,5(Q3-Q1) Q3+1,5(Q3-Q1)

Q1 Q2 = M Q3

+

Page 56: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 114

Histograma En un histograma se representan las frecuencias de una variable estadística mediante áreas. De tal forma que un histograma es un conjunto de rectángulos que tienen como base los intervalos de clase y cuya superficie son las frecuencias (absolutas o relativas). Por tanto las alturas son proporcionales a las frecuencias, y será el cociente entre la frecuencia y la amplitud del intervalo.

0

2

4

6

8

10

12

14

16

1 2 3 4 5

Donde cada rectángulo puede ser:

ni

ei-1 ei

niai

f i

ei-1 ei

f iai

Page 57: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 207

Varianza Varianza o momento de segundo orden respecto de la media en una variable estadística es la media de los cuadrados de las desviaciones a la media:

22

1

( )x X n

Ni i

i

k

ix = valores de la variable o marcas de clase. La varianza de una variable aleatoria es el momento de segundo orden respecto a

la media: 22

2 E x x

V = n 2

i ii 1

x x P(X )

para una variable discreta y finita.

V = 22 x x .f (x).dx

cuando la variable es continua con función de

densidad f(x).

Varianza explicada

En la recta de regresión de la Y sobre X la varianza total de la variable Y puede descomponerse en dos partes una parte explicada por la regresión (la varianza de la regresión) y otra parte no explicada (la varianza residual). La varianza explicada, será la obtenida por el producto de la varianza de Y por el coeficiente de determinación R2.

Varianza muestral o cuasivarianza

La varianza muestral viene dada por:

SN

N2 2

1

, es decir: S N

N

x X

N

x X

N

ii

k

ii

k

2

2

1

2

1

1 1

( ) ( )

Nótese que para N suficientemente grande la diferencia entre 2 y S2 es muy pequeña.

Varianza residual

La varianza residual se define como la varianza de los errores o residuos

Varianza residual de una variable aleatoria X con respecto a otra Y es igual a la varianza de Y por (1-r2), siendo r el coeficiente de correlación lineal entre ambas variables.

La varianza residual o no explicada 2 2r i j ij

i, j

1(y * y ) n

n 2 2

y (1 r )

Siendo el valor ajustado o teórico= iy *

Page 58: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 27

Coeficiente de regresión

El coeficiente de regresión de la variable y con respecto a la variable x, es la pendiente de la recta de y sobre x, por consiguiente, el sentido de crecimiento o decrecimiento, así como el grado de variación, viene determinado por el signo y el

valor del coeficiente de regresión xyyx 2

x

b

.

Page 59: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía

Covarianza

xy recibe el nombre de covarianza, de gran importancia práctica, se define como la media aritmética de los productos de las desviaciones de la variable x con respecto a su media aritmética, X, por las desviaciones de la variable y con respecto a la media aritmética, Y.

r si j ij

xyi 1 j 1

(x X)(y Y)n

N

De la misma forma que en el caso de la varianza, se define la covarianza muestral por:

( )( ) Sx X y Y n

NS

N

Nxyi j ij

j

s

i

r

xy xy

1 111

siendo .

Page 60: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 118

Moda

Moda es el valor de la variable que se presenta con más frecuencia dentro de la distribución. En las distribuciones sin agrupar se observa directamente el valor de mayor frecuencia. En las agrupadas, definimos la clase modal como la que tiene mayor frecuencia. NOTA: Algunas distribuciones pueden presentar varias modas. Cada moda corresponde a un máximo absoluto del diagrama de barras o histograma.

Para variables aleatorias La moda es el máximo de la función de densidad o de la función de probabilidad

Page 61: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 21

Centro de gravedad

Las dos rectas de regresión y Y b x X x X b y Yyx xy ( ) , ( ) se cortan en un punto,

que es precisamente el ( , )X Y , llamado, por su naturaleza de promedio, centro de gravedad de la distribución.

Page 62: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

U.D. de Matemáticas de la E.T.S.I. en Topografía, Geodesia y Cartografía 48

Diagrama de dispersión o nube de puntos Las estadísticas de dos variables suelen representarse en un sistema de ejes cartesianos, tomándose los valores de la variable "x" en el eje de abscisas y los de la variable "y" en el de ordenadas y señalándose la confluencia en el plano con un punto. El conjunto de puntos así obtenidos, en un número igual al de observaciones conjuntas efectuadas, recibe el nombre de diagrama de dispersión o nube de puntos.

55

Diagrama de dispersión

x

y

xi

y

j

Page 63: Regresión y Correlación - asignaturas.topografia.upm.esasignaturas.topografia.upm.es/asignaturas/matematicas/Estadistica/... · Regresión y Correlación U. D. de Matemáticas de

Sesgo Para obtener una medida adimensional de la simetría de una variable estadística, se define el coeficiente de asimetría o sesgo

Coeficiente de Asimetría de Pearson: os

X MA

.

Mide la asimetría respecto de la moda.

Si As=0 es simétrica respecto de la moda. 0X M .

Si As>0 es asimétrica a la derecha de la moda. 0X M .

Si As<0 es asimétrica a la izquierda de la moda. 0X M .

Si la moda no es única, no está definido.

Coeficiente de Asimetría de Fisher:

k 3

i i3 i 1

1 3 3

n x X1

gn

Es un coeficiente adimensional y mide la asimetría respecto de la media.

Si g1=0 la distribución es simétrica o no sesgada.

Si g1<0 la distribución es asimétrica o sesgada a la izquierda y

e oX M M .

Si g1>0 la distribución es asimétrica o sesgada a la derecha y o eM M X .

El sesgo es la diferencia entre el valor esperado de un estimador y el verdadero valor del parámetro: E(θ*) - θ