tema 2:descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de...
TRANSCRIPT
Estadística: Profesora María Durbán
1
Tema 2:Descripción conjunta de dos variables
2.2 Distribuciones de frecuencias
Distribución conjuntaDistribución marginalDistribución condicionada
2.3 Representaciones gráficas
HistogramaDiagrama de dispersión
2.4 Medidas de dependencia lineal
CovarianzaCorrelación
2.1 Introducción
2.5 Recta de regresión
Estadística: Profesora María Durbán
2
Tema 2:Descripción conjunta de dos variables
2.2 Distribuciones de frecuencias
Distribución conjuntaDistribución marginalDistribución condicionada
2.3 Representaciones gráficas
HistogramaDiagrama de dispersión
2.4 Medidas de dependencia lineal
CovarianzaCorrelación
2.1 Introducción
2.5 Recta de regresión
Estadística: Profesora María Durbán
3
2.1 Introducción
En este tema estudiamos una situación muy usual y por tanto de gran interés en la práctica:
Si Y es otra variable definida sobre la misma población que X, ¿será posible determinar si existe alguna relación entre X e Y?
En el tema anterior hemos visto cómo describir una muestra de datos de unavariable mediante:
Representaciones gráficasEstadísticos:
Posición: indican hacia donde tienden a agruparse los datos
Dispersión: indican si las diferentes modalidades que presenta la variableestán muy agrupadas alrededor de cierto valor central
Forma: Determinan si los datos se distribuyen de forma simétrica a un ladoy a otro de un valor central
Estadística: Profesora María Durbán
4
Tema 2:Descripción conjunta de dos variables
2.1 Distribuciones de frecuencias
Distribución conjuntaDistribución marginalDistribución condicionada
2.3 Representaciones gráficas
HistogramaDiagrama de dispersión
2.4 Medidas de dependencia lineal
CovarianzaCorrelación
2.2 Distribuciones de frecuencias
2.1 Introducción
2.5 Recta de regresión
Estadística: Profesora María Durbán
5
2.2 Distribuciones de frecuencias
Ahora tomamos dos medidas a cada individuo de la muestra.
Las variables pueden ser cuantitativas, discretas o continuas o cualitativas, dando lugar a muchas combinaciones:cualitativa/cualitativa, discreta/continua, continua/continua, etc.
El tipo de análisis dependerá de la combinación que tengamos.
Tomamos una muestra de la población y medimos las variables (X e Y), esa muestra estará dividida en clases para cada una de las variables y existirán elementos que pertenezcan a las distintas combinaciones de las clases.
Llamamos distribución conjunta de frecuencias de dos variables (X e Y) a latabla que representa los valores observados y las frecuencias relativas/absolutasde cada par .
Estadística: Profesora María Durbán
6
Y y1 y2 ..... yj ..... ys
x1 n11 n12 ..... n1j ..... n1sx2 n21 n22 ..... n2j ..... n2s
xi ni1 ni2 ..... nij ..... nisxr nr1 nr2 ..... nrj ..... nrs
X
2.2 Distribuciones de frecuencias
Consideramos una población de n individuos, donde cada uno de ellos presenta dos características que representamos mediante las variables X e Y.
1 2
1 2
, ,, ,
r
s
X x x xY y y y
→→
K
K
Creamos una tabla de casillas, con r filas y s columnas.La casilla con subíndice ij corresponde a los individuos de la muestra que presentansimultáneamente las modalidades
r s×
,i jx y
Estadística: Profesora María Durbán
7
Y y1 y2 ..... yj ..... ys
x1 n11 n12 ..... n1j ..... n1sx2 n21 n22 ..... n2j ..... n2s
xi ni1 ni2 ..... nij ..... nisxr nr1 nr2 ..... nrj ..... nrs
X
2.2 Distribuciones de frecuencias
Consideramos una población de n individuos, donde cada uno de ellos presenta dos características que representamos mediante las variables X e Y.
1 2
1 2
, ,, ,
r
s
X x x xY y y y
→→
K
K
Creamos una tabla de casillas, con r filas y s columnas.La casilla con subíndice ij corresponde a los individuos de la muestra que presentansimultáneamente las modalidades
r s×
,i jx y
Estadística: Profesora María Durbán
8
∑=
• =s
jiji nn
1
Frecuencia Absoluta de la clase xi; para i= 1, ,2, ... ,r(Suma de los valores de la fila i-ésima )
∑=
• =r
iijj nn
1
Frecuencia Absoluta de la clase yj; para j= 1, ,2, ... ,s( Suma de los valores de la columna j-ésima)
nij = Frecuencia Absoluta de la clase conjunta (xi,yj).
fij = nijn Frecuencia Relativa
“conjunta”
2.2 Distribuciones de frecuencias
Consideramos los elementos que presentan la modalidad xi, independientemente de las modalidades que presente la variable Y1
r s
iji j
r s
iji j
n n
f
=
=
∑∑
∑∑
Propiedades
Estadística: Profesora María Durbán
9
Y y1 y2 ..... yj ..... ys Total
x1 n11 n12 ..... n1j ..... n1s n1
x2 n21 n22 ..... n2j ..... n2s n2
xi ni1 ni2 ..... nij ..... nis ni
xr nr1 nr2 ..... nrj ..... nrs nr
Total n 1 n 2 ..... n j ..... n s n
X
n = n
2.2 Distribuciones de frecuencias
Estadística: Profesora María Durbán
10
Y y1 y2 ..... yj ..... ys Total
x1 n11 n12 ..... n1j ..... n1s n1
x2 n21 n22 ..... n2j ..... n2s n2
xi ni1 ni2 ..... nij ..... nis ni
xr nr1 nr2 ..... nrj ..... nrs nr
Total n 1 n 2 ..... n j ..... n s n
X
n = n
2.2 Distribuciones de frecuencias
Frecuencia Absoluta de la clase conjunta (xi,yj).
Estadística: Profesora María Durbán
11
Y y1 y2 ..... yj ..... ys Total
x1 f11 f12 ..... f1j ..... f1s f1x2 f21 f22 ..... f2j ..... f2s f2
xi fi1 fi2 ..... fij ..... fis fi
xr fr1 fr2 ..... frj ..... frs frTotal f 1 f 2 ..... f j ..... f s f
X
f = 1
2.2 Distribuciones de frecuencias
Estadística: Profesora María Durbán
12
Y y1 y2 ..... yj ..... ys Total
x1 f11 f12 ..... f1j ..... f1s f1x2 f21 f22 ..... f2j ..... f2s f2
xi fi1 fi2 ..... fij ..... fis fi
xr fr1 fr2 ..... frj ..... frs frTotal f 1 f 2 ..... f j ..... f s f
X
f = 1
2.2 Distribuciones de frecuencias
Frecuencia Absoluta de la clase conjunta (xi,yj). ij
ij
nf
n=
Estadística: Profesora María Durbán
13
2.2 Distribuciones de frecuencias
Ejemplo: continua/continua
Se ha medido la longitud (X en mm) y el peso (Y en gr) de una muestra de 117 tornillos producidos por una máquina, la información se representa en la siguiente tabla:
1
1
0
0
100-120
117188018Total
3716200180-200
7626014160-180
4004140-160
Total80-10060-8040-60x/y
Estadística: Profesora María Durbán
14
2.2 Distribuciones de frecuencias
Ejemplo: cualitativa/discreta
La relación entre el tipo de electrodoméstico y el número de fallos en una muestra de 1000aparatos queda representada en la siguiente tabla:
0.250.150.12
0.520.40.121
10.630.37Total
0.15
Pequeño
Electrodoméstico
0.08
Grande
0.23
Total
0
Fallo
Estadística: Profesora María Durbán
15
2.2 Distribuciones de frecuencias
Distribuciones marginales
Se obtiene al estudiar una variable con independencia de la otra
Su nombre se debe a que la distribución se obtiene sumando en los márgenes de la tabla de distribución conjunta.
ijn
.
i ijj
n n=∑ .
j iji
n n=∑
Estadística: Profesora María Durbán
16
2.2 Distribuciones de frecuencias
Distribuciones marginales
Se obtiene al estudiar una variable con independencia de la otra
Su nombre se debe a que la distribución se obtiene sumando en los márgenes de la tabla de distribución conjunta.
( , )i jf x y
.
( ) ( , )
i i jj
i
f x f x y
f
=∑.
( ) ( , )
j i ji
j
f y f x y
f
=∑
Estadística: Profesora María Durbán
17
2.2 Distribuciones de frecuencias
Distribuciones marginales
Se obtiene al estudiar una variable con independencia de la otra
Su nombre se debe a que la distribución se obtiene sumando en los márgenes de la tabla de distribución conjunta.
( , )i jf x y
.
( ) ( , )
i i jj
i
f x f x y
f
=∑.
( ) ( , )
j i ji
j
f y f x y
f
=∑
Propiedades
. .
. . 1
r s
i ji j
r s
i ji j
n n n
f f
= =
= =
∑ ∑
∑ ∑
Estadística: Profesora María Durbán
18
Y y1 y2 ..... yj ..... ys Total
x1 n11 n12 ..... n1j ..... n1s n1
x2 n21 n22 ..... n2j ..... n2s n2
xi ni1 ni2 ..... nij ..... nis ni
xr nr1 nr2 ..... nrj ..... nrs nr
Total n 1 n 2 ..... n j ..... n s n
X
n = n
2.2 Distribuciones de frecuencias
Frecuencia Absoluta de la clase xi; para i= 1, ,2, ... ,r
(Suma de los valores de la fila i-ésima ).
1
s
i ijj
n n=
= ∑
Estadística: Profesora María Durbán
19
Y y1 y2 ..... yj ..... ys Total
x1 n11 n12 ..... n1j ..... n1s n1
x2 n21 n22 ..... n2j ..... n2s n2
xi ni1 ni2 ..... nij ..... nis ni
xr nr1 nr2 ..... nrj ..... nrs nr
Total n 1 n 2 ..... n j ..... n s n
X
n = n
2.2 Distribuciones de frecuencias
Frecuencia Absoluta de la clase yj; para i= 1, ,2, ... ,s
(Suma de los valores de la columna j-ésima ).
1
r
j iji
n n=
=∑
Estadística: Profesora María Durbán
20
Y y1 y2 ..... yj ..... ys Total
x1 f11 f12 ..... f1j ..... f1s f1x2 f21 f22 ..... f2j ..... f2s f2
xi fi1 fi2 ..... fij ..... fis fi
xr fr1 fr2 ..... frj ..... frs frTotal f 1 f 2 ..... f j ..... f s f
X
f = 1
2.2 Distribuciones de frecuencias
Si quisiésemos estudiar la variable X y la Y por separado,nos hubiese bastado con utilizar:
Estadística: Profesora María Durbán
21
x1 f1x2 f2
xi fi
xr frTotal 1
X
2.2 Distribuciones de frecuencias
y1 f 1
y2 f 2
yj f j
ys f s
Total 1
Yif(x ) jf(y )
Estadística: Profesora María Durbán
22
2.2 Distribuciones de frecuencias
Ejemplo: cualitativa/discreta
La relación entre el tipo de electrodoméstico y el número de fallos en una muestra de 1000aparatos queda representada en la siguiente tabla:
0.250.150.12
0.520.40.121
10.630.37Total
0.15
Pequeño
Electrodoméstico
0.08
Grande
0.23
Total
0
Fallo
Estadística: Profesora María Durbán
23
2.2 Distribuciones de frecuencias
Ejemplo: cualitativa/discreta
La distribución del número de fallos, independientemente del tamaño del electrodomésticosería:
0.252
0.521
1Total
0.230
Falloi.f
Estadística: Profesora María Durbán
24
2.2 Distribuciones de frecuencias
Ejemplo: cualitativa/discreta
La distribución del tipo de electrodoméstico, independientemente del número de fallossería:
0.63Grande
1Total
0.37Pequeño
Electrodoméstico.jf
Estadística: Profesora María Durbán
25
2.2 Distribuciones de frecuencias
Distribuciones condicionadas
De todos los elementos, n, podemos estar interesados, en un momento dado, en un conjunto más pequeño que está formado por aquellos elementos que han presentado la modalidad xi, para algún i=1,….r
La variable Y definida sobre este conjunto se denomina variable condicionada y se suele denotar mediante | iY X x=
La frecuencia relativa de condicionada a representa la proporciónde individuos que presentan de entre los que tienen
jy iX x= jY y= iX x=
.
( , )( | )
( )
ij i jj i
i i
n f x yf y x
n f x= =
( , )( | ) 1
( )
i jj
j ij i
f x yf y x
f x= =∑
∑
Estadística: Profesora María Durbán
26
x1 f(x1|yj)
x2 f(x2|yj)
xi f(xi|yj)
xr f(xr|yj)
Total 1
X|Y=yj
2.2 Distribuciones de frecuencias
y1 f(y1|xi)
y2 f(y2|xi)
yj f(yj|xi)
ys f(ys|xi)
Total 1
Y|X=xii jf(x |y ) j if(y |x )
Estadística: Profesora María Durbán
27
2.2 Distribuciones de frecuencias
Ejemplo: cualitativa/discreta
¿Cuál es la distribución del número de fallos cuando el electrodoméstico es pequeño?
Fallo|Electrodoméstico=Pequeño
0.250.150.12
0.520.40.121
10.630.37Total
0.15
Pequeño
Electrodoméstico
0.08
Grande
0.23
Total
0
Fallo
2
1
Total
0
Fallo | pequeño ( | )j if y x
0.405
Estadística: Profesora María Durbán
28
2.2 Distribuciones de frecuencias
Ejemplo: cualitativa/discreta
¿Cuál es la distribución del número de fallos cuando el electrodoméstico es pequeño?
Fallo|Electrodoméstico=Pequeño
0.250.150.12
0.520.40.121
10.630.37Total
0.15
Pequeño
Electrodoméstico
0.08
Grande
0.23
Total
0
Fallo
2
1
Total
0.4050
Fallo | pequeño ( | )j if y x
0.320
Estadística: Profesora María Durbán
29
2.2 Distribuciones de frecuencias
Ejemplo: cualitativa/discreta
¿Cuál es la distribución del número de fallos cuando el electrodoméstico es pequeño?
Fallo|Electrodoméstico=Pequeño
0.250.150.12
0.520.40.121
10.630.37Total
0.15
Pequeño
Electrodoméstico
0.08
Grande
0.23
Total
0
Fallo
2
0.3201
Total
0.4050
Fallo | pequeño ( | )j if y x
0.275
Estadística: Profesora María Durbán
30
2.2 Distribuciones de frecuencias
Distribuciones condicionadas
( , )( | )
( )
i jj i
i
f x yf y x
f x=
( | ) ( , )
j i i jf y x f x y> ( , ) ( | ) ( )
i j j i if x y f y x f x=
1( | ) ( , ) 1( )j i i j
j ji
f y x f x yf x
= =∑ ∑
Estadística: Profesora María Durbán
31
2.2 Distribuciones de frecuencias
Medias y varianzas marginales y condicionadas
Asociados a las distribuciones marginales y condicionadas, podemos definir algunos estadísticos de posición o dispersión, generalizando los que vimos en el tema dedicado al análisis de una variable
Medias y varianzas marginales
y1 f 1
y2 f 2
yj f j
ys f s
Total 1
jf(y )Y
( )
.1
22.
1
s
j jj
s
Y j jj
y f y
s f y y
=
=
=
= −
∑
∑
Estadística: Profesora María Durbán
32
2.2 Distribuciones de frecuencias
Medias y varianzas marginales y condicionadas
Asociados a las distribuciones marginales y condicionadas, podemos definir algunos estadísticos de posición o dispersión, generalizando los que vimos en el tema dedicado al análisis de una variable
Medias y varianzas condicionadas( | )j if y xY
( )
|1
22| |
1
( | )
( | )
i
i i
s
X x j i jj
s
Y X x j i j X xj
y f y x y
s f y x y y
==
= ==
=
= −
∑
∑
y1 f(y1|xi)y2 f(y2|xi)
yj f(yj|xi)
ys f(ys|xi)
Total 1
Estadística: Profesora María Durbán
33
2.2 Distribuciones de frecuencias
Ejemplo: cualitativa/discreta
¿Cuál es el número medio de fallos cuando el electrodoméstico es pequeño?
Fallo|Electrodoméstico=Pequeño
2
0.3201
1Total
0.4050
Fallo | pequeño ( | )j if y x
0.275
| pequeño1
( | )s
X j i jj
y f y x y==
= ∑
| pequeño 0 0.405 1 0.32 2 0.275 0.87Xy = = × + × + × =
Estadística: Profesora María Durbán
34
2.2 Distribuciones de frecuencias
Independencia entre variables
Si la variable Y es independiente de X, lo lógico es que la distribución de frecuencias relativas condicionadas sea la misma que la de1|Y X x= 2| , , | rY X x Y X x= =K
.( | ) ( )
j i j jf y x f y f= =
Diremos que Y es independiente de X si:
. . .
.
( , ) ( | ) ( ) ( , ) ( ) ( )
( | ) ( )
i j j i i i j j i
ij j i jj i j ij
i
f x y f y x f x f x y f y f xn n n n
f y x f y nn n n
= → =
= → = → =
O equivalentemente si:
Estadística: Profesora María Durbán
35
2.2 Distribuciones de frecuencias
Independencia entre variables
Si la variable Y es independiente de X, lo lógico es que la distribución de frecuencias relativas condicionadas sea la misma que la de1|Y X x= 2| , , | rY X x Y X x= =K
.( | ) ( )
j i j jf y x f y f= =
Diremos que Y es independiente de X si:
. . ..
( , ) ( | ) ( ) ( , ) ( ) ( )
( , ) ( ) ( )
i j j i i i j j i
ij j i jii j j i ij
f x y f y x f x f x y f y f xn n n nnf x y f y f x nn n n n
= → =
= → = → =
O equivalentemente si:
Estadística: Profesora María Durbán
36
2.2 Distribuciones de frecuencias
Ejemplo: cualitativa/discreta
¿Es el número de fallos independiente del tamaño del electrodoméstico?
0.250.150.12
0.520.40.121
10.630.37Total
0.15
Pequeño
Electrodoméstico
0.08
Grande
0.23
Total
0
Fallo ( , ) ( ) ( ) ,
i j j if x y f y f x i j= ∀
0.15 0.23 0.37 0.0851≠ × =
Estadística: Profesora María Durbán
37
Tema 2:Descripción conjunta de dos variables
2.2 Distribuciones de frecuencias
Distribución conjuntaDistribución marginalDistribución condicionada
2.2 Representaciones gráficas
HistogramaDiagrama de dispersión
2.4 Medidas de dependencia lineal
CovarianzaCorrelación
2.3 Representaciones gráficas
2.1 Introducción
2.5 Recta de regresión
Estadística: Profesora María Durbán
38
2.3 Representaciones gráficas
Dependerá del tipo de variables con las que estemos trabajando y desi están agrupadas o no.
CualitativasCuantitativas discretas
Cuantitativas continuas Histogramas 3DDiagramas de dispersión
Diagramas de barras 3DDiagramas de barras agrupados
Estadística: Profesora María Durbán
39
Ejemplo: continua/continua
Se ha medido la longitud (X en mm) y el peso (Y en gr) de una muestra de 117 tornillos producidos por una máquina, la información se representa en la siguiente tabla:
1
1
0
0
100-120
117188018Total
3716200180-200
7626014160-180
4004140-160
Total80-10060-8040-60x/y
2.3 Representaciones gráficas
Estadística: Profesora María Durbán
40
2.3 Representaciones gráficas
La representación gráfica más útil para mostrar el tipo de relación entre dos variables continuas sin agrupar es el diagrama de dispersión.
Representa cada par de observaciones como un punto del plano cartesiano
( , ) i jx y
Pesa 111 gr.
Mid
e 18
4 m
m.
Estadística: Profesora María Durbán
41
2.3 Representaciones gráficas
La representación gráfica más útil para mostrar el tipo de relación entre dos variables continuas sin agrupar es el diagrama de dispersión.
Representa cada par de observaciones como un punto del plano cartesiano
Es especialmente útil para identificar la existencia de relación entre las variables.
( , ) i jx y
Parece que el pesoaumenta con laaltura
Estadística: Profesora María Durbán
42
0.0 0.2 0.4 0.6 0.8 1.0x
-10
12
34
5x1
0.0 0.2 0.4 0.6 0.8 1.0x
-2-1
01
y
0.0 0.2 0.4 0.6 0.8 1.0x
-5-4
-3-2
-10
x2
-0.4 -0.2 0.0 0.2 0.4xx
02
46
x3
xx
x x
2.3 Representaciones gráficas
y y
y y
Relación linealpositiva
Relación linealnegativa
Ausencia de relación
Relación nolineal
Estadística: Profesora María Durbán
43
0.0 0.2 0.4 0.6 0.8 1.0x
-10
12
34
5x1
0.0 0.2 0.4 0.6 0.8 1.0x
-2-1
01
y
0.0 0.2 0.4 0.6 0.8 1.0x
-5-4
-3-2
-10
x2
-0.4 -0.2 0.0 0.2 0.4xx
02
46
x3
xx
x x
2.3 Representaciones gráficas
y y
y y
Relación linealpositiva
Relación linealnegativa
Ausencia de relación
Relación nolineal
Para los valores de X mayores que la media le corresponden valores de Y mayores también.
Para los valores de X menores que la media le corresponden valores de Y menores también.
Estadística: Profesora María Durbán
44
0.0 0.2 0.4 0.6 0.8 1.0x
-10
12
34
5x1
0.0 0.2 0.4 0.6 0.8 1.0x
-2-1
01
y
0.0 0.2 0.4 0.6 0.8 1.0x
-5-4
-3-2
-10
x2
-0.4 -0.2 0.0 0.2 0.4xx
02
46
x3
xx
x x
2.3 Representaciones gráficas
y y
y y
Relación linealpositiva
Relación linealnegativa
Ausencia de relación
Relación nolineal
Para los valores de X mayores que la media le corresponden valores de Y menores que la media y viceversa.
Estadística: Profesora María Durbán
45
0.0 0.2 0.4 0.6 0.8 1.0x
-10
12
34
5x1
0.0 0.2 0.4 0.6 0.8 1.0x
-2-1
01
y
0.0 0.2 0.4 0.6 0.8 1.0x
-5-4
-3-2
-10
x2
-0.4 -0.2 0.0 0.2 0.4xx
02
46
x3
xx
x x
2.3 Representaciones gráficas
y y
y y
Relación linealpositiva
Relación linealnegativa
Ausencia de relación
Relación nolineal
Para los valores de X mayores que la media le corresponden valores de Y mayores y menores que la media
Estadística: Profesora María Durbán
46
0.0 0.2 0.4 0.6 0.8 1.0x
-10
12
34
5x1
0.0 0.2 0.4 0.6 0.8 1.0x
-2-1
01
y
0.0 0.2 0.4 0.6 0.8 1.0x
-5-4
-3-2
-10
x2
-0.4 -0.2 0.0 0.2 0.4xx
02
46
x3
xx
x x
2.3 Representaciones gráficas
y y
y y
Relación linealpositiva
Relación linealnegativa
Ausencia de relación
Relación nolineal
Existe una relación funcional no lineal entreX e Y.
Hay relación pero no es lineal
Estadística: Profesora María Durbán
47
Tema 2:Descripción conjunta de dos variables
2.2 Distribuciones de frecuencias
Distribución conjuntaDistribución marginalDistribución condicionada
2.3 Representaciones gráficas
HistogramaDiagrama de dispersión
2.3 Medidas de dependencia lineal
CovarianzaCorrelación
2.4 Medidas de dependencia lineal
2.1 Introducción
2.5 Recta de regresión
Estadística: Profesora María Durbán
48
2.4 Medidas de dependencia lineal
Las dos medidas más utilizadas para cuantificar el grado y el sentido de ladependencia lineal son:
Covarianza
Correlación
Nos indica si la relación entre las variables es positiva o negativa
Su magnitud depende de las unidades
( )( )xy ij i j ij i ji j i j
S f x x y y f x y xy= − − = −∑∑ ∑∑
Estadística: Profesora María Durbán
49
2.4 Medidas de dependencia lineal
Las dos medidas más utilizadas para cuantificar el grado y el sentido de ladependencia lineal son:
Covarianza
Correlación
Si los datos no están agrupados en una tabla
alta será Covarianza la
signo mismo el tendrán )( e )( positiva, lineal forma de
nteconjuntame varían e Si
⇓
−−
yyxx
yx
i
i( )( )xy i i i ii i
S x x y y x y xy= − − = −∑ ∑
Estadística: Profesora María Durbán
50
2.4 Medidas de dependencia lineal
Las dos medidas más utilizadas para cuantificar el grado y el sentido de ladependencia lineal son:
Covarianza
Correlación
Mide la magnitud y la dirección de la dependencia lineal
Es adimensional
yx
xyxy ss
Sr =
sean que fuertesmuy por lineales-no relaciones las mide No
atípicas nesobservacio por afectado ve Se
lineales cionestransforma por afectado ve se No
que signo mismo el Tiene xyS
Estadística: Profesora María Durbán
51
Las variables son incorreladas r=0Relación lineal perfecta entre dos variables r=+1 o r=-1Cuanto más cerca esté de +1 o -1 mejor será el grado de relación lineal.
-1 +10
Relación negativa perfecta
Relación positivaperfectaVariables
incorreladas
2.4 Medidas de dependencia lineal
1 1xyr− ≤ ≤
Estadística: Profesora María Durbán
52
Tema 2:Descripción conjunta de dos variables
2.2 Distribuciones de frecuencias
Distribución conjuntaDistribución marginalDistribución condicionada
2.3 Representaciones gráficas
HistogramaDiagrama de dispersión
2.4 Medidas de dependencia lineal
CovarianzaCorrelación
2.5 Recta de regresión
2.1 Introducción
Estadística: Profesora María Durbán
53
2.5 Recta de regresión
Las técnicas de regresión permiten hacer predicciones sobre los valores de cierta variable Y (dependiente), a partir de los de otra X (independiente), entre las queintuimos que existe una relación.
Nos vamos a limitar al caso de la regresión lineal. Con este tipo de regresión nos conformamos con encontrar relaciones funcionales de tipo lineal, es decir,buscamos cantidades a y b tales que se pueda escribir:
( )h x a bx= +
Estadística: Profesora María Durbán
54
Ejemplo: Pureza del oxígeno en un proceso de destilación
Una planta química produce oxígeno licuando aire y separando sus componentes mediante destilación fraccionada.
La empresa está interesada en saber si se puede determinar la purezadel oxígeno obtenido en este proceso a partir del porcentaje de hidrocarburos presente en el condensador de la unidad de destilación
Condensador
2.5 Recta de regresión
Estadística: Profesora María Durbán
55
Para ver la relación entre dos variables de forma gráfica utilizamos el Diagrama de dispersión
Ejemplo: Pureza del oxígeno en un proceso de destilación
2.5 Recta de regresión
Estadística: Profesora María Durbán
56
Objetivo: Calcular la línea recta que mejor describe los datos.¿Qué criterio utilizamos para seleccionar dicha recta?
2.5 Recta de regresión
Estadística: Profesora María Durbán
57
Método de Mínimos Cuadrados
Consiste en estimar y en la ecuación de manera que lasdistancias verticales entre los puntos y la recta es mínima
a b bxay +=
1y
2y
1x 2x
Recta de regresiónestimada
Valor observado
2.5 Recta de regresión
Estadística: Profesora María Durbán
58
2.5 Recta de regresión
Método de Mínimos Cuadrados
Consiste en estimar y en la ecuación de manera que lasdistancias verticales entre los puntos y la recta es mínima.
El criterio será minimizar:
a b bxay +=
2
1( )
n
i ii
y a bx=
− −∑ Para prescindir del signo
Derivando e igualando a cero:
1
1
2 ( ) 0
2 ( ) 0
n
i iin
i i ii
y a bx
y a bx x
=
=
− − =
− − =
∑
∑2
i i i
y a bxx y x
ax bn n
= +
= +∑ ∑
Estadística: Profesora María Durbán
59
2.5 Recta de regresión
Método de Mínimos Cuadrados
Consiste en estimar y en la ecuación de manera que lasdistancias verticales entre los puntos y la recta es mínima.
El criterio será minimizar:
a b bxay +=
2
1( )
n
i ii
y a bx=
− −∑ Para prescindir del signo
Derivando e igualando a cero:
1
1
2 ( ) 0
2 ( ) 0
n
i iin
i i ii
y a bx
y a bx x
=
=
− − =
− − =
∑
∑2
i i i
y a bxx y x
ax bn n
= +
= +∑ ∑
Estadística: Profesora María Durbán
60
( )
2
La recta pasa por ,( , ) x
x yCov x ya y bx b
s= − =
2.5 Recta de regresión
Consecuencias
2i i i
y a bxx y x
ax bn n
= +
= +∑ ∑
Además:( , )
xyx y
Cov x yrs s
= yxy
x
sb r
s=
Si no hay relación lineal la covarianza es nula La pendiente es 0
Estadística: Profesora María Durbán
61
6.1 Introducción
Ejemplo: Pureza del oxígeno en un proceso de destilación
87.330.9593.651.4094.981.4399.421.5593.411.3291.771.2393.251.2687.590.8790.391.2094.451.3689.851.1196.731.4689.541.0193.741.2990.560.9891.431.1592.521.1589.051.0293.541.1999.010.99
Pureza %
Hidrocarbono%
Pureza %
Hidrocarbono %
Estadística: Profesora María Durbán
62
Ejemplo: Pureza del oxígeno en un proceso de destilación
2.5 Recta de regresión
2
2
20 1.196 92.16
0.681 10.177
10.177 14.95 a 92.16 (14.95)1.196 74.280.681
x xy
xy
x
n x y
S S
sb y bx
s
= = =
= =
= = = = − = − =
( ) 74.28 14.95h x x= +
Estadística: Profesora María Durbán
63
Ejemplo: Pureza del oxígeno en un proceso de destilación
2.5 Recta de regresión
2
2
20 1.196 92.16
0.681 10.177
10.177 14.95 a 92.16 (14.95)1.196 74.280.681
x xy
xy
x
n x y
S S
sb y bx
s
= = =
= =
= = = = − = − =
( ) 74.28 14.95h x x= +