estadÍstica (grupo 12 - personal.us.espersonal.us.es/aggonzalez/docencia/tema_12.pdf · 9obtener...
Post on 05-Nov-2018
216 Views
Preview:
TRANSCRIPT
CAPÍTULO V.-DISTRIBUCIONES DE FRECUENCIAS
MULTIDIMENSIONALES
ESTADÍSTICA (GRUPO 12)
TEMA 12.- REGRESIÓN YCORRELACIÓN MÚLTIPLE.
DIPLOMATURA EN CIENCIAS EMPRESARIALES
UNIVERSIDAD DE SEVILLA
2© Antonio Pajares Ruiz
1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.
X2 y X3Variables explicativas
(independientes) REGRESIÓN DE X1SOBRE X2 y X3
X1Variable a explicar
(dependiente)
PLANTEAMIENTO DE LA REGRESIÓN
SUPERFICIE DE REGRESIÓN EMPÍRICA DE X1 SOBRE X2 y X3
Regresión⇒Ajustar una superficie a este conjunto de puntos
( )2 j 3t; 1 2 2 j 3 3tx , x x / X x ,X x= =
3© Antonio Pajares Ruiz
1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.
PLANTEAMIENTO HABITUAL DE LA REGRESIÓN:
Obtener una función lineal de las variables explicativas que aproxime los valores de la variable explicada.
PLANO DE REGRESIÓN DE X1 SOBRE X2 y X3
*1 1 12 2 13 3X a b X b X= + ⋅ + ⋅
4© Antonio Pajares Ruiz
1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.
PLANO DE REGRESIÓN DE X SOBRE X2 y X3
Determinación de los parámetros del plano
( )N N
221i 1i 1 12 2i 13 3i
i 1 i 1
min e x a b x b x= =
= − − ⋅ − ⋅∑ ∑N N N
2 2 21i 1i 1i
i 1 i 1 i 1
1 12 13
e e e0; 0; 0
a b b= = =
∂ ∂ ∂= = =
∂ ∂ ∂
∑ ∑ ∑
n21i
i 1
1
e0
a=
∂=
∂
∑ ( )N
1i 1 12 2i 13 3ii 1
2 x a b x b x 0=
− ⋅ − − ⋅ − ⋅ =∑1 1 12 2 13 3a x b x b x= − ⋅ − ⋅
5© Antonio Pajares Ruiz
1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.
PLANO DE REGRESIÓN DE X SOBRE X2 y X3
Determinación de los parámetros del plano
( )N N
221i 1i 1 12 2i 13 3i
i 1 i 1
e x a b x b x= =
= − − ⋅ − ⋅∑ ∑
( ) ( )n 2
12 13 1i 1 12 2i 2 13 3i 3i 1
b ,b x x b x x b x x =
ϕ = − − ⋅ − − ⋅ −⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦ ⎣ ⎦∑
( )12 13
12
b ,b0
b
⎡ ⎤∂ ϕ⎣ ⎦ =∂
212 12 2 13 23
213 12 23 13 3
s b s b s
s b s b s
= ⋅ + ⋅
= ⋅ + ⋅
( )12 13
13
b ,b0
b
⎡ ⎤∂ ϕ⎣ ⎦ =∂
Determinado a1, sustituimos su expresión en la función a minimizar y volvemos a determinar las correspondientes derivadas parciales:
6© Antonio Pajares Ruiz
1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.
PLANO DE REGRESIÓN DE X SOBRE X2 y X3
Determinación de los parámetros del plano
212 12 2 13 23
213 12 23 13 3
s b s b s
s b s b s
= ⋅ + ⋅
= ⋅ + ⋅
Para resolver el sistema de ecuaciones resultante, basta con aplicar la regla de Cramer:
12 232
13 312 2
2 232
23 3
s ss s
bs ss s
=
22 12
23 1313 2
2 232
23 3
s ss s
bs ss s
=
7© Antonio Pajares Ruiz
1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.
PLANO DE REGRESIÓN DE X SOBRE X2 y X3
Determinación de los parámetros del plano
21 12 13
221 2 23
231 32 3
s s sC s s s
s s s
⎛ ⎞⎜ ⎟
= ⎜ ⎟⎜ ⎟⎝ ⎠
12 232
13 312 2
2 232
23 3
s ss s
bs ss s
=
( )1 2 12 2312 2
13 3
s sC 1
s s+
= − ⋅
Una vez estimados los coeficientes de regresión del modelo, a fin de operativizar los cálculos más fácilmente, expresamos éstos en función de la matriz de varianzas y covarianzas C:
( )2
1 1 2 2311 2
23 3
s sC 1
s s+
= − ⋅ 1212
11
Cb
C−
=
8© Antonio Pajares Ruiz
1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.
PLANO DE REGRESIÓN DE X SOBRE X2 y X3
Determinación de los parámetros del plano
21 12 13
221 2 23
231 32 3
s s sC s s s
s s s
⎛ ⎞⎜ ⎟
= ⎜ ⎟⎜ ⎟⎝ ⎠
22 12
23 1313 2
2 232
23 3
s ss s
bs ss s
=
( )2
1 3 21 213
31 32
s sC 1
s s+
= − ⋅ ( )2
1 1 2 2311 2
23 3
s sC 1
s s+
= − ⋅ 1313
11
Cb
C−
=
9© Antonio Pajares Ruiz
1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.
PLANO DE REGRESIÓN DE X SOBRE X2 y X3
12
13,87 74,1C
12,7 76,2= −
2,89 13,87 12,7C 13,87 84,41 74,1
12,7 74,1 76,2
⎛ ⎞⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠
12C 115,824= −
13
13,87 84,41C
12,7 74,1=
13C 44,24= −
Ej.: Para la distribución de valores acerca de nº de zapato calzado, altura (en cm.) y peso (en kg.) para 10 alumnos, determinar el plano de regresión mínimo-cuadrático del nº de zapato sobre la altura y el peso.
8519145801844479188437317643811794262169417016741701744061166405916340X3X2X1
10© Antonio Pajares Ruiz
1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.
PLANO DE REGRESIÓN DE X SOBRE X2 y X3
11
84,41 74,1C
74,1 76,2=
2,89 13,87 12,7C 13,87 84,41 74,1
12,7 74,1 76,2
⎛ ⎞⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠
11C 941,232=
12C 115,824= − 13C 44,24= −
Ej.: Para la distribución de valores acerca de nº de zapato calzado, altura (en cm.) y peso (en kg.) para 10 alumnos, determinar el plano de regresión mínimo-cuadrático del nº de zapato sobre la altura y el peso.
( )1212
11
115,824Cb 0,1231
C 941,232− −−
= = =
( )1313
11
44,24Cb 0,0470
C 941,232− −−
= = =
11© Antonio Pajares Ruiz
1. PLANO DE REGRESIÓN MÍNIMO-CUADRÁTICO. DETERMINACIÓN DE LOS PARÁMETROS.
PLANO DE REGRESIÓN DE X SOBRE X2 y X3
Ej.: Para la distribución de valores acerca de nº de zapato calzado, altura (en cm.) y peso (en kg.) para 10 alumnos, determinar el plano de regresión mínimo-cuadrático del nº de zapato sobre la altura y el peso.
12b 0,1231=
13b 0,0470=
Desde los valores de los parámetros b12 y b13, y como el vector de medias también es conocido, podemos concretar el valor de a1:
41,9M 175,7
72
⎛ ⎞⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠
1 11 12 2 13 3a x b x b x= − ⋅ − ⋅
1a 41,9 0,1231 175,7 0,0470 72 16,8949= − ⋅ − ⋅ =
12© Antonio Pajares Ruiz
2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
CORRESPONDIENTE AL AJUSTE.CORRELACIÓN LINEAL MÚLTIPLE
Concepto
Es aquel coeficiente que indica el grado de dependencia lineal existente entre una de las variables de la distribución y la combinación lineal del resto de los componentes.
La correlación lineal múltiple entre X1 y (X2 , X3) vendría definida por la correlación lineal entre las variables:
1Xi*1 1 12 2 13 3X a b X b X= + ⋅ + ⋅i
13© Antonio Pajares Ruiz
2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
CORRESPONDIENTE AL AJUSTE.CORRELACIÓN LINEAL MÚLTIPLE
Coeficiente de correlación múltiple entre X1 y (X2, X3)
( )( ) ( )
*1 1
1.23 *1 1
Cov X ,Xr
Var X Var X=
⋅
( )*1 1Cov X ,X
( ) ( )* *1 1 1Cov X ,X Var X=
( )( )
*1
1.23
1
Var Xr
Var X= 1.23 2
1 11
|C|r 1
s C= −
⋅
( )1 1 12 2 13 3Cov X ,a b X b X+ ⋅ + ⋅
Propiedad:
1.230 r 1≤ ≤
14© Antonio Pajares Ruiz
2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
CORRESPONDIENTE AL AJUSTE.COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
Coeficiente de determinación múltiple para la regresión lineal de X1 sobre (X2, X3)
1
N21i
2 2i 1e 1
es e
N== −∑
1
N21i
2 i 1e
es
N==∑
1
2e
11
Cs
C=
*1
2 2 21 e1
s s s= + 1
2 21 e2
1.23 21
s sR
s
−=
1
N* 2
1i 1i2 i 1e
(x x )s
N=
−=∑
1
2e2
1.23 21
sR 1
s= −
Varianza residual para la regresión lineal de X1 sobre (X2, X3):
1
1
22e
11
s Rs
R
⋅=
2 111.23 2
1
CC
R 1s
= −21.23
11
RR 1
R= −
15© Antonio Pajares Ruiz
2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
CORRESPONDIENTE AL AJUSTE.COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
Interpretación de sus valores
21.23R 0=
1
2 21 es s=
El plano de regresión no explica en ninguna medida las variaciones de la variable X1
21.23R 1= *
2 21 1
s s=Ajuste perfecto: El plano de regresión explica totalmente las variaciones de la variable X1
21.230 R 1< < *
2 21 1
s s>El plano de regresión consigue explicar un determinado porcentaje de las variaciones de la variable X1
16© Antonio Pajares Ruiz
2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
CORRESPONDIENTE AL AJUSTE.
85807973816270706159X3
44,3941914543,2971844443,7431884341,9841764342,7291794240,6051694140,7351674141,5971744040,1891664039,72616340
X1*X2X1
Ej.: Para la regresión lineal del número de zapato sobre la altura y el peso, determinada a partir de la distribución conjunta de valores de esas variables, recogida sobre 10 alumnos, calcular el correspondiente coeficiente de correlación lineal múltiple.
Comencemos determinando la varianza de los valores ajustados por la regresión, a partir de los valores previamente calculados:
*1 2 3X 16,8949 0,1231 X 0,0470 X= + ⋅ + ⋅
21s 2,89= ( )
( )N 2*
1ii 1
*
x 22 *1N1
s x=∑
= −*1 1x x 41,9= =
*2 21
17579,14s 41,9 2,3037
10= − =
17© Antonio Pajares Ruiz
2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
CORRESPONDIENTE AL AJUSTE.
85807973816270706159X3
44,3941914543,2971844443,7431884341,9841764342,7291794240,6051694140,7351674141,5971744040,1891664039,72616340
X1*X2X1
Ej.: Para la regresión lineal del número de zapato sobre la altura y el peso, determinada a partir de la distribución conjunta de valores de esas variables, recogida sobre 10 alumnos, calcular el correspondiente coeficiente de correlación lineal múltiple.
Conocidos los valores de varianza explicada y varianza total, calculamos el coeficiente de correlación múltiple:
21s 2,89=
( )( )
*1
1.23
1
Var X 2,3037r 0,8928
2,89Var X= = =
*21
s 2,3037=
18© Antonio Pajares Ruiz
2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
CORRESPONDIENTE AL AJUSTE.Ej.: Para la regresión lineal del número de zapato sobre la altura y el peso, determinada a partir de la distribución conjunta de valores de esas variables, recogida sobre 10 alumnos, calcular el correspondiente coeficiente de determinación múltiple.1. Desde los valores de varianza explicada y varianza total:
21s 2,89=
*2
2 11.23 2
1
s 2,3037R 0,7971
s 2,89= = =
*21
s 2,3037=2. Desde el valor del coeficiente de correlación múltiple:
( )221.23 1.23R r= ( )22
1.23R 0,8928 0,7971= =
3. Conocida la matriz de varianzas y covarianzas:C2
e C1 112 21 1
s21.23 s s
R 1 1= − = −551,8336941,2322 0,5863
1.23 2,89 2,89R 1 1 0,7971= − = − =
19© Antonio Pajares Ruiz
2. COEFICIENTE DE CORRELACIÓN LINEAL MÚLTIPLE Y COEFICIENTE DE DETERMINACIÓN MÚLTIPLE
CORRESPONDIENTE AL AJUSTE.Ej.: Para la regresión lineal del número de zapato sobre la altura y el peso, determinada a partir de la distribución conjunta de valores de esas variables, recogida sobre 10 alumnos, calcular el correspondiente coeficiente de determinación múltiple.
Una vez determinado el valor de este coeficiente de determinación, intentaremos valorar qué representa:
21.23R 0,7971=
El 79,71% de las variaciones en el nº de zapato calzado son explicados a través de la altura y el peso mediante el correspondiente plano de regresión.El 20,29% de las variaciones en el nº de zapato calzado no son explicadas a través de la altura y el peso mediante el correspondiente plano de regresión.
20© Antonio Pajares Ruiz
3. COEFICIENTE DE CORRELACIÓN PARCIAL.Concepto
Indicador que muestra el grado de relación lineal entre dos de las variables que conforman la distribución de frecuencias, “eliminando” la influencia que sobre ellas ejerce la tercera variable.COEFICIENTE DE CORRELACIÓN PARCIAL ENTRE X1 Y X2
***1 1 13 3X a b X= + ⋅ ***
1 1X X−Recta de regresión de X1 sobre X3
Residuo de la recta de regresión de X1 sobre X3
***2 2 23 3X a b X= + ⋅ ***
2 2X X−Recta de regresión de X2 sobre X3
Residuo de la recta de regresión de X2 sobre X3
21© Antonio Pajares Ruiz
3. COEFICIENTE DE CORRELACIÓN PARCIAL.
Fundamento para su determinación
El coeficiente de correlación entre los términos residuales de ambas regresiones cuantifican el grado de relación lineal entre X1 y X2,“eliminado” previamente la influencia de tipo lineal, que sobreambas ejerce la variable X3 .
COEFICIENTE DE CORRELACIÓN PARCIAL ENTRE X1 Y X2
( ) ( )*** ***
1 1 2 212.3 *** ***
1 1 2 2
Cov(X X ,X X )r
Var X X Var X X
− −=
− ⋅ −12
12.311 22
Cr
C C−
=⋅
12 13 2312.3 2 2
13 23
r r rr
1 r 1 r
− ⋅=
− ⋅ −
A partir de la relación existente entre la matriz C y la Matriz R:
22© Antonio Pajares Ruiz
3. COEFICIENTE DE CORRELACIÓN PARCIAL.
Sus propiedades
1. Si el coeficiente de correlación simple entre X1 y X2 es nulo, el coeficiente de correlación parcial entre estas variables no tiene porqué ser igual a cero. Ello sucederá cuando se dé alguna de estas circunstancias:
COEFICIENTE DE CORRELACIÓN PARCIAL ENTRE X1 Y X2
13r 0=
23r 0=
13 23r 0 y r 0= =2. Si el coeficiente de correlación simple entre X1 y X2 es nulo, y el
coeficiente de correlación simple entre X1 y X3 y el coeficiente de correlación simple entre X2 y X3 son ambos menores que cero o mayores que cero, el coeficiente de correlación parcial entre X1 y X2será mayor que cero.
23© Antonio Pajares Ruiz
3. COEFICIENTE DE CORRELACIÓN PARCIAL.
Sus propiedadesCOEFICIENTE DE CORRELACIÓN PARCIAL ENTRE X1 Y X2
3. Si el coeficiente de correlación simple entre X1 y X2 es nulo, y el coeficiente de correlación simple entre X1 y X3 y el coeficiente de correlación simple entre X2 y X3 tienen signos contrarios, el coeficiente de correlación parcial entre X1 y X2 será menor que cero.
4. Los coeficientes de correlación simple y parcial entre dos variables pueden tener distinto signo.
5. El coeficiente de determinación múltiple se puede expresar en función de los coeficientes de correlación simples y parciales:
( )2 2 2 21.23 12 12 13.2R r 1 r r= + − ⋅
24© Antonio Pajares Ruiz
3. COEFICIENTE DE CORRELACIÓN PARCIAL.Ej.: Para la distribución de valores acerca del nº de zapato calzado (X1), altura en cm. (X2) y peso en kg. (X3) para 10 alumnos, determinar los coeficientes de correlación simple y parcial entre las variables “Número de zapato” y “Altura”.Para ello, partimos de la información conocida acerca de la matriz de varianzas y covarianzas de esa distribución:
2,89 13,87 12,7C 13,87 84,41 74,1
12,7 74,1 76,2
⎛ ⎞⎜ ⎟= ⎜ ⎟⎜ ⎟⎝ ⎠
12C 115,824= −
11C 941,232=
13C 44,24= −
22
2,89 12,7C
12,7 76,2=
22C 58,928=
1212.3
11 22
Cr
C C−
=⋅
( )12.3
115,824r
941,232 58,928
− −=
⋅
1212 2 2
1 2
sr
s s=
⋅
12
13,87r
2,89 84,41=
⋅
12.3r 0,4918=12r 0,8880=
25© Antonio Pajares Ruiz
4. GENERALIZACIÓN A LAS DISTRIBUCIONES MULTIDIMENSIONALES.
DISTRIBUCIÓN DE FRECUENCIAS MULTIDIMENSIONAL
xnN...x2Nx1NElemento N
...............
xns...x2sx1sElemento s
...............
xn2...x22x12Elemento 2
xn1...x21x11Elemento 1
Xn...X2X1
Valores de las variables
Generalidades:
N elementosn variables
Caracterización
1
2
n
x
x
M ... x
⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟=⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠
212 1n1
221 2n2
2n1 n2 n
s ... ss
s ... ssC
... ... ... ...s s ... s
⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠
2 2 21 2 n0 C s s ..... s≤ ≤ ⋅ ⋅ ⋅
26© Antonio Pajares Ruiz
4. GENERALIZACIÓN A LAS DISTRIBUCIONES MULTIDIMENSIONALES.
DISTRIBUCIÓN DE FRECUENCIAS MULTIDIMENSIONALCaracterización
12 1n
21 2n
n1 n2
1 r ... rr 1 ... r
R... ... ... ...r r ... 1
⎛ ⎞⎜ ⎟⎜ ⎟=⎜ ⎟⎜ ⎟⎝ ⎠
0 R 1≤ ≤
2 2 21 2 nC s s ....... s R= ⋅ ⋅ ⋅ ⋅
Distribución singular
Una distribución es singular si su rango es menor que n, esto es, cuando el determinante de C ó R de la misma es igual a cero.
R 0= C 0=
27© Antonio Pajares Ruiz
4. GENERALIZACIÓN A LAS DISTRIBUCIONES MULTIDIMENSIONALES.
PLANO DE REGRESIÓN DE X1 SOBRE X2, X3, …, Xn
*1 1 12 2 13 3 1n nX a b X b X ... b X= + ⋅ + ⋅ + + ⋅
1v1v
11
Cb
C−
=
v 2,3,....,n=
1 1 12 2 13 3 1n na x b x b x ..... b x= − ⋅ − ⋅ − − ⋅
1
212
e11 11
C s Rs
C R⋅
= =
Aplicando el método de mínimos cuadrados, se estiman los valores de los parámetros:
Coeficiente de determinación múltiple
21.2...n 2
1 11 11
C RR 1 1
s C R= − = −
⋅
28© Antonio Pajares Ruiz
4. GENERALIZACIÓN A LAS DISTRIBUCIONES MULTIDIMENSIONALES.
CORRELACIÓN
1.2...n 21 11
Cr 1
s C= −
⋅
1.2...n0 r 1≤ ≤
2 21.2...n 1.2...nr R=
Coeficiente de correlación múltiple
1212.3...n
11 22
Cr
C C−
=⋅
12.3...n1 r 1− ≤ ≤
Coeficiente de correlación parcial
top related