1 distribuciones bidimensionales. tablas de contingencia. regresión lineal 2.1 distribución de...
TRANSCRIPT
1
Distribuciones bidimensionales. Tablas de contingencia. Regresión lineal
2.1 Distribución de frecuencias bidimensional2.2 Distribuciones marginales y condicionadas2.3 Dependencia e independencia estadística. Indicadores de asociación
2.4 Regresión y correlación lineal
2
X\Y 140-160 160-180 180-200 >200 Marginal X
40-60 1010 66 22 00 18
60-80 88 1212 66 22 28
80-100 11 88 1010 66 25
Marginal
Y19 26 18 8 71
2.1 Distribución de frecuencias bidimensional
Frecuencias Marginales Frecuencias Marginales de X Frecuencias Marginales de Y
Frecuencias Condicionadas Frecuencias Condicionadas de X Frecuencias Condicionadas de Y
♦ Ejemplo . X: “Peso”, Y: “Estatura”
3
X \ Y
40-60
60-80
80-100
Marginal
Y
140-160
1010
88
11
19
Marginal X
18
28
25
71
160-180
66
1212
88
26
180-200
22
66
1010
18
>200
00
22
66
8
♦ Distribución de la variable X: “Peso”
Distribución marginal de X
2.2 Distribuciones marginales y condicionadas
4
X Frecuencias Marginales
40-60 18
60-80 28
80-100 25
71
Distribución marginal de X
Varianza Marginal de X
Media Marginal de X
Mediana Marginal de X
♦ Distribución de la variable X: “Peso”
5
X \ Y 140-160 160-180 180-200 >200 Marginal X
40-60 1010 66 22 00 18
60-80 88 1212 66 22 28
80-100 11 88 1010 66 25
Marginal
Y19 26 18 8 71
Distribución marginal de Y
♦ Distribución de la variable Y: “Estatura”
6
Y Frecuencias Marginales
140-160 19
160-180 26
180-200 18
>200 8
71
Distribución marginal de Y
Varianza Marginal de Y
Media Marginal de Y
Mediana Marginal de Y
♦ Distribución de la variable Y: “Estatura”
7
X\Y
40-60
60-80
80-100
Marginal
Y
140-160
1010
88
11
19
Marginal X
18
28
25
71
160-180
66
1212
88
26
180-200
22
66
1010
18
>200
00
22
66
8
Distribuciones de X Condicionadas a valores de Y
♦ Ejemplo . Distribución de X Condicionada a 160 < Y < 180
8
X Frecuencias condicionadas
40-60 66
60-80 1212
80-100 88
26
♦ Ejemplo . Distribución de X Condicionada a 160 < Y < 180
Varianzas Condicionadas de X
Medias Condicionadas de X
9
X\Y 140-160 160-180 180-200 >200 Marginal X
40-60 1010 66 22 00 18
60-80 88 1212 66 22 28
80-100 11 88 1010 66 25
Marginal
Y19 26 18 8 71
Distribuciones de Y Condicionadas a valores de X
♦ Ejemplo . Distribución de Y Condicionada a 60 < X < 80
10
Y Frecuencias condicionadas
140-160 8
160-180 12
180-200 6
>200 2
total 28
♦ Ejemplo . Distribución de Y Condicionada a 60 < X < 80
Varianzas Condicionadas de Y
Medias Condicionadas de Y
11
Independencia estadística No hay relación entre las variables
,. .i jij
n nn i j
n sii
Dependencia estadística Hay relación entre las variables
El grado de asociación se mide mediante los coeficientes de asociación
2.4 Dependencia e independencia estadística. Indicadores de asociación
12
Independencia estadística
2 323
30 126
60. .
n nn
n
,. .
Si i j
ijn n
n i jn
X\Y Y1 Y2 Y3 Y4 ni ●
X1 n11
= 2= 2
n12
= 6= 6
n13
= 4= 4
n14
= 8= 8
n1 ●
= 20= 20
X2 n21
= 3= 3
n22
= 9= 9
n23
= 6= 6
n24
= 12= 12
n2 ●
= 30= 30
X3 n31
= 1= 1
n32
= 3= 3
n33
= 2= 2
n34
= 4= 4
n3 ●
= 10= 10
n ●j n ●1
= 6= 6
n ●2
= 18= 18
n ●3
= 12= 12
n ●4
= 24= 24
n = 60= 60
3 131
10 61
60. .
n nn
n
♦ Ejemplo. Variables X e Y Independientes
13
Independencia estadística
2 323
31 126
62. .
n nn
n
,. .
Si i j
ijn n
n i jn
X\Y Y1 Y2 Y3 Y4 ni ●
X1 n11
= 3= 3
n12
= 6= 6
n13
= 4= 4
n14
= 8= 8
n1 ●
= 21= 21
X2 n21
= 3= 3
n22
= 10= 10
n23
= 6= 6
n24
= 12= 12
n2 ●
= 31= 31
X3 n31
= 1= 1
n32
= 3= 3
n33
= 2= 2
n34
= 4= 4
n3 ●
= 10= 10
n ●j n ●1
= 7= 7
n ●2
= 19= 19
n ●3
= 12= 12
n ●4
= 24= 24
n = 62= 62
3 131
10 71.129 1
62. .
n nn
n
♦ Ejemplo. Variables X e Y No Independientes
14
Independencia
estadística,
. .Si
i jij
n nn i j
n
♦ Estadístico Chi-Cuadrado de asociación
ji ij
ijij
t
tn
,
2
2 siendo n
nnt ji
ij
las frecuencias teóricas que obtendríamos si las dos variables fueran independientes.
Recordamos…
Si las variables fueran independientes, el coeficiente seanularía. Tiene el inconveniente de que depende del tamaño de la población. ♦ Estadístico T-Tschuprow de asociación
10)1)(1(
2
Tqpn
T
Cuanto más se acerca a 1, mayor es la asociación
)1(),1(0 2 qpmínn
15
,
ij i ji j
x y
n x x y y
Cov X Yn
ij i ji j
n x y
x yn
Definición de Covarianza
2.4 Regresión y correlación lineal
Regresión “Búsqueda de una función matemática sencilla que relacione ambas variables y sirva para predecir la variable de interés del problema”
Mide el grado de correlación lineal entre las variables X e Y. Si tienen una relación positiva, la covarianza será positiva y en el caso de una relación negativa, la covarianza será negativa.
16
Nube de puntos (diagrama de dispersión): gráfico de las observaciones (datos bidimensionales)
Elección de la función de regresión : tipo de función que mejor se ajuste a la nube de puntos: Lineal , polinómica, exponencial……
Especificación de función de regresiónEspecificación de función de regresión
Correlación
Estudio del grado de asociación entre las variables
17
(xi, yj )
xi
yj
(xi, yj* )
*
**
**
*
* *
*
eij
X
Y
*
*
yj*
y = a + bx
2 2*min = minij j ji j i j
e y y
Ecuaciones normales
2j ii j
y a bx min
Rectas de regresión
Recta de mínimos cuadrados de Y / X
jij ie y a bx Residuos = =
18
22 2
,i i i
xy
i ix
n x yx yCov X Y nb
Var X n xx
n
a y bx
Recta de mínimos cuadrados de Y / X
( )y f x a b x
y y b x x
b = pendiente de la recta o coeficiente de regresión de Y / X “Variación de Y que se produce por cada unidad de aumento en X”a= ordenada en el origen
Ecuación de una recta:
19
Recta de mínimos cuadrados de X / Y
( )x f y c d y
22 2
,
i i ixy
i iy
n x yx yCov X Y nd
Var Y n yy
n
c x d y
x x d y y
d = coeficiente de regresión de X / Y “Variación de X si Y aumenta en una unidad”
Propiedad: “Las dos rectas de regresión se cortan en el el punto “
( , )x y
20
0
0
1
1
r
r
r
r
No hay asociacion lineal entre las variables
Independencia
Asociacion lineal positiva perfecta
Asociacion lineal negativa perfecta
Coeficiente de determinación y coeficiente de correlación lineal
; 1 1 xy
x yr r
Coeficiente de correlación lineal de Pearson
Es una medida del grado de relación lineal entre las variables X e Y
21
Coeficiente de determinación y coeficiente de correlación lineal
Coeficiente de determinación
“Proporción de la varianza explicada por la regresión”
22 2
2 2; 0 1
xy
x y
r r
Propiedad: , donde b y d son las pendientes de las rectas de regresión. 2 bdr
Como es la proporción de la varianza de Y, explicada por la regresión, proporciona una medida de la bondad del ajuste obtenido.
En regresión lineal simple, este coeficiente coincide con el coeficiente de correlación lineal de Pearson al cuadrado, es decir:
22
x i yi x i yi x i2 Yi
2
160 52 8320 25600 2704
172 64 11008 29584 4096
174 65 11310 30276 4225
176 72 12672 30976 5184
180 78 14040 32400 6084
=862 = 331 = 57350 = 148836 = 22293
862 331172.4 ; 66.2
5 5 x y
57350172.4 66.2 57.12
5i i i
xyn x y
x yn
222 2148836
172.4 45.445
i ix
n xx
n
222 222293
66.2 76.165
i iy
n yy
n
♦ Ejemplo. X= “Estatura”, Y= “Peso”
23
2
, 57.121.257
45.44
66.2 1.257 172.4 150.5068
xy
x
Cov X Y
Var Xb
a y bx
57.120.909
45.44 76.16
xy
x yr
170
150.5068 1.257 170 63.1832
Para x
y a bx
y a bx
150.5068 1.258y a b x x
24
2y ax bx c
by a x
xy ab
ay
x Hiperbólico
Potencial
Exponencial
Parabólico
Otros tipos de ajuste