tema 2:descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de...

16
Estadística: Profesora María Durbán 1 Tema 2:Descripción conjunta de dos variables 2.2 Distribuciones de frecuencias Distribución conjunta Distribución marginal Distribución condicionada 2.3 Representaciones gráficas Histograma Diagrama de dispersión 2.4 Medidas de dependencia lineal Covarianza Correlación 2.1 Introducción 2.5 Recta de regresión Estadística: Profesora María Durbán 2 Tema 2:Descripción conjunta de dos variables 2.2 Distribuciones de frecuencias Distribución conjunta Distribución marginal Distribución condicionada 2.3 Representaciones gráficas Histograma Diagrama de dispersión 2.4 Medidas de dependencia lineal Covarianza Correlación 2.1 Introducción 2.5 Recta de regresión Estadística: Profesora María Durbán 3 2.1 Introducción En este tema estudiamos una situación muy usual y por tanto de gran interés en la práctica: Si Y es otra variable definida sobre la misma población que X, ¿será posible determinar si existe alguna relación entre X e Y? En el tema anterior hemos visto cómo describir una muestra de datos de una variable mediante: Representaciones gráficas Estadísticos: Posición : indican hacia donde tienden a agruparse los datos Dispersión : indican si las diferentes modalidades que presenta la variable están muy agrupadas alrededor de cierto valor central Forma : Determinan si los datos se distribuyen de forma simétrica a un lado y a otro de un valor central Estadística: Profesora María Durbán 4 Tema 2:Descripción conjunta de dos variables Distribución conjunta Distribución marginal Distribución condicionada 2.3 Representaciones gráficas Histograma Diagrama de dispersión 2.4 Medidas de dependencia lineal Covarianza Correlación 2.2 Distribuciones de frecuencias 2.1 Introducción 2.5 Recta de regresión

Upload: others

Post on 08-Sep-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

1

Tema 2:Descripción conjunta de dos variables

2.2 Distribuciones de frecuencias

Distribución conjuntaDistribución marginalDistribución condicionada

2.3 Representaciones gráficas

HistogramaDiagrama de dispersión

2.4 Medidas de dependencia lineal

CovarianzaCorrelación

2.1 Introducción

2.5 Recta de regresión

Estadística: Profesora María Durbán

2

Tema 2:Descripción conjunta de dos variables

2.2 Distribuciones de frecuencias

Distribución conjuntaDistribución marginalDistribución condicionada

2.3 Representaciones gráficas

HistogramaDiagrama de dispersión

2.4 Medidas de dependencia lineal

CovarianzaCorrelación

2.1 Introducción

2.5 Recta de regresión

Estadística: Profesora María Durbán

3

2.1 Introducción

En este tema estudiamos una situación muy usual y por tanto de gran interés en la práctica:

Si Y es otra variable definida sobre la misma población que X, ¿será posible determinar si existe alguna relación entre X e Y?

En el tema anterior hemos visto cómo describir una muestra de datos de unavariable mediante:

Representaciones gráficasEstadísticos:

Posición: indican hacia donde tienden a agruparse los datos

Dispersión: indican si las diferentes modalidades que presenta la variableestán muy agrupadas alrededor de cierto valor central

Forma: Determinan si los datos se distribuyen de forma simétrica a un ladoy a otro de un valor central

Estadística: Profesora María Durbán

4

Tema 2:Descripción conjunta de dos variables

2.1 Distribuciones de frecuencias

Distribución conjuntaDistribución marginalDistribución condicionada

2.3 Representaciones gráficas

HistogramaDiagrama de dispersión

2.4 Medidas de dependencia lineal

CovarianzaCorrelación

2.2 Distribuciones de frecuencias

2.1 Introducción

2.5 Recta de regresión

Page 2: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

5

2.2 Distribuciones de frecuencias

Ahora tomamos dos medidas a cada individuo de la muestra.

Las variables pueden ser cuantitativas, discretas o continuas o cualitativas, dando lugar a muchas combinaciones:cualitativa/cualitativa, discreta/continua, continua/continua, etc.

El tipo de análisis dependerá de la combinación que tengamos.

Tomamos una muestra de la población y medimos las variables (X e Y), esa muestra estará dividida en clases para cada una de las variables y existirán elementos que pertenezcan a las distintas combinaciones de las clases.

Llamamos distribución conjunta de frecuencias de dos variables (X e Y) a latabla que representa los valores observados y las frecuencias relativas/absolutasde cada par .

Estadística: Profesora María Durbán

6

Y y1 y2 ..... yj ..... ys

x1 n11 n12 ..... n1j ..... n1sx2 n21 n22 ..... n2j ..... n2s

xi ni1 ni2 ..... nij ..... nisxr nr1 nr2 ..... nrj ..... nrs

X

2.2 Distribuciones de frecuencias

Consideramos una población de n individuos, donde cada uno de ellos presenta dos características que representamos mediante las variables X e Y.

1 2

1 2

, ,, ,

r

s

X x x xY y y y

→→

K

K

Creamos una tabla de casillas, con r filas y s columnas.La casilla con subíndice ij corresponde a los individuos de la muestra que presentansimultáneamente las modalidades

r s×

,i jx y

Estadística: Profesora María Durbán

7

Y y1 y2 ..... yj ..... ys

x1 n11 n12 ..... n1j ..... n1sx2 n21 n22 ..... n2j ..... n2s

xi ni1 ni2 ..... nij ..... nisxr nr1 nr2 ..... nrj ..... nrs

X

2.2 Distribuciones de frecuencias

Consideramos una población de n individuos, donde cada uno de ellos presenta dos características que representamos mediante las variables X e Y.

1 2

1 2

, ,, ,

r

s

X x x xY y y y

→→

K

K

Creamos una tabla de casillas, con r filas y s columnas.La casilla con subíndice ij corresponde a los individuos de la muestra que presentansimultáneamente las modalidades

r s×

,i jx y

Estadística: Profesora María Durbán

8

∑=

• =s

jiji nn

1

Frecuencia Absoluta de la clase xi; para i= 1, ,2, ... ,r(Suma de los valores de la fila i-ésima )

∑=

• =r

iijj nn

1

Frecuencia Absoluta de la clase yj; para j= 1, ,2, ... ,s( Suma de los valores de la columna j-ésima)

nij = Frecuencia Absoluta de la clase conjunta (xi,yj).

fij = nijn Frecuencia Relativa

“conjunta”

2.2 Distribuciones de frecuencias

Consideramos los elementos que presentan la modalidad xi, independientemente de las modalidades que presente la variable Y1

r s

iji j

r s

iji j

n n

f

=

=

∑∑

∑∑

Propiedades

Page 3: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

9

Y y1 y2 ..... yj ..... ys Total

x1 n11 n12 ..... n1j ..... n1s n1

x2 n21 n22 ..... n2j ..... n2s n2

xi ni1 ni2 ..... nij ..... nis ni

xr nr1 nr2 ..... nrj ..... nrs nr

Total n 1 n 2 ..... n j ..... n s n

X

n = n

2.2 Distribuciones de frecuencias

Estadística: Profesora María Durbán

10

Y y1 y2 ..... yj ..... ys Total

x1 n11 n12 ..... n1j ..... n1s n1

x2 n21 n22 ..... n2j ..... n2s n2

xi ni1 ni2 ..... nij ..... nis ni

xr nr1 nr2 ..... nrj ..... nrs nr

Total n 1 n 2 ..... n j ..... n s n

X

n = n

2.2 Distribuciones de frecuencias

Frecuencia Absoluta de la clase conjunta (xi,yj).

Estadística: Profesora María Durbán

11

Y y1 y2 ..... yj ..... ys Total

x1 f11 f12 ..... f1j ..... f1s f1x2 f21 f22 ..... f2j ..... f2s f2

xi fi1 fi2 ..... fij ..... fis fi

xr fr1 fr2 ..... frj ..... frs frTotal f 1 f 2 ..... f j ..... f s f

X

f = 1

2.2 Distribuciones de frecuencias

Estadística: Profesora María Durbán

12

Y y1 y2 ..... yj ..... ys Total

x1 f11 f12 ..... f1j ..... f1s f1x2 f21 f22 ..... f2j ..... f2s f2

xi fi1 fi2 ..... fij ..... fis fi

xr fr1 fr2 ..... frj ..... frs frTotal f 1 f 2 ..... f j ..... f s f

X

f = 1

2.2 Distribuciones de frecuencias

Frecuencia Absoluta de la clase conjunta (xi,yj). ij

ij

nf

n=

Page 4: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

13

2.2 Distribuciones de frecuencias

Ejemplo: continua/continua

Se ha medido la longitud (X en mm) y el peso (Y en gr) de una muestra de 117 tornillos producidos por una máquina, la información se representa en la siguiente tabla:

1

1

0

0

100-120

117188018Total

3716200180-200

7626014160-180

4004140-160

Total80-10060-8040-60x/y

Estadística: Profesora María Durbán

14

2.2 Distribuciones de frecuencias

Ejemplo: cualitativa/discreta

La relación entre el tipo de electrodoméstico y el número de fallos en una muestra de 1000aparatos queda representada en la siguiente tabla:

0.250.150.12

0.520.40.121

10.630.37Total

0.15

Pequeño

Electrodoméstico

0.08

Grande

0.23

Total

0

Fallo

Estadística: Profesora María Durbán

15

2.2 Distribuciones de frecuencias

Distribuciones marginales

Se obtiene al estudiar una variable con independencia de la otra

Su nombre se debe a que la distribución se obtiene sumando en los márgenes de la tabla de distribución conjunta.

ijn

.

i ijj

n n=∑ .

j iji

n n=∑

Estadística: Profesora María Durbán

16

2.2 Distribuciones de frecuencias

Distribuciones marginales

Se obtiene al estudiar una variable con independencia de la otra

Su nombre se debe a que la distribución se obtiene sumando en los márgenes de la tabla de distribución conjunta.

( , )i jf x y

.

( ) ( , )

i i jj

i

f x f x y

f

=∑.

( ) ( , )

j i ji

j

f y f x y

f

=∑

Page 5: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

17

2.2 Distribuciones de frecuencias

Distribuciones marginales

Se obtiene al estudiar una variable con independencia de la otra

Su nombre se debe a que la distribución se obtiene sumando en los márgenes de la tabla de distribución conjunta.

( , )i jf x y

.

( ) ( , )

i i jj

i

f x f x y

f

=∑.

( ) ( , )

j i ji

j

f y f x y

f

=∑

Propiedades

. .

. . 1

r s

i ji j

r s

i ji j

n n n

f f

= =

= =

∑ ∑

∑ ∑

Estadística: Profesora María Durbán

18

Y y1 y2 ..... yj ..... ys Total

x1 n11 n12 ..... n1j ..... n1s n1

x2 n21 n22 ..... n2j ..... n2s n2

xi ni1 ni2 ..... nij ..... nis ni

xr nr1 nr2 ..... nrj ..... nrs nr

Total n 1 n 2 ..... n j ..... n s n

X

n = n

2.2 Distribuciones de frecuencias

Frecuencia Absoluta de la clase xi; para i= 1, ,2, ... ,r

(Suma de los valores de la fila i-ésima ).

1

s

i ijj

n n=

= ∑

Estadística: Profesora María Durbán

19

Y y1 y2 ..... yj ..... ys Total

x1 n11 n12 ..... n1j ..... n1s n1

x2 n21 n22 ..... n2j ..... n2s n2

xi ni1 ni2 ..... nij ..... nis ni

xr nr1 nr2 ..... nrj ..... nrs nr

Total n 1 n 2 ..... n j ..... n s n

X

n = n

2.2 Distribuciones de frecuencias

Frecuencia Absoluta de la clase yj; para i= 1, ,2, ... ,s

(Suma de los valores de la columna j-ésima ).

1

r

j iji

n n=

=∑

Estadística: Profesora María Durbán

20

Y y1 y2 ..... yj ..... ys Total

x1 f11 f12 ..... f1j ..... f1s f1x2 f21 f22 ..... f2j ..... f2s f2

xi fi1 fi2 ..... fij ..... fis fi

xr fr1 fr2 ..... frj ..... frs frTotal f 1 f 2 ..... f j ..... f s f

X

f = 1

2.2 Distribuciones de frecuencias

Si quisiésemos estudiar la variable X y la Y por separado,nos hubiese bastado con utilizar:

Page 6: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

21

x1 f1x2 f2

xi fi

xr frTotal 1

X

2.2 Distribuciones de frecuencias

y1 f 1

y2 f 2

yj f j

ys f s

Total 1

Yif(x ) jf(y )

Estadística: Profesora María Durbán

22

2.2 Distribuciones de frecuencias

Ejemplo: cualitativa/discreta

La relación entre el tipo de electrodoméstico y el número de fallos en una muestra de 1000aparatos queda representada en la siguiente tabla:

0.250.150.12

0.520.40.121

10.630.37Total

0.15

Pequeño

Electrodoméstico

0.08

Grande

0.23

Total

0

Fallo

Estadística: Profesora María Durbán

23

2.2 Distribuciones de frecuencias

Ejemplo: cualitativa/discreta

La distribución del número de fallos, independientemente del tamaño del electrodomésticosería:

0.252

0.521

1Total

0.230

Falloi.f

Estadística: Profesora María Durbán

24

2.2 Distribuciones de frecuencias

Ejemplo: cualitativa/discreta

La distribución del tipo de electrodoméstico, independientemente del número de fallossería:

0.63Grande

1Total

0.37Pequeño

Electrodoméstico.jf

Page 7: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

25

2.2 Distribuciones de frecuencias

Distribuciones condicionadas

De todos los elementos, n, podemos estar interesados, en un momento dado, en un conjunto más pequeño que está formado por aquellos elementos que han presentado la modalidad xi, para algún i=1,….r

La variable Y definida sobre este conjunto se denomina variable condicionada y se suele denotar mediante | iY X x=

La frecuencia relativa de condicionada a representa la proporciónde individuos que presentan de entre los que tienen

jy iX x= jY y= iX x=

.

( , )( | )

( )

ij i jj i

i i

n f x yf y x

n f x= =

( , )( | ) 1

( )

i jj

j ij i

f x yf y x

f x= =∑

Estadística: Profesora María Durbán

26

x1 f(x1|yj)

x2 f(x2|yj)

xi f(xi|yj)

xr f(xr|yj)

Total 1

X|Y=yj

2.2 Distribuciones de frecuencias

y1 f(y1|xi)

y2 f(y2|xi)

yj f(yj|xi)

ys f(ys|xi)

Total 1

Y|X=xii jf(x |y ) j if(y |x )

Estadística: Profesora María Durbán

27

2.2 Distribuciones de frecuencias

Ejemplo: cualitativa/discreta

¿Cuál es la distribución del número de fallos cuando el electrodoméstico es pequeño?

Fallo|Electrodoméstico=Pequeño

0.250.150.12

0.520.40.121

10.630.37Total

0.15

Pequeño

Electrodoméstico

0.08

Grande

0.23

Total

0

Fallo

2

1

Total

0

Fallo | pequeño ( | )j if y x

0.405

Estadística: Profesora María Durbán

28

2.2 Distribuciones de frecuencias

Ejemplo: cualitativa/discreta

¿Cuál es la distribución del número de fallos cuando el electrodoméstico es pequeño?

Fallo|Electrodoméstico=Pequeño

0.250.150.12

0.520.40.121

10.630.37Total

0.15

Pequeño

Electrodoméstico

0.08

Grande

0.23

Total

0

Fallo

2

1

Total

0.4050

Fallo | pequeño ( | )j if y x

0.320

Page 8: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

29

2.2 Distribuciones de frecuencias

Ejemplo: cualitativa/discreta

¿Cuál es la distribución del número de fallos cuando el electrodoméstico es pequeño?

Fallo|Electrodoméstico=Pequeño

0.250.150.12

0.520.40.121

10.630.37Total

0.15

Pequeño

Electrodoméstico

0.08

Grande

0.23

Total

0

Fallo

2

0.3201

Total

0.4050

Fallo | pequeño ( | )j if y x

0.275

Estadística: Profesora María Durbán

30

2.2 Distribuciones de frecuencias

Distribuciones condicionadas

( , )( | )

( )

i jj i

i

f x yf y x

f x=

( | ) ( , )

j i i jf y x f x y> ( , ) ( | ) ( )

i j j i if x y f y x f x=

1( | ) ( , ) 1( )j i i j

j ji

f y x f x yf x

= =∑ ∑

Estadística: Profesora María Durbán

31

2.2 Distribuciones de frecuencias

Medias y varianzas marginales y condicionadas

Asociados a las distribuciones marginales y condicionadas, podemos definir algunos estadísticos de posición o dispersión, generalizando los que vimos en el tema dedicado al análisis de una variable

Medias y varianzas marginales

y1 f 1

y2 f 2

yj f j

ys f s

Total 1

jf(y )Y

( )

.1

22.

1

s

j jj

s

Y j jj

y f y

s f y y

=

=

=

= −

Estadística: Profesora María Durbán

32

2.2 Distribuciones de frecuencias

Medias y varianzas marginales y condicionadas

Asociados a las distribuciones marginales y condicionadas, podemos definir algunos estadísticos de posición o dispersión, generalizando los que vimos en el tema dedicado al análisis de una variable

Medias y varianzas condicionadas( | )j if y xY

( )

|1

22| |

1

( | )

( | )

i

i i

s

X x j i jj

s

Y X x j i j X xj

y f y x y

s f y x y y

==

= ==

=

= −

y1 f(y1|xi)y2 f(y2|xi)

yj f(yj|xi)

ys f(ys|xi)

Total 1

Page 9: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

33

2.2 Distribuciones de frecuencias

Ejemplo: cualitativa/discreta

¿Cuál es el número medio de fallos cuando el electrodoméstico es pequeño?

Fallo|Electrodoméstico=Pequeño

2

0.3201

1Total

0.4050

Fallo | pequeño ( | )j if y x

0.275

| pequeño1

( | )s

X j i jj

y f y x y==

= ∑

| pequeño 0 0.405 1 0.32 2 0.275 0.87Xy = = × + × + × =

Estadística: Profesora María Durbán

34

2.2 Distribuciones de frecuencias

Independencia entre variables

Si la variable Y es independiente de X, lo lógico es que la distribución de frecuencias relativas condicionadas sea la misma que la de1|Y X x= 2| , , | rY X x Y X x= =K

.( | ) ( )

j i j jf y x f y f= =

Diremos que Y es independiente de X si:

. . .

.

( , ) ( | ) ( ) ( , ) ( ) ( )

( | ) ( )

i j j i i i j j i

ij j i jj i j ij

i

f x y f y x f x f x y f y f xn n n n

f y x f y nn n n

= → =

= → = → =

O equivalentemente si:

Estadística: Profesora María Durbán

35

2.2 Distribuciones de frecuencias

Independencia entre variables

Si la variable Y es independiente de X, lo lógico es que la distribución de frecuencias relativas condicionadas sea la misma que la de1|Y X x= 2| , , | rY X x Y X x= =K

.( | ) ( )

j i j jf y x f y f= =

Diremos que Y es independiente de X si:

. . ..

( , ) ( | ) ( ) ( , ) ( ) ( )

( , ) ( ) ( )

i j j i i i j j i

ij j i jii j j i ij

f x y f y x f x f x y f y f xn n n nnf x y f y f x nn n n n

= → =

= → = → =

O equivalentemente si:

Estadística: Profesora María Durbán

36

2.2 Distribuciones de frecuencias

Ejemplo: cualitativa/discreta

¿Es el número de fallos independiente del tamaño del electrodoméstico?

0.250.150.12

0.520.40.121

10.630.37Total

0.15

Pequeño

Electrodoméstico

0.08

Grande

0.23

Total

0

Fallo ( , ) ( ) ( ) ,

i j j if x y f y f x i j= ∀

0.15 0.23 0.37 0.0851≠ × =

Page 10: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

37

Tema 2:Descripción conjunta de dos variables

2.2 Distribuciones de frecuencias

Distribución conjuntaDistribución marginalDistribución condicionada

2.2 Representaciones gráficas

HistogramaDiagrama de dispersión

2.4 Medidas de dependencia lineal

CovarianzaCorrelación

2.3 Representaciones gráficas

2.1 Introducción

2.5 Recta de regresión

Estadística: Profesora María Durbán

38

2.3 Representaciones gráficas

Dependerá del tipo de variables con las que estemos trabajando y desi están agrupadas o no.

CualitativasCuantitativas discretas

Cuantitativas continuas Histogramas 3DDiagramas de dispersión

Diagramas de barras 3DDiagramas de barras agrupados

Estadística: Profesora María Durbán

39

Ejemplo: continua/continua

Se ha medido la longitud (X en mm) y el peso (Y en gr) de una muestra de 117 tornillos producidos por una máquina, la información se representa en la siguiente tabla:

1

1

0

0

100-120

117188018Total

3716200180-200

7626014160-180

4004140-160

Total80-10060-8040-60x/y

2.3 Representaciones gráficas

Estadística: Profesora María Durbán

40

2.3 Representaciones gráficas

La representación gráfica más útil para mostrar el tipo de relación entre dos variables continuas sin agrupar es el diagrama de dispersión.

Representa cada par de observaciones como un punto del plano cartesiano

( , ) i jx y

Pesa 111 gr.

Mid

e 18

4 m

m.

Page 11: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

41

2.3 Representaciones gráficas

La representación gráfica más útil para mostrar el tipo de relación entre dos variables continuas sin agrupar es el diagrama de dispersión.

Representa cada par de observaciones como un punto del plano cartesiano

Es especialmente útil para identificar la existencia de relación entre las variables.

( , ) i jx y

Parece que el pesoaumenta con laaltura

Estadística: Profesora María Durbán

42

0.0 0.2 0.4 0.6 0.8 1.0x

-10

12

34

5x1

0.0 0.2 0.4 0.6 0.8 1.0x

-2-1

01

y

0.0 0.2 0.4 0.6 0.8 1.0x

-5-4

-3-2

-10

x2

-0.4 -0.2 0.0 0.2 0.4xx

02

46

x3

xx

x x

2.3 Representaciones gráficas

y y

y y

Relación linealpositiva

Relación linealnegativa

Ausencia de relación

Relación nolineal

Estadística: Profesora María Durbán

43

0.0 0.2 0.4 0.6 0.8 1.0x

-10

12

34

5x1

0.0 0.2 0.4 0.6 0.8 1.0x

-2-1

01

y

0.0 0.2 0.4 0.6 0.8 1.0x

-5-4

-3-2

-10

x2

-0.4 -0.2 0.0 0.2 0.4xx

02

46

x3

xx

x x

2.3 Representaciones gráficas

y y

y y

Relación linealpositiva

Relación linealnegativa

Ausencia de relación

Relación nolineal

Para los valores de X mayores que la media le corresponden valores de Y mayores también.

Para los valores de X menores que la media le corresponden valores de Y menores también.

Estadística: Profesora María Durbán

44

0.0 0.2 0.4 0.6 0.8 1.0x

-10

12

34

5x1

0.0 0.2 0.4 0.6 0.8 1.0x

-2-1

01

y

0.0 0.2 0.4 0.6 0.8 1.0x

-5-4

-3-2

-10

x2

-0.4 -0.2 0.0 0.2 0.4xx

02

46

x3

xx

x x

2.3 Representaciones gráficas

y y

y y

Relación linealpositiva

Relación linealnegativa

Ausencia de relación

Relación nolineal

Para los valores de X mayores que la media le corresponden valores de Y menores que la media y viceversa.

Page 12: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

45

0.0 0.2 0.4 0.6 0.8 1.0x

-10

12

34

5x1

0.0 0.2 0.4 0.6 0.8 1.0x

-2-1

01

y

0.0 0.2 0.4 0.6 0.8 1.0x

-5-4

-3-2

-10

x2

-0.4 -0.2 0.0 0.2 0.4xx

02

46

x3

xx

x x

2.3 Representaciones gráficas

y y

y y

Relación linealpositiva

Relación linealnegativa

Ausencia de relación

Relación nolineal

Para los valores de X mayores que la media le corresponden valores de Y mayores y menores que la media

Estadística: Profesora María Durbán

46

0.0 0.2 0.4 0.6 0.8 1.0x

-10

12

34

5x1

0.0 0.2 0.4 0.6 0.8 1.0x

-2-1

01

y

0.0 0.2 0.4 0.6 0.8 1.0x

-5-4

-3-2

-10

x2

-0.4 -0.2 0.0 0.2 0.4xx

02

46

x3

xx

x x

2.3 Representaciones gráficas

y y

y y

Relación linealpositiva

Relación linealnegativa

Ausencia de relación

Relación nolineal

Existe una relación funcional no lineal entreX e Y.

Hay relación pero no es lineal

Estadística: Profesora María Durbán

47

Tema 2:Descripción conjunta de dos variables

2.2 Distribuciones de frecuencias

Distribución conjuntaDistribución marginalDistribución condicionada

2.3 Representaciones gráficas

HistogramaDiagrama de dispersión

2.3 Medidas de dependencia lineal

CovarianzaCorrelación

2.4 Medidas de dependencia lineal

2.1 Introducción

2.5 Recta de regresión

Estadística: Profesora María Durbán

48

2.4 Medidas de dependencia lineal

Las dos medidas más utilizadas para cuantificar el grado y el sentido de ladependencia lineal son:

Covarianza

Correlación

Nos indica si la relación entre las variables es positiva o negativa

Su magnitud depende de las unidades

( )( )xy ij i j ij i ji j i j

S f x x y y f x y xy= − − = −∑∑ ∑∑

Page 13: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

49

2.4 Medidas de dependencia lineal

Las dos medidas más utilizadas para cuantificar el grado y el sentido de ladependencia lineal son:

Covarianza

Correlación

Si los datos no están agrupados en una tabla

alta será Covarianza la

signo mismo el tendrán )( e )( positiva, lineal forma de

nteconjuntame varían e Si

−−

yyxx

yx

i

i( )( )xy i i i ii i

S x x y y x y xy= − − = −∑ ∑

Estadística: Profesora María Durbán

50

2.4 Medidas de dependencia lineal

Las dos medidas más utilizadas para cuantificar el grado y el sentido de ladependencia lineal son:

Covarianza

Correlación

Mide la magnitud y la dirección de la dependencia lineal

Es adimensional

yx

xyxy ss

Sr =

sean que fuertesmuy por lineales-no relaciones las mide No

atípicas nesobservacio por afectado ve Se

lineales cionestransforma por afectado ve se No

que signo mismo el Tiene xyS

Estadística: Profesora María Durbán

51

Las variables son incorreladas r=0Relación lineal perfecta entre dos variables r=+1 o r=-1Cuanto más cerca esté de +1 o -1 mejor será el grado de relación lineal.

-1 +10

Relación negativa perfecta

Relación positivaperfectaVariables

incorreladas

2.4 Medidas de dependencia lineal

1 1xyr− ≤ ≤

Estadística: Profesora María Durbán

52

Tema 2:Descripción conjunta de dos variables

2.2 Distribuciones de frecuencias

Distribución conjuntaDistribución marginalDistribución condicionada

2.3 Representaciones gráficas

HistogramaDiagrama de dispersión

2.4 Medidas de dependencia lineal

CovarianzaCorrelación

2.5 Recta de regresión

2.1 Introducción

Page 14: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

53

2.5 Recta de regresión

Las técnicas de regresión permiten hacer predicciones sobre los valores de cierta variable Y (dependiente), a partir de los de otra X (independiente), entre las queintuimos que existe una relación.

Nos vamos a limitar al caso de la regresión lineal. Con este tipo de regresión nos conformamos con encontrar relaciones funcionales de tipo lineal, es decir,buscamos cantidades a y b tales que se pueda escribir:

( )h x a bx= +

Estadística: Profesora María Durbán

54

Ejemplo: Pureza del oxígeno en un proceso de destilación

Una planta química produce oxígeno licuando aire y separando sus componentes mediante destilación fraccionada.

La empresa está interesada en saber si se puede determinar la purezadel oxígeno obtenido en este proceso a partir del porcentaje de hidrocarburos presente en el condensador de la unidad de destilación

Condensador

2.5 Recta de regresión

Estadística: Profesora María Durbán

55

Para ver la relación entre dos variables de forma gráfica utilizamos el Diagrama de dispersión

Ejemplo: Pureza del oxígeno en un proceso de destilación

2.5 Recta de regresión

Estadística: Profesora María Durbán

56

Objetivo: Calcular la línea recta que mejor describe los datos.¿Qué criterio utilizamos para seleccionar dicha recta?

2.5 Recta de regresión

Page 15: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

57

Método de Mínimos Cuadrados

Consiste en estimar y en la ecuación de manera que lasdistancias verticales entre los puntos y la recta es mínima

a b bxay +=

1y

2y

1x 2x

Recta de regresiónestimada

Valor observado

2.5 Recta de regresión

Estadística: Profesora María Durbán

58

2.5 Recta de regresión

Método de Mínimos Cuadrados

Consiste en estimar y en la ecuación de manera que lasdistancias verticales entre los puntos y la recta es mínima.

El criterio será minimizar:

a b bxay +=

2

1( )

n

i ii

y a bx=

− −∑ Para prescindir del signo

Derivando e igualando a cero:

1

1

2 ( ) 0

2 ( ) 0

n

i iin

i i ii

y a bx

y a bx x

=

=

− − =

− − =

∑2

i i i

y a bxx y x

ax bn n

= +

= +∑ ∑

Estadística: Profesora María Durbán

59

2.5 Recta de regresión

Método de Mínimos Cuadrados

Consiste en estimar y en la ecuación de manera que lasdistancias verticales entre los puntos y la recta es mínima.

El criterio será minimizar:

a b bxay +=

2

1( )

n

i ii

y a bx=

− −∑ Para prescindir del signo

Derivando e igualando a cero:

1

1

2 ( ) 0

2 ( ) 0

n

i iin

i i ii

y a bx

y a bx x

=

=

− − =

− − =

∑2

i i i

y a bxx y x

ax bn n

= +

= +∑ ∑

Estadística: Profesora María Durbán

60

( )

2

La recta pasa por ,( , ) x

x yCov x ya y bx b

s= − =

2.5 Recta de regresión

Consecuencias

2i i i

y a bxx y x

ax bn n

= +

= +∑ ∑

Además:( , )

xyx y

Cov x yrs s

= yxy

x

sb r

s=

Si no hay relación lineal la covarianza es nula La pendiente es 0

Page 16: Tema 2:Descripción conjunta de dos variables · 2006. 10. 1. · márgenes de la tabla de distribución conjunta. nij. iij j nn=∑. j ij i nn=∑ Estadística: Profesora María

Estadística: Profesora María Durbán

61

6.1 Introducción

Ejemplo: Pureza del oxígeno en un proceso de destilación

87.330.9593.651.4094.981.4399.421.5593.411.3291.771.2393.251.2687.590.8790.391.2094.451.3689.851.1196.731.4689.541.0193.741.2990.560.9891.431.1592.521.1589.051.0293.541.1999.010.99

Pureza %

Hidrocarbono%

Pureza %

Hidrocarbono %

Estadística: Profesora María Durbán

62

Ejemplo: Pureza del oxígeno en un proceso de destilación

2.5 Recta de regresión

2

2

20 1.196 92.16

0.681 10.177

10.177 14.95 a 92.16 (14.95)1.196 74.280.681

x xy

xy

x

n x y

S S

sb y bx

s

= = =

= =

= = = = − = − =

( ) 74.28 14.95h x x= +

Estadística: Profesora María Durbán

63

Ejemplo: Pureza del oxígeno en un proceso de destilación

2.5 Recta de regresión

2

2

20 1.196 92.16

0.681 10.177

10.177 14.95 a 92.16 (14.95)1.196 74.280.681

x xy

xy

x

n x y

S S

sb y bx

s

= = =

= =

= = = = − = − =

( ) 74.28 14.95h x x= +