estadística descriptiva 2.1 promedios y medidas de posición 2.2

33
ESTADÍSTICA DESCRIPTIVA Pilar López Delgado 1 Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2 Medidas de dispersión 2.3 Medidas de asimetría. Valores atípicos. 2.4 Medidas de desigualdad. 2.5 Valores atípicos: Diagrama de caja y bigotes 2.6 Transformación lineal de una variable: comportamiento de las medidas numéricas estudiadas Parcialmente financiado a través del PIE13-024 (UMA)

Upload: vutram

Post on 15-Feb-2017

233 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 1

Estadística Descriptiva

2.1 Promedios y medidas de posición2.2 Medidas de dispersión2.3 Medidas de asimetría. Valores atípicos.2.4 Medidas de desigualdad.2.5 Valores atípicos: Diagrama de caja y

bigotes2.6 Transformación lineal de una variable:

comportamiento de las medidas numéricas estudiadas

Parcialmente financiado a través del PIE13-024 (UMA)

Page 2: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 2

CARACTERIZACIÓN DE UNA VARIABLE:� Medidas de posición (2.1)◦ Central (promedios)◦ No central (cuantiles)

� Medidas de dispersión (2.2)� Medidas de asimetría (2.3)� Medidas de desigualdad (2.4)

� Media aritmética� Mediana� Moda

Page 3: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 3

N

nxx i

ii∑=

Dada la siguiente distribución obtenga la media:

Rentas (10 2 €) n i

500-15001500-25002500-35003500-45004500-55005500-6500

378421

25

Page 4: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 4

Rentas (10 2 €) n i x i x in i

500-15001500-25002500-35003500-45004500-55005500-6500

378421

100020003000400050006000

300014000240001600010000

6000

25 73000

€10292025

73000 2===∑

N

nxx i

ii

1. Suma de las desviaciones respecto a la media

2. Cambios de origen

3. Cambios de escala

4. Media de varios grupos

( ) 0=−=∑ ∑ iiii nxxnd

xbxbxx ii =⇒= ''

axxaxx ii +=⇒+= ''

Page 5: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 5

1x

grupo 1 2 … r

media …

observaciones …

Tamaño N1 N2 … Nr

2x rx

N

xNxNxN

N

xNx rrii +++== ∑ K2211

ix1

ix2 rix

Dados r grupos distintos de los que se conocen sus diferentes medias y tamaños poblacionales:

La media global se puede obtener como la suma ponderada de las Medias de cada grupo

� Datos no agrupados ni=1•N impar: Valor central de la variable•N par: Media de los 2 valores centrales

� Datos no agrupados: Primer valor de la variable con Ni>N/2 (hay una excepción a esta regla)

� Datos agrupados

ii

i

i an

NNLMe

1

12 −

−+=

Page 6: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 6

DE

BC

AD

AB =

semejantes Triangulos

ADEy ABC

Polígono acumulado de frecuencias

Li-1 LiMe

Ni

N/2

Ni-1

AD

E

C

B

Rentas (10 2 €) n i

500-15001500-25002500-35003500-45004500-55005500-6500

378421

25

Page 7: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 7

Rentas (10 2 €) n i Ni

500-15001500-25002500-35003500-45004500-55005500-6500

378421

31018222425

25

nteanteriorme Calculada €102920 2=x

€10*5.281210008

105.1225002

5.122

21

1 =−+=−

+=

=

−− i

i

i

i an

NNLMe

N

� Datos no agrupados ni=1: Obtención inmediata

� Datos no agrupados: xj con mayor nj

� Datos agrupados

variableAmplitud

constante Amplitud

11

11

11

11

iii

ii

iii

ii

ahh

hLMo

ann

nLMo

+−

+−

+−

+−

++=

++=

Page 8: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 8

1−= iLMo

1−= iLMo

iii x

LLMo =+= −

21

iLMo =Li-1

Li-1Li-1LiLi Li

Caso 1: ni+1=0 Caso 2: ni-1=ni+1 Caso 3: ni-1=0Caso 1: ni+1=0

Li-1 Li

Caso 1: ni+1=0

Li-1

Caso 1: ni+1=0

LiLi-1

Caso 1: ni+1=0Caso 1: ni+1=0

Li-1

Caso 1: ni+1=0

LiLi-1

Caso 1: ni+1=0 Caso 2: ni-1=ni+1Caso 2: ni-1=ni+1

Li-1

Caso 2: ni-1=ni+1

Li

Caso 2: ni-1=ni+1

Li-1

Caso 2: ni-1=ni+1

LiLi-1

Caso 2: ni-1=ni+1 Caso 3: ni-1=0Caso 3: ni-1=0Caso 3: ni-1=0Caso 3: ni-1=0Caso 3: ni-1=0

Li-1

Caso 3: ni-1=0

LiLi-1

Caso 3: ni-1=0

1

1

:es proporción La

+=− i

i

i n

n

ma

m

Li-2 Li+1Li-1 LiMo

m

ai

ni-1

ni+1

ni

Page 9: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 9

Rentas (10 2 €) n i

500-15001500-25002500-35003500-45004500-55005500-6500

378421

25

Rentas (10 2 €) n i

500-15001500-25002500-35003500-45004500-55005500-6500

378421

25

nteanteriorme Calculadas €10*2812.5 Me €10*2920 22 ==x

€10*6364.2863100047

42500 2

11

11 =

++=

++=

+−

+− i

ii

ii a

nn

nLMo

Page 10: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 10

� Mediana (N/2)� Cuartiles/as (N/4)� Deciles/as (N/10)� Percentiles/as (N/100)

ii

i

i an

NNLQ

1

114 −

−+= i

i

i

i an

NNLMe

1

12 −

−+=

ii

i

ij an

NjNLQ

1

14 −

−+=

ii

i

i an

NNLQ

1

134

3−

−+=

ii

i

i an

NNLQ

1

124

2−

−+=

Page 11: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 11

ii

i

ij an

NjNLD

1

110 −

−+=

� Deciles

� Percentiles

ii

i

ij an

NjNLP

1

1100 −

−+=

Alquiler (103 €)

n i

2-33-44-66-8

8-1212-20

100150350100150150

1000

Page 12: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 12

Alquiler (103 €)

n i Ni

2-33-44-66-8

8-1212-20

100150350100150150

100250600700850

1000

1000

€10*4286.52350

25050042 31

1 =−+=−

+= −− i

i

i

i an

NNLMe

700100/70

200100/20

7504/3

5002/

==

==

N

N

N

NP20

Me

P70

Q3

€10*3333.94150

70075084

331

13 =−+=−

+= −− i

i

i

i an

NNLQ

€10*6667.31150

1002003100

2031

120 =−+=−

+=−

− ii

i

i an

NNLP

€10*82100

6007006100

7031

170 =−+=−

+=−

− ii

i

i an

NNLP

Solución

Poca variabilidad

Poca dispersión

Homogeneidad

Promedio poco representativo Promedio representativo

Mucha variabilidad

Mucha dispersión

Heterogeneidad

Page 13: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 13

Empresa A Empresa Bx i n i x in i x i n i x in i

150200250

131

150600250

50120590

131

50360590

1000 1000

2005

1000==Ax 2005

1000==Bx

¿En cuál de estas dos empresas es más representativo el salario medio?

¿En cuál de estas dos empresas es más representativo el salario medio?

Page 14: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 14

Medidas de dispersión

Absolutas Relativas

RecorridoVarianza y D. Estándar

Coeficiente deVariación

Empresa A Empresa Bx i n i x i n i

150200250

131

50120590

131

100150250 =−=AR 54050590 =−=BR

¿En cuál de estas dos empresas es más representativo el salario medio?

En la de menor recorrido (A)

Page 15: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 15

minmax xxR −=

13 QQRQ −=

19 DDRD −=

199 PPRP −=

Nº individuos Nº días Ni

menos de 5 1 1

De 5 a 10 2 3

De 10 a 15 1 4

De 15 a 20 2 6

De 20 a 25 3 9

De 25 a 30 5 14

De 30 a 35 5 19

De 35 a 40 3 22

De 40 a 50 2 24

De 50 a 60 1 25

De 60 a 80 1 26

26

Page 16: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 16

Nº individ Nº días Ni

menos de 5 1 1

De 5 a 10 2 3

De 10 a 15 1 4

De 15 a 20 2 6

De 20 a 25 3 9

De 25 a 30 5 14

De 30 a 35 5 19

De 35 a 40 3 22

De 40 a 50 2 24

De 50 a 60 1 25

De 60 a 80 1 26

26

N/4 6,5

3N/4 19,5

N/10 2,6

9N/10 23,4

N/100 0,26

99N/100 25,74

Recorrido 80-0= 80 personas

Recorrido Intercuartílico 15 personas

Cuartil 1 20,83333333

Cuartil 3 35,83333333

Recorrido Interdecílico 38 personas

Decil 1 9

Decil 9 47

Recorrido Intercentílico 73,5 personas

Centil 1 1,3

Centil 99 74,8

Solución:

( )Varianza

2

22

2

N

nxxS

N

ndS iiii ∑∑ −

==

( ) típicaoestándar Desviación

2

N

nxxS ii∑ −

=

Page 17: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 17

Empresa A Empresa Bx i n i x in i d i d i

2n i x i n i x in i d i d i2n i

150200250

131

150600250

-500

50

25000

2500

50120590

131

50360590

-150

-80

390

22500

19200

152100

1000 5000 10000 193800

10005

5000

200

2 ==

=

A

A

S

x

387605

193800

200

2 ==

=

B

B

S

x

¿En cuál de estas dos empresas es más representativo el salario medio?

En la de menor varianza (A)

1. Cambios de origen

2. Cambios de escala

3. Cambio de origen y de escala

4. Fórmula de cálculo

222'' xxii SbSbxx =⇒=

222'' xxii SbSbxax =⇒+=

22'' xxii SSaxx =⇒+=

( ) 222

2 xN

nx

N

nxxS iiii

x −=−

= ∑∑

Page 18: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 18

x

SCV =

Interpretación:� Dispersión mínima CV=0

� ∆ Dispersión → ∆ CV� CV≈1 o mayor → Media no representativa

Page 19: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 19

0

400

800

1200

1 2 3 4 5 6 7 8 9

0

400

800

1200

0.15 0.20 0.25 0.30 0.35 0.40 0.45

0

400

800

1200

0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0

400

800

1200

1600

2000

0.250 0.375 0.500 0.625

Campaniforme

Forma de UCampaniforme asimétrica -

Campaniforme asimétrica +

S

MoxCAP

−=

0>CAP

0=CAP 0<CAP

Page 20: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 20

( )3

3

SN

nxx

CAFii∑ −

=

Page 21: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 21

( )3

4

4

−−

=∑

SN

nxx

CCFii

Interpretación:

CCF>0 ApuntadaCCF=0 Apuntamiento normalCCF<0 Aplastada

Xi ni

0 15

1 26

2 19

3 22

4 18

100

Page 22: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 22

xi ni xini xi2ni

0 15 0 0 -2,02 -123,6361

1 26 26 26 -1,02 -27,5914

2 19 38 76 -0,02 -0,0002

3 22 66 198 0,98 20,7062

4 18 72 288 1,98 139,7231

100 202 588 -0,1 9,2016

leve As.0381.03415.1

1002016.9

7603.03415.1

102.2

3415.17996.102.2100

58802.2

100

202

3

22

+===−=

==−===

CAFCAP

SSx

Page 23: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 23

≤≤≤

ini

K21

x de reparto el estudiamos

xxx

:son variablela de valorescuyos,individuos N Dados

L

:extremas posiciones dosExisten

kk xxx ==== −121x

buciónequidistri o mínima Desiguadad 1.

L

00x

máxima dDesigualda 2.

121 ≠==== − kk xxx L

Page 24: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 24

� Índice de Gini� Curva de Lorenz� P90/P10

xini

x1n1

x2n2

xini

xknk

∑xini

Qi

Q1=q1

Q2=q1+q2

Qi=q1+q2+…+qi

Qk=q1+q2+…+qk=1

Pi

P1=p1

P2=p1+p2

Pi=p1+p2+…+pi

Pk=p1+p2+…+pk=1

pi

p1=n1/Np2=n2/N

pi=ni/N

pk=nk/N1

qi

q1=x1n1/∑xini

q2=x2n2/∑xini

q3=x3n3/∑xini

qk=xknk/∑xini

1

Page 25: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 25

Salario (103 €)

ni xi pi xini qi Pi Qi

0.5-2.52.5-4.54.5-6.56.5-8.5

19227250

1.53.55.57.5

0.380.440.140.04

28.577.038.5

15159

0.17920.48430.24210.0943

1

0.380.820.96

1

0.17920.66350.9056

1

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,2 0,4 0,6 0,8 1

Frecuencias (Pi)

Mas

as (Q

i)

aIG

QPQPIG iiii

2

11

=

−= ∑∑ ++

Curva de LorenzÍndice de Gini

Page 26: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 26

0=IG 1=IG

Desigualdad bajaDesigualdad bajaDesigualdad bajaDesigualdad baja Desigualdad altaDesigualdad altaDesigualdad altaDesigualdad alta

0

0,2

0,4

0,6

0,8

1

0 0,2 0,4 0,6 0,8 1

Fr ec ue nc i as ( P i )

Equidistribución

0%

20%

40%

60%

80%

100%

0% 20% 40% 60% 80% 100%

Fr ec ue nc ia s ( P i )

Desigualdad máxima

0%

20%

40%

60%

80%

100%

0% 20% 40% 60% 80% 100%

Fr e cuenc ias ( P i )

0%

20%

40%

60%

80%

100%

0% 20% 40% 60% 80% 100%

Fr ec ue nc ia s ( P i )

0≈IG 1≈IG

Salario (103 €)

ni xi pi xini qi Pi Qi PiQi+1 Pi+1Qi

0.5-2.52.5-4.54.5-6.56.5-8.5

19227250

1.53.55.57.5

0.380.440.140.04

28.577.038.5

15159

0.17920.48430.24210.0943

1

0.380.820.96

1

0.17920.66350.9056

1

0.25210.74270.9600

-1.9548

0.14690,63700.9057-1.6896

2652.06896.19548.111 =−=−= ∑∑ ++ iiii QPQPIG

Page 27: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 27

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,2 0,4 0,6 0,8 1

Frecuencias (Pi)

Mas

as (Q

i)

� Es el cociente entre el Percentil 90 y el percentil 10� Como mínimo toma el valor 1 (equidistribución)� Cuanto mayor es mayor es la desigualdad� Ejemplo anterior de desigualdad

4983.50263.16429.5

6429.527

41455.4100

90

0263.1219

055.0100

10

45100/905100/10

10

90

1

190

1

110

==

=−+=−

+=

=−+=−

+=

==

−−

−−

PP

an

NNLP

an

NNLP

NN

ii

i

i

ii

i

i

Page 28: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 28

[ ]QQ RQRQ 5.1,5.1

:intervalo del fueraestán que variablela de Valores

31 +−

Page 29: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 29

Valores extremos:� Fuera del intervalo(Q1-1.5 RQ, Q3+1.5

RQ)Se marcan ○� Fuera del intervalo(Q1-3 RQ, Q3+3 RQ)Se marcan *

Indicios deasimetría

Page 30: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 30

Francisco Trujillo

Page 31: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 31

Cambio de origen

xi’=xi+a

Cambio de escala

xi’=bxi

Transformación lineal

xi’=bxi+a

Promedios y Posic.Media

Mediana

Moda

Percentiles

DispersiónVarianza

Desviación típica

C. Variación

AsimetríaC. A. Pearson

Me’=Me+a

Mo’=Mo+a

Pj’=Pj+a

Sx’2= Sx

2

Sx’= Sx

CAP’=CAP

Me’=bMe

Mo’=bMo

Pj’=bPj

Sx’2=b2 Sx

2

Sx’=b Sx

CAP’=CAP

Me’=bMe+a

Mo’=bMo+a

Pj’=bPj +a

Sx’2=b2 Sx

2

Sx’=b Sx

CAP’=CAP

axx +=' xbx ='

( )axSCV x

+=' CVCV ='

axbx +='

( )axSCV x

+='

Page 32: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 32

x

ii S

xxz

−=

11

02 ===

zz SS

z

€10*5.0€10*2.2

€10*2€10*3.244

44

====

BB

AA

Sx

Sx

Se hace un estudio sobre la renta trimestral de los ciudadanos de 2 países distintos ( a y B), con los siguientes resultados:

Un habitante de A tiene una renta anual de 2.5*104 € y uno de B de 2.3*104 € ¿Cuál de ellos se encuentra en mejor posición relativa?

Page 33: Estadística Descriptiva 2.1 Promedios y medidas de posición 2.2

ESTADÍSTICA DESCRIPTIVA

Pilar López Delgado 33

B de habitante elMejor 2.05.0

2.23.2

1.02

3.25.2

=−→

=−→

B

A