an´alisis exploratorio de datos temas 2 y...

24
Grado en Estad´ ıstica y Empresa 1 An´ alisis Exploratorio de Datos Temas 2 y 3 Aurea Gran´ e Dpto. Estad´ ıstica Universidad Carlos III de Madrid Grado en Estad´ ıstica y Empresa 2 2 Descripci´ on estad´ ıstica de una variable 2.1 Ordenaci´on simple de los datos Consideremos una muestra de tama˜ no n de una variable X. Esto significa que se consideran n individuos escogidos al azar de la poblaci´on objeto de estudio y que, para cada uno de ellos se registra el valor de la variable X. Sean x 1 ,x 2 ,...,x k los k n diferentes valores de X sobre la muestra. Si X es cuantitativa o bien categ´orica ordinal, supondremos que x 1 <x 2 <...<x k . Si X es una variable categ´ orica nominal, el orden de valores observados se establece seg´ un el criterio del observador. Grado en Estad´ ıstica y Empresa 3 Sea x i un valor observado de la variable X, i =1, 2,...,k. La frecuencia absoluta del valor x i , n i , es el n´ umero de veces que se ha observado este valor en la muestra. La frecuencia relativa del valor x i , f i , es la proporci´ on del valor x i en la muestra, es decir, f i = n i /n. Puede expresarse en porcentaje. La frecuencia absoluta acumulada del valor x i , N i , es el umero de observaciones menores o iguales que x i , es decir, N i = i j=1 n j . La frecuencia relativa acumulada del valor x i , F i , es la proporci´on de observaciones menores o iguales que x i en la muestra, es decir, F i = N i /n = i j=1 f j . Tambi´ en puede expresarse en porcentaje. Grado en Estad´ ıstica y Empresa 4 Propiedades de las frecuencias (pizarra) Tabla de frecuencias Permite representar de forma resumida los valores de X en la muestra. x i n i f i N i F i x 1 n 1 f 1 N 1 F 1 x 2 n 2 f 2 N 2 F 2 . . . . . . . . . . . . . . . x k n k f k N k = n F k =1 Total n 1 Observaci´ on 1 Las columnas N i y F i no tendr´ an sentido para variables categ´ oricas nominales.

Upload: others

Post on 10-Feb-2020

25 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 1

Analisis Exploratorio de Datos

Temas 2 y 3

Aurea Grane

Dpto. Estadıstica

Universidad Carlos III de Madrid

Grado en Estadıstica y Empresa 2

2 Descripcion estadıstica de una variable

2.1 Ordenacion simple de los datos

Consideremos una muestra de tamano n de una variable X.

Esto significa que se consideran n individuos escogidos al azar de la

poblacion objeto de estudio y que, para cada uno de ellos se registra

el valor de la variable X.

Sean x1, x2, . . . , xk los k ≤ n diferentes valores de X sobre la muestra.

• Si X es cuantitativa o bien categorica ordinal, supondremos que

x1 < x2 < . . . < xk.

• Si X es una variable categorica nominal, el orden de valores

observados se establece segun el criterio del observador.

Grado en Estadıstica y Empresa 3

Sea xi un valor observado de la variable X, i = 1, 2, . . . , k.

• La frecuencia absoluta del valor xi, ni, es el numero de veces

que se ha observado este valor en la muestra.

• La frecuencia relativa del valor xi, fi, es la proporcion del

valor xi en la muestra, es decir, fi = ni/n. Puede expresarse en

porcentaje.

• La frecuencia absoluta acumulada del valor xi, Ni, es el

numero de observaciones menores o iguales que xi, es decir,

Ni =∑i

j=1 nj .

• La frecuencia relativa acumulada del valor xi, Fi, es la

proporcion de observaciones menores o iguales que xi en la

muestra, es decir, Fi = Ni/n =∑i

j=1 fj . Tambien puede

expresarse en porcentaje.

Grado en Estadıstica y Empresa 4

Propiedades de las frecuencias (pizarra)

Tabla de frecuencias Permite representar de forma resumida los

valores de X en la muestra.

xi ni fi Ni Fi

x1 n1 f1 N1 F1

x2 n2 f2 N2 F2

......

......

...

xk nk fk Nk = n Fk = 1

Total n 1

Observacion 1 Las columnas Ni y Fi no tendran sentido para

variables categoricas nominales.

Page 2: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 5

Se denomina distribucion de frecuencias de X al conjunto de

valores observados de la variable junto con las frecuencias

correspondientes a cada uno de estos valores.

Distribucion de frecuencias

absolutas relativas

xi ni

x1 n1

x2 n2

......

xk nk

Total n

xi fi

x1 f1

x2 f2...

...

xk fk

Total 1

Analogamente, se obtienen las distribuciones de frecuencias absolutas

acumuladas y absolutas relativas.

Grado en Estadıstica y Empresa 6

Ejemplo 2.1 Se ha medido el grupo sanguıneo de 40 individuos y se

han observado las siguientes frecuencias absolutas para cada

categorıa: 12 para x1 = A, 11 para x2 = B, 8 para x3 = AB y 9 para

x4 = O.

a) ¿De que tipo es la variable estudiada? Construir la tabla de

frecuencias correspondiente.

grupo ni fi

A 12 0.3

B 11 0.275

AB 8 0.2

O 9 0.225

Total 40 1

Grado en Estadıstica y Empresa 7

Ejemplo 2.1 (continuacion)

grupo ni fi

A 12 0.3

B 11 0.275

AB 8 0.2

O 9 0.225

Total 40 1

b) ¿Que porcentaje de individuos son del grupo A?

c) ¿Que porcentaje de individuos no son del grupo O?

d) ¿Cuantos individuos no son del grupo B?

Grado en Estadıstica y Empresa 8

Ejemplo 2.2 La siguiente tabla muestra la clasificacion de 901

individuos segun la variable satisfaccion en el trabajo

xi ni

muy insatisfecho 62

moderamadente insatisfecho 108

moderadamente satisfecho 319

muy satisfecho 412

Total 901

a) ¿De que tipo es la variable de estudio? Calcular la tabla de

frecuencias correspondiente.

Page 3: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 9

Ejemplo 2.2 (continuacion)

xi ni fi Ni Fi

muy insatisfecho 62 0.07 62 0.07

moderamadente insatisfecho 108 0.12 170 0.19

moderadamente satisfecho 319 0.35 489 0.54

muy satisfecho 412 0.46 901 1

Total 901 1

b) ¿Que porcentaje de individuos estan moderadamente satisfechos?

c) ¿Cuantos individuos estan a lo sumo moderadamente

insatisfechos (es decir, a lo sumo, levemente satisfechos)? ¿Que

porcentaje representan?

d) ¿Cuantos individuos estan por lo menos moderadamente

satisfechos? ¿Que porcentaje representan?

Grado en Estadıstica y Empresa 10

Ejemplo 2.3 Se quiere estudiar la eficacia de un nuevo insecticida

para plantas de interior. Se seleccionan 50 plantas y se cuenta el

numero de hojas que han sido atacadas despues de haber tratado a la

planta con el nuevo producto. Los resultados son:

Hojas atacadas 0 1 2 3 4 5 6 8 10

ni 6 10 12 8 5 4 3 1 1

a) ¿De que tipo es la variable de estudio? Construir la tabla de

frecuencias correspondiente.

Grado en Estadıstica y Empresa 11

Ejemplo 2.3 (continuacion)

Hojas atacadas ni fi Ni Fi

0 6 0,12 6 0,12

1 10 0,20 16 0,32

2 12 0,24 28 0,56

3 8 0,16 36 0,72

4 5 0,10 41 0,82

5 4 0,08 45 0,90

6 3 0,06 48 0,96

8 1 0,02 49 0,98

10 1 0,02 50 1

b) ¿Que porcentaje de plantas tienen solo 3 hojas atacadas?

c) ¿Cuantas plantas tienen como maximo 3 hojas atacadas?

d) ¿Cuantas plantas tienen como mınimo 6 hojas atacadas?

Grado en Estadıstica y Empresa 12

Ejemplo 2.3 (continuacion)

Hojas atacadas ni fi Ni Fi

0 6 0,12 6 0,12

1 10 0,20 16 0,32

2 12 0,24 28 0,56

3 8 0,16 36 0,72

4 5 0,10 41 0,82

5 4 0,08 45 0,90

6 3 0,06 48 0,96

8 1 0,02 49 0,98

10 1 0,02 50 1

e) ¿Que porcentaje de plantas tienen entre 3 y 5 hojas atacadas?

f) ¿Que porcentaje de plantas tienen al menos 8 hojas atacadas?

g) ¿Que porcentaje de plantas tienen a lo sumo 2 hojas atacadas?

Page 4: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 13

2.2 Ordenacion agrupada de los datos.

Si X es continua o bien discreta con muchos valores diferentes,

resulta conveniente agrupar la muestra en intervalos, que se

denominan intervalos de clase.

Para poder calcular las medidas numericas (que veremos mas

adelante), se toma como representante del intervalo a su punto

medio, que se denomina marca de clase.

Grado en Estadıstica y Empresa 14

Tabla de frecuencias con intervalos de clase (ordenacion agrupada de

los datos)

Intervalo Marca de clase: xi ni fi Ni Fi

[l0, l1) x1 = (l0 + l1)/2 n1 f1 N1 F1

[l1, l2) x2 = (l1 + l2)/2 n2 f2 N2 F2

......

......

......

[lk−1, lk] xk = (lk−1 + lk)/2 nk fk Nk = n Fk = 1

Total n 1

La magnitud Li = li − li−1 se denomina longitud o amplitud del

intervalo [li−1, li).

Grado en Estadıstica y Empresa 15

En las tablas de frecuencias con intervalos de clase hay una perdida

de informacion, puesto que hay valores diferentes que van a parar

dentro de un mismo intervalo y, por tanto, seran tratados como

iguales.

Se have necesario escoger unos intervalos lo suficientemente pequenos,

de manera que la informacion que se pierda sea mınima, pero a la vez

lo suficientemente grandes, de manera que el numero de intervalos no

sea desmesuradamente grande y haga incomodo su manejo.

Como referencia, tomaremos uno de los siguientes valores

aproximados:

Num. intervalos = k ≈⎧⎨⎩

√n, si n no es muy grande,

1 + 3.22 log(n), en otro caso.

Grado en Estadıstica y Empresa 16

Ejemplo:

Si el numero de observaciones que tenemos es n = 100, un buen

criterio es agrupar las observaciones en k =√100 = 10 intervalos.

Sin embargo si tenemos n = 1000000 sera mas razonable elegir

k = 1 + 3.22 log(106) ≈ 20 intervalos, ya que k =√106 = 1000 no es

un numero comodo de intervalos para trabajar.

Page 5: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 17

Ejemplo 2.4 En veinte vuelos de Barcelona a Madrid se han

contado el numero de asientos vacıos en cada vuelo. Se han agrupado

los datos en intervalos de longitud 4.

asientos vacıos ni

0− 3 9

4− 7 5

8− 11 4

12− 16 2

a) ¿De que tipo es la variable estudiada? Construir la tabla de

frecuencias correspondiente.

Grado en Estadıstica y Empresa 18

Ejemplo 2.4 (continuacion)

intervalos xi ni fi Ni Fi

[0, 4) 2 9 0,45 9 0,45

[4, 8) 6 5 0,25 14 0,70

[8, 12) 10 4 0,20 18 0,90

[12, 16] 14 2 0,10 20 1,00

Total 20 1

b) ¿En cuantos vuelos hay menos de 8 asientos vacıos? ¿Que

porcentaje representan?

c) ¿En cuantos vuelos hay como mınimo 10 asientos vacıos? ¿Que

porcentaje representan?

Grado en Estadıstica y Empresa 19

2.3 Representaciones graficas

Figure 1: Diagrama de barras y polıgono de frecuencias. Datos del

ejemplo 2.3 (X =“numero de hojas atacadas por planta” sobre una

muestra de n = 50 plantas de interior).

0 1 2 3 4 5 6 7 8 9 10

2

4

6

8

10

12 polıgono de frecuencias

diagrama de barras

Grado en Estadıstica y Empresa 20

Figure 2: Diagrama de sectores. Datos del ejemplo 2.1 (X =“grupo

sanguıneo de un individuo” sobre una muestra de n = 40 individuos).

30%

28%

20%

23%

ABABO

Page 6: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 21

Figure 3: Grafico de Pareto. Datos del ejemplo 2.2 (X =“satisfaccion

en el trabajo” sobre una muestra de n = 901 individuos).

muy satisfecho mod. satisfecho mod. insatisfecho muy insatisfecho0

100

200

300

400

500

600

700

800

900

0%

11%

22%

33%

44%

55%

67%

78%

89%

100%

Grado en Estadıstica y Empresa 22

Figure 4: Histograma y polıgono de frecuencias. Datos del ejemplo 2.4

(X =“numero de asientos vacıos” en una muestra de n = 20 vuelos de

BCN-MAD).

0 4 8 12 16

0.5

1

1.5

2

2.5

polıgono de frecuencias

histograma

Grado en Estadıstica y Empresa 23

Ejemplo 2.5 Los datos siguientes corresponden a ciertas longitudes

(en cm). Construir un diagrama de tallo y hojas.

11.357, 12.542, 11.384, 12.431, 14.212, 15.213, 13.300, 11.300, 17.206,

12.710, 13.455, 16.143, 12.162, 12.721, 13.420, 14.698.

Datos redondeados y expresados en mm:

114, 125, 114, 124, 142, 152, 133, 113, 172, 127, 135, 161, 122, 127, 134,

147.

Diagrama de tallo y hojas (datos en mm):

tallo

⎧⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎩

11 34412 2457713 34514 2715 216 117 2

⎫⎪⎪⎪⎪⎪⎪⎪⎬⎪⎪⎪⎪⎪⎪⎪⎭

hojas

Grado en Estadıstica y Empresa 24

Ejercicio 2.2 Clasificadas las provincias espanolas por su numero de

habitantes en 2001, se obtuvieron los siguientes datos:

Num. habitantes Num. provincias

de 1 a 100 000 3

de 100 000 a 250 000 8

de 250 000 a 500 000 13

de 500 000 a 750 000 10

de 750 000 a 1 000 000 7

de 1 000 000 a 2 000 000 8

de 2 000 000 a 3 000 000 1

de 3 000 000 a 4 000 000 0

de 4 000 000 a 6 000 000 2

a) Constuir una tabla estadıstica con las marcas de clase, las

frecuencias absolutas y las frecuencias relativas.

Page 7: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 25

Ejercicio 2.2 (continuacion)

intervalos xi ni fi Ni Fi ni/Li

[0, 100000) 50000 3 0.058 3 0.058 3 · 10−5

[100000, 250000) 175000 8 0.154 11 0.212 5.3 · 10−5

[250000, 500000) 375000 13 0.250 24 0.462 5.2 · 10−5

[500000, 750000) 600000 10 0.192 34 0.654 4 · 10−5

[750000, 1000000) 875000 7 0.135 41 0.789 2.8 · 10−5

[1000000, 2000000) 1500000 8 0.154 49 0.943 0.8 · 10−5

[2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 · 10−5

[3000000, 4000000) 3500000 0 0 50 0.962 0

[4000000, 6000000] 5000000 2 0.038 52 1 0.1 · 10−5

b) ¿Cuantas provincias tienen menos de 500 000 habitantes? ¿Que

porcentaje representan?

c) ¿Cuantas provincias tienen entre 800 000 y 1 300 000 habitantes?

d) Construir el histograma de frecuencias absolutas.

Grado en Estadıstica y Empresa 26

Ejercicio 2.2 (continuacion)

Figure 5: Histograma de frecuencias absolutas. Datos del ejercicio 2.2.

0 1 2 3 4 5 6millones de habitantes

10−5

2 · 10−5

3 · 10−5

4 · 10−5

5 · 10−5

Grado en Estadıstica y Empresa 27

2.4 Caracterısticas numericas de una distribucion

univariante

Supondremos que:

x1 < x2 < . . . < xk son los k valores de X en la muestra (ordenacion

simple de los datos), o bien

x1 < x2 < . . . < xk son las marcas de clase de k intervalos construidos

sobre la muestra de X (ordenacion agrupada de los datos).

Las caracterısticas numericas de una distribucion de se clasifican en:

• Medidas de tendencia central

• Medidas de posicion

• Medidas de dispersion (o de variabilidad)

• Medidas de forma (asimetrıa y curtosis)

Grado en Estadıstica y Empresa 28

2.4.1 Medidas de tendencia central

Dan informacion sobre el “centro” de la distribucion. Las mas

utilizadas son:

La media aritmetica ,x, indica el punto medio de la muestra. Se

calcula:

x =1

n

k∑i=1

xi ni.

Proposicion 2.1 La suma de las diferencias de la variable con

respecto de la media es nula, es decir,

k∑i=1

(xi − x)ni = 0.

(Demostracion)

Page 8: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 29

Proposicion 2.2 (Linealidad de la media) Si Y = a+ bX,

a, b ∈ R, b �= 0, entonces la correspondiente media de Y es

y = a+ b x,

es decir el operador media es una funcion lineal.

(Demostracion)

Inconvenientes de la media.

1. Es muy sensible a valores extremos de la variable: todas las

observaciones intervienen en el calculo de la media, de manera

que la presencia de una observacion extrema hara que la media se

desplace en esa direccion.

2. No es recomendable utilizarla en distribuciones con fuerte

asimetrıa.

Grado en Estadıstica y Empresa 30

La media artimetica ponderada, xP :

En determinadas distribuciones estadısticas no todos los valores de la

variable tienen la misma influencia, y, por ello, a cada valor se le

asigna un coeficiente diferenciador, llamado peso.

Si x1, x2, . . . , xk son los distintos valores X en la muestra y

p1, p2, . . . , pk son los pesos correspondientes, entonces:

xP =

∑ki=1 xi pi∑ki=1 pi

Observacion 2 La media aritmetica x es un caso particular de

media ponderada, donde los pesos pi = ni.

Grado en Estadıstica y Empresa 31

Ejemplo 2.6 Un inversor tiene ahorros repartidos en 3 depositos

con 2000, 5000 y 10000 euros, respectivamente. si el primero le rinde

un 5% anual, el segundo un 4% anual y el tercero un 2% anual, ¿cual

es el tipo de interes medio que recibe?

La variable de estudio es el interes anual. Los valores que toma esta

variable son 5, 4, 2 con pesos 2000, 5000, 10000, respectivamente. El

interes medio es

xP =5 · 2000 + 4 · 5000 + 2 · 10000

2000 + 5000 + 10000=

50000

17000= 2.94%.

Grado en Estadıstica y Empresa 32

Ejercicio 2.3 Una empresa esta interesada en seleccionar entre dos

candidatos para un puesto de trabajo. Las valoraciones que han obtenido

estos candidatos en las entrevistas y pruebas a que han sido sometidos son

las siguientes:

Aspecto Candidato A Candidato B

experiencia 8 7

conocimientos 6 7

psicontecnico 4 5

Si la empresa da una importancia del 60% a la experiencia, del 25% a los

conocimientos y del 15% a la habilidad psicotecnica, ¿cual de los dos

candidatos va a escoger?

Calculamos las medias ponderadas para cada candidato, con pesos 60, 25 y

15, respectivamente para cada categorıa. El candidato que obtenga una

media poderada mayor sera el candidato escogido.

xP (A) =8 · 60 + 6 · 25 + 4 · 15

100= 6.9, xP (B) =

7 · 60 + 7 · 25 + 5 · 15100

= 6.7

Page 9: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 33

La media geometrica, xG, proporciona una medida precisa de un

cambio porcentual medio en una serie de numeros. Se calcula como:

xG = (xn11 xn2

2 . . . xnk

k )1/n

Se recomienda su uso cuando se tienen porcentajes, tasas o numeros

ındice; es decir, cuando una variable presenta variaciones

acumulativas.

Observacion 3 Tomando logaritmos:

log(xG) =1

nlog(xn1

1 xn22 . . . xnk

k ) =1

n

k∑i=1

log(xni

i ) =1

n

k∑i=1

ni log(xi).

Grado en Estadıstica y Empresa 34

La mediana, Me, es aquel valor que divide a la muestra en dos

partes iguales, de manera que el 50% de las observaciones quedan por

debajo de la mediana y el otro 50% por encima de ella.

Calculo de la mediana:

a) Ordenacion simple de los datos:

Me =

⎧⎨⎩

12 (x(n

2 ) + x(n

2 +1)), si n es par,

x(n+12 ), si n es impar,

donde x(j) indica el dato que ocupa la posicion j-esima en la

muestra ordenada.

Grado en Estadıstica y Empresa 35

b) Ordenacion agrupada de los datos:

En la tabla de frecuencias identificamos al intervalo mediano

como aquel que contiene al individuo que ocupa la posicion n/2,

es decir, x(n/2). Para ello nos ayudaremos de la columna de las

frecuencias absolutas acumuladas (la de las Ni).

Si [li−1, li) es el intervalo mediano, entonces:

Me = li−1 + (li − li−1)︸ ︷︷ ︸Li

· (n/2−Ni−1)

Ni −Ni−1.

Grado en Estadıstica y Empresa 36

Propiedades e inconvenientes de la mediana:

1. La mediana no se ve alterada por la presencia de valores

extremos, puesto que no depende de los valores que toma la

variable, sino del orden de los mismos. Por ello es adecuado su

uso en distribuciones asimetricas.

2. El mayor defecto de la mediana es que tiene unas propiedades

matematicas complicadas, lo que hace que sea muy difıcil de

utilizar en Inferencia Estadıstica.

Ejemplo 2.7 Calcular la mediana de los conjuntos de datos

siguientes:

a) 18, 18, 19, 17, 23, 20, 21, 18b) 20, 21, 18, 19, 18, 17, 18

Page 10: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 37

La moda, Mo, se define de forma distinta segun si los datos se

encuentran o no agrupados en intervalos de clase.

En la ordenacion simple de los datos, la moda se define como el

valor que presenta una mayor frecuencia absoluta (o relativa).

En la ordenacion agrupada de los datos, la moda se situa dentro del

intervalo modal, que es el intervalo con mayor altura en el

histograma de frecuencias absolutas (o relativas), es decir, con mayor

ni/Li (o fi/Li). (Deberemos prestar especial atencion si los

intervalos no tienen la misma amplitud).

Si [li−1, li) es el intervalo modal, entonces:

Mo = li−1 + Lini+1/Li+1

ni−1/Li−1 + ni+1/Li+1.

Grado en Estadıstica y Empresa 38

Observacion 4 La moda puede ser no unica, es decir, en una

misma muestra puede haber dos valores con la misma frecuencia (o

dos intervalos que con la misma altura en el histograma de

frecuencias). En ambos casos, la distribucion tendra dos modas y se

denominara bimodal.

Si la distribucion tiene tres modas, se denomina trimodal.

Aunque, a veces, cuando hay mas de dos modas se dice que la

distribucion no tiene moda.

Observacion 5 Esta medida de tendencia central es la menos

utilizada para variables cuantitativas, pero en cambio, es una de las

pocas que pueden calcularse para variables cualitativas.

Ejemplo 2.8 Con los datos del ejemplo 2.7, calcular la moda.

Grado en Estadıstica y Empresa 39

Ejemplo 2.8 Con los datos del ejercicio 2.2 (habitantes de las

provincias espanolas) calcular la media aritmetica, la mediana y la

moda.

intervalos xi ni fi Ni Fi ni/Li

[0, 100000) 50000 3 0.058 3 0.058 3 · 10−5

[100000, 250000) 175000 8 0.154 11 0.212 5.3 · 10−5

[250000, 500000) 375000 13 0.250 24 0.462 5.2 · 10−5

[500000, 750000) 600000 10 0.192 34 0.654 4 · 10−5

[750000, 1000000) 875000 7 0.135 41 0.789 2.8 · 10−5

[1000000, 2000000) 1500000 8 0.154 49 0.943 0.8 · 10−5

[2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 · 10−5

[3000000, 4000000) 3500000 0 0 50 0.962 0

[4000000, 6000000] 5000000 2 0.038 52 1 0.1 · 10−5

total 52 1

k = 9 intervalos, x =1

n

k∑i=1

xi ni =43050000

52= 827884.62,

Grado en Estadıstica y Empresa 40

Ejemplo 2.8 (continuacion)

intervalos xi ni fi Ni Fi ni/Li

[0, 100000) 50000 3 0.058 3 0.058 3 · 10−5

[100000, 250000) 175000 8 0.154 11 0.212 5.3 · 10−5

[250000, 500000) 375000 13 0.250 24 0.462 5.2 · 10−5

[500000,750000) 600000 10 0.192 34 0.654 4 · 10−5

[750000, 1000000) 875000 7 0.135 41 0.789 2.8 · 10−5

[1000000, 2000000) 1500000 8 0.154 49 0.943 0.8 · 10−5

[2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 · 10−5

[3000000, 4000000) 3500000 0 0 50 0.962 0

[4000000, 6000000] 5000000 2 0.038 52 1 0.1 · 10−5

total 52 1

n/2 = 26 ⇒ Me = 500000 + 250000 · 26− 24

34− 24= 550000,

esto significa que el 50% de las provincias espanolas tienen menos

de 550000 habitantes.

Page 11: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 41

Ejemplo 2.8 (continuacion)intervalos xi ni fi Ni Fi ni/Li

[0, 100000) 50000 3 0.058 3 0.058 3 · 10−5

[100000,250000) 175000 8 0.154 11 0.212 5.3 · 10−5

[250000, 500000) 375000 13 0.250 24 0.462 5.2 · 10−5

[500000, 750000) 600000 10 0.192 34 0.654 4 · 10−5

[750000, 1000000) 875000 7 0.135 41 0.789 2.8 · 10−5

[1000000, 2000000) 1500000 8 0.154 49 0.943 0.8 · 10−5

[2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 · 10−5

[3000000, 4000000) 3500000 0 0 50 0.962 0

[4000000, 6000000] 5000000 2 0.038 52 1 0.1 · 10−5

total 52 1

Mo = 100000 + 1500005.2 · 10−5

3 · 10−5 + 5.2 · 10−5= 195121.95,

esto significa que el numero de habitantes mas frecuente en las

provincias espanolas es de 195122 hab. aproximadamente.

Grado en Estadıstica y Empresa 42

2.4.2 Medidas de posicion

El objectivo comun de estas medidas es dividir el total de

observaciones en p partes iguales e informar del porcentaje de datos

que hay por encima y por debajo de los valores que separan cada una

de las partes.

Las mas utilizadas son:

Cuartiles: Se denomina cuartil k-esimo (k = 1, 2, 3) al numero Qk

que deja k cuartas partes de la muestra por debajo de el y 4− k

cuartes partes por encima.

Percentiles: Se denomina percentil k-esimo (k = 1, 2, . . . , 99) al

numero Pk que deja k centesimas partes de la muestra por debajo de

el y 100− k centesimas partes por encima.

Observacion 6 P25 = Q1, P50 = Q2 = Me, P75 = Q3.

Grado en Estadıstica y Empresa 43

Para calcular los cuartiles y percentiles utilizaremos el mismo

algoritmo de calculo que para la mediana, pero en lugar de buscar

n/2 habra que buscar k n/4 para Qk y k n/100 para Pk.

Ejercicio 2.4 Con los datos del ejercicio 2.2 (habitantes de las

provincias espanolas) calcular los cuartiles primero y tercero y el

percentil 80.

Grado en Estadıstica y Empresa 44

Ejercicio 2.4 (continuacion)

Para calcular Q1 buscamos en que intervalo esta el individuo que ocupa la

posicion n/4 = 52/4 = 13. Para calcular Q3 buscamos en que intervalo esta

el individuo que ocupa la posicion 3n/4 = 39. Para calcular P80 buscamos

en que intervalo esta el individuo que ocupa la posicion

80n/100 = 41.6 ≈ 42.

intervalos xi ni fi Ni Fi ni/Li

[0, 100000) 50000 3 0.058 3 0.058 3 · 10−5

[100000, 250000) 175000 8 0.154 11 0.212 5.3 · 10−5

[250000,500000) 375000 13 0.250 24 0.462 5.2 · 10−5

[500000, 750000) 600000 10 0.192 34 0.654 4 · 10−5

[750000,1000000) 875000 7 0.135 41 0.789 2.8 · 10−5

[1000000,2000000) 1500000 8 0.154 49 0.943 0.8 · 10−5

[2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 · 10−5

[3000000, 4000000) 3500000 0 0 50 0.962 0

[4000000, 6000000] 5000000 2 0.038 52 1 0.1 · 10−5

total 52 1

Page 12: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 45

Diagrama de caja

Es un diagrama muy util que permite hacerse una idea de la

dispersion y la simetrıa de la distribucion. Sea RI = Q3 −Q1.

+

1.5RI RI 1.5RI3RI 3RI

Q1 Me Q3

Grado en Estadıstica y Empresa 46

Comparacion entre media y mediana: robustez.

Un rasgo que diferencia a media y mediana es su comportamiento

frente a datos atıpicos.

Consideremos las observaciones siguientes

1.7, 2.8, 3.2, 3.4, 5.3, 5.8, 6.2, 7.2,8.3, 9.3,

que dan lugar a una media de x = 5.3 y una mediana de Me = 5.6.

Supongamos que, por un error de transcripcion, la observacion 8.3 se

registra como 83, es decir que el conjunto de datos ordenado queda

como

1.7, 2.8, 3.2, 3.4, 5.3, 5.8, 6.2, 7.2, 9.3,83.

Esta nueva coleccion de observaciones contiene un dato atıpico

extremo, que es 83. A pesar de ello, la mediana sigue siendo

Me = 5.6, mientras que la media ahora vale x = 12.8.

Grado en Estadıstica y Empresa 47

Media y mediana frente a datos atıpicos

x Me

xMe

La resistencia o estabilidad de la mediana frente a la existencia de datos

atıpicos es un fenomeno que, en general, recibe el nombre de robustez.

Las medidas basadas en el orden, como la mediana, los cuartiles, el rango

intercuartılico o la MEDA, gozan de esta propiedad y se dice que son

robustas. Por otra parte, cantidades basadas en la suma, como la media o

la desviacion tıpica, se ven mas afectadas por las observaciones

atıpicas y son, por tanto, poco robustas.

Grado en Estadıstica y Empresa 48

simetrıa asimetrıa a la derecha asimetrıa a la izquierda

−3 −2 −1 0 1 2 30

50

100

150

200

250

300

350

400

450

−0.2 0 0.2 0.4 0.6 0.8 1 1.20

50

100

150

200

250

300

−0.2 0 0.2 0.4 0.6 0.8 1 1.20

50

100

150

200

250

300

x = Me x > Me x < Me

En una distribucion simetrica, media y mediana coinciden.

En una distribucion asimetrica a la derecha, la media (al ser sensible a los

datos atıpicos a la derecha del histograma) es mayor que la mediana.

En una distribucion asimetrica a la izquierda, la media (al ser sensible a los

datos atıpicos a la izquierda del histograma) es menor que la mediana.

Page 13: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 49

2.4.3 Medidas de dispersion o de variabilidad

Informan sobre la concentracion de los datos respecto de alguna de

las caracterısticas de tendencia central. Las mas utilizadas son:

El rango (tambien llamado recorrido o amplitud) es la diferencia

entre el valor maximo y el valor mınimo, es decir,

R = xmax − xmin.

Inconvenientes del rango:

1. No utiliza todas las observaciones (solo dos de ellas).

2. Puede quedar muy afectado por alguna observacion extrema.

3. Al aumentar el numero de observaciones en la muestra, el rango

nunca disminuye (o se queda igual o aumenta).

Grado en Estadıstica y Empresa 50

El rango intercuartılico:

RI = Q3 −Q1.

Indica la dispersion del 50% central de los datos de la muestra

(amplitud de la caja del box-plot). Se recomienda su uso cuando hay

presencia de observaciones atıpicas (outliers).

La desviacion media:

Dm =1

n

k∑i=1

|xi − x|ni.

Mide cuanto se alejan (en promedio) los valores de X de la media

aritmetica. La desviacion media guarda las mismas dimensiones que

las observaciones, pero no suele utilizarse en inferencia estadıstica

puesto que el valor absoluto tiene malas propiedades matematicas.

Grado en Estadıstica y Empresa 51

La varianza muestral:

s2n =1

n

k∑i=1

(xi − x)2 ni.

Mide cuanto se aleja (en promedio) cada valor de X de la media

aritmetica, pero en unidades cuadraticas. A veces, se utiliza la

formula equivalente:

s2n =1

n

k∑i=1

x2i ni

︸ ︷︷ ︸x2

−x2 = x2 − x2

La varianza no guarda la misma dimension que las observaciones,

pero sı su raız cuadrada, sn =√

s2n, que se denomina desviacion

tıpica muestral (o desviacion estandar).

Grado en Estadıstica y Empresa 52

Proposicion 2.3 Si Y = aX + b, con a, b ∈ R, a > 0, entonces:

s2n(Y ) = a2 s2n(X).

(Demostracion)

Este resultado dice que si las observaciones de la muestra sufren un

traslado de una cantidad b, la dispersion de la muestra no aumenta.

Mientras que si estas mismas observaciones sufren un cambio de

escala de factor a entonces la dispersion de la muestra alrededor de la

media sera menor si a < 1 o bien sera mayor si a > 1.

Page 14: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 53

Propiedades e inconvenientes de la varianza y la desviacion

estandar:

1. La desviacion estandar tiene la propiedad de que el intervalo

(x− 2 sn, x+ 2 sn)

contiene por lo menos al 75% de la muestra (teorema de

Chebychev). Mas aun, si el tamano muestral es grande y puede

suponerse que la muestra sigue una distribucion normal, el

intervalo puede contener al 95% de la muestra.

2. Ambas son sensibles a cambios de escala en las observaciones

(cambios en las unidades de medida).

3. No es recomendable el uso de ellas cuando tampoco lo sea el de

la media como medida de tendencia central. Por ejemplo, si hay

datos atıpicos.

Grado en Estadıstica y Empresa 54

La cuasivarianza muestral (o varianza muestral corregida) se

utiliza mucho en inferencia estadıstica y se define como:

s2n−1 =1

n− 1

k∑i=1

(xi − x)2 ni.

La formula siguiente permite relacionar la varianza y la cuasivarianza:

n s2n = (n− 1) s2n−1.

Analogamente, se define la cuasidesviacion tıpica muestral como

la raız cuadrada de la varianza muestral corregida, es decir,

sn−1 =√

s2n−1.

Observacion 7 El programa Statgraphics llama variance y standard

deviation a la cuasivarianza y cuasidesviacion, respectivamente.

Grado en Estadıstica y Empresa 55

La mediana de las desviaciones absolutas, MEDA, es una

medida de la variabilidad de la muestra alrededor de la mediana y se

define como:

MEDA = Me (|x1 −Me(X)|, |x2 −Me(X)|, . . . , |xk −Me(X)|) .

Es una medida robusta.

Ejemplo 2.9 Calcular la MEDA para el conjunto de datos 17, 18,

18, 18, 19, 20, 21.

Indicaciones: Primero obtener la mediana de la muestra. Despues

obtener las diferencias (en valor absoluto) entre las observaciones y la

mediana. Finalmente, la MEDA sera la mediana de estas diferencias.

Grado en Estadıstica y Empresa 56

El coeficiente de variacion de Pearson permite comparar las

variabilidades de dos o mas conjuntos de datos, ya sean variables

distintas medidas sobre el mismo conjunto de individuos o bien, una

sola variable medida sobre distintos conjuntos de individuos. Se

define como:

CV = sn/x.

Observacion 8 No es invariante frente a traslaciones (cambios de

origen). Es decir, si Y = X + b, b > 0 entonces CV (Y ) < CV (X):

CV (Y ) =sn(Y )

y=

sn(X)

x+ b<

sn(X)

x= CV (X).

Observacion 9 Es invariante frente a cambios de escala. Si

Y = aX, a > 0, entonces, CV (Y ) = CV (X).

CV (Y ) =sn(Y )

y=

a sn(X)

a x= CV (X).

Page 15: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 57

Ejercicio 2.8 De los ocho empleados de una oficina, se han

considerado las distribuciones de sus edades y sus anos de antiguedad

en la empresa:

Edad 40 22 19 30 62 32 45 51

Antiguedad 15 3 1 8 39 13 17 24

Calcular lor rangos de estas dos distribuciones. ¿Cual de las dos

tiene mayor grado de dispresion?

Grado en Estadıstica y Empresa 58

Ejercicio 2.8 (continuacion)

Edad 40 22 19 30 62 32 45 51

Antiguedad 15 3 1 8 39 13 17 24

Llamamos X a la variable “edad” e Y a la variable “antiguedad”.

R(X) = 62− 19 = 43, R(Y ) = 39− 1 = 38.

¿Podemos afirmar que X tiene mayor dispersion que Y ?

Grado en Estadıstica y Empresa 59

Ejercicio 2.8 (continuacion)

Aunque R(X) > R(Y ), esto no significa que el grado de dispersion de

X sea mayor que el de Y .

Para decidir que variable tiene un mayor grado de dispersion

debemos calcular el coeficiente de variacion.

Para la variable edad es:

x =1

n

n∑i=1

xi =301

8= 37.6,

s2n(X) = x2 − x2 =12839

8− (37.6)2 = 189.23,

sn(X) =√189.23 = 13.8,

CV (X) =sn(X)

x× 100 =

13.8

37.6× 100 = 36.7%.

Grado en Estadıstica y Empresa 60

Ejercicio 2.8 (continuacion)

Mientras que para la variable antiguedad:

y =1

n

n∑i=1

yi =120

8= 15,

s2n(Y ) = y2 − y2 =2854

8− (15)2 = 131.75,

sn(Y ) =√131.75 = 11.48,

CV (Y ) =sn(Y )

y× 100 =

11.48

15× 100 = 76.5%.

Por tanto, puesto que CV (Y ) = 76.5% > CV (X) = 36.7%, la

variable Y (antiguedad) tiene una mayor dispresion, a pesar de que

su rango es menor.

Page 16: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 61

2.4.4 Medidas de forma: asimetrıa y apuntamiento

Se dice que una distribucion de datos es simetrica cuando lo es su

representacion grafica, mientras que si la representacion grafica esta

desplazada hacia la izquierda o hacia la derecha se dice que es

asimetrica.

Si el desplazamiento es hacia la derecha, se dice que la distribucion

tiene asimetrıa positiva, y asimetrıa negativa si el

desplazamiento es hacia la izquierda.

El coeficiente de asimetrıa de Fisher permite medir la asimetrıa

de la muestra:

AsF =1n

∑ki=1(xi − x)3 ni

s3n.

AsF > 0 ⇒ asimetrıa positiva; AsF < 0 ⇒ asimetrıa negativa.

Observacion 10 Statgraphics denomina skewness a este coeficiente.

Grado en Estadıstica y Empresa 62

Figure 6: (a) Simetrıa, (b) Asimetrıa positiva y (c) Asimetrıa negativa.

−3 −2 −1 0 1 2 30

50

100

150

200

250

300

350

400

450

−0.2 0 0.2 0.4 0.6 0.8 1 1.20

50

100

150

200

250

300

−0.2 0 0.2 0.4 0.6 0.8 1 1.20

50

100

150

200

250

300

(a) AsF = 0 (b) AsF > 0 (c) AsF < 0

Grado en Estadıstica y Empresa 63

Las medidas de apuntamiento, o curtosis, tratan de valorar la

estilizacion de la representacion grafica de una distribucion de datos.

Solo tienen sentido en el caso de distribucions acampanadas con

simetrıa o ligera asimetrıa.

Se define el coeficiente de apuntamiento o de curtosis:

Ap =1n

∑ki=1(xi − x)4 ni

s4n.

Ap ≈ 3 ⇒ distribucion normal (mesocurtica),

Ap > 3 ⇒ distribucion apuntada (leptocurtica),

Ap < 3 ⇒ distribucion plana (platicurtica).

Observacion 11 Statgraphics calcula el coeficiente de apuntamiento de

Fisher, Ap− 3, al que denomina kurtosis. De manera que: si Ap− 3 ≈ 0 ⇒distribucion normal (mesocurtica), si Ap− 3 > 0 ⇒ distribucion apuntada

(leptocurtica), si Ap− 3 < 0 ⇒ distribucion plana (platicurtica).

Grado en Estadıstica y Empresa 64

Figure 7: (a) Mesocurtica, (b) Leptocurtica y (c) Platicurtica.

−6 −4 −2 0 2 4 60

100

200

300

400

500

600

700

800

900

1000

−6 −4 −2 0 2 4 60

100

200

300

400

500

600

700

800

900

1000

−6 −4 −2 0 2 4 60

100

200

300

400

500

600

700

800

900

1000

(a) Ap = 3 (b) Ap > 3 (c) Ap < 3

Page 17: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 65

Ejemplo 2.10 Con los datos del ejemplo 2.3 calcular la media

aritmetica, la mediana y la moda, el primer y tercer cuartiles, el

percentil 95%, la varianza y desviacion tıpica muestrales, el rango, el

rango intercuartılico y la MEDA.

hojas atacadas ni Ni xi ni

0 6 6 0

1 10 16 10

2 12 28 24

3 8 36 24

4 5 41 20

5 4 45 20

6 3 48 18

8 1 49 8

10 1 50 10

Total 50 134

Medidas de tendencia central:

x = 13450 = 2.68,

Me =x(25)+x(26)

2 = 2,

Mo = 2.

¿Que deducimos de la posicion

relativa entre media y mediana?

Grado en Estadıstica y Empresa 66

Ejemplo 2.10 (continuacion):

Observemos que Me < x, por tanto, esto debe advertirnos que la

distribucion tiene asimetrıa positiva, tal como indican el diagrama de

barras y el polıgono de frecuencias:

0 1 2 3 4 5 6 7 8 9 10

2

4

6

8

10

12 polıgono de frecuencias

diagrama de barras

Grado en Estadıstica y Empresa 67

Ejemplo 2.10 (continuacion):

hojas atacadas ni Ni

0 6 6

1 10 16

2 12 28

3 8 36

4 5 41

5 4 45

6 3 48

8 1 49

10 1 50

Total 50

Medidas de posicion:

n/4 = 12.5 ⇒ Q1 = 1,

3n/4 = 37.5 ⇒ Q3 = 4,

95n/100 = 47.5 ⇒ P95 = 6.

¿Que significa que P95 = 6?

¿Que intervalo contiene el

50% central de la muestra?

Grado en Estadıstica y Empresa 68

Ejemplo 2.10 (continuacion):

hojas atacadas ni Ni xi ni x2i ni

0 6 6 0 0

1 10 16 10 10

2 12 28 24 48

3 8 36 24 72

4 5 41 20 80

5 4 45 20 100

6 3 48 18 108

8 1 49 8 64

10 1 50 10 100

Total 50 134 582

Medidas de dispersion:

s2n = 582/50− 2.682 = 4.46,

sn =√4.46 = 2.11,

R = 10− 0 = 10,

RI = 4− 1 = 3.

¿Que significa que sn = 2.11?

Page 18: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 69

Ejemplo 2.10 (continuacion):

¿Cuanto vale la MEDA? Recordemos que Me = 2.

xi xi −Me(X) ni

0 -2 6

1 -1 10

2 0 12

3 1 8

4 2 5

5 3 4

6 4 3

8 6 1

10 8 1

yi = |xi −Me(X)| ni Ni

0 12 12

1 18 30

2 11 41

3 4 45

4 3 48

6 1 49

8 1 50

Total 50

n = 50 ⇒ MEDA =y(25) + y(26)

2= 1.

Grado en Estadıstica y Empresa 70

Ejemplo 2.11 Con los datos del ejemplo 2.4 calcular la media

aritmetica, la mediana y la moda, el primer y tercer cuartiles, el

percentil 30%, la varianza y desviacion tıpica muestrales, el rango y

el rango intercuartılico.

intervalo xi ni Ni ni/Li xi ni

[0, 4) 2 9 9 9/4 18

[4, 8) 6 5 14 5/4 30

[8, 12) 10 4 18 4/4 40

[12, 16] 14 2 20 2/4 28

Total 20 116

Medidas de tendencia central:

x = 11620 = 5.8,

Intervalo mediano: [4, 8),

Me = 4 + (8− 4) 10−914−9 = 4.8,

Intervalo modal: [0, 4),

Mo = 0 + (4− 0) 5/40+5/4 = 4.

¿Que significa Mo=4?

¿Que tipo de asimetrıa presenta esta muestra de datos?

Grado en Estadıstica y Empresa 71

Ejemplo 2.11 (continuacion):

Observemos que Me < x, por tanto, esto debe advertirnos de que la

distribucion tiene asimetrıa positiva, tal como indican el histograma

y el polıgono de frecuencias:

0 4 8 12 16

0.5

1

1.5

2

2.5

polıgono de frecuencias

histograma

Grado en Estadıstica y Empresa 72

Ejemplo 2.11 (continuacion):

intervalo xi ni Ni

[0, 4) 2 9 9

[4, 8) 6 5 14

[8, 12) 10 4 18

[12, 16] 14 2 20

Total 20

Medidas de posicion:

Q1 = 0 + 4(5−0)9−0 = 2.22,

Q3 = 8 + 4(15−14)18−14 = 9,

P30 = 0 + 4(6−0)9−0 = 2.67.

Page 19: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 73

Ejemplo 2.11 (continuacion):

intervalo xi ni Ni xi ni x2i ni

[0, 4) 2 9 9 18 36

[4, 8) 6 5 14 30 180

[8, 12) 10 4 18 40 400

[12, 16] 14 2 20 28 392

Total 20 116 1008

Medidas de dispersion:

s2n = 100820 − 5.82 = 16.76,

sn =√16.76 = 4.09,

R = 16− 0 = 16,

RI = 9− 2.22 = 6.78.

Grado en Estadıstica y Empresa 74

Ejercicio 2.9 Una empresa inmobiliaria ofrece apartamentos en

regimen de alquiler con los siguientes precios (en euors):

precio alquiler (mensual) numero de apartamentos

700-1000 21

1000-1100 27

1100-1300 34

1300-1500 14

1500-1800 8

1800-2000 11

2000-2100 10

a) Obtener el alquiler medio por apartamento, el precio mas

frecuente y el precio que se situa en medio de la oferta.

Grado en Estadıstica y Empresa 75

Ejercicio 2.9 (continuacion):

[li−1, li) xi ni Ni fi xi ni ni/Li

[700, 1000) 850 21 21 0.168 17850 0.07

[1000, 1100) 1050 27 48 0.216 28350 0.27

[1100, 1300) 1200 34 82 0.272 40800 0.17

[1300, 1500) 1400 14 96 0.112 19600 0.07

[1500, 1800) 1650 8 104 0.064 13200 0.027

[1800, 2000) 1900 11 115 0.088 20900 0.055

[2000, 2100] 2050 10 125 0.08 20500 0.1

Total 125 1 161200

¿Cual es el intervalo modal? ¿Y el intervalo mediano?

El alquiler medio por apartamento es ...

El precio mas frecuente es ...

El precio que se situa en medio de la oferta es ...

Grado en Estadıstica y Empresa 76

Ejercicio 2.9 (continuacion):

b) Si una persona esta dispuesta a gastarse en alquiler entre 1250 y

1350 euros al mes, a que porcentaje de apartamentos tiene

opcion?

c) Por debajo de que precio estan el 80% de los apartamentos?

d) Entre que precios estan el 50% central de los apartamentos?

Soluciones: a) 1289.6 euros/mes, 1070.83 euros/mes, 1185.29

euros/mes; b) 9.6%; c) 1650 euros/mes; d) entre 1037.96 y 1467.86

euros/mes

Page 20: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 77

3 Transformaciones

Transformar un conjunto de observaciones de una variable

cuantitativa consiste en modificar cada una de ellas mediante una

misma operacion matematica, obteniendo ası el conjunto de datos

transformados.

La transformacion de datos se realiza con el fin de obtener una nueva

variable cuya distribucion sea mas simple y con mejores propiedades

(simetrıa, media igual a cero, desviacion tıpica igual a uno, . . .) que

la variable original.

Grado en Estadıstica y Empresa 78

3.1 Transformaciones lineales

Es la forma mas sencilla de transformar datos.

Si X es la variable original y a, b ∈ R, entonces Y = a+ bX es una

transformacion lineal de X.

Propiedades: Si x, s2n(X), Me(X) y MEDA(X) son la media, la

varianza, la mediana y la MEDA de X, respectivamente, entonces:

1. La media y varianza de Y son: y = a+ b x, s2n(Y ) = b2 s2n(X),

2. La mediana y MEDA de Y son: Me(Y ) = a+ bMe(X),

MEDA(Y ) = |b|MEDA(X).

Una situacion habitual donde se utilizan las transformaciones lineales

es cuando se hace un cambio de unidades de medida. Por ejemplo

pasar de habitantes a miles de habitantes, de dolares a euros, . . .

Grado en Estadıstica y Empresa 79

Un caso particular de transformacion lineal es la tipificacion de

una variable. La variable tipificada de X es

Z =X − x

sn(X)=

1

sn(X)X − x

sn(X),

que equivale a decir que Z es una transformacion lineal de X, con

a = −x/sn(X) y b = 1/sn(X).

Proposicion 3.1 Toda variable tipificada tiene media cero y

varianza unidad.

La variable tipificada expresa el numero de desviaciones estandar que

cada observacion dista de la media. Se utiliza para comparar la

posicion relativa de un mismo individuo respecto de distintas

distribuciones de datos o bien, para comparar la posicion relativa de

individuos distintos dentro de la misma distribucion de datos.

Grado en Estadıstica y Empresa 80

A pesar de las buenas propiedades de las transformaciones lineales,

estas no son suficientes para modificar rasgos mas complejos de una

distribucion de datos, como por ejemplo la asimetrıa. Para ello seran

necesarias las transformaciones no lineales.

3.2 Transformaciones no lineales.

Como regla general, se trata de escoger una transformacion que

conduzca a una distribucion simetrica y mas cercana a la distribucion

normal. De este modo, se podran aplicar numerosas tecnicas de

inferencia estadıstica.

En una distribucion simetrica unimodal, la media, la moda y la

mediana coinciden; ademas el coeficiente de asimetrıa es cero (ası

como todos los momentos de orden impar).

Page 21: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 81

Correccion de la asimetrıa negativa: Cuando se tienen

distribuciones de frecuencias con asimetrıa negativa (frecuencias altas

hacia el lado derecho de la distribucion), es conveniente aplicar la

transformacion xk, k ∈ N, k ≥ 2. Esta transformacion comprime la

escala para valores pequenos y la expande para valores altos.

Correccion de la asimetrıa positiva: Para distribuciones con

asimetrıa positiva (frecuencias altas hacia el lado izquierdo de la

distribucion) se usan las transformaciones√x, log x, 1/x, que

comprimen los valores altos y expanden los pequenos. El efecto de

estas transformaciones esta en orden creciente: menos efecto√x, mas

efecto log x y aun mas 1/x.

La transformacion mas utilizada es la logarıtmica. Muchas

distribuciones de datos economicos, o de consumos se convierten en

simetricas al tomar la transformacion logarıtmica.

Grado en Estadıstica y Empresa 82

Las medidas basadas en el orden de los datos, como la mediana o los

cuartiles se mantienen iguales cuando se hace una transformacion

monotona del estilo de las previamente citadas. Por el contrario, el

resto de estadısticos cambia.

Observacion 12 Si en lugar del conjunto de observaciones

originales se tiene solo la distribucion de frecuencias en una tabla con

ordenacion agrupada, se puede realizar la transformacion modificando

los extremos de las clases mediante la funcion elegida. En general,

esto hace que cambien las longitudes de los intervalos de

clase. Por tanto, si a continuacion se dibuja el histograma con las

nuevas clases, habra que recalcular las alturas de cada intervalo.

Grado en Estadıstica y Empresa 83

Ejemplo 3.1 El numero de dıas que 9 trabajadores escogidos al azar

de una empresa han estado de baja son los siguientes:

15 7 8 85 19 12 8 22 14

a) Representa este conjunto de datos mediante un diagrama de caja

(box-plot). ¿Se detecta algun valor atıpico?

b) ¿Que se puede decir de la simetrıa de estos datos?

c) ¿Que transformaciones conoces que creas que pueden ser utiles

para simetrizar estos datos?

Grado en Estadıstica y Empresa 84

Ejemplo 3.1 (continuacion:)

dias de baja

0 20 40 60 80 100

¿Que se puede decir de la simetrıa de estos datos?

¿Que transformaciones conoces que creas que pueden ser utiles para

simetrizar estos datos?

Page 22: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 85

transformacion X2 transformacion√X

d d di

0 2 4 6 8(X 1000) 2,6 4,6 6,6 8,6 10,6

transformacion log(X) transformacion 1/X

1,9 2,4 2,9 3,4 3,9 4,4 4,9 0 0,03 0,06 0,09 0,12 0,15

Grado en Estadıstica y Empresa 86

Ejemplo 3.2 Se consideran los siguientes datos, correspondientes a

la tasa de incrementos de precios al consumo, en 1985, para 24 paıses

de la OCDE:

2.2 7.6 2.9 4.6 4.1 3.9

7.4 3.2 5.1 5.3 20.1 2.3

5.5 32.7 9.1 1.7 3.2 5.8

16.3 15.9 5.9 6.7 3.4 40.5

Considerar la transformacion logarıtmica y comparar ambas variables.

Grado en Estadıstica y Empresa 87

Ejemplo 3.2 (continuacion)

paıs x y = log(x) paıs x y = log(x)

1 1.7 0.53 13 5.5 1.70

2 2.2 0.79 14 5.8 1.76

3 2.3 0.83 15 5.9 1.77

4 2.9 1.06 16 6.7 1.90

5 3.2 1.16 17 7.4 2.00

6 3.2 1.16 18 7.6 2.03

7 3.4 1.22 19 9.1 2.21

8 3.9 1.36 20 15.9 2.77

9 4.1 1.41 21 16.3 2.79

10 4.6 1.53 22 20.1 3.00

11 5.1 1.63 23 32.7 3.49

12 5.3 1.67 24 40.5 3.70

Grado en Estadıstica y Empresa 88

Ejemplo 3.2 (continuacion)

Figure 8: Histograma de frecuencias absolutas.

0 8.2 16.4 24.6 32.8 41

3

6

9

12

15

18

X

0 0.8 1.6 2.4 3.2 4

2

4

6

8

10

Y = log(X)

X presenta una fuerte asimetrıa positiva: la mayor parte de los paıses

tienen valores por debajo de 10 y, unos pocos, un valor mucho mayor.

Y tiene una distribucion mas simetrica.

Page 23: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 89

Ejemplo 3.2 (continuacion)

medidas numericas X Y = log(X)

media x 8.975 1.812

Q1 3.2 1.16

cuartiles Me = Q2 5.4 1.685

Q3 7.6 2.03

RI = Q3 −Q1 4.4 0.87

1as y 2as Q1 − 1.5RI -3.4 -0.145

barreras Q3 + 1.5RI 14.2 3.335

exteriores Q3 + 3RI 20.8 4.64

mınimo(∗) 1.7 0.53

maximo(∗) 9.1 3.00

(*) el mınimo y el maximo de los datos antes de las primeras barreras exteriores.

Grado en Estadıstica y Empresa 90

Ejemplo 3.2 (continuacion)

Figure 9: Diagramas de caja. En la figura de la izquierda se observa

una fuerte asimetrıa positiva, mientras que en la figura de la derecha

hay una ligera asimetrıa positiva.

+

0 10 20 30 40 50

X

+

0 1 2 3 4

Y = log(X)

Grado en Estadıstica y Empresa 91

Ejercicio 3.1 Dada la distribucion de edades (medidas en anos) en

un colectivo de 100 personas, obtener: la variable tipificada Z, los

valores de la media y varianza de Z, el coeficiente de variacion de Z.

edad 2 7 15 30

frecuencia 47 32 17 4

Grado en Estadıstica y Empresa 92

Ejemplo 3.1 (continuacion)

Puesto que la variable tipificada se obitene mediante la formula:

Z =X − x

sn,

para obtener los valores tipificados de X, necesitamos obtener, en

primer lugar, la media y la desviacion tıpica de X. Para ello nos

ayudamos de la tabla siguiente:

xi ni xi ni x2i ni

2 47 94 188

7 32 224 1568

15 17 255 3825

30 4 120 3600

total 100 693 9181

x = 693100 = 6.93

s2n = x2 − x2 = 9181100 − (6.93)2 = 43.79

sn =√43.79 = 6.62

Page 24: An´alisis Exploratorio de Datos Temas 2 y 3halweb.uc3m.es/esp/Personal/personas/agrane/ficher... · Grado en Estad´ıstica y Empresa 1 An´alisis Exploratorio de Datos Temas 2 y

Grado en Estadıstica y Empresa 93

Ejemplo 3.1 (continuacion)

Los valores tipificados de X son:

z1 =2− 6.93

6.62= −0.745, z2 =

7− 6.93

6.62= 0.011,

z3 =15− 6.93

6.62= 1.220, z4 =

30− 6.93

6.62= 3.485.

Calculamos la media y varianza para la variable Z:

zi ni zi ni z2i ni

-0.745 47 -35.015 26.086

0.011 32 0.352 0.004

1.220 17 20.740 25.303

3.485 4 13.940 48.581

total 100 0.0017 99.974

z = 0.017100 = 0.00017 ≈ 0

s2z = 99.974100 − (0.00017)2 = 0.9997 ≈ 1

sz =√0.9997 = 0.9999 ≈ 1

¿Cuanto vale el coeficiente de variacion de Z?

Grado en Estadıstica y Empresa 94

Ejemplo 3.1 (continuacion)

No tiene ningun sentido calcular el

coeficiente de variacion de Z,

puesto que al tratarse de una variable

tipificada:

CV =sz

z≈ 1

0→ ∞!!