clase 3: medidas de tendencia central y dispersion

39
Dra. Luz Carbajal A. Departamento de Estadística, demografía, Humanidades y Ciencias Sociales Setiembre, 2010 Universidad Peruana Cayetano Heredia Curso: Análisis Exploratorio de datos Tomado de MSp. Wilfredo Mormontoy 1

Upload: pablo-ramos

Post on 13-Jul-2015

8.319 views

Category:

Education


3 download

TRANSCRIPT

Page 1: Clase 3: Medidas de tendencia central y dispersion

Dra. Luz Carbajal A.Departamento de Estadística, demografía, Humanidades y Ciencias

Sociales

Setiembre, 2010

Universidad Peruana Cayetano Heredia

Curso: Análisis Exploratorio de datos

Tomado de MSp. Wilfredo Mormontoy

1

Page 2: Clase 3: Medidas de tendencia central y dispersion

• La enumeración de los datos representa un avance importante en el análisis de la información.

• La distribución de frecuencias organiza los datos en un formato que facilita su análisis e interpretación.

• La conversión a frecuencias relativas permite hacer comparaciones valiosas y significativas.

Recordar que

Tomado de MSp. Wilfredo Mormontoy 2

Page 3: Clase 3: Medidas de tendencia central y dispersion

• La utilización de distribuciones de frecuencias en intervalos de clases:

• Resume y condensa la información presente en los datos

• Se pierde información individual pero se gana en capacidad de análisis de características globales.

• El uso de gráficos permite una rápida visualización de estas características globales.

• Otra técnica estadística es poder resumir aspectos presentes en los datos con un único valor (o algunos valores).

Tomado de MSp. Wilfredo Mormontoy

3

Page 4: Clase 3: Medidas de tendencia central y dispersion

• A través de:• Medidas de Tendencia central • Medidas de Dispersión• Medidas de Posición• Medidas de Asimetría

Tomado de MSp. Wilfredo Mormontoy 4

Page 5: Clase 3: Medidas de tendencia central y dispersion

• Intento de resumir la distribución, expresando el valor que se puede considerar mas típico o representativo de los datos.

• El término tendencia central implica la idea de un “centro” identificable en la distribución. Tanto más útil será ese valor en tanto más identificable sea ese “centro”.

• Veremos: - Modo o moda - Media Aritmética- Mediana - Media Geométrica

Tomado de MSp. Wilfredo Mormontoy 5

Page 6: Clase 3: Medidas de tendencia central y dispersion

• Es el valor con mayor frecuencia en la distribución de datos.

• En datos agrupados es el punto medio de la clase con mayor frecuencia.

• Se aplica a datos medidos en todas las escalas vistas.

• Las distribuciones pueden ser unimodales, bimodales, multimodales.

Tomado de MSp. Wilfredo Mormontoy 6

Page 7: Clase 3: Medidas de tendencia central y dispersion

• Ej: Variable cualitativa: sexoF F F F F F M M M M M M M M M

Moda:

• Ej: Variable cuantitativa: Años de servicio12 15 13 12 14 16 12 14 14 12 14Moda:

Masculino

12 y 14 (distribución bimodal)

Tomado de MSp. Wilfredo Mormontoy 7

Page 8: Clase 3: Medidas de tendencia central y dispersion

• Es el promedio de las observaciones.• Se puede ver como un punto de equilibrio de la distribución,

o como un centro de gravedad de la misma. • Aplicada a datos cuantitativos (medidos en escala de razón).• Cálculo (población).

Ojo: La suma de las diferencias de cada valor de la muestra con la media es siempre cero, es decir:

N

xNi

ii∑

=

== 1µ

Tomado de MSp. Wilfredo Mormontoy 8

∑=

=−n

ii xx

1

0)(

Page 9: Clase 3: Medidas de tendencia central y dispersion

• Ejemplo: Para la serie de datos utilizada anteriormente:12 15 13 12 14 16 12 14 14 12 14

µ = (12+15+13+12+14+16+12+14+14+12+14)/11=13.45

Interpretación: El total de individuos tienen en promedio 13.45 años de servicio; o

El total de individuos tienen alrededor de 13,45 años de servicio.

N

xNi

ii∑

=

== 1µ

Tomado de MSp. Wilfredo Mormontoy 9

Page 10: Clase 3: Medidas de tendencia central y dispersion

• Es el punto medio de una distribución ordenada de los datos.

• El 50% de los datos están por encima o debajo de este valor.

Es útil cuando se quiere reducir o eliminar el efecto de valores extremos en un conjunto de datos (muy grandes o muy pequeños).

• Es aplicable cuando la variable está en una escala por lo menos ordinal.

Tomado de MSp. Wilfredo Mormontoy 10

Page 11: Clase 3: Medidas de tendencia central y dispersion

• Ejemplo 1: Cantidad de observaciones impar (n=11)

12 15 13 12 14 16 12 14 14 12 14• Ordenamos de menor a mayor y ubicamos el centro:

• Ejemplo 2: Cantidad de observaciones par (n=10)

5 8 8 5 9 6 8 2 9 6 Ordenamos de manera ascendente y ubicamos el centro:

12 12 12 12 13 14 14 14 14 15 16

2 5 5 6 6 8 8 8 9 9

Mediana=(6+8)/2=7Tomado de MSp. Wilfredo Mormontoy 11

Page 12: Clase 3: Medidas de tendencia central y dispersion

Se ordenan los n valores en forma creciente:x1 < x2 < x3 < x4 < x5 < x6 < …..xn

• Si n impar:

• Si n par:

1

2

nMd X +=

12 2

2

n nX X

Md+

+=

Tomado de MSp. Wilfredo Mormontoy 12

Page 13: Clase 3: Medidas de tendencia central y dispersion

• Valor de la variable correspondiente al 0.50 en la frecuencia relativa acumulada

0102030405060708090

100

15 20 25 30 35 40

Edad(años)

Fre

cuen

cia

acum

ulad

a%

Tomado de MSp. Wilfredo Mormontoy 13

Page 14: Clase 3: Medidas de tendencia central y dispersion

Tomado de MSp. Wilfredo Mormontoy 14

Edad fi Fi

14.5-19.5 10 10

19.5-24.5 30 40

24.5-29.5 20 60

29.5-34.5 30 90

34.5-39.5 10 100

Total (n) 100

0.27)5.245.29(20

40505.24 =−×

−+=Md

Md = lri + ( n/2 – Fi-1 ) * c

fmed

fmed

Fi-1

fmed: 20 c: 5Fi-1: 40n/2 = 50lri: 24.5

Interpretación: El 50% de los individuos tienen una edad menor o igual a 27 años.

Page 15: Clase 3: Medidas de tendencia central y dispersion

• Resume la magnitud con la cual los diferentes datos difieren entre sí.

• Sirven como medida de homogeneidad.

• Nos dan elementos para evaluar la adecuación de la medida de tendencia central usada.

• Veremos:- Rango - Desviación estándar- Varianza - Coeficiente de variación- Erro Estándar

Tomado de MSp. Wilfredo Mormontoy 15

Page 16: Clase 3: Medidas de tendencia central y dispersion

• Rango= Xmax-Xmin

• Se utiliza para variables cuantitativas medidas en escala de intervalo o razón.

• Inestable (muy afectada por los valores extremos).• No aprovecha los datos, insuficiente.• Fácil de calcular.

Tomado de MSp. Wilfredo Mormontoy 16

Page 17: Clase 3: Medidas de tendencia central y dispersion

• Nos informan sobre la magnitud de la variación en los datos, la magnitud con la cual las observaciones se agrupan en torno a la media.

• Sólo se aplica a variables cuantitativas (medidas en escala de razón).

• Para una población, la varianza es:

22

1

( )i ni

i

x

N

µσ=

=

−= ∑

Tomado de MSp. Wilfredo Mormontoy 17

Page 18: Clase 3: Medidas de tendencia central y dispersion

• Poblacional

• Muestral

22

1

( )

1

i ni

i

x xs

n

=

=

−=

−∑

22

1

( )i ni

i

x

N

µσ=

=

−= ∑

Tomado de MSp. Wilfredo Mormontoy 18

Varianza Desviación estándar

2σ σ=

2s s=

Page 19: Clase 3: Medidas de tendencia central y dispersion

Ej: 5 8 8 5 9

Media=(5+8+8+5+9)/5=7

87.15,3

5,34

41144

4

)79()78()78()75()75( 222222

==

=++++=−+−+−+−+−=

s

s

22

1

( )

1

i ni

i

x xs

n

=

=

−=

−∑

Tomado de MSp. Wilfredo Mormontoy 19

Page 20: Clase 3: Medidas de tendencia central y dispersion

Proporciona los elementos para comparar la variabilidad en distintos conjuntos de datos que pueden tener distintas medias.

Una desviación estándar de 500 en una distribución con una media de 5000, sugiere una variabilidad mayor que una desviación de 500 en una distribución de media 50000

Generalmente se expresa en porcentaje:

Tomado de MSp. Wilfredo Mormontoy 20

sCV

x= * 100%

Page 21: Clase 3: Medidas de tendencia central y dispersion

Es una medida útil para comparar la variabilidad entre dos o mas grupos de datos (dos o mas muestras). Incluso en una sola muestra cuando se muestran mediciones de diferente unidad de medida.

Indica la variabilidad de las medias muestrales respecto a la media poblacional.

Tomado de MSp. Wilfredo Mormontoy 21

E. S. = S x √n

Page 22: Clase 3: Medidas de tendencia central y dispersion

• Se refiere a la simetría respecto a la media.Si f es la función de distribución, diremos que la distribución es:

Distribución simétrica

0

2

4

6

8

10

12

m-a m

m+a

Densidad

Asimetría negativa

0

1

2

3

4

5

6

7

8

1 2 3 4 5 6 7 8 9

Densidad

0

1

2

3

4

5

6

7

8

1 2 3 4 5 6 7 8 9

Densidad

Asimetría positiva

( ) ( )f media a f media a− = +Simétrica si para todo a es

( ) ( )f media a f media a− < +Asimetría negativa si para algún a es

( ) ( )f media a f media a− > +Asimetría positiva si para algún a es

Tomado de MSp. Wilfredo Mormontoy 22

Page 23: Clase 3: Medidas de tendencia central y dispersion

• Cuantil: valor de la variable bajo el cual se encuentra una cierta proporción de los valores de la distribución.

• Percentiles o centiles: C,100 partes

• Deciles: D, 10 partes

• Cuartiles: Q, 4 partes:

• Q1(25%), Q2(50%), Q3(75%)

Tomado de MSp. Wilfredo Mormontoy 23

Page 24: Clase 3: Medidas de tendencia central y dispersion

Mediana: Valor de la variable que deja por debajo al 50% de las observaciones

Percentil k: Valor de la variable que deja por debajo el k% de las observaciones(Ej: P23, P45 , P50)

Decil k: Valor de la variable que deja por debajo el (k*10)% de las observaciones (Ej: P10=D1, P20=D2,etc.)

Cuartil k:Valor de la variable que deja por debajo el (k*25)% de las observaciones (Ej: P50=Q2 =Me,

Medidas de Posición

Tomado de MSp. Wilfredo Mormontoy 24

Page 25: Clase 3: Medidas de tendencia central y dispersion

• D1=P10

• Q1=P25

• Q2=Md=P50

• Medidas derivadas:

Rango intercuartil (RIC): Q3-Q1.

Desviación intercuartil: (Q3-Q1)/2 La desviación intercuartil es una medida que

acompaña a la mediana en la descripción de sus datos

Tomado de MSp. Wilfredo Mormontoy 25

Page 26: Clase 3: Medidas de tendencia central y dispersion

Tomado de MSp. Wilfredo Mormontoy 26

Edad fi Fi

14.5-19.5 10 10

19.5-24.5 30 40

24.5-29.5 20 60

29.5-34.5 30 90

34.5-39.5 10 100

Total (n) 100

0.32530

60755.293 =×

−+=Q

Q3 = lri + ( 3(n/4) – Fi-1 ) * c

fcuartil3

fcuartil3

Fi-1

fcuartil3: 30 c: 5Fi-1: 603(n/4) = 3*(100/4) = 75lri: 29.5

Page 27: Clase 3: Medidas de tendencia central y dispersion

Calcular: ◦ Q1, Q2 y Q3

▶ Obtener los limites imaginarios:◦ Inferior: Q1 – 1.5*RIC (RIC = rango intercuartil)

◦ Superior:Q3 + 1.5*RIC

◦ RIC = Q3 – Q1

Considerando los datos de la tabla anterior:Q1 = 22.0 ; Q2 = 27.0 ; Q3 = 32.0 ; RIC = 32-22=10

Inferior: 22 – (1.5)(10) = 7Superior: 32 + (1.5)(10) = 47 Con estos datos, podemos generar la gráfica de caja y bigote.

Tomado de MSp. Wilfredo Mormontoy 27

Page 28: Clase 3: Medidas de tendencia central y dispersion

Tomado de MSp. Wilfredo Mormontoy 28

50

40

30

20

10

Edad

Max. aprox

Q3

MdQ1

Min. aprox

Page 29: Clase 3: Medidas de tendencia central y dispersion

Tomado de MSp. Wilfredo Mormontoy 29

Edad fi Fi

14.5-19.5 20 20

19.5-24.5 60 80

24.5-29.5 40 120

29.5-34.5 60 180

34.5-39.5 20 200

Total (n) 200

83.22)5.195.24(60

20605.1930 =−×

−+=P

P30 = lri + ( 30(200/100) – Fi-1 ) * c

fpercentil30

fpercentil30

Fi-1

fpercentil30: 60 c: 5Fi-1: 20Posición P30: 30(n/100) = 60lri: 19.5

Page 30: Clase 3: Medidas de tendencia central y dispersion

Curvas de crecimiento ◦ Peso-edad◦ Talla-edad◦ Perímetro cefálico-edad◦ Crecimiento intrauterino,etc

Tomado de MSp. Wilfredo Mormontoy 30

Page 31: Clase 3: Medidas de tendencia central y dispersion

Para 12 meses:

P50 =46cm(aprox)

P90=48cm(aprox)

Tomado de MSp. Wilfredo Mormontoy 31

Page 32: Clase 3: Medidas de tendencia central y dispersion

• No siempre es necesario indicar todas las medidas de resumen.

• Buscar las más significativas y representativas.

• En distribuciones sesgadas o asimétricas es mas apropiada la mediana como medida de tendencia central.

• En distribuciones bimodales o multimodales, esa característica no debe dejar de mencionarse.

Tomado de MSp. Wilfredo Mormontoy 32

Page 33: Clase 3: Medidas de tendencia central y dispersion

Tomado de MSp. Wilfredo Mormontoy 33

Ubicación gráfica de los cuartiles

Page 34: Clase 3: Medidas de tendencia central y dispersion

Tomado de MSp. Wilfredo Mormontoy 34

Page 35: Clase 3: Medidas de tendencia central y dispersion

Tomado de MSp. Wilfredo Mormontoy 35

Page 36: Clase 3: Medidas de tendencia central y dispersion

Tomado de MSp. Wilfredo Mormontoy 36

Valores atípicos

Page 37: Clase 3: Medidas de tendencia central y dispersion

Proporción:◦ Número (a) de observaciones con una característica dada

(como sano o enfermo) dividido entre el numero total de observaciones de los sanos y enfermos (a+b) en un grupo dado. El numerador es parte del denominador. Esto es:

)( ba

aproporcion

+=Resultado Trat A Trat B Total

Sano 90 350 440

Enfermo 810 750 1560

Total 900 1100 2000

45.02000

900

)1100900(

900. ==

+=ATrat

Tomado de MSp. Wilfredo Mormontoy 37

Page 38: Clase 3: Medidas de tendencia central y dispersion

Razón:◦ Número (a) de observaciones en un grupo dado con una

característica dada (como sano) dividido entre el número (b) de observaciones sin la característica dada (como estar enfermo). El numerador no es parte del denominador. Esto es:

ba

razon =

282.01560

440/ ==enfsanos

Tomando los datos de la tabla, la razón de sanos sobre enfermos es:

Tomado de MSp. Wilfredo Mormontoy 38

Page 39: Clase 3: Medidas de tendencia central y dispersion

Tasa:◦ Está asociado con la rapidez o velocidad de cambio de un

fenómeno como nacimiento, crecimiento, muerte, en función o en relación con alguna unidad de tiempo. El numerador debe ser la expresión de un cambio respecto de la

ocurrencia de eventos en individuos desde una condición basal hasta una final.

El numerador debe expresar el concepto de exposición de un conjunto de individuos, en un periodo determinado.

Por ejemplo: Tasa bruta de mortalidad:

Se considera las defunciones ocurridas en un periodo de tiempo y la población en la mitad del periodo por una constante k = 100, 1000, 10000.

La tasa es una proporción en función al tiempo (multiplicado por una constante).

1000)()(

xtpoblaciontsdefuncione

TBM =

Tomado de MSp. Wilfredo Mormontoy 39