4. medidas de tendencia central, de dispersión y asimetría

14
19 1.5. Medidas de tendencia central Las medidas de tendencia central se refieren al valor que representa a los datos de una determinada variable. Moda La moda de un conjunto de datos observados de una variable es el valor que se presenta con mayor frecuencia. Características de la moda La moda se puede calcular para datos medidos en cualquier escala de medición. El valor de la moda no se ve afectado por valores extremos. La moda no siempre es un valor único. Una serie de datos puede tener dos modas (bimodal) o más modas (multimodal). Moda de datos no agrupados Agrupe los datos de acuerdo con sus frecuencias, el dato con mayor frecuencia es la moda. Ejemplo 1 Calcule e interprete la moda de los siguientes datos, que representa el número de artículos comprados por 14 clientes de cierto supermercado. 2 2 2 4 2 5 5 4 5 2 5 5 5 4 Calcule e interprete la moda de los siguientes datos, que representa el número de artículos comprados por 14 clientes de cierto supermercado. 2 2 6 4 3 4 6 3 5 80 7 80 5 7

Upload: carlo-robles-melgarejo

Post on 27-Jan-2016

241 views

Category:

Documents


0 download

DESCRIPTION

tendcen

TRANSCRIPT

Page 1: 4. Medidas de Tendencia Central, De Dispersión y Asimetría

19

1.5. Medidas de tendencia central

Las medidas de tendencia central se refieren al valor que representa a los datos de una

determinada variable.

Moda

La moda de un conjunto de datos observados de una variable es el valor que se presenta con

mayor frecuencia.

Características de la moda

La moda se puede calcular para datos medidos en cualquier escala de medición.

El valor de la moda no se ve afectado por valores extremos.

La moda no siempre es un valor único. Una serie de datos puede tener dos modas (bimodal) o

más modas (multimodal).

Moda de datos no agrupados

Agrupe los datos de acuerdo con sus frecuencias, el dato con mayor frecuencia es la moda.

Ejemplo 1 Calcule e interprete la moda de los siguientes datos, que representa el número de artículos

comprados por 14 clientes de cierto supermercado.

2 2 2 4 2 5 5 4 5 2 5 5 5 4

Calcule e interprete la moda de los siguientes datos, que representa el número de artículos

comprados por 14 clientes de cierto supermercado.

2 2 6 4 3 4 6 3 5 80 7 80 5 7

Page 2: 4. Medidas de Tendencia Central, De Dispersión y Asimetría

20

Ejemplo 2

En la empresa A, se midió el número de errores por día que cometieron 158 obreros al ensamblar

un determinado producto. Calcule e interprete la moda del número de errores por obrero.

Empresa A. Número de errores al ensamblar el producto

Número de errores Número de obreros

0 25

3 45

5 60

8 28

Fuente: Gerencia de Producción. Empresa A

Mediana

Es el percentil 50, también llamado segundo cuartil.

Características de la mediana

Se puede calcular para variables medidas en escala de ordinal, intervalo o razón.

La mediana es un estadístico que no se ve afectado por valores extremos. Por eso se le utiliza

cuando hay datos inusuales o el polígono de frecuencias no es muy simétrico.

Ejemplo 3 El tiempo, en horas, que se tarda un grupo de obreros, capacitados y no capacitados, en realizar

una tarea se muestra en la siguiente tabla.

Capacitados 4,5 4,3 2,7 8,2 8,3 6,4 5,4 3,4 2,7 5,6

No capacitados 8,3 7,4 8,5 8,5 9,0 8,4 18

Calcule e interprete la mediana del tiempo para cada grupo. Compare los valores hallados y

comente.

Page 3: 4. Medidas de Tendencia Central, De Dispersión y Asimetría

21

Ejemplo 4 En la empresa A se tomó una muestra aleatoria de trabajadores y se les preguntó por sus ingresos

mensuales, en dólares, obteniéndose los siguientes resultados.

Distribución de trabajadores por sus ingresos mensuales (en dólares)

Ingresos (en dólares) Marca de clase Número de trabajadores

[ ] 30

] 175 , 225 ] 200 45

] 225 , 275 ] 250 190

] 275 , 325 ] 300 140

] 275 , 325 ] 130

] 325 , 2600 ] 2500 25

Fuente: Gerencia de Recursos Humanos. Empresa A

Complete la tabla de distribución de frecuencias y calcule la mediana del ingreso. Interprete.

Media Aritmética

La media aritmética es el valor que se obtiene al dividir la suma total de los datos entre el número

de datos.

Características de la media

Se puede calcular para datos medidos en escala de intervalo o razón.

El cálculo de la media es sencillo y es la medida de tendencia central más conocida.

El valor de la media depende de todos los datos, por lo que la presencia de valores muy

grandes o muy pequeños con respecto a los demás pueden cambiar drásticamente su valor.

Si cada uno de los n valores xi es transformado en: yi = a xi + b, siendo a y b constantes,

entonces, la media de los n valores yi es:

y ax b= +

xnxn

ii =∑

=1

Page 4: 4. Medidas de Tendencia Central, De Dispersión y Asimetría

22

( ) 01

=−∑=

n

ii xx

Dados n datos x1, x2,…, xn, sea ( ) ( )∑=

−=n

ii cxcS

1

2, entonces ( )cS tiene mínimo absoluto

cuando c es igual a la media del conjunto de datos x .

Media aritmética para datos no agrupados

n

x

x

n

i

i∑== 1

Ejemplo 5 Calcule e interprete la media de los siguientes datos que representan el número de papeletas

pendientes de pago de cada uno de 11 choferes de vehículos de transporte público seleccionados

al azar.

12 13 25 20 17 19 15 14 28 5 4

Ejemplo 6 En la empresa A, se midió el número de errores que cometieron 158 obreros al ensamblar un

determinado producto. Calcule e interprete la media del número de errores por obrero.

Empresa A. Número de errores al ensamblar un producto

Número de errores Número de obreros

0 25

3 45

5 60

8 28

Fuente: Gerencia de Recursos Humanos. Empresa A

Media aritmética para datos en una distribución de frecuencias por intervalos

Dados n datos cuantitativos organizados en una distribución de frecuencias con k intervalos, con

marcas de clase mi, frecuencias absolutas ni y tales que ∑ ����� �

= �, entonces, el valor

aproximado de la media aritmética es:

∑∑

=

= ==k

i

ii

k

i

ii

fmn

nm

x

1

1

Page 5: 4. Medidas de Tendencia Central, De Dispersión y Asimetría

23

Ejemplo 7 En el distrito A se tomó una muestra aleatoria de jóvenes y se les preguntó por su estatura, en

centímetros, obteniéndose los siguientes resultados.

Distrito A. Estaturas de una muestra de 800 jóvenes

Estatura (en centímetros) Marca de

clase

Número de

jóvenes

Porcentaje

de jóvenes

Número

acumulado

de jóvenes

Porcentaje

acumulado

de jóvenes

[ 150 , ] 0,48

] , 166 ] 32%

] , ] 0,95

] , ] 800

Fuente: Gerencia de Desarrollo Humano. Municipalidad del distrito A

Complete la tabla de distribución de frecuencias. Calcule e interprete la estatura media y la

estatura mediana. Compare los valores hallados.

Media aritmética ponderada

Dados n datos x1, x2,…, xn con pesos w1, w2,…, wn la media aritmética ponderada de los datos es:

=

== n

ii

n

iiii

p

w

xwx

1

Si todos los pesos son iguales, entonces xx p =

Ejemplo 8

Calcule la nota final de un alumno del curso de Estadística de Estudios Generales Ciencias que

tiene las siguientes notas: práctica calificada 1 = 18, práctica calificada 2 = 10, práctica calificada 3

= 12, práctica calificada 4 = 15, examen parcial = 14 y examen final = 9. Los pesos del promedio de

prácticas, examen parcial y examen final son 3, 3 y 4, respectivamente. La práctica con menor nota

se anula.

Page 6: 4. Medidas de Tendencia Central, De Dispersión y Asimetría

24

1.6. Medidas de dispersión

Con las medidas de tendencia central es posible determinar el valor que representa a los datos

de un conjunto, pero no indica qué tan cercanos o lejanos están los datos de dicho valor

central.

Las medidas de variabilidad indican cuán alejados están los datos del valor que los representa.

Ejemplo 9 Calcule la media, mediana y moda de los siguientes grupos de datos:

Grupo 1

1 3 5 5 5 7 9

Grupo 2

-20 5 5 5 5 5 30

Grupo 3

5 5 5 5 5 5 5

¿Qué conclusión deduce de los cálculos?

Rango

El rango (alcance, amplitud o recorrido) de un conjunto de datos observados se define como:

R = valor máximo – valor mínimo

Características del rango

Se puede calcular en variables medidas en escala de intervalo y de razón.

Se ve afectado por valores extremos.

Solo depende del valor máximo y mínimo de los datos e ignora cómo están distribuidos los

demás.

El rango es la longitud del intervalo de variación de los datos.

Page 7: 4. Medidas de Tendencia Central, De Dispersión y Asimetría

25

Rango intercuartil

Es la diferencia entre el tercer y primer cuartil.

Rango intercuartil = RIC = Q3 – Q1= P75 – P25

Características del rango intercuartil

Se puede calcular en variables medidas en escala de intervalo y de razón.

No se ve afectado por valores extremos.

Diagrama de cajas

Es una gráfica que describe la distribución de un conjunto de datos tomando como referencia los

valores de los cuartiles como medidas de posición, la mediana como medida de tendencia central

y el valor del rango intercuartil como medida de dispersión. Además, permite apreciar la forma de

la distribución de los datos (simétrica o asimétrica).

Dato atípico

Es un dato inusualmente grande o pequeño con respecto a los otros datos. Se considera dato

atípico a cualquier valor que esté:

o a más de 1,5(RIC) por arriba (o a la derecha) del tercer cuartil

o a más de 1,5(RIC) por debajo (o a la izquierda) del primer cuartil

Pasos para trazar un diagrama de cajas

o Sobre un eje horizontal, se traza un rectángulo con los extremos en el primer cuartil (Q1) y

tercer cuartil (Q3).

o En la caja rectangular se traza un segmento vertical en el lugar de la mediana.

o Se determinan los límites para detección de datos atípicos:

- el límite superior está a 1,5(RIC) a la derecha de Q3

- el límite inferior está a 1,5(RIC) a la izquierda de Q1

o Se detectan los datos atípicos.

o Se trazan los bigotes desde los extremos de la caja hasta los datos mínimo y máximo dentro de

los límites inferior y superior.

o Se marcan con un asterisco (*) las localizaciones de los datos atípicos (datos fuera de los

límites superior e inferior).

Page 8: 4. Medidas de Tendencia Central, De Dispersión y Asimetría

26

La siguiente figura presenta un diagrama de cajas con datos hipotéticos.

Ejemplo 10 Se seleccionó una muestra de 45 viviendas y se registró el monto cobrado por la empresa

proveedora por consumo de luz en el último mes. Obtenga un diagrama de cajas para mostrar la

distribución de los montos cobrados.

10,7 45,0 59,8 65,7 87,4 97,1 98,1 98,8 99,2 99,5 99,6 99,7 102,4 106,3 107,3

108,2 108,7 109,2 109,3 109,9 111,4 112,1 112,6 112,9 115,0 115,4 116,4 116,5 119,1 119,2

119,6 120,4 120,6 121,5 122,1 122,7 124,0 124,5 124,9 125,1 125,2 127,1 128,1 129,0 200,8

Diagramas de caja comparativos

Una ventaja de los diagramas de cajas es que se pueden presentar varios juntos, ello permite la

fácil comparación visual de las características de varios conjuntos de datos.

Los diagramas de caja permiten comparar las distribuciones de los valores de una variable

cuantitativa en los diferentes niveles de otra variable cualitativa.

Page 9: 4. Medidas de Tendencia Central, De Dispersión y Asimetría

27

Ejemplo 11 Se desea comparar el resultado de la primera práctica de tres horarios de Estadística de EEGGCC,

para lo cual, se tienen los siguientes resultados.

H

1 0 2 3 4

1

1

1

1

1

2

1

2

1

2

1

2

1

2

1

2

1

2

1

3

1

3

1

3

1

4

1

4

1

5

1

5

1

5

1

5

1

5

1

5

2

0

2

0

H

2

1

1

1

2

1

2

1

2

1

3

1

3

1

4

1

4

1

4

1

4

1

4

1

4

1

5

1

5

1

6

1

6

1

6

1

6

1

6

1

7

1

7

1

8

1

8

1

8

1

8

H

3 0 0 1 3 3 4 5

1

0

1

1

1

1

1

2

1

2

1

3

1

3

1

3

1

4

1

5

1

5

1

6

1

6

1

6

1

7

1

7

1

7

Construya un diagrama de cajas que permita comparar las notas en los tres horarios.

Desviación absoluta

Dados n datos x1, x2,…, xn la desviación absoluta de los datos se define como:

n

xxAD

n

ii∑

=

−= 1..

La desviación absoluta es la media de los valores absolutos de las desviaciones a la media.

Se calcula para datos medidos en escala de intervalo o de razón.

Desviación estándar

Dados n datos x1, x2,…, xn la desviación estándar de los datos se define como:

( )

n

xxsd

n

ii

x

∑=

−= 1

2

La desviación estándar de los datos es la media cuadrática de las desviaciones a la media.

Es siempre mayor o igual a cero.

Se calcula para datos medidos en escala de intervalo o de razón.

Ejemplo 12

Las notas de cuatro alumnos son x1 = 6, x2 = 11, x3 = 15, x4 = 16.

Luego la media aritmética de las notas es .124

1615116 =+++=x

Las diferencias de cada valor con la media son d1 = 6 – 12 = -6, d2 = 11 - 12 = -1, d3 = 15 - 12 = 3, d4

= 16 - 12 = 4.

Luego, la desviación estándar es 937.34

43)1()6( 2222

=++−+−=xsd

Page 10: 4. Medidas de Tendencia Central, De Dispersión y Asimetría

28

Ejemplo 13 Calcule e interprete la media y la desviación estándar de los siguientes datos que representan el

número de personas atendidas por día en la caseta de información de un proyecto inmobiliario, en

una muestra de 15 días.

18 5 2 4 2 6 2 10 5 8 11 4 5 6 7

Ejemplo 14

Calcule la desviación estándar de los siguientes datos.

xi ni

20 3

85 48

120 26

150 45

Desviación estándar de datos organizados en una distribución de

frecuencias por intervalos

( )( )∑

=

= −=−

=k

iii

k

iii

x xmfn

xmn

sd1

21

2

Ejemplo 15 Calcule la media y la desviación estándar de los siguientes datos.

Intervalos Marca de clase ni

[2,5 - 12,0] 9

- 75

56

- 8

4

Page 11: 4. Medidas de Tendencia Central, De Dispersión y Asimetría

29

Varianza

Dados n datos x1, x2,…, xn la varianza de los datos se define como ( )22xx sdsd =

Se cumple que

( )2

11

2

1

2

2

−=−

=∑∑∑

===

n

x

n

x

n

xxsd

n

ii

n

ii

n

ii

x

Propiedades de la varianza y la desviación estándar

La varianza y la desviación estándar son números no negativos.

Son sensibles a la existencia de valores atípicos.

La varianza está expresada en unidades cuadráticas a las de los datos, mientras que las de la

desviación estándar son las mismas. Por ejemplo, si los datos están expresado en kilos, la

varianza estará expresada en kilos2 y la desviación estándar en kilos.

Si cada uno de los n valores xi es transformado en yi = a xi + b, siendo a y b constantes,

entonces, la varianza de los n valores yi es

222xy sdasd = , de donde xy sdasd =

Ejemplo 16 En una ciudad, se ha registrado el precio, en varias tiendas, de varillas de acero de 12 mm,

encontrándose un precio medio de 19,80 nuevos soles y una desviación estándar de 0,85 nuevos

soles. Si los precios se redujeran en un 5% en todas las tiendas, calcule el nuevo precio medio y la

nueva desviación estándar de los precios.

Coeficiente de variación

El coeficiente de variación (CV) de un conjunto de datos indica qué proporción de la media es la

desviación estándar.

La fórmula para el coeficiente de variación para una muestra es

x

sdCV x=

Es útil al comparar la variabilidad de dos o más series de datos que se miden en distintas o

iguales unidades, pero difieren a tal punto que una comparación directa de las respectivas

desviaciones estándar no es muy útil, por ejemplo, cuando las medias están muy distantes.

Ejemplo 17 En una tienda, el precio medio y la desviación estándar del precio de los jeans es de 74 y 15,4

nuevos soles, respectivamente. Si se rebaja 10 nuevos soles a todos los precios, calcule e

interprete el nuevo coeficiente de variación de los precios.

Page 12: 4. Medidas de Tendencia Central, De Dispersión y Asimetría

30

Ejemplo 18 El coeficiente de variación de los salarios un grupo de trabajadores es 0,12. Si se aprueba un

aumento del 20% más una bonificación especial de S/.115, el nuevo coeficiente de variación será

igual a 0,06. Determine el valor de la media y la varianza de los salarios de los obreros, antes y

después del aumento.

Ejemplo 19 El siguiente cuadro muestra la distribución de sueldos mensuales de los empleados de dos

empresas A y B en el mes de julio del 2011.

Empresas A y B. Sueldos mensuales en diciembre del 2011

Sueldos (en nuevos soles) Empleados de la empresa A Empleados de la empresa B

[2 500 – 3 500] 8 14

]3 500 – 4 500] 25 25

]4 500 – 5 500] 35 83

]5 500 – 6 500] 8 15

Fuente: Gerencias de Recursos Humanos Empresa A y B.

a. ¿Cuál de los grupos presenta mayor variabilidad de sueldos?

b. Si en la empresa A se aprueba un aumento de sueldo del 25%, mientras que en la B se da una

bonificación de 320 nuevos soles, ¿cuál de los grupos presenta mayor variabilidad de sueldos,

luego de los cambios?

Puntuación estandarizada Z

Indica a cuántas desviaciones estándar, por arriba o por debajo de la media, se encuentra un valor.

Permite comparar los resultados de un individuo en distintas pruebas en las que las

distribuciones de los resultados de los otros miembros de la población sean distintas.

Si los datos son xi, i = 1, 2,…, n, entonces los datos estandarizados son:

x

ii sd

xxz

−= i = 1, 2,…, n

Se tiene que 0=z y que 1=zsd

Ejemplo 20 Un conjunto de alumnos rindió dos exámenes. En el primer examen, la nota media fue 13,4 y la

desviación estándar de 2,3, mientras que en el segundo examen la nota media fue 15,4 y la

desviación estándar 4,3. Una persona obtuvo 14 en el primer examen y 16 en el segundo examen.

En términos de los resultados de los exámenes, ¿en cuál de ellos tuvo un mejor resultado?

Page 13: 4. Medidas de Tendencia Central, De Dispersión y Asimetría

31

1.7. Indicadores de asimetría

Mide si los datos aparecen ubicados simétricamente o no respecto a una medida de tendencia

central.

Distribución de frecuencias simétrica

Una distribución de frecuencias de k clases es simétrica, si se cumple que ,1 kff =

...,, 2312 −− == kk ffff

Coeficiente de asimetría de Pearson para datos agrupados o no agrupados

El coeficiente de asimetría para datos simples o agrupados se calcula con la siguiente fórmula:

−=xsd

QxAs 23

Si el coeficiente de asimetría (As) es

igual a cero, la distribución es simétrica alrededor de la media.

positivo, indica sesgo a la derecha (cola derecha).

negativo, indica sesgo a la izquierda (cola izquierda).

Ejemplo 21 El salario, en cientos de nuevos soles, de los trabajadores una empresa se presenta a continuación:

25 14 19 14 15 16 15 15 18 15 52 24 36 15 15 23 24

Calcule e interprete el coeficiente de asimetría de Pearson.

Page 14: 4. Medidas de Tendencia Central, De Dispersión y Asimetría

32

Ejemplo 22 El siguiente cuadro muestra la distribución del sueldo mensual de los empleados de dos empresas

A y B en julio del 2011.

Empresas A y B. Sueldos mensuales en julio del 2012

Sueldos (en nuevos soles) Empleados de la empresa A Empleados de la empresa B

[1 500 – 2 500] 2 1

]2 500 – 3 500] 40 6

]3 500 – 4 500] 12 25

]4 500 – 5 500] 3 6

]5 500 – 6 500] 1 1

Fuente: Gerencias de Recursos Humanos Empresas A y B.

Compare las distribuciones de los sueldos en A y B usando medidas de tendencia central,

dispersión y asimetría. Use un gráfico adecuado para comparar estas distribuciones.