4. medidas de tendencia central, de dispersión y asimetría
DESCRIPTION
tendcenTRANSCRIPT
19
1.5. Medidas de tendencia central
Las medidas de tendencia central se refieren al valor que representa a los datos de una
determinada variable.
Moda
La moda de un conjunto de datos observados de una variable es el valor que se presenta con
mayor frecuencia.
Características de la moda
La moda se puede calcular para datos medidos en cualquier escala de medición.
El valor de la moda no se ve afectado por valores extremos.
La moda no siempre es un valor único. Una serie de datos puede tener dos modas (bimodal) o
más modas (multimodal).
Moda de datos no agrupados
Agrupe los datos de acuerdo con sus frecuencias, el dato con mayor frecuencia es la moda.
Ejemplo 1 Calcule e interprete la moda de los siguientes datos, que representa el número de artículos
comprados por 14 clientes de cierto supermercado.
2 2 2 4 2 5 5 4 5 2 5 5 5 4
Calcule e interprete la moda de los siguientes datos, que representa el número de artículos
comprados por 14 clientes de cierto supermercado.
2 2 6 4 3 4 6 3 5 80 7 80 5 7
20
Ejemplo 2
En la empresa A, se midió el número de errores por día que cometieron 158 obreros al ensamblar
un determinado producto. Calcule e interprete la moda del número de errores por obrero.
Empresa A. Número de errores al ensamblar el producto
Número de errores Número de obreros
0 25
3 45
5 60
8 28
Fuente: Gerencia de Producción. Empresa A
Mediana
Es el percentil 50, también llamado segundo cuartil.
Características de la mediana
Se puede calcular para variables medidas en escala de ordinal, intervalo o razón.
La mediana es un estadístico que no se ve afectado por valores extremos. Por eso se le utiliza
cuando hay datos inusuales o el polígono de frecuencias no es muy simétrico.
Ejemplo 3 El tiempo, en horas, que se tarda un grupo de obreros, capacitados y no capacitados, en realizar
una tarea se muestra en la siguiente tabla.
Capacitados 4,5 4,3 2,7 8,2 8,3 6,4 5,4 3,4 2,7 5,6
No capacitados 8,3 7,4 8,5 8,5 9,0 8,4 18
Calcule e interprete la mediana del tiempo para cada grupo. Compare los valores hallados y
comente.
21
Ejemplo 4 En la empresa A se tomó una muestra aleatoria de trabajadores y se les preguntó por sus ingresos
mensuales, en dólares, obteniéndose los siguientes resultados.
Distribución de trabajadores por sus ingresos mensuales (en dólares)
Ingresos (en dólares) Marca de clase Número de trabajadores
[ ] 30
] 175 , 225 ] 200 45
] 225 , 275 ] 250 190
] 275 , 325 ] 300 140
] 275 , 325 ] 130
] 325 , 2600 ] 2500 25
Fuente: Gerencia de Recursos Humanos. Empresa A
Complete la tabla de distribución de frecuencias y calcule la mediana del ingreso. Interprete.
Media Aritmética
La media aritmética es el valor que se obtiene al dividir la suma total de los datos entre el número
de datos.
Características de la media
Se puede calcular para datos medidos en escala de intervalo o razón.
El cálculo de la media es sencillo y es la medida de tendencia central más conocida.
El valor de la media depende de todos los datos, por lo que la presencia de valores muy
grandes o muy pequeños con respecto a los demás pueden cambiar drásticamente su valor.
Si cada uno de los n valores xi es transformado en: yi = a xi + b, siendo a y b constantes,
entonces, la media de los n valores yi es:
y ax b= +
xnxn
ii =∑
=1
22
( ) 01
=−∑=
n
ii xx
Dados n datos x1, x2,…, xn, sea ( ) ( )∑=
−=n
ii cxcS
1
2, entonces ( )cS tiene mínimo absoluto
cuando c es igual a la media del conjunto de datos x .
Media aritmética para datos no agrupados
n
x
x
n
i
i∑== 1
Ejemplo 5 Calcule e interprete la media de los siguientes datos que representan el número de papeletas
pendientes de pago de cada uno de 11 choferes de vehículos de transporte público seleccionados
al azar.
12 13 25 20 17 19 15 14 28 5 4
Ejemplo 6 En la empresa A, se midió el número de errores que cometieron 158 obreros al ensamblar un
determinado producto. Calcule e interprete la media del número de errores por obrero.
Empresa A. Número de errores al ensamblar un producto
Número de errores Número de obreros
0 25
3 45
5 60
8 28
Fuente: Gerencia de Recursos Humanos. Empresa A
Media aritmética para datos en una distribución de frecuencias por intervalos
Dados n datos cuantitativos organizados en una distribución de frecuencias con k intervalos, con
marcas de clase mi, frecuencias absolutas ni y tales que ∑ ����� �
= �, entonces, el valor
aproximado de la media aritmética es:
∑∑
=
= ==k
i
ii
k
i
ii
fmn
nm
x
1
1
23
Ejemplo 7 En el distrito A se tomó una muestra aleatoria de jóvenes y se les preguntó por su estatura, en
centímetros, obteniéndose los siguientes resultados.
Distrito A. Estaturas de una muestra de 800 jóvenes
Estatura (en centímetros) Marca de
clase
Número de
jóvenes
Porcentaje
de jóvenes
Número
acumulado
de jóvenes
Porcentaje
acumulado
de jóvenes
[ 150 , ] 0,48
] , 166 ] 32%
] , ] 0,95
] , ] 800
Fuente: Gerencia de Desarrollo Humano. Municipalidad del distrito A
Complete la tabla de distribución de frecuencias. Calcule e interprete la estatura media y la
estatura mediana. Compare los valores hallados.
Media aritmética ponderada
Dados n datos x1, x2,…, xn con pesos w1, w2,…, wn la media aritmética ponderada de los datos es:
∑
∑
=
== n
ii
n
iiii
p
w
xwx
1
Si todos los pesos son iguales, entonces xx p =
Ejemplo 8
Calcule la nota final de un alumno del curso de Estadística de Estudios Generales Ciencias que
tiene las siguientes notas: práctica calificada 1 = 18, práctica calificada 2 = 10, práctica calificada 3
= 12, práctica calificada 4 = 15, examen parcial = 14 y examen final = 9. Los pesos del promedio de
prácticas, examen parcial y examen final son 3, 3 y 4, respectivamente. La práctica con menor nota
se anula.
24
1.6. Medidas de dispersión
Con las medidas de tendencia central es posible determinar el valor que representa a los datos
de un conjunto, pero no indica qué tan cercanos o lejanos están los datos de dicho valor
central.
Las medidas de variabilidad indican cuán alejados están los datos del valor que los representa.
Ejemplo 9 Calcule la media, mediana y moda de los siguientes grupos de datos:
Grupo 1
1 3 5 5 5 7 9
Grupo 2
-20 5 5 5 5 5 30
Grupo 3
5 5 5 5 5 5 5
¿Qué conclusión deduce de los cálculos?
Rango
El rango (alcance, amplitud o recorrido) de un conjunto de datos observados se define como:
R = valor máximo – valor mínimo
Características del rango
Se puede calcular en variables medidas en escala de intervalo y de razón.
Se ve afectado por valores extremos.
Solo depende del valor máximo y mínimo de los datos e ignora cómo están distribuidos los
demás.
El rango es la longitud del intervalo de variación de los datos.
25
Rango intercuartil
Es la diferencia entre el tercer y primer cuartil.
Rango intercuartil = RIC = Q3 – Q1= P75 – P25
Características del rango intercuartil
Se puede calcular en variables medidas en escala de intervalo y de razón.
No se ve afectado por valores extremos.
Diagrama de cajas
Es una gráfica que describe la distribución de un conjunto de datos tomando como referencia los
valores de los cuartiles como medidas de posición, la mediana como medida de tendencia central
y el valor del rango intercuartil como medida de dispersión. Además, permite apreciar la forma de
la distribución de los datos (simétrica o asimétrica).
Dato atípico
Es un dato inusualmente grande o pequeño con respecto a los otros datos. Se considera dato
atípico a cualquier valor que esté:
o a más de 1,5(RIC) por arriba (o a la derecha) del tercer cuartil
o a más de 1,5(RIC) por debajo (o a la izquierda) del primer cuartil
Pasos para trazar un diagrama de cajas
o Sobre un eje horizontal, se traza un rectángulo con los extremos en el primer cuartil (Q1) y
tercer cuartil (Q3).
o En la caja rectangular se traza un segmento vertical en el lugar de la mediana.
o Se determinan los límites para detección de datos atípicos:
- el límite superior está a 1,5(RIC) a la derecha de Q3
- el límite inferior está a 1,5(RIC) a la izquierda de Q1
o Se detectan los datos atípicos.
o Se trazan los bigotes desde los extremos de la caja hasta los datos mínimo y máximo dentro de
los límites inferior y superior.
o Se marcan con un asterisco (*) las localizaciones de los datos atípicos (datos fuera de los
límites superior e inferior).
26
La siguiente figura presenta un diagrama de cajas con datos hipotéticos.
Ejemplo 10 Se seleccionó una muestra de 45 viviendas y se registró el monto cobrado por la empresa
proveedora por consumo de luz en el último mes. Obtenga un diagrama de cajas para mostrar la
distribución de los montos cobrados.
10,7 45,0 59,8 65,7 87,4 97,1 98,1 98,8 99,2 99,5 99,6 99,7 102,4 106,3 107,3
108,2 108,7 109,2 109,3 109,9 111,4 112,1 112,6 112,9 115,0 115,4 116,4 116,5 119,1 119,2
119,6 120,4 120,6 121,5 122,1 122,7 124,0 124,5 124,9 125,1 125,2 127,1 128,1 129,0 200,8
Diagramas de caja comparativos
Una ventaja de los diagramas de cajas es que se pueden presentar varios juntos, ello permite la
fácil comparación visual de las características de varios conjuntos de datos.
Los diagramas de caja permiten comparar las distribuciones de los valores de una variable
cuantitativa en los diferentes niveles de otra variable cualitativa.
27
Ejemplo 11 Se desea comparar el resultado de la primera práctica de tres horarios de Estadística de EEGGCC,
para lo cual, se tienen los siguientes resultados.
H
1 0 2 3 4
1
1
1
1
1
2
1
2
1
2
1
2
1
2
1
2
1
2
1
3
1
3
1
3
1
4
1
4
1
5
1
5
1
5
1
5
1
5
1
5
2
0
2
0
H
2
1
1
1
2
1
2
1
2
1
3
1
3
1
4
1
4
1
4
1
4
1
4
1
4
1
5
1
5
1
6
1
6
1
6
1
6
1
6
1
7
1
7
1
8
1
8
1
8
1
8
H
3 0 0 1 3 3 4 5
1
0
1
1
1
1
1
2
1
2
1
3
1
3
1
3
1
4
1
5
1
5
1
6
1
6
1
6
1
7
1
7
1
7
Construya un diagrama de cajas que permita comparar las notas en los tres horarios.
Desviación absoluta
Dados n datos x1, x2,…, xn la desviación absoluta de los datos se define como:
n
xxAD
n
ii∑
=
−= 1..
La desviación absoluta es la media de los valores absolutos de las desviaciones a la media.
Se calcula para datos medidos en escala de intervalo o de razón.
Desviación estándar
Dados n datos x1, x2,…, xn la desviación estándar de los datos se define como:
( )
n
xxsd
n
ii
x
∑=
−= 1
2
La desviación estándar de los datos es la media cuadrática de las desviaciones a la media.
Es siempre mayor o igual a cero.
Se calcula para datos medidos en escala de intervalo o de razón.
Ejemplo 12
Las notas de cuatro alumnos son x1 = 6, x2 = 11, x3 = 15, x4 = 16.
Luego la media aritmética de las notas es .124
1615116 =+++=x
Las diferencias de cada valor con la media son d1 = 6 – 12 = -6, d2 = 11 - 12 = -1, d3 = 15 - 12 = 3, d4
= 16 - 12 = 4.
Luego, la desviación estándar es 937.34
43)1()6( 2222
=++−+−=xsd
28
Ejemplo 13 Calcule e interprete la media y la desviación estándar de los siguientes datos que representan el
número de personas atendidas por día en la caseta de información de un proyecto inmobiliario, en
una muestra de 15 días.
18 5 2 4 2 6 2 10 5 8 11 4 5 6 7
Ejemplo 14
Calcule la desviación estándar de los siguientes datos.
xi ni
20 3
85 48
120 26
150 45
Desviación estándar de datos organizados en una distribución de
frecuencias por intervalos
( )( )∑
∑
=
= −=−
=k
iii
k
iii
x xmfn
xmn
sd1
21
2
Ejemplo 15 Calcule la media y la desviación estándar de los siguientes datos.
Intervalos Marca de clase ni
[2,5 - 12,0] 9
- 75
56
- 8
4
29
Varianza
Dados n datos x1, x2,…, xn la varianza de los datos se define como ( )22xx sdsd =
Se cumple que
( )2
11
2
1
2
2
−=−
=∑∑∑
===
n
x
n
x
n
xxsd
n
ii
n
ii
n
ii
x
Propiedades de la varianza y la desviación estándar
La varianza y la desviación estándar son números no negativos.
Son sensibles a la existencia de valores atípicos.
La varianza está expresada en unidades cuadráticas a las de los datos, mientras que las de la
desviación estándar son las mismas. Por ejemplo, si los datos están expresado en kilos, la
varianza estará expresada en kilos2 y la desviación estándar en kilos.
Si cada uno de los n valores xi es transformado en yi = a xi + b, siendo a y b constantes,
entonces, la varianza de los n valores yi es
222xy sdasd = , de donde xy sdasd =
Ejemplo 16 En una ciudad, se ha registrado el precio, en varias tiendas, de varillas de acero de 12 mm,
encontrándose un precio medio de 19,80 nuevos soles y una desviación estándar de 0,85 nuevos
soles. Si los precios se redujeran en un 5% en todas las tiendas, calcule el nuevo precio medio y la
nueva desviación estándar de los precios.
Coeficiente de variación
El coeficiente de variación (CV) de un conjunto de datos indica qué proporción de la media es la
desviación estándar.
La fórmula para el coeficiente de variación para una muestra es
x
sdCV x=
Es útil al comparar la variabilidad de dos o más series de datos que se miden en distintas o
iguales unidades, pero difieren a tal punto que una comparación directa de las respectivas
desviaciones estándar no es muy útil, por ejemplo, cuando las medias están muy distantes.
Ejemplo 17 En una tienda, el precio medio y la desviación estándar del precio de los jeans es de 74 y 15,4
nuevos soles, respectivamente. Si se rebaja 10 nuevos soles a todos los precios, calcule e
interprete el nuevo coeficiente de variación de los precios.
30
Ejemplo 18 El coeficiente de variación de los salarios un grupo de trabajadores es 0,12. Si se aprueba un
aumento del 20% más una bonificación especial de S/.115, el nuevo coeficiente de variación será
igual a 0,06. Determine el valor de la media y la varianza de los salarios de los obreros, antes y
después del aumento.
Ejemplo 19 El siguiente cuadro muestra la distribución de sueldos mensuales de los empleados de dos
empresas A y B en el mes de julio del 2011.
Empresas A y B. Sueldos mensuales en diciembre del 2011
Sueldos (en nuevos soles) Empleados de la empresa A Empleados de la empresa B
[2 500 – 3 500] 8 14
]3 500 – 4 500] 25 25
]4 500 – 5 500] 35 83
]5 500 – 6 500] 8 15
Fuente: Gerencias de Recursos Humanos Empresa A y B.
a. ¿Cuál de los grupos presenta mayor variabilidad de sueldos?
b. Si en la empresa A se aprueba un aumento de sueldo del 25%, mientras que en la B se da una
bonificación de 320 nuevos soles, ¿cuál de los grupos presenta mayor variabilidad de sueldos,
luego de los cambios?
Puntuación estandarizada Z
Indica a cuántas desviaciones estándar, por arriba o por debajo de la media, se encuentra un valor.
Permite comparar los resultados de un individuo en distintas pruebas en las que las
distribuciones de los resultados de los otros miembros de la población sean distintas.
Si los datos son xi, i = 1, 2,…, n, entonces los datos estandarizados son:
x
ii sd
xxz
−= i = 1, 2,…, n
Se tiene que 0=z y que 1=zsd
Ejemplo 20 Un conjunto de alumnos rindió dos exámenes. En el primer examen, la nota media fue 13,4 y la
desviación estándar de 2,3, mientras que en el segundo examen la nota media fue 15,4 y la
desviación estándar 4,3. Una persona obtuvo 14 en el primer examen y 16 en el segundo examen.
En términos de los resultados de los exámenes, ¿en cuál de ellos tuvo un mejor resultado?
31
1.7. Indicadores de asimetría
Mide si los datos aparecen ubicados simétricamente o no respecto a una medida de tendencia
central.
Distribución de frecuencias simétrica
Una distribución de frecuencias de k clases es simétrica, si se cumple que ,1 kff =
...,, 2312 −− == kk ffff
Coeficiente de asimetría de Pearson para datos agrupados o no agrupados
El coeficiente de asimetría para datos simples o agrupados se calcula con la siguiente fórmula:
−=xsd
QxAs 23
Si el coeficiente de asimetría (As) es
igual a cero, la distribución es simétrica alrededor de la media.
positivo, indica sesgo a la derecha (cola derecha).
negativo, indica sesgo a la izquierda (cola izquierda).
Ejemplo 21 El salario, en cientos de nuevos soles, de los trabajadores una empresa se presenta a continuación:
25 14 19 14 15 16 15 15 18 15 52 24 36 15 15 23 24
Calcule e interprete el coeficiente de asimetría de Pearson.
32
Ejemplo 22 El siguiente cuadro muestra la distribución del sueldo mensual de los empleados de dos empresas
A y B en julio del 2011.
Empresas A y B. Sueldos mensuales en julio del 2012
Sueldos (en nuevos soles) Empleados de la empresa A Empleados de la empresa B
[1 500 – 2 500] 2 1
]2 500 – 3 500] 40 6
]3 500 – 4 500] 12 25
]4 500 – 5 500] 3 6
]5 500 – 6 500] 1 1
Fuente: Gerencias de Recursos Humanos Empresas A y B.
Compare las distribuciones de los sueldos en A y B usando medidas de tendencia central,
dispersión y asimetría. Use un gráfico adecuado para comparar estas distribuciones.