medidas resumen - estadística descriptiva...
TRANSCRIPT
CAPÍTULO 3 MEDIDAS RESUMEN
1
3
MEDIDAS RESUMEN
OBJETIVOS Al término de la unidad el alumno podrá: 3.1 Comprender las medidas como una herramienta más que describe los
datos obtenidos en una investigación social o de la vida diaria. 3.2 Comprender los significados de las diferentes medidas de tendencia
central. 3.3 Calcular las diferentes medidas de tendencia central para datos no
agrupados y agrupados. 3.4 Comprender los significados de las diferentes medidas de posición. 3.5 Calcular las medidas de posición para datos no agrupados y agrupados. 3.6 Comprender los significados de las diferentes medidas de dispersión en
valor absoluto y en valor relativo. 3.7 Calcular las diferentes medidas de dispersión para datos no agrupados y
agrupados. 3.8 Diferenciar variancia y desviación estándar, de una muestra y de una
población 3.9 Comprender el significado de la desviación estándar al ser aplicada la
regla empírica y el teorema de Chebyshev. 3.10 Entender el significado de sesgo y curtosis. 3.11 Calcular las medidas de forma para datos no agrupados y agrupados. 3.12 Entender las gráficas de caja- bigote y curva normal. 3.13 Construir las gráficas caja-bigote y curva normal como recursos para el
análisis del comportamiento de datos, basado en el cálculo de algunas medidas resumen.
3.14 Aplicará las medidas resumen identificando las que mejor se adecuen a situaciones particulares.
CAPÍTULO 3 MEDIDAS RESUMEN
2
3
MEDIDAS RESUMEN
3.1 Medidas resumen, 8 3.2 Medidas de tendencia central, 8
3.2.1 Media aritmética, 8 3.2.2 Media geométrica, 12 3.2.3 Media armónica, 14 3.2.4 Comparación teórica entre media aritmética, geométrica y
armónica, 17 3.2.5 Mediana, 17 3.2 6 Moda, 20 3.2.7 Comparación entre media, mediana y moda, 23 3.2.8 Rango medio, 24 3.2.9 Eje medio, 26 3.2.10 Cuadro resumen de las medidas de tendencia central, 27
3.3 Medidas de posición, 30
3.3.1 Cuantiles: cuartiles, deciles y percentiles, 30 3.4 Medidas de variabilidad, 37
3.4.1 Rango, 38 o Intercuartílico, 39
3.4.2 Desviación media, 41 3.4.3 Varianza, 45 3.4.4 Desviación estándar, 50 3.4.5 Interpretación de la desviación estándar, 53
o Regla empírica, 53 o Teorema de Chebyshev, 54
3.4.6 Coeficiente de variación, 55 3.4.7 Puntuaciones estandarizadas (puntuaciones z), 56 3.4.8 Cuadro resumen de las medidas de variabilidad, 57
CAPÍTULO 3 MEDIDAS RESUMEN
3
3.5 Medidas de forma, 60
3.5.1 Asimetría, 60 3.5.2 Curtosis, 60
3.6 Representaciones gráficas, 61 3.6.1 Caja-bigote, 61 3.6.2 Curva normal, 61 Resumen del capítulo, 62 Glosario, 64 Fórmulas, 65 Respuestas a Autoexámenes, 69 Bibliografía, 70
CAPÍTULO 3 MEDIDAS RESUMEN
4
Objetivo general: Identificar a las medidas descriptivas o medidas resumen como un recurso de análisis que concentran la información más relevante de un conjunto de datos.
Objetivos de aprendizaje del capítulo
Apartados del capítulo
3.1 Comprender las medidas como una herramienta más que describe los datos obtenidos en una investigación social o de la vida diaria.
3.2 Comprender los significados de
las diferentes medidas de tendencia central.
3.3 Calcular las diferentes medidas de tendencia central para datos no agrupados y agrupados.
3.4 Comprender los significados de
las diferentes medidas de posición.
3.5 Calcular las medidas de posición para datos no agrupados y agrupados.
3.6 Comprender los significados de
las diferentes medidas de dispersión en valor absoluto y en valor relativo.
3.7 Calcular las diferentes medidas de dispersión para datos no
3.1 Medidas resumen 3.2 Medidas de tendencia central
3.2.1 Media aritmética 3.2.2 Media Geométrica 3.2.3 Media Armónica 3.2.4 Comparación teórico entre
media aritmética, geométrica y armónica
3.2.5 Mediana 3.2 6 Moda 3.2.7 Comparación entre media,
mediana y moda 3.2.8 Rango medio 3.2.9 Eje medio 3.2.10 Cuadro resumen de
medidas de tendencia central
3.3 Medidas de posición
3.3.1 Cuantiles: cuartiles, deciles y percentiles
3.4 Medidas de dispersión
3.4.1 Rango
Intercuartílico
Interpercentílico 3.4.2 Desviación media 3.4.3 Varianza
CAPÍTULO 3 MEDIDAS RESUMEN
5
agrupados y agrupados. 3.8 Diferenciar variancia y desviación estándar, de una
muestra y de una población 3.9 Comprender el significado de la
desviación estándar al ser aplicada la regla empírica y el teorema de Chebyshev.
3.10 Entender el significado de
sesgo y curtosis. 3.11 Calcular las medidas de forma
para datos no agrupados y agrupados.
3.12 Entender las gráficas de caja-
bigote y curva normal. 3.13 Construirá los gráficos caja-
bigote y curva normal como recursos para el análisis del comportamiento de datos, basado en el cálculo de algunas medidas resumen.
3.14 Aplicará las medidas resumen
identificando las que mejor se adecuen a situaciones particulares.
3.4.4 Desviación estándar
3.4.5 Teorema de Chebyshef 3.4.6 Coeficiente de variación 3.4.7Puntuaciones
estandarizadas (puntuaciones z)
3.4.8Cuadro resumen de las medidas de variabilidad
3.5 Medidas de forma
3.5.1 Asimetría 3.5.2 Curtosis
3.6 Representaciones gráficas
3.6.1 Caja-bigote 3.6.2 Curva normal
CAPÍTULO 3 MEDIDAS RESUMEN
6
Pafnuti L. Vovich Chebyshef1
Nació el 4 de mayo de 1821 en la aldea rusa de Okatovo. De niño mostraba gran satisfacción inventando juguetes mecánicos. Su madre le dio sus primeras clases de lectura y escritura, y su prima las de Aritmética y Francés. En el año 1832 la familia Chebyshev se trasladó a Moscú para facilitar a sus hijos la preparación para los estudios superiores y la asistencia a la Universidad. A los 16 años se matriculó en la Facultad de Física y Matemáticas de la Universidad de Moscú y acabó la carrera en 1841 con un trabajo de ecuaciones algebraicas premiado con una medalla.
Sus años universitarios fueron de gran importancia para él, pues no sólo adquirió sólidos conocimientos sino que, al mismo tiempo, recibió de destacados profesores importantes impulsos y estímulos para su propio trabajo. En 1846, a los 25 años de edad, hizo su tesis de Magister y a los 29 años era ya catedrático de la Universidad de Petersburgo.
Desempeñó un importante papel como creador de la escuela matemática de Petersburgo. En sus clases, impartidas de modo cautivador, intercalaba a menudo observaciones históricas sobre cualquier problema matemático. Ayudaba a los estudiantes a superar muchas dificultades con valiosos consejos. Les proponía para el estudio personal problemas que prometían importantes e interesantes soluciones y evaluaba trabajos para oposiciones y tesis doctorales. Una vez a la semana recibía en su casa a todos los estudiantes y jóvenes científicos que buscaban consejo en cuestiones matemáticas.
Chebyshev poseía la rara habilidad de ofrecer a los jóvenes problemas atractivos y ricos en variantes, que siempre los entusiasmaban de nuevo por los estudios y por las Matemáticas. Algunos de sus discípulos han destacado y para muestra basta un botón; podemos citar a Markov cuyas famosas cadenas de Markov, del campo de probabilidades, han tenido aplicación en el estudio y la evolución de la propagación de cierto tipo de cáncer que seguían uno de los modelos de las llamadas cadenas de Markov.
Llevó una vida totalmente dedicada a la ciencia ya que permaneció soltero y murió inesperadamente el 26 de Noviembre de 1894. Es conocido por su trabajo en el área de la probabilidad y estadística. La desigualdad de Chebyshev se emplea para la demostración de la ley de los grandes números y el teorema de Bertrand-Chebyshev (1845-1850). Se considera a Chebyshev uno de los fundadores de la matemática rusa. Entre sus estudiantes estuvieron Dmitry Grave, Aleksandr Korkin, Aleksandr Lyapunov y Andrei Markov, conocidos y prolíficos matemáticos. De acuerdo al Mathematics Genealogy Project, Chebyshev tiene alrededor de 4.000 descendientes matemáticos.
1 www.mundofree.com/jesusgomez/CHEBYSHEV.htm
CAPÍTULO 3 MEDIDAS RESUMEN
7
3.1 MEDIDAS RESUMEN
Dentro del manejo de la información numérica, un análisis de datos no se limita a la presentación de ellos mediante gráficas y tablas, sino además comprende el cálculo, resumen y análisis de las características importantes de una muestra o una población. Como ya se mencionó anteriormente en el capítulo 1 a estas medidas descriptivas o medidas resumen se le llama estadísticos cuando se calculan a
partir de una muestra ( ˆ ) y parámetros ( ) cuando se generan a partir de una población.
De forma general, las medidas resumen descriptivas se dividen en:
Centralización o tendencia central. Se refiere a los valores centrales respecto a los que la mayoría de los datos tienden a agruparse.
Posición. Dividen un conjunto ordenado de datos en subconjuntos iguales que contiene la misma cantidad de datos.
Dispersión. Indican la mayor o menor concentración de datos con respecto a las medidas de centralización.
Forma. Implica dos características que tiene relación con la simetría y el apuntamiento o curtosis que presenta la distribución de los datos.
Estas medidas resumen pueden ser calculadas tanto para datos no agrupados como agrupados, es decir, pueden generarse a partir de los datos sin procesar o también calcularse a partir de datos resumidos en una tabla de frecuencias.
3.2 MEDIDAS DE TENDENCIA CENTRAL En el capítulo anterior, se mencionó que la presentación gráfica de los datos proporciona una descripción general de los datos en cuanto a su comportamiento, sin embargo, ésta no permite un tratamiento estadístico de los mismos, para ello se utilizan algunas otras medidas denominadas de tendencia central en las que se puede observar cómo se agrupan la mayoría de los datos alrededor de un valor central. 3.2.1 MEDIA ARITMÉTICA
La media aritmética, es un valor central que se obtiene al calcular el promedio aritmético
de un conjunto de datos, se denota como x (“x” barra) si se obtuvo de una muestra y (letra griega mu) si la medida se obtiene de la población. El cálculo de la media se realiza con ayuda de las siguientes fórmulas:
Poblacional Muestral
CAPÍTULO 3 MEDIDAS RESUMEN
8
donde: x = Media muestral
= Media poblacional N = Número de elementos en la población n = Número de elementos en la muestra fi= Frecuencia de la clase o del intervalo i xi =Marca de clase del intervalo i
N
i
ii xf1
)*( Suma de todos los productos fi*xi
En la carrera de Relaciones Internacionales de la Universidad Hispanoamericana se obtuvo una muestra de 33 alumnos del grupo 2001, de los que se registró la edad en la tabla que se presenta a continuación.
a. Calcula el promedio aritmético para las edades del grupo
Para el cálculo de la media, es preciso notar que debido a que los datos no están agrupados y se generaron a partir de una muestra, por lo tanto la fórmula a utilizar es la siguiente:
n
x
x
n
i
i
1
18 19 18 17 19 20 17 18 18 19 20 22 19 19 18 17 18 19 19 18 17 17 17 18 19 19 18 19 20 19 18 18 21
Datos no agrupados
N
xN
i
i
1 (3.1) n
x
x
n
i
i
1 (3.2)
donde:
= Media poblacional N = Número de elementos en la población x = Media muestral n = Número de elementos en la muestra
i
N
i
x1
Suma de todos los datos
Datos agrupados
N
xfN
i
ii
1
)(
(3.3) n
xf
x
n
i
ii
1
)(
(3.4)
EJEMPLO 3.1
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
9
x = 18+19+18+17+…+19+18+18+21=612/33=18.54
El número de cheques que se cobran en el Banco Santander durante el mes de abril fueron:
Clase f
0-199 10
200-399 13
400-599 17
600-799 42
800-999 18
a. Calcula la media aritmética del monto de los cheques que cobra el banco al mes
Como los datos son totales, respecto al registro mensual, se asume que son poblacionales y debido a que se presentan de forma agrupada ya que están resumidos en la tabla de frecuencias, por lo que se debe utilizar la fórmula (3.3):
N
xfN
i
ii
1
)(
Clase f pm f *xi
0-199 10 99.5 995
200-399 13 299.5 3893.5
400-599 17 499.5 8491.5
600-799 42 699.5 29379
800-999 18 899.5 16191
Total 100 Total 58950
El cálculo de la media se realiza a partir de la suma de cada una de las frecuencias multiplicadas por la marca de clase y dividido entre el número total de datos. Para este caso el cálculo es el siguiente:
50.589100
16191293795.84915.3893995
EJEMPLO 3.2
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
10
Observa que, tanto para datos agrupados como para no agrupados, la esencia del cálculo es la misma, ya que se refiere a la suma de los datos divididos entre el total de los mismos.
Una de las ventajas de la media es que es un concepto que resulta claro, además de ser la medida de tendencia central más utilizada, por otra parte, para cada conjunto de datos existe una y sólo una media. Otra ventaja es que permite realizar comparaciones entre dos o más grupos de datos.
Dentro de las desventajas que presenta la media, la primera es que, aún cuando el cálculo de la media toma en cuenta cada uno de los valores, ésta es afectada por la presencia de valores extremos, para evitar esto será necesario eliminar los casos atípicos.
Por otra parte, si se cuenta con muchos datos, el cálculo de la media para datos no agrupados es tedioso, por lo que se recomienda llevarlo a cabo a partir de una tabla de frecuencias, y por último, si el cálculo de la media se realiza para datos agrupados a partir de una tabla de frecuencias con intervalos abiertos, el cálculo de la media resulta imposible.
Autoexamen 3.1
Las respuestas se encuentran al final del capítulo.
1. En una oficina del sector público que se localiza en un centro comercial, donde se atienden quejas relacionadas con el servicio telefónico desarrolló un proceso para atender a sus clientes durante una hora pico. Se registró el tiempo de espera en minutos de una muestra de 15 clientes desde el momento de su llegada hasta el momento en que los atendieron.
4.21 5.55 3.02 5.13 4.77 2.34 3.54 3.20 4.50 6.10 5.38 5.12 6.46 6.19 3.79
a. Calcula la para el tiempo de espera de los clientes desde el momento en que llegan hasta que son atendidos.
2. La edad de los residentes de la Casa Hogar La Luz tiene la siguiente distribución:
Clase Frecuencia 47-51.9 4 52-56.9 9 57-61.9 13 62-66.9 42 67-71.9 39
CAPÍTULO 3 MEDIDAS RESUMEN
11
72-76.9 20 77-81.9 9
a. Calcula la media aritmética de edad de los residentes de este lugar.
3.2.2 MEDIA GEOMÉTRICA
En ocasiones es necesario conocer la tasa promedio de variación que presenta un grupo de datos que cambian cada cierto periodo. La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc. Donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. La media geométrica de una cantidad finita de n números es la raíz n-ésima del producto de todos los números y se denota como M.G.
n valoreslostodosdeproductoGM.
nnxxxxGM ))...()()((. 321 (3.5)
Sólo es relevante la media geométrica si todos los números son positivos, si uno de ellos es 0, entonces el resultado es 0. Si existe un número negativo impar, entonces la media geométrica es negativa o bien inexistente en los números reales.
Las siguientes son las cifras de las Green Cards otorgadas por el gobierno de Estados Unidos de América a mexicanos durante el periodo 2001-2005.
2001 2002 2003 2004 2005
14,310 15,600 15,741 15,965 17,630
a. Calcula el promedio aritmético de Green Cards otorgadas durante estos cinco años
Para el cálculo de la media geométrica, es preciso notar que debido a que los datos no están agrupados y se generaron a partir de una muestra, por lo tanto la fórmula a utilizar es la siguiente:
n
nxxxxGM ))...()()((. 321
15,814.07 17630*15965*15741*15600*14310. 5GM
EJEMPLO 3.3
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
12
Cuando las observaciones estan agrupadas en clases y se tienen valores numéricos grandes, no es conveniente utilizar la fórmula siguiente:
n fn
n
fffxxxxGM ))...()()((.
3
3
2
2
1
1
Es mejor la expresión matemática que involucra a los logartmos en base 10, ya que los valores que se encuentran son pequeños y por lo tanto fáciles de manejar:
xfn
antiGn
i
i log1
log1
(3.6)
Es conveniente mencionar que, dependiendo del tipo de datos que se estén analizando, será conveniente utilizar la media aritmética o la media geométrica.
Una de las ventajas que presenta la media geométrica es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información. Sin embargo, presenta el inconveniente de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad.
Autoexamen 3.2
Las respuestas se encuentran al final del capítulo.
1. Una fábrica de telas ha elevado el costo de tul en un periodo que abarca los últimos cinco años en los siguientes porcentajes.
1989 1990 1991 1992 1993
5% 10.5% 9.0% 6.0% 7.5%
a. Calcula la media geométrica para este periodo 2. Un sociólogo ha estudiado el número de procesados asignados al
Reclusorio Norte. Los datos están expresados en términos de aumento porcentual en el número de presos (un número negativo indica una disminución porcentual).
CAPÍTULO 3 MEDIDAS RESUMEN
13
1988 1989 1990 1991 1992 1993
-4% 5% 10% 3% 6% -5%
a. Calcule el aumento porcentual promedio de 1988 a 1993
Consejo:
El término promedio en algunas ocasiones se utiliza para señalar cualquier medida de tendencia central y, en forma particular para identificar a la media. Por esta ambigüedad, es conveniente no usar el término cuando se alude a una medida de tendencia central específica. En su lugar, se deberá señalar el término concreto, tal como media, mediana, moda, rango medio y eje medio. Cuando en algún medio de comunicación se reporte un valor como promedio, se prestará a entenderse que el valor puede ser el resultado de cualquiera de las distintas definiciones.
3.2.3 MEDIA ARMÓNICA
La media armónica, aunque no es utilizada tan frecuentemente como la media aritmética, se aplica cuando se requiere promediar razones. La razón usualmente indica la relación entre dos tipos diferentes de unidades, por lo que para estos casos es conveniente la aplicación de la media armónica cuando se trata de promediar valores que son expresados en diferentes unidades. Por ejemplo, si una persona caminó 10 millas en dos horas, esta razón puede ser expresada de la siguiente forma:
51
5
2
10
horas
millas
horas
millas millas por hora
5
1
10
2
millas
horas horas por milla
La media armónica de una cantidad finita de números es igual al recíproco, o inverso, de la media aritmética de los recíprocos de dichos números y se representa por H. Así, dados los números x1, x2, ..,xn, la media armónica será igual a:
CAPÍTULO 3 MEDIDAS RESUMEN
14
Tres autos recorren en una competencia 100000 kilómetros. Sus recorridos están dados en la siguiente tabla:
Auto Km por hora
A 90
B 80
C 100
a. Calcula el promedio del recorrido de los tres autos
Para el cálculo de la media armónica, lo primero que se tiene que calcular es el recíproco o la razón de cada competidor.
Auto Km por hora
A 1/90
B 1/80
C 1/100
En seguida se calcula la media armónica
Datos no agrupados )1
...1
(1
1 ni
n
i ixx
n
x
nH
(3.7)
donde:
H = Media armónica 1/xi= Recíproco del valor xi n = Número de elementos en la muestra
ix Suma de todos los recíprocos de cada dato xi
Datos agrupados )1
*(1
n
i i
ix
f
nH
(3.8)
donde: xi= Marca de clase del intervalo fi= Frecuencia del intervalo i n= Suma de las frecuencias absolutas
EJEMPLO 3.4
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
15
2400003
720000
3
100
1
80
1
90
1
H kilómetros por hora
La media armónica resulta poco influida por la existencia de valores extremos altos con relación al conjunto, siendo en cambio más sensible a valores extremos pequeños. La media armónica no está definida en el caso de la existencia en el conjunto de valores nulos o ceros. Esta medida se utiliza comúnmente para promediar velocidades, tiempos, rendimiento, etc.
A continuación se presenta el número de reportes que se reciben en el departamento de soporte técnico de la compañía EDS tomadas de una muestra de 10 días.
Para el cálculo de la media armónica para datos agrupados se requiere calcular
8
2
6
4
4
3
2
1
10
8
12
6
14
4
13
2
11
10H
561.452
240
24
52
10
24
616182
10H
clases f
1-3 1
3-5 3
5-7 4
7-9 2
clases Marca de clase f
1-3 2 1
3-5 4 3
5-7 6 4
7-9 8 2
SOLUCIÓN
EJEMPLO 3.5
CAPÍTULO 3 MEDIDAS RESUMEN
16
Por lo tanto, el promedio de reportes que se esperan por día es 5.
3.2.4 COMPARACIÓN TEÓRICA ENTRE MEDIA ARITMÉTICA, GEOMÉTRICA Y
ARMÓNICA Entre la media aritmética, la media geométrica y media armónica se da siempre la siguiente relación:
XGH
3.2.5. MEDIANA
La mediana de un conjunto finito de valores es el valor que divide al conjunto en dos partes iguales, de forma que el número de valores mayor o igual a la mediana es igual al número de valores menores o igual a estos. Su aplicación se ve limitada ya que solo considera el orden jerárquico de los datos y no las propiedades de los
datos, como sucede en el caso de la media. La mediana se denota por eM o x~ .
Para el cálculo de la mediana lo primero que se requiere es ordenar los datos en forma ascendente o descendente (cualquiera de los dos criterios conducen al mismo resultado), después se aplica la fórmula siguiente según sea el caso.
Para el caso de datos no agrupados en el que el número de valores es impar, el valor central es único, pero cuando el número de valores en el conjunto es par, no existe un solo valor medio, existen dos valores medios y por lo tanto, la mediana es el promedio de los mismos.
Par Impar
Datos no agrupados )
2
1(:n
M e
(3.9)
n=Número de elementos del arreglo
CAPÍTULO 3 MEDIDAS RESUMEN
17
Datos agrupados i
f
fn
LMemediana
iacum
i *2)1(
(3.10)
donde:
Li = Limite real inferior donde se encuentra la clase mediana
Clase mediana se ubica al encontrar 2n
en la frecuencia acumulada de la distribución n = Número de observaciones o frecuencia total.
1iacumf = frecuencia acumulada anterior a la clase mediana.
medianaf= Frecuencia absoluta de la clase mediana
i = Ancho de la clase en la que se encuentra la clase mediana
Algunas ventajas de la mediana es que al igual que la media es que es un valor único, es sencilla en su cálculo y como es un valor medio respecto a la ubicación, los valores extremos no tienen efectos importantes sobre el cálculo de la misma, situación que si ocurre con la media.
Dados los tiempos de ensamble de un juguete “x” en el área de electrónicos. A partir de los tiempos registrados para siete trabajadores diferentes. Calcule la mediana para este conjunto de datos.
Como primer paso se debe ordenar el arreglo anterior
Juguete 1 2 3 4 5 6 7
Tiempo 4.2 4.3 4.7 4.8 5.0 5.1 9.0
Una vez ordenado el arreglo, se observa que el número de datos es impar
42
17
2
1nM e
Juguete 1 2 3 4 5 6 7
Tiempo 9.0 4.3 4.7 4.2 5.1 5.0 4.8
EJEMPLO 3.6
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
18
Por lo que el valor de la mediana es aquel que se ubica en la cuarta posición contando de derecha a izquierda o viceversa. Para este caso el valor de la 8.4~x
En el Hospital General, se registraron las edades de las atenciones médicas brindadas por el hospital. Calcula la mediana para los siguientes datos.
Tabla de frecuencias de edad según el número de atenciones en un fin de semana
Intervalos
Marca de clase
ix
if acumuladaf
[10-20) 15 8 8
[20-30) 25 20 28
[30-40) 35 14 42
[40-50) 45 8 50
[50-60) 55 2 52
[60-70) 65 2 54
[70-80) 75 1 55
55
Para calcular la mediana, lo primero que se tiene que ubicar es la clase mediana. Dado que n = 55 la clase mediana se
ubica según 5.262/n , por lo tanto donde se ubica la clase mediana es el intervalo que corresponde a [20-30). Ahora es necesario determinar lo siguiente:
20iL
8)1(iacumf
20medianaf 10i
Sustituyendo en la ecuación tendremos:
if
fn
LMemediana
iacum
i *2)1(
EJEMPLO 3.7
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
19
75.2910*20
82
55
20Me
Por lo tanto se concluye que el 50% de las personas atendidas en un fin de semana por el hospital tienen una edad inferior a los 20.926 años.
3.2.6 MODA
La moda de un conjunto de datos, que suele representarse por Mo; es el valor que ocurre con mayor frecuencia, es decir, es el dato que se presenta en más ocasiones.
Cuando ningún valor se repite, se dice que no existe moda. Cuando dos valores ocurren con la misma frecuencia y ésta es la más alta,
ambos valores son moda, por lo que se dice que el conjunto de datos es bimodal.
Cuando más de dos valores ocurren con la misma frecuencia y ésta es la más alta, todos los valores son moda, por lo tanto el conjunto de datos es multimodal.
Lo anterior se puede visualizar en forma gráfica en la siguiente figura:
Datos no agrupados Valor o valores con frecuencia mayor
Datos agrupados i
dd
dLMo Mo *
21
1
(3.11)
Sin moda
CAPÍTULO 3 MEDIDAS RESUMEN
20
donde:
LMo = Límite real inferior de la clase modal
Clase modal= Ubicación de la clase donde la frecuencia sea mayor
d1 = Frecuencia de la clase modal menos la frecuencia que se encuentra por debajo de ella.
d2 = Frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente por encima de ella
i = Ancho de la clase o intervalo de la clase modal
Se tomaron los tiempos de ensamble de un juguete “x” en el área de electrónicos durante tres días seguidos, tiempos que se registraron en la siguiente tabla. Calcule la moda para el los días 1, 2 y 3.
Al observar el conjunto de datos y la definición del concepto moda, se puede concluir que para estos datos tomados durante tres días seguidos, se tiene que:
a) En el día 1 no existe moda b) Para el día 2, la moda es el tiempo 5.1 y a este caso se
le denomina unimodal c) El día 3 presenta tres valores que se repiten dos veces
cada uno de ellos, los cuales son 5.1, 5.0 y 4.8. Por lo que a este caso se le denomina multimodal.
Día 1
Juguete 1 2 3 4 5 6 7
Tiempo 9.0 4.3 4.7 4.2 5.1 5.0 4.8
Día 2
Juguete 1 2 3 4 5 6 7
Tiempo 5.1 4.3 5.1 4.2 5.1 5.0 4.8
Día 3
Juguete 1 2 3 4 5 6 7
Tiempo 4.8 5.0 4.7 4.7 5.1 5.0 4.8
EJEMPLO 3.6
SOLUCIÓN
EJEMPLO 3.8
CAPÍTULO 3 MEDIDAS RESUMEN
21
Cuando se trata de datos agrupados, el cálculo de la moda se lleva a cabo mediante la fórmula 3.10. Retomando el ejemplo del Hospital General durante un fin de semana. La clase modal se ubica en la clase donde se encuentre la mayor frecuencia, para este caso es [20-30), por lo tanto:
Tabla de frecuencias de edad según el número de atenciones en un fin de semana
Intervalos
Marca de clase
ix
if
[10-20) 15 8
[20-30) 25 20
[30-40) 35 14
[40-50) 45 8
[50-60) 55 2
[60-70) 65 2
[70-80) 75 1
55
20MoL 128201d 614202d 10i
66.2666.62010*)666(.2010*612
1220Mo
La moda, por ser una medida de posición central, tiene la ventaja de que es adecuada tanto para datos cualitativos como cuantitativos, no se ve afectada por valores extremos y se puede utilizar aún cuando una o más clases sean de extremo abierto2. 2 Los intervalos se clasifican según sus características en:
EJEMPLO 3.9
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
22
Es importante señalar que la moda también puede obtenerse no solo para datos numéricos sino también en datos categóricos. Observe la siguiente tabla.
Resultados de la votación para Presidente de los EUM por entidad Federativa
AGUASCALIENTES Para el caso de datos categóricos el concepto de la moda sigue siendo semejante que para datos de tipo numéricos, observe que para este ejemplo la moda corresponde al Partido de Acción Nacional (PAN) que tiene la frecuencia más alta en votos. 3.2.7. COM PARACIÓN ENTRE MEDIA, MEDIANA Y MODA Las distribuciones presentan una característica denominada sesgo, el sesgo habla de la agrupación del conjunto de datos o una mayor concentración hacia la
o Acotados [a,b] [a, b) (a,b] (a,b)
o No acotados (- , a] (- , a) [a, ) (a, )
A su vez se denominan cerrados o abiertos según entren o no los extremos. Así por ejemplo:
o [2,3] es cerrado o (3,6] es abierto a la izquierda y cerrado a la derecha o (4, 5) abierto o [7,9) es cerrado a la izquierda y abierto a la derecha
Partido No. de votantes
PAN 193588
PRD 89920
PRI
97513
ALTERNATIVA 1275
ALIANZA
5597
CAPÍTULO 3 MEDIDAS RESUMEN
23
izquierda si es un sesgo positivo o hacia la derecha si es un sesgo negativo. Es importante mencionar que cuando en un conjunto de datos la media=mediana=moda se hace referencia a una distribución simétrica, lo que gráficamente significaría que:
En una distribución sesgada a la derecha (positiva). Para determinar el valor de la moda, primero se ubica el punto más alto de la curva (x,y) y el valor de la moda es el que toma la abscisa (x); la mediana se encuentra a la derecha de la moda y la media se presenta a la derecha de la mediana.
En una distribución sesgada a la izquierda (negativa), el valor de la moda es el que toma la abscisa (x), pero el valor de la mediana se encuentra a la izquierda y la media se encuentra con un valor por debajo de la mediana.
3.2.8 RANGO MEDIO
= = x~x x̂
x̂
x
x~(x,y)
x~x̂
x
(x,y)
CAPÍTULO 3 MEDIDAS RESUMEN
24
El rango medio es una medida de tendencia central que permite ubicar el centro a partir de los valores extremos, también es llamado alcance.
Datos no agrupados
Datos agrupados3 2
MenorMayor DDRangomedio
(3.12)
Seguros Atlas registra la edad de sus asegurados para el llevar a cabo el cálculo de las primas
El rango medio se utiliza generalmente en análisis de tipo financiero, meteorológicos porque es una medida resumen sencilla, rápida y adecuada que caracteriza a todo un conjunto de datos. La desventaja de esta medida es que cuando se utiliza en datos como acciones al cierre o lecturas de temperaturas o cualquier conjunto que no contenga datos extremos. Por lo que hay que tener mucho cuidado al utilizar el rango medio, ya que como sólo toma en cuenta dos valores. Así, cuando existe un valor atípico no es muy conveniente utilizar el rango medio.
Autoexamen 3.2
Las respuestas se encuentran al final del capítulo.
De acuerdo con el siguiente conjunto de datos que se registraron como minutos de espera para la evaluación de una cajera en una sucursal bancaria fueron de 7,4,9,7,3,10, 4, 3, 5
a. Calcula el rango medio del conjunto de datos. b. Explica si resulta recomendable utilizar para este conjunto de
3
Para datos agrupados se toma el Li de la primera clase y el Ls de la última clase como dato menor y mayor respectivamente
EJEMPLO 3.10
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
25
datos el rango medio como resumen.
3.2.9 EJE MEDIO
El eje medio es una medida resumen que se utiliza para superar posibles problemas que introducen los valores extremos de los datos, ya que utiliza para su cálculo los cuarteles, que son medidas de posición “no central” que se utilizan para resumir grandes cantidades de datos.
Datos no agrupados 2
31 QQEjemedio
(3.13)
donde:
Q1= primer cuartil
Q3= tercer cuartil
Debido a que los cuartiles son denominadas medidas de posición o ubicación, el cálculo de las mismas se verá a fondo en la siguiente sección. A continuación se presenta un cuadro resumen de las medidas de tendencia central más importantes y algunas de sus propiedades.
CAPÍTULO 3 MEDIDAS RESUMEN
26
CAPÍTULO 3 MEDIDAS RESUMEN
27
3.2.10 CUADRO RESUMEN DE LAS MEDIDAS DE TENDENCIA CENTRAL
Tabla 3.1 Comparación de las medidas de tendencia central Medias de tendencia
central
Definición REPRESEN-TACIÓN
SIMBÓLICA
¿Qué tan común
es?
Existencia ¿Toma en
cuenta cada
valor?
¿Se ve afectada por los valores extremos?
V: Ventajas y D: Desventajas
Media Es el promedio aritmético de un conjunto de datos y se obtiene al sumar todos los números y dividirlos entre el total de ellos
Muestral
( X )
La más común
Siempre existe
Sí Sí V: Es un concepto familiar para la mayor parte de la gente, se calcula en forma rápida y es aplicable en muchos procedimientos estadísticos D: Es inadecuada si se presenta una clase de extremo abierto en la parte inferior o superior de la escala, en el caso de datos agrupados
Poblacio-
nal ( )
Mediana Es el valor medio o el promedio aritmético de los valores medios de un conjunto ordenado de números
Md De uso común
Siempre existe
No No V: Puede calcularse para una distribución de clase abierta, si la mediana no se encuentra en dicha clase; se puede obtener para datos de nivel ordinal, de intervalo y de razón. Es una buena alternativa si hay algunos valores extremos. D: Se sacrifica exactitud al elegir un valor o un promedio aritmético de un par de valores, para representar una distribución.
Moda Es el valor que se presenta con más frecuencia en un
MO Menos común, pero, bajo
Podría no existir; podría
No No V: Ampliamente útil para datos en nivel de medición nominal y ordinal; se puede determinar para
CAPÍTULO 3 MEDIDAS RESUMEN
28
conjunto de datos ciertas circuns-tancias, puede tener un valor singular.
haber más de una
cualquiera de los niveles de medición. Los valores extremos no la afectan en forma indebida y se pude obtener aun cuando se tenga una o más clases de extremo abierto. D: Es difícil de interpretarla y compararla cuando se tiene una distribución de frecuencias multimodal. En muchos de los conjuntos de datos no existe o cada valor es una moda. No es aprovechable para posteriores procedimientos estadísticos.
Media geométrica
Es la e-nésima raíz del producto de n valores positivos
G o MG Es común su empleo en las áreas de negocios y de economía
Siempre existe
Sí Sí V: Para su cálculo no se requiere la ordenación de los valores como para la obtención de otros valores medios. Su empleo cuando los datos se refieren a medidas de variaciones acumulativas o su aplicación en temas de correlación y números índices. D: No puede obtenerse por una simple ojeada de los datos; su valor no se calcula de manera tan sencilla como ocurre con la media. No puede usarse cuando en un conjunto de datos, uno de ellos es cero o negativo
Media armónica
Es el inverso de la media aritmética de los inversos de los n números
H De uso limitado
Siempre existe
Sí No V: Su empleo para promediar variables tales como productividades, velocidades, tiempos, rendimientos, tipos de
CAPÍTULO 3 MEDIDAS RESUMEN
29
cambio. D: No es aconsejable en distribuciones de variables con valores pequeños y ningún valor puede ser cero, en virtud de que 1/0 esta indeterminado
Rango medio
Valor que está a la mitad, entre el valor más grande y el más bajo
RM Es común su empleo en las áreas de finanzas y de meteorología
Siempre existe
No Sí V: La manera sencilla de obtenerse. D: Si en el conjunto de datos se presenta un valor extremo, el rango medio no es apropiado.
Eje medio Es la suma del primer cuartil con el tercer cuartil dividida entre dos
EM De uso limitado
Siempre existe
No No V: No se ve afectado por valores extremos muy pequeños o muy grandes. D: Medida de tendencia central poco conocida y utilizada.
Comentarios generales: En una colección de datos aproximadamente simétrica (Una distribución es simétrica si la mitad izquierda de su histograma es
aproximadamente una imagen en espejo de su mitad derecha) todos los promedios tienden a ser iguales. En una colección de datos simétrica es conveniente trabajar con la media y la mediana. No existen criterios objetivos para determinar la medida de tendencia central más representativa para todos los conjuntos de datos. Cada
una de ellas ofrecen ventajas y desventajas, como anteriormente se han señalado. Deberá recordarse que en una investigación social se obtiene primero una distribución de frecuencias y después se calcula para cada
variable la medida de tendencia central más adecuada, de acuerdo a los propósitos de la investigación y los niveles de medición. La media aritmética se utiliza mucho y por lo general es lo que los investigadores citan cuando usan la palabra media.
CAPÍTULO 3 MEDIDAS RESUMEN
30
3.3 MEDIDAS DE POSICIÓN 3.3.1 CUANTILES: CUARTILES, DECILES Y PERCENTILES Las medidas de posición “no central” también llamadas cuantiles (o fractiles) deben su nombre al número de partes en las que dividen a un conjunto de datos y se emplean como medidas resumen cuando se tienen grandes cantidades de datos numéricos, lo que significa que para cada intervalo existe el mismo número de valores. Cuando la distribución contiene un número alto de intervalos y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, en diez o en cien partes, así son denominados cuartiles, deciles y percentiles según corresponda. Parecido a la mediana que divide un conjunto de datos exactamente por la mitad (el 50% de las observaciones) los cuartiles dividen el total de las observaciones en varios segmentos que corresponden a:
Q1:contiene el 25% de los datos
Q2:contiene el 50% del conjunto de datos
Q3:contiene el 75% del total de las observaciones La representación gráfica sería la siguiente: Otros cuantiles utilizados son los deciles que dividen al conjunto de datos en diez y los percentiles que lo dividen en cien partes iguales. Como se puede observar, los cuartiles dividen el total de datos en cuatro partes iguales y de acuerdo a la definición de la mediana, este valor corresponde también al del segundo cuartill o Q2.
Si se tienen una serie de valores X1, X2, X3 ... Xn entonces:
Datos no agrupados 4
)1(:1
nQ
Valor mínimo Valor máximo
Q2
Q1 Q3
25%
100%
50%
75%
CAPÍTULO 3 MEDIDAS RESUMEN
31
(3.14)
4
)1(3:3
nQ
(3.15)
donde:
Q1= primer cuartil
Q2= mediana=segundo cuartil
Q3= tercer cuartil
Las siguientes son las edades de una muestra de estudiantes tomada entre los asistentes a un curso en la compañía SPSS México. Calcule los cuartiles Q1, Q2 y Q3 para el conjunto de datos.
19 17 15 20 23 41 33 21 18 20 18 33 32 29 24 19 18 20 17 22 55 19 22 25 28 30 44 19 20 39
Para calcular el Q1, Q2 y Q3 es necesario ordenar los datos, recordemos que por ser un concepto similar al de la mediana, lo que se está calculando es la posición que divide al conjunto de datos en cuatro partes iguales. A continuación se presenta el arreglo de datos ordenados.
15 17 17 18 18 18 19 19 19 19 20 20 20 20 21 22 22 23 24 25 28 29 30 32 33 33 39 41 44 55
Para ello se utiliza la fórmula
4
)1(1
nQ 875.7
4
31
4
)130(1Q
Observe que el valor que corresponde a la posición 8 es el 19,
el valor Q1=19. La obtención del cuartil Q2 se obtiene a partir de
EJEMPLO 3.11
SOLUCIÓN
Q1
Q3 Q2
CAPÍTULO 3 MEDIDAS RESUMEN
32
la fórmula para la mediana de datos pares, es decir, se calcula
el promedio de los dos valores centrales 21 y 22, por lo tanto:
5.212
22212 eMQ
El valor que divide al conjunto de datos en 50% por ciento es el
21.5. Para el cuartil Q3 se utiliza la siguiente fórmula:
2325.234
93
4
)130(3
4
)1(33
nQ
Gráficamente se puede observar lo siguiente:
Recuerda que o una tabla de frecuencias, los cuartiles se localizan mediante las siguientes fórmulas, cabe aclarar que la fórmula indica la posición del valor en el que se dividen los datos. :
Datos no agrupados
4
)1(1
nQ
4
)1(33
nQ
Valor mínimo
15
Valor máximo
55
Q2=21.5
Q1=19 Q3=30
25%
50%
75%
100%
CAPÍTULO 3 MEDIDAS RESUMEN
33
(3.15)
donde:
Q1= Primer cuartil
Q2= Segundo cuartil
Q3= Tercer cuartil
Datos agrupados
)(: nrtilestotaldecua
doartildeseanúmerodecuCk
(3.16)
k
c
c
ikk if
dLC *
(3.17)
donde:
Ck= Cuantil k (recuerde que esta variable toma la letra Qk si se calcula cuartiles, Dk si son deciles y Pk si son percentiles)
Lik = Límite inferior real de la clase en la que se encuentra el cuartil k
n = Número de datos
dc = Diferencia entre el valor calculado del cuartil en estudio. Localiza su pocisión en la columna de frecuencia acumulada fa menos la frecuencia anterior
Fc = Frecuencia absoluta del intervalo donde se encuentra ubicado el cuartil en estudio
ik = Amplitud del intervalo o la clase donde se ubica el cuartil k
Las siguientes son las edades de una muestra de estudiantes tomada entre los asistentes a un curso en la compañía SPSS México. Calcule los cuartiles Q1, Q2 y Q3 para el conjunto de datos.
19 17 15 20 23 41 33 21 18 20 18 33 32 29 24 19 18 20 17 22
EJEMPLO 3.12
CAPÍTULO 3 MEDIDAS RESUMEN
34
55 19 22 25 28 30 44 19 20 39 Para calcular el Q1, Q2 y Q3 es necesario ordenar los datos, recordemos que por ser un concepto similar al de la mediana, lo que se está calculando es la posición que divide al conjunto de datos en cuatro partes iguales. A continuación se presenta el arreglo de datos ordenados.
15 17 17 18 18 18 19 19 19 19 20 20 20 20 21 22 22 23 24 25 28 29 30 32 33 33 39 41 44 55
Para ello se utiliza la fórmula
4
)1(1
nQ 875.7
4
31
4
)130(1Q
Observe que el valor que corresponde a la posición 8 es el 19,
el valor Q1=19. La obtención del cuartil Q2 se obtiene a partir de
la fórmula para la mediana de datos pares, es decir, se calcula
el promedio de los dos valores centrales 21 y 22, por lo tanto:
5.212
22212 eMQ
El valor que divide al conjunto de datos en 50% por ciento es el
21.5. Para el cuartil Q3 se utiliza la siguiente fórmula:
2325.234
93
4
)130(3
4
)1(33
nQ
Gráficamente se puede observar lo siguiente:
SOLUCIÓN
Q1
Q3 Q2
CAPÍTULO 3 MEDIDAS RESUMEN
35
El vicepresidente de una cadena de locales de comida rápida, estudia las ventas de 100 locales de comida que se encuentran en el Distrito Federal y ha preparado la siguiente tabla de frecuencias. Calcule los cuartiles para el siguiente conjunto de datos.
Para el cálculo de los cuartiles se utiliza la fórmula que corresponde a datos agrupados:
Ventas (miles de
pesos)
Frecuencia
700-799 4
800-899 7
900-999 8
1000-1099 10
1100-1199 12
1200-1299 17
1300-1399 13
1400-1499 10
1500-1599 9
1600-1699 7
1700-1799 2
1800-1899 1
Valor mínimo
15
Valor máximo
55
Q2=21.5
Q1=19 Q3=30
25%
50%
75%
100%
EJEMPLO 3.13
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
36
Paso #1 Calcular la frecuencia acumulada a partir de la tabla
Paso #2 Calculo de la ubicación de los cuartiles
25)100(4
1:1C
se ubica en el intervalo 1000-1099
50)100(4
2:2C
se ubica en el intervalo 1200-1299
75)100(4
3:3C
se ubica en el intervalo 1400-1499
100)100(4
4:4C
se ubica en el intervalo 1900-1899
Paso #3 Se obtiene la diferencia entre el valor calculado y la frecuencia acumulada anterior al cuartil que se está calculando.
61925:1C 94150:2C
Ventas (miles de pesos) f fa
700-799 4 4
800-899 7 11
900-999 8 19
1000-1099 10 29
1100-1199 12 41
1200-1299 17 58
1300-1399 13 71
1400-1499 10 81
1500-1599 9 90
1600-1699 7 97
1700-1799 2 99
1800-1899 1 100
CAPÍTULO 3 MEDIDAS RESUMEN
37
47175:3C 199100:4C
Paso #4 Sustituir en la fórmula 3.12 para los cuartiles
cuando los valores están agrupados en intervalos
5.1059605.999)100(10
65.9991Q
44.125294.525.1199)100(17
95.11992Q
5.1439405.1399)100(10
45.13993Q
5.18991005.1799)100(1
15.17994Q
3.4 MEDIDAS DE VARIABILIDAD
Si bien las medidas de tendencia central proporcionan información acerca de los valores particulares de un conjunto de datos, los investigadores en el campo de las ciencias sociales requieren de otras herramientas estadísticas que permitan obtener una descripción numérica más completa. Estas herramientas son las medidas de variabilidad, que describen la dispersión de un conjunto de datos. Por ejemplo, en las unidades de diagnóstico médico de la cadena Pfizer se mide el porcentaje de grasa corporal a una muestra aleatoria de 50 varones, realizado en un fin de semana y resulta que la mediana es de 25.8 %. ¿El porcentaje de grasa es normal en este grupo de hombres? La respuesta es no, de acuerdo con los valores nominales ya establecidos; pero ¿qué se puede esperar de los resultados de los otros hombres que se practicaron el estudio y no formaron parte de la muestra? ¿ellos también tiene un porcentaje de grasa de 25.8%?¿qué puede concluirse cuando se sabe que existen diagnósticos de algunas con porcentajes de grasa que van desde un 15% a un 32%. Las medidas de variabilidad proporcionan la información adicional necesaria para contestar estas preguntas. La figura 3.5.X muestra tres diferentes grupos cuyas distribuciones presentan que la media aritmética es la misma )50( pero las variabilidades difieren.
1=50 2=50 3=50
CAPÍTULO 3 MEDIDAS RESUMEN
38
Al observar estas distribuciones se puede concluir que es necesaria una medida que permita complementar la información descriptiva que proporciona la media. Las medidas de variabilidad se clasifican en absolutas y relativas, como se ilustra a continuación.
Figura 3.5.XX Clasificación de las medidas de variabilidad
Es importante señalar que los métodos de cálculo de las medidas de variabilidad al igual que para las medidas de tendencia central y las de ubicación difieren para datos no agrupados y agrupados.
3.4.1 RANGO
La medida de dispersión más sencilla es el rango, también conocido por los expertos en estadística como alcance, recorrido o amplitud total, es de cálculo sencillo y se define como la diferencia entre el valor más grande del conjunto de datos y el valor más pequeño. Si bien el rango es fácil de calcular y de comprender, es una medida burda de variabilidad que sólo describe la distancia entre los límites exteriores del conjunto de datos; esto hace que sea una medida limitada de dispersión, además de que se ve afectada por valores atípicos. Un uso importante del rango es en el aseguramiento de calidad, donde el rango se utiliza para
MEDIDAS DE VARIABILIDAD
DATOS NO AGRUPADOS / DATOS AGRUPADOS
EN VALOR ABSOLUTO
RANGO
RANGO INTERCUARTIL
DESVIACIÓN MEDIA
EN VALOR RELATIVO
COEFICIENTE DE VARIACIÓN
VARIANZA
DESVIACIÓN ESTÁNDAR
CAPÍTULO 3 MEDIDAS RESUMEN
39
construir gráficas de control4. La fórmula para la obtención del rango tanto para datos agrupados como no agrupados es la siguiente:
Datos no agrupados
Datos agrupados5
mM DDRango
(3.18)
A continuación se muestra en la tabla 3.2 que contiene información sobre el PIB trimestral a precios de 1993 en valores absolutos del 2004 hasta la fecha.
Tabla 3. 2
Valores absolutos del PIB a precios de 1993 en el sector servicios
Unidad de Medida: Miles de pesos a precios de 1993.
Periodo Servicios
2004/01 1,080,667,914
2004/02 1,107,526,001
2004/03 1,084,465,827
2004/04 1,158,798,626
2005/01 1,124,002,591
2005/02 1,155,367,126
2005/03 1,133,147,713
2005/04 1,204,293,569
2006/01 1,184,857,898
El rango de precios en servicios en este conjunto se calcula obteniendo la diferencia entre el valor más alto que es 1,204,293,569 y el valor mínimo 1,080,667,914. El resultado es 123,625,655.
o RANGO INTERCUARTIL
Otra medida de variabilidad es el rango intercuartil que se define como la diferencia entre tercer y el primer cuartil, es decir Q3 – Q1; en términos de percentiles, ésta es la distancia entre los valores 75% y 25% (P75 – P25). El rango intercuartil es especialmente útil en situaciones en donde los usuarios de datos están interesados en valores hacia el medio (rango del 50% central) y menos interesados en los extremos.
4 Gráficos de control. Establecidos por Shewhart como una manera de estimar la incertidumbre de
una medida y sus componentes a partir de información que se recolecta. 5 Para datos agrupados el DM –dato mayor– corresponde al límite superior de la última clase o
intervalo y el Dm –dato menor– corresponderá al límite inferior de la primera clase o intervalo
CAPÍTULO 3 MEDIDAS RESUMEN
40
Datos no agrupados
Datos agrupados
257513 PPQQcuartilRangoInter
(3.19)
La siguiente tabla muestra las puntuaciones obtenidas por alcohólicos de sexo masculino que están en pleno proceso de rehabilitación (de una escala del 0 al 60 de valores continuos el especialista determina con base en pruebas bio-sicológicas la puntuación del paciente):
Puntuaciones hombres
0 - 5 1
5 - 10 7
10 - 15 12
15 - 20 19
20 - 25 27
25 - 30 28
30 - 35 26
35 - 40 17
40 - 45 13
45 - 50 9
50 - 55 3
55 - 60 1
El cálculo del rango intercuartil requiere a su vez la obtención de
los Q1 y Q3 para ello es necesario seguir el procedimiento ya visto
en el ejemplo ___.
puntaje f fa Li
real Ls
real
0 - 5 1 1 0 4.5
5-10 7 8 4.5 9.5
10-15 12 20 9.5 14.5
15 - 20 19 39 14.5 19.5
20 - 25 27 66 19.5 24.5
25 - 30 28 94 24.5 29.5
30 - 35 26 120 29.5 34.5
35 - 40 17 137 34.5 39.5
40 - 45 13 150 39.5 44.5
45 - 50 9 159 44.5 49.5
50 - 55 3 162 49.5 54.5
55 - 60 1 163 54.5 59.5
EJEMPLO 3.14
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
41
Paso #1 Se obtiene la ubicación del cuartil buscado
Q1: (1/4)*163=40.75 Q3: (3/4)*163=122.25
Paso #2 Se calcula la diferencia entre el valor obtenido en el paso 1 y la frecuencia acumulada anterior al cuartil buscado
Q1= 40.75-39=3.75 Q3=122.25-120=2.25
Paso #3 Se aplica la fórmula _____ para la obtención de Q1 y Q3
Q1= 8224.19163*27
75.15.19
Q3= 162.35163*17
25.25.34
Por lo tanto el rango intercuartil es Q3-Q1=15.33. Recuerde que el rango intercuartil es el alcance que existe entre el Q3 y Q1, la ventaja de éste es que no es sensible a datos atípicos. Este 15.33 significa entonces que el 50% de los datos se encuentran entre los datos 19.882 y 35.162 gráficamente sucede lo siguiente:
3.4.2 DESVIACIÓN MEDIA
Esta medida también conocida como desviación media absoluta6 o desviación promedio o desviación promedio absoluta, se denota por las siglas DM y es el promedio de los valores absolutos de las diferencias respecto a la media y en términos de una fórmula, se calcula para una muestra como sigue:
6 ¿Por qué se ignora los signos de las desviaciones de la media? Esto es así para evitar que las desviaciones
positivas y negativas de la media se compensan entre sí, lo que de ocurrir así provocaría siempre una media cero, lo que daría como resultado un estimador sin ninguna utilidad.
Q1 Q3
CAPÍTULO 3 MEDIDAS RESUMEN
42
Datos no agrupados
n
xx
MD
n
i
i
1
(3.20)
donde: xi el valor de cada observación
X es la media de los valores n es el número de observaciones en la muestra
Indica el valor absoluto
Datos agrupados n
xxf
MDi
n
i
i
1
(3.21)
donde: xi es la marca de clase f es la frecuencia de clase
X es la media de los valores n es el número de observaciones en la muestra
Indica el valor absoluto
Una muestra de los archivos de nueve empleados de la embajada de Japón en México, reveló que, durante un periodo de cuatro meses, perdieron el siguiente número de días por enfermedades: 2, 0, 5, 4, 9, 3, 1, 2 y 3. Calcule la desviación media e interprete el resultado.
Para el cálculo de la desviación media es necesario realizar el cálculo de la media aritmética
22.39
29
9
321394502x
DM=
9
22.3422.3522.3022.32
9
22.3322.3222.3122.3322.39
= 1.85
EJEMPLO 3.15
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
43
Se registraró el consumo de energía eléctrica de una muestra de 38 hogares de la colonia San Cristóbal durante un estudio socioeconómico realizado en el Estado de México.
Consumo de energía eléctrica (Kwh)
No. de hogares
298-304 4
304-310 5
310-316 10
316-322 7
322-328 6
328-334 3
334-340 2
340-346 1
Para el cálculo de la desviación media es necesario:
1. Se determina la media aritmética mediante el procedimiento ya conocido.
2. Para calcular la desviación media se determina el valor absoluto de cada marca de clase menos la media aritmética
3. Se multiplica el valor absoluto por la frecuencia de cada intervalos de clase.
4. Se suman todos los productos y se dividen entre el número total de observaciones.
5. Se obtiene el valor absoluto de la diferencia de cada Se marca de clase.
Intervalos de clase
(Kwh) fi
Marca de clase xi
fi*xi xxi *if xxi
298-304 4 301 1204 16.42 65.68
304-310 5 307 1535 10.42 52.1
310-316 10 313 3130 4.42 44.2
316-322 7 319 2233 1.58 11.06
322-328 6 325 1950 7.58 45.48
328-334 3 331 993 13.58 40.74
334-340 2 337 674 19.58 39.16
340-346 1 343 343 25.58 25.58
38 i
i
i xf *8
1
12062
324
EJEMPLO 3.16
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
44
La desviación media tiene como ventaja que su comprensión es sencilla, ya que es el promedio de desviación de todos los valores con relación a la media, además que utiliza para su cálculo todos los valores de la muestra, lo que al calcular el rango y el rango intercuartil no sucede. Su principal desventaja, es que usa los valores absolutos, y éstos requieren un mayor esfuerzo para el tratamiento algebraico. La desviación media se utiliza con menor frecuencia que otras medidas de tendencia central como la desviación estándar y la varianza.
Autoexamen 3.2
Las respuestas se encuentran al final del capítulo.
1. La Procuraduría Federal del Consumidor realiza una investigación con relación a las deudas por uso de tarjetas de crédito en la Ciudad de México y para tal efecto encuesta a una muestra de doce personas entre los 25 y 40 años de edad que tienen deudas mayores a los $5,000.00.
42.31738
12062x
53.838
324DM
Para su interpretación se tiene que la DMx se obtienen los valores
53.842.317 de lo cual obtenemos los límites (308.89, 325.95) al
localizar estos valores dentro de los intervalos de clase tenemos que el 308.89 se encuentra en el tercer intervalo mientras que el 325.95 se encuentra en el 5º. Intervalo por lo que sumando las frecuencias absolutas que corresponden a estos tres intervalos es 23. Aplicando la “regla de tres” se tiene que:
%10038
x23
Lo que corresponde a 60.52% de los datos caen en este intervalo. Es conveniente aclarar que éste porcentaje es único para este problema en particular. Más adelante se estudiará la interpretación de la desviación estándar y en ella se presenta la regla empírica que no es la que se está aplicando en este momento. Cuando se trabaja la DM, se obtiene el porcentaje para cada en particular.
CAPÍTULO 3 MEDIDAS RESUMEN
45
Los resultados mostraron que todos ellos pagaban un promedio de un poco más de $300.00 al mes. A continuación se presenta las cantidades que cada consumidor abonó a su saldo un mes anterior.
$510 $526 $505 $499 $512 $491 $500 $514 $501 $520 $493 $495
a. ¿Cuál es el rango de las cantidades abonadas? b. Calcule el rango intercuartil de las cantidades abonadas e interprete el
resultado c. Calcule la desviación media de las cantidades abonadas e interprete
2. En una compañía de Venta de bienes raíces se realizó un estudio para determinar las habilidades que los agentes poseen para realizar una venta. Se realizaron dos mediciones en diferentes grupos. Uno experimental (el Grupo 1) que había recibido un curso de apoyo y otro grupo más (Grupo 2) que aún no recibía ninguna capacitación. La prueba de habilidades tiene 100 puntos como calificación máxima. La siguiente tabla muestra los resultados obtenidos por ambos grupos en la prueba de habilidades:
Intervalos Grupo 1 Grupo 2
fi fi
32-38 5 4
39-45 12 11
46-52 17 15
53-59 10 9
60-66 5 4
67-73 3 2
a. Calcule el rango para los dos grupo ¿Puede ser ésta una medida
resumen de comparación? b. Calcule el rango intercuartil para ambos grupos. c. Calcule la desviación media de cada grupo y compare.
3.4.3 VARIANZA
Como se estudió en los apartados anteriores, el rango y el rango intercuartil son medidas de variabilidad que no contemplan la forma en que se distribuyen o agrupan los valores que están entre los extremos. De todas las medidas de variabilidad absolutas la varianza es una de las dos más importantes que emplea todos los valores. La varianza mide la dispersión promedio alrededor
CAPÍTULO 3 MEDIDAS RESUMEN
46
de la media, es decir, qué tanto varían los valores más grandes que están por encima de ella y cómo se distribuyen los valores menores que están por debajo de ella.
La varianza se basa en la diferencia entre el valor de cada observación (xi) y la media aritmética ( x para una muestra, para una población); a esta diferencia
se le denomina desviación respecto al promedio. Para una muestra, la
desviación con relación a la media se expresa como ( )xxi ; para una
población es ( )ix . Para calcular la varianza las desviaciones respecto al
promedio se elevan al cuadrado y se dividen entre n -1 para una muestra y N
para una población. La varianza de la población se representa por 2 y de la muestra por s2. Por lo tanto la varianza se define como la media o promedio de los cuadrados de las desviaciones de los valores de la variable a la media, es decir, el momento de segundo orden respecto a la media. Y cuenta con las siguientes propiedades más importantes:
Por definición la varianza nunca puede ser negativa. Esto quiere decir que, dado que la fórmula eleva al cuadrado las diferencias, la suma de las mismas nunca podrá ser negativa.
A menos que todos los elementos del conjunto de datos de la población o de la muestra tengan el mismo valor, la varianza no puede ser cero.
Es igual al momento de segundo orden respecto al origen menos el de primer orden elevado al cuadrado.
Si se suma o se resta el mismo número a todos los valores, la varianza no se modifica.
Si se multiplica los valores de una distribución de frecuencias por una constante k la varianza queda multiplicada por el cuadrado de la constante.
Datos no
agrupados
Poblacional
N
xN
i
i
1
2
2
(3.22)
Muestral
1
1
2
2
n
xx
s
n
i
i
(3.23)
donde:
N= Tamaño de la población
n= Tamaño muestral
x = Media aritmética muestral
=Media poblacional
CAPÍTULO 3 MEDIDAS RESUMEN
47
donde:
N= Tamaño de la población
n= Tamaño muestral
= Media poblacional
fi= Media muestral
x = Media aritmética del conjunto de datos
ix = Marca de clase del intervalo i-ésimo
s2=Varianza muestral
2 =Varianza poblacional
El uso del denominador o divisor (n-1) al calcular la varianza de una muestra es un procedimiento estándar que hace que la varianza resultante de la muestra sea un mejor estimador de la varianza de la población de la cual se obtuvo la muestra. En realidad, para tamaños de la muestra grandes (por ejemplo, )30n , restar 1 de n
implica muy poca diferencia.
Se registraró el consumo de energía eléctrica de una muestra de 38 hogares de la colonia San Cristóbal durante un estudio socioeconómico realizado en el Estado de México.
ix = Dato i-ésimo
Datos
agrupados
Poblacional
N
xfN
i
ii
1
2
2
)(*
(3.24)
Muestral
1
)(*1
2
2
n
xxf
s
n
i
ii
(3.25)
EJEMPLO 3.17
CAPÍTULO 3 MEDIDAS RESUMEN
48
Consumo de energía eléctrica (Kwh)
No. de hogares
298-304 4
304-310 5
310-316 10
316-322 7
322-328 6
328-334 3
334-340 2
340-346 1
Para el cálculo de la varianza es necesario: 1. Determinar la media aritmética mediante el procedimiento
ya conocido para datos agrupados, fórmula ( ) 9.316x
2. Para calcular la varianza se obtiene las diferencias entre las marcas de clase y la media obtenida en el paso anterior.
Consumo de
energía eléctrica (Kwh)
No. de hogares
xi Marca
de clase
xxi 2
xxi
2* xxf ii
298-304 4 300.5 -16.4
268.96 1075.84
304-310 5 306.5 -10.4
108.16 540.8
310-316 10 312.5 -4.4 19.36 193.6
316-322 7 318.5 1.6 2.56 17.92
322-328 6 324.5 7.6 57.76 346.56
328-334 3 330.5 13.6 184.96 554.88
334-340 2 336.5 19.6 384.16 768.32
340-346 1 342.5 25.6 655.36 655.36
25.11237
4153.28
1
*1
2
2
n
xxf
s
n
ii
ii
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
49
Cuando calculamos la varianza, cada diferencia se expresa en unidades al cuadrado, por lo que en muchas ocasiones su interpretación resulta complicada, ya que para este caso tendríamos kwh2 por lo que este resultado no tiene un significado y para su interpretación siempre resultará más conveniente utilizar la desviación estándar.
Existen fórmulas alternativas que permite y facilitan su cálculo si éste no se realiza mediante un software estadístico.
Datos no agrupados
Poblacional
N
NxN
i
i
1
22
2
(3.26)
Muestral
1
1
22
2
n
xnx
s
n
i
i
(3.27)
donde:
N= Tamaño de la población
n= Tamaño muestral
x = Media del conjunto de datos
ix = Dato i-ésimo
Media poblacional
2 Varianza poblacional
Datos agrupados
Poblacional
N
NxfN
i
ii
1
22
2
(3.28)
Muestral
11
2
1
2
2
n
xn
n
xf
s
n
i
ii
(3.29)
donde: 2
Varianza de la población 2s Varianza muestral
= Media de la población N = Tamaño de la población fi = Frecuencia de la clase i xi = punto medio de la clase i
CAPÍTULO 3 MEDIDAS RESUMEN
50
3.4.4 DESVIACIÓN ESTÁNDÁR
La desviación estándar o desviación típica 2s o 2 es una medida de dispersión para variables de razón y de intervalo, de gran utilidad en la estadística descriptiva.
Está definida como la raíz cuadrada de la varianza 2ss o 2 .
Es una medida resumen que mide el grado de dispersión que presenta un conjunto de valores o simplemente el "promedio" o variación esperada con respecto a la media aritmética de todos los valores. Hablar de una desviación estándar grande significa que los puntos están lejos de la media y una desviación pequeña indica que los datos están agrupados muy cercanos a su media.
Por ejemplo, se tomaron tres muestras en diferentes colonias de cuatro casas para medir el número de focos que se presentaron fue:
A (0, 0, 14, 14) 7Ax 72
As
B (0, 6, 8, 14) 7Bx 52
Bs
C (6, 6, 8, 8) 7Cx 12
Cs
Como se puede observar, la muestra C tiene una desviación mucho menor que las otras dos porque sus valores están más cercanos al 7. A continuación se presentan las fórmulas para el cálculo de la desviación típica.
Datos no agrupados
Población
N
xN
i
i
1
2
(3.30)
Muestra
1
1
2
n
xx
s
n
i
i
(3.31)
donde:
N = Tamaño de la población
n = Tamaño muestral
= desviación estándar poblacional
s = desviación estándar muestral
= media poblacional del conjunto de datos
x = Media muestra del conjunto de datos
CAPÍTULO 3 MEDIDAS RESUMEN
51
ix = Dato i-ésimo
Datos agrupados
Población
N
xfN
i
ii
1
2)(*
(3.32)
Muestra
1
)(*1
2
n
xxf
s
N
i
ii
(3.33)
donde:
N = Tamaño de la población
n = Tamaño muestral
= desviación estándar poblacional
s = desviación estándar muestral
= media poblacional del conjunto de datos
x = Media muestra del conjunto de datos
ix = Dato i-ésimo
if frecuencia de la clase i
Se realiza una estadística en dos centros de enseñanza, uno público y otro privado, referente a la nota global del bachillerato de cada uno de los alumnos que van a acudir a los exámenes de selección para ingresar a nivel superior. Las distribuciones de frecuencias que presentaron fueronlas siguientes:
Centro privado
Nota global de cada alumno.
Frecuencias
5 6 10
6 7 15
7 8 20
8 9 30
9 10 15
EJEMPLO 3.18
CAPÍTULO 3 MEDIDAS RESUMEN
52
Centro público
Nota global de cada alumno.
Frecuencias
5 6 225
6 7 150
7 8 100
8 9 20
9 10 25
a) Calcula la varianza de los dos grupos y compara. ¿Cuál es el grupo que presenta mayor variabilidad en los resultados del examen?
b) Calcula la desviación estándar de cada grupo ¿Qué significan estos valores obtenidos?
Para el cálculo de la desviación estándar, en ocasiones es conveniente elaborar una tabla de apoyo que simplifique los cálculos, como se muestra a continuación:
Centro privado
Nota global de
cada alumno.
F xi xi *f Media
x xi - x (xi- x ) 2 fi*(xi- x )2
5 6 10 5.5 55 7.78 -2.28 5.19 51.88
6 7 15 6.5 97.5 7.78 -1.28 1.63 24.49
7 8 20 7.5 150 7.78 -0.28 0.08 1.54
8 9 30 8.5 255 7.78 0.72 0.52 15.65
9 10 15 9.5 142.5 7.78 1.72 2.97 44.49
N 90 Media 7.78 Varianza 1.53
La suma de los elementos de la columna xi *fi
78.790
700privadoxMedia
La suma de los elementos de la columna fi*(xi- x )2
53.190
06.138privados
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
53
Centro público
Nota global
F xi mc*f media xi-x (xi-x) 2 f*(xi-x)2
5 6 225 5.5 1237.5 6.48 -0.98 0.96 216.43
6 7 150 6.5 975 6.48 0.02 0.00 0.06
7 8 100 7.5 750 6.48 1.02 1.04 103.88
8 9 20 8.5 170 6.48 2.02 4.08 81.55
9 10 25 9.5 237.5 6.48 3.02 9.12 227.89
N 520 Media 6.48 Varianza 1.21
La institución que presenta una mayor variabilidad en los resultados de sus alumnos es el centro privado.
a) Para la obtención de la desviación estándar sólo es necesario aplicar la raíz cuadrada al resultado de la varianza.
23.153.1público 10.121.1privado
Estos resultados significan que cada valor se aleja de su media aproximadamente en 1.23 para el Centro privado y en 1.10 para el Centro público. El cálculo es importante y relativamente sencillo, sin embargo la interpretación de la desviación estándar se analizará con mayor detalle en el próximo tema.
3.4.5 INTERPRETACIÓN DE LA DESVIACIÓN ESTÁNDAR La desviación estándar se emplea como una medida para comparar la dispersión en dos o más conjuntos de observaciones. Se interpreta a partir de lo siguiente
o Regla empírica: Para una distribución de frecuencias simétrica en forma de campana, aproximadamente 68% de las observaciones estarán a más y menos una desviación estándar de la media, aproximadamente un 95% de tales observaciones se encontrará a más y menos dos desviaciones estándar de la misma; y prácticamente todas las observaciones (99,7%) se hallarán a más y menos tres desviaciones estándar con respecto a la media. Como se observa en la curva simétrica de campana que muestra las relaciones entre la desviación estándar y la media
CAPÍTULO 3 MEDIDAS RESUMEN
54
La regla empírica apoya a medir cómo se distribuyen los valores por debajo y por encima de la media. Esto permite identificar los valores atípicos cuando se analiza un conjunto de datos numéricos. La regla empírica señala que aproximadamente uno (5%) de cada 20 (100%) valores estará alejado más allá de dos desviaciones estándar en cualquier dirección. Se puede tomar como una regla general que, los valores que no se ubiquen en el intervalo 2 se consideran como
posibles valores atípicos. Esta regla también implica que aproximadamente tres de cada 1000, estarán alejados de la media más allá de tres desviaciones estándar. Por consiguiente, se consideran como valores extremos los que no se ubiquen en el intervalo 3 .
o Teorema de Chebyshev. En los conjuntos de datos que presentan una desviación estándar grande será resultado de que los valores se encuentran muy dispersos con relación a la media. Un matemático ruso llamado Chebyshev creó un teorema que refleja esta situación. En él cuantifica el porcentaje mínimo de valores que se ubicarán dentro de un número determinado de desviaciones estándar a partir de la media y aplica a todas las distribuciones cualquiera que sea su forma, es decir, se puede utilizar siempre que la forma de la distribución de los datos sea desconocida o sea anormal. Este teorema de Chebyshev expresa que para un conjunto cualquiera de observaciones (muestra o población), la proporción mínima de los valores que se encuentran dentro de k desviaciones estándar desde la media es al menos de 1 – 1/k2, donde k es una constante mayor que 1. Otra consecuencia del teorema es que para cada distribución de media μ y desviación típica finita σ, al menos la mitad de los valores caerán en el intervalo (μ-2 σ, μ+2 σ).
-3 -2 - 0 2 3
68%
95%
99.7%
CAPÍTULO 3 MEDIDAS RESUMEN
55
Porcentaje de valores que se encuentran en los intervalos alrededor de la media
Intervalo Teorema de Chebyshev (para toda distribución)
)3,3(
)2,2(
),(
%89.88
%75
%0
elmenosAl
elmenosAl
elmenosAl
Para ilustrar este resultado, supongamos que un grupo de estudiantes presenta para su materia de redacción 50 ensayos que tienen una extensión media de 1000 caracteres y una desviación estándar de 200 caracteres. De la desigualdad de Chebyshev se deduce que al menos el 75% de los artículos tendrán una extensión comprendida entre 600 y 1400 caracteres (k = 2).
3.4.6. EL COEFICIENTE DE VARIACIÓN
La desviación estándar es útil como medida de variación dentro de un conjunto de datos. Sin embargo, cuando se desea comparar la dispersión en dos conjuntos de datos, cotejar las desviaciones estándar puede conducir a resultados ilógicos o puede ser que las dos variables que intervienen se midan en unidades diferentes.
El coeficiente de variación es una medida que permite:
o Comparar la variabilidad entre dos grupos de datos referidos a distintos sistemas de unidades de medida. Por ejemplo, kilogramos y centímetros.
o Comparar la variabilidad entre dos grupos de datos obtenidos por dos o más personas distintas.
o Determinar si cierta media es consistente con cierta varianza.
Lo que se necesita en situaciones como ésta es una medida de variación relativa, en lugar de una de variación absoluta. Esa medida se encuentra en el coeficiente de variación, el cual expresa a la desviación estándar como un porcentaje de la media.
La ventaja del coeficiente de variación es que se encuentra dado en porcentajes y es más comprensible.
Datos no agrupados
Datos agrupados
Población
100.VC
(3.34)
Muestra
100.x
sVC
(3.35)
CAPÍTULO 3 MEDIDAS RESUMEN
56
donde:
= Desviación estándar poblacional
s= Desviación estándar muestral
= Media aritmética poblacional
x =Media muestral
Se aplicaron encuestas a dos grupos de amas de casa para conocer el gasto promedio mensual en salud de 100 familias de una zona de alto nivel socioeconómico del D.F. Los dos grupos registrados fueron de nivel D al cual se le realizaron 60 entrevistas y 40 entrevistas de nivel D+. Los resultados de las entrevistas se presentan a continuación: a. Calcule el coeficiente de variación de ambos niveles socioeconómicos y responda, ¿Cuál de ellos presenta mayor variabilidad? Para responder a esta pregunta es necesario calcular el cociente de cada desviación muestral respecto a su media.
%02.6100*2500
5.150DCV
%20.7100*3200
230*DCV
Lo que significa que en general ambos niveles presentan
muy poca variación pero en el nivel socioeconómico D+ los
datos presentan mayor variabilidad respecto a su media que
los gastos promedios mensuales que presenta el nivel D.
Nivel socioeconómico
D D+ s 150.5 230.5
x 2500 3200
3.4.7 PUNTUACIONES ESTANDARIZADAS (PUNTUACIONES Z)
EJEMPLO 3.19
SOLUCIÓN
CAPÍTULO 3 MEDIDAS RESUMEN
57
3.4.8 CUADRO RESUMEN DE LAS MEDIDAS DE VARIABILIDAD
Tabla 3.2 Comparación de las medidas de variabilidad o de dispersión Medias de
variabilidad Definición REPRESEN-
TACIÓN
SIMBÓLICA
¿Qué tan común
es?
Existencia ¿Toma en
cuenta cada
valor?
¿Se ve afectada por los valores extremos?
V: Ventajas y D: Desventajas
Rango Es la diferencia entre el valor más grande del conjunto de datos y el valor más pequeño.
R De uso limitado
Podría no existir
No
Sí V: Fácil de calcular y de entender. D: En algunas distribuciones no podría existir, si se presenta una clase de extremo abierto. No dice nada sobre la forma de la distribución entre las puntuaciones extremas. Es muchas distribuciones no es confiable ya que se apoya sólo en dos valores extremos.
Rango intercuartil
Es la diferencia entre el valor del tercer cuartil y el primero.
RI De uso limitado
Siempre existe
No No V: Puede calcularse para una distribución de clase abierta. Es una buena alternativa si hay algunos valores extremos. Es especialmente útil en situaciones donde los usuarios de datos están especialmente interesados en valores hacia el medio y menos interesados en los extremos. Su empleo en la construcción de la gráfica de caja y bigote. D: No tomar en cuenta el 50 % de los datos y su poco empleo en métodos estadísticos posteriores.
Desviación La media aritmética de DM No es de Siempre Sí Sí, pero V: Fácil de comprender. Da igual
CAPÍTULO 3 MEDIDAS RESUMEN
58
media los valores absolutos de las desviaciones de la media.
uso común
existe menos afectada que la
desviación estándar.
ponderación a la desviación de cada valor con relación a la media aritmética. Es más sensible que el rango y el rango intercuartil y generalmente tiene un error de muestreo más pequeño. D: Es un poco complicada de manejar algebraicamente, ya que los signos negativos deben ignorarse en su cálculo.
Varianza La media aritmética de las desviaciones cuadradas de la media.
2
Pobla-cional
Es de uso común
Siempre existe
Sí Sí V: Concepto importante en la estadística inferencial. D: Medida un tanto confusa, en virtud de que las unidades son el cuadrado de las unidades de los datos.
S2
Muestral
Desviación estándar
La raiz cuadrada de la varianza
Pobla-cional
La de uso más común
Siempre existe
Sí SÍ
V: Es aplicable a muchos métodos estadísticos posteriores. Es más confiable como estimador del valor de la población que cualquier otra medida de
CAPÍTULO 3 MEDIDAS RESUMEN
59
S Muestral
dispersión, siempre que la distribución sea normal. D: Es un poco difícil de calcular y de entender.
Coeficiente de variación
Es una medida de dispersión relativa y es el cociente de la desviación estándar y la media aritmética expresado en porcentaje
CV De uso común
Siempre existe
Sí SÍ V: Especialmente útil para comparar dos o más grupos de datos con medias diferentes. Es la medida de dispersión relativa más empleada
Comentarios generales: Si los valores alto y bajo no se encuentran muy separados de los demás, el rango puede ser una buena medida de dispersión. Es recomendable emplear la desviación media en muestras pequeñas que incluyan valores extremos. No compare la dispersión en los conjuntos de datos empleando la desviación estándar, a menos que las medias aritméticas sean muy
parecidas.
CAPÍTULO 3 MEDIDAS RESUMEN
60
3.5 MEDIDAS DE FORMA
Las medidas de forma son herramientas estadísticas que se pueden emplear para describir la forma de una distribución de datos numéricos. En este apartado, se examinará dos medidas de forma: sesgo y curtosis.
3.5.1 SESGO O ASIMETRÍA
Una característica que presentan los histogramas y que puede resultar de interés, es la asimetría, especialmente cuando los datos son unimodales. Si la cola derecha es más numerosa y se extiende más que la cola izquierda, decimos que se tiene asimetría positiva. Si es al revés, con la cola izquierda es larga, decimos asimetría negativa.
La medida numérica de la asimetría se denota como (alpha) y se calcula mediante la siguiente fórmula:
Datos no agrupados 3
1
3
* sn
xx
alpha
n
i
i
(3.36)
Datos agrupados
3
3
*
*
sn
xxf
alpha
i
(3.37)
=0
Simétrica
>0
Sesgo positivo
<0
Sesgo negativo
Esta medición de la asimetría es absoluta, ya que las unidades de medición no la afectan.
3.5.2 CURTOSIS
Una característica de los histogramas que no es común analizar es la llamada curtosis. Con esta palabra se denota lo "picudo" que pueda resultar una moda. Si la
CAPÍTULO 3 MEDIDAS RESUMEN
61
moda está muy picuda, se tiene curtosis grande; si la moda está muy roma o plana, se tiene curtosis pequeña. La curtosis es normal cuando vale tres. La desventaja es que tanto la simetría como la curtosis son cálculos más complicados y no son de uso frecuente.
La curtosis es también una medida absoluta porque las unidades de medición no la afectan. La curtosis se compara siempre con el número 3. Así, si la curtosis calculada es mayor que tres, el resultado será positivo, indicando una moda más afilada que lo normal. Si el resultado es negativo, indica una moda más chata que lo normal.
Datos no agrupados 4
1
4
* sn
xx
beta
n
i
i
(3.38)
Datos agrupados 4
4
1
* sn
xx
beta
n
i
i
(3.39) =3
Mesocúrtica
>3
Leptocúrtica
<3
Planticúrtica
3.6 REPRESENTACIONES GRÁFICAS 3.6.1 CAJA-BIGOTE 3.6.2 CURVA NORMAL
CAPÍTULO 3 MEDIDAS RESUMEN
62
Resumen del capítulo
El tratamiento estadístico no se limita únicamente a resumir mediante tablas y gráficas los datos, para complementarlo existen las medidas resumen, dependiendo de donde se
obtengan reciben el nombre de estadísticos si se calculan a partir de una muestra ( ˆ ) o
parámetros ( ) cuando son obtenidos a partir de una población, ambos pueden ser calculados tanto para datos no agrupados como agrupados. Las medidas estadísticas resumen o descriptivas incluyen medidas de tendencia central, de posición, de variabilidad y medidas de forma (sesgo y curtosis). Todas ellas se calculan de manera diferente para datos no agrupados y agrupados. Las medidas de tendencia central son útiles para describir los valores típicos de los datos. Las tres más comunes son la media, mediana y moda. Pero existen otras, tales como: la media geométrica, la media armónica, el rango medio y el eje medio. La media aritmética es la más importante de todas las medidas numéricas utilizadas para describir datos, constituye lo que la mayoría de la gente y lo que los investigadores citan cuando usan la palabra media. La media poblacional y la media muestral se calculan de la misma manera pero se denotan con símbolos diferentes. A la media aritmética la afecta cada valor y es influenciada por valores extremos. La mediana es el valor medio de un conjunto ordenado de números que contienen un número impar de valores. Para un conjunto con número par de valores, la mediana es la media aritmética de los dos valores medios. La mediana no resulta afectada por la magnitud de valores extremos. Esta característica hace de la mediana una medida más útil y apropiada de ubicación al reportar elementos como son el ingreso, edad y precios de casas. La moda es el valor que se presenta con más frecuencia en un conjunto de datos. Si dos valores empatan para la moda, los datos son bimodales. Los conjuntos de datos pueden ser multimodales. Entre otras cosas, la moda se emplea en negocios para determinar tamaños. Los cuantiles o fractiles son medidas de posición, ubicación o no centrales y se dividen en cuartiles, deciles y percentiles. Los cuartiles dividen los datos en cuatro partes o grupos. Los tres cuartiles son Q1, que es el primer cuartil y el más bajo; Q2, que es el segundo cuartil y es igual a la mediana; y Q3, que es el tercer cuartil y el superior. Los deciles dividen un conjunto de datos en diez partes o grupos, lo cual significa que se requiere de 9 deciles; el decil cinco que se denota D5, es igual a la mediana. Los percentiles dividen un conjunto de datos en 100 partes o grupos, lo cual significa que se requiere de 99 percentiles. Las medidas de variabilidad o de dispersión son herramientas estadísticas empleadas en conjunto con las medidas de tendencia para describir datos. Las medidas de variabilidad describen cuán dispersos se encuentran los datos. Las medidas de dispersión se dividen en absolutas y relativas. Entre las medidas de dispersión en valor absoluto más comunes están el rango, desviación media absoluta, varianza, desviación estándar y rango intercuartil y la más utilizada en valor relativo es el coeficiente de variación. Una de las medidas más elementales de variabilidad es el rango. Es la diferencia entre los valores más grande y más pequeño. Aun cuando el rango es fácil de calcular, tiene utilidad limitada; su principal campo de aplicación es en el control de calidad. El rango intercuartil es
CAPÍTULO 3 MEDIDAS RESUMEN
63
la diferencia entre los cuartiles tercero y primero. La desviación media absoluta (DMA) se calcula al promediar los valores absolutos de las desviaciones desde la media. La desviación media absoluta da la magnitud de la desviación promedio pero sin especificar su dirección. La desviación media absoluta tiene uso limitado en estadística, pero hay creciente interés para su uso en el campo de pronósticos. La varianza se utiliza ampliamente como herramienta en estadística pero se emplea poco como medida independiente de variabilidad. La varianza es el promedio del cuadrado de desviaciones alrededor de la media. La raíz cuadrada de la varianza es la desviación estándar. También es una herramienta muy usada en estadística. Se emplea con mayor frecuencia que la varianza como medida independiente. La desviación estándar se comprende mejor al examinar sus aplicaciones para determinar en dónde están los datos en relación con la media. La regla empírica y el teorema de Chebyshev son enunciados acerca de las proporciones de valores de datos que están dentro de varias veces la desviación estándar desde la media. La regla empírica revela el porcentaje de valores que están dentro de una, dos o tres desviaciones estándar de la media para un conjunto de datos. La regla empírica aplica sólo si los datos son una distribución en forma de campana. De acuerdo con la regla empírica, aproximadamente 68% de todos los valores de una distribución normal están dentro de más o menos una desviación estándar de la media. Noventa y cinco por ciento de todos los valores están dentro de dos desviaciones estándar a cualquier lado de la media, y prácticamente todos los valores 99.7 % están dentro de tres desviaciones estándar de la media. El teorema de Chebyshev también delinea la proporción de valores que están dentro de un número dado de desviaciones estándar desde la media; sin embargo, aplica a cualquier distribución. Según el teorema de Chebyshev, al menos 1- 1/ k
2 valores están dentro de k
desviaciones estándar de la media. El valor z representa el número de desviaciones estándar que un valor está desde la media para datos normalmente distribuidos. El coeficiente de variación es una razón entre una desviación estándar y su media, dado como porcentaje. Es especialmente útil para comparar desviaciones estándar o varianzas que representan datos con medias diferentes. Dos medidas de forma son el sesgo y la curtosis. El sesgo es la falta de simetría en una distribución. Si una distribución está sesgada, está alargada en una dirección o la otra. La parte sesgada de la gráfica es su parte larga y delgada. Una medida de sesgo es el coeficiente de Pearson. La curtosis es el grado de apuntamiento de una distribución. Una distribución alta y delgada se conoce como leptocúrtica. Una distribución plana es platicúrtica, y una distribución con un apuntamiento más normal se dice que es mesocúrtica. Una gráfica de caja y bigote es una representación gráfica de una distribución. La gráfica se construye al usar el valor más bajo, la mediana, el cuartil inferior, el cuartil superior y el valor más alto. Puede dar información acerca del sesgo y resultados aislados.
CAPÍTULO 3 MEDIDAS RESUMEN
64
Glosario
Bimodal Distribución que posee dos modas.
Coeficiente de asimetría )( . Denominado
también alpha y corresponde a la medida de forma
que mide el sesgo que presenta una distribución.
Coeficiente de curtosis )( . Denominado también
coeficiente Beta que mide lo puntiagudo de la
distribución.
Coeficiente de variación (CV) La razón entre la
desviación estándar y la media, expresada en
porcentaje.
Cuartiles Medidas de posición que dividen un
conjunto de datos en cuatro partes.
Curtosis Es la característica de la distribución que
permite determinar la cantidad de su apuntamiento.
Deciles Medidas de posición que dividen un conjunto
de datos en diez partes.
Desviación estándar. Medida de variabilidad que
promedia las distancias entre cada dato respecto a la
media del conjunto, su resultado se encuentra en las
mismas unidades que los datos de origen.
Desviación media absoluta (DMA) Es el promedio
de los valores absolutos de las desviaciones
alrededor de la media para un conjunto de
observaciones.
Eje medio Es una medida de tendencia central y es
la diferencia entre el tercer cuartil y el primero.
Fractiles Es el nombre genérico que se le da a los
cuartiles, deciles y percentiles.
Leptocúrtica Distribuciones que son altas y
delgadas.
Media aritmética Medida de tendencia central que
promedia todos los valores de un conjunto de datos.
Media armónica Es el reciproco de la media
aritmética del reciproco de los números.
Media geométrica Es la raiz enésima del producto
de las observaciones.
Mediana Valor medio o media aritmética de los
valores medios de un conjunto ordenado de números.
Medidas de forma Herramientas que se pueden
utilizar para describir la forma de una distribución de
datos.
Medidas de posición Herramientas que se pueden
emplear para dividir un conjunto de datos en cuatro,
diez o cien partes.
Medidas de tendencia central Un tipo de medida
resumen que se usa para describir un conjunto de
números en relación al centro de los mismos.
Medidas de variabilidad Estadísticas que describen
la dispersión en valor absoluto o relativo de un
conjunto de datos.
Mesocúrtica Distribuciones que son normales en
forma, es decir, no demasiadas altas ni demasiadas
planas.
Moda Valor que presentan con la mayor frecuencia
en un conjunto de datos.
Medidas resumen Valores que contienen las
características principales de una muestra o de una
población.
Multimodal Conjunto de datos que tiene más de
dos modas.
Percentiles Medidas de posición que dividen un
conjunto de datos en cien partes.
Platicúrtica Distribuciones que son planas y se
extienden.
Rango También denominado alcance, recorrido o
amplitud total es la diferencia entre los valores
máximo y mínimo de un conjunto de datos.
Rango intercuartil Rango de valores entre el
primero y tercer cuartiles.
Rango medio Medida de tendencia central que
calcula el promedio entre los valores máximo y
mínimo.
Regla empírica Principio que da el porcentaje
aproximado de valores que caen dentro de un
número determinado de desviaciones estándar de la
media aritmética de un conjunto de datos que se
encuentran normalmente distribuidos.
Sesgo Falta de simetría de un conjunto de valores.
Teorema de Chebyshev Teorema que indica que al
menos 1 – 1/k2 valores caerán dentro de + k
desviaciones estándar de la media, cualquiera que
sea la forma de la distribución.
Unimodal. Distribución que se caracteriza por
poseer una moda única.
Varianza Promedio del cuadrado de desviaciones
alrededor de la media aritmética para un conjunto de
datos.
CAPÍTULO 3 MEDIDAS RESUMEN
65
Fórmulas del Capítulo
1. Media aritmética poblacional para datos no agrupados
N
xN
i
i
1
2. Media aritmética muestral para datos no agrupados
n
x
x
n
i
i
1
3. Media aritmética poblacional para datos agrupados
N
xfN
i
ii
1
)(
4. Media aritmética muestral para datos agrupados
n
xf
x
n
i
ii
1
)(
5. Media geométrica para datos no agrupados
n valoreslostodosdeproductoGM.
nnxxxxGM ))...()()((. 321
6. Media geométrica para datos agrupados
n fn
n
fffxxxxGM ))...()()((.
3
3
2
2
1
1
i
n
i
i xfn
antiG log1
log1
CAPÍTULO 3 MEDIDAS RESUMEN
66
7. Media armónica para datos no agrupados
)1
...1
(1
1 ni
n
i ixx
n
x
nH
8. Media armónica para datos agrupados
)1
*(1
n
i i
ix
f
nH
9. Mediana para datos no agrupados
Posición o ubicación )2
1(:n
M e
10. Mediana para datos agrupados
if
fn
LMemediana
iacum
i *2)1(
11. Moda para datos no agrupados
Valor o valores con frecuencia mayor
12. Moda para datos agrupados
idd
dLMo Mo *
21
1
13. Rango medio
2
MenorMayor DDRangomedio
14. Eje medio
2
31 QQEjemedio
15. Primer cuartil para datos no agrupados
Posición o ubicación 4
)1(:1
nQ
CAPÍTULO 3 MEDIDAS RESUMEN
67
16. Tercer cuartil para datos no agrupados
Posición o ubicación 4
)1(3:3
nQ
17. Cálculo de los fractiles (cuartiles, deciles y percentiles)
Posición o ubicación )(: nfractilesdetotal
deseadofractildenúmeroFk
k
c
c
ikk if
dLF *
18. Rango o alcance
mM DDRango
19. Rango intercuartil
257513 PPQQilIntercuartRango
20. Desviación media para datos no agrupados
n
xx
DM
n
i
i
1
21. Desviación media para datos agrupados
n
xxf
DMi
n
i
i
1
22. Varianza poblacional para datos no agrupados
N
xN
i
i
1
2
2
23. Varianza muestral para datos no agrupados
1
1
2
2
n
xx
s
n
i
i
CAPÍTULO 3 MEDIDAS RESUMEN
68
24. Varianza poblacional para datos agrupados
N
xfN
i
ii
1
2
2
)(*
25. Varianza muestral para datos agrupados
1
)(*1
2
2
n
xxf
s
n
i
ii
26. Coeficiente de variabilidad poblacional y muestral
100.VC 100.x
sVC
27. Coeficiente de asimetría alpha para datos no agrupados
3
1
3
* sn
xx
alpha
n
i
i
28. Coeficiente de asimetría alpha para datos agrupados
3
3
*
*
sn
xxf
alpha
i
29. Coeficiente de curtosis para datos no agrupados
4
1
4
* sn
xx
beta
n
i
i
30. Coeficiente de curtosis para datos agrupados
4
4
1
* sn
xx
beta
n
i
i
CAPÍTULO 3 MEDIDAS RESUMEN
69
Bibliografía
Anderson, D. R., D. J. Sweeney y T. A. Williams (2005). Estadística para administración y economía. México: Thomson, 8a edición. Berenson, M. L., Levine. D. M. y Krehbiel, T. C. (2001). Estadística para Administración. México: Pearson Educación, 2a edición. Black, K. (2005). Estadística en los negocios. México: CECSA, 4ª edición en inglés, 1a edición en español. Chao, L. L. (1993). Estadística para las ciencias administrativas. México: McGraw-Hill, 3a edición. Flores García, R. y H. Lozano (1998). Estadística aplicada a la administración. México: Iberoamérica. Freund, W. y Perles (1990). Estadística para la Administración. Un enfoque moderno. México: Prentice Hall. Glass, G. V. y Stanley, J. C. (1980). Métodos estadísticos aplicados a las Ciencias Sociales. México: Ed. Prentice Hall Hispanoamericana. Hopkins, Kenneth D., B. R. Hopkins y G. V. Glass (1997). Estadística básica para las ciencias sociales y del comportamiento. México: McGraw-Hill. Johnson, R. y P. Kuby (2004). Estadística elemental, lo esencial. México: Thomson, 3a edición. Johnson, R. (1996). Elementary Statistics. California, USA: Ed. Belmont, Duxbury. Kazmier Leonard y Mata Alfredo (1993). Estadística aplicada a la administración y a la economía. México: McGraw-Hill Serie Shaums. Kenned, J. B. y Neville A. M. (1974). Estadística para Ciencias e Ingeniería. México: Harla & Row Latinoamericana. Lassar G. G. (1969). Estadística Descriptiva. Texto programado. México. Editorial Limusa. Levin, R. I., D. S. Rubin, M. Balderas, J. C. Del Valle y R. Gómez (2004). Estadística para administración y economía. México: Pearson Educación, 7a edición. Levine, D. M., T. C. Krehbil y M. L. Berenson (2006). Estadística para adminitración. México: Pearson Educación, 4a edición. Lind, D. A., W. G. Marchal y S. A. Wathen (2005). Estadística aplicada a los negocios y la economía. México: McGraw- Hill, 12ª edición. Lind, D. A., R. D. Mason y W. G. Marchal (2004). Estadística para administración y economía. México: Alfaomega, 11a edición. Martínez, C. (2001). Estadística básica aplicada. Bogotá, Colombia: ECOE Ediciones. Mendenhall, W., R. J. Beaver (2002). Introducción a la probabilidad y la estadística. México: Thomson.
CAPÍTULO 3 MEDIDAS RESUMEN
70
Martínez, C. (2002). Estadística y muestreo. Bogotá, Colombia: ECOE Ediciones. Mures, M. J. Coordinadora (2004). Problemas de estadística descriptiva aplicada a las ciencias sociales. Madrid: Pearson Educación -(Universidad Complutense de León). Newbold, P. (1997). Estadística para los negocios y la economía. México: Prentice Hall (Pearson Educación). Peña, D. y J. Romo (1997). Introducción a la estadística para las ciencias sociales. Madrid: McGraw-Hill. Pérez, C. (2002). Estadística aplicada con EXCEL. Madrid: Pearson Educación-(Universidad Complutense de Madrid). Pérez, C. (2003). Estadística. Problemas resueltos y aplicaciones. Madrid: Pearson Educación -(Universidad Complutense de Madrid). Pulido S. R. (1978). Estadística y técnicas de Investigación. Madrid: Ediciones Pirámide. Rickmers, A. D. y Todd H. N. (1971). Introducción a la estadística. Barcelona: España. Compañía Editorial Continental S.A. Ritchey, F. J. (2002). Estadística para ls ciencias sociales. El potencial de la imaginación estadística. México: McGRAW-Hill. Stevenson, W. J. (1981). Estadística para administración y economía. Conceptos y aplicaciones. México: Alfaomega-Oxford. Runyon Haber (1984). Estadística para las Ciencias Sociales. México: Fondo Educativo Interamericano. Triola, M. F. (2004). Estadística elemental. México: Pearson Educación, 9a edición. Webster, A. L. (2000). Estadística aplicada a los negocios y la economía. México: McGraw-Hill, 3a edición. Weiers, R. M. (2006). Introducción a la estadística para negocios. México: Thomson, 5a edición. Weinberg, S. L. y G. Kenneth (1982). Estadística básica par alas ciencias sociales. México: Nueva Editorial Interamericana.