medidas resumen - estadística descriptiva...

CAPÍTULO 3 MEDIDAS RESUMEN

1

3

MEDIDAS RESUMEN

OBJETIVOS Al término de la unidad el alumno podrá: 3.1 Comprender las medidas como una herramienta más que describe los

datos obtenidos en una investigación social o de la vida diaria. 3.2 Comprender los significados de las diferentes medidas de tendencia

central. 3.3 Calcular las diferentes medidas de tendencia central para datos no

agrupados y agrupados. 3.4 Comprender los significados de las diferentes medidas de posición. 3.5 Calcular las medidas de posición para datos no agrupados y agrupados. 3.6 Comprender los significados de las diferentes medidas de dispersión en

valor absoluto y en valor relativo. 3.7 Calcular las diferentes medidas de dispersión para datos no agrupados y

agrupados. 3.8 Diferenciar variancia y desviación estándar, de una muestra y de una

población 3.9 Comprender el significado de la desviación estándar al ser aplicada la

regla empírica y el teorema de Chebyshev. 3.10 Entender el significado de sesgo y curtosis. 3.11 Calcular las medidas de forma para datos no agrupados y agrupados. 3.12 Entender las gráficas de caja- bigote y curva normal. 3.13 Construir las gráficas caja-bigote y curva normal como recursos para el

análisis del comportamiento de datos, basado en el cálculo de algunas medidas resumen.

3.14 Aplicará las medidas resumen identificando las que mejor se adecuen a situaciones particulares.


2

3

MEDIDAS RESUMEN

3.1 Medidas resumen, 8 3.2 Medidas de tendencia central, 8

3.2.1 Media aritmética, 8 3.2.2 Media geométrica, 12 3.2.3 Media armónica, 14 3.2.4 Comparación teórica entre media aritmética, geométrica y

armónica, 17 3.2.5 Mediana, 17 3.2 6 Moda, 20 3.2.7 Comparación entre media, mediana y moda, 23 3.2.8 Rango medio, 24 3.2.9 Eje medio, 26 3.2.10 Cuadro resumen de las medidas de tendencia central, 27

3.3 Medidas de posición, 30

3.3.1 Cuantiles: cuartiles, deciles y percentiles, 30 3.4 Medidas de variabilidad, 37

3.4.1 Rango, 38 o Intercuartílico, 39

3.4.2 Desviación media, 41 3.4.3 Varianza, 45 3.4.4 Desviación estándar, 50 3.4.5 Interpretación de la desviación estándar, 53

o Regla empírica, 53 o Teorema de Chebyshev, 54

3.4.6 Coeficiente de variación, 55 3.4.7 Puntuaciones estandarizadas (puntuaciones z), 56 3.4.8 Cuadro resumen de las medidas de variabilidad, 57


3

3.5 Medidas de forma, 60

3.5.1 Asimetría, 60 3.5.2 Curtosis, 60

3.6 Representaciones gráficas, 61 3.6.1 Caja-bigote, 61 3.6.2 Curva normal, 61 Resumen del capítulo, 62 Glosario, 64 Fórmulas, 65 Respuestas a Autoexámenes, 69 Bibliografía, 70


4

Objetivo general: Identificar a las medidas descriptivas o medidas resumen como un recurso de análisis que concentran la información más relevante de un conjunto de datos.

Objetivos de aprendizaje del capítulo

Apartados del capítulo

3.1 Comprender las medidas como una herramienta más que describe los datos obtenidos en una investigación social o de la vida diaria.

3.2 Comprender los significados de

las diferentes medidas de tendencia central.

3.3 Calcular las diferentes medidas de tendencia central para datos no agrupados y agrupados.


las diferentes medidas de posición.

3.5 Calcular las medidas de posición para datos no agrupados y agrupados.


las diferentes medidas de dispersión en valor absoluto y en valor relativo.

3.7 Calcular las diferentes medidas de dispersión para datos no

3.1 Medidas resumen 3.2 Medidas de tendencia central

3.2.1 Media aritmética 3.2.2 Media Geométrica 3.2.3 Media Armónica 3.2.4 Comparación teórico entre

media aritmética, geométrica y armónica

3.2.5 Mediana 3.2 6 Moda 3.2.7 Comparación entre media,

mediana y moda 3.2.8 Rango medio 3.2.9 Eje medio 3.2.10 Cuadro resumen de

medidas de tendencia central

3.3 Medidas de posición

3.3.1 Cuantiles: cuartiles, deciles y percentiles

3.4 Medidas de dispersión

3.4.1 Rango

Intercuartílico

Interpercentílico 3.4.2 Desviación media 3.4.3 Varianza


5

agrupados y agrupados. 3.8 Diferenciar variancia y desviación estándar, de una

muestra y de una población 3.9 Comprender el significado de la

desviación estándar al ser aplicada la regla empírica y el teorema de Chebyshev.

3.10 Entender el significado de

sesgo y curtosis. 3.11 Calcular las medidas de forma

para datos no agrupados y agrupados.

3.12 Entender las gráficas de caja-

bigote y curva normal. 3.13 Construirá los gráficos caja-

bigote y curva normal como recursos para el análisis del comportamiento de datos, basado en el cálculo de algunas medidas resumen.

3.14 Aplicará las medidas resumen

identificando las que mejor se adecuen a situaciones particulares.

3.4.4 Desviación estándar

3.4.5 Teorema de Chebyshef 3.4.6 Coeficiente de variación 3.4.7Puntuaciones

estandarizadas (puntuaciones z)

3.4.8Cuadro resumen de las medidas de variabilidad

3.5 Medidas de forma

3.5.1 Asimetría 3.5.2 Curtosis

3.6 Representaciones gráficas

3.6.1 Caja-bigote 3.6.2 Curva normal


6

Pafnuti L. Vovich Chebyshef1

Nació el 4 de mayo de 1821 en la aldea rusa de Okatovo. De niño mostraba gran satisfacción inventando juguetes mecánicos. Su madre le dio sus primeras clases de lectura y escritura, y su prima las de Aritmética y Francés. En el año 1832 la familia Chebyshev se trasladó a Moscú para facilitar a sus hijos la preparación para los estudios superiores y la asistencia a la Universidad. A los 16 años se matriculó en la Facultad de Física y Matemáticas de la Universidad de Moscú y acabó la carrera en 1841 con un trabajo de ecuaciones algebraicas premiado con una medalla.

Sus años universitarios fueron de gran importancia para él, pues no sólo adquirió sólidos conocimientos sino que, al mismo tiempo, recibió de destacados profesores importantes impulsos y estímulos para su propio trabajo. En 1846, a los 25 años de edad, hizo su tesis de Magister y a los 29 años era ya catedrático de la Universidad de Petersburgo.

Desempeñó un importante papel como creador de la escuela matemática de Petersburgo. En sus clases, impartidas de modo cautivador, intercalaba a menudo observaciones históricas sobre cualquier problema matemático. Ayudaba a los estudiantes a superar muchas dificultades con valiosos consejos. Les proponía para el estudio personal problemas que prometían importantes e interesantes soluciones y evaluaba trabajos para oposiciones y tesis doctorales. Una vez a la semana recibía en su casa a todos los estudiantes y jóvenes científicos que buscaban consejo en cuestiones matemáticas.

Chebyshev poseía la rara habilidad de ofrecer a los jóvenes problemas atractivos y ricos en variantes, que siempre los entusiasmaban de nuevo por los estudios y por las Matemáticas. Algunos de sus discípulos han destacado y para muestra basta un botón; podemos citar a Markov cuyas famosas cadenas de Markov, del campo de probabilidades, han tenido aplicación en el estudio y la evolución de la propagación de cierto tipo de cáncer que seguían uno de los modelos de las llamadas cadenas de Markov.

Llevó una vida totalmente dedicada a la ciencia ya que permaneció soltero y murió inesperadamente el 26 de Noviembre de 1894. Es conocido por su trabajo en el área de la probabilidad y estadística. La desigualdad de Chebyshev se emplea para la demostración de la ley de los grandes números y el teorema de Bertrand-Chebyshev (1845-1850). Se considera a Chebyshev uno de los fundadores de la matemática rusa. Entre sus estudiantes estuvieron Dmitry Grave, Aleksandr Korkin, Aleksandr Lyapunov y Andrei Markov, conocidos y prolíficos matemáticos. De acuerdo al Mathematics Genealogy Project, Chebyshev tiene alrededor de 4.000 descendientes matemáticos.

1 www.mundofree.com/jesusgomez/CHEBYSHEV.htm

http://es.wikipedia.org/wiki/Probabilidad

http://es.wikipedia.org/wiki/Estad%C3%ADstica

http://es.wikipedia.org/wiki/Rusia

http://es.wikipedia.org/w/index.php?title=Dmitry_Grave&action=edit

http://es.wikipedia.org/w/index.php?title=Dmitry_Grave&action=edit

http://es.wikipedia.org/w/index.php?title=Aleksandr_Korkin&action=edit

http://es.wikipedia.org/w/index.php?title=Aleksandr_Lyapunov&action=edit

http://es.wikipedia.org/wiki/Andrei_Markov

http://es.wikipedia.org/w/index.php?title=Mathematics_Genealogy_Project&action=edit

http://es.wikipedia.org/w/index.php?title=Descendiente&action=edit


7

3.1 MEDIDAS RESUMEN

Dentro del manejo de la información numérica, un análisis de datos no se limita a la presentación de ellos mediante gráficas y tablas, sino además comprende el cálculo, resumen y análisis de las características importantes de una muestra o una población. Como ya se mencionó anteriormente en el capítulo 1 a estas medidas descriptivas o medidas resumen se le llama estadísticos cuando se calculan a

partir de una muestra ( ˆ ) y parámetros ( ) cuando se generan a partir de una población.

De forma general, las medidas resumen descriptivas se dividen en:

Centralización o tendencia central. Se refiere a los valores centrales respecto a los que la mayoría de los datos tienden a agruparse.

Posición. Dividen un conjunto ordenado de datos en subconjuntos iguales que contiene la misma cantidad de datos.

Dispersión. Indican la mayor o menor concentración de datos con respecto a las medidas de centralización.

Forma. Implica dos características que tiene relación con la simetría y el apuntamiento o curtosis que presenta la distribución de los datos.

Estas medidas resumen pueden ser calculadas tanto para datos no agrupados como agrupados, es decir, pueden generarse a partir de los datos sin procesar o también calcularse a partir de datos resumidos en una tabla de frecuencias.

3.2 MEDIDAS DE TENDENCIA CENTRAL En el capítulo anterior, se mencionó que la presentación gráfica de los datos proporciona una descripción general de los datos en cuanto a su comportamiento, sin embargo, ésta no permite un tratamiento estadístico de los mismos, para ello se utilizan algunas otras medidas denominadas de tendencia central en las que se puede observar cómo se agrupan la mayoría de los datos alrededor de un valor central. 3.2.1 MEDIA ARITMÉTICA

La media aritmética, es un valor central que se obtiene al calcular el promedio aritmético

de un conjunto de datos, se denota como x (“x” barra) si se obtuvo de una muestra y (letra griega mu) si la medida se obtiene de la población. El cálculo de la media se realiza con ayuda de las siguientes fórmulas:

Poblacional Muestral


8

donde: x = Media muestral

= Media poblacional N = Número de elementos en la población n = Número de elementos en la muestra fi= Frecuencia de la clase o del intervalo i xi =Marca de clase del intervalo i

N

i

ii xf1

)*( Suma de todos los productos fi*xi

En la carrera de Relaciones Internacionales de la Universidad Hispanoamericana se obtuvo una muestra de 33 alumnos del grupo 2001, de los que se registró la edad en la tabla que se presenta a continuación.

a. Calcula el promedio aritmético para las edades del grupo

Para el cálculo de la media, es preciso notar que debido a que los datos no están agrupados y se generaron a partir de una muestra, por lo tanto la fórmula a utilizar es la siguiente:

n

x

x

n

i

i

1

18 19 18 17 19 20 17 18 18 19 20 22 19 19 18 17 18 19 19 18 17 17 17 18 19 19 18 19 20 19 18 18 21

Datos no agrupados

N

xN

i

i

1 (3.1) n

x

x

n

i

i

1 (3.2)

donde:

= Media poblacional N = Número de elementos en la población x = Media muestral n = Número de elementos en la muestra

i

N

i

x1

Suma de todos los datos

Datos agrupados

N

xfN

i

ii

1

)(

(3.3) n

xf

x

n

i

ii

1

)(

(3.4)

EJEMPLO 3.1

SOLUCIÓN


9

x = 18+19+18+17+…+19+18+18+21=612/33=18.54

El número de cheques que se cobran en el Banco Santander durante el mes de abril fueron:

Clase f

0-199 10

200-399 13

400-599 17

600-799 42

800-999 18

a. Calcula la media aritmética del monto de los cheques que cobra el banco al mes

Como los datos son totales, respecto al registro mensual, se asume que son poblacionales y debido a que se presentan de forma agrupada ya que están resumidos en la tabla de frecuencias, por lo que se debe utilizar la fórmula (3.3):

N

xfN

i

ii

1

)(

Clase f pm f *xi

0-199 10 99.5 995

200-399 13 299.5 3893.5

400-599 17 499.5 8491.5

600-799 42 699.5 29379

800-999 18 899.5 16191

Total 100 Total 58950

El cálculo de la media se realiza a partir de la suma de cada una de las frecuencias multiplicadas por la marca de clase y dividido entre el número total de datos. Para este caso el cálculo es el siguiente:

50.589100

16191293795.84915.3893995

EJEMPLO 3.2

SOLUCIÓN


10

Observa que, tanto para datos agrupados como para no agrupados, la esencia del cálculo es la misma, ya que se refiere a la suma de los datos divididos entre el total de los mismos.

Una de las ventajas de la media es que es un concepto que resulta claro, además de ser la medida de tendencia central más utilizada, por otra parte, para cada conjunto de datos existe una y sólo una media. Otra ventaja es que permite realizar comparaciones entre dos o más grupos de datos.

Dentro de las desventajas que presenta la media, la primera es que, aún cuando el cálculo de la media toma en cuenta cada uno de los valores, ésta es afectada por la presencia de valores extremos, para evitar esto será necesario eliminar los casos atípicos.

Por otra parte, si se cuenta con muchos datos, el cálculo de la media para datos no agrupados es tedioso, por lo que se recomienda llevarlo a cabo a partir de una tabla de frecuencias, y por último, si el cálculo de la media se realiza para datos agrupados a partir de una tabla de frecuencias con intervalos abiertos, el cálculo de la media resulta imposible.

Autoexamen 3.1

Las respuestas se encuentran al final del capítulo.

1. En una oficina del sector público que se localiza en un centro comercial, donde se atienden quejas relacionadas con el servicio telefónico desarrolló un proceso para atender a sus clientes durante una hora pico. Se registró el tiempo de espera en minutos de una muestra de 15 clientes desde el momento de su llegada hasta el momento en que los atendieron.

4.21 5.55 3.02 5.13 4.77 2.34 3.54 3.20 4.50 6.10 5.38 5.12 6.46 6.19 3.79

a. Calcula la para el tiempo de espera de los clientes desde el momento en que llegan hasta que son atendidos.

2. La edad de los residentes de la Casa Hogar La Luz tiene la siguiente distribución:

Clase Frecuencia 47-51.9 4 52-56.9 9 57-61.9 13 62-66.9 42 67-71.9 39


11

72-76.9 20 77-81.9 9

a. Calcula la media aritmética de edad de los residentes de este lugar.

3.2.2 MEDIA GEOMÉTRICA

En ocasiones es necesario conocer la tasa promedio de variación que presenta un grupo de datos que cambian cada cierto periodo. La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc. Donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. La media geométrica de una cantidad finita de n números es la raíz n-ésima del producto de todos los números y se denota como M.G.

n valoreslostodosdeproductoGM.

nnxxxxGM ))...()()((. 321 (3.5)

Sólo es relevante la media geométrica si todos los números son positivos, si uno de ellos es 0, entonces el resultado es 0. Si existe un número negativo impar, entonces la media geométrica es negativa o bien inexistente en los números reales.

Las siguientes son las cifras de las Green Cards otorgadas por el gobierno de Estados Unidos de América a mexicanos durante el periodo 2001-2005.

2001 2002 2003 2004 2005

14,310 15,600 15,741 15,965 17,630

a. Calcula el promedio aritmético de Green Cards otorgadas durante estos cinco años

Para el cálculo de la media geométrica, es preciso notar que debido a que los datos no están agrupados y se generaron a partir de una muestra, por lo tanto la fórmula a utilizar es la siguiente:

n

nxxxxGM ))...()()((. 321

15,814.07 17630*15965*15741*15600*14310. 5GM

EJEMPLO 3.3

SOLUCIÓN


12

Cuando las observaciones estan agrupadas en clases y se tienen valores numéricos grandes, no es conveniente utilizar la fórmula siguiente:

n fn

n

fffxxxxGM ))...()()((.

3

3

2

2

1

1

Es mejor la expresión matemática que involucra a los logartmos en base 10, ya que los valores que se encuentran son pequeños y por lo tanto fáciles de manejar:

xfn

antiGn

i

i log1

log1

(3.6)

Es conveniente mencionar que, dependiendo del tipo de datos que se estén analizando, será conveniente utilizar la media aritmética o la media geométrica.

Una de las ventajas que presenta la media geométrica es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información. Sin embargo, presenta el inconveniente de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad.

Autoexamen 3.2


1. Una fábrica de telas ha elevado el costo de tul en un periodo que abarca los últimos cinco años en los siguientes porcentajes.

1989 1990 1991 1992 1993

5% 10.5% 9.0% 6.0% 7.5%

a. Calcula la media geométrica para este periodo 2. Un sociólogo ha estudiado el número de procesados asignados al

Reclusorio Norte. Los datos están expresados en términos de aumento porcentual en el número de presos (un número negativo indica una disminución porcentual).


13

1988 1989 1990 1991 1992 1993

-4% 5% 10% 3% 6% -5%

a. Calcule el aumento porcentual promedio de 1988 a 1993

Consejo:

El término promedio en algunas ocasiones se utiliza para señalar cualquier medida de tendencia central y, en forma particular para identificar a la media. Por esta ambigüedad, es conveniente no usar el término cuando se alude a una medida de tendencia central específica. En su lugar, se deberá señalar el término concreto, tal como media, mediana, moda, rango medio y eje medio. Cuando en algún medio de comunicación se reporte un valor como promedio, se prestará a entenderse que el valor puede ser el resultado de cualquiera de las distintas definiciones.

3.2.3 MEDIA ARMÓNICA

La media armónica, aunque no es utilizada tan frecuentemente como la media aritmética, se aplica cuando se requiere promediar razones. La razón usualmente indica la relación entre dos tipos diferentes de unidades, por lo que para estos casos es conveniente la aplicación de la media armónica cuando se trata de promediar valores que son expresados en diferentes unidades. Por ejemplo, si una persona caminó 10 millas en dos horas, esta razón puede ser expresada de la siguiente forma:

51

5

2

10

horas

millas

horas

millas millas por hora

5

1

10

2

millas

horas horas por milla

La media armónica de una cantidad finita de números es igual al recíproco, o inverso, de la media aritmética de los recíprocos de dichos números y se representa por H. Así, dados los números x1, x2, ..,xn, la media armónica será igual a:

http://es.wikipedia.org/wiki/Rec%C3%ADproco


14

Tres autos recorren en una competencia 100000 kilómetros. Sus recorridos están dados en la siguiente tabla:

Auto Km por hora

A 90

B 80

C 100

a. Calcula el promedio del recorrido de los tres autos

Para el cálculo de la media armónica, lo primero que se tiene que calcular es el recíproco o la razón de cada competidor.

Auto Km por hora

A 1/90

B 1/80

C 1/100

En seguida se calcula la media armónica

Datos no agrupados )1

...1

(1

1 ni

n

i ixx

n

x

nH

(3.7)

donde:

H = Media armónica 1/xi= Recíproco del valor xi n = Número de elementos en la muestra

ix Suma de todos los recíprocos de cada dato xi

Datos agrupados )1

*(1

n

i i

ix

f

nH

(3.8)

donde: xi= Marca de clase del intervalo fi= Frecuencia del intervalo i n= Suma de las frecuencias absolutas

EJEMPLO 3.4

SOLUCIÓN


15

2400003

720000

3

100

1

80

1

90

1

H kilómetros por hora

La media armónica resulta poco influida por la existencia de valores extremos altos con relación al conjunto, siendo en cambio más sensible a valores extremos pequeños. La media armónica no está definida en el caso de la existencia en el conjunto de valores nulos o ceros. Esta medida se utiliza comúnmente para promediar velocidades, tiempos, rendimiento, etc.

A continuación se presenta el número de reportes que se reciben en el departamento de soporte técnico de la compañía EDS tomadas de una muestra de 10 días.

Para el cálculo de la media armónica para datos agrupados se requiere calcular

8

2

6

4

4

3

2

1

10

8

12

6

14

4

13

2

11

10H

561.452

240

24

52

10

24

616182

10H

clases f

1-3 1

3-5 3

5-7 4

7-9 2

clases Marca de clase f

1-3 2 1

3-5 4 3

5-7 6 4

7-9 8 2

SOLUCIÓN

EJEMPLO 3.5


16

Por lo tanto, el promedio de reportes que se esperan por día es 5.

3.2.4 COMPARACIÓN TEÓRICA ENTRE MEDIA ARITMÉTICA, GEOMÉTRICA Y

ARMÓNICA Entre la media aritmética, la media geométrica y media armónica se da siempre la siguiente relación:

XGH

3.2.5. MEDIANA

La mediana de un conjunto finito de valores es el valor que divide al conjunto en dos partes iguales, de forma que el número de valores mayor o igual a la mediana es igual al número de valores menores o igual a estos. Su aplicación se ve limitada ya que solo considera el orden jerárquico de los datos y no las propiedades de los

datos, como sucede en el caso de la media. La mediana se denota por eM o x~ .

Para el cálculo de la mediana lo primero que se requiere es ordenar los datos en forma ascendente o descendente (cualquiera de los dos criterios conducen al mismo resultado), después se aplica la fórmula siguiente según sea el caso.

Para el caso de datos no agrupados en el que el número de valores es impar, el valor central es único, pero cuando el número de valores en el conjunto es par, no existe un solo valor medio, existen dos valores medios y por lo tanto, la mediana es el promedio de los mismos.

Par Impar

Datos no agrupados )

2

1(:n

M e

(3.9)

n=Número de elementos del arreglo


17

Datos agrupados i

f

fn

LMemediana

iacum

i *2)1(

(3.10)

donde:

Li = Limite real inferior donde se encuentra la clase mediana

Clase mediana se ubica al encontrar 2n

en la frecuencia acumulada de la distribución n = Número de observaciones o frecuencia total.

1iacumf = frecuencia acumulada anterior a la clase mediana.

medianaf= Frecuencia absoluta de la clase mediana

i = Ancho de la clase en la que se encuentra la clase mediana

Algunas ventajas de la mediana es que al igual que la media es que es un valor único, es sencilla en su cálculo y como es un valor medio respecto a la ubicación, los valores extremos no tienen efectos importantes sobre el cálculo de la misma, situación que si ocurre con la media.

Dados los tiempos de ensamble de un juguete “x” en el área de electrónicos. A partir de los tiempos registrados para siete trabajadores diferentes. Calcule la mediana para este conjunto de datos.

Como primer paso se debe ordenar el arreglo anterior

Juguete 1 2 3 4 5 6 7

Tiempo 4.2 4.3 4.7 4.8 5.0 5.1 9.0

Una vez ordenado el arreglo, se observa que el número de datos es impar

42

17

2

1nM e

Juguete 1 2 3 4 5 6 7

Tiempo 9.0 4.3 4.7 4.2 5.1 5.0 4.8

EJEMPLO 3.6

SOLUCIÓN


18

Por lo que el valor de la mediana es aquel que se ubica en la cuarta posición contando de derecha a izquierda o viceversa. Para este caso el valor de la 8.4~x

En el Hospital General, se registraron las edades de las atenciones médicas brindadas por el hospital. Calcula la mediana para los siguientes datos.

Tabla de frecuencias de edad según el número de atenciones en un fin de semana

Intervalos

Marca de clase

ix

if acumuladaf

[10-20) 15 8 8

[20-30) 25 20 28

[30-40) 35 14 42

[40-50) 45 8 50

[50-60) 55 2 52

[60-70) 65 2 54

[70-80) 75 1 55

55

Para calcular la mediana, lo primero que se tiene que ubicar es la clase mediana. Dado que n = 55 la clase mediana se

ubica según 5.262/n , por lo tanto donde se ubica la clase mediana es el intervalo que corresponde a [20-30). Ahora es necesario determinar lo siguiente:

20iL

8)1(iacumf

20medianaf 10i

Sustituyendo en la ecuación tendremos:

if

fn

LMemediana

iacum

i *2)1(

EJEMPLO 3.7

SOLUCIÓN


19

75.2910*20

82

55

20Me

Por lo tanto se concluye que el 50% de las personas atendidas en un fin de semana por el hospital tienen una edad inferior a los 20.926 años.

3.2.6 MODA

La moda de un conjunto de datos, que suele representarse por Mo; es el valor que ocurre con mayor frecuencia, es decir, es el dato que se presenta en más ocasiones.

Cuando ningún valor se repite, se dice que no existe moda. Cuando dos valores ocurren con la misma frecuencia y ésta es la más alta,

ambos valores son moda, por lo que se dice que el conjunto de datos es bimodal.

Cuando más de dos valores ocurren con la misma frecuencia y ésta es la más alta, todos los valores son moda, por lo tanto el conjunto de datos es multimodal.

Lo anterior se puede visualizar en forma gráfica en la siguiente figura:

Datos no agrupados Valor o valores con frecuencia mayor

Datos agrupados i

dd

dLMo Mo *

21

1

(3.11)

Sin moda


20

donde:

LMo = Límite real inferior de la clase modal

Clase modal= Ubicación de la clase donde la frecuencia sea mayor

d1 = Frecuencia de la clase modal menos la frecuencia que se encuentra por debajo de ella.

d2 = Frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente por encima de ella

i = Ancho de la clase o intervalo de la clase modal

Se tomaron los tiempos de ensamble de un juguete “x” en el área de electrónicos durante tres días seguidos, tiempos que se registraron en la siguiente tabla. Calcule la moda para el los días 1, 2 y 3.

Al observar el conjunto de datos y la definición del concepto moda, se puede concluir que para estos datos tomados durante tres días seguidos, se tiene que:

a) En el día 1 no existe moda b) Para el día 2, la moda es el tiempo 5.1 y a este caso se

le denomina unimodal c) El día 3 presenta tres valores que se repiten dos veces

cada uno de ellos, los cuales son 5.1, 5.0 y 4.8. Por lo que a este caso se le denomina multimodal.

Día 1

Juguete 1 2 3 4 5 6 7

Tiempo 9.0 4.3 4.7 4.2 5.1 5.0 4.8

Día 2

Juguete 1 2 3 4 5 6 7

Tiempo 5.1 4.3 5.1 4.2 5.1 5.0 4.8

Día 3

Juguete 1 2 3 4 5 6 7

Tiempo 4.8 5.0 4.7 4.7 5.1 5.0 4.8

EJEMPLO 3.6

SOLUCIÓN

EJEMPLO 3.8


21

Cuando se trata de datos agrupados, el cálculo de la moda se lleva a cabo mediante la fórmula 3.10. Retomando el ejemplo del Hospital General durante un fin de semana. La clase modal se ubica en la clase donde se encuentre la mayor frecuencia, para este caso es [20-30), por lo tanto:

Tabla de frecuencias de edad según el número de atenciones en un fin de semana

Intervalos

Marca de clase

ix

if

[10-20) 15 8

[20-30) 25 20

[30-40) 35 14

[40-50) 45 8

[50-60) 55 2

[60-70) 65 2

[70-80) 75 1

55

20MoL 128201d 614202d 10i

66.2666.62010*)666(.2010*612

1220Mo

La moda, por ser una medida de posición central, tiene la ventaja de que es adecuada tanto para datos cualitativos como cuantitativos, no se ve afectada por valores extremos y se puede utilizar aún cuando una o más clases sean de extremo abierto2. 2 Los intervalos se clasifican según sus características en:

EJEMPLO 3.9

SOLUCIÓN


22

Es importante señalar que la moda también puede obtenerse no solo para datos numéricos sino también en datos categóricos. Observe la siguiente tabla.

Resultados de la votación para Presidente de los EUM por entidad Federativa

AGUASCALIENTES Para el caso de datos categóricos el concepto de la moda sigue siendo semejante que para datos de tipo numéricos, observe que para este ejemplo la moda corresponde al Partido de Acción Nacional (PAN) que tiene la frecuencia más alta en votos. 3.2.7. COM PARACIÓN ENTRE MEDIA, MEDIANA Y MODA Las distribuciones presentan una característica denominada sesgo, el sesgo habla de la agrupación del conjunto de datos o una mayor concentración hacia la

o Acotados [a,b] [a, b) (a,b] (a,b)

o No acotados (- , a] (- , a) [a, ) (a, )

A su vez se denominan cerrados o abiertos según entren o no los extremos. Así por ejemplo:

o [2,3] es cerrado o (3,6] es abierto a la izquierda y cerrado a la derecha o (4, 5) abierto o [7,9) es cerrado a la izquierda y abierto a la derecha

Partido No. de votantes

PAN 193588

PRD 89920

PRI

97513

ALTERNATIVA 1275

ALIANZA

5597


23

izquierda si es un sesgo positivo o hacia la derecha si es un sesgo negativo. Es importante mencionar que cuando en un conjunto de datos la media=mediana=moda se hace referencia a una distribución simétrica, lo que gráficamente significaría que:

En una distribución sesgada a la derecha (positiva). Para determinar el valor de la moda, primero se ubica el punto más alto de la curva (x,y) y el valor de la moda es el que toma la abscisa (x); la mediana se encuentra a la derecha de la moda y la media se presenta a la derecha de la mediana.

En una distribución sesgada a la izquierda (negativa), el valor de la moda es el que toma la abscisa (x), pero el valor de la mediana se encuentra a la izquierda y la media se encuentra con un valor por debajo de la mediana.

3.2.8 RANGO MEDIO

= = x~x x̂

x̂

x

x~(x,y)

x~x̂

x

(x,y)


24

El rango medio es una medida de tendencia central que permite ubicar el centro a partir de los valores extremos, también es llamado alcance.

Datos no agrupados

Datos agrupados3 2

MenorMayor DDRangomedio

(3.12)

Seguros Atlas registra la edad de sus asegurados para el llevar a cabo el cálculo de las primas

El rango medio se utiliza generalmente en análisis de tipo financiero, meteorológicos porque es una medida resumen sencilla, rápida y adecuada que caracteriza a todo un conjunto de datos. La desventaja de esta medida es que cuando se utiliza en datos como acciones al cierre o lecturas de temperaturas o cualquier conjunto que no contenga datos extremos. Por lo que hay que tener mucho cuidado al utilizar el rango medio, ya que como sólo toma en cuenta dos valores. Así, cuando existe un valor atípico no es muy conveniente utilizar el rango medio.

Autoexamen 3.2


De acuerdo con el siguiente conjunto de datos que se registraron como minutos de espera para la evaluación de una cajera en una sucursal bancaria fueron de 7,4,9,7,3,10, 4, 3, 5

a. Calcula el rango medio del conjunto de datos. b. Explica si resulta recomendable utilizar para este conjunto de

3

Para datos agrupados se toma el Li de la primera clase y el Ls de la última clase como dato menor y mayor respectivamente

EJEMPLO 3.10

SOLUCIÓN


25

datos el rango medio como resumen.

3.2.9 EJE MEDIO

El eje medio es una medida resumen que se utiliza para superar posibles problemas que introducen los valores extremos de los datos, ya que utiliza para su cálculo los cuarteles, que son medidas de posición “no central” que se utilizan para resumir grandes cantidades de datos.

Datos no agrupados 2

31 QQEjemedio

(3.13)

donde:

Q1= primer cuartil

Q3= tercer cuartil

Debido a que los cuartiles son denominadas medidas de posición o ubicación, el cálculo de las mismas se verá a fondo en la siguiente sección. A continuación se presenta un cuadro resumen de las medidas de tendencia central más importantes y algunas de sus propiedades.


26


27

3.2.10 CUADRO RESUMEN DE LAS MEDIDAS DE TENDENCIA CENTRAL

Tabla 3.1 Comparación de las medidas de tendencia central Medias de tendencia

central

Definición REPRESEN-TACIÓN

SIMBÓLICA

¿Qué tan común

es?

Existencia ¿Toma en

cuenta cada

valor?

¿Se ve afectada por los valores extremos?

V: Ventajas y D: Desventajas

Media Es el promedio aritmético de un conjunto de datos y se obtiene al sumar todos los números y dividirlos entre el total de ellos

Muestral

( X )

La más común

Siempre existe

Sí Sí V: Es un concepto familiar para la mayor parte de la gente, se calcula en forma rápida y es aplicable en muchos procedimientos estadísticos D: Es inadecuada si se presenta una clase de extremo abierto en la parte inferior o superior de la escala, en el caso de datos agrupados

Poblacio-

nal ( )

Mediana Es el valor medio o el promedio aritmético de los valores medios de un conjunto ordenado de números

Md De uso común

Siempre existe

No No V: Puede calcularse para una distribución de clase abierta, si la mediana no se encuentra en dicha clase; se puede obtener para datos de nivel ordinal, de intervalo y de razón. Es una buena alternativa si hay algunos valores extremos. D: Se sacrifica exactitud al elegir un valor o un promedio aritmético de un par de valores, para representar una distribución.

Moda Es el valor que se presenta con más frecuencia en un

MO Menos común, pero, bajo

Podría no existir; podría

No No V: Ampliamente útil para datos en nivel de medición nominal y ordinal; se puede determinar para


28

conjunto de datos ciertas circuns-tancias, puede tener un valor singular.

haber más de una

cualquiera de los niveles de medición. Los valores extremos no la afectan en forma indebida y se pude obtener aun cuando se tenga una o más clases de extremo abierto. D: Es difícil de interpretarla y compararla cuando se tiene una distribución de frecuencias multimodal. En muchos de los conjuntos de datos no existe o cada valor es una moda. No es aprovechable para posteriores procedimientos estadísticos.

Media geométrica

Es la e-nésima raíz del producto de n valores positivos

G o MG Es común su empleo en las áreas de negocios y de economía

Siempre existe

Sí Sí V: Para su cálculo no se requiere la ordenación de los valores como para la obtención de otros valores medios. Su empleo cuando los datos se refieren a medidas de variaciones acumulativas o su aplicación en temas de correlación y números índices. D: No puede obtenerse por una simple ojeada de los datos; su valor no se calcula de manera tan sencilla como ocurre con la media. No puede usarse cuando en un conjunto de datos, uno de ellos es cero o negativo

Media armónica

Es el inverso de la media aritmética de los inversos de los n números

H De uso limitado

Siempre existe

Sí No V: Su empleo para promediar variables tales como productividades, velocidades, tiempos, rendimientos, tipos de


29

cambio. D: No es aconsejable en distribuciones de variables con valores pequeños y ningún valor puede ser cero, en virtud de que 1/0 esta indeterminado

Rango medio

Valor que está a la mitad, entre el valor más grande y el más bajo

RM Es común su empleo en las áreas de finanzas y de meteorología

Siempre existe

No Sí V: La manera sencilla de obtenerse. D: Si en el conjunto de datos se presenta un valor extremo, el rango medio no es apropiado.

Eje medio Es la suma del primer cuartil con el tercer cuartil dividida entre dos

EM De uso limitado

Siempre existe

No No V: No se ve afectado por valores extremos muy pequeños o muy grandes. D: Medida de tendencia central poco conocida y utilizada.

Comentarios generales: En una colección de datos aproximadamente simétrica (Una distribución es simétrica si la mitad izquierda de su histograma es

aproximadamente una imagen en espejo de su mitad derecha) todos los promedios tienden a ser iguales. En una colección de datos simétrica es conveniente trabajar con la media y la mediana. No existen criterios objetivos para determinar la medida de tendencia central más representativa para todos los conjuntos de datos. Cada

una de ellas ofrecen ventajas y desventajas, como anteriormente se han señalado. Deberá recordarse que en una investigación social se obtiene primero una distribución de frecuencias y después se calcula para cada

variable la medida de tendencia central más adecuada, de acuerdo a los propósitos de la investigación y los niveles de medición. La media aritmética se utiliza mucho y por lo general es lo que los investigadores citan cuando usan la palabra media.


30

3.3 MEDIDAS DE POSICIÓN 3.3.1 CUANTILES: CUARTILES, DECILES Y PERCENTILES Las medidas de posición “no central” también llamadas cuantiles (o fractiles) deben su nombre al número de partes en las que dividen a un conjunto de datos y se emplean como medidas resumen cuando se tienen grandes cantidades de datos numéricos, lo que significa que para cada intervalo existe el mismo número de valores. Cuando la distribución contiene un número alto de intervalos y se requiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, en diez o en cien partes, así son denominados cuartiles, deciles y percentiles según corresponda. Parecido a la mediana que divide un conjunto de datos exactamente por la mitad (el 50% de las observaciones) los cuartiles dividen el total de las observaciones en varios segmentos que corresponden a:

Q1:contiene el 25% de los datos

Q2:contiene el 50% del conjunto de datos

Q3:contiene el 75% del total de las observaciones La representación gráfica sería la siguiente: Otros cuantiles utilizados son los deciles que dividen al conjunto de datos en diez y los percentiles que lo dividen en cien partes iguales. Como se puede observar, los cuartiles dividen el total de datos en cuatro partes iguales y de acuerdo a la definición de la mediana, este valor corresponde también al del segundo cuartill o Q2.

Si se tienen una serie de valores X1, X2, X3 ... Xn entonces:


)1(:1

nQ

Valor mínimo Valor máximo

Q2

Q1 Q3

25%

100%

50%

75%


31

(3.14)

4

)1(3:3

nQ

(3.15)

donde:

Q1= primer cuartil

Q2= mediana=segundo cuartil

Q3= tercer cuartil

Las siguientes son las edades de una muestra de estudiantes tomada entre los asistentes a un curso en la compañía SPSS México. Calcule los cuartiles Q1, Q2 y Q3 para el conjunto de datos.

19 17 15 20 23 41 33 21 18 20 18 33 32 29 24 19 18 20 17 22 55 19 22 25 28 30 44 19 20 39

Para calcular el Q1, Q2 y Q3 es necesario ordenar los datos, recordemos que por ser un concepto similar al de la mediana, lo que se está calculando es la posición que divide al conjunto de datos en cuatro partes iguales. A continuación se presenta el arreglo de datos ordenados.

15 17 17 18 18 18 19 19 19 19 20 20 20 20 21 22 22 23 24 25 28 29 30 32 33 33 39 41 44 55

Para ello se utiliza la fórmula

4

)1(1

nQ 875.7

4

31

4

)130(1Q

Observe que el valor que corresponde a la posición 8 es el 19,

el valor Q1=19. La obtención del cuartil Q2 se obtiene a partir de

EJEMPLO 3.11

SOLUCIÓN

Q1

Q3 Q2


32

la fórmula para la mediana de datos pares, es decir, se calcula

el promedio de los dos valores centrales 21 y 22, por lo tanto:

5.212

22212 eMQ

El valor que divide al conjunto de datos en 50% por ciento es el

21.5. Para el cuartil Q3 se utiliza la siguiente fórmula:

2325.234

93

4

)130(3

4

)1(33

nQ

Gráficamente se puede observar lo siguiente:

Recuerda que o una tabla de frecuencias, los cuartiles se localizan mediante las siguientes fórmulas, cabe aclarar que la fórmula indica la posición del valor en el que se dividen los datos. :

Datos no agrupados

4

)1(1

nQ

4

)1(33

nQ

Valor mínimo

15

Valor máximo

55

Q2=21.5

Q1=19 Q3=30

25%

50%

75%

100%


33

(3.15)

donde:

Q1= Primer cuartil

Q2= Segundo cuartil

Q3= Tercer cuartil

Datos agrupados

)(: nrtilestotaldecua

doartildeseanúmerodecuCk

(3.16)

k

c

c

ikk if

dLC *

(3.17)

donde:

Ck= Cuantil k (recuerde que esta variable toma la letra Qk si se calcula cuartiles, Dk si son deciles y Pk si son percentiles)

Lik = Límite inferior real de la clase en la que se encuentra el cuartil k

n = Número de datos

dc = Diferencia entre el valor calculado del cuartil en estudio. Localiza su pocisión en la columna de frecuencia acumulada fa menos la frecuencia anterior

Fc = Frecuencia absoluta del intervalo donde se encuentra ubicado el cuartil en estudio

ik = Amplitud del intervalo o la clase donde se ubica el cuartil k

Las siguientes son las edades de una muestra de estudiantes tomada entre los asistentes a un curso en la compañía SPSS México. Calcule los cuartiles Q1, Q2 y Q3 para el conjunto de datos.

19 17 15 20 23 41 33 21 18 20 18 33 32 29 24 19 18 20 17 22

EJEMPLO 3.12


34

55 19 22 25 28 30 44 19 20 39 Para calcular el Q1, Q2 y Q3 es necesario ordenar los datos, recordemos que por ser un concepto similar al de la mediana, lo que se está calculando es la posición que divide al conjunto de datos en cuatro partes iguales. A continuación se presenta el arreglo de datos ordenados.

15 17 17 18 18 18 19 19 19 19 20 20 20 20 21 22 22 23 24 25 28 29 30 32 33 33 39 41 44 55

Para ello se utiliza la fórmula

4

)1(1

nQ 875.7

4

31

4

)130(1Q

Observe que el valor que corresponde a la posición 8 es el 19,

el valor Q1=19. La obtención del cuartil Q2 se obtiene a partir de

la fórmula para la mediana de datos pares, es decir, se calcula

el promedio de los dos valores centrales 21 y 22, por lo tanto:

5.212

22212 eMQ

El valor que divide al conjunto de datos en 50% por ciento es el

21.5. Para el cuartil Q3 se utiliza la siguiente fórmula:

2325.234

93

4

)130(3

4

)1(33

nQ

Gráficamente se puede observar lo siguiente:

SOLUCIÓN

Q1

Q3 Q2


35

El vicepresidente de una cadena de locales de comida rápida, estudia las ventas de 100 locales de comida que se encuentran en el Distrito Federal y ha preparado la siguiente tabla de frecuencias. Calcule los cuartiles para el siguiente conjunto de datos.

Para el cálculo de los cuartiles se utiliza la fórmula que corresponde a datos agrupados:

Ventas (miles de

pesos)

Frecuencia

700-799 4

800-899 7

900-999 8

1000-1099 10

1100-1199 12

1200-1299 17

1300-1399 13

1400-1499 10

1500-1599 9

1600-1699 7

1700-1799 2

1800-1899 1

Valor mínimo

15

Valor máximo

55

Q2=21.5

Q1=19 Q3=30

25%

50%

75%

100%

EJEMPLO 3.13

SOLUCIÓN


36

Paso #1 Calcular la frecuencia acumulada a partir de la tabla

Paso #2 Calculo de la ubicación de los cuartiles

25)100(4

1:1C

se ubica en el intervalo 1000-1099

50)100(4

2:2C


75)100(4

3:3C


100)100(4

4:4C


Paso #3 Se obtiene la diferencia entre el valor calculado y la frecuencia acumulada anterior al cuartil que se está calculando.

61925:1C 94150:2C

Ventas (miles de pesos) f fa

700-799 4 4

800-899 7 11

900-999 8 19

1000-1099 10 29

1100-1199 12 41

1200-1299 17 58

1300-1399 13 71

1400-1499 10 81

1500-1599 9 90

1600-1699 7 97

1700-1799 2 99

1800-1899 1 100


37

47175:3C 199100:4C

Paso #4 Sustituir en la fórmula 3.12 para los cuartiles

cuando los valores están agrupados en intervalos

5.1059605.999)100(10

65.9991Q

44.125294.525.1199)100(17

95.11992Q

5.1439405.1399)100(10

45.13993Q

5.18991005.1799)100(1

15.17994Q

3.4 MEDIDAS DE VARIABILIDAD

Si bien las medidas de tendencia central proporcionan información acerca de los valores particulares de un conjunto de datos, los investigadores en el campo de las ciencias sociales requieren de otras herramientas estadísticas que permitan obtener una descripción numérica más completa. Estas herramientas son las medidas de variabilidad, que describen la dispersión de un conjunto de datos. Por ejemplo, en las unidades de diagnóstico médico de la cadena Pfizer se mide el porcentaje de grasa corporal a una muestra aleatoria de 50 varones, realizado en un fin de semana y resulta que la mediana es de 25.8 %. ¿El porcentaje de grasa es normal en este grupo de hombres? La respuesta es no, de acuerdo con los valores nominales ya establecidos; pero ¿qué se puede esperar de los resultados de los otros hombres que se practicaron el estudio y no formaron parte de la muestra? ¿ellos también tiene un porcentaje de grasa de 25.8%?¿qué puede concluirse cuando se sabe que existen diagnósticos de algunas con porcentajes de grasa que van desde un 15% a un 32%. Las medidas de variabilidad proporcionan la información adicional necesaria para contestar estas preguntas. La figura 3.5.X muestra tres diferentes grupos cuyas distribuciones presentan que la media aritmética es la misma )50( pero las variabilidades difieren.

1=50 2=50 3=50


38

Al observar estas distribuciones se puede concluir que es necesaria una medida que permita complementar la información descriptiva que proporciona la media. Las medidas de variabilidad se clasifican en absolutas y relativas, como se ilustra a continuación.

Figura 3.5.XX Clasificación de las medidas de variabilidad

Es importante señalar que los métodos de cálculo de las medidas de variabilidad al igual que para las medidas de tendencia central y las de ubicación difieren para datos no agrupados y agrupados.

3.4.1 RANGO

La medida de dispersión más sencilla es el rango, también conocido por los expertos en estadística como alcance, recorrido o amplitud total, es de cálculo sencillo y se define como la diferencia entre el valor más grande del conjunto de datos y el valor más pequeño. Si bien el rango es fácil de calcular y de comprender, es una medida burda de variabilidad que sólo describe la distancia entre los límites exteriores del conjunto de datos; esto hace que sea una medida limitada de dispersión, además de que se ve afectada por valores atípicos. Un uso importante del rango es en el aseguramiento de calidad, donde el rango se utiliza para

MEDIDAS DE VARIABILIDAD

DATOS NO AGRUPADOS / DATOS AGRUPADOS

EN VALOR ABSOLUTO

RANGO

RANGO INTERCUARTIL

DESVIACIÓN MEDIA

EN VALOR RELATIVO

COEFICIENTE DE VARIACIÓN

VARIANZA

DESVIACIÓN ESTÁNDAR


39

construir gráficas de control4. La fórmula para la obtención del rango tanto para datos agrupados como no agrupados es la siguiente:

Datos no agrupados

Datos agrupados5

mM DDRango

(3.18)

A continuación se muestra en la tabla 3.2 que contiene información sobre el PIB trimestral a precios de 1993 en valores absolutos del 2004 hasta la fecha.

Tabla 3. 2

Valores absolutos del PIB a precios de 1993 en el sector servicios

Unidad de Medida: Miles de pesos a precios de 1993.

Periodo Servicios

2004/01 1,080,667,914

2004/02 1,107,526,001

2004/03 1,084,465,827

2004/04 1,158,798,626

2005/01 1,124,002,591

2005/02 1,155,367,126

2005/03 1,133,147,713

2005/04 1,204,293,569

2006/01 1,184,857,898

El rango de precios en servicios en este conjunto se calcula obteniendo la diferencia entre el valor más alto que es 1,204,293,569 y el valor mínimo 1,080,667,914. El resultado es 123,625,655.

o RANGO INTERCUARTIL

Otra medida de variabilidad es el rango intercuartil que se define como la diferencia entre tercer y el primer cuartil, es decir Q3 – Q1; en términos de percentiles, ésta es la distancia entre los valores 75% y 25% (P75 – P25). El rango intercuartil es especialmente útil en situaciones en donde los usuarios de datos están interesados en valores hacia el medio (rango del 50% central) y menos interesados en los extremos.

4 Gráficos de control. Establecidos por Shewhart como una manera de estimar la incertidumbre de

una medida y sus componentes a partir de información que se recolecta. 5 Para datos agrupados el DM –dato mayor– corresponde al límite superior de la última clase o

intervalo y el Dm –dato menor– corresponderá al límite inferior de la primera clase o intervalo


40

Datos no agrupados

Datos agrupados

257513 PPQQcuartilRangoInter

(3.19)

La siguiente tabla muestra las puntuaciones obtenidas por alcohólicos de sexo masculino que están en pleno proceso de rehabilitación (de una escala del 0 al 60 de valores continuos el especialista determina con base en pruebas bio-sicológicas la puntuación del paciente):

Puntuaciones hombres

0 - 5 1

5 - 10 7

10 - 15 12

15 - 20 19

20 - 25 27

25 - 30 28

30 - 35 26

35 - 40 17

40 - 45 13

45 - 50 9

50 - 55 3

55 - 60 1

El cálculo del rango intercuartil requiere a su vez la obtención de

los Q1 y Q3 para ello es necesario seguir el procedimiento ya visto

en el ejemplo ___.

puntaje f fa Li

real Ls

real

0 - 5 1 1 0 4.5

5-10 7 8 4.5 9.5

10-15 12 20 9.5 14.5

15 - 20 19 39 14.5 19.5

20 - 25 27 66 19.5 24.5

25 - 30 28 94 24.5 29.5

30 - 35 26 120 29.5 34.5

35 - 40 17 137 34.5 39.5

40 - 45 13 150 39.5 44.5

45 - 50 9 159 44.5 49.5

50 - 55 3 162 49.5 54.5

55 - 60 1 163 54.5 59.5

EJEMPLO 3.14

SOLUCIÓN


41

Paso #1 Se obtiene la ubicación del cuartil buscado

Q1: (1/4)*163=40.75 Q3: (3/4)*163=122.25

Paso #2 Se calcula la diferencia entre el valor obtenido en el paso 1 y la frecuencia acumulada anterior al cuartil buscado

Q1= 40.75-39=3.75 Q3=122.25-120=2.25

Paso #3 Se aplica la fórmula _____ para la obtención de Q1 y Q3

Q1= 8224.19163*27

75.15.19

Q3= 162.35163*17

25.25.34

Por lo tanto el rango intercuartil es Q3-Q1=15.33. Recuerde que el rango intercuartil es el alcance que existe entre el Q3 y Q1, la ventaja de éste es que no es sensible a datos atípicos. Este 15.33 significa entonces que el 50% de los datos se encuentran entre los datos 19.882 y 35.162 gráficamente sucede lo siguiente:

3.4.2 DESVIACIÓN MEDIA

Esta medida también conocida como desviación media absoluta6 o desviación promedio o desviación promedio absoluta, se denota por las siglas DM y es el promedio de los valores absolutos de las diferencias respecto a la media y en términos de una fórmula, se calcula para una muestra como sigue:

6 ¿Por qué se ignora los signos de las desviaciones de la media? Esto es así para evitar que las desviaciones

positivas y negativas de la media se compensan entre sí, lo que de ocurrir así provocaría siempre una media cero, lo que daría como resultado un estimador sin ninguna utilidad.

Q1 Q3


42

Datos no agrupados

n

xx

MD

n

i

i

1

(3.20)

donde: xi el valor de cada observación

X es la media de los valores n es el número de observaciones en la muestra

Indica el valor absoluto

Datos agrupados n

xxf

MDi

n

i

i

1

(3.21)

donde: xi es la marca de clase f es la frecuencia de clase

X es la media de los valores n es el número de observaciones en la muestra

Indica el valor absoluto

Una muestra de los archivos de nueve empleados de la embajada de Japón en México, reveló que, durante un periodo de cuatro meses, perdieron el siguiente número de días por enfermedades: 2, 0, 5, 4, 9, 3, 1, 2 y 3. Calcule la desviación media e interprete el resultado.

Para el cálculo de la desviación media es necesario realizar el cálculo de la media aritmética

22.39

29

9

321394502x

DM=

9

22.3422.3522.3022.32

9

22.3322.3222.3122.3322.39

= 1.85

EJEMPLO 3.15

SOLUCIÓN


43

Se registraró el consumo de energía eléctrica de una muestra de 38 hogares de la colonia San Cristóbal durante un estudio socioeconómico realizado en el Estado de México.

Consumo de energía eléctrica (Kwh)

No. de hogares

298-304 4

304-310 5

310-316 10

316-322 7

322-328 6

328-334 3

334-340 2

340-346 1

Para el cálculo de la desviación media es necesario:

1. Se determina la media aritmética mediante el procedimiento ya conocido.

2. Para calcular la desviación media se determina el valor absoluto de cada marca de clase menos la media aritmética

3. Se multiplica el valor absoluto por la frecuencia de cada intervalos de clase.

4. Se suman todos los productos y se dividen entre el número total de observaciones.

5. Se obtiene el valor absoluto de la diferencia de cada Se marca de clase.

Intervalos de clase

(Kwh) fi

Marca de clase xi

fi*xi xxi *if xxi

298-304 4 301 1204 16.42 65.68

304-310 5 307 1535 10.42 52.1

310-316 10 313 3130 4.42 44.2

316-322 7 319 2233 1.58 11.06

322-328 6 325 1950 7.58 45.48

328-334 3 331 993 13.58 40.74

334-340 2 337 674 19.58 39.16

340-346 1 343 343 25.58 25.58

38 i

i

i xf *8

1

12062

324

EJEMPLO 3.16

SOLUCIÓN


44

La desviación media tiene como ventaja que su comprensión es sencilla, ya que es el promedio de desviación de todos los valores con relación a la media, además que utiliza para su cálculo todos los valores de la muestra, lo que al calcular el rango y el rango intercuartil no sucede. Su principal desventaja, es que usa los valores absolutos, y éstos requieren un mayor esfuerzo para el tratamiento algebraico. La desviación media se utiliza con menor frecuencia que otras medidas de tendencia central como la desviación estándar y la varianza.

Autoexamen 3.2


1. La Procuraduría Federal del Consumidor realiza una investigación con relación a las deudas por uso de tarjetas de crédito en la Ciudad de México y para tal efecto encuesta a una muestra de doce personas entre los 25 y 40 años de edad que tienen deudas mayores a los $5,000.00.

42.31738

12062x

53.838

324DM

Para su interpretación se tiene que la DMx se obtienen los valores

53.842.317 de lo cual obtenemos los límites (308.89, 325.95) al

localizar estos valores dentro de los intervalos de clase tenemos que el 308.89 se encuentra en el tercer intervalo mientras que el 325.95 se encuentra en el 5º. Intervalo por lo que sumando las frecuencias absolutas que corresponden a estos tres intervalos es 23. Aplicando la “regla de tres” se tiene que:

%10038

x23

Lo que corresponde a 60.52% de los datos caen en este intervalo. Es conveniente aclarar que éste porcentaje es único para este problema en particular. Más adelante se estudiará la interpretación de la desviación estándar y en ella se presenta la regla empírica que no es la que se está aplicando en este momento. Cuando se trabaja la DM, se obtiene el porcentaje para cada en particular.


45

Los resultados mostraron que todos ellos pagaban un promedio de un poco más de $300.00 al mes. A continuación se presenta las cantidades que cada consumidor abonó a su saldo un mes anterior.

$510 $526 $505 $499 $512 $491 $500 $514 $501 $520 $493 $495

a. ¿Cuál es el rango de las cantidades abonadas? b. Calcule el rango intercuartil de las cantidades abonadas e interprete el

resultado c. Calcule la desviación media de las cantidades abonadas e interprete

2. En una compañía de Venta de bienes raíces se realizó un estudio para determinar las habilidades que los agentes poseen para realizar una venta. Se realizaron dos mediciones en diferentes grupos. Uno experimental (el Grupo 1) que había recibido un curso de apoyo y otro grupo más (Grupo 2) que aún no recibía ninguna capacitación. La prueba de habilidades tiene 100 puntos como calificación máxima. La siguiente tabla muestra los resultados obtenidos por ambos grupos en la prueba de habilidades:

Intervalos Grupo 1 Grupo 2

fi fi

32-38 5 4

39-45 12 11

46-52 17 15

53-59 10 9

60-66 5 4

67-73 3 2

a. Calcule el rango para los dos grupo ¿Puede ser ésta una medida

resumen de comparación? b. Calcule el rango intercuartil para ambos grupos. c. Calcule la desviación media de cada grupo y compare.

3.4.3 VARIANZA

Como se estudió en los apartados anteriores, el rango y el rango intercuartil son medidas de variabilidad que no contemplan la forma en que se distribuyen o agrupan los valores que están entre los extremos. De todas las medidas de variabilidad absolutas la varianza es una de las dos más importantes que emplea todos los valores. La varianza mide la dispersión promedio alrededor


46

de la media, es decir, qué tanto varían los valores más grandes que están por encima de ella y cómo se distribuyen los valores menores que están por debajo de ella.

La varianza se basa en la diferencia entre el valor de cada observación (xi) y la media aritmética ( x para una muestra, para una población); a esta diferencia

se le denomina desviación respecto al promedio. Para una muestra, la

desviación con relación a la media se expresa como ( )xxi ; para una

población es ( )ix . Para calcular la varianza las desviaciones respecto al

promedio se elevan al cuadrado y se dividen entre n -1 para una muestra y N

para una población. La varianza de la población se representa por 2 y de la muestra por s2. Por lo tanto la varianza se define como la media o promedio de los cuadrados de las desviaciones de los valores de la variable a la media, es decir, el momento de segundo orden respecto a la media. Y cuenta con las siguientes propiedades más importantes:

Por definición la varianza nunca puede ser negativa. Esto quiere decir que, dado que la fórmula eleva al cuadrado las diferencias, la suma de las mismas nunca podrá ser negativa.

A menos que todos los elementos del conjunto de datos de la población o de la muestra tengan el mismo valor, la varianza no puede ser cero.

Es igual al momento de segundo orden respecto al origen menos el de primer orden elevado al cuadrado.

Si se suma o se resta el mismo número a todos los valores, la varianza no se modifica.

Si se multiplica los valores de una distribución de frecuencias por una constante k la varianza queda multiplicada por el cuadrado de la constante.

Datos no

agrupados

Poblacional

N

xN

i

i

1

2

2

(3.22)

Muestral

1

1

2

2

n

xx

s

n

i

i

(3.23)

donde:

N= Tamaño de la población

n= Tamaño muestral

x = Media aritmética muestral

=Media poblacional


47

donde:


n= Tamaño muestral

= Media poblacional

fi= Media muestral

x = Media aritmética del conjunto de datos

ix = Marca de clase del intervalo i-ésimo

s2=Varianza muestral

2 =Varianza poblacional

El uso del denominador o divisor (n-1) al calcular la varianza de una muestra es un procedimiento estándar que hace que la varianza resultante de la muestra sea un mejor estimador de la varianza de la población de la cual se obtuvo la muestra. En realidad, para tamaños de la muestra grandes (por ejemplo, )30n , restar 1 de n

implica muy poca diferencia.

Se registraró el consumo de energía eléctrica de una muestra de 38 hogares de la colonia San Cristóbal durante un estudio socioeconómico realizado en el Estado de México.

ix = Dato i-ésimo

Datos

agrupados

Poblacional

N

xfN

i

ii

1

2

2

)(*

(3.24)

Muestral

1

)(*1

2

2

n

xxf

s

n

i

ii

(3.25)

EJEMPLO 3.17


48

Consumo de energía eléctrica (Kwh)

No. de hogares

298-304 4

304-310 5

310-316 10

316-322 7

322-328 6

328-334 3

334-340 2

340-346 1

Para el cálculo de la varianza es necesario: 1. Determinar la media aritmética mediante el procedimiento

ya conocido para datos agrupados, fórmula ( ) 9.316x

2. Para calcular la varianza se obtiene las diferencias entre las marcas de clase y la media obtenida en el paso anterior.

Consumo de

energía eléctrica (Kwh)

No. de hogares

xi Marca

de clase

xxi 2

xxi

2* xxf ii

298-304 4 300.5 -16.4

268.96 1075.84

304-310 5 306.5 -10.4

108.16 540.8

310-316 10 312.5 -4.4 19.36 193.6

316-322 7 318.5 1.6 2.56 17.92

322-328 6 324.5 7.6 57.76 346.56

328-334 3 330.5 13.6 184.96 554.88

334-340 2 336.5 19.6 384.16 768.32

340-346 1 342.5 25.6 655.36 655.36

25.11237

4153.28

1

*1

2

2

n

xxf

s

n

ii

ii

SOLUCIÓN


49

Cuando calculamos la varianza, cada diferencia se expresa en unidades al cuadrado, por lo que en muchas ocasiones su interpretación resulta complicada, ya que para este caso tendríamos kwh2 por lo que este resultado no tiene un significado y para su interpretación siempre resultará más conveniente utilizar la desviación estándar.

Existen fórmulas alternativas que permite y facilitan su cálculo si éste no se realiza mediante un software estadístico.

Datos no agrupados

Poblacional

N

NxN

i

i

1

22

2

(3.26)

Muestral

1

1

22

2

n

xnx

s

n

i

i

(3.27)

donde:


n= Tamaño muestral

x = Media del conjunto de datos

ix = Dato i-ésimo

Media poblacional

2 Varianza poblacional

Datos agrupados

Poblacional

N

NxfN

i

ii

1

22

2

(3.28)

Muestral

11

2

1

2

2

n

xn

n

xf

s

n

i

ii

(3.29)

donde: 2

Varianza de la población 2s Varianza muestral

= Media de la población N = Tamaño de la población fi = Frecuencia de la clase i xi = punto medio de la clase i


50

3.4.4 DESVIACIÓN ESTÁNDÁR

La desviación estándar o desviación típica 2s o 2 es una medida de dispersión para variables de razón y de intervalo, de gran utilidad en la estadística descriptiva.

Está definida como la raíz cuadrada de la varianza 2ss o 2 .

Es una medida resumen que mide el grado de dispersión que presenta un conjunto de valores o simplemente el "promedio" o variación esperada con respecto a la media aritmética de todos los valores. Hablar de una desviación estándar grande significa que los puntos están lejos de la media y una desviación pequeña indica que los datos están agrupados muy cercanos a su media.

Por ejemplo, se tomaron tres muestras en diferentes colonias de cuatro casas para medir el número de focos que se presentaron fue:

A (0, 0, 14, 14) 7Ax 72

As

B (0, 6, 8, 14) 7Bx 52

Bs

C (6, 6, 8, 8) 7Cx 12

Cs

Como se puede observar, la muestra C tiene una desviación mucho menor que las otras dos porque sus valores están más cercanos al 7. A continuación se presentan las fórmulas para el cálculo de la desviación típica.

Datos no agrupados

Población

N

xN

i

i

1

2

(3.30)

Muestra

1

1

2

n

xx

s

n

i

i

(3.31)

donde:

N = Tamaño de la población

n = Tamaño muestral

= desviación estándar poblacional

s = desviación estándar muestral

= media poblacional del conjunto de datos

x = Media muestra del conjunto de datos


51

ix = Dato i-ésimo

Datos agrupados

Población

N

xfN

i

ii

1

2)(*

(3.32)

Muestra

1

)(*1

2

n

xxf

s

N

i

ii

(3.33)

donde:

N = Tamaño de la población

n = Tamaño muestral

= desviación estándar poblacional

s = desviación estándar muestral

= media poblacional del conjunto de datos

x = Media muestra del conjunto de datos

ix = Dato i-ésimo

if frecuencia de la clase i

Se realiza una estadística en dos centros de enseñanza, uno público y otro privado, referente a la nota global del bachillerato de cada uno de los alumnos que van a acudir a los exámenes de selección para ingresar a nivel superior. Las distribuciones de frecuencias que presentaron fueronlas siguientes:

Centro privado

Nota global de cada alumno.

Frecuencias

5 6 10

6 7 15

7 8 20

8 9 30

9 10 15

EJEMPLO 3.18


52

Centro público

Nota global de cada alumno.

Frecuencias

5 6 225

6 7 150

7 8 100

8 9 20

9 10 25

a) Calcula la varianza de los dos grupos y compara. ¿Cuál es el grupo que presenta mayor variabilidad en los resultados del examen?

b) Calcula la desviación estándar de cada grupo ¿Qué significan estos valores obtenidos?

Para el cálculo de la desviación estándar, en ocasiones es conveniente elaborar una tabla de apoyo que simplifique los cálculos, como se muestra a continuación:

Centro privado

Nota global de

cada alumno.

F xi xi *f Media

x xi - x (xi- x ) 2 fi*(xi- x )2

5 6 10 5.5 55 7.78 -2.28 5.19 51.88

6 7 15 6.5 97.5 7.78 -1.28 1.63 24.49

7 8 20 7.5 150 7.78 -0.28 0.08 1.54

8 9 30 8.5 255 7.78 0.72 0.52 15.65

9 10 15 9.5 142.5 7.78 1.72 2.97 44.49

N 90 Media 7.78 Varianza 1.53

La suma de los elementos de la columna xi *fi

78.790

700privadoxMedia

La suma de los elementos de la columna fi*(xi- x )2

53.190

06.138privados

SOLUCIÓN


53

Centro público

Nota global

F xi mc*f media xi-x (xi-x) 2 f*(xi-x)2

5 6 225 5.5 1237.5 6.48 -0.98 0.96 216.43

6 7 150 6.5 975 6.48 0.02 0.00 0.06

7 8 100 7.5 750 6.48 1.02 1.04 103.88

8 9 20 8.5 170 6.48 2.02 4.08 81.55

9 10 25 9.5 237.5 6.48 3.02 9.12 227.89

N 520 Media 6.48 Varianza 1.21

La institución que presenta una mayor variabilidad en los resultados de sus alumnos es el centro privado.

a) Para la obtención de la desviación estándar sólo es necesario aplicar la raíz cuadrada al resultado de la varianza.

23.153.1público 10.121.1privado

Estos resultados significan que cada valor se aleja de su media aproximadamente en 1.23 para el Centro privado y en 1.10 para el Centro público. El cálculo es importante y relativamente sencillo, sin embargo la interpretación de la desviación estándar se analizará con mayor detalle en el próximo tema.

3.4.5 INTERPRETACIÓN DE LA DESVIACIÓN ESTÁNDAR La desviación estándar se emplea como una medida para comparar la dispersión en dos o más conjuntos de observaciones. Se interpreta a partir de lo siguiente

o Regla empírica: Para una distribución de frecuencias simétrica en forma de campana, aproximadamente 68% de las observaciones estarán a más y menos una desviación estándar de la media, aproximadamente un 95% de tales observaciones se encontrará a más y menos dos desviaciones estándar de la misma; y prácticamente todas las observaciones (99,7%) se hallarán a más y menos tres desviaciones estándar con respecto a la media. Como se observa en la curva simétrica de campana que muestra las relaciones entre la desviación estándar y la media


54

La regla empírica apoya a medir cómo se distribuyen los valores por debajo y por encima de la media. Esto permite identificar los valores atípicos cuando se analiza un conjunto de datos numéricos. La regla empírica señala que aproximadamente uno (5%) de cada 20 (100%) valores estará alejado más allá de dos desviaciones estándar en cualquier dirección. Se puede tomar como una regla general que, los valores que no se ubiquen en el intervalo 2 se consideran como

posibles valores atípicos. Esta regla también implica que aproximadamente tres de cada 1000, estarán alejados de la media más allá de tres desviaciones estándar. Por consiguiente, se consideran como valores extremos los que no se ubiquen en el intervalo 3 .

o Teorema de Chebyshev. En los conjuntos de datos que presentan una desviación estándar grande será resultado de que los valores se encuentran muy dispersos con relación a la media. Un matemático ruso llamado Chebyshev creó un teorema que refleja esta situación. En él cuantifica el porcentaje mínimo de valores que se ubicarán dentro de un número determinado de desviaciones estándar a partir de la media y aplica a todas las distribuciones cualquiera que sea su forma, es decir, se puede utilizar siempre que la forma de la distribución de los datos sea desconocida o sea anormal. Este teorema de Chebyshev expresa que para un conjunto cualquiera de observaciones (muestra o población), la proporción mínima de los valores que se encuentran dentro de k desviaciones estándar desde la media es al menos de 1 – 1/k2, donde k es una constante mayor que 1. Otra consecuencia del teorema es que para cada distribución de media μ y desviación típica finita σ, al menos la mitad de los valores caerán en el intervalo (μ-2 σ, μ+2 σ).

-3 -2 - 0 2 3

68%

95%

99.7%


55

Porcentaje de valores que se encuentran en los intervalos alrededor de la media

Intervalo Teorema de Chebyshev (para toda distribución)

)3,3(

)2,2(

),(

%89.88

%75

%0

elmenosAl

elmenosAl

elmenosAl

Para ilustrar este resultado, supongamos que un grupo de estudiantes presenta para su materia de redacción 50 ensayos que tienen una extensión media de 1000 caracteres y una desviación estándar de 200 caracteres. De la desigualdad de Chebyshev se deduce que al menos el 75% de los artículos tendrán una extensión comprendida entre 600 y 1400 caracteres (k = 2).

3.4.6. EL COEFICIENTE DE VARIACIÓN

La desviación estándar es útil como medida de variación dentro de un conjunto de datos. Sin embargo, cuando se desea comparar la dispersión en dos conjuntos de datos, cotejar las desviaciones estándar puede conducir a resultados ilógicos o puede ser que las dos variables que intervienen se midan en unidades diferentes.

El coeficiente de variación es una medida que permite:

o Comparar la variabilidad entre dos grupos de datos referidos a distintos sistemas de unidades de medida. Por ejemplo, kilogramos y centímetros.

o Comparar la variabilidad entre dos grupos de datos obtenidos por dos o más personas distintas.

o Determinar si cierta media es consistente con cierta varianza.

Lo que se necesita en situaciones como ésta es una medida de variación relativa, en lugar de una de variación absoluta. Esa medida se encuentra en el coeficiente de variación, el cual expresa a la desviación estándar como un porcentaje de la media.

La ventaja del coeficiente de variación es que se encuentra dado en porcentajes y es más comprensible.

Datos no agrupados

Datos agrupados

Población

100.VC

(3.34)

Muestra

100.x

sVC

(3.35)


56

donde:

= Desviación estándar poblacional

s= Desviación estándar muestral

= Media aritmética poblacional

x =Media muestral

Se aplicaron encuestas a dos grupos de amas de casa para conocer el gasto promedio mensual en salud de 100 familias de una zona de alto nivel socioeconómico del D.F. Los dos grupos registrados fueron de nivel D al cual se le realizaron 60 entrevistas y 40 entrevistas de nivel D+. Los resultados de las entrevistas se presentan a continuación: a. Calcule el coeficiente de variación de ambos niveles socioeconómicos y responda, ¿Cuál de ellos presenta mayor variabilidad? Para responder a esta pregunta es necesario calcular el cociente de cada desviación muestral respecto a su media.

%02.6100*2500

5.150DCV

%20.7100*3200

230*DCV

Lo que significa que en general ambos niveles presentan

muy poca variación pero en el nivel socioeconómico D+ los

datos presentan mayor variabilidad respecto a su media que

los gastos promedios mensuales que presenta el nivel D.

Nivel socioeconómico

D D+ s 150.5 230.5

x 2500 3200

3.4.7 PUNTUACIONES ESTANDARIZADAS (PUNTUACIONES Z)

EJEMPLO 3.19

SOLUCIÓN


57

3.4.8 CUADRO RESUMEN DE LAS MEDIDAS DE VARIABILIDAD

Tabla 3.2 Comparación de las medidas de variabilidad o de dispersión Medias de

variabilidad Definición REPRESEN-

TACIÓN

SIMBÓLICA

¿Qué tan común

es?

Existencia ¿Toma en

cuenta cada

valor?

¿Se ve afectada por los valores extremos?

V: Ventajas y D: Desventajas

Rango Es la diferencia entre el valor más grande del conjunto de datos y el valor más pequeño.

R De uso limitado

Podría no existir

No

Sí V: Fácil de calcular y de entender. D: En algunas distribuciones no podría existir, si se presenta una clase de extremo abierto. No dice nada sobre la forma de la distribución entre las puntuaciones extremas. Es muchas distribuciones no es confiable ya que se apoya sólo en dos valores extremos.

Rango intercuartil

Es la diferencia entre el valor del tercer cuartil y el primero.

RI De uso limitado

Siempre existe

No No V: Puede calcularse para una distribución de clase abierta. Es una buena alternativa si hay algunos valores extremos. Es especialmente útil en situaciones donde los usuarios de datos están especialmente interesados en valores hacia el medio y menos interesados en los extremos. Su empleo en la construcción de la gráfica de caja y bigote. D: No tomar en cuenta el 50 % de los datos y su poco empleo en métodos estadísticos posteriores.

Desviación La media aritmética de DM No es de Siempre Sí Sí, pero V: Fácil de comprender. Da igual


58

media los valores absolutos de las desviaciones de la media.

uso común

existe menos afectada que la

desviación estándar.

ponderación a la desviación de cada valor con relación a la media aritmética. Es más sensible que el rango y el rango intercuartil y generalmente tiene un error de muestreo más pequeño. D: Es un poco complicada de manejar algebraicamente, ya que los signos negativos deben ignorarse en su cálculo.

Varianza La media aritmética de las desviaciones cuadradas de la media.

2

Pobla-cional

Es de uso común

Siempre existe

Sí Sí V: Concepto importante en la estadística inferencial. D: Medida un tanto confusa, en virtud de que las unidades son el cuadrado de las unidades de los datos.

S2

Muestral

Desviación estándar

La raiz cuadrada de la varianza

Pobla-cional

La de uso más común

Siempre existe

Sí SÍ

V: Es aplicable a muchos métodos estadísticos posteriores. Es más confiable como estimador del valor de la población que cualquier otra medida de


59

S Muestral

dispersión, siempre que la distribución sea normal. D: Es un poco difícil de calcular y de entender.

Coeficiente de variación

Es una medida de dispersión relativa y es el cociente de la desviación estándar y la media aritmética expresado en porcentaje

CV De uso común

Siempre existe

Sí SÍ V: Especialmente útil para comparar dos o más grupos de datos con medias diferentes. Es la medida de dispersión relativa más empleada

Comentarios generales: Si los valores alto y bajo no se encuentran muy separados de los demás, el rango puede ser una buena medida de dispersión. Es recomendable emplear la desviación media en muestras pequeñas que incluyan valores extremos. No compare la dispersión en los conjuntos de datos empleando la desviación estándar, a menos que las medias aritméticas sean muy

parecidas.


60

3.5 MEDIDAS DE FORMA

Las medidas de forma son herramientas estadísticas que se pueden emplear para describir la forma de una distribución de datos numéricos. En este apartado, se examinará dos medidas de forma: sesgo y curtosis.

3.5.1 SESGO O ASIMETRÍA

Una característica que presentan los histogramas y que puede resultar de interés, es la asimetría, especialmente cuando los datos son unimodales. Si la cola derecha es más numerosa y se extiende más que la cola izquierda, decimos que se tiene asimetría positiva. Si es al revés, con la cola izquierda es larga, decimos asimetría negativa.

La medida numérica de la asimetría se denota como (alpha) y se calcula mediante la siguiente fórmula:


1

3

* sn

xx

alpha

n

i

i

(3.36)

Datos agrupados

3

3

*

*

sn

xxf

alpha

i

(3.37)

=0

Simétrica

>0

Sesgo positivo

<0

Sesgo negativo

Esta medición de la asimetría es absoluta, ya que las unidades de medición no la afectan.

3.5.2 CURTOSIS

Una característica de los histogramas que no es común analizar es la llamada curtosis. Con esta palabra se denota lo "picudo" que pueda resultar una moda. Si la


61

moda está muy picuda, se tiene curtosis grande; si la moda está muy roma o plana, se tiene curtosis pequeña. La curtosis es normal cuando vale tres. La desventaja es que tanto la simetría como la curtosis son cálculos más complicados y no son de uso frecuente.

La curtosis es también una medida absoluta porque las unidades de medición no la afectan. La curtosis se compara siempre con el número 3. Así, si la curtosis calculada es mayor que tres, el resultado será positivo, indicando una moda más afilada que lo normal. Si el resultado es negativo, indica una moda más chata que lo normal.


1

4

* sn

xx

beta

n

i

i

(3.38)

Datos agrupados 4

4

1

* sn

xx

beta

n

i

i

(3.39) =3

Mesocúrtica

>3

Leptocúrtica

<3

Planticúrtica

3.6 REPRESENTACIONES GRÁFICAS 3.6.1 CAJA-BIGOTE 3.6.2 CURVA NORMAL


62

Resumen del capítulo

El tratamiento estadístico no se limita únicamente a resumir mediante tablas y gráficas los datos, para complementarlo existen las medidas resumen, dependiendo de donde se

obtengan reciben el nombre de estadísticos si se calculan a partir de una muestra ( ˆ ) o

parámetros ( ) cuando son obtenidos a partir de una población, ambos pueden ser calculados tanto para datos no agrupados como agrupados. Las medidas estadísticas resumen o descriptivas incluyen medidas de tendencia central, de posición, de variabilidad y medidas de forma (sesgo y curtosis). Todas ellas se calculan de manera diferente para datos no agrupados y agrupados. Las medidas de tendencia central son útiles para describir los valores típicos de los datos. Las tres más comunes son la media, mediana y moda. Pero existen otras, tales como: la media geométrica, la media armónica, el rango medio y el eje medio. La media aritmética es la más importante de todas las medidas numéricas utilizadas para describir datos, constituye lo que la mayoría de la gente y lo que los investigadores citan cuando usan la palabra media. La media poblacional y la media muestral se calculan de la misma manera pero se denotan con símbolos diferentes. A la media aritmética la afecta cada valor y es influenciada por valores extremos. La mediana es el valor medio de un conjunto ordenado de números que contienen un número impar de valores. Para un conjunto con número par de valores, la mediana es la media aritmética de los dos valores medios. La mediana no resulta afectada por la magnitud de valores extremos. Esta característica hace de la mediana una medida más útil y apropiada de ubicación al reportar elementos como son el ingreso, edad y precios de casas. La moda es el valor que se presenta con más frecuencia en un conjunto de datos. Si dos valores empatan para la moda, los datos son bimodales. Los conjuntos de datos pueden ser multimodales. Entre otras cosas, la moda se emplea en negocios para determinar tamaños. Los cuantiles o fractiles son medidas de posición, ubicación o no centrales y se dividen en cuartiles, deciles y percentiles. Los cuartiles dividen los datos en cuatro partes o grupos. Los tres cuartiles son Q1, que es el primer cuartil y el más bajo; Q2, que es el segundo cuartil y es igual a la mediana; y Q3, que es el tercer cuartil y el superior. Los deciles dividen un conjunto de datos en diez partes o grupos, lo cual significa que se requiere de 9 deciles; el decil cinco que se denota D5, es igual a la mediana. Los percentiles dividen un conjunto de datos en 100 partes o grupos, lo cual significa que se requiere de 99 percentiles. Las medidas de variabilidad o de dispersión son herramientas estadísticas empleadas en conjunto con las medidas de tendencia para describir datos. Las medidas de variabilidad describen cuán dispersos se encuentran los datos. Las medidas de dispersión se dividen en absolutas y relativas. Entre las medidas de dispersión en valor absoluto más comunes están el rango, desviación media absoluta, varianza, desviación estándar y rango intercuartil y la más utilizada en valor relativo es el coeficiente de variación. Una de las medidas más elementales de variabilidad es el rango. Es la diferencia entre los valores más grande y más pequeño. Aun cuando el rango es fácil de calcular, tiene utilidad limitada; su principal campo de aplicación es en el control de calidad. El rango intercuartil es


63

la diferencia entre los cuartiles tercero y primero. La desviación media absoluta (DMA) se calcula al promediar los valores absolutos de las desviaciones desde la media. La desviación media absoluta da la magnitud de la desviación promedio pero sin especificar su dirección. La desviación media absoluta tiene uso limitado en estadística, pero hay creciente interés para su uso en el campo de pronósticos. La varianza se utiliza ampliamente como herramienta en estadística pero se emplea poco como medida independiente de variabilidad. La varianza es el promedio del cuadrado de desviaciones alrededor de la media. La raíz cuadrada de la varianza es la desviación estándar. También es una herramienta muy usada en estadística. Se emplea con mayor frecuencia que la varianza como medida independiente. La desviación estándar se comprende mejor al examinar sus aplicaciones para determinar en dónde están los datos en relación con la media. La regla empírica y el teorema de Chebyshev son enunciados acerca de las proporciones de valores de datos que están dentro de varias veces la desviación estándar desde la media. La regla empírica revela el porcentaje de valores que están dentro de una, dos o tres desviaciones estándar de la media para un conjunto de datos. La regla empírica aplica sólo si los datos son una distribución en forma de campana. De acuerdo con la regla empírica, aproximadamente 68% de todos los valores de una distribución normal están dentro de más o menos una desviación estándar de la media. Noventa y cinco por ciento de todos los valores están dentro de dos desviaciones estándar a cualquier lado de la media, y prácticamente todos los valores 99.7 % están dentro de tres desviaciones estándar de la media. El teorema de Chebyshev también delinea la proporción de valores que están dentro de un número dado de desviaciones estándar desde la media; sin embargo, aplica a cualquier distribución. Según el teorema de Chebyshev, al menos 1- 1/ k

2 valores están dentro de k

desviaciones estándar de la media. El valor z representa el número de desviaciones estándar que un valor está desde la media para datos normalmente distribuidos. El coeficiente de variación es una razón entre una desviación estándar y su media, dado como porcentaje. Es especialmente útil para comparar desviaciones estándar o varianzas que representan datos con medias diferentes. Dos medidas de forma son el sesgo y la curtosis. El sesgo es la falta de simetría en una distribución. Si una distribución está sesgada, está alargada en una dirección o la otra. La parte sesgada de la gráfica es su parte larga y delgada. Una medida de sesgo es el coeficiente de Pearson. La curtosis es el grado de apuntamiento de una distribución. Una distribución alta y delgada se conoce como leptocúrtica. Una distribución plana es platicúrtica, y una distribución con un apuntamiento más normal se dice que es mesocúrtica. Una gráfica de caja y bigote es una representación gráfica de una distribución. La gráfica se construye al usar el valor más bajo, la mediana, el cuartil inferior, el cuartil superior y el valor más alto. Puede dar información acerca del sesgo y resultados aislados.


64

Glosario

Bimodal Distribución que posee dos modas.

Coeficiente de asimetría )( . Denominado

también alpha y corresponde a la medida de forma

que mide el sesgo que presenta una distribución.

Coeficiente de curtosis )( . Denominado también

coeficiente Beta que mide lo puntiagudo de la

distribución.

Coeficiente de variación (CV) La razón entre la

desviación estándar y la media, expresada en

porcentaje.

Cuartiles Medidas de posición que dividen un

conjunto de datos en cuatro partes.

Curtosis Es la característica de la distribución que

permite determinar la cantidad de su apuntamiento.

Deciles Medidas de posición que dividen un conjunto

de datos en diez partes.

Desviación estándar. Medida de variabilidad que

promedia las distancias entre cada dato respecto a la

media del conjunto, su resultado se encuentra en las

mismas unidades que los datos de origen.

Desviación media absoluta (DMA) Es el promedio

de los valores absolutos de las desviaciones

alrededor de la media para un conjunto de

observaciones.

Eje medio Es una medida de tendencia central y es

la diferencia entre el tercer cuartil y el primero.

Fractiles Es el nombre genérico que se le da a los

cuartiles, deciles y percentiles.

Leptocúrtica Distribuciones que son altas y

delgadas.

Media aritmética Medida de tendencia central que

promedia todos los valores de un conjunto de datos.

Media armónica Es el reciproco de la media

aritmética del reciproco de los números.

Media geométrica Es la raiz enésima del producto

de las observaciones.

Mediana Valor medio o media aritmética de los

valores medios de un conjunto ordenado de números.

Medidas de forma Herramientas que se pueden

utilizar para describir la forma de una distribución de

datos.

Medidas de posición Herramientas que se pueden

emplear para dividir un conjunto de datos en cuatro,

diez o cien partes.

Medidas de tendencia central Un tipo de medida

resumen que se usa para describir un conjunto de

números en relación al centro de los mismos.

Medidas de variabilidad Estadísticas que describen

la dispersión en valor absoluto o relativo de un

conjunto de datos.

Mesocúrtica Distribuciones que son normales en

forma, es decir, no demasiadas altas ni demasiadas

planas.

Moda Valor que presentan con la mayor frecuencia

en un conjunto de datos.

Medidas resumen Valores que contienen las

características principales de una muestra o de una

población.

Multimodal Conjunto de datos que tiene más de

dos modas.

Percentiles Medidas de posición que dividen un

conjunto de datos en cien partes.

Platicúrtica Distribuciones que son planas y se

extienden.

Rango También denominado alcance, recorrido o

amplitud total es la diferencia entre los valores

máximo y mínimo de un conjunto de datos.

Rango intercuartil Rango de valores entre el

primero y tercer cuartiles.

Rango medio Medida de tendencia central que

calcula el promedio entre los valores máximo y

mínimo.

Regla empírica Principio que da el porcentaje

aproximado de valores que caen dentro de un

número determinado de desviaciones estándar de la

media aritmética de un conjunto de datos que se

encuentran normalmente distribuidos.

Sesgo Falta de simetría de un conjunto de valores.

Teorema de Chebyshev Teorema que indica que al

menos 1 – 1/k2 valores caerán dentro de + k

desviaciones estándar de la media, cualquiera que

sea la forma de la distribución.

Unimodal. Distribución que se caracteriza por

poseer una moda única.

Varianza Promedio del cuadrado de desviaciones

alrededor de la media aritmética para un conjunto de

datos.


65

Fórmulas del Capítulo

1. Media aritmética poblacional para datos no agrupados

N

xN

i

i

1

2. Media aritmética muestral para datos no agrupados

n

x

x

n

i

i

1

3. Media aritmética poblacional para datos agrupados

N

xfN

i

ii

1

)(

4. Media aritmética muestral para datos agrupados

n

xf

x

n

i

ii

1

)(

5. Media geométrica para datos no agrupados

n valoreslostodosdeproductoGM.

nnxxxxGM ))...()()((. 321

6. Media geométrica para datos agrupados

n fn

n

fffxxxxGM ))...()()((.

3

3

2

2

1

1

i

n

i

i xfn

antiG log1

log1


66

7. Media armónica para datos no agrupados

)1

...1

(1

1 ni

n

i ixx

n

x

nH

8. Media armónica para datos agrupados

)1

*(1

n

i i

ix

f

nH

9. Mediana para datos no agrupados

Posición o ubicación )2

1(:n

M e

10. Mediana para datos agrupados

if

fn

LMemediana

iacum

i *2)1(

11. Moda para datos no agrupados

Valor o valores con frecuencia mayor

12. Moda para datos agrupados

idd

dLMo Mo *

21

1

13. Rango medio

2

MenorMayor DDRangomedio

14. Eje medio

2

31 QQEjemedio

15. Primer cuartil para datos no agrupados

Posición o ubicación 4

)1(:1

nQ


67

16. Tercer cuartil para datos no agrupados

Posición o ubicación 4

)1(3:3

nQ

17. Cálculo de los fractiles (cuartiles, deciles y percentiles)

Posición o ubicación )(: nfractilesdetotal

deseadofractildenúmeroFk

k

c

c

ikk if

dLF *

18. Rango o alcance

mM DDRango

19. Rango intercuartil

257513 PPQQilIntercuartRango

20. Desviación media para datos no agrupados

n

xx

DM

n

i

i

1

21. Desviación media para datos agrupados

n

xxf

DMi

n

i

i

1

22. Varianza poblacional para datos no agrupados

N

xN

i

i

1

2

2

23. Varianza muestral para datos no agrupados

1

1

2

2

n

xx

s

n

i

i


68

24. Varianza poblacional para datos agrupados

N

xfN

i

ii

1

2

2

)(*

25. Varianza muestral para datos agrupados

1

)(*1

2

2

n

xxf

s

n

i

ii

26. Coeficiente de variabilidad poblacional y muestral

100.VC 100.x

sVC

27. Coeficiente de asimetría alpha para datos no agrupados

3

1

3

* sn

xx

alpha

n

i

i

28. Coeficiente de asimetría alpha para datos agrupados

3

3

*

*

sn

xxf

alpha

i

29. Coeficiente de curtosis para datos no agrupados

4

1

4

* sn

xx

beta

n

i

i

30. Coeficiente de curtosis para datos agrupados

4

4

1

* sn

xx

beta

n

i

i


69

Bibliografía

Anderson, D. R., D. J. Sweeney y T. A. Williams (2005). Estadística para administración y economía. México: Thomson, 8a edición. Berenson, M. L., Levine. D. M. y Krehbiel, T. C. (2001). Estadística para Administración. México: Pearson Educación, 2a edición. Black, K. (2005). Estadística en los negocios. México: CECSA, 4ª edición en inglés, 1a edición en español. Chao, L. L. (1993). Estadística para las ciencias administrativas. México: McGraw-Hill, 3a edición. Flores García, R. y H. Lozano (1998). Estadística aplicada a la administración. México: Iberoamérica. Freund, W. y Perles (1990). Estadística para la Administración. Un enfoque moderno. México: Prentice Hall. Glass, G. V. y Stanley, J. C. (1980). Métodos estadísticos aplicados a las Ciencias Sociales. México: Ed. Prentice Hall Hispanoamericana. Hopkins, Kenneth D., B. R. Hopkins y G. V. Glass (1997). Estadística básica para las ciencias sociales y del comportamiento. México: McGraw-Hill. Johnson, R. y P. Kuby (2004). Estadística elemental, lo esencial. México: Thomson, 3a edición. Johnson, R. (1996). Elementary Statistics. California, USA: Ed. Belmont, Duxbury. Kazmier Leonard y Mata Alfredo (1993). Estadística aplicada a la administración y a la economía. México: McGraw-Hill Serie Shaums. Kenned, J. B. y Neville A. M. (1974). Estadística para Ciencias e Ingeniería. México: Harla & Row Latinoamericana. Lassar G. G. (1969). Estadística Descriptiva. Texto programado. México. Editorial Limusa. Levin, R. I., D. S. Rubin, M. Balderas, J. C. Del Valle y R. Gómez (2004). Estadística para administración y economía. México: Pearson Educación, 7a edición. Levine, D. M., T. C. Krehbil y M. L. Berenson (2006). Estadística para adminitración. México: Pearson Educación, 4a edición. Lind, D. A., W. G. Marchal y S. A. Wathen (2005). Estadística aplicada a los negocios y la economía. México: McGraw- Hill, 12ª edición. Lind, D. A., R. D. Mason y W. G. Marchal (2004). Estadística para administración y economía. México: Alfaomega, 11a edición. Martínez, C. (2001). Estadística básica aplicada. Bogotá, Colombia: ECOE Ediciones. Mendenhall, W., R. J. Beaver (2002). Introducción a la probabilidad y la estadística. México: Thomson.


70

Martínez, C. (2002). Estadística y muestreo. Bogotá, Colombia: ECOE Ediciones. Mures, M. J. Coordinadora (2004). Problemas de estadística descriptiva aplicada a las ciencias sociales. Madrid: Pearson Educación -(Universidad Complutense de León). Newbold, P. (1997). Estadística para los negocios y la economía. México: Prentice Hall (Pearson Educación). Peña, D. y J. Romo (1997). Introducción a la estadística para las ciencias sociales. Madrid: McGraw-Hill. Pérez, C. (2002). Estadística aplicada con EXCEL. Madrid: Pearson Educación-(Universidad Complutense de Madrid). Pérez, C. (2003). Estadística. Problemas resueltos y aplicaciones. Madrid: Pearson Educación -(Universidad Complutense de Madrid). Pulido S. R. (1978). Estadística y técnicas de Investigación. Madrid: Ediciones Pirámide. Rickmers, A. D. y Todd H. N. (1971). Introducción a la estadística. Barcelona: España. Compañía Editorial Continental S.A. Ritchey, F. J. (2002). Estadística para ls ciencias sociales. El potencial de la imaginación estadística. México: McGRAW-Hill. Stevenson, W. J. (1981). Estadística para administración y economía. Conceptos y aplicaciones. México: Alfaomega-Oxford. Runyon Haber (1984). Estadística para las Ciencias Sociales. México: Fondo Educativo Interamericano. Triola, M. F. (2004). Estadística elemental. México: Pearson Educación, 9a edición. Webster, A. L. (2000). Estadística aplicada a los negocios y la economía. México: McGraw-Hill, 3a edición. Weiers, R. M. (2006). Introducción a la estadística para negocios. México: Thomson, 5a edición. Weinberg, S. L. y G. Kenneth (1982). Estadística básica par alas ciencias sociales. México: Nueva Editorial Interamericana.

medidas resumen - estadística descriptiva...

Documents