1.5 medidas descriptivas

17
Vázquez, H. 2009 1 1. ESTADÍSTICA DESCRIPTIVA 1.5. Medidas Descriptivas 1.5.1. Medidas de centralización 1.5.2. Medidas de Dispersión 1.5.3. Medidas de Posición 1.5.4. Medidas de Forma 1.5.5. Ejercicios 1.5.5.1. Resueltos 1.5.5.2. Propuestos 1.5. Medidas Descriptivas Las medidas descriptivas, como su nombre lo dice, se encargan de describir el comportamiento general de una población, ya que a través de éstas podemos definir la tendencia de los datos, así como el grado en que varían éstos. Generalmente se definen las medidas ya sea para datos no agrupados y para datos agrupados, aunque en este curso sólo nos enfocaremos a revisar las medidas para datos no agrupados y para datos agrupados se calcularán Media aritmética x y desviación estándar (S) con el apoyo de la calculadora. En el siguiente cuadro se muestra la clasificación y las medidas que se verán en el curso:

Upload: heriberto-vazquez-serna

Post on 25-Mar-2016

289 views

Category:

Documents


4 download

DESCRIPTION

1.5 Medidas Descriptivas

TRANSCRIPT

Vázquez, H. 2009 1

1. ESTADÍSTICA DESCRIPTIVA

1.5. Medidas Descriptivas

1.5.1. Medidas de centralización

1.5.2. Medidas de Dispersión

1.5.3. Medidas de Posición

1.5.4. Medidas de Forma

1.5.5. Ejercicios

1.5.5.1. Resueltos

1.5.5.2. Propuestos

1.5. Medidas Descriptivas

Las medidas descriptivas, como su nombre lo dice, se encargan de describir el

comportamiento general de una población, ya que a través de éstas podemos

definir la tendencia de los datos, así como el grado en que varían éstos.

Generalmente se definen las medidas ya sea para datos no agrupados y para datos

agrupados, aunque en este curso sólo nos enfocaremos a revisar las medidas para

datos no agrupados y para datos agrupados se calcularán Media aritmética x y

desviación estándar (S) con el apoyo de la calculadora.

En el siguiente cuadro se muestra la clasificación y las medidas que se verán en el

curso:

Vázquez, H. 2009 2

1.5.1. Medidas de Centralización:

Son aquellas que definen la tendencia de los datos hacia el centro, es decir, estas

medidas se localizan en medio de un conjunto de datos. El término promedio a

menudo se asocia con todas las medidas de centralización.

1.5.1.1. Media Aritmética ( x ): Promedio que quizá sea el más conocido y se

calcula sumando todos los datos y dividiéndolos entre el número de datos. Lo

anterior se expresa en la siguiente fórmula:

n

xx

1.5.1.2. Mediana (Md): es el valor que se encuentra ubicado justo al centro de la

población cuando los datos están ordenados ascendente ó descendentemente, es

decir, que cuando el tamaño de la población es impar, la mediana es el valor que

está ubicado en la posición central, y cuando el tamaño de la población es par,

entonces la mediana será el promedio de los dos valores que están ubicados en el

centro de la población.

Vázquez, H. 2009 3

1.5.1.3. Moda (Mo): es el valor más común de la población, es decir, el valor que

más veces se repite.

En función del número de modas, la población se define como:

Población Amodal: que no tiene dato que más veces se repita.

Población Unimodal: que tiene sólo un dato que más veces se repite.

Población Bimodal: que tiene dos modas, ó dos datos que se repiten más

veces (mismo número de veces).

Población Multimodal: que tien más de dos modas ó más de dos datos

que se repiten más veces (mismo número de veces).

1.5.2. Medidas de Dispersión

Son aquellas que determinan el grado de variación de los datos con respecto a un

valor promedio ( x ). En otras palabras representan la variación promedio de los

datos con respecto a la media aritmética.

1.5.2.1. Desviación Estándar (S): es una medida absoluta, es decir, muestra la

variación de los datos en las unidades de la variable, se calcula como:

donde:

X: cada dato de la variable

x : Media aritmética

n: tamaño de la población

Nota: Observa que para el cálculo de la desviación estándar muestral, en la fórmula

se divide entre n-1, pero en el caso de calcular la desviación estándar población

simplemente se divide entre n.

1.5.2.2. Varianza ( S2 ): No es más que el cuadrado de la desviación estándar.

Vázquez, H. 2009 4

1.5.2.3. Coeficiente de Variación (CV): al igual que la desviación estándar,

muestra la variación de los datos con respecto a la media, pero en forma relativa,

es decir, el coeficiente es un valor adimensional, que se representa en forma

porcentual.

Interpretación y usos de la desviación estándar:

Se entiende que una desviación estándar pequeña indica que los valores de la

población se encuentran cerca de la media. El matemático ruso P.L. Chebyshev

estableció un teorema que permite determinar la mínima porción de valores que se

encuentran a cierta cantidad de desviaciones estándar de la media:

Teorema de Chebyshev: En cualquier conjunto de datos (muestra ò

población, simétrica ò asimétrica), la proporción de valores que se

encuentran a k desviaciones estándar de la media es de por lo menos:

1 – 1 / k2, siendo k cualquier constante mayor que 1.

NOTA: Observa que sustituyendo el valor de k (número de desviaciones

estándar) en la fórmula, se obtiene el porcentaje mínimo entre los dos

Vázquez, H. 2009 5

valores dados. Es decir que si k = 2, significa que al menos el 75% de la

población está entre la media más menos 2 desviaciones estándar.

Regla Empírica: En cualquier distribución de datos simétrica, con forma

de campana, aproximadamente los porcentajes que se encuentran entre 1,

2 y 3 desviaciones estándar son los siguientes:

formula

NOTA: Observa que El Teorema de Chebyshev se emplea para cualquier tipo

de curva y la regla empírica solamente para curvas simétricas.

Vázquez, H. 2009 6

1.5.3. Medidas de Posición (Qk, Pk)

Son medidas que determinan la ubicación de un valor con respecto al total de la

población, de otro modo se puede decir que son valores que dividen a la población

en partes iguales.

1.5.3.1. Cuartiles (Qk): son medidas que dividen a la población en 4 partes

iguales. Cuando el valor de k=1, representa el valor hasta el cuál está el 25% de la

población; Q2 representa el valor donde se acumula el 50% de la población, es

decir este valor coincide ó es el mismo valor que la mediana; y por último, el Q3

representa el valor hasta el cual se acumula el 75% de la población.

1.5.3.2. Percentiles (Pk): son aquellos valores que dividen a la población en 100

partes iguales, y al igual que los cuartiles el subíndice k representa la posición de

dicha medida, es decir, por ejemplo si k=15 la medida representa el valor hasta

donde se acumula el 15%. Significa que hay 99 percentiles, desde el P1 que

representa el 1% de la población hasta el P99 que represent el 99% de la población.

Existen otras medidas llamadas Deciles, que dividen a la población en 10 partes

iguales pero por coincidir con los percentiles en su cálculo no los comentaremos en

este curso.

Para el cálculo de las medidas de posición, como primer paso es requisito calcular la

posición de dicha medida empleando la siguiente fórmula:

Si el valor de la Posición es ENTERO, el valor del cuartil ó percentil es directamente

el dato que se encuentre en dicha posición; pero si el valor de la Posición NO ES

ENTERO, el valor del cuartil ó percentil se calculará con la siguiente fórmula de

INTERPOLACIÓN:

Qk , Pk = DPm + (DPM – DPm) ƒ Donde:

DPm: Dato de la Posición menor

DPM: Dato de la Posición mayor

ƒ : el decimal de la posición

Vázquez, H. 2009 7

Nota: Observa que para la interpretación de las medidas es recomendable que

analices cual es la porción menor en la que la medida de posición divide a la

población, pues con éste es más práctica su interpretación, por ejemplo, si

calculaste el Q3 es más representativo que se indique que a partir de este valor

está el 25% de los datos más altos, que decir que el 75% de la población son

menores a éste valor. Para el caso, por ejemplo del P90, es más simple decir que el

10% esta por encima de este valor, a decir que el 90% de la población está por

debajo de este valor.

1.5.4. Medidas de Forma

Son aquellas que describen el comportamiento de una población, en lo que se

refiere hacia donde tienden a acumularse, así como al grado de concentración de

los datos.

1.5.4.1. Sesgo (CSP): el Coeficiente de Sesgo de Pearson es el que determina el

sesgo de un conjunto de datos que se define como el grado de asimetría de la

población, ya que determina la fuerza con la que los datos pierden la simetría, es

decir, nos muestra con que grado los datos tienden a concentrarse fuera del centro

de la población; se puede decir que define hacia donde se desplazan la mayoría de

los datos, y en consecuencia se define el sesgo, es decir hacia donde tienden a

desplazarse algunos datos.

Se calcula como sigue:

formula

Entonces, de acuerdo a la asimetría, una población puede ser:

Simétrica: si su sesgo es cero (CSP=0)

Asimétrica positiva: ó con sesgo a la derecha, si su sesgo es mayor que cero

(CSP>0).

Asimétrica negativa: ó con sesgo a la izquierda, si su sesgo es menor que

cero (CSP<0).

NOTA: Observa que en la figura anterior, el eje de simetría es la mediana de la

población.

Vázquez, H. 2009 8

Relación entre Media, Mediana y Moda

El concepto de sesgo, permite entender la relación que existe entre la media, la

mediana y la moda. La moda es el vértice (punto más alto de la curva), y la

mediana es el valor del medio. La media aritmética tiende a ubicarse en la cola de

la distribución de los datos, porque la media está afectada por todos los valores,

incluyendo los extremos. Una curva simétrica es cuando los tres promedios son el

mismo valor.

1.5.4.2. Curtosis (K): es la medida que determina el grado de concentración de

los datos, se refiere al corte de la curva y su altura indica el tipo de corte que

representa, una forma para determinar la curtosis es a través de la siguiente

fórmula:

En función del valor obtenido del coeficiente, se determina el corte de la curva:

NOTA: Observa, que en Excel, el coeficiente de curtosis K, no se calcula con el

mismo método, por lo que el punto de referencia cambia de 0.26 a 0, es decir, que

el corte es:

Leptocúrtico si K<0

Mesocúrtico si K=0

Platicúrtico si K>0.

Vázquez, H. 2009 9

1.5.5. Ejercicios

1.5.5.1. Ejercicios Resueltos:

1. Los datos representan el monto de las ventas mensuales (en miles de pesos) de

un agente de ventas en los últimos 12 meses:

16 28 29 13 17 20

11 34 32 27 19 18

a) Calcular las medidas de centralización.

Solución:

+ Para el cálculo de la media aritmética, tenemos que:

x = (16+28+29+13+17+20+11+34+32+27+19+18)/12

x = 22 es decir, el promedio de ventas

del agente es de $ 22,000 mensuales.

+ Para el cálculo de la mediana, es necesario ordenar los datos, de

preferencia, ascendentemente:

11 13 16 17 18 19 20 27 28 29 32 34

Ya ordenados, podemos observar que por tratarse de un tamaño de la

población par, los datos que están ubicados al centro son 2: el 19 y 20,

por lo que la mediana será el promedio de estos dos valores:

Md = (19+20)/2

Md = 19.5 es decir, el promedio de $19,500

Mensuales es el valor ubicado justo al centro

de todos los datos de la población.

+ Para el cálculo de la moda, simplemente es buscar el dato ó datos

que más se repite, y del conjunto de datos podemos observar que no

hay dato que se repita más veces, por lo que podemos decir que NO

HAY MODA, y por lo tanto hablamos de una Población AMODAL.

Vázquez, H. 2009 10

b) Calcular las medidas de dispersión.

Solución: + Para el cálculo de la desviación estándar, tenemos:

X X - X (X – X)2

11

13

16

17

18

19

20

27

28

29

32

34

11 - 22 = -11

13 - 22 = -9

16 - 22 = -6

17 - 22 = -5

18 - 22 = -4

19 - 22 = -3

20 - 22 = -2

27 - 22 = 5

28 - 22 = 6

29 - 22 = 7

32 - 22 = 10

34 – 22 = 12

(-11)2 = 121

(-9)2 = 81

(-6)2 = 36

(-5)2 = 25

(-4)2 = 16

(-3)2 = 9

(-2)2 = 4

(5)2 = 25

(6)2 = 36

(7)2 = 49

(10)2 = 100

(12)2 = 144

SUMA 646

S = 7.663 es decir, que las ventas mensuales del agente

varían en promedio $7,663 con respecto a la media aritmética

+ Para el cálculo de la varianza simplemente es el cuadrado de la

desviación estándar, por lo que:

S= 58.727 representa también la variabilidad de los datos,

como el cuadrado de la desviación estándar.

Vázquez, H. 2009 11

+ Para el cálculo del coeficiente de variación, simplemente es

sustituir las medidas en la fórmula, por lo que tenemos:

CV=34.83% al igual que la desviación estándar, indica que las ventas

mensuales del agente varían en promedio el 34.83% con respecto a

la media aritmética.

NOTA IMPORTANTE: la desviación estándar es una medida absoluta

(sus unidades son las de los datos) y el Coeficiente de variación es

una medida relativa (es adimensional) su aplicación principal es

cuando se desea comparar la variabilidad de varios grupos cuando las

unidades de los datos no son las mismas.

c) Calcular los coeficientes de sesgo y de curtosis

Solución:

+ Para el cálculo del coeficiente de sesgo de Pearson tenemos que:

CSP=0.979, como el valor de CSP >0, significa que la curva es

asimétrica con sesgo a la derecha.

Vázquez, H. 2009 12

+ Para el cálculo de la curtosis, tenemos que calcular previamente los

cuartiles 1 y 3 y percentiles 10 y 90, para lo cual es necesario

manejar los datos ordenados ascendentemente, nota que se está

indicando la posición de cada uno de ellos:

1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 11° 12°

11 13 16 17 18 19 20 27 28 29 32 34

++ Para el cálculo del Q1, primero determinamos la posición de dicho

valor:

Como el valor de la posición NO ES ENTERO, aplicamos la

interpolación, es decir, el valor del Q1 está ubicado entre la 3ª y 4ª

posición:

DPm es la 3ª posición: 16

DPM es la 4ª posición: 17

f: 0.75

por lo que la fórmula de interpolación queda:

Significa que el 25% de las ventas mensuales más bajas del

agente están por debajo de los $ 16,750.

Vázquez, H. 2009 13

++ Para el cálculo del Q3, P10 y P90 el procedimiento es el mismo:

Significa que hasta $28,250 están el 75% de las ventas del

agente, o dicho de otra manera, a partir de $28,250, están el

25% de las mejores ventas del agente.

Significa que el 10% de las ventas más bajas son menores de

$13,300.

Vázquez, H. 2009 14

Significa que el 90% de las ventas mensuales del agente son

menores a $31,700. De otra forma se puede decir que arriba

de $31,700 están el 10% de las mejores ventas mensuales del

agente.

Sustituyendo las medidas de posición en la fórmula de la

curtosis, tenemos:

K=0.313, como el valor de K>0.26, tenemos que la población

de los ventas mensuales del agente tiene un CORTE

PLATICÚRTICO.

d) Aplica la regla empírica ó Teorema de Chebyshev, según sea el

caso:

Se debe tomar en consideración la simetría de la población para

determinar cual es la regla que se aplica basados en que si es

simétrica, se aplica la Regla Empírica y si la población es Asimétrica,

se emplea el Teorema de Chebyshev. Para el caso de este ejercicio,

de acuerdo al coeficiente de sesgo podemos notar que la población es

asimétrica por lo que se aplicará el Teorema de Chebyshev:

Sabemos que la media aritmética es de 22 y la desviación estándar

es de 7.663, por lo que:

Si K=1, el intervalo queda como:

x ± S 22 ± 7.663

A = 1-1/k2

A = 1-1/1

A = 0%

Es decir, al menos el 0% de las ventas mensuales están entre

$14,337 y $29,663.

Vázquez, H. 2009 15

Si K=2, el intervalo queda como:

x ±2S 22 ± 2(7.663)=22 ± 15.326

A = 1-1/22

A = 1-1/4

A = 75%

Es decir, al menos el 75% de las ventas mensuales están entre

$6,674 y $37,326.

Si K=3, el intervalo queda como:

x ±3S 22 ± 3(7.663)=22 ± 22.989

A = 1-1/32

A = 1-1/9

A = 88.89%

Es decir, al menos el 88.89% de las ventas mensuales están

entre $ -989 y $44,989.

e) Aplicando el teorema de Chebyshev, ¿Qué porcentaje de las ventas

están entre los $14,000 y $30,000?

Se sabe que K es el número de veces que hay que sumar y restar la

desviación estándar a la media, por lo que los límites quedan como

sigue:

Significa que al menos el 8.25% de las ventas mensuales

están entre $14,000 y $30,000.

Nota: es importante que notes que la distancia en los intervalos a la

media aritmética necesariamente debe ser la misma para poder

aplicar este teorema.

Vázquez, H. 2009 16

1.5.5.2. Ejercicios Propuestos:

I. La siguiente tabla, proporcionada por Marketing Intelligence Service, es una lista

de las compañías con los más nuevos productos en un año reciente:

Compañía N° de Nuevos Productos

Avon 215

L’Oreal 429

Unilever 323

Revlon 306

Garden Botanika 286

Philips 262

Procter & Gamble 468

Nestlé 429

Paradiso 319

Tsumara 277

Calcular:

a) Medidas de Centralización

b) Medidas de Dispersión

c) P30 y P84

d) Medidas de Forma

e) Aplica la regla empírica, suponiendo que la población es simétrica

f) Aplicando el Teorema de Chebyshev, que porcentaje de las compañías

están entre los 171.4 y 491.4 productos

II. Una muestra de 15 pequeños despachos de contadores deja ver los siguientes

números de profesionistas por oficina:

7 10 9 14 11

5 11 8 3 13

12 14 15 8 6

Calcular:

a) La moda y de que tipo es la población

b) La desviación estándar absoluta

c) La desviación estándar relativa

d) Que corte tiene la distribución de los datos.

e) Según el teorema de Chebyshev, que porcentaje de la población está en

el intervalo x ± 1.8 S

Vázquez, H. 2009 17

III. Según el Teorema de Chebyshev, ¿Cuántas desviaciones estándar desde la

media incluirán por lo menos el 80% de los datos?

IV. Si un conjunto de datos se distribuye simétricamente, y la media es de 125 y la

desviación estándar es de 12, ¿entre cuáles números caería aproximadamente el

68% de los valores?, entre cuales dos números caería el 95% de los valores?,

¿entre cuales dos valores caería el 99.7% de los valores?.