estadistica aplicada1.pdf · medidas de posición 1 unidad nº 1: medidas de posición...

24
Universidad Nacional de La Rioja Sede Universitaria Chepes Departamento de Ciencias Aplicadas ESTADISTICA APLICADA

Upload: vuonghuong

Post on 27-Apr-2018

222 views

Category:

Documents


4 download

TRANSCRIPT

Universidad Nacional de La Rioja Sede Universitaria Chepes

Departamento de Ciencias Aplicadas

ESTADISTICA

APLICADA

_________________________________________________________________________________________

Medidas de Posición 1

UNIDAD Nº 1: Medidas de posición

Introducción:

Esta unidad trata sobre la presentación de datos. En particular, se mostrará

cómo grandes series de datos numéricos pueden organizarse y presentarse de manera

más eficaz en forma de tablas y diagramas con el fin de intensificar el análisis e

interpretación de datos, aspectos clave del proceso de toma de decisiones. Para

motivar nuestro análisis sobre la presentación tabular y de diagrama de los datos

numéricos, las observaciones en nuestra serie de datos son de dos tipos, de orden de

tiempo o independientes. Las observaciones de orden de tiempo pueden controlarse

sobre una gráfica digipunto, mientras que las observaciones independientes pueden

presentarse en forma tabular como una distribución de frecuencia o en forma gráfica

como un histograma, polígono u ojiva.

1.1 Frecuencias:

Con el fin de introducir las ideas relevantes, daremos un ejemplo para

desarrollar los contenidos de la presente unidad.

Tomando como base la encuesta realiza por la Dirección de Recursos

Agropecuarios sobre la existencia de ganado caprino en la provincia de La Rioja, a 40

establecimientos de cría de ganado se muestran los resultados en la tabla 1.1.

Es necesario tener en cuenta que cuando se recolecta una serie de datos como

ésta generalmente se hace en forma sin procesar, es decir, las observaciones

numéricas no se disponen en ningún orden o secuencia particular. Como se observa en

la tabla 1.1, al crecer el número de observaciones, se hace más difícil centrarse en las

principales características de un conjunto de datos y se necesitan métodos para

posibilitar organizar las observaciones de tal manera que entendamos mejor la

información que transmite la serie de datos.

Tabla 1.1 Datos sin procesar en existencia de ganad o caprino

678 1204 224 306 1221 322 789 871 569 691

_________________________________________________________________________________________

Medidas de Posición 2

324 987 568 889 743 269 305 290 210 327

630 262 508 224 1199 233 406 224 832 768

1350 1503 1145 960 1478 408 1170 1287 1371 1470

Usando los datos sin procesar de la existencia de ganado caprino de la

provincia, la Dirección de recursos desea construir las tablas y diagramas apropiados

que amplíen el informe que está preparando para el gobierno de la provincia. Al crecer

el número de observaciones se hace necesario condensar aún más los datos en tablas

de resumen apropiadas. Así pues, tal vez se desea acomodar los datos en

agrupamientos de clase (por ejemplo, categorías, cantidad o años) de acuerdo con

divisiones establecidas convenientemente del alcance de la observaciones. Tal

acomodo de los datos en forma tabular se denomina una Distribución de frecuencia.

Una distribución de frecuencia es una tabla de resumen en la que los

datos se disponen en agrupamientos o categorías convenientemente

establecidas de clases ordenadas numéricamente.

Cuando las observaciones se agrupan o condensan en tablas de distribución de

frecuencia, el proceso de análisis e interpretación de los datos se hace mucho más

manejable y significativo. En esta forma resumida las características más importantes

de los datos se aproximan muy fácilmente, compensando así el hecho, que cuando los

datos se agrupan de ese modo, la información inicial referente a las observaciones

individuales que antes se disponía se pierde a través del proceso de agrupamiento o

condensación.

Al construir la tabla de frecuencia de distribución, debe ponerse atención a:

A). Seleccionar el número apropiado de agrupamientos de clase para la tabla.

B). Obtener un intervalo o ancho de clase de cada agrupamiento de clase.

C). Establecer los límites de cada agrupamiento de clase para evitar los traslapes.

A) Selección del número de clases

El número de agrupamientos de clase por utilizar depende principalmente del

número de observaciones en los datos. Esto es, un número mayor de observaciones

requiere un número mayor de grupos de clase. En general, sin embargo, la distribución

_________________________________________________________________________________________

Medidas de Posición 3

de frecuencia debe tener al menos cinco agrupamientos de clase, pero no más de 15.

Si no hay suficientes agrupamientos de clase o si hay demasiados, se obtendrá poca

información. Como ejemplo, una distribución de frecuencia que sólo tiene un

agrupamiento de clase que abarca todo el alcance de las existencias de ganado

caprino de la siguiente manera:

Cantidad de cabezas Nº de establecimientos

200 – 1600 40

Total 40

Sin embargo, de esta tabla de resumen no se obtiene información adicional que

no se conociera ya al examinar los datos sin procesar. Una tabla con demasiada

concentración de datos no es significativa. Lo mismo sería cierto en el otro extremo, si

una tabla tuviera demasiados agrupamientos de clase, habría una subconcentración de

datos, y se sabría muy poco.

B) Obtención de los intervalos de clase

Al desarrollar la tabla de distribución de frecuencia es deseable que el ancho de

cada agrupamiento de clase sea igual. Para determinar el ancho de cada clase, el

alcance de los datos se divide entre el número de agrupamientos de clase deseado:

Rango

Ancho de intervalo: (1.1)

Número de agrupamientos deseados

Puesto que sólo hay 40 observaciones en nuestros datos de ganado caprino, se

decide que siete agrupamientos de clase serán suficientes. El alcance se calcula

tomando el dato más chico y el más grande como 200 - 1503 = 1303 cabezas de

ganado y usando la ecuación (1.1), el ancho del intervalo de clase se aproxima

mediante

_________________________________________________________________________________________

Medidas de Posición 4

Ancho de intervalo = 1303 / 7 = 186 cabezas de ganado

Por conveniencia y facilidad de lectura, el intervalo seleccionado o ancho de cada

agrupamiento de clase se redondea a 200 cabezas de ganado caprino.

C) Establecimiento de los límites de las clases

Para construir la tabla de distribución de frecuencia, es necesario establecer

claramente límites de clase definidos para cada agrupamiento de clase de manera que,

las observaciones, se registren apropiadamente. Debe evitarse el traslape de clases.

Puesto que el ancho de cada intervalo de clase para los datos del ganado se estableció

en 200 cabezas, los límites de los diversos agrupamientos de clase deben establecerse

de manera que incluyan todo el alcance de observaciones. Siempre que sea posible,

estos límites deben elegirse para que faciliten la lectura e interpretación de los datos.

De esta forma, el primer intervalo de clase se establece desde 200 hasta abajo de 400,

el segundo de 400 a abajo de 600, etc. Los datos sin procesar (tabla 1.1) se registran

entonces en cada clase según se muestra:

N° cabezas Registros Frecuencia

200 pero menor que 400 ///// ///// /// 13

400 pero menor que 600 ///// 5

600 pero menor que 800 ///// / 6

800 pero menor que 1000 ///// 5

1000 pero menor que 1200 /// 3

1200 pero menor que 1400 ///// 5

1400 pero menor que 1600 /// 3

Total 40

Estableciendo los límites de cada clase de esta manera, las 40 observaciones se

han registrado en siete clases, cada una con un ancho de intervalo de 200 cabezas de

ganado sin traslape. De esta "hoja de trabajo" la distribución de frecuencia absoluta se

presenta en la tabla 1.2 en la página siguiente.

_________________________________________________________________________________________

Medidas de Posición 5

La principal ventaja de usar una de estas tablas de resumen es que las

principales características de los datos se hacen evidentes inmediatamente para el

lector. Por ejemplo, de la tabla 1.2 vemos que el alcance aproximado de los 40

establecimientos va de 200 a 1600 cabezas de ganado, en la provincia de La Rioja, en

la mayoría de los establecimientos, tendiendo a agruparse entre 200 y 400 cabezas de

ganado caprino.

Tabla 1 .2 Distribución de frecuencia absoluta con intervalos, de número de cabezas de

ganado en 40 establecimientos de La Rioja.

N° cabezas Frecuencia

200 pero menor que 400 13

400 pero menor que 600 5

600 pero menor que 800 6

800 pero menor que 1000 5

1000 pero menor que 1200 3

1200 pero menor que 1400 5

1400 pero menor que 1600 3

Total 40

Fuente: Los datos fueron tomados de la tabla 1.1

Tipos de Distribución de frecuencia:

� Distribución de frecuencia absoluta.

� Distribución de frecuencia relativa.

� Distribución de frecuencia absoluta acumulada.

� Distribución de frecuencia relativa acumulada.

1.1.1 Frecuencia Absoluta:

Se puede definir como la cantidad de veces que se repite un valor de la variable ( n1

).

_________________________________________________________________________________________

Medidas de Posición 6

En el ejemplo dado en la tabla 1.2, las frecuencias son absolutas con intervalos.

También se pueden sacar frecuencias absolutas de números sin intervalos, por

ejemplo, si se toman las edades de los ingresantes a la Universidad de Buenos Aires

en la carrera de Ingeniería Agropecuaria, el caso se ejemplifica en la tabla 1.3

siguiente:

Tabla 1.3 Distribución de edades de los ingresantes

17 18 18 19 20 17 20 20 21 19

18 17 18 19 23 23 18 20 19 22

17 21 20 19 17 21 19 21 18 22

18 20 21 22 19 18 19 20 22 19

18 18 18 23 19 22 23 17 20 20

En este ejemplo no sería necesario determinar la Selección del número de

clases, la Obtención de los intervalos de clase y el Establecimiento de los límites de las

clases debido a que no existe una gran diferencia entre el dato más chico al más

grande, por lo que se puede plantear una distribución de frecuencia por edad, la cual

estaría representado por la tabla 1.4 siguiente:

Tabla 1.4 Distribución de frecuencia absoluta

Edades Frecuencia

17 6

18 11

19 10

20 9

21 5

22 5

23 4

Total 50

_________________________________________________________________________________________

Medidas de Posición 7

1.1.2 Frecuencia Relativa:

Se define como la proporción que en el total de observaciones representa cada valor

de la variable ( hi = n1 / n ).

También se puede decir que la distribución de frecuencia es una tabla de

resumen en la que los datos originales se condensan o agrupan para facilitar el análisis

de datos. Sin embargo, para ampliar el análisis, casi siempre es deseable formar la

distribución de frecuencia relativa o la distribución de porcentaje, dependiendo de si

preferimos proporciones o porcentajes. Estas dos distribuciones equivalentes se

muestran en las tablas 1.5 y 1.6, respectivamente.

Tabla 1.5 Distribución de frecuencia relativa de número de cabezas de ganado caprino

en los 40 establecimientos.

N° cabezas de Proporción

ganado de establecimientos

200 – 400 0.325

400 – 600 0.125

600 – 800 0.150

800 – 1000 0.125

1000 – 1200 0.075

1200 – 1400 0.125

1400 – 1600 0.075

Total 1

Fuente: Los datos fueron tomados de la tabla 1.2 de página 4.

_________________________________________________________________________________________

Medidas de Posición 8

Tabla 1.6 Distribución de porcentaje de número de cabezas de ganado caprino.

N° cabezas de Porcentaje

ganado de establecimientos

200 – 400 32,50

400 – 600 12.50

600 – 800 15.00

800 – 1000 12.50

1000 – 1200 7.50

1200 – 1400 12.50

1400 – 1600 7.50

Total 1

La distribución de frecuencia relativa descrita en la tabla 1.5 se forma

dividiendo las frecuencias de cada clase de distribución de frecuencia (tabla 1.2) entre

el número total de observaciones. Entonces puede formarse una distribución de

porcentaje (tabla 1.6) multiplicando cada frecuencia relativa o proporción entre 100.0.

Por lo tanto, de la tabla 1.5 resulta claro que la proporción de ganado caprino en

distintos establecimientos de la provincia que tienen entre 600 y 800 cabezas es .150,

mientras que en la tabla 1.6 se ve que 15% de los establecimientos tiene esa cantidad

de cabezas del total.

Generalmente es más significativo trabajar con una base de 1 para proporciones

o de 100.0 para porcentajes que usar las frecuencias mismas. De hecho, el uso de la

distribución de frecuencia relativa o de la distribución de porcentaje se vuelve esencial

siempre que una serie de datos se compara con otras series de dato, especialmente si

difiere el número de observaciones en cada serie de datos.

Como ejemplo, supongamos que un psicólogo industrial deseaba comparar

ausentismo diario entre los empleados de oficina de dos tiendas departamentales. Si,

en un día dado, seis empleados de 50 de la tienda A se ausentan y tres empleados de

10 de la tienda B se ausentan, ¿qué conclusiones podemos sacar? Es inapropiado

decir que ocurrió más ausentismo en la tienda A. Aunque hemos observado que en la

tienda A hubo el doble de ausencias que en la tienda B, también había cinco veces

_________________________________________________________________________________________

Medidas de Posición 9

más empleados que en la tienda B. Por lo tanto, en estos tipos de comparaciones,

debemos formular nuestras conclusiones a partir de los cocientes relativos de

ausentismo, no de los conteos reales. Así pues, puede establecerse que el cociente de

ausentismo es dos veces y media mayor en la tienda B (30.0%) que en la tienda A

(12.0%).

Ahora suponga, al desarrollar su informe para el Gobierno de la provincia de La

Rioja, el analista investigador deseaba comparar las cantidades de cabezas de ganado

caprino, con las de 40 establecimientos de la provincia de Córdoba. La tabla 1.7

muestra información sobre las cantidades de cabezas de ganado caprino en la

provincia por cada uno de los 40 establecimientos encuestados de Córdoba.

Para comparar las cantidades de los 40 establecimientos de La Rioja con los de

los establecimientos de Córdoba, se desarrolla una distribución de porcentaje para este

último grupo. Esta nueva tabla se comparará entonces con la tabla 1.6.

Tabla 1.7 Datos sin procesar referentes a cantidades de cabezas de ganado caprino de

la provincia de Córdoba.

650 400 701 853 534 786 990 1507 1567 1152

694 520 855 577 707 782 1264 711 522 958

987 424 700 683 823 639 577 756 799 1260

759 690 852 1084 999 319 948 842 1300 520

La tabla 1.8 describe tanto la distribución de frecuencia como la distribución de

porcentaje de las colegiaturas cobradas a residentes fuera de la provincia por las 45

escuelas de Córdoba. Esta tabla se ha construido en lugar de las dos tablas separadas

para ahorrar espacio. Observe que los agrupamientos de clase seleccionados en la

tabla 1.8 concuerdan, donde es posible, con aquellos seleccionados en la tabla 1.2

para las escuelas de Buenos Aires. Los límites de las clases deberían concordar o ser

múltiplos entre sí con el fin de facilitar las comparaciones.

_________________________________________________________________________________________

Medidas de Posición 10

Tabla 1.8 Distribución de frecuencia y distribución de porcentaje de las colegiaturas

para residentes fuera de la provincia en 45 escuelas de Córdoba.

Cantidades Número de Porcentaje de

de cabezas establecimientos cabezas

200 – 400 1 2.5

400 – 600 8 20

600 – 800 14 35

800 – 1000 10 25

1000 – 1200 2 5

1200 – 1400 3 7.5

1400 – 1600 2 5

Total 40 100

Fuente: Los datos fueron tomados de la tabla 1.8.

Usando las distribuciones de porcentaje de las tablas 1.6 y 1.8, ahora resulta

significativo comparar la cantidad de las dos provincias en términos de las cabezas de

ganado que poseen los 40 establecimientos. De las dos tablas resulta evidente que las

cantidades generalmente son menores en La Rioja que en Córdoba. Por ejemplo, en

La Rioja las cantidades por lo general se agrupan entre 200 y 400 cabezas de caprinos

(es decir, 32.50 de los establecimientos), mientras que en Córdoba las cantidades por

lo general se agrupan entre 600 y 800 cabezas de caprinos (es decir, 35% de los

establecimientos).

Distribución de frecuencia absoluta acumulada y re lativa acumulada

Otros métodos útiles de representación de datos que facilitan el análisis y la

interpretación son las tablas de distribución de frecuencia acumulativa. Esta puede

desarrollarse a partir de la tabla de distribución de frecuencia absoluta, de la tabla de

distribución de frecuencia relativa.

Tomando como fuente la tabla 1.2 y 1.5 se pueden obtener las siguiente tabla

de frecuencias:

_________________________________________________________________________________________

Medidas de Posición 11

Tabla 1.9 Frecuencias Absoluta , Relativa y porcentual acumuladas

Colegiatura (en $00) Abs. Acumulada Rel. Acumulada % Acumulad

200 pero menor que 400 13 0.325 32.50

400 pero menor que 600 18 0.450 45.00

600 pero menor que 800 24 0.600 60.00

800 pero menor que 1000 29 0.725 72.50

1000 pero menor que 1200 32 0.800 80.00

1200 pero menor que 1400 37 0.925 92.50

1400 pero menor que 1600 40 100 100

La forma en que se calcula la frecuencia absoluta acumulada esta dado por la

fórmula Fj = n1 + n2 + ...+ nj , es decir, que la frecuencia absoluta acumulada se obtiene

de la suma de cada una de las frecuencias absolutas; mientras que la frecuencia

relativa acumulada esta dado por la fórmula Frj = n1 + n2 + ... + nj, , es decir, la suma de

cada una de las frecuencias relativas.

1.1.3 Cuadros y Gráficos

A menudo se dice que "una imagen vale más que mil palabras". De hecho, los

estadísticos han empleado las técnicas gráficas para describir de manera más vívida

series de datos. En particular, los histogramas, diagrama de barras, los polígonos y el

diagrama de ojiva se usan para describir los datos numéricos que han sido agrupados

en distribuciones de frecuencia, de frecuencia relativa o de porcentaje.

Diagrama de Barras

Son una serie de líneas o palos verticales u horizontales que se desplazan hasta

los límites de cada dato cuantitativo.

_________________________________________________________________________________________

Medidas de Posición 12

Al graficar un diagrama de barras la variable independiente o aleatoria se

depliega a lo largo del eje horizontal; el eje vertical representa el número, proporción o

porcentaje de observaciones por dato; dependiendo de si el diagrama particular es,

respectivamente, un diagrama de barras de frecuencia absoluta, relativa o de

porcentaje.

Tomando como base la tabla 1.4 se obtiene la siguiente gráfica:

Frecuencia

11-

10-

9-

8-

7-

6-

5-

4-

3-

2-

1-

Edades

17 18 19 20 21 22 23

Histogramas

Los histogramas son diagramas de barras verticales en los que se construyen

barras rectangulares en los límites de cada clase.

Al graficar histogramas, la variable aleatoria o fenómeno de interés se despliega

a lo largo del eje horizontal; el eje vertical representa el número, proporción o

_________________________________________________________________________________________

Medidas de Posición 13

porcentaje de observaciones por intervalo de clase; dependiendo de si el histograma

particular es, respectivamente, un histograma de frecuencia absoluta, un histograma de

frecuencia relativa o un histograma de porcentaje. Tomando como base la tabla 1.4 la

gráfica se muestra a continuación:

Histograma

0

2

4

6

8

10

12

17 18 19 20 21 22 23

Edades

frecuencia

Teniendo en cuanta la tabla 1.2 la gráfica es la siguiente:

Histograma

0

2

4

6

8

10

12

14

200 –

400

400 –

600

600 –

800

800 –

1000

1000 –

1200

1200 –

1400

1400 –

1600

Cabezas

Fre

cuen

cia

Polígonos

Al igual que con los histogramas, al graficar polígonos el fenómeno de interés se

despliega a lo largo del eje horizontal y el eje vertical representa el número, proporción

o porcentaje de observaciones por intervalo de clase.

_________________________________________________________________________________________

Medidas de Posición 14

El polígono de porcentaje se forma permitiendo que el punto medio de cada

clase represente los datos de esa clase y luego conectando la sucesión de puntos

medios con sus respectivos porcentajes de clase.

Debido a que los puntos medios consecutivos son conectados por una serie de

líneas rectas, el polígono algunas veces está dentado en apariencia. Sin embargo, al

tratar con una serie de datos muy grande, si tuviéramos que crear los límites de las

clases en su distribución de frecuencia más juntos (incrementando así el número de

clases en esa distribución), las líneas dentadas del polígono se "suavizarían". Tomando

en cuanta la tabla 1.6 ganado caprino de La Rioja en porcentaje se obtiene la siguiente

gráfica:

Polígono

0

5

10

15

20

25

30

35

200-400 400-600 600-800 800-

1000

1000-

1200

1200-

1400

1400-

1600

Cabezas

Porcentaje

Polígono de porcentaje acumulativo

Para construir un polígono de porcentaje acumulativo (también conocido

como ojiva), observamos que el fenómeno de interés, la cantidad de cabezas de

ganado caprino nuevamente se grafica en el eje horizontal, mientras que los

porcentajes acumulativos se grafican en el eje vertical. En cada límite inferior,

graficamos el valor de porcentaje (acumulativo) correspondiente del listado de la

distribución de porcentaje acumulativo. Entonces conectamos estos puntos con una

serie de segmentos de líneas rectas.

_________________________________________________________________________________________

Medidas de Posición 15

La figura a continuación ilustra el polígono de porcentaje acumulativo de las cabezas

de ganado caprino de la Provincia de La Rioja. La principal ventaja de la ojiva sobre

otros diagramas es la facilidad con que podemos interpolar entre los puntos graficados.

Tomando los datos de la tabla 1.9 se desprende la siguiente gráfica:

Ojiva

0

20

40

60

80

100

120

200-

400

400-

600

600-

800

800-

1000

1000-

1200

1200-

1400

1400-

1600

Cabezas

Po

rce

nta

je

Mediciones de la tendencia central

La mayor parte de las series de datos muestran una clara tendencia a agruparse

alrededor de un cierto punto central. Así pues, dada cualquier serie de datos particular,

por lo general es posible seleccionar algún valor o promedio típico para describir toda la

serie de datos. Este valor descriptivo típico es una medición de tendencia central o de

ubicación.

Cuatro tipos de promedios a menudo usados como mediciones de tendencia central

son la media aritmética, la mediana, la moda y el eje medio.

1.2 La media aritmética

La media aritmética (también llamada la media) es el promedio o medición de

tendencia central de uso más común. Se calcula sumando todas las observaciones, de

_________________________________________________________________________________________

Medidas de Posición 16

una serie de datos y luego dividiendo el total entre el número de elementos

involucrados.

Por lo tanto, para una muestra que contiene una serie de n observaciones X1, X2, ...,

Xn, la media aritmética (dada por el símbolo X, denominado "X barra") puede escribirse

como :

_ X1 + X2 + ... + Xn

X =

n

Para simplificar la notación y por comodidad se usa convencionalmente el término

n

∑∑∑∑ Xi

i=1

( que significa la sumatoria de todos los valores Xi ) siempre que deseemos sumar una

serie de observaciones. Esto es

n

∑ Xi = X1 + X2 + ...+ Xn

i=1

Usando esta notación de sumatoria, la media aritmética de la muestra puede

expresarse de manera más simple como:

n

_ ∑∑∑∑ Xi

X = i=1

n

donde _

X = media aritmética de la muestra

n = tamaño de la muestra

Xi = iésima observación de la variable aleatoria X

n

∑ Xi = sumatoria de todos los valores X de la muestra

_________________________________________________________________________________________

Medidas de Posición 17

i=1

Para la muestra de nuestro ejemplo tomamos las encuestas de la cantidad de ganado

caprino de 6 establecimientos de la provincia de La Rioja:

X1 = 678

X2 = 1199

X3 = 408

X4 = 233

X5 = 224

X6 = 960

La media aritmética para esta muestra se calcula como

n

_ ∑∑∑∑ Xi

X = i=1 = 678 + 1199 + 408 + 233 + 224 + 960 = 617 cabezas de ganado

n 6

Aquí observamos que la media se calcula como 617cabezas de ganado caprino,

cuando ningún establecimiento en particular de la muestra tenía realmente esa

cantidad. Además, para esta serie de datos tres observaciones son menores que la

media y tres son mayores. La media actúa como punto de equilibrio de tal forma que

las observaciones menores compensan aquellas que son mayores.

Observe que el cálculo de la media se basa en todas las observaciones (X1, X2,

..., Xn) de la serie de datos. Ninguna otra medición de tendencia central comúnmente

usada posee esta característica. Puesto que su cálculo se basa en cada observación,

la media aritmética se ve afectada en gran medida por cualquier valor extremo. En

estos casos, la media aritmética presenta una representación distorsionada de lo que

los datos están transmitiendo; así pues, la media no sería el mejor promedio a usarse

para describir o resumir esta serie de datos.

La media de la población está dad por el símbolo µx , la letra minúscula griega

mu subíndice x, es decir:

_________________________________________________________________________________________

Medidas de Posición 18

N

Σ X1

i=1

µ =

N

donde:

N: tamaño de población

X: iésimo valor de la variable aleatoria x

N

Σ X: sumatoria de todos los valores X de la población

i=1

1.3 Mediana

La mediana es el valor medio de una secuencia ordenada de datos. Si no hay empates,

la mitad de las observaciones serán menores y la otra mitad serán mayores, la

mediana no se ve afectada, por ninguna observación extrema de una serie de datos.

Por tanto, siempre que esté presente una observación extrema es apropiado usar la

mediana en vez de la media para describir una serie de datos.

Para calcular la mediana de una serie de datos recolectados en su forma sin procesar,

primero debemos poner los datos en una clasificación ordenada. Después usar la

fórmula del punto de posicionamiento

n + 1

2

para encontrar el lugar de la clasificación ordenada que corresponde al valor de la

mediana. Se sigue una de las dos reglas:

_________________________________________________________________________________________

Medidas de Posición 19

• Regla 1: Si el tamaño de la muestra es un número impar, la mediana se

representa mediante el valor numérico correspondiente al punto de

posicionamiento, la observación ordenada es {n + 1)/2.

• Regla 2: Si el tamaño de la muestra es un número par, entonces el punto de

posicionamiento cae entre las dos observaciones medias de la clasificación

ordenada. La mediana es el promedio de los valores numéricos correspondientes a

estas dos observaciones medias,

Muestra de tamaño uniforme: Para la muestra de nuestro ejemplo de las cantidades de

ganado caprino en 6 establecimientos, los datos sin procesar fueron

678 1199 408 233 224 960

La clasificación ordenada se vuelve:

224 233 408 678 960 1199

1 2 3 4 5 6

Mediana = 543

Para estos datos, el punto de posicionamiento es (n + 1)/2= ( 6 + 1)/2 = 3.5. Por

consiguiente, la mediana se obtiene promediando la tercera y cuarta observación

ordenada:

408 + 678 / 2 = 543 cabezas de ganado

Como puede verse en la clasificación ordenada, la mediana no se ve por

observaciones extremas. Sin importar si la cantidad mayor es 1278 cabezas, 1578 o

1145cabezas, la mediana sigue siendo 543 cabezas.

Muestra de tamaño no uniforme: Si la muestra hubiera tenido un número impar, la

mediana estaría representada simplemente por el Valor numérico dado a la

observación (n + 1)/2 de la clasificación ordenada. Por tanto, clasificación ordenada de

n = 5 encuestas de establecimientos, la mediana es valor de la tercera observación

ordenada, [es decir, (5 + 1)/2]= 3= 590

_________________________________________________________________________________________

Medidas de Posición 20

500 570 559900 600 690

Mediana

Empates en los datos: Al calcular la mediana, ignoramos el hecho de que pueden

haber valores empatados en los datos. Suponga, por ejemplo, que la siguiente serie de

datos representa la superficie plantada con olivares en distintas zonas de la provincia

de La Rioja en hectáreas:

465 789 456 465 246 833 345

La clasificación ordenada se vuelve

246 345 456 446655 465 789 833

1 2 3 4 5 6 7

Mediana

Para esta muestra de tamaño impar, el punto de posicionamiento de la mediana

es la (n + 1)/2 = 4a observación ordenada. Así, la mediana es 465 hectáreas plantadas

con olivares, el valor medio de la secuencia ordenada, aun cuando la tercera

observación sea también 456 hectáreas.

Para resumir, el cálculo del valor de la mediana se ve afectado por el número de

observaciones, no por la magnitud de cualquier extremo, cualquier observación

seleccionada aleatoriamente tiene la misma probabilidad de exceder la mediana como

de ser excedida por ésta.

_________________________________________________________________________________________

Medidas de Posición 21

1.4 La moda

Algunas veces, al resumir o describir una serie de datos, la moda se usa como

una medición de tendencia central. La moda es el valor de una serie de datos que

aparece con más frecuencia. Se obtiene fácilmente de una clasificación ordenada. A

diferencia de la media aritmética, la moda no se ve afectada por la ocurrencia de

cualesquier valores extremos. Sin embargo, la moda no se usa para propósitos más

que descriptivos porque es más variable de muestra a muestra que otras mediciones

de tendencia central. .

Usando la clasificación ordenada de las cantidades de ganado caprino en 6

establecimientos, los datos sin procesar fueron :

678 1199 408 233 224 960

vemos que no hay moda. Ninguna de las colegiaturas fue la “más típica”.

Observe que hay una diferencia entre ninguna moda y una moda de 0, como se

ilustra en la siguiente clasificación ordenada de temperaturas de mediodía (°C) en Rio

Gallegos durante la primera semana de diciembre

-4° -2° -1° -1° 0° 0° 0° 0°

Moda = 0.

Además, una serie de datos puede tener más de una moda, como se ilustra en

la siguiente clasificación ordenada de temperaturas de mediodía (°C) en Necochea

durante la primera semana de enero:

21° 28° 28° 35° 31° 31° 29°

En Necochea vemos que hubo dos modas, 28° y 31°. Estos datos se describen como

bimodales.

1.5 Cuartiles, deciles y percentiles

_________________________________________________________________________________________

Medidas de Posición 22

Además de las mediciones de tendencia central, existen también algunas

mediciones útiles de ubicación “no central” que se emplean particularmente al resumir o

describir las propiedades de grandes series de datos numéricos. La medición de este

tipo más ampliamente usadas son los cuartiles.

Mientras que la mediana es un valor que divide la clasificación ordenada a la

mitad (50 % de las observaciones son menores y 50% de las observaciones son

mayores), los cuartiles son mediciones descriptivas que dividen los datos ordenados en

cuatro cuartos.

El primer cuartil, Q 1, es un valor tal que 25.0% de las observaciones son menores y

75.0% de las observaciones son mayores.

El segundo cuartil, Q 2, es la mediana , 50.0% de las observaciones son menores y

50.0% de las observaciones son mayores.

El tercer cuartil, Q 3, es un valor tal que 75.0% de las observaciones son menores y

25.0% son mayores.

Para aproximar los cuartiles, se usan las siguientes fórmulas de punto de

posicionamiento:

Q1 = valor correspondiente a n + 1 observación clasificada

4

Q2 = mediana, el valor correspondiente a 2 ( n + 1 ) = n + 1 observación clasificada

4 2

Q3 = valor correspondiente a 3 ( n + 1 ) observación clasificada

4

Las siguientes reglas se usan para obtener los valores de cuartiles:

1) Si el punto de posicionamiento resultante es un entero, se elige la observación

numérica particular correspondiente a ese punto de posicionamiento para el cuartil.

2) Si el punto de posicionamiento resultante está a la mitad del camino entre dos

enteros, se selecciona el promedio de sus valores correspondientes,

_________________________________________________________________________________________

Medidas de Posición 23

3) Si el punto de posicionamiento resultante no es ni un entero ni un valor a la mitad del

camino; entre dos enteros, se usa una regla simple para aproximar el cuartil particular

que consiste en redondear al punto de posicionamiento entero más cercano y

seleccionar el valor numérico de la observación correspondiente.

También se pueden obtener las mediciones llamadas deciles y percentiles ,

donde las primeras dividen a conjunto de datos en diez partes iguales y las segundas

dividen al conjunto de datos en cien partes iguales.

En resumen los cuantiles pueden ser:

� Cuartiles : dividido en 4 partes

� Deciles: dividido en 10 partes

� Percentiles: dividido en 100 partes