anÁlisis estadÍstico de una variable · n-ésima del producto de todos los números. se...

25
1 ANÁLISIS ESTADÍSTICO DE UNA VARIABLE El análisis estadístico de una variable permite describir las características de un grupo con respecto a una variable. Este análisis puede realizarse a través de valores promedios, mediante el uso de medidas de posición; a través de la variación de los valores con respecto a un promedio o con respecto a un valor central, haciendo uso de las medidas de dispersión; u observando la distribución de los datos, para saber hacia que lado se inclina la curva, utilizando las medidas de forma de la distribución. Estos tres tipos de medidas son utilizados, en términos generales, para clasificar a un grupo en específico. Para el análisis estadístico de una variable, existen tres tipos de medidas ha utilizar: Medidas de Posición Medidas de Dispersión Medidas de Forma de la Distribución Cada una de estas medidas, se utiliza para resumir la información contenida en los datos y cuya interpretación permite detectar ciertas regularidades en el comportamiento de los mismos. MEDIDAS DE POSICIÓN Se dividen en dos grupos: Tendencia Central Cuantiles 1) Tendencia Central: Las medidas de Tendencia Central sirven como punto de referencia para una interpretación o una comparación, el valor de estas medidas debe ser representativo. Son conocidas bajo este nombre (medidas de tendencia central) puesto que los valores estudiados tienden a reflejar su concentración en los valores centrales. Son medidas de tipo promedio y se dividen en dos subgrupos: Promedios Matemáticos. Promedios NO Matemáticos.

Upload: lamnhan

Post on 03-Oct-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

1

ANÁLISIS ESTADÍSTICO DE UNA VARIABLE

El análisis estadístico de una variable permite describir las características de un

grupo con respecto a una variable. Este análisis puede realizarse a través de valores

promedios, mediante el uso de medidas de posición; a través de la variación de los valores

con respecto a un promedio o con respecto a un valor central, haciendo uso de las medidas

de dispersión; u observando la distribución de los datos, para saber hacia que lado se

inclina la curva, utilizando las medidas de forma de la distribución. Estos tres tipos de

medidas son utilizados, en términos generales, para clasificar a un grupo en específico.

Para el análisis estadístico de una variable, existen tres tipos de medidas ha utilizar:

Medidas de Posición

Medidas de Dispersión

Medidas de Forma de la Distribución

Cada una de estas medidas, se utiliza para resumir la información contenida en los

datos y cuya interpretación permite detectar ciertas regularidades en el comportamiento

de los mismos.

MEDIDAS DE POSICIÓN

Se dividen en dos grupos:

Tendencia Central

Cuantiles

1) Tendencia Central:

Las medidas de Tendencia Central sirven como punto de referencia para una

interpretación o una comparación, el valor de estas medidas debe ser representativo. Son

conocidas bajo este nombre (medidas de tendencia central) puesto que los valores

estudiados tienden a reflejar su concentración en los valores centrales.

Son medidas de tipo promedio y se dividen en dos subgrupos:

Promedios Matemáticos.

Promedios NO Matemáticos.

2

1.1 – Promedios Matemáticos.

Los promedios son una medida de posición que dan una descripción de cómo están

centrados los datos. El promedio como punto típico de los datos es el valor alrededor del

cual están agrupados los demás valores de una variable.

Dentro del grupo de los promedios matemáticos se encuentran:

1.1.1 – Media Aritmética ( X ).

La media aritmética es el valor obtenido al sumar todos los datos y dividir el

resultado entre el número total de datos. Se representa con la letra X .

La fórmula ha utilizar, cuando los datos no están agrupados en clases, para el cálculo

de la media aritmética es la siguiente:

N

X

X

N

i

i 1

Es decir, la media aritmética es igual a la sumatoria de todos los datos dividida entre

el total de la población.

Ejemplo: Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso promedio.

kgX 00,806

788768729184

Si los datos se encuentran agrupados en clases, la fórmula ha utilizar es la siguiente:

N

Xifi

X

N

i

1

3

Es decir, la media aritmética es igual, ahora, a la sumatoria de los puntos medios (Xi),

debido a que todos los valores que se encuentran entre los límites de un intervalo, están

uniformemente distribuidos en él, por la frecuencia absoluta simple (fi) entre el tamaño de

la población (N).

Ejemplo: En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones

que muestra la siguiente tabla. Calcula la puntuación media.

Puntuaciones fi Xi Xifi

10 – 20 1 15 15

20 – 30 8 25 200

30 – 40 10 35 350

40 – 50 9 45 405

50 – 60 8 55 440

60 – 70 4 65 260

70 – 80 2 75 150

42 1820

N

Xifi

X

N

i

1 puntosX 33,43

42

1820

Propiedades de la Media Aritmética.

1- La suma de las desviaciones de todos los valores de una distribución respecto a la

media es igual a cero.

0)( XXi

2- La suma de los cuadrados de las desviaciones de los valores de la variable con respecto

a una constante se hace mínima cuando la misma coincide con la media aritmética.

2)( XXi mínimo

3- Si a todos los valores de la variable se les suma un mismo número, la media aritmética

queda aumentada en dicho número.

4

4- Si todos los valores de la variable se multiplican por un mismo número, la media

aritmética queda multiplicada por dicho número.

Observaciones sobre la Media Aritmética.

1- La media se puede determinar sólo para variables cuantitativas.

2- La media es independiente de las amplitudes de los intervalos.

3- La media es muy sensible a las puntuaciones extremas.

4- La media no se puede calcular si hay un intervalo con una amplitud indeterminada.

1.1.2 – Media Geométrica (G).

La media geométrica de una cantidad infinita de números (digamos N números), es la raíz

N-ésima del producto de todos los números. Se representa con la letra G.

La fórmula ha utilizar es la siguiente:

NNXXXG )())(( 21

Propiedades y usos de la media geométrica.

Propiedades: sólo tiene dos propiedades matemáticas.

- Primera propiedad: “el producto de los valores de la serie permanecerá

constante cuando el valor de cada individuo sea substituido por el valor de la

media geométrica” (Ya Lum, Chou-1972).

Ejemplo: la media geométrica para la serie 2, 4, 8, 16 y 32 es 8, entonces:

(2)(4)(8)(16)(32)= 32768 = (8) (8) (8) (8) (8)

- Segunda propiedad: “las sumas de las desviaciones de los logaritmos de las

observaciones originales por encima o por debajo del logaritmo de la media

5

geométrica, son iguales; es decir, 0)log(log Gx . Alternativamente, podemos

decir que el valor de la media geométrica es tal que equilibra la razón de las

desviaciones de las observaciones obtenidas en ella” (Ya Lum, Chou-1972).

Ejemplo: la media geométrica para la serie 2, 4, 8, 16 y 32 es 8, entonces:

8

328

1684

82

8

Usos.

- La media geométrica sólo es relevante si todos los números son positivos.

Cuando existe un número negativo, la media geométrica es inexistente en el

campo de los números reales (R).

- La aplicación más útil de la media geométrica es la de promediar tasas de

cambios, debido a que el promedio de tasas de cambio sólo puede ser medido

correctamente por el método de dicha media.

1.1.3 – Media Armónica (H).

La Media Armónica, es el recíproco de la media aritmética de los recíprocos de los

datos. Se representa con la letra H y se calcula tanto para datos agrupados como para

datos NO agrupados.

Para datos agrupados:

El método para calcular la media armónica para datos no agrupados se ilustra en el

siguiente ejemplo:

Ejemplo: Calcular la media armónica de los valores 1, 4, 10, 8 y 10.

La fórmula ha utilizar para calcular la media armónica es la siguiente:

N

HN

i

Xi

1

1

1

6

Solución: La media aritmética de los recíprocos de los cinco valores es:

N

Xi

N

i

1

1

200

63

5

1

40

63

55

404541040

101

81

101

41

11

La media armónica de los cinco valores es el recíproco de la media aritmética de los

recíprocos:

H 2,363

200

La media aritmética de los recíprocos de N valores es:

N

XXXX N/1/1/1 21

La media armónica (H) es el recíproco de la media aritmética:

NXXX

NH

/1/1/1 21

o

N

i

Xi

NH

1

)/1(

Sustituyendo los valores del ejemplo en la fórmula: la media armónica puede ser

calculada directamente como sigue:

2,363

200

63

405

55

4063

101

81

101

41

11

H

1.1.4 – Media Cuadrática (RMS).

La Media Cuadrática es la raíz cuadrada de la media aritmética de los valores al

cuadrado y se usa eficientemente para promediar los errores o desviaciones porque es más

susceptible a los mismos, se representa por las letras RMS.

La fórmula aplicada es la siguiente:

N

Xi

RMS

N

i

1

2

7

1.2 – Promedios NO Matemáticos.

Los promedios NO matemáticos, son Lambién medidas de tendencia central pero

que a diferencia de los matemáticos, donde se deben hacer cálculos, en éstos sólo importa

la posición que ocupa el dato.

Se dividen en dos grupos:

1.2.1 – Mediana (Md).

Se define esta medida de posición como el valor que divide una distribución de tal

manera que quede a cada lado un número igual de términos. Para determinar la mediana

es necesario ordenar los datos, utilizando cualquiera de los métodos de agrupación. Se

identifica con el símbolo Md.

El valor de la mediana puede coincidir o no con un valor de la serie, todo depende si

el número de datos es par o impar.

Para series de datos impares, su ubicación es la siguiente:

2

1N

Para series de datos pares, su ubicación es la siguiente:

122

Ny

N

Para determinar el valor de la mediana en datos agrupados en clases, la fórmula a

utilizar es la siguiente:

Icfi

FliMd i

N

12

De donde:

Md= mediana li= límite inferior de la clase medianal

Fi-1= frecuencia absoluta acumulada,

anterior a la posición de la mediana

fi= frecuencia absoluta simple de la clase

en donde está ubicada la mediana

N= población N/2= ubicación de la mediana

Ic= intervalo de clase

8

Ejemplo: calcular la mediana en la siguiente serie de datos agrupados en clases:

Clase medianal:

57

510 2

15

Md 57

55,710

Md

79,110 Md puntosMd 79,11

50% de los alumnos obtuvieron calificaciones iguales o

inferiores a 11,79 puntos. 50% de los alumnos obtuvieron

calificaciones iguales o superiores a 11,79 puntos.

Características de la Mediana.

Para poder calcular la mediana en una distribución de frecuencia, el nivel

mínimo es ordinal.

En caso de datos agrupados en clases, en donde no se conocen los valores

extremos, se puede calcular la mediana, siempre que se tengan los datos

próximos al centro.

En aquellas series en donde exista una gran concentración de los datos con

respecto a un valor central, pero que, sin embargo, existen valores extremos

muy aislados de esa concentración, se aconseja utilizar la mediana como

promedio, ya que ella es menos susceptible a los valores extremos que la

media.

Puntuaciones fi Fi

0 – 5 3 3

5 – 10 2 5

10 – 15 7 12

15 – 20 3 15

15

9

1.2.2 – Modo (Mo).

Es el valor que aparece con más frecuencia en una serie de datos. Se obtiene

fácilmente de una clasificación ordenada. El modo no se ve afectado por la ocurrencia de

los valores extremos, ya que es sensible al acomodo de los datos estando estos agrupados

en clases. Se identifica con el símbolo Mo.

Es importante señalar que cuando en una distribución de frecuencia hay dos valores

que se repitan un número igual de veces y estas repeticiones sean consideradas las más

frecuentes, en dicho caso se habla de una distribución bimodal; en el caso de que haya más

de dos valores que se repitan un número igual de veces y sean estos valores considerados

los más frecuentes, en este caso no hay forma lógica de determinar el valor que debe ser

escogido como modo. Se da también el caso de que no exista algún valor que pueda ser

considerado como el más frecuente, debido a que todas las clases presentan la misma

frecuencia, en dichos casos la distribución carece de modo.

Cuando los datos están agrupados en clases existe lo que llamamos la clase modal,

que es aquella clase en la que se encuentra el modo, la clase premodal, que es la clase que

está antes del modo, y la clase posmodal, que es la clase que está después del modo.

- Para la determinación del modo en datos no agrupados, simplemente se toma como

modo aquel valor que más se repita.

Ejemplo: determinar el modo en la siguiente distribución de frecuencia de datos no

agrupados: 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 6

Respuesta: 4 es el modo, debido a que es el valor que más se repite en la serie de

datos.

10

- Para la determinación del modo en series de datos agrupados en clases, se utiliza la

siguiente fórmula:

IcliMo

21

1

De donde:

Ejemplo: determinar el modo en la siguiente distribución de frecuencia:

Clase premodal:

Clase modal:

Clase posmodal:

5)37()27(

)27(10

Mo 5

45

510

Mo

59

510 Mo 78,210Mo

puntosMo 78,12

La puntuación que más se repite en la distribución es 12,78 puntos.

Mo= modo 1 frecuencia absoluta simple de la clase modal, menos

la frecuencia absoluta simple de la clase premodal.

li= límite inferior de la clase modal 2 frecuencia absoluta simple de la clase modal, menos

la frecuencia absoluta simple de la clase posmodal.

Ic= intervalo de clase

Puntuaciones fi

0 – 5 3

5 – 10 2

10 – 15 7

15 – 20 3

15

11

2) Cuantiles.

Los cuantiles son medidas de posición que dividen la distribución en partes iguales,

es decir, en intervalos que comprenden el mismo número de valores. Cuando la

distribución contiene un número alto de intervalos y se requiere obtener un promedio de

una parte de ella, se puede dividir la distribución en cuatro, en diez o en cien partes.

2.1 – Cuartiles.

Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en

cuatro partes porcentualmente iguales.

Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es

precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual

queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el

valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos.

Para Datos Agrupados en clases.

La fórmula para el cálculo de los cuartiles cuando se trata de datos agrupados en

clases es la siguiente:

Icfi

FliQ i

NA

A

14

De donde:

QA= Cuartil li= límite inferior de la clase en donde está

ubicado el cuartil

N= población fi= frecuencia absoluta simple de la clase en

donde está ubicado el cuartil

A.N/4= posición

del cuartil

Fi-1= frecuencia absoluta acumulada,

anterior a la posición del cuartil.

Ic= intervalo de clase

12

2.2 – Deciles.

Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez

partes porcentualmente iguales. Los deciles se denotan D1, D2,..., D9, que se leen primer

decil, segundo decil, etc.

Para Datos Agrupados en clases.

La fórmula para calcular los deciles en datos agrupados es la siguiente:

Icfi

FliD i

NA

A

110

De donde:

2.3 – Percentiles.

Los percentiles son ciertos números que dividen la sucesión de datos ordenados en

cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes

iguales el conjunto de datos ordenados. Los percentiles (P1, P2,..., P99), son leídos primer

percentil,..., percentil 99.

DA= Decil li= límite inferior de la clase en donde está

ubicado el decil

N= población fi= frecuencia absoluta simple de la clase

en donde está ubicado el decil

A.N/10= posición

del decil

Fi-1= frecuencia absoluta acumulada,

anterior a la posición del decil

Ic= intervalo de clase

13

Para Datos Agrupados en clases.

Cuando los datos están agrupados en una tabla de frecuencia, la fórmula ha utilizar

es la siguiente:

Icfi

FliP i

NA

A

1100

De donde:

Ejemplo: Determinación del cuartil 1, decil 7 y percentil 30, de la siguiente distribución de

frecuencia:

Salarios

(Bs.F)

fi Fi

200 – 299 85 85

300 – 399 90 175

400 – 499 120 295

500 – 599 70 365

600 – 699 62 427

700 – 800 36 463

463

PA= Percentil li= límite inferior de la clase en donde está

ubicado el percentil

N= población fi= frecuencia absoluta simple de la clase

en donde está ubicado el percentil

A.N/100= posición

del percentil

Fi-1= frecuencia absoluta acumulada,

anterior a la posición del percentil

Ic= intervalo de clase

14

Como son datos agrupados en clases, se utilizan las fórmulas:

Icfi

FliQ i

NA

A

14 Ic

fi

FliD i

NA

A

110 Icfi

FP i

NA

A

1100

Siendo,

NAnPosici A

La posición del cuartil A.

10ó

NAnPosici A

La posición del decil A.

100ó

NAnPosici A

La posición del percentil A.

Entonces,

* Cuartil 1= Percentil 25 (Q1=P25)

75,1154

4631ó 1

nQPosici 100

90

8575,1153001

Q BsFQ 17,3341

10090

85300 4

4631

1

Q 17,343001 Q

li= 300 Fi-1= 85 Ic= 100 fi= 90

Interpretación: 25% de los trabajadores ganan salarios inferiores a 334,17BsF y 75% de los

trabajadores ganan salarios superiores a 334,17BsF

* Decil 7= Percentil 70 (D7=P70).

10,32410

4637ó 7

nDPosici 100

70

29510,3245007

D BsFD 57,5417

10070

295500 10

4637

7

D 57,415007 D

li= 500 Fi-1= 295 Ic= 100 fi= 70

Interpretación: 70% de los trabajadores ganan salarios inferiores a 541,57BsF y 30% de los

trabajadores ganan salarios mayores de 541,75BsF.

15

*Percentil 30= Decil 3 (P30=D3)

90,138100

46330ó 30

nPPosici 100

90

8590,13830030

P BsFP 89,35930

10090

85300 100

46330

30

P 89,5930030 P

li= 300 Fi-1= 85 Ic= 100 fi= 90

Interpretación: 30% de los trabajadores ganan salarios por debajo de 359,89BsF y un 70%

de los trabajadores ganan salarios superiores a 359,89BsF

NOTA: para datos no agrupados en clases, se sigue igual criterio que con la mediana.

MEDIDAS DE DISPERSIÓN

Un rasgo principal de los datos es su dispersión o amplitud, que se refiere a su

variabilidad, a la evaluación de cuán separados o extendidos están estos datos o bien

cuánto difieren unos de otros. Las medidas de dispersión se dividen en dos grupos:

Absolutas (Por conservar la unidad de medida).

Relativas (Por eliminar la unidad de medida).

1) Medidas de Dispersión Absolutas.

1.1 Rango (R).

El Rango es la resta del valor máximo (VM) con el valor mínimo (Vm) de la serie de

datos que se nos presenta.

La fórmula para calcular el rango es la siguiente:

mM VVR

16

1.2 Desviación Cuartil (DQ).

Conocidos los cuartiles se puede calcular la desviación cuartil, la cual mide la

amplitud o rango existente entre el 50% central de la distribución de los datos.

La fórmula para calcular la desviación cuartil es la siguiente:

13 QQDQ

1.3 Desviación Media (DM).

La desviación media, medida como la sumatoria de los valores absolutos de las

desviaciones y representada con el símbolo DM, se expresa de la siguiente manera:

NOTA: la media puede ser sustituida por la mediana.

1.4- Varianza (S2).

La Varianza es una medida de dispersión absoluta que indica la variabilidad (o

dispersión) de un conjunto de datos observados, es decir, nos permite ver los “grados” de

uniformidad u homogeneidad de los mismos. Está representada por S² o 2 (sigma) y se

define en función de las diferencias entre la media ( ), y cada uno de los valores de la

variable, elevadas al cuadrado, para eliminar el signo negativo. Se calcula según las

fórmulas:

Para datos NO agrupados.

N

XXi

S

N

i

2

12

)(

o 21

2

2 XN

Xi

S

N

i

Para datos agrupados.

N

XXifi

S

N

i

1

2

2

)(

o 21

2

2 XN

fiXi

S

N

i

Entre las observaciones importantes respecto al cálculo de la varianza tenemos que en

los casos donde no se pueda hallar la media ( X ) tampoco se podrá determinar la varianza

17

y que ésta no se expresa en las mismas unidades que los datos, pues estos estarán elevados

al cuadrado, lo cual la hace impráctica.

Propiedades de la Varianza, entre otras:

1- La varianza será siempre un valor positivo o cero, en el caso de que los datos sean

iguales.

2- Si a todos los datos de la variable se les suma un mismo número la varianza no varía.

3- Si todos los datos de la variable se multiplican por un mismo número la varianza queda

multiplicada por el cuadrado de dicho número.

1.5 – Desviación Estándar (S).

Por su parte, la desviación típica o estándar es la raíz cuadrada positiva de S².

(Hermann - Josef, K. 1977). Es decir, se calcula extrayendo la raíz cuadrada a la varianza,

con la finalidad de obtener las unidades originales de los datos de dispersión y se denota

como S.

Al respecto, Pilar Pestaña de Martínez, docente e investigadora, afirma que la

desviación estándar “es la medida de dispersión más frecuentemente utilizada en

estadística descriptiva, constituyendo la base para los cálculos de regresión y correlación.”

Asimismo, el profesor Simón Cabrera en su guía de teoría de Estadística Descriptiva,

publicada en el blog http://wwwyyy.wordpress.com, señala que:

“La desviación típica como medida absoluta de dispersión, es la que mejor nos proporciona la

variación de los datos con respecto a la media aritmética, su valor se encuentra en relación directa

con la dispersión de los datos, a mayor dispersión de ellos, mayor desviación típica, y a menor

dispersión, menor desviación típica.”

18

La desviación estándar se calcula de la siguiente forma:

Para datos NO agrupados.

N

XXi

S

N

i

1

2)(

o 21

2

XN

Xi

S

N

i

Para datos agrupados.

N

XXifi

S

N

i

1

2)(

o 21

2

XN

fiXi

S

N

i

Ejemplo: Complete la siguiente la tabla correspondiente a la edad en que murieron 25

personas de fiebre tifoidea. Sólo se consideraron edades entre 40 y 60 años

cumplidos )ñ0,52( osaX . (Rascón, O. 1974. Pág. 266, Ej. 39)

Edad

(años)

fi )( XX 2)( XX 2)( XXfi

40 2 -12 144 288

45 4 -7 49 196

50 5 -2 4 20

55 10 3 9 90

60 4 8 64 256

25 850

Halle la varianza y desviación típica e interprete.

X = 52,0 años

N = 25 personas.

N

XXi

S

N

i

2

12

)(

25

8502 S 22 años00,34S

19

La varianza refleja en este caso, que el promedio de desvíos respecto a la media,

expresada en unidades al cuadrado, de las edades (comprendidas entre 40 y 60 años) en

que murieron 25 personas de fiebre tifoidea, es igual a 34,00 años2.

N

XXifi

S

N

i

1

2)(

2años34S años84,5S

Con respecto a los resultados obtenidos en el cálculo, se interpreta: la desviación

absoluta de las edades, en promedio, con respecto a la media es 5,84 años

2) Medidas de Dispersión Relativas.

El concepto de variación es el grado en que los datos numéricos tienden a extenderse

al rededor de un valor, generalmente el valor medio.

El concepto de Coeficiente de Variación es el cociente de la desviación estándar entre

el promedio aritmético, expresado en porcentaje.

Las medidas de dispersión relativas, nos permiten realizar comparaciones, ya que

ellas no toman en cuenta las unidades en que vienen expresadas las variables. Estas

medidas se expresan en porcentajes (%) y se determinan por la relación existente entre una

medida de dispersión absoluta y una medida de tendencia central. Dicha relación nos

permite comparar la realidad de los datos entre varias series. Entre ellas tenemos:

2.1- Coeficiente de Variación de Pearson (CVP).

Indica la relación existente entre la desviación típica de los datos y su media, de ahí

que la variable debe alcanzar la escala de razón en su medición.

Al dividir la desviación típica por la media se convierte en un valor exento de unidad

de medida. Si se comparan varios datos, tomando en cuenta el coeficiente de variación,

será más homogéneo aquel grupo que tenga menor variación y por tanto, será menos

homogéneo aquel grupo que tenga mayor variación. Se representa con las letras CVP.

100X

SCVP

20

2.2- Coeficiente de Variación Medianal (CVM).

Equivale a la razón entre la desviación cuartil(DQ) y la mediana(Md). Permite

comparar, de forma relativa, la dispersión entre dos grupos distintos e incluso, comparar

la variación producto de dos variables diferentes (que pueden provenir de un mismo

grupo). Se representa con las letras CVM.

100Md

DQCVM

MEDIDAS DE FORMA DE LA DISTRIBUCIÓN

Las medidas de forma de la distribución indican el lado hacia el cual se concentran

los datos de la distribución, graficados en la curva de frecuencia. La media, mediana y

modo siempre estarán ubicados bajo la curva de frecuencia. En algunos casos dichos

promedios poseerán el mismo valor numérico, por lo cual se dice que la distribución es

simétrica, ya que MoMdX ; sin embargo en otros casos tanto la media, como la

mediana y el modo tendrán valores numéricos distintos, lo cual hará que la curva de

distribución se incline ya sea hacia el lado derecho, por lo cuál se dice que la asimetría es

positiva, o hacia el lado izquierdo, por lo cuál se dice que la asimetría es negativa.

Se dividen en tres (3) grupos:

Primer coeficiente de asimetría de Pearson.

Coeficiente de asimetría de Bowley.

Kurtosis.

1) Primer coeficiente de asimetría de Pearson (Asp).

En una distribución de frecuencia simétrica, los valores de la modo, mediana y

media, coinciden en la curva de frecuencia: MoMdX .

Cuando la distribución de frecuencia es asimétrica, quiere decir que los tres valores

no son iguales y se apartan uno de otro. Mientras más se separa la media de la moda,

21

mayor es la asimetría. El coeficiente de asimetría de Pearson se encuentra entre los valores

menos uno(-1) y uno(1), es decir: 11 Asp . Cuando el coeficiente de asimetría se

acerca a (-1), se dice que la curva es asimétrica negativa y cuando se acerca a (1), es

asimétrica positiva; cuando el coeficiente de asimetría es igual a cero (0), se dice que la

curva es simétrica.

La curva de frecuencia asimétrica, puede ser positiva, cola hacia el lado derecho; y

negativa, cola hacia el lado izquierdo.

Positiva Negativa

Si la diferencia de la media y el modo es dividida entre la desviación estándar,

entonces, el cociente es llamado el Coeficiente de Asimetría, usado por Karl Pearson, para

medir su grado, su fórmula es la siguiente.

S

MoXAsp

; 11 Asp

Ejemplo: En un test realizado a un grupo de 42 personas se han obtenido las edades que

muestra la siguiente tabla. Calcule el Coeficiente de Asimetría de Pearson.

Edades fi Xi Xifi Xi2 Fi. Xi2

10 – 20 1 15 15 225 225

20 – 30 8 25 200 625 5000

30 – 40 10 35 350 1225 12250

40 – 50 9 45 405 2025 18225

50 – 60 8 55 440 3025 24200

60 – 70 4 65 260 4225 16900

70 – 80 2 75 150 5625 11250

42 1820 88050

22

Primero se obtienen la media y el modo:

N

Xifi

X

N

i

1 añosX 33,43

42

1820

La edad promedio de las 42 personas es 43,33 años.

IcliMo

21

1 10)910()810(

)810(30

Mo

1012

230

Mo 10

3

230 Mo

1067,030 Mo 70,630 Mo

añosMo 70,36

La edad que más se repite es 36,70 años.

Luego obtenemos la desviación estándar:

21

2

XN

fiXi

S

N

i

21 )33,43(

42

88050

N

iS

49,187743,20962 S 94,218S

añosS 80,14

La variabilidad absoluta de las edades, en promedio, con respecto a la media es 14,80

años.

Ahora, calculamos el coeficiente de Asimetría:

S

MoXAsp

80,14

7,3633,43 Asp 45,0Asp

Como el resultado del coeficiente de asimetría es positivo, quiere decir que la cola de

la distribución es hacia el lado derecho, es decir, hacia los valores más altos de las edades.

Esto también quiere decir, que el modo es menor a la media aritmética, por una

cantidad igual al 0,45 de la desviación estándar.

23

2) Coeficiente Asimetría de Bowley (Asb).

Para Bowley, calcular la asimetría, venía dada al trabajar con los cuartiles, pero

debemos recordar lo siguiente:

- Si la distribución es simétrica, Q3 y Q1 estarán equidistantes de Md:

13 QMdMdQ

Sin embargo, como trabajamos con una distribución asimétrica, pues la distancia de

Q3 a Md no es igual a la distancia de Md a Q1.

Entonces la diferencia entre las dos distancias puede usarse como base para medir la

asimetría, esto fue lo sugerido por Bowley en la siguiente fórmula:

13

13 2

QQ

MdQQAsb

; 11 Asb

Cabe destacar, que para resolver dicha fórmula se debe calcular los cuartiles

requeridos. Al igual que en el primer coeficiente de asimetría de Pearson, el coeficiente de

asimetría de Bowley también oscila entre los valores menos uno(-1) y uno(1); cuando se

acerca a (-1) es asimétrica negativa, cuando se acerca a (1) es asimétrica positiva y cuando

es cero(0) la curva es simétrica.

3) Kurtosis.

Este recurso para describir una distribución de frecuencia, es usado para mostrar el

grado de concentración o picudez, de valores concentrados alrededor del modo, es decir

de una curva apuntada; o de valores descentralizados con respecto al modo hacia ambos

extremos de la curva de frecuencia, en consecuencia una curva achatada.

Apuntada Achatada

24

Existen varios tipos de curva, entre las cuales encontramos:

Mesokúrtica Leptokúrtica Platikúrtica

La distribución normal, la cual no es muy picuda ni muy achatada, es la mesokúrtica

y se emplea usualmente como estándar para medir la picudez de la curva.

Es importante destacar que la kurtosis sólo se aplica en distribuciones unimodales y

simétricas.

25

BIBLIOGRAFÍA

1- Libros:

Hermann - J, K. (1977). Curso Básico De Estadística: Introducción a la técnica

descriptiva del análisis estadístico. España: Editorial Herder.

Pestaña de M, P. (2.002). Estadística: Conceptos básicos, terminología y metodología

de la estadística descriptiva. República Bolivariana de Venezuela. Los Libros De El

Nacional, Colección Minerva.

Rascon Ch, O. (1974). Introducción A La Estadística Descriptiva. Vol. I. México:

Universidad Nacional Autónoma de México.

s/a. (s/f). Estadística. Consultado el 21 de septiembre de 2008. Disponible en línea:

http://www.vitutor.com/estadistica/descriptiva/a_15.html

Stephen Shao(1973). Estadística para economistas y administradores de empresas.

México: Herrero Hermanos, SUCS., S.A.

Ya - Lun, Chou(1972). Análisis estadístico. México: Nueva Editorial Interamericana.

2- Páginas Web:

www.metodosestadisticos.unizar.es/asignaturas/16630/Tema3.pdf

www.tgrajales.net/tendenciacentral.pdf

www.sitios.ingenieria-usac.edu.gt/estadistica/estadistica2/estadisticadescriptiva.html

www.sitios.ingenieria

usac.edu.gt/estadistica/estadistica2/estadisticadescritptiva.html

http://www.vitutor.com/estadistica/descriptiva/a_15.html

http://www.hiru.com/es/matematika/matematika

http://www.economia.unam.mx/profesor/barajas/estadis/parte2.pdf