5.3 estadísticas de una distribución...

13
5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas de tendencia central Medidas de tendencia central Las medidas de tendencia central son descriptores numéricos que proporcionan una idea de los valores de la variable, alrededor de los cuales tienden a aglomerarse los datos. Los más útiles son la media, la mediana y la moda. Las unidades son las mismas que los de los datos. Media De una serie de datos. Es el promedio aritmético. Notación: x n i i1 1 x x n (5.7) Donde: n = número de datos Xi = dato, i = 1, 2,..., n 1 x 1374.9 45.83 30 De una distribución de datos agrupados: k i i i1 1 x x f n (5.7’) Donde: n = número de datos k = número de intervalos de clase xi = marca de clase, i = 1, 2,, k fi = frecuencia de clase, i =1, 2,, k

Upload: others

Post on 28-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 5.3 Estadísticas de una distribución frecuencialprofesores.dcb.unam.mx/users/gustavorb/Probabilidad/PE53.pdf · 5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas

5.3 Estadísticas de una distribución frecuencial

5.3.1 Medidas de tendencia central

Medidas de tendencia central

Las medidas de tendencia central son descriptores numéricos que proporcionan una

idea de los valores de la variable, alrededor de los cuales tienden a aglomerarse los

datos. Los más útiles son la media, la mediana y la moda. Las unidades son las mismas

que los de los datos.

Media

De una serie de datos. Es el promedio aritmético. Notación: x

n

i

i 1

1x x

n (5.7)

Donde: n = número de datos

Xi = dato, i = 1, 2,..., n

1x 1374.9 45.83

30

De una distribución de datos agrupados: k

i i

i 1

1x x f

n (5.7’)

Donde: n = número de datos

k = número de intervalos de clase

xi = marca de clase, i = 1, 2,…, k

fi = frecuencia de clase, i =1, 2,…, k

Page 2: 5.3 Estadísticas de una distribución frecuencialprofesores.dcb.unam.mx/users/gustavorb/Probabilidad/PE53.pdf · 5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas

Mediana

De una serie de datos: Es el valor intermedio de la serie ordenada. Notación: M.

Si n es impar, se toma el valor intermedio. Si n es par, se toma el promedio de los

valores intermedios.

45.8 46

M 45.92

De una distribución de datos agrupados

MM M

M

n / 2 FM L d

f (5.8)

Donde: n = número de datos

LM = límite real inferior del intervalo que contiene a la mediana

FM = frecuencia acumulada hasta el límite real inferior LM

fM = frecuencia del intervalo que contiene a la mediana

DM = tamaño del intervalo que contiene a la mediana

El intervalo que contiene a la mediana es aquel para el cual, menos del 5O % de los

valores son menores que su límite real inferior y menos del 5O % de los valores son

mayores que su límite real superior.

30 / 2 10M 44.05 2 46.05

5

Moda

De una serie de datos: es el valor que se repite más frecuentemente en la serie de

datos. Notación: M

Page 3: 5.3 Estadísticas de una distribución frecuencialprofesores.dcb.unam.mx/users/gustavorb/Probabilidad/PE53.pdf · 5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas

M 42.6

De una distribución de datos agrupados: es la marca de la clase del intervalo de mayor

frecuencia

Una distribución unimodal es aquella que tiene una sola moda.

Una distribución multimodal es aquella que tiene más de una moda. Si tiene dos

modas es bimodal; si tiene tres modas, es trimodal.

Una distribución es simétrica si su media y su mediana coinciden: x M

Si además la distribución es unimodal, la media, la mediana y la moda coinciden:

x M M

Se dice que una distribución es asimétrica a la derecha o sesgada positivamente, si la

media es menor que la mediana: x M

Se dice que una distribución es asimétrica a la izquierda o sesgada negativamente, si la

media es mayor que la mediana: x M

Caso discreto

Si se trata de una serie de datos, la media, la mediana y la moda se obtienen de la

misma manera que para el caso continuo.

Si los datos están agrupados:

Media: k

i i

i 1

1x x f

n (7”)

Page 4: 5.3 Estadísticas de una distribución frecuencialprofesores.dcb.unam.mx/users/gustavorb/Probabilidad/PE53.pdf · 5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas

Donde: n = número de datos

k = número de clase

xi = clase, i = 1, 2,..., k

fi = frecuencia de clase, i = 1, 2,..., k

Mediana: Se da en forma aproximada, de la misma manera que en el caso continuo,

diciendo que está entre dos valores discretos de la variable.

49 / 2 21

M 1 1 1.3211

Moda: Es la clase de mayor frecuencia; en el caso discreto, la moda de la distribución

de datos agrupados coincide con la moda de la serie de datos.

Page 5: 5.3 Estadísticas de una distribución frecuencialprofesores.dcb.unam.mx/users/gustavorb/Probabilidad/PE53.pdf · 5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas

Caso nominal

La única medida de tendencia central apropiada para variables nominales es la moda.

Moda es el nombre que presente con mayor frecuencia.

Aunque menos usuales que las anteriores, la media geométrica, la media armónica y el

promedio cuadrático, son medidas de tendencia central bastante útiles.

Media geométrica

Notación: G

De una serie de datos:

n

ni

i 1

G x ó n

i

i 1

1logG logx

n (5.9)

Donde: n = número de datos

xi = dato, i = 1, 2,…, n

De una distribución de datos agrupados:

i

kf

ni

i 1

G x ó k

i i

i 1

1logG f log x

n (5.9´)

Donde: n = número de datos

k = número de intervalos

xi = marca de clase, i = 1, 2,…, k

fi = frecuencia de clase, i = 1, 2,…, k

Media armónica

Notación: H

De una serie de datos:

Page 6: 5.3 Estadísticas de una distribución frecuencialprofesores.dcb.unam.mx/users/gustavorb/Probabilidad/PE53.pdf · 5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas

n

i 1 i

1H

1 1

n x

(5.10)

Donde: n = número de datos

xi = dato, i = 1, 2,…, n

De una distribución de datos agrupados:

ki

i 1 i

1H

f1

n x

(5.10’)

Donde: n = número de datos

k = número de intervalos

xi = marca de clase, i = 1, 2,…, k

fi = frecuencia de clase, i = 1, 2,…, k

Promedio cuadrático

Notación: 2x

De una serie de datos:

i

n2 2

i 1

1x x

n (5.11)

Donde: n = número de datos

xi = dato, i = 1, 2,…, n

De una distribución de datos agrupados 2k

2

i

i 1 i

1x x f

n (5.11´)

Donde: n = número de datos

k = número de intervalos

xi = marca clase, i =1, 2,…, k

fi = frecuencia de clase, i =1, 2,…, k

5.3.2 Medidas de dispersión

Las medidas de dispersión son descriptores numéricos que proporcionan una idea de

la dispersión o variabilidad de los datos. Los más útiles son la variancia, la desviación

estándar y el coeficiente de variación.

Page 7: 5.3 Estadísticas de una distribución frecuencialprofesores.dcb.unam.mx/users/gustavorb/Probabilidad/PE53.pdf · 5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas

Varianza

Notación: 2s

De una serie de datos:

2)n

2

i

i 1

1s (x x

n (5.12)

Donde: n = número de datos

xi = dato, i=1,….,n

x = media de la serie de datos

2 1s 310.843 10.36

30

De la distribución de los datos agrupados:

2)k

2

i i

i 1

1s (x x f

n (5.12’)

Donde: n = número de datos

k = número de intervalos

xi = marca clase, i=1, 2,…, k

x = media de la distribución de datos agrupados

fi = frecuencia de clase, i=1, 2,…, k

La varianza es una medida de dispersión que mide la variabilidad de los datos

alrededor de la media, pero no tiene como ésta, las mismas unidades que los datos,

debido a que en su obtención se involucran términos cuadráticos: 2

ix x ó

Page 8: 5.3 Estadísticas de una distribución frecuencialprofesores.dcb.unam.mx/users/gustavorb/Probabilidad/PE53.pdf · 5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas

2

i ix x f . La razón de elevar al cuadrado las diferencias es la de eliminar los

términos negativos, que sumados a los positivos, darían como resultado el valor cero.

Fórmula simplificada para la varianza

La varianza es igual al promedio cuadrático menos el cuadrado de la media:

22 2s x x (5.13)

22

n n n n2 2 22 2 2

i i i i i

i 1 i 1 i 1 i 1

xxx

1 1 1 1 1s x x x 2x x x x 2x x nx

n n n n n

2 22x 2x x

Varianza modificada

Notación: 2

s

De una serie de datos:

n 22

i

i 1

1s x x

n 1 (5.14)

Donde: n = número de datos

k = número de intervalos

xi = dato, i = 1, 2,…, k

x = media de la distribución de datos agrupados

2 1

s 310.843 10.7229

De una distribución de datos agrupados:

k 22

i i

i 1

1s x x f

n 1 (5.14´)

Donde: n = número de datos

K =número de intervalos

xi = marca clase, i=1, 2,…, k

x = media de la distribución de datos agrupados

fi = frecuencia de clase, i=1, 2,…, k

2 1

s 301.467 10.4029

Hay razones importantes para utilizar 2

s en lugar de s2; éstas se verán luego, en la

parte de inferencia estadística.

Page 9: 5.3 Estadísticas de una distribución frecuencialprofesores.dcb.unam.mx/users/gustavorb/Probabilidad/PE53.pdf · 5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas

Desviación estándar

Notación: s

De una serie de datos:

n 2

i

i 1

1s x x

n (5.12”)

s 10.36 3.22

De una distribución de datos agrupados

k 2

i i

i 1

1s x x f

n (5.12’’’)

s 10.05 3.17

La desviación estándar es la raíz cuadrado de la variancia, por lo que si tiene las

mismas unidades que los datos.

2s s (5.15)

22 2s x x (5.13´)

Desviación estándar modificada

Notación: s

De una serie de datos:

n 2

i

i 1

1s x x

n 1 (5.14’’)

s 10.72 3.27

De una distribución de datos agrupados:

k 2

i i

i 1

1s x x f

n 1 (5.14’’’)

s 10.40 3.22

La desviación estándar modificada es la raíz cuadrada de la variancia modificada.

2s s (5.15’)

Coeficiente de variación

Notación: v

s

vx

(5.16)

Page 10: 5.3 Estadísticas de una distribución frecuencialprofesores.dcb.unam.mx/users/gustavorb/Probabilidad/PE53.pdf · 5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas

El coeficiente de variación es una medida de dispersión adimensional que permite

comparar directamente la desviación estándar con la media.

3.22 3.17v 0.07, v 0.069

45.83 45.92

Aunque menos usuales que las anteriores, otras medidas de dispersión bastante útiles

son el rango y la desviación media.

Rango

El rango de una serie de datos es igual a la diferencia entre el dato de mayor valor y el

dato de menor valor. Notación: R

Desviación media

Notación: D

De una serie de datos:

n

i

i 1

1D x x

n (5.17)

Donde: n = número de datos

xi = dato, i=1, 2,…, n

x = media de la serie de datos

1D 81.9 2.73

30

De la distribución de datos agrupados:

k

i i

i 1

1D x x f

n (5.17´)

Donde: n = número de datos

k = número de intervalos

xi = marca clase, i=1, 2,…, k

x = media de la distribución de datos agrupados

fi = frecuencia de clase, i=1, 2,…, k

Page 11: 5.3 Estadísticas de una distribución frecuencialprofesores.dcb.unam.mx/users/gustavorb/Probabilidad/PE53.pdf · 5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas

La desviación media es una medida de disposición que tiene las mismas unidades que

los datos. La utilización de valores absolutos permite eliminar los términos negativos,

evitando con esto que la suma de las diferencias se anule.

5.3.3. Medidas de asimetría y curtosis

Las medidas de asimetría son descriptores numéricos que dan una idea de la simetría

o asimetría de la distribución de frecuencias obtenidas de los datos.

Coeficiente de asimetría

Notación: G1

De la serie de datos:

3n

1 i3i 1

1G x x

ns (5.18)

Donde: n = número de datos

xi = dato, i = 1, 2,…, n

x = media de la distribución de datos

s = desviación estándar de la serie de datos

1 3

1G 137.1 0.137

30 3.22

Page 12: 5.3 Estadísticas de una distribución frecuencialprofesores.dcb.unam.mx/users/gustavorb/Probabilidad/PE53.pdf · 5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas

De la distribución de datos agrupados

3k

1 i i3i 1

1G x x f

ns (5.18´)

Donde: n = número de datos

k = número de intervalos

xi = marca clase, i = 1, 2,…, k

x = media de la distribución de datos agrupados

s = desviación estándar de la distribución de datos agrupados

fi = frecuencia de clase, i = 1, 2,…, k

El coeficiente de asimetría es una medida adimensional.

Coeficiente de asimetría de Pearson

Notación: AP

P

x MA

s (5.19)

Donde: x = media

M = moda

s = desviación estándar

P

3 x MA

s (5.19’)

Donde: x = media

M = mediana

s = desviación estándar

Si G1, AP > 0; distribución sesgada positivamente o a la derecha

Si G1, AP = 0; distribución simétrica

Si G1, AP < 0; distribución sesgada negativamente o a la izquierda

El coeficiente de Pearson no es eficiente para medir asimetrías leves.

Page 13: 5.3 Estadísticas de una distribución frecuencialprofesores.dcb.unam.mx/users/gustavorb/Probabilidad/PE53.pdf · 5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas

Las medidas de curtosis son descriptores numéricos que dan una idea de la agudeza o

aplanamiento de la distribución obtenida de los datos.

Coeficiente de curtosis

Notación: G2

De la serie de datos:

4n

2 i4i 1

1G x x

ns (5.20)

Donde: n = número de datos

xi = dato, i = 1, 2,…, n

x = media de la serie de datos

s = desviación estándar de la serie de datos

2 4

1G 6467.4 2.01

30 3.22

De la distribución de los datos agrupados

4k

2 i i4i 1

1G x x f

ns

(5.20’)

Donde: n = número de datos

k = número de intervalos

xi = marca clase, i = 1, 2,…, k

x = media de la distribución de datos agrupados

s = desviación estándar de la serie de datos

fi = frecuencia de clase, i = 1, 2,…, k