estadística i-04
TRANSCRIPT
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
Estadística I
Ms. Ylder Helí Vargas Alva
Medidas de Resumen.
Medidas de Dispersión: Varianza, desviación estándar y coeficiente de
variación.
Medidas de asimetría: Asimetría y apuntamiento.
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE DISPERSION
Son las que se utilizan para analizar el grado de variabilidad
(heterogeneidad) de un conjunto de datos.
Describen cuán cercanos se encuentran los datos entre ellos, o cuán
cerca se encuentran de alguna medida de posición.
El grado de variabilidad de la información disponible es muy
importante en todo análisis estadístico pues de esto depende el
grado de confiabilidad de las estimaciones que se puedan
establecer.
Las medidas de dispersión o variabilidad que estudiaremos son:
La varianza
La desviación estándar
El coeficiente de variación.
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE DISPERSION
VARIANZA
Es la medida que cuantifica la variabilidad de los datos respecto al valor de la
media.
11
2
2)(
n
i
n
i
xxs
Para una muestra:
DATOS
NO AGRUPADOS
s2 : Variancia muestralxi : Marca de clase i
x : Media aritmétican : Tamaño de la muestra
ae
ne
xixi-1 xk_x
nink
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE DISPERSION
VARIANZA
11
2
2)(*
n
ii
k
i
xxfs
Para una muestra:
DATOS AGRUPADOS
s2 : Variancia muestralfi : Frecuencia absoluta de la clase ixi : Marca de clase i
x : Media aritmétican : Tamaño de la muestrak : N° de clases
ae
ne
xixi-1 xk_x
nink
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE DISPERSION
VARIANZA
USOS:
En inferencia estadística
Para calcular la desviación estándar.
Para calcular el tamaño de muestra.
ae
ne
xixi-1 xk_x
nink
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE DISPERSION
DESVIACION ESTANDAR
11
2
)(
n
i
n
i
xxs
Para una muestra:
DATOS NO AGRUPADOS
s : Desviación estándar muestralxi : Marca de clase i
x : Media aritmétican : Tamaño de la muestrak : N° de clases
ae
ne
xixi-1 xk_x
nink
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE DISPERSION
DESVIACION ESTANDAR
11
2
)(*
n
ii
k
i
xxfs
Para una muestra:
DATOS AGRUPADOS
s : Desviación estándar muestralfi : Frecuencia absoluta de la clase ixi : Marca de clase i
x : Media aritmétican : Tamaño de la muestrak : N° de clases
ae
ne
xixi-1 xk_x
nink
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE DISPERSION
DESVIACION ESTANDAR
Interpretación del valor de la desviación estándar
La desviación estándar s es útil para comparar la variabilidad de dos
conjuntos de datos en los que la variable a sido medida en las mismas
unidades.
Si en una muestra s = 5.4 y en otra s = 10.4 podemos asegurar que los
datos de la segunda muestra están más dispersos que los de la primera.
Pero ¿cómo interpretamos el valor s = 5.4?
La desviación estándar nos da idea de la distancia promedio de los datos
a la media (aunque estrictamente hablando no es el promedio). Pero la
interpretación de s requiere algún conocimiento de la distribución de los
datos.
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE DISPERSION
DESVIACION ESTANDAR
Interpretación del valor de la desviación estándar
Regla empíricaSi el histograma de los datos es aproximadamente simétrico y acampanado entonces,
Aproximadamente el 68% de las observaciones caen en el intervalo x − s y x + s .
Aproximadamente el 95% de las observaciones caen en el intervalo x − 2s y x + 2 s.
Prácticamente todas las observaciones caen en el intervalo x − 3s y x + 3s.
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE DISPERSION
DESVIACION ESTANDAR
Propiedades de la desviación estándar
s mide la dispersión alrededor de la media, por lo tanto es natural elegir
esta medida de dispersión cuando se usa la media como medida de
posición.
s = 0 solamente cuando todos los datos son iguales, de otro modo s>0.
s es una medida de dispersión muy sensible a la presencia de datos
outliers. De hecho, es más sensible que la media ya que las distancias
están elevadas al cuadrado.
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE DISPERSION
COEFICIENTE DE VARIACION (CV)Medida de variabilidad relativa:
Se usa para comparar la variabilidad entre dos o más muestras, medidas en
las mismas unidades o no.
100*x
sCV
CV : Coeficiente de Variacións : Desviación estándar
x : Media aritmética
Si el coeficiente CV es:
< 10 % poca dispersión
10 – 33% aceptable
34 – 50% alta dispersión
> 50% muy alta
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
EJERCICIOS
EJERCICIO:Se tiene las edades de los docentes de la Universidad Católica de Trujillo.
Analizar las medidas de dispersión estudiadas.
37.145135
... )74.3528()74.3532()74.3535(222
2
s
Media Aritmética: x=35.74
35 32 21 43 39 28 28
36 12 54 45 37 53 26
45 23 64 21 34 22 29
36 45 55 20 38 46 27
22 38 35 56 45 33 28
n= 35 ∑ 1,251
37.1452s 06.12S
VarianzaDesviación
Estándar
74.33100*74.35
06.12100*
X
SCV Aceptable
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
EJERCICIOS
EJERCICIO:La Promoción 2014 de la Carrera Profesional de
Ingeniería Industrial de la UCT esta integrada por
alumnos cuyas edades, según el sexo, son :
a) ¿Cuál de los dos grupos de edades está más disperso ?.
b) Con relación al grupo integrado por los del mismo sexo, ¿quién resulta
más joven, un hombre o una mujer de 20 años ?.
EDAD HOMBRES MUJERES
17 - 20 2 4
20 - 23 9 12
23 - 25 11 4
25 - 28 1 5
28 - 31 2 3
Edad xi fi xi*fi fi*(xi -x)2 Edad xi fi xi*fi fi*(xi -x)2
17 - 20 18.50 2 37.00 44.18 17 - 20 18.50 4 74.00 87.56
20 - 23 21.50 9 193.50 26.01 20 - 23 21.50 12 258.00 33.81
23 - 25 24.00 11 264.00 7.04 23 - 25 24.00 4 96.00 2.70
25 - 28 26.50 1 26.50 10.89 25 - 28 26.50 5 132.50 55.16
28 - 31 29.50 2 59.00 79.38 28 - 31 29.50 3 88.50 119.88
25 580.00 167.50 28 649.00 299.11
x= 23.20 x= 23.18
s2= 6.98 s2= 11.08
sH= 2.64 0.67 2.69898 sM= 3.33
CVH= 11.39% CVM= 14.36%
HOMBRES MUJERES
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
La siguiente tabla corresponde a los pesos en gramos de dos muestras tomadas aleatoriamente de
cierto embutido que es elaborado por dos máquinas distintas (1 y 2). El muestreo se realizó dado que
últimamente se han detectado ciertos problemas por la diferencia del peso de los embutidos entre las
dos máquinas, lo que ha causado malestar entre los consumidores del producto.
•Calcule las medidas de tendencia central de cada muestra.
•Calcule las medidas de dispersión de cada muestra.
•Calcule los cuartiles de ambas muestras.
•Se considera que el peso de los embutidos es aceptable si su promedio es de 220 gramos y si la
desviación estándar no supera los 3,1 gramos. Si sólo hay discrepancias con el peso promedio se puede
solucionar fácilmente pues las máquinas pueden regularse desde su tablero de control. En cambio, si los
pesos tienen valores muy dispersos, es necesario reparar la máquina pues la causa es un excesivo
desgaste. Con estos criterios y los datos de las muestras, ¿qué le recomendaría hacer?
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE ASIMETRÍA
Las medidas de asimetría establece el grado de simetría que
presenta una distribución, sin necesidad de una presentación
grafica.
DEFINICIÓN:
Una distribución es simétrica cuando, dado su valor central,
existen el mismo número de valores a ambos lados de dicho
valor y a cada par de valores equidistantes les corresponde la
misma frecuencia absoluta.
La asimetría se puede definir como la ausencia de simetría en
la distribución.
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE ASIMETRÍA
MEDIA = MODA SimétricaMEDIA > MODA ASIMÉTRICA POR LA DERECHA O POSITIVAMEDIA< MODA ASIMÉTRICA POR LA IZQUIERDA O NEGATIVA
TIPOS DE ASIMETRÍA
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE ASIMETRÍA
1.- Coeficiente de Karl Pearsonx= media aritmética.
Md = Mediana.
s = desviación típica o estándar.
El Coeficiente de Pearson varía entre -3 y 3 :
Si As < 0 la distribución será asimétrica negativa o hacia la izquierda.
Si As = 0 la distribución será simétrica.
Si As > 0 la distribución será asimétrica positiva o hacia la derecha
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE ASIMETRÍA
2.- Medida de FisherPara datos sin agrupar : Para datos agrupados :
Donde:
xi= Categorías o marcas de clase n = número de datos
x = media aritmética f = frecuencia absoluta
s= Desviación estándar
Nota.
• Si As < 0 -> Indica que existe presencia de la minoría de datos en la parte
izquierda de la media
• Si As = 0 -> la distribución será simétrica
• Si As > 0 -> Indica que existe presencia de la minoría de datos en la parte
derecha de la media,
3
1
3
*
)(
sn
xx
A
n
i
i
s
3
1
3
*
)(*
sn
xxf
A
n
i
ii
s
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE APUNTAMIENTO O CURTOSIS
La curtosis mide el grado de agudeza o achatamiento de una distribución con
relación a la distribución normal, es decir, mide cuán puntiaguda es una
distribución.
TIPOS DE APUNTAMIENTO O CURTOSIS
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE CURTOSIS
TIPOS DE APUNTAMIENTO O CURTOSIS
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
MEDIDAS DE CURTOSIS
Medida de Fisher
Para datos sin agrupar : Para datos agrupados:
Donde:
xi=datos, Categorías o marcas de clase n = número de datos
x = media aritmética fi = frecuencia absoluta
s= Desviación estándar
Nota:
Si C < 3 -> la distribución es platicútica
Si C = 3 -> la distribución es Normal o Mesocúrtica
Si C > 3 -> la distribución es leptocúrtica
4
1
4
*
)(
sn
xx
C
n
i
i
s
4
1
4
*
)(*
sn
xxf
C
n
i
ii
s
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
EJERCICIOS
EJERCICIO:La Promoción 2013 de la Carrera Profesional de
Ingeniería Industrial de la UCT esta integrada por
alumnos cuyas edades, según el sexo, son :
a) Determinar qué tipo de asimetría y curtosis presentan cada grupo según
el sexo.
EDAD HOMBRES MUJERES
17 - 20 4 3
20 - 23 7 4
23 - 25 3 2
25 - 28 2 12
28 - 31 1 4
Edad xi fi xi*fi fi*(xi -x)2 fi*(xi -x)3 fi*(xi -x)4 Edad xi fi xi*fi fi*(xi -x)2 fi*(xi -x)3 fi*(xi -x)4
17 - 20 18.50 4 74.00 57.58 -218.47 828.90 17 - 20 18.50 3 55.50 127.53 -831.50 5,421.40
20 - 23 21.50 7 150.50 4.41 -3.51 2.78 20 - 23 21.50 4 86.00 49.56 -174.46 614.09
23 - 25 24.00 3 72.00 8.73 14.89 25.40 23 - 25 24.00 2 48.00 2.08 -2.12 2.16
25 - 28 26.50 2 53.00 35.38 148.80 625.83 25 - 28 26.50 12 318.00 26.28 38.90 57.57
28 - 31 29.50 1 29.50 51.92 374.16 2,696.18 28 - 31 29.50 4 118.00 80.28 359.66 1,611.28
17 379.00 158.03 315.88 4,179.10 25 625.50 285.74 -609.52 7,706.51
x= 22.29 x= 25.02
s2= 9.88 s2= 11.91
sH= 3.14 sM= 3.45
As= 0.60 As= -0.59
Cs= 2.52 Cs= 2.17
MUJERESHOMBRES
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
EJERCICIOS
0
2
4
6
8
10
12
14
17 - 20 20 - 23 23 - 25 25 - 28 28 - 31
Mujeres
Series10
1
2
3
4
5
6
7
8
17 - 20 20 - 23 23 - 25 25 - 28 28 - 31
Hombres
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
EJERCICIOS
Considérense los datos: 9, 11, 7, 12, 11. Se pide:
a. Calcular su media aritmética, varianza y desviación
típica.
b. Considerar el conjunto de datos obtenido al
multiplicar a cada dato inicial por 2. Obtener su
media y desviación típica. ¿Qué relación existe con
el apartado a)?.
c. Considerar el conjunto de datos obtenido al sumar 5
a cada dato inicial. Obtener su media y desviación
típica. ¿Qué relación existe con el apartado a)?.
Universidad
Católica de
Trujillo
BENEDICTO XVI
Ms. Ylder Heli Vargas Alva
EJERCICIOS
El Propietario de los Hoteles “Costa del Sol”, “Plaza Grau” y “Suite Plaza Hotel
Residencial”; está analizando los gastos de electricidad. Para esto cuenta con los
siguientes datos respecto al consumo mensual de electricidad de cada uno de los
hoteles por habitación:
Costa del Sol: Tiene 12 Habitaciones que gastan en promedio 45 soles con una desviación
estándar de 10 soles.
Plaza Grau: Tiene 9 Habitaciones cuyos consumos en soles son: 38, 42, 56, 60, 43, 52, 41,
44, 53.
Suite Plaza Hotel Residencial: Los consumos se dan en la siguiente tabla:
¿Cuál de los Hoteles tiene menor consumo promedio de electricidad?
¿Cuál es el consumo promedio por los tres hoteles?
¿En cuál de los hoteles el consumo es más disperso?
Consumo en soles Habitaciones
[30, 40[ 1
[40, 50[ 4
[50, 60[ 4
[60,70] 2