asimetríafaviok.weebly.com/uploads/6/4/0/3/6403801/2.pdf · derecha de un valor central (media...
Post on 18-Mar-2020
4 Views
Preview:
TRANSCRIPT
• Si los valores de la serie de datos presenta la misma forma a izquierda y derecha de un valor central (media aritmética) se dice que es simétrica de lo contrario será asimétrica.
• Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría de Fisher, que viene definido:
3
1
3
1
)()(/1(
s
xxn
g
n
i
i
Asimetría
• Los resultados pueden ser los siguientes:
• g1 = 0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la izquierda de la media)
• g1 > 0 (distribución asimétrica positiva; existe mayor concentración de valores a la derecha de la media que a su izquierda)
• g1 < 0 (distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de la media que a su derecha)
Asimetría
Distribución simétrica
• sesgo cero moda = mediana = media
3-26
Distribución con asimetría positiva
• sesgo a la derecha: media y mediana se encuentran a la derecha de
la moda.
• moda < mediana < media
3-27
Distribución con asimetría negativa
• sesgo a la izquierda: media y mediana están a la izquierda de la moda.
• media < mediana < moda
3-28
Nota
• Si se conocen dos promedios de una distribución de frecuencias con sesgo
moderado, el tercero se puede aproximar.
• moda = media - 3(media - mediana)
• media = [3(mediana) - moda]/2
• mediana = [2(media) + moda]/3
3-29
• El Coeficiente de Curtosis analiza el grado de
concentración que presentan los valores
alrededor de la zona central de la distribución.
• Se definen 3 tipos de distribuciones según su
grado de curtosis:
Curtosis
• Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).
• Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
• Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.
Curtosis
• El Coeficiente de Curtosis viene definido por la siguiente fórmula:
3
)()(/1(
4
1
4
2s
xxn
g
n
i
i
Curtosis
Los resultados pueden ser los siguientes:
• g2 = 0 (distribución mesocúrtica).
• g2 > 0 (distribución leptocúrtica).
• g2 < 0 (distribución platicúrtica).
Curtosis
Curtosis
Distribuciones de probabilidad
Continuas
Discretas
Bernoulli
Binomial
Poisson
Geométrica
Binomial negativa
Uniforme
Exponencial
Gamma
Normal
Ji-cuadrada
t de Student
F
Weibull
Distribución normal
- 4 - 2 2 4
0.1
0.2
0.3
0.4
5 10 15 20
0.05
0.10
0.15
Distribución Ji-cuadrada
Distribución exponencial
1 2 3 4 5
0.2
0.4
0.6
0.8
1.0
Ejemplo: departamentos en renta
Abajo encontrara una muestra de los valores de renta mensuales para un
departamento de una recamara. Los datos son una muestra de 70
apartamentos en una ciudad de los Estados Unidos. Los datos se
presentan en orden ascendente.
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
Ejemplo: departamentos en renta
• Promedio
80.49070
356,34
n
xx
i
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
Percentiles
• Un percentil provee información de cómo los datos están dispersos sobre
un intervalo desde el valor mas pequeño hasta el valor mas grande.
• Los exámenes de admisión para las universidades (en USA) es frecuente
que se reporten en términos de percentiles.
Percentiles
• El p-èsimo percentil de un conjunto de datos es un valor tal que al
menos p por ciento de los elementos toma este valor o menor y al menos
(100 - p) por ciento de los elementos toman este valor o mas.
1. Acomode los datos en orden ascendente.
2. Calcule el índice i, la posición de el percentil p-esimo.
i = (p/100)n
3. Si i no es entero, redondee hacia arriba. El percentil p-esimo es el
valor en la posición i .
4. Si i es un entero, el percentil p-esimo es el valor en la posición+1
• Percentil de 90
i = (p/100)n = (90/100)70 = 63
Se toman el valor de los dato 63 +1 :
Percentil de 90 = (580 + 1) = 581
Ejemplo: departamentos en renta
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
• Tercer Cuartil
Tercer cuartil = Percentil de 75
i = (p/100)n = (75/100)70 = 52.5 = 53
Tercer cuartil = 525
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
Ejemplo: departamentos en renta
• Mediana
Mediana = percentil 50
i = (p/100)n = (50/100)70 = 35.5
Mediana = 475
Ejemplo: departamentos en renta
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
• Moda
450 ocurre más frecuentemente (7 veces)
Moda = 450
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
Ejemplo: departamentos en renta
• Rango
Rango = valor mayor – valor menor
Rango = 615 - 425 = 190
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
Ejemplo: departamentos en renta
Rango Intercuartil
• El rango intercuartil de un conjunto de datos es la diferencia entre el tercer cuartil y el primer cuartil.
• Es el rango donde se encuentra el 50% central de los datos.
• Elimina la sensibilidad de los valores de datos extremos.
• Rango intercuartil
3er. Cuartil (Q3) = 522.5
1er. Cuartil (Q1) = 446.25
Rango intercuartil = Q3 - Q1 = 76.25
Ejemplo: departamentos en renta
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
Coeficiente de Variación
• El coeficiente de variación indica que tan grande es la desviación
estándar rn relación al promedio.
• Si un conjunto de datos es una muestra, el coeficiente de variación se
calcula como sigue:
• Si un conjunto de datos es una población, el coeficiente de variación se
calcula como sigue:
s
x( )100
( )100
• Varianza
• Desviación estándar
• Coeficiente de Variación
sxi x
n
22
12 996 16
( ), .
s s2 2996 47 54 74. .
s
x100
54 74
490 80100 1115
.
..
Ejemplo: departamentos en renta
Medidas de localización relativa y
detección de valores atípicos • Valores z
• Teorema de Chebyshev
• La Regla Empírica
• Detección de Valores Atípicos
Valores z
• El valor z es frecuentemente llamado el valor estandarizado
• Denota el numero de desviaciones estándar que el valor de un dato xi está de la media.
• Un dato con valor menor que la media de la muestra tendrá un valor de z menor que cero.
• Un dato con valor mayor que el promedio de la muestra tendrá un valor de z mayor que cero
• Un dato con valor igual que el promedio de la muestra tendrá un valor de z igual a cero
zx x
si
i
• Valor z del menor valor (425)
Valores estandarizados para departamentos en renta
zx x
si 425 490 80
54 741 20
.
..
-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93
-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75
-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47
-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20
-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35
0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45
1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27
Ejemplo: departamentos en renta
Al menos (1 - 1/k2) de los elementos en un conjunto
de datos estará dentro de las k desviaciones
estándar del promedio donde k es cualquier valor
mayor que 1.
– Al menos 75% de los elementos deben estar entre k = 2
desviaciones estándar de la media.
– Al menos 89% de los elementos deben estar entre k = 3
desviaciones estándar de la media.
– Al menos 94% de los elementos deben estar entre k = 4
desviaciones estándar de la media.
Teorema de Chebyshev
• Teorema de Chebyshev
Sea k = 1.5 con = 490.80 y s = 54.74
al menos (1 - 1/(1.5)2) = 1 - 0.44 = 0.56 o 56%
de los costos de renta deben estar entre
- k(s) = 490.80 - 1.5(54.74) = 409
y
+ k(s) = 490.80 + 1.5(54.74) = 573
x
x
x
Ejemplo: departamentos en renta
• Teorema de Chebyshev (continúa)
realmente, 86% de los costos de renta
están entre 409 y 573.
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
Ejemplo: departamentos en renta
La Regla Empírica
Para los datos que tienen una distribución tipo
campana:
– Aproximadamente 68% de los valores de los datos estarán
entre una desviación estándar de la media
Para los datos que tienen una distribución tipo campana:
Aproximadamente 95% de los valores de los datos estarán entre dos
desviaciones estándar de la media
La Regla Empírica
Para los datos que tienen una distribución tipo campana:
– Casi todos (99.7%) los elementos estarán entre tres desviaciones
estándar de la media
La Regla Empírica
• Regla empírica
Intervalo % Intervalo
Entre +/- 1s 436.06 a 545.54 48/70 = 69%
Entre +/- 2s 381.32 a 600.28 68/70 = 97%
Entre +/- 3s 326.58 a 655.02 70/70 = 100%
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
Ejemplo: departamentos en renta
Detección de Valores Atípicos
• Un valor atípico es un valor inusualmente muy pequeño o muy grande
para el conjunto de datos.
• Un dato con valor de z menor que -3 o mas grande que +3 puede ser
considerado como un valor atípico.
• Puede ser un valor de dato registrado incorrectamente.
• Puede ser un valor de dato que fue incorrectamente incluido en el
conjunto de datos.
• Puede ser un valor de dato correctamente registrado y que pertenece
al conjunto de datos.
• Detectando valores atípicos
Los valores extremos más atípicos son -1.20 y 2.27.
Usando |z| > 3 como el criterio para un dato atípico, no hay valores atípicos en este conjunto de datos
Valores estandarizados para departamentos en renta
-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93
-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75
-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47
-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20
-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35
0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45
1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27
Ejemplo: departamentos en renta
Covarianza
• La covarianza es una medida de la asociación lineal entre dos
variables.
• Valores positivos indican una relación positiva.
• Valores negativos indican una relación negativa
• Si el conjunto de datos es una muestra, la covarianza se denota
por sxy.
• Si el conjunto de datos es una población, la covarianza se
denota por .
Covarianza
sx x y y
nxy
i i( )( )
1
xyi x i yx y
N
( )( )
xy
Coeficiente de correlación
• El coeficiente puede tomar valores entre -1 y +1.
• Valores cercanos a -1 indican un relación lineal negativa
fuerte.
• Valores cercanos a +1 indican un relación lineal positiva
fuerte.
• Si el conjunto de datos es una muestra, el coeficiente es rxy.
• Si el conjunto de datos es una población, el coeficiente es
.
rs
s sxy
xy
x y
xyxy
x y
Datos no agrupados
• Son datos no agrupados cuando se consideran y analizan todos los valores
observados tal como se obtuvieron. Es conveniente y mas sencillo trabajar
a estos datos como no agrupados cuando la muestra no es muy grande. De
preferencia que sea una cantidad menor de 30 datos. También resulta
conveniente trabajarlos así cuando se quiere que el peso de cada
observación se vea reflejado en el resumen de los datos.
Ventajas y desventajas
VENTAJAS
• Resulta más fácil y rápido trabajar con los datos no agrupados.
DESVENTAJAS
• Solo se puede aplicar en pequeñas cantidades de datos, ya que en
grandes cantidades resultaría un tanto tedioso y por lo mismo existiría más
probabilidad de equivocarse.
Datos agrupados
• Son datos que están organizados (formando grupos). Podemos formar más
o menos grupos, dependiendo de que tan exacto queramos trabajar, a cada
grupo le llamamos clase. Rara vez se emplean menos de seis clases o más
de quince.
Ventajas
• Facilidad y rapidez en el manejo de datos.
• Se notan rápidamente el valor mayor y el valor menor de los datos
• Se puede dividir fácilmente los datos en secciones.
• Se puede observar si algún valor aparece más de una vez en el ordenamiento.
• Se observa la distancia entre los valores sucesivos de los datos.
Media ponderada y manejo de datos
agrupados • Media ponderada
• Media para datos agrupados
• Varianza para datos agrupados
• Desviación estándar para datos agrupados
Media ponderada
• Cuando la media es calculada dándole a cada valor de dato un peso que refleja su importancia, es referido como una media ponderada.
• En el calculo de promedio de calificaciones (tipo USA), el peso es el número de créditos obtenidos para cada grado.
• Cuando los valores de los datos varían en importancia, el analista debe escoger el peso que refleje la importancia de cada valor.
Media ponderada
x = wi xi
wi
donde:
xi = valor de observación i
wi = peso de observaciòn i
Datos agrupados
• El calculo de la media pondera puede ser usado para obtener aproximaciones al promedio, varianza, y desviación estándar de datos agrupados.
• Para calcular la media ponderada, tratamos el punto medio de cada clase como si fuera la media de todos los elementos en la clase.
• Calculamos una media ponderada de los puntos medios utilizando las frecuencias de la clase como pesos.
• Similarmente, al calcular la varianza y desviación estándar las frecuencias de las clases son utilizadas como pesos.
• Muestra
• Población
donde:
fi = Frecuencia de la clase i
Mi = punto medio de la clase i
Media para datos agrupados
i
ii
f
Mfx
N
Mf ii
Abajo está la muestra de las rentas mensuales para departamentos de
una recamara presentados aquí como datos agrupados en la forma de
distribución de frecuencias
Renta ($) Frecuencia
420-439 8
440-459 17
460-479 12
480-499 8
500-519 7
520-539 4
540-559 2
560-579 4
580-599 2
600-619 6
Ejemplo: departamentos en renta
Ejemplo: departamentos en renta
• Media para datos agrupados
Esta aproximación
difiere en $2.41 de la
media real de la muestra de
$490.80.
x34 525
70493 21
,.
Renta ($) f i M i f i M i
420-439 8 429.5 3436.0
440-459 17 449.5 7641.5
460-479 12 469.5 5634.0
480-499 8 489.5 3916.0
500-519 7 509.5 3566.5
520-539 4 529.5 2118.0
540-559 2 549.5 1099.0
560-579 4 569.5 2278.0
580-599 2 589.5 1179.0
600-619 6 609.5 3657.0
Total 70 34525.0
Varianza para datos agrupados
• Muestra
• Población
sf M x
ni i2
2
1
( )
22f M
Ni i( )
• Varianza para datos agrupados
• Desviación Estándar para datos agrupados
Esta aproximación difiere en solo $.20
de la desviación estándar de $54.74.
s2 3 017 89, .
s 3 017 89 54 94, . .
Ejemplo: departamentos en renta
top related