asimetríafaviok.weebly.com/uploads/6/4/0/3/6403801/2.pdf · derecha de un valor central (media...

• Si los valores de la serie de datos presenta la misma forma a izquierda y derecha de un valor central (media aritmética) se dice que es simétrica de lo contrario será asimétrica.

• Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría de Fisher, que viene definido:

)()(/1(

Asimetría

• Los resultados pueden ser los siguientes:

• g1 = 0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la izquierda de la media)

• g1 > 0 (distribución asimétrica positiva; existe mayor concentración de valores a la derecha de la media que a su izquierda)

• g1 < 0 (distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de la media que a su derecha)

Asimetría

Distribución simétrica

• sesgo cero moda = mediana = media

Distribución con asimetría positiva

• sesgo a la derecha: media y mediana se encuentran a la derecha de

la moda.

• moda < mediana < media

Distribución con asimetría negativa

• sesgo a la izquierda: media y mediana están a la izquierda de la moda.

• media < mediana < moda

• Si se conocen dos promedios de una distribución de frecuencias con sesgo

moderado, el tercero se puede aproximar.

• moda = media - 3(media - mediana)

• media = [3(mediana) - moda]/2

• mediana = [2(media) + moda]/3

• El Coeficiente de Curtosis analiza el grado de

concentración que presentan los valores

alrededor de la zona central de la distribución.

• Se definen 3 tipos de distribuciones según su

grado de curtosis:

Curtosis

• Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).

• Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable.

• Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

Curtosis

• El Coeficiente de Curtosis viene definido por la siguiente fórmula:

)()(/1(

Curtosis

Los resultados pueden ser los siguientes:

• g2 = 0 (distribución mesocúrtica).

• g2 > 0 (distribución leptocúrtica).

• g2 < 0 (distribución platicúrtica).

Curtosis

Distribuciones de probabilidad

Continuas

Discretas

Bernoulli

Binomial

Poisson

Geométrica

Binomial negativa

Uniforme

Exponencial

Normal

Ji-cuadrada

t de Student

Weibull

Distribución normal

- 4 - 2 2 4

5 10 15 20

Distribución Ji-cuadrada

Distribución exponencial

1 2 3 4 5

Ejemplo: departamentos en renta

Abajo encontrara una muestra de los valores de renta mensuales para un

departamento de una recamara. Los datos son una muestra de 70

apartamentos en una ciudad de los Estados Unidos. Los datos se

presentan en orden ascendente.

425 430 430 435 435 435 435 435 440 440

440 440 440 445 445 445 445 445 450 450

450 450 450 450 450 460 460 460 465 465

465 470 470 472 475 475 475 480 480 480

480 485 490 490 490 500 500 500 500 510

510 515 525 525 525 535 549 550 570 570

575 575 580 590 600 600 600 600 615 615

• Promedio

80.49070

356,34

425 430 430 435 435 435 435 435 440 440

440 440 440 445 445 445 445 445 450 450

450 450 450 450 450 460 460 460 465 465

465 470 470 472 475 475 475 480 480 480

480 485 490 490 490 500 500 500 500 510

510 515 525 525 525 535 549 550 570 570

575 575 580 590 600 600 600 600 615 615

Percentiles

• Un percentil provee información de cómo los datos están dispersos sobre

un intervalo desde el valor mas pequeño hasta el valor mas grande.

• Los exámenes de admisión para las universidades (en USA) es frecuente

que se reporten en términos de percentiles.

Percentiles

• El p-èsimo percentil de un conjunto de datos es un valor tal que al

menos p por ciento de los elementos toma este valor o menor y al menos

(100 - p) por ciento de los elementos toman este valor o mas.

1. Acomode los datos en orden ascendente.

2. Calcule el índice i, la posición de el percentil p-esimo.

i = (p/100)n

3. Si i no es entero, redondee hacia arriba. El percentil p-esimo es el

valor en la posición i .

4. Si i es un entero, el percentil p-esimo es el valor en la posición+1

• Percentil de 90

i = (p/100)n = (90/100)70 = 63

Se toman el valor de los dato 63 +1 :

Percentil de 90 = (580 + 1) = 581

425 430 430 435 435 435 435 435 440 440

440 440 440 445 445 445 445 445 450 450

450 450 450 450 450 460 460 460 465 465

465 470 470 472 475 475 475 480 480 480

480 485 490 490 490 500 500 500 500 510

510 515 525 525 525 535 549 550 570 570

575 575 580 590 600 600 600 600 615 615

• Tercer Cuartil

Tercer cuartil = Percentil de 75

i = (p/100)n = (75/100)70 = 52.5 = 53

Tercer cuartil = 525

425 430 430 435 435 435 435 435 440 440

440 440 440 445 445 445 445 445 450 450

450 450 450 450 450 460 460 460 465 465

465 470 470 472 475 475 475 480 480 480

480 485 490 490 490 500 500 500 500 510

510 515 525 525 525 535 549 550 570 570

575 575 580 590 600 600 600 600 615 615

• Mediana

Mediana = percentil 50

i = (p/100)n = (50/100)70 = 35.5

Mediana = 475

425 430 430 435 435 435 435 435 440 440

440 440 440 445 445 445 445 445 450 450

450 450 450 450 450 460 460 460 465 465

465 470 470 472 475 475 475 480 480 480

480 485 490 490 490 500 500 500 500 510

510 515 525 525 525 535 549 550 570 570

575 575 580 590 600 600 600 600 615 615

• Moda

450 ocurre más frecuentemente (7 veces)

Moda = 450

425 430 430 435 435 435 435 435 440 440

440 440 440 445 445 445 445 445 450 450

450 450 450 450 450 460 460 460 465 465

465 470 470 472 475 475 475 480 480 480

480 485 490 490 490 500 500 500 500 510

510 515 525 525 525 535 549 550 570 570

575 575 580 590 600 600 600 600 615 615

• Rango

Rango = valor mayor – valor menor

Rango = 615 - 425 = 190

425 430 430 435 435 435 435 435 440 440

440 440 440 445 445 445 445 445 450 450

450 450 450 450 450 460 460 460 465 465

465 470 470 472 475 475 475 480 480 480

480 485 490 490 490 500 500 500 500 510

510 515 525 525 525 535 549 550 570 570

575 575 580 590 600 600 600 600 615 615

Rango Intercuartil

• El rango intercuartil de un conjunto de datos es la diferencia entre el tercer cuartil y el primer cuartil.

• Es el rango donde se encuentra el 50% central de los datos.

• Elimina la sensibilidad de los valores de datos extremos.

• Rango intercuartil

3er. Cuartil (Q3) = 522.5

1er. Cuartil (Q1) = 446.25

Rango intercuartil = Q3 - Q1 = 76.25

425 430 430 435 435 435 435 435 440 440

440 440 440 445 445 445 445 445 450 450

450 450 450 450 450 460 460 460 465 465

465 470 470 472 475 475 475 480 480 480

480 485 490 490 490 500 500 500 500 510

510 515 525 525 525 535 549 550 570 570

575 575 580 590 600 600 600 600 615 615

Coeficiente de Variación

• El coeficiente de variación indica que tan grande es la desviación

estándar rn relación al promedio.

• Si un conjunto de datos es una muestra, el coeficiente de variación se

calcula como sigue:

• Si un conjunto de datos es una población, el coeficiente de variación se

calcula como sigue:

x( )100

( )100

• Varianza

• Desviación estándar

• Coeficiente de Variación

12 996 16

( ), .

s s2 2996 47 54 74. .

490 80100 1115

Medidas de localización relativa y

detección de valores atípicos • Valores z

• Teorema de Chebyshev

• La Regla Empírica

• Detección de Valores Atípicos

Valores z

• El valor z es frecuentemente llamado el valor estandarizado

• Denota el numero de desviaciones estándar que el valor de un dato xi está de la media.

• Un dato con valor menor que la media de la muestra tendrá un valor de z menor que cero.

• Un dato con valor mayor que el promedio de la muestra tendrá un valor de z mayor que cero

• Un dato con valor igual que el promedio de la muestra tendrá un valor de z igual a cero

• Valor z del menor valor (425)

Valores estandarizados para departamentos en renta

si 425 490 80

54 741 20

-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93

-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75

-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47

-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20

-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35

0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45

1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27

Al menos (1 - 1/k2) de los elementos en un conjunto

de datos estará dentro de las k desviaciones

estándar del promedio donde k es cualquier valor

mayor que 1.

– Al menos 75% de los elementos deben estar entre k = 2

desviaciones estándar de la media.

Teorema de Chebyshev

• Teorema de Chebyshev

Sea k = 1.5 con = 490.80 y s = 54.74

al menos (1 - 1/(1.5)2) = 1 - 0.44 = 0.56 o 56%

de los costos de renta deben estar entre

- k(s) = 490.80 - 1.5(54.74) = 409

+ k(s) = 490.80 + 1.5(54.74) = 573

• Teorema de Chebyshev (continúa)

realmente, 86% de los costos de renta

están entre 409 y 573.

425 430 430 435 435 435 435 435 440 440

440 440 440 445 445 445 445 445 450 450

450 450 450 450 450 460 460 460 465 465

465 470 470 472 475 475 475 480 480 480

480 485 490 490 490 500 500 500 500 510

510 515 525 525 525 535 549 550 570 570

575 575 580 590 600 600 600 600 615 615

La Regla Empírica

Para los datos que tienen una distribución tipo

campana:

– Aproximadamente 68% de los valores de los datos estarán

entre una desviación estándar de la media

Para los datos que tienen una distribución tipo campana:

Aproximadamente 95% de los valores de los datos estarán entre dos

desviaciones estándar de la media

La Regla Empírica

Para los datos que tienen una distribución tipo campana:

– Casi todos (99.7%) los elementos estarán entre tres desviaciones

estándar de la media

La Regla Empírica

• Regla empírica

Intervalo % Intervalo

Entre +/- 1s 436.06 a 545.54 48/70 = 69%

Entre +/- 2s 381.32 a 600.28 68/70 = 97%

Entre +/- 3s 326.58 a 655.02 70/70 = 100%

425 430 430 435 435 435 435 435 440 440

440 440 440 445 445 445 445 445 450 450

450 450 450 450 450 460 460 460 465 465

465 470 470 472 475 475 475 480 480 480

480 485 490 490 490 500 500 500 500 510

510 515 525 525 525 535 549 550 570 570

575 575 580 590 600 600 600 600 615 615

Detección de Valores Atípicos

• Un valor atípico es un valor inusualmente muy pequeño o muy grande

para el conjunto de datos.

• Un dato con valor de z menor que -3 o mas grande que +3 puede ser

considerado como un valor atípico.

• Puede ser un valor de dato registrado incorrectamente.

• Puede ser un valor de dato que fue incorrectamente incluido en el

conjunto de datos.

• Puede ser un valor de dato correctamente registrado y que pertenece

al conjunto de datos.

• Detectando valores atípicos

Los valores extremos más atípicos son -1.20 y 2.27.

Usando |z| > 3 como el criterio para un dato atípico, no hay valores atípicos en este conjunto de datos

Valores estandarizados para departamentos en renta

-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93

-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75

-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47

-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20

-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35

0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45

1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27

Covarianza

• La covarianza es una medida de la asociación lineal entre dos

variables.

• Valores positivos indican una relación positiva.

• Valores negativos indican una relación negativa

• Si el conjunto de datos es una muestra, la covarianza se denota

por sxy.

• Si el conjunto de datos es una población, la covarianza se

denota por .

Covarianza

sx x y y

i i( )( )

xyi x i yx y

( )( )

Coeficiente de correlación

• El coeficiente puede tomar valores entre -1 y +1.

• Valores cercanos a -1 indican un relación lineal negativa

fuerte.

• Valores cercanos a +1 indican un relación lineal positiva

fuerte.

• Si el conjunto de datos es una muestra, el coeficiente es rxy.

• Si el conjunto de datos es una población, el coeficiente es

Datos no agrupados

• Son datos no agrupados cuando se consideran y analizan todos los valores

observados tal como se obtuvieron. Es conveniente y mas sencillo trabajar

a estos datos como no agrupados cuando la muestra no es muy grande. De

preferencia que sea una cantidad menor de 30 datos. También resulta

conveniente trabajarlos así cuando se quiere que el peso de cada

observación se vea reflejado en el resumen de los datos.

Ventajas y desventajas

VENTAJAS

• Resulta más fácil y rápido trabajar con los datos no agrupados.

DESVENTAJAS

• Solo se puede aplicar en pequeñas cantidades de datos, ya que en

grandes cantidades resultaría un tanto tedioso y por lo mismo existiría más

probabilidad de equivocarse.

Datos agrupados

• Son datos que están organizados (formando grupos). Podemos formar más

o menos grupos, dependiendo de que tan exacto queramos trabajar, a cada

grupo le llamamos clase. Rara vez se emplean menos de seis clases o más

de quince.

Ventajas

• Facilidad y rapidez en el manejo de datos.

• Se notan rápidamente el valor mayor y el valor menor de los datos

• Se puede dividir fácilmente los datos en secciones.

• Se puede observar si algún valor aparece más de una vez en el ordenamiento.

• Se observa la distancia entre los valores sucesivos de los datos.

Media ponderada y manejo de datos

agrupados • Media ponderada

• Media para datos agrupados

• Varianza para datos agrupados

• Desviación estándar para datos agrupados

Media ponderada

• Cuando la media es calculada dándole a cada valor de dato un peso que refleja su importancia, es referido como una media ponderada.

• En el calculo de promedio de calificaciones (tipo USA), el peso es el número de créditos obtenidos para cada grado.

• Cuando los valores de los datos varían en importancia, el analista debe escoger el peso que refleje la importancia de cada valor.

Media ponderada

x = wi xi

donde:

xi = valor de observación i

wi = peso de observaciòn i

Datos agrupados

• El calculo de la media pondera puede ser usado para obtener aproximaciones al promedio, varianza, y desviación estándar de datos agrupados.

• Para calcular la media ponderada, tratamos el punto medio de cada clase como si fuera la media de todos los elementos en la clase.

• Calculamos una media ponderada de los puntos medios utilizando las frecuencias de la clase como pesos.

• Similarmente, al calcular la varianza y desviación estándar las frecuencias de las clases son utilizadas como pesos.

• Muestra

• Población

donde:

fi = Frecuencia de la clase i

Mi = punto medio de la clase i

Media para datos agrupados

Abajo está la muestra de las rentas mensuales para departamentos de

una recamara presentados aquí como datos agrupados en la forma de

distribución de frecuencias

Renta ($) Frecuencia

420-439 8

440-459 17

460-479 12

480-499 8

500-519 7

520-539 4

540-559 2

560-579 4

580-599 2

600-619 6

• Media para datos agrupados

Esta aproximación

difiere en $2.41 de la

media real de la muestra de

$490.80.

x34 525

70493 21

Renta ($) f i M i f i M i

420-439 8 429.5 3436.0

440-459 17 449.5 7641.5

460-479 12 469.5 5634.0

480-499 8 489.5 3916.0

500-519 7 509.5 3566.5

520-539 4 529.5 2118.0

540-559 2 549.5 1099.0

560-579 4 569.5 2278.0

580-599 2 589.5 1179.0

600-619 6 609.5 3657.0

Total 70 34525.0

Varianza para datos agrupados

• Muestra

• Población

sf M x

Ni i( )

• Varianza para datos agrupados

• Desviación Estándar para datos agrupados

Esta aproximación difiere en solo $.20

de la desviación estándar de $54.74.

s2 3 017 89, .

s 3 017 89 54 94, . .

asimetríafaviok.weebly.com/uploads/6/4/0/3/6403801/2.pdf · derecha de un valor central (media...

Documents

carga transversal en barras de seccion simÉtrica

guerra asimétrica

revista final r. simétrica

kara-t conectores tipo cuÑa para puesta a tierra –...

revista final asimétrica

certificación digital. contenido seguridad en internet...

02 componente simétrica

economia de la información asimétrica

domènech & tirado - sociologia simétrica

negociación asimétrica

criptologia simétrica en bloquescriptologia simétrica...

informaciÓn asimÉtrica en el mercado de …

fuente simétrica

flexión asimétrica de vigas

definicion de diferencia simÉtrica de conjuntos

catálisis asimétrica vía enaminas: reacciones

de la guerra (asimétrica)

3.criptografía de clave simétrica

presentación de powerpoint - core · g (g-1)/2. 6*5/2=15....

neuropatía desmielinizante distal simétrica adquirida