2-ana¦ülisis descriptivo de datos

56

Upload: laura-jackson

Post on 13-Dec-2015

6 views

Category:

Documents


0 download

DESCRIPTION

Análisis Descriptivo de Datos, Estadística par la administración

TRANSCRIPT

Estadística descriptiva:

Se dedica a analizar y representar losdatos.

Análisis básico, pero fundamental entodo estudio.

Su poder inferencial es mínimo.

Tabla o Distribución de frecuencias:

Agrupación de datos en clases mutuamente excluyentes,que muestra el número de observaciones en cada clase.

•Su objetivo es construir tablas, diagramas y gráficas querevelen rápidamente la concentración y distribución de losdatos.

Ejm:

Precios de vehículos vendidos el mes pasado en WhitnerAutoplex (USD/unidad).

Datos en bruto o no agrupados

1 2 3 4 5 6 7 8 9 10

0 23197 23372 20454 23591 26651 27453 17266 18021 28683 30872

1 19587 23169 35851 19251 20047 24285 24324 24609 28670 15546

2 15935 19873 25251 25277 28034 24533 27443 19889 20004 17357

3 20155 19688 23657 26613 20895 20203 23765 25783 26661 32277

4 20642 21981 24052 25799 15794 18263 35925 17399 17968 20356

5 21442 21722 19331 22817 19766 20633 20962 22845 26285 27896

6 29076 32492 18890 21740 22374 24571 25449 28337 20642 23613

7 24220 30655 22442 17891 20818 26237 20445 21556 21639 24296

Ejm:Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).

Construir una distribución de frecuencias

1. Definir el número de clases (k): Emplear un número suficiente de talmanera que se perciba la forma de la distribución.

2k>n

• n=80; k=6 26>80 64<80

• n=80; k=7 27>80 128>80

Ejm:Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).

Construir una distribución de frecuencias

2. Determinar el intervalo o ancho de clase (i): Todas las clases juntasdeben cubrir por lo menos la distancia del valor mínimo al máximode los datos.

i≥ [(H-L)/k]

Donde: i=intervalo de clase; H=máximo valor; L=mínimo valor

k=no. de clases

Ejm:Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).

Construir una distribución de frecuencias

2. Determinar el intervalo o ancho de clase (i):

i≥ [(H-L)/k]

i≥ [(35925-15546)/7=2911≈3000]

Al redondear el intervalo de clase hacia arriba se cubre un rangomás amplio que el necesario. Se usa un múltiplo de 100.

Los i desiguales resultan necesarios cuando se pretende evitar clasesvacías o casi vacías.

Ejm:Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).

Construir una distribución de frecuencias

3. Establecer los límites de cada clase: Hace posible incluir cadaobservación en una sola categoría.

• 7 clases de 3000 de amplitud = 21000 de rango

• Rango real= H-L= 35925-15546=20379

• El límite inferior de la primer clase debe ser un

múltiplo del intervalo de clase (3000x5=15000).

Ejm:Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).

Construir una distribución de frecuencias

4. Clasificar cada una de las

observaciones en las clases.

5. Número de elementos en cada

clase.

Ejm:Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).

Construir una distribución de frecuencias

Conclusiones:

Un 72.5% de los precios de

venta se concentran en la clase

2, 3 y 4 (58).

La clase 2 presenta la máxima

concentración, así que el precio

típico de venta es de 19 500.

Punto medio de clase:Media de límites inferiores (L.I.) de dos clases consecutivas.

Ejm: Whitner Autoplex

(15000+18000)/2=16500 punto medio de la clase 1

(precio típico)

Intervalo de clase:Diferencia entre límites inferiores de la clases consecutivas o bien ladiferencia entre puntos medios consecutivos.

(18000-15000)=3000 ó (19500-16500)=3000

Distribución de frecuencias relativas:Muestra la fracción del total de observaciones que hay en cada clase.

Ejm: Whitner Autoplex

¿Cuántos vehículos se vendieron a un

precio de entre $18000 y $21000?

¿Qué porcentaje se vendió a un precio

de entre $24000 y $27000?

¿Qué porcentaje se vendió en $30000 o

más?

Representación gráfica de una distribución de frecuencias:Histograma

Gráfica en la que las clases se señalan en el eje horizontal y lasfrecuencias de clase en el eje vertical.

Ejm: Whitner Autoplex

Representación gráfica de una distribución de frecuencias:Polígono de frecuencias

Gráfica en la que segmentos de recta conectan los puntos formados por lasintersecciones de los puntos medios de clase y las frecuencias de clase.

Ejm: Whitner Autoplex

Distribución de frecuencias acumulativas:Muestra la fracción del total de observaciones que hay en cada clase deforma acumulada.

Ejm: Whitner Autoplex

Ejm:Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).

MegaStat

Medidas de ubicación=promedios:Muestra el valor central de los datos.

Si se toma en cuenta las medidas de ubicación en un conjunto de datos osi se comparan varios conjuntos de datos utilizando valores centrales, sellega a conclusiones incorrectas.

Medidas de dispersión:Muestra la variación o propagación de los datos.

Ejm:

Tipo de EjecutivosIngreso anual

promedio (USD)Rangos salariales (USD)

Compañías relacionadas con

internet80000 70000-90000

Compañías farmacéuticas

80000 40000-120000

Medidas de ubicación

Media poblacional:En el caso de datos no agrupados, es la suma de todos los valores en lapoblación dividida entre el número de la población.

Cualquier característica medible de una población es un parámetro.

Media de una muestra:Es la suma de todos los valores en la muestra dividida entre el númerode la muestra.

Cualquier característica medible de una muestra es un estadístico.

Medidas de ubicación

Propiedades de la media aritmética:

•Todos los valores se encuentran incluidos en el cálculo dela media.

•La media es única.

•La suma de las desviaciones de cada valor de la media escero;

Ejm: 3, 8 y 4

Medidas de ubicación

Media ponderada:Caso especial de la media aritmética que se usa cuando hay variasobservaciones con el mismo valor.

; w=ponderación

Las ponderaciones son generalmente conteos de frecuencias. Sinembargo, cualquier medida de importancia puede ser una ponderación.

Medidas de ubicación

Mediana:Punto medio de valores una vez que se han ordenado de menor a mayoro viceversa.

Ejms:

Precios en un fraccionamiento:

Precio típico=$110 000

Presupuesto=$75000Mediana

Rendimientos mutualistas accionarios 2008-2010:

Medidas de ubicación

Moda:Valor de la observación que aparece con mayor frecuencia.

Ejm:Número de encuestados

que prefieren ciertos tipos

de aceites para baño.

Los salarios anuales de los gerentes de control de calidad en algunos estados seleccionados de EUA.

Medidas de ubicación

Moda:Ventaja:

Es posible determinarla para todos los niveles de datos:nominal, ordinal, de intervalo y de razón.

Desventaja:

En el caso de muchos conjuntos de datos en los que ningúnvalor se presenta más de una vez, no existe la moda.

Medidas de ubicación

Posiciones relativas de la media, la mediana y la moda:

Distribución simétrica

Medidas de ubicación

Posiciones relativas de la media, la mediana y la moda:

Distribución con sesgo positivo

Medidas de ubicación

Posiciones relativas de la media, la mediana y la moda:

Distribución con sesgo negativo

Medidas de ubicación

Ejm:

Precios de vehículos vendidos el mes pasado en WhitnerAutoplex (USD/unidad).

Excel: Análisis de Datos MegaStat

Medidas de ubicación

Media geométrica:Se usa para determinar el cambio promedio de porcentajes, razones,índices o tasas de crecimiento.

•Siempre es menor o igual a la media aritmética.

•Todos los datos deben ser positivos.

Medidas de ubicación

Media geométrica:Ejms:

1. Asuma que usted recibe 5% de incremento salarial este año y 15% elsiguiente. El incremento porcentual anual promedio es de 9.886, no de10.

Incremento 1= $3000(.05)= $150.00

Incremento 2= $3150(.15)= 472.5

Total $622.50

$3000(.09886)= $296.58

$3150(.09886)= 325.90

$622.48

Medidas de ubicación

Media geométrica:Ejms:

2. La recuperación de una inversión realizada por una CompañíaConstructora durante cuatro años consecutivos fue de 30, 20, -40 y200%. Suponga que el total de la inversión de cada periodo se reinvierteo se convierte en la base de la siguiente. ¿Calcule GM de la recuperaciónde la inversión?

Tasa promedio de recuperación=29.4%

Media aritmética = 52.5%

Medidas de ubicación

Porcentaje promedio de incremento:

Ejm:

1. La densidad de población en Guanajuato (habitantes/km2) seincrementó de 152 en 2000 a 179 en 2010. ¿Cuál es el incremento anualpromedio en el periodo?

1 n

VI

VFGM

Medidas de dispersión

¿Por qué estudiar la dispersión?

Medidas de dispersión

Rango = Valor máximo - Valor mínimo

Desviación media:Mide la cantidad media respecto de la cual los valores deuna población o muestra varían.

Varianza y Desviación estándar:

Poblacional Muestral:

1

)( 2

2

n

XXs

1

)( 2

n

XXs

Medidas de dispersión

Sesgo:Coeficiente de sesgo de Pearson (sk):

Coeficiente de sesgo calculado con software (Minitab y Excel):

s

MedianaXsk

)(3

3

)2)(1( s

XX

nn

nsk

Medidas de dispersión

Ejm:

Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).

Excel: Análisis de Datos

Precios

Media 23218.1625

Mediana 22831

Moda 20642

Desviación estándar 4354.43781

Varianza de la muestra 18961128.6

Coeficiente de asimetría 0.72681585

Rango 20379

Mínimo 15546

Máximo 35925

Suma 1857453

Cuenta 80

Medidas de dispersión

Métodos consistentes en determinar la ubicación de los valores quedividen un conjunto de observaciones en partes iguales.

Cuartiles (Q): Localización de un cuartil

Deciles (D): Localización de un decil

Percentiles (P): Localización de un percentil

donde ; Q, D,P = representan el quartil, decil o percentil que busca.

4)1(Q

nLQ

10)1(

DnLD

100)1(

PnLP

Medidas de dispersión

Ejm:

1. Precios de vehículos vendidos el mes pasado en WhitnerAutoplex (USD/unidad).

Minitab

Medidas de dispersión

Ejm:

Precios de vehículos vendidos el mes pasado en WhitnerAutoplex (USD/unidad).

Excel: Análisis de datosPrecios

Media 23218.1625

Mediana 22831

Moda 20642

Desviación estándar 4354.43781

Varianza de la

muestra 18961128.64

Coeficiente de

asimetría 0.72681585

Rango 20379

Mínimo 15546

Máximo 35925

Suma 1857453

Cuenta 80

Mayor (20) 25799

Menor(20) 20047

n=80, localizar 25° percentil

= 81(0.25)=20.25

Medidas de dispersión

Ejm:

2.

3.

1 2 3 4 5 6 7 8 9 10 11

46 47 49 49 51 53 54 54 55 55 59valoronMediana .66

2

1)1(53

valorernLQ Q .334

1)111(

4

1)1(;49

11

valoronLQ Q .994

3)111(

4

3)1(;55 33

1 2 3 4 5 6

43 61 75 91 101 104

75.14

1)16(

4

1)1(

1 nLQ

61-43=18; 0.75(18)=13.5

5.565.13431 Q

Medidas de dispersión

Teorema de Chebyshev:El matemático ruso Pafnuty L. Chebyshev (1821-1894) determinó lamínima porción de valores que se encuentran a cierta cantidad dedesviaciones estándares de la media:

• 75% deben encontrarse entre ±2σ respecto a la media (3 de 4 valores).

•88.9% deben encontrarse entre ±3σ respecto a la media (8 de 9 valores).

•96% deben encontrarse entre ±5σ respecto a la media (24 de 25 valores).

En cualquier conjunto de observaciones (población o muestra), la

proporción de valores que se encuentran a k desviaciones

estándares de la media es de por lo menos 1-(1/k2), siendo k

cualquier constante mayor que 1.

Ejm: ¿Por lo menos qué porcentaje de cualquier conjunto de

observaciones se encontrará a 1.8 desviaciones estándares de la media?

Medidas de dispersiónRegla empírica: En cualquier distribución de frecuencias simétricas enforma de campana, aproximadamente 68% de las observaciones seencontraran entre ±1σ desviación estándar de la media; cerca de 95% delas observaciones entre ±2σ desviaciones estándares de la media y 99.7%entre ±3σ desviaciones estándares de la media.

Regla

em

pír

ica

-1σ

-2σ

-3σ

Media y desviación estándar de datos agrupados:

donde: f=frecuencia en cada clase; M=punto medio de cada clase

Ejm:

Precios de vehículos vendidos el mes pasado en Whitner Autoplex (USD/unidad).

Media y desviación estándar de datos agrupados:

Ejm:

Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).

23100$

n

fMX 4403$

1

)( 2

n

XMfs

4354$1

)( 2

n

XXs23218$

n

XX

Aproximadas

Diagramas para la presentación y análisis de datos:

Diagrama de puntos

Agrupa los datos lo menos posible y evita la pérdida de identidad decada observación.

Propiedades:

•Cada punto representa una observación a lo largo de una rectanumérica horizontal.

•Si hay observaciones idénticas o que se encuentran muy próximas,los puntos se apilan para que se puedan ver de manera vertical.

•Estos diagramas son más útiles en el caso de conjuntos de datospequeños.

Diagramas para la presentación y análisis de datos:

Diagrama de puntos

Ejm:

Cantidad de vehículos vendidos durante los pasados 24 meses pordos concesionarias de AutoUSA:

Diagramas para la presentación y análisis de datos:

Diagrama de puntos

Ejm:

Cantidad de vehículos vendidos durante los pasados 24 meses pordos concesionarias de AutoUSA:

Diagramas para la presentación y análisis de datos:

Gráfica de tallo y hojas

•Cada valor numérico se divide en dos partes.

•El dígito principal se convierte en el tallo y los dígitossecundarios en las hojas.

•El tallo se localiza a lo largo del eje vertical y los valores delas hojas se apilan unos contra otros a lo largo del ejehorizontal.

•Ventajas: a) Permite una visualización rápida de la formade la distribución sin hacer ningún cálculo, b) cada valormantiene su identidad exacta.

Diagramas para la presentación y análisis de datos:

Gráfica de tallo y hojasEjm:

Cantidades de espacios publicitarios de 30 segundos en radio quecompró cada uno de los 45 miembros de una asociación deautomóviles seminuevos el año pasado:

Diagramas para la presentación y análisis de datos:

Gráfica de tallo y hojasEjm:

Cantidades de espacios publicitarios de 30 segundos en radio quecompró cada uno de los 45 miembros de una asociación deautomóviles seminuevos el año pasado:

o¿Cuál es el número menor y mayor de

espacios publicitarios comprados?

oAlrededor de que valores tienden a

acumularse el número de espacios

publicitarios?

o¿Cuál es la mediana? 45/2=22.5≈23

o¿Cuántos miembros de la asociación

compraron menos de 110 y más de 130

spots en radio?

Diagramas para la presentación y análisis de datos:

Diagrama de caja

Representación gráfica de un conjunto de datos, basada encuartiles.

Para construirlo se necesita:

• El valor mínimo y máximo.

• La mediana.

• Q1 y Q3

Diagramas para la presentación y análisis de datos:

Diagrama de cajaEjm:

Iguana´s Pizza ofrece el servicio a domicilio gratuito a 35 km a laredonda. El propietario desea información relacionada con el tiempode entrega, en el caso de una muestra de 20 entregas se recopiló lasiguiente información:

• Valor mínimo=13 min.

• Valor máximo= 30 min.

• Mediana=18 min.

• Q1 =15 min. Q3 =22 min.

Diagramas para la presentación y análisis de datos:

Diagrama de cajaEjm:

Cantidades de espacios publicitarios de 30 segundos en radio quecompró cada uno de los 45 miembros de una asociación deautomóviles seminuevos el año pasado:

Diagramas para la presentación y análisis de datos:

Diagrama de cajaEjm:

Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).

Diagramas para la presentación y análisis de datos:

Diagrama de cajaEjm:

Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).

Dato atípico > Q3 + 1.5(Q3-Q1)=26000-1.5(26000-20000)=35000

Dato atípico < Q1 - 1.5(Q3-Q1)=20000-1.5(26000-20000)=11000

Diagramas para la presentación y análisis de datos:

Diagrama de dispersión o correlaciónMuestra la relación entre datos bivariados.

Ejm:

Precios de vehículos vendidos el mes pasado en Whitner Autoplex(USD/unidad).

Diagramas para la presentación y análisis de datos:

Diagrama de dispersión o correlación