mic sesión 4

43
MÉTODOS DE INVESTIGACIÓN CUANTITATIVA Sesión 4 ESTADÍSTICA DESCRIPTIVA: Estadísticos Resúmenes FÁTIMA PONCE 1

Upload: metodoscuantitativos

Post on 14-Apr-2017

119 views

Category:

Education


0 download

TRANSCRIPT

Page 1: Mic sesión 4

MÉTODOS DE INVESTIGACIÓN CUANTITATIVA

Sesión 4

ESTADÍSTICA DESCRIPTIVA:Estadísticos Resúmenes

FÁTIMA PONCE 1

Page 2: Mic sesión 4

FÁTIMA PONCE 2

PUNTOS A TRATARSesión 3:

Estadística Descriptiva: Estadísticos Resúmenes.Medidas de tendencia central (media, mediana,

moda). Medidas de variabilidad o dispersión (varianza,

desviación estándar, coeficiente de variabilidad).Medidas de posición no central (percentiles, cuartiles,

diagrama de caja)

Page 3: Mic sesión 4

FÁTIMA PONCE 3

ESTADÍSTICA DESCRIPTIVA

Permite construir y analizar cuadros estadísticos y gráficos resúmenes, con el objetivo de resumir los datos, de manera que sean entendibles e interpretables con facilidad, a fin de que la información nos sirva para la toma de decisiones.

Aplicar e interpretar medidas numéricas que resumen los datos, como: Medidas de localización central: Media, mediana,

moda. Medidas de variabilidad: varianza, desviación estándar,

coeficiente de variabilidad.

Page 4: Mic sesión 4

FÁTIMA PONCE 4

Son medidas estadísticas numéricas que "resumen" la información de la "muestra" para poder tener así un mejor conocimiento de la población.  

Estadística Descriptiva Sumaria

Tendencia Central (Posición)

Dispersión(Variación)

Sesgo

Page 5: Mic sesión 4

FÁTIMA PONCE 5

Estadística Descriptiva Sumaria

I. Medidas de:Tendencia o Localización Central

Media Mediana Moda

oSe refieren al punto medio de una distribución,oInforman de cómo están agrupados los datos.o¿Alrededor de qué valor se agrupan los datos?.

Page 6: Mic sesión 4

FÁTIMA PONCE 6

Estadística Descriptiva SumariaII. Medidas de:

Dispersión ó Variabilidad

Varianza Desviación Estándar

Coefic. de Variabilidad

Rango

oInforman de cuánto se alejan los datos del valor central.

III. Medidas de Forma de la distribución:o La asimetría (sesgo) y la curtosis.

IV. Medidas de Posición no central: o Más usadas son los Percentiles y Cuartiles.

Page 7: Mic sesión 4

FÁTIMA PONCE 7

LA MEDIA O VALOR PROMEDIO DE UNA VARIABLE

Media Muestral: Se tiene n observaciones en la muestra:

N X1 + X2 + X3 + … + XN Xi i=1

= ------------------------------- = ------ N N

n x1 + x2 + x3 + … + xn xi

_ i=1

X = ------------------------------- = -------- n n

Media Poblacional: Se tiene N observaciones en la población:

Page 8: Mic sesión 4

FÁTIMA PONCE 8

Suponga que se tiene una muestra de ingresos por ventas mensuales en miles de soles para 7 meses:

56, 67, 54, 45, 50, 48 y 65

LA MEDIA (O MEDIA ARITMÉTICA): EJEMPLO

La media muestral es:

_ 56 + 67 + 54 + 45 + 50 + 48 + 65X = ----------------------------------------------

7

385 = ------- = 55 m.S/. 7

Page 9: Mic sesión 4

FÁTIMA PONCE 9

Ventajas:Es un concepto familiar para la mayoría de personas.Cada conjunto de datos tiene una media que es única.Sirve para comparar entre varios conjuntos de datos

(comparación de medias).

Desventajas:Puede verse afectada por valores extremos que no son

representativos. En este caso mejor emplear la mediana.Si el conjunto de datos tiene un extremo abierto no se

puede calcular la media.

VENTAJAS Y DESVENTAJAS DE LA MEDIA

Page 10: Mic sesión 4

FÁTIMA PONCE 10

Suponga que en un curso tiene las siguientes notas:

MEDIA PONDERADA: EJEMPLO

Nota (X) Peso (W) XW 11 0.1 1.1 12 0.1 1.2 11 0.1 1.1 13 0.3 3.9 15 0.4 6.0 ------- ------- 1.0 13.3

Prácticas: 11, 12, 11 , c/práctica pesa 10% Examen parcial: 13 , pesa 30% Examen final: 15 , pesa 40%.

_ XWXW = ---------- W

_ 13.3XW = -------- = 13.3 1

¿Cuál es su nota final? (= promedio ponderado).

Page 11: Mic sesión 4

FÁTIMA PONCE 11

LA MEDIANA ó Media Posicional

Luego de ordenar los datos de menor a mayor: Es la observación equidistante de los extremos: un 50% de valores está debajo de ella y el otro 50% encima de ella en la ordenación de los datos.

No es afectada por valores extremos. Se puede hallar incluso cuando los datos son descripciones

cualitativas ordinales.

Page 12: Mic sesión 4

FÁTIMA PONCE 12

LA MEDIANA

Si el conjunto de datos tiene un número impar de observaciones la posición de la mediana es: (n+1)/2

Por ej: 30, 52, 40, 60, 100, la mediana es: 52.

Si es un número par de observaciones, la posición de la mediana saldrá partido (3.5 por ej.) por lo que se debe promediar los valores de la posición 3 y 4. Por ej: 35, 45, 52, 56, 67, 67, la mediana es 54.

Page 13: Mic sesión 4

FÁTIMA PONCE 13

Es el valor de la variable o la observación que ocurre con mayor frecuencia.

Si los datos son: 35, 45, 52, 56, 67, 67, la moda es 67.

No es afectada por valores extremos.

Puede no existir una moda.

Pueden haber varias modas: Si hay dos valores que se repiten más y con igual frecuencia será bimodal.

LA MODA

Page 14: Mic sesión 4

FÁTIMA PONCE 14

Moda: Categoría o

valor que tiene la mayor

frecuencia

Mediana: Categoría o valor que divide

al conjunto de datos en dos partes

iguales.

Media : Es la suma de todos sus

valores dividida entre el número de

sumandos

Medidas de Tendencia Central: Informan cómo están concentrados los datos

Distribución Normal: media=mediana= moda

x

50%50%

f(x)

Page 15: Mic sesión 4

FÁTIMA PONCE 15

La media, mediana o moda sólo revelan una parte de la información acerca de las características de los datos. Para aumentar nuestro entendimiento del patrón de los datos, se debe medir también su dispersión o variabilidad, porque:

1. Permite juzgar la confiabilidad de nuestra medida de tendencia central.

2. Medida de riesgo (variables financieras, calidad).

MEDIDAS DE VARIABILIDAD O DISPERSIÓN

Page 16: Mic sesión 4

FÁTIMA PONCE 16

rango = XMás grande Xmás pequeño

No toma en cuenta la forma en que están distribuidos los datos.

EL RANGO

Es la diferencia entre el más alto y el más pequeño delos valores observados:

Page 17: Mic sesión 4

FÁTIMA PONCE 17

VARIANZA Y DESVIACIÓN (en torno a su valor central)

DESVIACIÓN ESTÁNDAR

Poblacional: Muestral:

En la práctica no se emplea porque sus unidades están elevadas al cuadrado.

2

Poblacional: Muestral:

Page 18: Mic sesión 4

FÁTIMA PONCE 18

Si se tiene una muestra de ingresos por ventas mensuales en miles de soles para 7 meses: 56, 67, 54, 45, 50, 48 y 65

Se halló la media: 55.

LA VARIANZA Y DESVIACIÓN ESTANDAR: EJEMPLO

La varianza muestral es:

s2 =[(56-55)2+(67-55)2+(54-55)2+(45-55)2+(50-55)2+(48-55)2+ (65-55)2] / (7-1)

s2 = 420 / (7-1) = 70 miles de S/ al cuadrado

s = 70 = 8.37 miles de S/.

La desviación estándar muestral es:

Page 19: Mic sesión 4

FÁTIMA PONCE 19

COEFICIENTE DE VARIACIÓN

Desviación estándar es una medida absoluta de la dispersión que expresa la variación en las mismas unidades que los datos originales No puede ser la única base para la comparación de 2 distribuciones.

Se requiere de una medida relativa que proporcione una estimación de la magnitud de la desviación respecto a la magnitud de la media Coeficiente de Variación ó Coeficiente de Variabilidad (CV).

Page 20: Mic sesión 4

FÁTIMA PONCE 20

COEFICIENTE DE VARIACIÓNMide la dispersión relativa de los datos y se calcula

dividiendo la desviación estándar muestral (s) por la media y multiplicando el cociente por 100:

s CV = -------- * 100 % _ X

Compara la dispersión de dos o más grupos: A > valor de CV > heterogeneidad de los valores de la variable.

Permite comparar dispersiones a escalas distintas. Pero varia ante cambios de origen, por ello todos los valores deben ser positivos.

Page 21: Mic sesión 4

FÁTIMA PONCE 21

EJEMPLOSe dice que "Los economistas suelen tener mejores salarios

iniciales que los abogados". a) ¿Qué indican los datos muestrales acerca de la afirmación?:

b) ¿En cuál de las muestras existe mayor variabilidad en los sueldos?:

Rspta: CVAbogados=13.93% y CVEconomistas=16.79% Mayor variabilidad hay en los salarios de los economistas.

Abogado34.2 45 39.5 28.4 37.7 35.8 30.6 35.2 34.2 42.4

Economista33.5 57.1 49.7 40.2 44.2 45.2 47.8 49.9 53.9 61.2

Page 22: Mic sesión 4

FÁTIMA PONCE 22

¿CÓMO INTERPRETAR?Si tuviéramos información de las regiones del Perú con los

siguientes resultados para la variable: tasa de pobreza (se mide de 0 a 100%).

• Media = 41.5 Mediana = 39.2• Máximo= 77.2 Mínimo = 12.7• Desviación estándar= 19.8

Poco menos de la mitad de la población es considerada pobre. El 50% de la población se encuentra por debajo de 39.2% de tasa de pobreza.

La tasa de pobreza media es 41.5% con una fluctuación de los datos respecto a su media de 19.8%, o con una tendencia a variar por debajo o por encima de la media en 19.8%.

Al analizar Max y Min se observa polos muy diferenciados: Existe desigualdad.

Page 23: Mic sesión 4

FÁTIMA PONCE 23

MEDIA Y DESVIACIÓN

ESTANDAR DE DATOS AGRUPADOS

Page 24: Mic sesión 4

FÁTIMA PONCE 24

Si se tiene el número de vehículos vendidos por rango de precios:

MEDIA DE DATOS AGRUPADOS

Precio de venta (miles de $) Frecuencia

10 a 13 814 a 17 2318 a 21 1722 a 25 1826 a 29 830 a 33 434 a 37 138 a 41 1

Total 80

Estime la media del precio de venta de los vehículos a partir de la información de distribución de frecuencias dada (datos agrupados).

Page 25: Mic sesión 4

FÁTIMA PONCE 25

¿Cómo estimar la media aritmética de los datos agrupados? :

1. Calcular el punto medio de cada clase en la muestra (Mi).

2. Multiplicar cada punto medio (Mi) por la frecuencia de las observaciones de dicha clase (fi).

3. Sumar todos los resultados de estos productos.4. Dividir la suma entre el número total de

observaciones de la muestra (n).

MEDIA DE DATOS AGRUPADOS

_ (fi*Mi) x = ------------- n

Page 26: Mic sesión 4

FÁTIMA PONCE 26

LA MEDIA DE DATOS AGRUPADOS: _ Media muestral de datos agrupados = X = (fi *Mi) / n

Precio de venta (miles de $)

Frecuencia (fi) fiMi

10 a 13 =(10+13)/2= 11.5 8 9214 a 17 =(14+17)/2= 15.5 23 356.518 a 21 =(18+21)/2= 19.5 17 331.522 a 25 =(22+25)/2= 23.5 18 42326 a 29 =(26+29)/2= 27.5 8 22030 a 33 =(30+33)/2= 31.5 4 12634 a 37 =(34+37)/2= 35.5 1 35.538 a 41 =(38+41)/2= 39.5 1 39.5

Total 80 1624

Punto medio de clase (Mi)

Media muestral de Datos Agrup= 1624/80= 20.3 miles de $

Page 27: Mic sesión 4

FÁTIMA PONCE 27

LA VARIANZA DE DATOS AGRUPADOS

¿Cómo calcular la varianza de los datos agrupados si se tiene una distribución de frecuencias y no se conoce el valor individual de cada observación?.

A nivel de la Población: fi(Mi-)2

2 = -----------------

N fi es la frecuencia de cada una de las clases. Mi es el punto medio de cada clase A nivel de la muestra:

_ [fi(Mi-X)2] s2 = ---------------- (n-1)

Page 28: Mic sesión 4

FÁTIMA PONCE 28

Estime la varianza y desv estandar del precio de venta de los vehículos a partir de la información de distribución de frecuencias siguiente. Recuerde que su media estimada fue 20.3 miles de $:

LA VARIANZA DE DATOS AGRUPADOS: EJERCICIO 3

Precio de venta (miles de $) Frecuencia

10 a 13 814 a 17 2318 a 21 1722 a 25 1826 a 29 830 a 33 434 a 37 138 a 41 1

Total 80

Page 29: Mic sesión 4

FÁTIMA PONCE 29

LA VARIANZA DE DATOS AGRUPADOS: EJERCICIO 3

s2=[fi(Mi - 20.3)2]/(n-1)

s = 36.21 = 6.02 miles de $

=2860.8/79=36.21 miles $ al cuadrado

Precio de venta (miles de $)

Punto medio de clase (Mi)

Frecuencia (fi)

Desviación (Mi - Xbarra)

Cuadrado de la Desviación

(Mi - Xbarra)2

fi(Mi-Xbarra)2

10 a 13 11.5 8 -8.80 77.44 619.5214 a 17 15.5 23 -4.80 23.04 529.9218 a 21 19.5 17 -0.80 0.64 10.8822 a 25 23.5 18 3.20 10.24 184.3226 a 29 27.5 8 7.20 51.84 414.7230 a 33 31.5 4 11.20 125.44 501.7634 a 37 35.5 1 15.20 231.04 231.0438 a 41 39.5 1 19.20 368.64 368.64

Total 80 2860.80

Page 30: Mic sesión 4

FÁTIMA PONCE 30

MEDIDAS DE LA FORMA DE LA DISTRIBUCIÓN

Page 31: Mic sesión 4

FÁTIMA PONCE 31

El skewness mide la simetría/asimetría de la distribución de los datos. skewness= 0: distribución es simétrica

La curtosis: determina el grado de concentración que presentan los valores en la región central de la distribución. Mide qué tan puntiaguda es la distribución.

MEDIDAS DE LA FORMA DE LA DISTRIBUCIÓN

Page 32: Mic sesión 4

FÁTIMA PONCE 32

CURVAS DE DISTRIBUCIÓN ASIMÉTRICAS

Asimétrica Positiva Distribución asimétrica con cola a la derecha.

Asimétrica Negativa Distribución asimétrica con cola a la izquierda.

En estos casos emplear la mediana como medida de localización central.

Page 33: Mic sesión 4

FÁTIMA PONCE 33

MEDIDAS DE FORMA DE LA DISTRIBUCIÓN (Apuntamiento o

Curtosis) El apuntamiento expresa el grado en que una distribución

acumula casos en sus colas en comparación con los casos acumulados en las colas de una distribución normal cuya dispersión sea equivalente.

Concentración en colas = probabilidad de valores extremos.

Cuarto momento: E(X - )4

CURTOSIS mide la empinadez de la distribución.

Si Curtosis = 3: distribución normal. Si Curtosis > 3: Colas con alta concentración de datos

(leptocúrtica) .

Page 34: Mic sesión 4

FÁTIMA PONCE 34

Cuando hay mucha asimetría en los datos (valores extremos desbalanceados), como las distribuciones de ingresos o cuando deseamos ubicar el lugar que ocupa un valor en particular se emplean Estadísticos de posición (cuantiles).Son valores de la variable que dividen la muestra de datos en partes de igual porcentaje. Permiten conocer otros puntos característicos de la distribución de la variable que no son los valores centrales. La manera más sencilla de ubicar el lugar de alguien en relación a una distribución es indicar el % de los datos que está debajo de ese valor.

MEDIDAS DE POSICIÓN NO CENTRAL

Page 35: Mic sesión 4

FÁTIMA PONCE 35

Los cuantiles se usan por grupos que dividen la distribución en partes iguales, es decir, intervalos que comprenden la misma proporción de valores.

Los cuantiles más usados son:Los Cuartiles: agrupan 25% cada uno (son 3). Los Quintiles: agrupan 20% cada uno (son 4).Los Deciles: agrupan 10% cada uno (son 9).Los Percentiles (son 99).

MEDIDAS DE POSICIÓN NO CENTRAL

Page 36: Mic sesión 4

FÁTIMA PONCE 36

Dividen a la distribución en cien partes iguales.El percentil p es un valor tal que por lo menos p% de las observaciones son ≤ que este valor y por lo menos (100 – p)% de las observaciones son ≥ que ese valor.

Ejemplo: Las notas en los exámenes de admisión se suelen dar en términos de percentiles. Decir: “Un estudiante obtiene 54 puntos en la parte verbal del examen” es vago, no compara con los demás, pero decir:

“Esta nota corresponde al percentil 70 70% de los estudiantes obtuvieron una nota menor a la de dicho estudiante.

PERCENTIL

Page 37: Mic sesión 4

FÁTIMA PONCE 37

Si se divide los datos en cuatro partes c/u contiene el 25% de las observaciones. Los puntos de división son cuartiles: Q1, Q2, Q3 .

CUARTIL

Page 38: Mic sesión 4

FÁTIMA PONCE 38

MEDIDAS DE POSICIÓN NO CENTRAL

1er Cuartil 2do Cuartil 3er Cuartil

P25 P50 P75

Page 39: Mic sesión 4

FÁTIMA PONCE 39

RANGO INTERCUARTIL

Es la medida de dispersión que acompaña a la mediana cuando se la emplea como medida resumen de los datos debido a que la media no seria representativa.

Es el rango en que se encuentra el 50% central de los datos.

No es afectado por los valores extremos.

RIC = Q3 – Q1

50%

min Q1 Q3 máx

Page 40: Mic sesión 4

FÁTIMA PONCE 40

BOX-PLOT ó DIAGRAMA DE CAJA

Vincula los conceptos de mediana, cuartiles, valor máximo y valor mínimo.

Es muy útil para resumir variables continuas.

Resultan más apropiados para representar variables que presenten una gran desviación de la distribución normal, resultan además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.

Page 41: Mic sesión 4

FÁTIMA PONCE 41

BOX-PLOT ó DIAGRAMA DE CAJA

Máximo

Mínimo

Q3

Mediana Q1

Edad

Page 42: Mic sesión 4

FÁTIMA PONCE 42

Medida de Localización

Central

Medida de Dispersión

Uso en Distribuciones

Ventaja Desventaja

Media µ si población_x si muestra

Desviación Estándar si poblacións si muestra

Simétricas(media=mediana=moda)

Buenas propiedades. Medida familiar empleada por todos.

Se ve afectada por valores extremos.

Mediana

Rango Sesgadas sin valores extremos

Mediana no se ve afectada por valores extremos.

El rango se ve afectado por valores extremos.

Rango intercuartil (RI)RI= Q3 – Q1

Sesgadas con valores extremos

Mediana y RI no son afectados por valores extremos.

RI no es muy conocido.

MEDIDAS USADAS PARA RESUMIR LOS DATOS

Page 43: Mic sesión 4

FÁTIMA PONCE 43

BIBLIOGRAFIA

Anderson, D., Sweeney, D. y Williams T. (2008). Estadística para Administración y Economía. Cap 3.

Levin y Rubin (2010). Estadística para Administración y Economía. Cap. 3.