mic sesión 4
TRANSCRIPT
MÉTODOS DE INVESTIGACIÓN CUANTITATIVA
Sesión 4
ESTADÍSTICA DESCRIPTIVA:Estadísticos Resúmenes
FÁTIMA PONCE 1
FÁTIMA PONCE 2
PUNTOS A TRATARSesión 3:
Estadística Descriptiva: Estadísticos Resúmenes.Medidas de tendencia central (media, mediana,
moda). Medidas de variabilidad o dispersión (varianza,
desviación estándar, coeficiente de variabilidad).Medidas de posición no central (percentiles, cuartiles,
diagrama de caja)
FÁTIMA PONCE 3
ESTADÍSTICA DESCRIPTIVA
Permite construir y analizar cuadros estadísticos y gráficos resúmenes, con el objetivo de resumir los datos, de manera que sean entendibles e interpretables con facilidad, a fin de que la información nos sirva para la toma de decisiones.
Aplicar e interpretar medidas numéricas que resumen los datos, como: Medidas de localización central: Media, mediana,
moda. Medidas de variabilidad: varianza, desviación estándar,
coeficiente de variabilidad.
FÁTIMA PONCE 4
Son medidas estadísticas numéricas que "resumen" la información de la "muestra" para poder tener así un mejor conocimiento de la población.
Estadística Descriptiva Sumaria
Tendencia Central (Posición)
Dispersión(Variación)
Sesgo
FÁTIMA PONCE 5
Estadística Descriptiva Sumaria
I. Medidas de:Tendencia o Localización Central
Media Mediana Moda
oSe refieren al punto medio de una distribución,oInforman de cómo están agrupados los datos.o¿Alrededor de qué valor se agrupan los datos?.
FÁTIMA PONCE 6
Estadística Descriptiva SumariaII. Medidas de:
Dispersión ó Variabilidad
Varianza Desviación Estándar
Coefic. de Variabilidad
Rango
oInforman de cuánto se alejan los datos del valor central.
III. Medidas de Forma de la distribución:o La asimetría (sesgo) y la curtosis.
IV. Medidas de Posición no central: o Más usadas son los Percentiles y Cuartiles.
FÁTIMA PONCE 7
LA MEDIA O VALOR PROMEDIO DE UNA VARIABLE
Media Muestral: Se tiene n observaciones en la muestra:
N X1 + X2 + X3 + … + XN Xi i=1
= ------------------------------- = ------ N N
n x1 + x2 + x3 + … + xn xi
_ i=1
X = ------------------------------- = -------- n n
Media Poblacional: Se tiene N observaciones en la población:
FÁTIMA PONCE 8
Suponga que se tiene una muestra de ingresos por ventas mensuales en miles de soles para 7 meses:
56, 67, 54, 45, 50, 48 y 65
LA MEDIA (O MEDIA ARITMÉTICA): EJEMPLO
La media muestral es:
_ 56 + 67 + 54 + 45 + 50 + 48 + 65X = ----------------------------------------------
7
385 = ------- = 55 m.S/. 7
FÁTIMA PONCE 9
Ventajas:Es un concepto familiar para la mayoría de personas.Cada conjunto de datos tiene una media que es única.Sirve para comparar entre varios conjuntos de datos
(comparación de medias).
Desventajas:Puede verse afectada por valores extremos que no son
representativos. En este caso mejor emplear la mediana.Si el conjunto de datos tiene un extremo abierto no se
puede calcular la media.
VENTAJAS Y DESVENTAJAS DE LA MEDIA
FÁTIMA PONCE 10
Suponga que en un curso tiene las siguientes notas:
MEDIA PONDERADA: EJEMPLO
Nota (X) Peso (W) XW 11 0.1 1.1 12 0.1 1.2 11 0.1 1.1 13 0.3 3.9 15 0.4 6.0 ------- ------- 1.0 13.3
Prácticas: 11, 12, 11 , c/práctica pesa 10% Examen parcial: 13 , pesa 30% Examen final: 15 , pesa 40%.
_ XWXW = ---------- W
_ 13.3XW = -------- = 13.3 1
¿Cuál es su nota final? (= promedio ponderado).
FÁTIMA PONCE 11
LA MEDIANA ó Media Posicional
Luego de ordenar los datos de menor a mayor: Es la observación equidistante de los extremos: un 50% de valores está debajo de ella y el otro 50% encima de ella en la ordenación de los datos.
No es afectada por valores extremos. Se puede hallar incluso cuando los datos son descripciones
cualitativas ordinales.
FÁTIMA PONCE 12
LA MEDIANA
Si el conjunto de datos tiene un número impar de observaciones la posición de la mediana es: (n+1)/2
Por ej: 30, 52, 40, 60, 100, la mediana es: 52.
Si es un número par de observaciones, la posición de la mediana saldrá partido (3.5 por ej.) por lo que se debe promediar los valores de la posición 3 y 4. Por ej: 35, 45, 52, 56, 67, 67, la mediana es 54.
FÁTIMA PONCE 13
Es el valor de la variable o la observación que ocurre con mayor frecuencia.
Si los datos son: 35, 45, 52, 56, 67, 67, la moda es 67.
No es afectada por valores extremos.
Puede no existir una moda.
Pueden haber varias modas: Si hay dos valores que se repiten más y con igual frecuencia será bimodal.
LA MODA
FÁTIMA PONCE 14
Moda: Categoría o
valor que tiene la mayor
frecuencia
Mediana: Categoría o valor que divide
al conjunto de datos en dos partes
iguales.
Media : Es la suma de todos sus
valores dividida entre el número de
sumandos
Medidas de Tendencia Central: Informan cómo están concentrados los datos
Distribución Normal: media=mediana= moda
x
50%50%
f(x)
FÁTIMA PONCE 15
La media, mediana o moda sólo revelan una parte de la información acerca de las características de los datos. Para aumentar nuestro entendimiento del patrón de los datos, se debe medir también su dispersión o variabilidad, porque:
1. Permite juzgar la confiabilidad de nuestra medida de tendencia central.
2. Medida de riesgo (variables financieras, calidad).
MEDIDAS DE VARIABILIDAD O DISPERSIÓN
FÁTIMA PONCE 16
rango = XMás grande Xmás pequeño
No toma en cuenta la forma en que están distribuidos los datos.
EL RANGO
Es la diferencia entre el más alto y el más pequeño delos valores observados:
FÁTIMA PONCE 17
VARIANZA Y DESVIACIÓN (en torno a su valor central)
DESVIACIÓN ESTÁNDAR
Poblacional: Muestral:
En la práctica no se emplea porque sus unidades están elevadas al cuadrado.
2
Poblacional: Muestral:
FÁTIMA PONCE 18
Si se tiene una muestra de ingresos por ventas mensuales en miles de soles para 7 meses: 56, 67, 54, 45, 50, 48 y 65
Se halló la media: 55.
LA VARIANZA Y DESVIACIÓN ESTANDAR: EJEMPLO
La varianza muestral es:
s2 =[(56-55)2+(67-55)2+(54-55)2+(45-55)2+(50-55)2+(48-55)2+ (65-55)2] / (7-1)
s2 = 420 / (7-1) = 70 miles de S/ al cuadrado
s = 70 = 8.37 miles de S/.
La desviación estándar muestral es:
FÁTIMA PONCE 19
COEFICIENTE DE VARIACIÓN
Desviación estándar es una medida absoluta de la dispersión que expresa la variación en las mismas unidades que los datos originales No puede ser la única base para la comparación de 2 distribuciones.
Se requiere de una medida relativa que proporcione una estimación de la magnitud de la desviación respecto a la magnitud de la media Coeficiente de Variación ó Coeficiente de Variabilidad (CV).
FÁTIMA PONCE 20
COEFICIENTE DE VARIACIÓNMide la dispersión relativa de los datos y se calcula
dividiendo la desviación estándar muestral (s) por la media y multiplicando el cociente por 100:
s CV = -------- * 100 % _ X
Compara la dispersión de dos o más grupos: A > valor de CV > heterogeneidad de los valores de la variable.
Permite comparar dispersiones a escalas distintas. Pero varia ante cambios de origen, por ello todos los valores deben ser positivos.
FÁTIMA PONCE 21
EJEMPLOSe dice que "Los economistas suelen tener mejores salarios
iniciales que los abogados". a) ¿Qué indican los datos muestrales acerca de la afirmación?:
b) ¿En cuál de las muestras existe mayor variabilidad en los sueldos?:
Rspta: CVAbogados=13.93% y CVEconomistas=16.79% Mayor variabilidad hay en los salarios de los economistas.
Abogado34.2 45 39.5 28.4 37.7 35.8 30.6 35.2 34.2 42.4
Economista33.5 57.1 49.7 40.2 44.2 45.2 47.8 49.9 53.9 61.2
FÁTIMA PONCE 22
¿CÓMO INTERPRETAR?Si tuviéramos información de las regiones del Perú con los
siguientes resultados para la variable: tasa de pobreza (se mide de 0 a 100%).
• Media = 41.5 Mediana = 39.2• Máximo= 77.2 Mínimo = 12.7• Desviación estándar= 19.8
Poco menos de la mitad de la población es considerada pobre. El 50% de la población se encuentra por debajo de 39.2% de tasa de pobreza.
La tasa de pobreza media es 41.5% con una fluctuación de los datos respecto a su media de 19.8%, o con una tendencia a variar por debajo o por encima de la media en 19.8%.
Al analizar Max y Min se observa polos muy diferenciados: Existe desigualdad.
FÁTIMA PONCE 23
MEDIA Y DESVIACIÓN
ESTANDAR DE DATOS AGRUPADOS
FÁTIMA PONCE 24
Si se tiene el número de vehículos vendidos por rango de precios:
MEDIA DE DATOS AGRUPADOS
Precio de venta (miles de $) Frecuencia
10 a 13 814 a 17 2318 a 21 1722 a 25 1826 a 29 830 a 33 434 a 37 138 a 41 1
Total 80
Estime la media del precio de venta de los vehículos a partir de la información de distribución de frecuencias dada (datos agrupados).
FÁTIMA PONCE 25
¿Cómo estimar la media aritmética de los datos agrupados? :
1. Calcular el punto medio de cada clase en la muestra (Mi).
2. Multiplicar cada punto medio (Mi) por la frecuencia de las observaciones de dicha clase (fi).
3. Sumar todos los resultados de estos productos.4. Dividir la suma entre el número total de
observaciones de la muestra (n).
MEDIA DE DATOS AGRUPADOS
_ (fi*Mi) x = ------------- n
FÁTIMA PONCE 26
LA MEDIA DE DATOS AGRUPADOS: _ Media muestral de datos agrupados = X = (fi *Mi) / n
Precio de venta (miles de $)
Frecuencia (fi) fiMi
10 a 13 =(10+13)/2= 11.5 8 9214 a 17 =(14+17)/2= 15.5 23 356.518 a 21 =(18+21)/2= 19.5 17 331.522 a 25 =(22+25)/2= 23.5 18 42326 a 29 =(26+29)/2= 27.5 8 22030 a 33 =(30+33)/2= 31.5 4 12634 a 37 =(34+37)/2= 35.5 1 35.538 a 41 =(38+41)/2= 39.5 1 39.5
Total 80 1624
Punto medio de clase (Mi)
Media muestral de Datos Agrup= 1624/80= 20.3 miles de $
FÁTIMA PONCE 27
LA VARIANZA DE DATOS AGRUPADOS
¿Cómo calcular la varianza de los datos agrupados si se tiene una distribución de frecuencias y no se conoce el valor individual de cada observación?.
A nivel de la Población: fi(Mi-)2
2 = -----------------
N fi es la frecuencia de cada una de las clases. Mi es el punto medio de cada clase A nivel de la muestra:
_ [fi(Mi-X)2] s2 = ---------------- (n-1)
FÁTIMA PONCE 28
Estime la varianza y desv estandar del precio de venta de los vehículos a partir de la información de distribución de frecuencias siguiente. Recuerde que su media estimada fue 20.3 miles de $:
LA VARIANZA DE DATOS AGRUPADOS: EJERCICIO 3
Precio de venta (miles de $) Frecuencia
10 a 13 814 a 17 2318 a 21 1722 a 25 1826 a 29 830 a 33 434 a 37 138 a 41 1
Total 80
FÁTIMA PONCE 29
LA VARIANZA DE DATOS AGRUPADOS: EJERCICIO 3
s2=[fi(Mi - 20.3)2]/(n-1)
s = 36.21 = 6.02 miles de $
=2860.8/79=36.21 miles $ al cuadrado
Precio de venta (miles de $)
Punto medio de clase (Mi)
Frecuencia (fi)
Desviación (Mi - Xbarra)
Cuadrado de la Desviación
(Mi - Xbarra)2
fi(Mi-Xbarra)2
10 a 13 11.5 8 -8.80 77.44 619.5214 a 17 15.5 23 -4.80 23.04 529.9218 a 21 19.5 17 -0.80 0.64 10.8822 a 25 23.5 18 3.20 10.24 184.3226 a 29 27.5 8 7.20 51.84 414.7230 a 33 31.5 4 11.20 125.44 501.7634 a 37 35.5 1 15.20 231.04 231.0438 a 41 39.5 1 19.20 368.64 368.64
Total 80 2860.80
FÁTIMA PONCE 30
MEDIDAS DE LA FORMA DE LA DISTRIBUCIÓN
FÁTIMA PONCE 31
El skewness mide la simetría/asimetría de la distribución de los datos. skewness= 0: distribución es simétrica
La curtosis: determina el grado de concentración que presentan los valores en la región central de la distribución. Mide qué tan puntiaguda es la distribución.
MEDIDAS DE LA FORMA DE LA DISTRIBUCIÓN
FÁTIMA PONCE 32
CURVAS DE DISTRIBUCIÓN ASIMÉTRICAS
Asimétrica Positiva Distribución asimétrica con cola a la derecha.
Asimétrica Negativa Distribución asimétrica con cola a la izquierda.
En estos casos emplear la mediana como medida de localización central.
FÁTIMA PONCE 33
MEDIDAS DE FORMA DE LA DISTRIBUCIÓN (Apuntamiento o
Curtosis) El apuntamiento expresa el grado en que una distribución
acumula casos en sus colas en comparación con los casos acumulados en las colas de una distribución normal cuya dispersión sea equivalente.
Concentración en colas = probabilidad de valores extremos.
Cuarto momento: E(X - )4
CURTOSIS mide la empinadez de la distribución.
Si Curtosis = 3: distribución normal. Si Curtosis > 3: Colas con alta concentración de datos
(leptocúrtica) .
FÁTIMA PONCE 34
Cuando hay mucha asimetría en los datos (valores extremos desbalanceados), como las distribuciones de ingresos o cuando deseamos ubicar el lugar que ocupa un valor en particular se emplean Estadísticos de posición (cuantiles).Son valores de la variable que dividen la muestra de datos en partes de igual porcentaje. Permiten conocer otros puntos característicos de la distribución de la variable que no son los valores centrales. La manera más sencilla de ubicar el lugar de alguien en relación a una distribución es indicar el % de los datos que está debajo de ese valor.
MEDIDAS DE POSICIÓN NO CENTRAL
FÁTIMA PONCE 35
Los cuantiles se usan por grupos que dividen la distribución en partes iguales, es decir, intervalos que comprenden la misma proporción de valores.
Los cuantiles más usados son:Los Cuartiles: agrupan 25% cada uno (son 3). Los Quintiles: agrupan 20% cada uno (son 4).Los Deciles: agrupan 10% cada uno (son 9).Los Percentiles (son 99).
MEDIDAS DE POSICIÓN NO CENTRAL
FÁTIMA PONCE 36
Dividen a la distribución en cien partes iguales.El percentil p es un valor tal que por lo menos p% de las observaciones son ≤ que este valor y por lo menos (100 – p)% de las observaciones son ≥ que ese valor.
Ejemplo: Las notas en los exámenes de admisión se suelen dar en términos de percentiles. Decir: “Un estudiante obtiene 54 puntos en la parte verbal del examen” es vago, no compara con los demás, pero decir:
“Esta nota corresponde al percentil 70 70% de los estudiantes obtuvieron una nota menor a la de dicho estudiante.
PERCENTIL
FÁTIMA PONCE 37
Si se divide los datos en cuatro partes c/u contiene el 25% de las observaciones. Los puntos de división son cuartiles: Q1, Q2, Q3 .
CUARTIL
FÁTIMA PONCE 38
MEDIDAS DE POSICIÓN NO CENTRAL
1er Cuartil 2do Cuartil 3er Cuartil
P25 P50 P75
FÁTIMA PONCE 39
RANGO INTERCUARTIL
Es la medida de dispersión que acompaña a la mediana cuando se la emplea como medida resumen de los datos debido a que la media no seria representativa.
Es el rango en que se encuentra el 50% central de los datos.
No es afectado por los valores extremos.
RIC = Q3 – Q1
50%
min Q1 Q3 máx
FÁTIMA PONCE 40
BOX-PLOT ó DIAGRAMA DE CAJA
Vincula los conceptos de mediana, cuartiles, valor máximo y valor mínimo.
Es muy útil para resumir variables continuas.
Resultan más apropiados para representar variables que presenten una gran desviación de la distribución normal, resultan además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.
FÁTIMA PONCE 41
BOX-PLOT ó DIAGRAMA DE CAJA
Máximo
Mínimo
Q3
Mediana Q1
Edad
FÁTIMA PONCE 42
Medida de Localización
Central
Medida de Dispersión
Uso en Distribuciones
Ventaja Desventaja
Media µ si población_x si muestra
Desviación Estándar si poblacións si muestra
Simétricas(media=mediana=moda)
Buenas propiedades. Medida familiar empleada por todos.
Se ve afectada por valores extremos.
Mediana
Rango Sesgadas sin valores extremos
Mediana no se ve afectada por valores extremos.
El rango se ve afectado por valores extremos.
Rango intercuartil (RI)RI= Q3 – Q1
Sesgadas con valores extremos
Mediana y RI no son afectados por valores extremos.
RI no es muy conocido.
MEDIDAS USADAS PARA RESUMIR LOS DATOS
FÁTIMA PONCE 43
BIBLIOGRAFIA
Anderson, D., Sweeney, D. y Williams T. (2008). Estadística para Administración y Economía. Cap 3.
Levin y Rubin (2010). Estadística para Administración y Economía. Cap. 3.