Download - 1_EstadisticaDescriptivaFII
Estadística y Probabilidades
2015-1
ESTADÍSTICA DESCRIPTIVA
Estadística Descriptiva e Inferencial. Manuel Córdova. (2003). 5ta ed.
Capítulos: 1; 2 y 3
RR 02640-R-2011
Fecha Evento
Entrega del tema Grupal: 1 de abril
30-abr Práctica 1
EAPII Examen parcial
25-jun Práctica 2
EAPII Examen final
Rol de pruebas 2015-I
Entrega física y remisión a campus
trabajo Grupal: 7 mayo
Evaluación del curso
• Laboratorio (L): 60 % asistencia al Laboratorio e informes de tareas más 40% por el trabajo grupal (Excel y SPSS). Ver ejemplo de informe de tareas.
• Dos prácticas. No se elimina ninguna.
• PP = (P1 + P2 + Bonificaciones) / 2
• En las prácticas y exámenes se evaluará todo lo tratado en el curso y solo se permitirá el uso de fórmulas y de tablas de distribución, además toda respuesta debe estar interpretada en función a los datos del problema. Faltas
ortográficas descontarán puntos (aiga, osea, pediorico, biene hacer, etcétera).
• Promedio final = (L + PP + EX1 + EX2) / 4
• En Campus_Virtual FII figuran prácticas y exámenes con solucionarios de ciclos pasados.
Imagen popular de la estadística:
"Existen medias mentiras, mentiras y estadísticas".
Dos significados:
(1) Colección de datos numéricos (una estadística).
Deuda nacional de EE. UU. US$14,56 billones (B), equivalente a: darle a cada peruano US$500 000 o pagar 4 850 meses (400 años) las importaciones peruanas totales.
Según el Instituto de Investigación Hurun en su Informe de Riqueza Hurun 2011, China tiene 960 000 millonarios con un patrimonio personal de millón y medio de $ o más, sobre un total de 1 400 millones de habitantes. Hay 60 000 billonarios. Compran artículos de lujo.
(2) Ciencia: obtener regularidades de fenómenos de masas (la estadística).
Consumo de pan por persona al año: 96 k en Chile, 28 k en el Perú
Fuente: Publimetro, Año 1Edición 40, 17-10-2011, p2.)
Consumo per cápita anual de helados: 6,5 l en Chile. 1,4 l en el Perú.
Consumo per cápita anual de café orgánico en Perú 550 g, en EE.UU.
más de 6 k (Fuente: El Comercio, Suplemento Mi Empresa, 14-10-2012)
Las primas de seguro en el Perú representan 1,5% del PBI. En Colombia
y Chile 2,5% y 4% de sus respectivos PBI.
Teletón 2013: En Perú se recaudó US$1,4 millones, en Chile US$65
millones (con mucho menos necesidades), Guatemala US$3,4 millones
(país mucho más pequeño que Perú)
Sector farmacéutico: Formato counter (40-80 m2); formato autoservicios
(81-120 m2)
¿Saturación de centros comerciales?
Colombia: El consumidor cada vez quiere más servicios en una misma
ubicación. En este sentido, hay aún espacio para crecer en Colombia, donde
–por lo demás– menos del 20% de las ventas de retail se hace en centros
comerciales versus un 50% de lo que sucede en países más desarrollados.
Al analizar la penetración de centros comerciales en el país, medida en
términos de metros cuadrados por habitante, el número de metros
comerciales es inferior a países como Chile y Argentina.
Perú: Baja penetración, 30% en Lima y tan solo 15% en provincias. En
Santiago de Chile y Sao Paulo (80%).
Un centro comercial es una construcción que consta de uno o varios
edificios, por lo general de gran tamaño, que albergan locales y oficinas
comerciales aglutinados en un espacio determinado concentrando mayor
cantidad de clientes potenciales dentro del recinto. Formatos:
Fashion Mall, Community Center, Power Center, Town Center, Online,
LifeStyle Center, Strip Mall, Mall.
Curiosidades del cabello
- Número aproximado de cabellos en una cabeza: 130 000.
- Una persona pelirroja tendrá unos 90 000 cabellos.
- Una persona con pelo negro o muy oscuro tendrá cerca de 130 000
cabellos.
- Una persona con el pelo rubio puede llegar a tener hasta 150 000
cabellos.
- Peso máximo que puede soportar un cabello: unos 100 gr.
- Un cabello con problemas y quebradizo aguantaría unos 30 gr de peso
antes de quebrarse.
- Diámetro medio del cabello: 70 micras.
- Diámetro de un cabello húmedo: 80 micras.
- Largo máximo (media) 60 cm.
- Cabello más largo del que se tiene constancia: 125 cm.
- Juntando todos los cabellos uno detrás de otro cubriríamos una
distancia de unos 20 km.
- Si juntáramos todos los cabellos y suspendiéramos de el un peso,
juntos podrían soportar un peso de más 7 tn.
- Un adulto puede llegar a tener en su cabeza más de 4 millones de
folículos pilosos.
- El número de folículos pilosos alcanza su número máximo a los 20
años, luego empieza a descender.
- Un adulto de 30 años tiene más de 450 folículos pilosos por cm2.
- El cabello crece 20 cm por año, más rápido en verano y en la noche
que en invierno o durante el día.
- Un cabello crece cerca de 1,5 cm cada mes.
- Un cabello crece medio mm diario.
- La vida media de un cabello es de 5 años.
- Un adulto normal pierde unos 100 cabellos diarios.
- Se llama cabello lo que tenemos en la cabeza.
- Al del resto del cuerpo se le llama vello corporal.
- Las primeras referencias a un cabello teñido se encuentran
dibujadas en grutas y cavernas, se usaba distintos barros para
camuflarse.
- El color del cabello depende de la melanina. La cantidad de
melanina en nuestro cuerpo viene determinada genéticamente.
- Existen estudios que indican que las personas con mayor
coeficiente intelectual presentan porcentajes superiores al normal
de zinc y de cobre en el cabello.
-El cabello esta permanentemente creciendo.
- El cabello crece más deprisa durante la noche.
- En el antiguo Egipto los sacerdotes se arrancaban cada cabello y
cada pelo, incluido cejas y pestañas.
-Fuente: http://www.color-es.net/color-y-salud/curiosidades-del-
color-del-cabello.html. Fecha de visita 13-3-2015
Si se compara el cabello europeo, asiático o africano, se observa que no
tienen las mismas propiedades biológicas ni físicas:
- Diámetro: los cabellos más anchos son los chinos.
- Sección transversal: circular para el asiático, elíptica para el africano y oval
para el europeo.
- Forma: liso en Asia, muy ensortijado en el continente africano, con ondas
en la fibra.
- Resistencia a la rotura: los más fuertes se encuentran en Asia y los más
frágiles en África.
- Suavidad y brillo son características más comunes en el cabello europeo y
asiático.
- En biología, es distinta la densidad de cabellos por centímetro cuadrado en
el cuero cabelludo; 226 para el cabello europeo, 175 para el asiático y 161
para el africano. La velocidad de crecimiento también varía: el cabello
africano crece más despacio que el europeo, que a su vez crece más despacio
que el asiático.
- Las propiedades físicas y el comportamiento biológico están íntimamente
ligados, y todo ello está siendo estudiado por los científicos de L‟Oréal para
desarrollar nuevos productos.
Definición de Estadística
La Estadística es la ciencia de la
• sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de
• deducir las leyes (Razonamiento deductivo: teoría de probabilidad) que rigen esos fenómenos.
• y poder hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones (Razonamiento inductivo).
Estadística Descriptiva
RECOLECCIÓN
DE LOS
DATOS
ANÁLISIS
DE LOS
DATOS
PRESENTACIÓN
DE LOS
DATOS
ANÁLISIS
DESCRIPTIVO
TABLAS,
GRÁFICOS
Experimento
Es un estudio en el que se manipulan intencionalmente una o más variables independientes (supuestas causas - antecedentes), para analizar las consecuencias que la manipulación tiene sobre una o más variables dependientes (supuestos efectos – consecuentes), dentro de una situación de control para el investigador.
Determina si la presencia / ausencia de una variable afecta a otra. Determina la magnitud de la influencia. Debe tener control sobre el efecto de variables extrañas.
NOTACIÓN CIENTÍFICA
• Utilizando la notación científica el número se escribe como un producto de dos partes: un número comprendido entre 1 y 10 y una potencia de 10.
• El número se representa con una cifra entera seguido de todas las cifras significativas y multiplicado por la potencia de 10. La potencia de diez recibe el nombre de exponente.
NOTACION CIENTIFICA
• El exponente positivo de la potencia de diez indica el número de lugares que la coma decimal se debe mover hacia la derecha si expresamos el número sin la potencia de diez. Un exponente negativo indica que se moverá hacia la izquierda.
• Ejemplo: 42581000000 equivale a _____________________ con 3 decimales
0,042581 equivale a _____________________ con 2 decimales
Notación científica en excel
8.88887E+11
8.89E-01
Cifras significativas
Es cualquier dígito que denota la magnitud de la
cantidad, según el lugar que ocupa en un número.
a) Cualquier dígito diferente de cero es significativo.
1234,56 6 cifras significativas
b) Ceros entre dígitos distintos de cero son
significativos.
1002,5 5 cifras significativas
c) Ceros a la izquierda del primer dígito distinto de
cero no son significativos.
000456 3 cifras significativas
0,0056 2 cifras significativas
Cifras significativas (...)
d) Si el número es mayor que uno (1), todos
los ceros a la derecha del punto decimal son
significativos.
457,12 5 cifras significativas
400,00 5 cifras significativas
e) Si el número es menor que uno, entonces
únicamente los ceros que están al final del
número y entre los dígitos distintos de cero
son significativos.
0,01020 4 cifras significativas
En los números enteros, los ceros situados después de un digito distinto de
cero, pueden ser o no cifras significativas.
Por ejemplo, 600 kg puede tener una cifra significativa (el número 6), tal vez
dos (60), o puede tener los tres (600).
Para saber en este caso cual es el número correcto de cifras significativas
necesitamos:
Más datos o más información acerca del procedimiento con que se obtuvo la
medida, por ejemplo la división de escala del instrumento de medición.
O bien, podemos utilizar la notación científica y expresarla así, por ejemplo:
6x 102 (teniendo solo una cifra significativa)
6,0 x102 (teniendo dos cifras significativas)
6,00x102 (teniendo tres cifras significativas)
Conclusión:
La cantidad de cifras significativas que se obtiene como resultado de una
medición, es la cantidad de dígitos que se conocen con cierto grado de
confianza.
Si mejoramos la sensibilidad del equipo de medición, aumentará la cantidad de
cifras significativas.
Cifras significativas (...)
Cifras significativas (...)
Consideraciones para el redondeo
a) Si el primer dígito a truncar es mayor
que cinco, incrementar el dígito
precedente en 1.
Redondear 1,61562 a cinco cifras
significativas
Rpta: 1,6156
Consideraciones para el redondeo
b) Si el primer dígito a truncar es cinco y hay
dígitos diferentes de cero después del cinco,
incrementa el dígito precedente en 1.
Redondear 1,61562 a 3 cifras
significativas Rpta: 1,62
Redondear 1,62500003 a 3 cifras
significativas Rpta: 1,63
c) Si el primer dígito a truncar es cinco y hay
únicamente ceros después del cinco, redondee
al número par.
Redondear 1,655000 a 3 cifras
significativas Rpta: 1,66
Redondear 1,625000 a 3 cifras
significativas Rpta: 1,62
Cifras significativas (...)
3 400 = 3,400·103
Significa que si 3,400·103 lo
escribimos "normal"(sin notación
científica), la coma debe avanzar 3
lugares a la derecha, 3400.
0,00340 = 3,4·10-3
0,00340 tiene dos cifras
significativas. El exponente negativo
indica que se debe mover la coma
tres lugares a la izquierda.
120 000 000 =
1,2·108
120 000 000 puede tener 2;3 … 9
cifras significativas y si lo escribi-
mos como 1,2·108 tiene 2 c. s.
Cifras significativas (...)
Expresar las siguientes cantidades en notación científica
con tres cifras significativas:
– 0,000059847 mg ______________________
– 203,6589 pulg ______________________
– 289 360 000 km ______________________
– 0,005474 mm ______________________
Cifras significativas (...)
Población y muestra • Población (‘population’) es el conjunto sobre el que estamos
interesados en obtener conclusiones (hacer inferencia). Normalmente es demasiado grande para poder abarcarlo. Tipos: Finita e Infinita.
Es la recolección de todos los individuos, objetos u
observaciones que poseen al menos una característica
común. Ejemplos:
– Alumnos de la Facultad.
– Clientes con tarjeta Bonus.
– Pacientes que se atienden en un consultorio.
– Departamentos construidos con el Programa Mi Vivienda
• Muestra („sample’) es un subconjunto de la población al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones)
– Debería ser “representativo”
– Está formado por miembros “seleccionados” de la población (individuos, unidades experimentales).
Tipos: Probabilística y No Probabilística
VARIABLES
Las variables son aquellas dimensiones o aspectos
del fenómeno en cuestión susceptibles de ser
indagadas a través de los métodos de investigación
pertinentes.
Todas las variables tienen una escala de registro, es
decir, una característica medible (Talla, peso,
coeficiente de inteligencia, etc.) o una cualidad que
es no medible (nacionalidad, sexo, etc). Las
variables se clasifican según su naturaleza, el orden
de observación, el número de variables, la escala de
medición, amplitud de las unidades de medición y su
relación entre ellas.
Según su naturaleza
• Variable no métrica, cualitativa, nominal o categórica Se define cuando expresa una cualidad, característica o atributo, tienen
carácter cualitativo, es decir, sus datos se expresan mediante una palabra, como por ejemplo: Los colores, profesiones, causa de accidentes, etc. También se llaman estadísticas o de atributos.
• Variable métrica, cardinal o cuantitativa Cuando el valor de la variable se expresa en una cantidad, y el dato o
valor puede ser producto de la operación de contar o medir, por ejemplo: Ingresos, número de hijos, producción, desempleo, etc., a la vez se subdividen en discretas y continuas.
– 1. Variable discreta
Cuando el valor de la variable resulta de la actividad de contar, su valor esta representado por los números naturales. Por ejemplo: trabajadores por una empresa, hijos de una o varias familias, habitantes, etc.
– 2. Variable continua
Cuando la variable se puede medir o comparar con una unidad de medida. Las características de estas variables tienen un valor dentro de un rango o recorrido y son expresadas dentro de cualquier número real, como ejemplo: Peso, estatura, tiempo de servicios, sueldos, etc.
Escalas de medición
Conjunto de los posibles valores que una cierta
variable puede tomar.
Se tienen dos grandes tipos de escalas:
a) Escala de medidas de la información (nivel de
medidas) y
b) Escala de medidas de actitudes
Según su forma de medición
Escalas de medición son una sucesión de medidas que permiten organizar datos en
orden jerárquico. Las escalas de medición, pueden ser clasificadas de acuerdo a una
degradación de las características de las variables. Estas escalas son: nominales,
ordinales, intervalares o racionales. Según pasa de una escala a otra el atributo o la
cualidad aumenta. Las escalas de medición ofrecen información sobre la clasificación
de variables discretas o continuas, también más conocidas como escalas grandes o
pequeñas
1. Variables nominales (son cualitativas)
Se da esta variable por categorías, sin ningún orden entre ellas, se distribuye la
unidad de análisis en dos o más categorías, como por ejemplo, sexo, estado civil, lugar
de nacimiento, etc.
2. Variables ordinales (son cualitativas)
En estas variables si se requiere de orden en sus categorías, se refieren a
jerarquías, donde las categorías ofrecen una posición de orden, pero no permiten
cuantificar la distancia entre una categoría y otra, por ejemplo: ciclo académico.
EJEMPLO DE ESCALA NOMINAL
Si nos referimos a la bolsa de valores, tenemos que las acciones de las
empresas se pueden negociar en las bolsas NYSE, AMEX y OTC. Aquí
observamos que la escala de medición para la variable bolsa es nominal
porque NYSE, AMEX y OTC, son las etiquetas que se utilizan para
identificar dónde se negocian las acciones de la compañía. Con el fin de
facilitar la colección de datos prepararlos para que sean capturados en
una base de datos de computadora, podríamos usar una clave numérica
donde el número 1 denote la bolsa de NYSE, el 2 la AMEX y el 3 OTC
(ventanilla). En este caso, los valores numéricos 1, 2 y 3 son las
etiquetas que sirven para identificar el lugar donde se negocian las
acciones. La escala de medición es nominal aun cuando los datos son
mostrados como valores numéricos.
EJEMPLO DE ESCALA ORDINAL
Save Our Souls S.A. envía a sus clientes un
cuestionario diseñado para obtener datos acerca de la
calidad del servicio de reparación automotriz. Cada
cliente asigna una evaluación para el servicio de
reparación: excelente, bueno o malo. Debido a que los
datos obtenidos son las etiquetas: excelente, bueno o
malo, los datos tienen las propiedades de datos
nominales. Además, los datos se clasifican, u ordenan,
respecto a la calidad del servicio. Los datos registrados
como excelente indican el mejor servicio, seguidos por
los buenos y después los malos. Por tanto, la escala de
medición de la variable Calidad del servicio de SOS es
ordinal.
Observa que los datos ordinales también se
pueden registrar por medio de un código
numérico. Por ejemplo, podríamos usar el 1
para excelente, 2 para bueno y 3 para malo con
el fin de mantener las propiedades de los datos
ordinales. Así, los datos para una escala ordinal
podrían ser numéricos o no numéricos.
EJEMPLO DE ESCALA ORDINAL (...)
Según su forma de medición
3. Variables de intervalo (intervalar) Son las que tienen a la vez orden y grados
de distancias iguales entre las diferentes categorías, esto es convencional, pueden asumir valores negativos, como por ejemplo la temperatura, coeficiente de inteligencia, etc.
4. Variables de razón (racionales) Estas variables tienen orden, distancia y
origen único y natural, el valor se expresa en un número real, el cero significa ausencia de la variable, como la edad, el peso, número de hijos, etc.
EJEMPLO DE ESCALA DE INTERVALO
Las puntuaciones de la Prueba de Aptitud Escolar (SAT, por
sus siglas en inglés) son un ejemplo de datos con escala de
intervalo. Por ejemplo, tres estudiantes con puntuaciones SAT
de 1120, 1050 y 970 pueden ser clasificados u ordenados
desde el mejor desempeño al más deficiente. Además, las
diferencias entre las puntuaciones son importantes. Por
ejemplo, el estudiante 1 obtuvo 1120 – 1050 = 70 puntos más
que el estudiante 2, en tanto que el estudiante 2 logró obtener
1050 – 970 = 80 puntos más que el estudiante 3.
EJEMPLO DE ESCALA DE RAZÓN
Considera el costo de un automóvil. Un valor cero
indicaría que el automóvil no cuesta y es gratis.
Además, si comparamos el costo de US$3 000 para
un automóvil con el costo de US$1 500 para un
segundo automóvil, la propiedad de razón deja ver
que el primer automóvil es 3000/1500 = 2 veces, o
el doble, el costo del segundo automóvil.
Escala de medidas de actitudes • Actitud: predisposición aprendida que dirige la reacción ante un
objeto idea u organización de manera neutral, positiva o
negativa.
• Se tienen los siguientes tipos:
– Escalas no comparativas. Las personas entrevistadas puntúan
el objeto o enunciado sin tener en cuenta otros, ni tampoco,
se establecen preferencias entre alternativas. Clases:
• Escala de Likert llamada también escala de calificaciones
sumadas
• Escala de diferencial semántico
• Escala de Stapel
• Etcétera.
Escalamiento tipo Likert
•Consiste en un conjunto de ítems
presentados en forma de afirmaciones o
juicios, ante los cuales se pide la reacción de
los sujetos. Es decir, se presenta cada
afirmación y se pide al sujeto que externe su
reacción eligiendo uno de los cinco puntos de
la escala. A cada punto de la escala se le
asigna un valor, de esa manera se podrá
obtener una puntuación total por sujeto,
sumando las puntuaciones obtenidas en la
relación con todas las afirmaciones
Ejemplo:
•Objeto de actitud medido: El voto
•Afirmación: “Votar es una obligación de
todo ciudadano responsable”
FalsoCompletamente
falso
"Afirmación"
Completamente
verdaderoVerdadero Ni falso, ni verdadero
En desacuerdoTotalmente en
desacuerdo
"Afirmación"
Definitivamente
si
Probablemente
siIndeciso
Probablemente
no
Definitivamente
no
"Afirmación"
Totalmente de
acuerdoDe acuerdo Neutral
En desacuerdoMuy en
desacuerdo
Ni de acuerdo, ni en
desacuerdo
"Afirmación"
Muy de acuerdo De acuerdo
Diferencial Semántico
Consiste en una serie de adjetivos extremos
que califican al objeto de actitud con un
conjunto de adjetivos bipolares; entre cada
par de adjetivos, se presentan varias opciones
y el sujeto selecciona aquella que en mayor
medida refleje su actitud.
Diferencial Semántico
Ejemplo:
•Objeto de actitud: Candidato “A”
Justo__:__:__:__:__:__:__Injusto
•Debe observarse que los adjetivos son “extremos” y que entre ello hay siete opciones de respuesta. Cada sujeto califica al candidato “A” en términos de esta escala de adjetivos bipolares.
Escala de Stapel
Técnica de autoinforme para la medición de actitudes en que
se pide a los sujetos que indiquen el grado de exactitud con
que cada una de diversas afirmaciones describe al objeto
de interés. Ejemplo:
Seleccione un número positivo para palabras que en su
opinión, describa con precisión al objeto (por ejemplo
servicio administrativo de la Facultad). Cuanto más
exacta piense que es la descripción, tanto mayor será el
número positivo que debe elegir. De igual modo,
seleccione un número negativo para las expresiones que
en su opinión no la describa exactamente.
-5 -4 … +1 +5
El trato es cortés.
El horario es conveniente.
Escala de medidas de actitudes
– Escalas comparativas, se le pide al sujeto que
juzgue cada atributo en comparación directa
con los demás que se evalúan. Se tienen los
siguientes métodos:
• Escala de comparación par
• Escala de orden
• Escala de suma constante
• Etcétera
• Es buena idea codificar las variables como números para poder procesarlas con facilidad en un ordenador.
• Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos. – Sexo (Cualit: Códigos arbitrarios)
• 1 = Hombre
• 2 = Mujer
– Raza (Cualit: Códigos arbitrarios) • 1 = Blanca
• 2 = Negra,...
– Felicidad Ordinal: Respetar un orden al codificar.
• 1 = Muy feliz
• 2 = Bastante feliz
• 3 = No demasiado feliz
• Se pueden asignar códigos a respuestas especiales como
• 0 = No sabe
• 99 = No contesta...
• Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos („missing data‟)
Excel; SPSS; SAS, Minitab, Eviews, etc
Tabla de distribución de frecuencia
Es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia.
– Frecuencias absolutas: Contabilizan el número de individuos
de cada modalidad (clase o categoría).
– Frecuencias relativas (porcentajes unitarios): Ídem a frecuencia absoluta, pero dividido por el total de datos (N).
– Frecuencias acumuladas absolutas y relativas: Acumulan las
frecuencias absolutas y relativas. Son especialmente útiles
para calcular cuantiles.
Tabla de distribución de frecuencias absolutas y relativas
• La región de
Arequipa convocó a
un referendo sobre la
aprobación de la Ley
del Talión.
• Completa la tabla de
distribución de
frecuencias absolutas
y relativas asumiendo
los valores resultantes
que desees.
OPCIÓN
VOTOS
(000)
ni
Frecuencia
relativa %
fi = ni/N
SI
TOTAL (N) 1 200
REGLAS PARA ELABORAR DISTRIBUCIONES DE
FRECUENCIAEN INTERVALOS DE CLASES
IGUALES
1) Decidir el número de clases (m) a considerar:
m = N; m = 1+ 3,3 log N (Ley de Sturges); m = de 5 a 15
2) Determinar el recorrido o rango de los datos y la amplitud
)( del recorrido.
3) Determinar la amplitud (c) o longitud de los intervalos de clase.
mc
4) Determinar los límites de cada clase i: Y‟i-1 (Límite inferior de
la clase i) y Y‟i (Límite superior de la clase i)
Y‟i = Y‟i-1 + c
5) Determinar las marcas de clase ()
6) Hallar la frecuencias absolutas de clase (ni o fi)
7) Hallar las frecuencias relativas (hi). Función de probabilidad
Ni
f
ih
8) Hallar las frecuencias relativas acumuladas crecientes o
menor que, (Hi). Función de distribución de probabilidad.
i
jjhiH
1
9) Hallar las frecuencias relativas acumuladas decrecientes o
mayor o igual que, ( *iH )
m
ij jh
iH*
REGLAS PARA ELABORAR DISTRIBUCIONES DE FRECUENCIA (...)
Ejemplo
El contenido de nicotina para producir cáncer pulmonar, en miligramos, para una cajetilla de 40 cigarrillos marca TMata se registraron de la siguiente manera:
1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.24
1.58 2.03 1.7 2.17 2.55 2.11 1.86 1.9 1.68 1.51
1.64 0.72 1.69 1.85 1.82 1.79 2.46 1.88 2.08 1.67
1.34 1.93 1.4 1.64 2.09 1.75 1.63 2.37 1.75 1.69
Construir la tabla de distribución de frecuencias. Propuesta de solución: 1º paso: calculamos la longitud (L) o recorrido total (algunos autores recomiendan añadir la unidad)
L = 2,55 – 0,72 = 1,83 2º paso: calculamos el número de intervalos (m)
m = 1 + 3,3 * log 40 = 6,28 Truncando m = 6 (otros autores recomiendan redondear a 7) 3º paso: calculamos la amplitud o anchura del intervalo (A).
A = 1,83/6 = 0,305
Ejemplo de la nicotina (...)
4º paso: elaboramos la tabla de distribución de frecuencias. Completa la 5ta clase
Clase i fi hi hi% Hi Hi% Hi* Hi*%
[0.72-1.025> 2 0.05 5.0% 0.05 5.0% 1 100.0%
[1.025-1.33> 2 0.05 5.0% 0.1 10.0% 0.95 95.0%
[1.33-1.635> 6 0.15 15.0% 0.25 25.0% 0.9 90.0%
[1.635-1.94> 19 0.475 47.5% 0.725 72.5% 0.75 75.0%
[1.94-2.245> 6
[2.245-2.55] 5 1 0.125
Donde: [ ( o < ) incluye a… y > ( o [ ) no incluye a…
i: Representa la marca de clase
Ejercicio. Un estudio de la empresa Oh Margot S. A., encontró las distancias que recorrerían sus trabajadores desde su respectivo hogar a su lugar de trabajo.
a) ¿Cuál es la probabilidad que un trabajador seleccionado al azar tenga que viajar 11 km o más para ir al trabajo?
b) ¿Cuál es la probabilidad de que un trabajador elegido al azar tenga que viajar entre 6 y15 km para ir al trabajo?
A B C D E F
≤ 5 6-10 11-15 16-20 21-30 ≥ 31
Nro de km recorridos casa-trabajo
No, no siempre debe ser del mismo ancho, algunas
situaciones obligan a usar intervalos de distinto ancho. Por
ejemplo cuando se trata de variables como “Salarios”, a
menudo es conveniente usar ancho distinto, pues para
salarios bajos, pequeñas diferencias son importantes, pero las
mismas no lo son para salarios altos. Así por ejemplo para un
salario de S/.300; 30 unidades monetarias representa el 10%,
sin embargo para salarios de S/.6 000, esta diferencia deja de
ser importante. En este caso sería recomendable, usar
intervalos cortos al principio de la escala e ir aumentando su
tamaño.
¿Tienen que ser todos los intervalos de clase
necesariamente del mismo ancho?
Clases de desigual tamaño. Los intervalos de clase que son desiguales no son
frecuentes en el análisis estadístico, la utilización de los mismos se debe evitar;
sin embargo, en algunas investigaciones es indispensable su utilización; tal es el
caso de las investigaciones que tienen como propósito particular analizar valores
que varían en un amplio recorrido de la variable. Cuando se utiliza este tipo de
clase de los intervalos de clase deberían ser incrementados de una forma
ordenada, de ser posible. Este tipo de clases se utiliza algunas veces para
reportar datos relacionados con valuaciones de activos o ingresos personales.
La siguiente TDF contiene los ingresos mensuales en US$ de los
futbolistas mejor pagados en el mundial.
Clase Frecuencia Marca de clase
Menos de 150,000 67 ?
150,000 – 239,000 36 194500
340,000 – 429,000 10 384500
430,000 – 519,000 8 474500
520,000 – 609,000 7 564500
610,000 – 699,000 8 654500
700,000 – 789,000 7 744500
790,000 – y más 7 ?
Total 150
Ejercicio
Una distribución de frecuencia simétrica
presenta las siguientes características:
; ; y n1 = 1
Yi = Marca de clase i
Elabora la tabla de distribución de frecuencias
absolutas y relativas.
i
Respuesta: 9; 12 y 15
Gráficos para variables
cualitativas
• Diagramas de barras – Alturas proporcionales a
las frecuencias (abs. o rel.)
– Se pueden aplicar también a variables discretas
• Diagramas de sectores (tartas, polares) – El área de cada sector es
proporcional a su fre-cuencia (abs. o rel.)
0
2
4
6
8
10
60 70 80 90 100 110 120 130 S/.
f
Gráficos para variables cuantitativas
Histograma según las frecuencias absolutas
Gráficos para variables cualitativas
• Pictogramas
– Fáciles de entender.
– Cada modalidad debe ser proporcional a la frecuencia.
De los dos pictogramas,
¿cuál dirías que es incorrecto?
Gráficos diferenciales para
variables numéricas
Son diferentes en función de que las variables sean discretas o continuas.
Valen con frec. absolutas o relativas.
– Diagramas barras para v. discretas
• Se deja un hueco entre barras para indicar los valores que no son posibles
– Histogramas para v. continuas
• El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.
0 1 2 3 4 5 6 7 Ocho o más
Número de hijos
100
200
300
400
Recu
en
to
419
255
375
215
127
54
24 23 17
20 40 60 80
Edad del encuestado
50
100
150
200
250
Recu
en
to
Diagramas integrales
• Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo.
Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último dígito) y un "tallo" (los otros dígitos). Por ejemplo "32" sería dividido en "3" (tallo) y "2" (hoja). Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o izquierda) del los valores tallo. El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo.
Diagrama de hojas y tallos (gráfico de tallo
y hojas, histograma digital, Stem an Leaf).
Gráficos de tallos (o tronco) y hojas (de Tukey)
Un procedimiento semi-gráfico de presentar la información para
variables cuantitativas, útil cuando el número total es pequeño (menor
que 50), es el diagrama de tallo y hojas de Tukey. Los principios para
construirlo son:
a) Redondear los datos a dos o tres cifras significativas, expresándolas
en unidades de medidas convenientes.
b) Disponerlos en una tabla con dos columnas separadas por una línea
como sigue:
1) Para datos con dos dígitos, escribir a la izquierda de la línea los dígitos
de las decenas – que forma el tallo – y a la derecha las unidades, que
serán las hojas. Por ejemplo, 87 se escribe 87.
2) Para datos con tres dígitos el tallo estará formado por los dígitos de las
centenas y decenas, que se escribirán a la izquierda, separados de las
unidades. Por ejemplo, 127 será 127.
Cada tallo define una clase, y se escribe solo una vez. El número de
”hojas” representa la frecuencia de dicha clase.
Ejemplo tallo - hojas
Elaborar un diagrama tallo - hojas para los siguientes valores
recogidos en cm, los cuales representan los diámetros de las
fresas utilizadas en una hidro fresadora:
11,357; 12,542; 11,384; 12,431; 14,212; 15,213; 13,300;
11,300; 17,206; 12,710; 13,455; 16,143; 12,162; 12,721;
13,420 y 14,698.
Propuesta de solución:
a) Los datos redondeados, expresados en mm, son:
114; 125; 114; 124; 142; 152; 133; 113; 172; 127;
135; 161; 122; 127; 134; 147.
b) Diagrama de tallo y hoja para los datos expresados en mm:
11 4 4 3
12 5 4 7 2 7
13 3 5 4
14 2 7
15 2
16 1
17 2
decenas unidades
Ejemplo tallo – hojas (...)
Ejercicio. La empresa exportadora La Gran Fruta S.A., por
razones fitosanitarias, está experimentando un nuevo
insecticida para combatir a la mosca de la fruta. El
siguiente cuadro representa la vida en segundos de 50
Ceratitis capitata Wied . Construye el diagrama de
tallos y hojas.
17 20 10 9 23 13 12 19 18 24
12 14 6 9 13 6 7 10 13 7
16 18 8 13 3 32 9 7 10 11
13 7 18 7 10 4 27 19 16 8
7 10 5 14 15 10 9 6 7 15
Ejercicio. Reproduce los valores originales (cm) de la siguiente
tabla que representa el tamaño de las truchas de una muestra de la
piscigranja K‟Buena Trucha.
Unidad = 0,01
41 2 2
42 6 6 8
43 1 0 3 2
44 2 3
45 1
46 0
Ejemplo 41¦2 representa 4,12
Parámetro y estadístico
• Parámetro (Valores estadísticos de la pobla-
ción): Es una cantidad numérica calculada
sobre una población.
– La altura media de los individuos de un país.
– La idea es resumir toda la información que hay en
la población en unos pocos números (parámetros).
– Se simboliza por letras griegas. Solo hay un
parámetro en cada población por cada cantidad a
resumir.
μ : Media poblacional (mu)
σ2 : Varianza poblacional (sigma cuadrado)
σ : Desviación estándar poblacional (sigma)
π : Proporción poblacional (pi)
Parámetro y estadístico (...)
• Estadístico (estimador, estadígrafo): Ídem al anterior (cambiar población por muestra).
– La altura media de los que estamos en esta aula.
• Somos una muestra (¿representativa?) de la comunidad universitaria de la Facu?).
– Si un estadístico se usa para aproximarse a un parámetro, también se le suele llamar estimador
– Existen tantos estimadores como muestras se extraigan de una población.
– Se simbolizan por letras latinas:
x : Media muestral
s2 : Varianza muestral
s : Desviación estándar muestral
Pi : Proporción muestral
Ejercicios
• Identifica la población y la muestra en la siguiente
situación: En la Facultad se quiere saber la ocupación de
los egresados de la última década. Para esto se convoca a
una reunión de egresados y de los asistentes, se encuesta a
diez egresados de cada promoción. Determina la población
y la muestra.
• Justifica por qué la siguiente situación es una cualitativa
ordinal: Una fábrica de galletas saca una nueva marca al
mercado en presentaciones de diferentes sabores. Para
comercializarlas se ofrecen degustaciones de ellas a un
grupo de personas, quienes luego de degustarlas deben
clasificar en muy buenas, buenas, regulares y malas.
• http://es.scribd.com/doc/60993130/variables-poblacion-
muestra-ejercicios
Estadísticos de forma intuitiva
Medidas de posición
• Se define el cuantil (fractil) de orden k como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada determinada.
• Casos particulares de los cuantiles son los: percentiles (centiles), cuartiles, deciles, quintiles, etcétera.
• Métodos para calcular percentiles: Haverage, Waverage, Round y Empirical y Aempirical
Un cuantil o porcentil de X%, Pa% es aquel valor tal que un
X% de los datos es menor a él y un (1 - X)% de ellos es
mayor a él.
25%
50%
25%
Y1, Y2, .............. Yq, Yq+1, Yk-1, Yk , Ym , Yn-1, Yn Yr, .. ............. ....... .... Yl , ....
35%
67%
75%
25%
5%
Primer cuartil: P25%
Segundo cuartil: P50%
(mediana)
Tercer cuartil: P75%
P95%
• Percentil: Son valores que dividen una muestra ordenada en forma ascendente (o descendente) en 100 partes iguales. El percentil es el valor que ocupa la posición { I(N) / 100 }
– La mediana es el percentil 50.
– El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%.
• Cuartil: En un conjunto de N observaciones ordenadas de menor a mayor, el primer cuartil es la observación que ocupa la posición { (N + 1) / 4} y el tercer cuartil es la observación que ocupa la posición { 3(N + 1) / 4}. El segundo cuartil (la mediana) es la observación que ocupa la { (N + 1) / 2} posición.
• Cuando (N + 1) no es múltiplo de 4, los cuartiles se calculan por interpolación. Supongamos que N = 12 entonces (N + 1) /4 = 3,25 por lo tanto se toma como primer cuartil el número que está a un cuarto del camino entre la tercera y la cuarta observación.
• La diferencia entre el tercer y el primer cuartil nos da una
medida de la dispersión que se conoce con el nombre de rango
intercuartilico.
– Primer cuartil = Percentil 25 = Cuantil 0,25.
– Segundo cuartil = Percentil 50 = Cuantil 0,5 = Mediana.
– Tercer cuartil = Percentil 75 = Cuantil 0,75.
• El SPSS calcula las bisagras de Tukey, que define los
cuartiles de la distribución según una transformación realizada
por Tukey. La primera bisagra (similar al percentil 25) es el
valor que ocupa la posición intermedia entre la mediana y el
valor más pequeño de la distribución; la segunda bisagra es la
mediana; la tercera bisagra es el valor que ocupa la posición
intermedia entre la mediana y el valor más grande de la
distribución.
Ejercicios:
1) En un lote de bolsas de cemento Portland Tipo I Ecológico
(aproximadamente 42,5 kg) almacenados en la Distribuidora Nemesia
Tchevishef EIRL. ¿Qué percentil es superado solo por el 25% de las
bolsas de mayor peso?
• Percentil ________.
2) El colesterol se distribuye simétricamente en la población. Se
considera patológico los valores extremos. El 90% de los individuos
son normales.
a) ¿Entre qué percentiles se encuentran los individuos normales?
• Entre el percentil ______ y el percentil _______.
b) ¿Entre qué cuartiles y percentiles se encuentra la mitad de los
individuos “más normales” de una población?
• Entre el cuartil _______ y el cuartil _______.
• Entre el percentil _____ y el percentil __________
4) “El gobierno solo quiere financiar al primer y segundo quintil, pero lo que
nosotros sostenemos es que la clases media está también dentro de los sectores
más vulnerables. Nuestra propuesta es avanzar para los 7 primeros deciles e ir
avanzando hacia la gratuidad total …”
(Camila Vallejo, lideresa de la protesta de los estudiantes chilenos. Diario El
Comercio del 14-8-2011. Internacional, p. 10.)
Ejercicios: (...)
3) Se ha calculado el percentil 85 sobre las estadísticas de siniestralidad laboral
en el Sector Construcción durante el último año (Nº accidentes / año). Y se ha
obtenido el valor 2,5. Indica el significado de este dato.
Percentiles para datos agrupados
Cálculo para datos agrupados:
c
f
n
iK
K
P
1i
F100
*K
LP
donde:
: percentil
: el percentil buscado
: número de datos
Li : frontera de clase (Semisuma de límite inferior
clase i y límite superior clase i+1
: frecuencia acumulativa hasta la clase
anterior a la clase donde se ubica el percentil K
: frecuencia absoluta de la clase donde se ubica
el percentil K
: amplitud de clase
K
P
c
K
n
iF
K
fP
Percentiles para datos agrupados (...)
Ejemplo:
La tabla muestra la experiencia en años de los
peones de la constructora A Lo Techo Pecho.
Experiencia Peones
(años)
0 - 3 18
4 - 7 42
8 - 11 68
12 - 15 120
16 - 19 40
20 - 23 34
24 - 27 12
Total 334
Ejemplo (...). ¿Sobre cuántos años se ubica el 25% de
las peones de mayor experiencia?
Para saber en cuál clase se halla este dato, se
calcula la frecuencia acumulada.
Menor
Experiencia
Mayor
Experiencia
75 % 25 %
P75
K = 75
)ordenados años los de( 5,250100
)334(75
100
KnP del Lugar avo
75
Experiencia Nº peones Frec. Acumulada
(años)
0 - 3 18 18
4 - 7 42 60
8 - 11 68 128
12 - 15 120 248
16 - 19 40 288
20 - 23 34 322
24 - 27 12 334
334
Interpretación: Para que un peón esté comprendido dentro del 25% de mayor experiencia laboral debe tener al menos 15 años, 7 meses y 24 días de experiencia.
4*
40
1248100
(334)*75
5.1575
P
aexperienci de años 65,1575
P
iFif
En esta clase
se localizan del
249avo – 288avo
F=248
Diagrama de Caja
Es un gráfico de caja es muy útil para representar diferencias entre grupos así como mostrar los valores atípicos (discordantes, raros, outliers, aislados). Permite analizar y resumir un conjunto de datos univariante dado.
Para elaborar el diagrama solo se necesitan cinco valores estadísticos: el valor mínimo, Q1 (primer cuartil); la mediana (Q2, segundo cuartil); Q3 (tercer cuartil) y el valor máximo.
La principal desventaja es que no presenta ninguna información de las frecuencias de los datos.
Diagrama de Caja
Mucha
dispersión Aparecen
valores
extremos
Poca
dispersión
Valor atípico (Outliers)
Un valor atípico es una observación que es numéricamente distante del resto de los datos. Las estadísticas derivadas de los conjuntos de datos que incluyen valores atípicos serán frecuentemente engañosas. Por ejemplo, en el cálculo de la temperatura media de 10 objetos en una habitación, si la mayoría tienen entre 20 y 25 ºC, pero hay un horno a 350 °C, la mediana de los datos puede ser 23, pero la temperatura media será 55. En este caso, la mediana refleja mejor la temperatura de la muestra al azar de un objeto que la media. Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente del resto de la muestra establecida.
Tomando como referencia la diferencia entre el primer cuartil (Q1) y el tercer cuartil Q3, o valor intercuartil, en un diagrama de caja se considera un valor atípico el que se encuentra 1,5 veces esa distancia de uno de esos cuartiles (atípico leve) o a 3 veces esa distancia (atípico extremo). Bisagras de Tukey.
Valor atípico leve
• Siendo Q1 y Q3 el primer y tercer cuartil, y IQR el rango intercuartil (Q3 − Q1), un valor atípico leve será aquel que:
X < Q1 – 1,5 IQR
o
X > Q3 + 1,5 IQR
• Q1 y Q3 determinan, pues, los llamados limites interiores, a partir de los cuales la observación se considera un atípico leve.
Valor atípico extremo
Los atípicos extremos son observaciones más
allá de los límites externos:
X < Q1 – 3 IQR
o
X > Q3 + 3 IQR
Detección univariante de casos atípicos
Uno de los procedimientos más extendidos es considerar
atípicos los casos cuyo valor estandarizado (Zi) supere un umbral determinado. Será dato atípico si:
K = 2,5 para muestras pequeñas (menos de 80 casos)
K = 3 o 4 para muestras mayores
Otros métodos para detectar valores atípicos son: Diagrama de control, Diferencia entre los estadísticos robustos de la variable y sus estadísticos no robustos, test de Dixon, test de Grubs, etc.
xikszz
105 110 112 112 118 119 120 120 120
125 126 127 128 130 132 133 134 135
138 138 138 138 141 142 144 145 146
148 148 148 149 150 150 150 151 151
153 153 154 154 154 154 155 156 156
158 160 160 160 163 164 164 165 166
168 168 170 172 172 176 179
Presión atmosférica en 61 puntos de la Costa Nostra
Un resumen de esta serie en 5 valores
Min = 105 ; Max =179; Q1 = 132,5 ; Q3 = 158,5 ; Q2 = Md = 149
179 105 132,5 149 158,5
IQR = Q3 - Q1
Recorrido intercuartílico
Min Max
Md (Mediana de los datos superiores) Q1 Q3 (Mediana de los datos superiores)
(“Box-and-Whisker” plot)
Ejemplo. La empresa periodística La Hora de la Beldad SA tiene
las siguientes ventas de sus revistas, elabora el diagrama de caja.
Ventas en unidades físicas
Producto Mes 1 Mes 2 Mes 3
A 100 400 800
B 200 300 750
C 300 200 600
D 400 100 550
Diagrama de Caja
3333N =
Producto DProducto CProducto BProducto A
1000
800
600
400
200
0
Solución
Ejercicio
• ¿Qué porcentaje de los datos está
representado por la caja?
• ¿Qué porcentaje representa cada uno de los
bigotes?
• ¿Puede ser un bigote más largo que otro?.
¿Cuál es el significado?
• ¿Se encuentra la mediana siempre en el
centro de la caja?
Medidas de centralización • Añaden unos cuantos casos particulares a las medidas de
posición. Son medidas que buscan posiciones (valores) con
respecto a los que los datos muestran tendencia a agruparse.
• Si se calcula la media armónica (H), la media geométrica
(G) y la media aritmética (X), para los mismos datos se tiene
que: H < G < X • Se dice que un estadístico es resistente (robusto) cuando éste no se
ve afectado por la presencia de valores muy alejados del resto de
la distribución, por ejemplo los fráctiles, mediana, M-estimadores
(estimadores basados en el método de máxima verosimilitud. Se
tienen los siguientes de Hubert, de Tukey, de Andrews, de
Hampel, los cuales difieren entre sí por los pesos que asignan a
los casos. El SPSS los calcula en el procedimiento EXPLORAR).
• No es un estadístico resistente la media aritmética, como
alternativa existe la media truncada (media recortada, media
podada, trimmed mean) en la que se elimina un % de la cola
inferior y superior de la distribución o la media winsorizada
sustituye ese % de valores por valores del centro de la
distribución.
Medidas de centralización (...)
• Media („mean‟). µ. η (H, eta). Es la media
aritmética (promedio) de los valores de una
variable. Suma de los valores dividido por el
tamaño poblacional o muestral. Litros por
persona, Tercio superior, etc.
– Media de {2; 2; 3; 7} es ( 2 + 2 + 3 + 7) / 4 =
3,5
– Conveniente cuando los datos se concentran
simétricamente con respecto a ese valor. Muy
sensible a valores extremos.
– Centro de gravedad de los datos.
Propiedades de la media aritmética
-La suma de diferencias (de todos los valores)
respecto a la media es siempre 0.
-Si sumamos una constante a cada uno de los
valores, la nueva media aritmética resultante será la
original más la constante.
-Si multiplicamos cada uno de los valores por una
constante, la nueva media aritmética será la original
por la constante.
-Minimiza la suma de diferencias en términos
cuadráticos.
Cálculo de la media a partir de datos agrupados
El cálculo de la media aritmética, cuando los datos
disponibles se encuentran en tablas de distribución de
frecuencias, se realiza utilizando la fórmula siguiente:
donde:
: media muestral
: frecuencia absoluta de la clase i
: marca de la clase i
nf
nf
i
i
i
ii
x
1
1X
x
if
iX
Ejercicio. A continuación se tienen las dos distribuciones por sexo y
edad de los desocupados en el distrito de Chongos Bajos (marzo
2014). La PEA está comprendida entre 16 a 65 años.
Hombres Mujeres
Grupos de edad Frecuencia Frecuencia
< 20 años 17 654 20 902
20 – 24 años 10 943 34 448
25 – 29 años 9 322 26 834
30 – 44 años 11 106 52 854
> 44 años 14 216 41 274
Fuente: INEI
1) ¿Qué población (la de hombres o la de mujeres) presenta una edad
media mayor?
2) ¿Cuál está más envejecida en términos medios?
Medidas de centralización …
Ejercicio. Los nueve empleados de la empresa constructora
Esteban Dido viven al lado de la Av. Universitaria (Comas) en
diferentes kilómetros, tal como se muestra en el siguiente gráfico:
3 2 3 1
Km 1 4 5 6 26
Dado que cada uno de los nueve trabajadores viaja en su propio
automóvil, y si quieres minimizar el coste en gasolina, ¿en qué
lugar pondrías la empresa para minimizar tal coste?
Núm. Emp.
Propiedades de la mediana
-No utiliza todos los elementos
-Se puede calcular con datos ordinales
-Se ve menos afectada por datos atípicos que la media aritmética.
-Minimiza la suma de diferencias en valor absoluto (recordar que
la media aritmética minimizaba la suma de diferencias en térmi-
nos cuadráticos)
• Ambas sirven para estimar el valor o tamaño medio de una variable,
que debe entenderse como el “valor esperable” o “normal”.
• Si la distribución es normal, media y mediana coinciden.
• Si hay discrepancia entre ambas, es preferible la mediana.
• La razón es que la mediana es robusta, es decir, poco sensible a datos
atípicos. La media, en cambio, es muy sensible.
Media versus Mediana
En particular, en ausencia de normalidad son relevantes los contrastes no
sobre la media, sino sobre la mediana
¿Cuál elegir?
Moda
Mediana Media
Ejercicio. Se han analizado los promedios
promocionales de la asignatura Estadística y
Probabilidad, y se ha obtenido lo siguiente: la nota
modal de la Sección A es 15, la nota media 12,8 y la
mediana 13,5;en la Sección B la nota modal es 11, la
nota media 14 y la mediana 13,5. Se pide:
a) Bosquejar una curva que represente la información
dada para cada sección.
b) ¿Sería posible que en la Sección A, más de la mitad
de los estudiantes obtenga más que la nota media?
c) ¿Sería posible que en la Sección B, más de la mitad
de los estudiantes obtenga menos que la nota
media?
Estadísticos resistentes: Son aquellos que no se ven
influidos (o solo ligeramente) por pequeños cambios en los
datos.
Evidentemente, la media es un estadístico muy poco
resistente a cambios en los datos, dado que se ve influida
por todos y cada uno de ellos.
La mediana, en cambio, es un estadístico altamente
resistente.
Resistencia y robustez
Estadísticos (Estimadores) robustos: Son
aquellos estadísticos (estimadores) que
funcionan bien para varios tipos distintos de
distribuciones teóricas, aunque pueden no ser el
mejor estimador para ningún tipo concreto de
distribución. Es decir, son el “mejor
compromiso”.
La media no es un estimador robusto.
La mediana es un estimador más robusto que la
media, si bien hay otros estimadores más
robustos que veremos en el punto siguiente del
temario.
Medidas robustas de tendencia central
1. Medias Recortadas
Consiste en calcular la media aritmética sobre un subconjunto central
del conjunto de datos, no considerándose una determinada proporción p
por cada extremo. (p se expresa normalmente como porcentaje).
Por ejemplo, una media recortada al 40% en una secuencia de 10 datos
implica no tener en cuenta ni los cuatro valores menores ni los cuatro
valores mayores.
Observa que la media recortada al 0% es la media aritmética.
A la media recortada al 25% se la denomina centrimedia.
Medidas robustas de tendencia central
1. Medias Recortadas (cont)
Calcula la media recortada al 5% de los siguientes datos:
3, 4, 4, 5, 5, 6, 7, 8, 9, 11
El valor debe ser 6.11
Calcula la media recortada al 10% de los datos anteriores (da 6)
Calcula la centrimedia (da 5.8)
Medidas robustas de tendencia central
2. Media Winsorizada
Es análogo a las medias recortadas excepto en que las puntuaciones
eliminadas, ya no lo son sino que se sustituyen por los valores menor y
mayor que quedan para el cómputo de la media winsorizada.
Así, en la media recortada a nivel 2 implicaría eliminar las dos
puntuaciones mayores y las 2 menores:
3, 4, 4, 5, 5, 6, 7, 8, 9, 11
Y quedan los datos: 4, 5, 5, 6, 7, 8 y se calcula la media de los mismos
En la media winsorizada, los datos 3 y 4 (los dos menores) y el 9 y 11
(los dos mayores) se sustituyen por 4 y 8 respectivamente. Es decir,
4, 4, 4, 5, 5, 6, 7, 8, 8, 8 y se calcula la media de los mismos, que será la
media winsorizada a nivel 2 (debe de dar 5.9)
Medidas robustas de tendencia central
En muchas ocasiones lo que se hace es emplear un valor mínimo y uno
máximo más allá del cual se eliminan los datos que sobrepasen tales
valores.
Por ejemplo, en experimentos de tiempo de reacción para discriminar
palabras/pseudopalabras se pueden eliminar datos menores de 200
palabras y mayores de 1 500 palabras. (Menos de 200 ps. es demasiado
rápido; más de 1 500 ps. es demasiado lento.)
De esta manera, si todos los datos están en el rango 200-1500 ps. no se
elimina ningún dato
3. Otros tipos de media en la que se recortan datos
Medidas robustas de tendencia central
4. Trimedia
Es un índice de tendencia central que consiste en calcular una media
aritmética ponderada de tres medidas, la Mediana (con peso doble) y el
primer y tercer cuartil.
Pensemos que en un conjunto de datos, el primer cuartil es 51, la
mediana es 55 y el tercer cuartil es 63. La trimedia es:
Medidas robustas de tendencia central
5. Otras medidas robustas
El estimador-M de Huber, el estimador biponderado de Tukey, el
estimador M-redescendente de Hampel y el estimador en onda de
Andrew. Estos estimadores se diferencian entre sí por el tipo de
ponderación aplicada sobre los datos.
Por ejemplo, en el Estimador-M de Huber (Estimador M de
posición): Las puntuaciones típicas que sean menores que una
constante, reciben un peso de uno. Los casos que tienen los
mayores valores absolutos tienen pesos tanto más pequeños
cuanto mayor es su distancia respecto a cero. La constante es
1,339.
El cálculo se obtiene con el SPSS, por ejemplo.
Extensión del intervalo h = 390 - 375
23.3841558
8375
Mo
Clases Xi f F fr Fr
330-345 337 3 3 0,09 0,09
345-360 352 3 6 0,09 0,18
360-375 367 4 10 0,11 0,29
375-390 382 12 22 0,34 0,63
390-405 397 7 29 0,20 0,83
405-420 412 4 33 0,11 0,94
420-435 427 2 35 0,06 1,00
TOTAL 35 1,00
Clases Xi f F fr Fr
330-345 337 3 3 0,09 0,09
345-360 352 3 6 0,09 0,18
360-375 367 4 10 0,11 0,29
375-390 382 12 22 0,34 0,63
390-405 397 7 29 0,20 0,83
405-420 412 4 33 0,11 0,94
420-435 427 2 35 0,06 1,00
TOTAL 35 1,00
Càlculo de la moda para datos agrupados
1) Determina la clase que contiene la Moda
2) Realiza la interpolación para hallar el valor de la Mo
375Li
hLiMo21
1
1 = 12 – 4 = 8 2 = 12 – 7 = 5
1
2
Ejemplo para datos agrupados
Peso M. Clase Fr. Fr. ac.
40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 – 130 115 3 58
58
• Moda = marca de clase de (60,70] = 65
3,6958
31151055545
n
nxx i ii
6,66)6070(21
15585,060
)(585,0
11
15,0
ii
i
ii LL
n
NLCMediana
8,76)7080(11
365,4370)(
5875,01
1175,075
ii
i
ii LL
n
NLCP
Media geométrica ( )
Se utiliza para calcular tasas medias de variación, como la tasa media de crecimiento poblacional, la tasa media de inflación mensual, la tasa media de mortalidad, entre otros.
Es útil para encontrar el promedio de porcentajes, razones, índices o tasas de crecimiento.
La media geométrica es más aconsejable que la aritmética para promedio de razones. (Las razones son recíprocas)
La siempre será menor que o igual a (nunca mayor que) la media aritmética. Cuando quiere darse importancia a valores pequeños de la variable, es aconsejable la media geométrica.
Ejemplo. Para llevar un registro del valor del dólar USA, se
crea un índice de referencia (base 100) denominado "Dollar-
Index" cuyo valor está en función de un promedio geométrico
de las monedas de los seis (6) principales socios comerciales de
EE.UU.
gx
gx
Media geométrica ( )
a) Obtención Se obtiene extrayendo la raíz enésima del producto de los n valores de una serie.
gx
ngn
x XXXX ...*3
*2
*1
Ejemplo:
La siguiente tabla muestra la tasa de aumento en los precios
de los bienes y servicios (inflación) transados en el Distrito
de Acarí durante los meses indicados. Calcula e interpreta la
tasa media mensual de la inflación.
Meses Enero Febrero Marzo Abril Mayo
Aumento de
precios2.6% 5.4% 3.8% 0.5% 1.4%
La tasa 2,6% del mes de enero también se puede
expresar como 0,026 , y puesto que se refiere a un
aumento a partir de una base de 100%, el factor de
variación Dic. a Ene. será 1,026. Para los otros datos se
opera de igual manera.
5 )014.1)(005.1( )038.1( )054.1( )026.1(
)( 0272540,1 medioocrecimientdeFactor
100)1 ( Tasa media
de variación
=
Ejemplo (...)
b) Cálculos
nnxxxx g )1...(*.)1(*) 211(
gx
gx
gx
= (1,0272540 - 1) x 100 = 2,72%
c) Interpretación
Si se selecciona al azar un mes comprendido
entre enero y mayo, se espera que los precios
en promedio se hayan incrementado en 2,72%
con respecto al mes anterior.
Ejemplo (...)
Media geométrica (...)
Otro uso de la media geométrica es determinar
el porcentaje promedio del incremento en ventas,
producción u otros negocios o series
económicas de un periodo a otro. La fórmula es:
1)(/)( 1 nn vvMG
Donde:
Vn = Valor en el periodo n (final)
V1 = Valor en el periodo 1 (inicial)
n = Número de periodos
Ejemplo: El número total de mujeres
matriculadas en el sistema universitario
aumentó de 755 000 el 31-12-04 a 835 000 el
31-12-13. ¿Cuál es la tasa de crecimiento
promedio anual? Rpta. 1,125%.
Media armónica ( )
Se usa cuando los datos están en progresiòn armónica (Cuando sus recíprocos estàn en progresión aritmética)
Se emplea la media armónica para obtener un valor representativo de un conjunto de datos expresados en forma de tasas o proporciones, por ejemplo velocidad y aceleración media, el tiempo medio para realizar el ensamblaje de motos Honda (12 minutos aproximadamente).
Permite obtener promedios de valores que están en relación inversa como la velocidad y el tiempo.
En general se utilizan para obtener promedios de un conjunto de valores expresados en forma de tasas de unidades de un tipo por unidades de otro tipo.
a) Se obtiene calculando el inverso de la media aritmética de los inversos de una serie.
hx
n
n
i i
hx
1X
1
1
Ejemplo:
Los siguientes datos registran el tiempo que utilizan cuatro médicos al realizar una operación al píloro. Calcula e interpreta el tiempo medio.
Médico A B C D
Tiempo
(minutos)45 38 52 40
Conocer el tiempo medio permite contar con una
herramienta útil en la planeación de los recursos,
como por ejemplo la productividad del trabajador.
Además de poder comparar el desempeño con los
estándares de calidad internacionales.
b) Interpretación:
Si se selecciona al azar a uno de los cuatro
médicos, se espera que realice este tipo de cirugía
en 43 minutos aproximadamente.
40
1
52
1
38
1
45
1
4h
x
minutos 117953.43h
x
peraciónsegundos/o 7 minutos 43h
x
Ejemplo. Encuentra la duración media de una hoja de
afeitar contando con los resultados de una encuesta
entre cinco personas sobre la duración media de una
hoja de afeitar y que arrojó los siguientes resultados:
Persona Duración Media (días)
A 10
B 5
C 14
D 30
E 6
Cont. … Si se hubiera calculado por la media
aritmética, el resultado hubiera sido de: (10 + 5 + 14
+ 30 + 6) /5 = 13 días, lo cual es erróneo pues:
A Consumo anual 36,5 (365/10)
B " 73,0 (365/ 5)
C " 26,07 (365/14)
D " 12,17 (365/30)
E " 60,83 (365/ 6)
Total 208,57
El consumo es: 208,57/5 = 41,71 hojas/persona,
cuya duración media es de 365/41,71 = 8,75 días,
resultado que se obtuvo al aplicar la media armónica
Asimetría, sesgo, Sknewness
• Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.
• En las distribuciones simétricas media y mediana coinciden. Si solo hay una moda también coincide.
• La asimetría es positiva (o a la derecha) o negativa (o a la izquierda) en función de a qué lado se encuentra la cola de la distribución.
• La media tiende a desplazarse hacia las valores extremos (colas).
• Las discrepancias entre las medidas de centralización son indicación de asimetría.
Simetría
Media Media
- Normalidad implica simetría; sin embargo, simetría no implica
necesariamente normalidad.
- Se mide con el coeficiente de asimetría (debe estar entre -2 y 2).
- Si hay simetría, media y mediana coinciden.
1. Índice (Coeficiente) de asimetría según Karl Pearson
s
x
X MoA
s
Está basado en la relación entre la media y la moda en
distribuciones simétricas y asimétricas:
Media:
Moda:
Mediana:
Desviación estándar:
Nota: Constituyen el primer y segundo coeficiente de asimetría de Pearson
respectivamente
Apuntamiento, curtosis, kurtosis, concentración central
Leptocúrtica
138
108
102
97
92
87
82
77
72
67
62
57
52
47
42
37
32
27
16
3
Fre
cu
en
cia
400
300
200
100
0
Platicúrtica
8481787572696663605754514845
Fre
cu
en
cia
160
140
120
100
80
60
40
Los siguientes gráficos poseen la misma μ y σ2 , pero diferente grado de
apuntamiento.
• Las curvas simétricas se caracterizan por su curtosis. La curtosis, grado
de agudeza, “apicamiento”, indica el grado de apuntamiento
(aplastamiento) de una distribución simétrica con respecto a la
distribución normal o gaussiana (distribución campaniforme y simétrica).
Es adimensional.
• Platicúrtica: curtosis < 0 (menos apuntada que la normal)
• Mesocúrtica: curtosis = 0 (igual que la normal)
• Leptocúrtica: curtosis > 0 (mas apuntada que la normal)
Mesocúrtica
99
93
89
85
81
77
73
69
65
61
57
53
49
45
41
37
32
27
Fre
cu
en
cia
300
200
100
0
Índice de curtosis de Fisher, coeficiente de exceso de curtosis
Para una distribución normal (mesocúrtica) se sabe que:
4
1
4
( )
3
n
i
i
x
X X n
s
Y esta será la referencia para el índice de curtosis:
4
1
4
( )
3
n
i
ir
x
X X n
Cs
Curtosis
Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa. Ejemplo:
Un conjunto de átomos de una sustancia con una media de velocidades 0, no cabe concluir que los miembros del sistema están quietos.
Ello implicaría que la substancia se encontraría cerca del cero absoluto. Con una media de 0 podemos tener desde un sólido cristalizado hasta un gas muy caliente.
La variable que determinará en qué estado de agitación térmica se encuentran los átomos del sistema será la dispersión de velocidades.
Medidas de dispersión (variabilidad, spread)
•Amplitud o Rango („range‟): Diferencia entre las
observaciones extremas.
– 2; 1; 4; 3; 8; 4. El rango es 8 – 1 = 7
– Es muy sensible a los valores
extremos.
•Rango intercuartílico („interquartile range‟):
– Es la distancia entre el primer y tercer cuartil.
• Rango intercuartílico = P75 - P25
– Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores.
– No es tan sensible a valores extremos.
Medidas de dispersión (variabilidad)
VARIANZA Y DESVIACIÓN ESTÁNDAR PARA UNA POBLACIÓN
Varianza σ2, desvío medio cuadrático, variance: Mide el promedio de las desviaciones (al cuadrado) de las observa-ciones con respecto a la media.
– Es sensible a valores extremos (alejados de la media).
– Sus unidades son el cuadrado de las de la variable.
i
ix
n
22
)µ(1
2
2
2
n
xi
i
Desviación típica, desvío estándar, error estándar, dispersión absoluta („standard deviation‟). Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad (unidades) que la variable.
2
VARIANZA PARA UNA MUESTRA
Esta expresión de cálculo de la varianza muestral no se utiliza mucho pues sus valores tienden a ser menores que el de la auténtica varianza de la variable (debido a que la propia media muestral tiene una varianza que vale un enésimo de la de las observaciones) Para compensar esta deficiencia y obtener valores que no subestimen la varianza poblacional (cuando estamos interesados en ella y no en la varianza muestral) utilizaremos una expresión, esencialmente igual que la anterior salvo que el denominador está disminuido en una unidad.
Para n >= 30 restar 1 de n implica muy poca diferencia.
i
ix
nS
22
)x(1
VARIANZA PARA UNA MUESTRA
• Varianza S2 („Variance‟, cuasi varianza, varianza insesgada,
estimador de la varianza de la población):
• Desviación típica modificada, desvío estándar, error
estándar, dispersión absoluta („standard deviation‟):
i
i xxn
S22
)(1
1
2SS
¿Por qué se divide entre n-1 en lugar de n en la varianza muestral?
Esto se debe a que se utilizan muestras de una población. Por lo tanto, aquí se aplica estadística inferencial, la cual trata con muestras extraídas de poblaciones que son demasiado grandes para mediar de forma directa y por lo tanto, se utilizan valores de muestras para hacer inferencias acerca de los valores correspondientes de la población.
Comúnmente se utiliza la varianza muestral como un estimado de una varianza poblacional desconocida. Si se utiliza n en el denominador de la varianza muestral tenderá a subestimar la varianza poblacional. Por lo tanto, al utilizar n-1 en la varianza muestral se obtiene una mejor estimación de la varianza poblacional.
VARIANZA PARA UNA MUESTRA (...)
Tasa de desnutrición: porcentaje de niños menores de cinco años con una
desviación estándar de talla mayor a dos por debajo de la norma internacional
ajustada correspondiente a su edad.
Varianza para datos agrupados
donde:
: media muestral
: frecuencia absoluta de la clase i
: marca de clase i
x
if
iMC
Medidas de variabilidad con respecto a la media
I) Promedios Finales Media D.S.P.
14 16 16 16 16 18 (a) 16,0 1,1547
10 12 19 20 15 20 (b) 16,0 3,95811
15 14 15 15 15 15 (c) 14,8 0,37268
70 80 80 80 80 90 (d) 80,0 5,7735
40 80 80 80 80 90 (e) 75,0 16,0728
II) Si las notas fueran una muestra Media D.S.M.
Vigesimal 14 16 16 16 16 18 (a) 16,0 1,26491
Centesimal 70 80 80 80 80 90 (d) 80,0 6,32456
Se tienen los siguientes promedios finales correspondientes
a los alumnos de las secciones: a, b, c, d y e de la
asignatura XXX. Hallar la media(X) y la desviación
estándar(S).
Sist.
vigesimal
Sist.
centesimal
Propiedades de la varianza
a) La varianza es un número no negativo.
b) Si todos los datos son iguales a una
constante c, su varianza es igual a 0. En este
caso la media es igual a c. No hay dispersión.
c) Si a cada uno de los datos x1, ... ,xn se les
suma una constante b, entonces la varianza de
los datos transformados: x1 + b, ... ,xn + b es
igual a la varianza de los datos originales.
d) Si a cada uno de los datos x1, ... ,xn se
les multiplica por una constante k, entonces
la varianza de los datos transformados: kx1,
... , kxn es igual a la varianza de los datos
originales multiplicada por el cuadrado de
la constante. Esto es, si la varianza de los
datos originales es s2 entonces la varianza
de los datos transformados es k2s2.
Propiedades de la varianza (...)
e) Si el conjunto de m datos: x1, ...,xm tiene media x
y varianza 2xs , mientras que el conjunto de n datos
y1, ... ,yn tiene media y y varianza 2ys , entonces el
conjunto de datos x1, ... xm, y1, ... ,yn tiene
varianza:
,2
)(2
)(
222
Mynm
nMx
nm
m
nm
ynsxmss
en donde M es la media del conjunto x1, ...,xm, y1,
... ,yn.
Si las medias x e y son iguales, entonces:
nm
ynsxmss
222
Propiedades de la varianza (...)
Coeficiente de variación, dispersión relativa, Coeficiente de
variabilidad de Pearson, coefficient of variation, CVx
• Es la razón entre la desviación típica y la media.
– Mide la desviación típica en forma de “qué tamaño tiene con respecto a la
media”.
– También se la denomina variabilidad relativa.
– Son poco robustos
– Es frecuente mostrarla en porcentajes:
• Si la media es 80 y la desviación típica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)
• Otros: Coeficiente de variación cuartílico
CV
x
SCV
Coeficiente de variación
• Es una cantidad adimensional. Interesante para comparar la
variabilidad de diferentes variables.
– Si el peso tiene CV=30% y la altura tiene CV=10%, los
individuos presentan más dispersión en peso que en altura.
• No debe usarse cuando la variable presenta valores negativos o
donde el valor 0 sea una cantidad fijada arbitrariamente
– Por ejemplo 0ºC ≠ 0ºF
• El coeficiente de variación elimina la dimensionalidad de las
variables y tiene en cuenta la proporción existente entre una
medida de tendencia y la desviación típica o estándar.
• El principal inconveniente, es que al ser un coeficiente
inversamente proporcional a la media aritmética, cuando está tome
valores cercanos a cero, el coeficiente tenderá a infinito
Uso de las medidas de dispersión
Si dos o más series de datos (observados en
el mismo tipo de medición) tienen medias
aritméticas iguales (o casi iguales) es más
dispersa la serie que tiene mayor medida de
variabilidad: Rango, RI, s2, s, o CV.
Si dos o más series de datos, no tienen
medias iguales (o casi iguales), o no tienen
las mismas unidades de medición, entonces
es más dispersa la serie que tenga el mayor
coeficiente de variación
Ejemplo:
Las medidas tomadas con un micrómetro al diámetro de
una producción de cojinetes, tienen una media de 3,98
mm y una desviación estándar de 0,014 mm, mientras
que las medidas tomadas a otra muestra de resortes sin
extender, tienen una media de 1,59 pulgadas y una
desviación estándar de 0,009 pulgadas. ¿Qué grupo de
objetos tiene una mayor variabilidad?
C.V.1 = (0,014 / 3,98) x 100% = 0,35%
C.V.2 = (0,009 / 1,59) x 100% = 0,57%
Covarianza Es una estadística que mide el grado de dispersión
o variabilidad conjunta de dos variables X e Y (variables bivariantes) con respecto a sus respectivas medias.
Es útil para describir el comportamiento de una variable en relación con otra.
Aporta una idea muy burda de la relación entre X y Y. Solo interesa su signo algebraico, no su magnitud, a diferencia de la varianza que solo es positiva.Las unidades son al cuadrado (Soles2)
Si Cov(X,Y) > 0 indica que valores altos de X se relacionan con valores igualmente altos de Y, y viceversa.
Si Cov(X,Y) = 0 implica que si X asume un valor más alto que su media no indica algo sobre el valor de Y en relación con su media.
INCONVENIENTE: Depende de las dimensiones de las
variables
n
xxyy
yxCov
n
i
ii
1),(
Covarianza
medida de variabilidad conjunta.
No tiene límite superior o inferior,
depende de las unidades en que se
mida
Coeficiente de
Correlación
(Pearson) )()(
),(
xVaryVar
xyCovr
Covarianza estandarizada. Varía entre -1 y +1
Ejercicio.
La acción común de la empresa Thiago (T) tiene una rentabilidad
esperada del 10% y una desviación estándar del 5% anual. La
acción común de la empresa Casas (C) tiene una rentabilidad
esperada del 20% y una desviación estándar del 60% anual.
a) ¿Cuál es la rentabilidad esperada de una cartera que se
compone de 40% del título T y 60% del título C?
b) ¿Cuál es la covarianza de las rentabilidades de T y C si el
coeficiente de correlación (ρ) entre T y C es de 0,5?
Tipificación o Transformación Z (Valor estandarizado, unidad
tipificada, variable centrada reducida, variable
estandarizada o normalizada)
Las puntuaciones típicas son el resultado de dividir las puntuaciones
diferenciales (restar la media) entre la desviación típica. Este
proceso se llama tipificación.
Dada una variable de media μ y desviación típica σ, se denomina valor tipificado z, de una observación X, a la distancia (con signo) con respecto a la media, medido en desviaciones típicas, es decir:
Xz
Cuando se necesite comparar valores observados que pertenecen
a diferentes distribuciones de datos, las que difieren en su media
aritmética o en su varianza, o difieren en el tipo de unidad de
medida, se usa el valor estándar Z.
El "puntaje Z", también llamado "puntaje estándar", es la medida
estadística de “qué tan lejos está una observación particular de la
desviación estándar".
Ejemplo. Laura Boso saca una puntuación de 85 en un examen cuyas
puntuaciones tienen una media de 79 con una desviación típica de 8. Elba
Boso saca 74 en un examen cuyas puntuaciones tienen una media de 70 y
desviación estándar de 5. ¿Cuál de las dos obtuvo una puntuación mejor?
La respuesta, desde el punto de vista de la "unidad tipificada", se obtiene así:
Las puntuaciones tipificadas de Laura y Elba son respectivamente:
Así el Elba lo hizo mejor que Laura, aunque su puntuación de 74 es inferior a
85.
La Universidad Vocé A. Buso (UVAB) quiere dar una beca a uno de dos estudiantes de sistemas educativos diferentes y se asignará al que tenga mejor expediente académico:
– El estudiante A tiene una calificación de 8 en un sistema donde la calificación se comporta como N(6,1).
– El estudiante B tiene una calificación de 80 en un sistema donde la calificación se comporta como N(70,10).
110
7080
21
68
B
xz
xz
BBB
A
AAA
–No podemos comparar directamente 8 puntos de A frente a los 80 de B, pero como ambas poblaciones se comportan de modo normal, podemos tipificar y observar las puntuaciones sobre una distribución de referencia N(0,1).
–Como zA > zB, podemos decir que el porcentaje de compañeros del mismo sistema de estudios que ha superado en calificación al estudiante A es mayor que el que ha superado B. En principio A es mejor candidato para la beca.
Ejercicio. El cuadro de pagos de dos empresas constructoras
en la semana pasada se muestra a continuación:
ParámetrosC. Manos a la
Urbe
C. La Vida
en Concreto
Salario medio S/.963 S/.972
Desviación típica S/.26 S/.28
a) ¿En cuál de las dos constructoras los salarios presentan
mayor variabilidad?
b) Si a Mamerta, egresada de la Facu le ofrecen un salario
semanal de S/.468, ¿en cuál de las constructoras tendrá
una mejor posición relativa? c) Si a Mamerta le ofrecen un salario semanal de S/.1 468, ¿en cuál de
las constructoras tendrá una mejor posición relativa?
Medidas de variabilidad con respecto a la media
I) Compara S y CV Promedios Finales Media D.S.P. CV
14 16 16 16 16 18 (a) 16.0 1.15470054 0.07217
10 12 19 20 15 20 (b) 16.0 3.95811403 0.24738
15 14 15 15 15 15 (c) 14.8 0.372678 0.02512
70 80 80 80 80 90 (d) 80.0 5.77350269 0.07217
40 80 80 80 80 90 (e) 75.0 16.0728 0.2143
II) Quién destaca más: el alumno con 18 o con 90? Z
Vigesimal 14 16 16 16 16 18 (a) 16.0 (18) 1.73205
Centesimal 40 80 80 80 80 90 (e) 75.0 (90) 0.93326
Vigesimal 14 16 16 16 16 18 (a) 16.0 (18) 1.73205
Centesimal 70 80 80 80 80 90 (d) 80.0 (90) 1.73205
III) Si las notas fueran una muestra Media D.S.M. CV Z
Vigesimal 14 16 16 16 16 18 (a) 16.0 1.26491106 0.07906 1.58114
Centesimal 70 80 80 80 80 90 (d) 80.0 6.32455532 0.07906 1.58114
Caso: Se tienen los siguientes promedios finales correspondientes a los alumnos de las secciones: a, b,
c, d y e de la asignatura XXX. Hallar la: media(X), desviación estándar(S), coeficiente de
variabilidad(CV) y variable normal estandarizada (Z). Explicar su uso.
S
e
c
c
i
ó
n
Sistema
vigesimal
Sist.
Centesimal
de 1/4 kg de 1 kg
0,92 4,52
0,98 4,35
1,04 4,60
0,90 4,70
0,99 4,50
Media Arit. 0,966 4,534
S 0,050 0,116
CV 5,22% 2,56%
Tiempos de embolsado de
Maca de la Pirinaca (en
minutos)
Teorema de Chebyshev(Tchebyshev, desigualdad de
Ch., regla de Ch…)
Para cualquier conjunto de datos con media x y desviación
estándar muestral s, la proporción de datos comprendidos
en el intervalo x - ks, x + ks, es mayor o igual a [1 –
(1/k2)]. Donde k > 1.
Por ejemplo en el intervalo x - 2s, x + 2s por lo menos
hay el 75% de los datos, en el intervalo x - 3s; x + 3s por
lo menos hay el 89% de los datos.
2
2
,0
XP
2
2
1 ,0
XP
2
1 ,1
kkXPk
Otras formas de la desigualdad de Chebyshev
Sea X una v.a. con media y varianza 2 < , ɛ >0, entonces:
Ejemplo
La media de los pesos de las bolsas de maca de la pirinaca
es igual a 15,1333 kg y la desviación estándar es 2,8952
kg.
En el intervalo 9,3429 - 20,9237, que tiene la media
como centro y dos desviaciones estándar muestrales como
radio, existe, según Chevyshev, por lo menos el 75% de
los datos.
Ejemplo.
Los N datos correspondientes a la produc-
ción diaria de gasolina de la planta “El
Perreo” tienen una media aritmética de 150
000 galones con una desviación estándar de
1 000 galones.
Hallar la proporción de días cuya produc-
ción de gasolina está comprendida entre
148 000 y 152 000.
Propuesta de Solución
El intervalo 148 000, 152 000
corresponde a x - ks, x + ks con x =
150000; s = 1000 y k = 2.
Aplicando la propiedad de Chebyshev con
k = 2, se tiene que la proporción de días
cuya producción está en el intervalo
indicado es por lo menos igual a:
1 – (1/k2) = 0,75.
Ejemplo.
Los N datos correspondientes a la producción diaria
de gasolina de la planta “El Perreo” tienen una media de 150 000 galones con una desviación
estándar de 1 000 galones.
Si se sabe que la menor producción es 147 000,
calcula un intervalo que contenga por lo menos 90%
de los datos.
Un intervalo que satisface lo pedido es
uno de la forma x - ks, x + ks donde k es
tal que 90,02
11
k
. Luego, k = 10 =3,1622 y
x - ks, x + ks.
Como la menor producción es 147 000,
un intervalo que cumple la condición es:
147 000,00; 153 162,20
Propuesta de Solución
Ejemplo.
Los N datos correspondientes a la producción diaria
de gasolina de la planta “El Perreo” tienen una
media de 150 000 galones con una desviación
estándar de 1 000 galones.
¿Con qué frecuencia se puede decir que la
producción será mayor que 157 000 galones
diarios? Asume que la distribución es
acampanada, por lo que se utilizarán unidades
estándar o valores de la z.
s
XXZ
La distancia entre 157 000 y la media de la producción
expresada en desviaciones estándar de la misma es:
70001
000150000157
Esto indica que 157 000 está a 7 desviaciones
estándar de la media.
Aplicando la propiedad de Chebyshev, se tiene que
la proporción de días cuya producción está en el
intervalo 150 000 – 7*(1 000); 150 000 + 7*(1 000)
= 147 000; 157 000 es por lo menos.
9796,00204,012
7
11
2
11
k
Como la menor producción es 147 000 se puede
afirmar que la producción será mayor que 157 000 en
el (1 – 0,9796) = 2,04% de los días a lo más.
Propuesta de Solución
Regla empírica para datos
En una distribución de probabilidad acampanada (forma de montículo) y
más o menos simétrica se cumple que:
Ejercicio. El CPC José Papaffava realizó un muestreo en el Depósito de
Materiales de Construcción sobre el número de días que permanecen en almacén
200 bolsas de cemento Portland Tipo III (Alta resistencia inicial, como cuando se
necesita que la estructura de concreto reciba carga lo antes posible o cuando es
necesario desencofrar a los pocos días del vaciado). Los datos son:
Permanencia
(en días) 1 - 3 4 - 6 7 - 9 10 - 12 13 - 15 16 - 18 19 - 21 22 - 24
N° de bolsas 24 83 52 22 11 5 2 1
a) Determina la media, moda y la desviación típica.
b) Según el teorema de Chebyshev ¿Cuántas bolsas fluctuarán entre 1 y 15
días en el almacén?¿Cuántas se hallan realmente en ese intervalo?
c) Considerando que la distribución tiene aproximadamente la forma de
campana ¿Cuántas bolsas cabe esperar que hayan permanecido en el
almacén entre 1 y 15 días?
MEDIDAS DE CONCENTRACIÓN
Las medidas de concentración tratan de poner de relieve el mayor o menor
grado de igualdad en el reparto del total de los valores de la variable, son por
tanto indicadores del grado de distribución de la variable.
Para este fin, están concebidos los estudios sobre concentración.
Denominamos concentración a la mayor o menor equidad en el reparto de la
suma total de los valores de la variable considerada (renta, salarios, etc.).
Las infinitas posibilidades que pueden adoptar los valores, se encuentran
entre los dos extremos:
1.- Concentración máxima, cuando uno solo percibe el total y los demás
nada, en este caso, nos encontraremos ante un reparto no equitativo:
x1 = x2 = x3 = ………… = xn-1 = 0 y xn.
2.- Concentración mínima, cuando el conjunto total de valores de la variable
esta repartido por igual, en este caso diremos que estamos ante un reparto
equitativo
x1 = x2 = x3 = ………… = xn-1 = xn.
Algunas medidas de concentración:
Indice de Gini, Coeficiente, por tanto será un valor numérico.
Curva de Lorenz, gráfico, por tanto será una representación en ejes
coordenados.
Pone de relieve el mayor o menor grado de
igualdad en el reparto del total de los recursos:
El índice de Gini (IG) varía entre 0 y 1, correspondiendo los
casos extremos a concentración mínima o equidistribución
(IG = 0) y concentración máxima (IG =1).
Índice de Gini
Curva de Lorenz: Es la representación gráfica de los
porcentajes acumulados de individuos (pi) y de recursos (qi).
Se colocan los pi en el eje de abscisas, los qi en el de
ordenadas, y se unen todos los puntos (pi,qi), considerando
(0,0) como el primer punto y (100,100) como el último.
Así, cuanto más próxima esté la curva a la bisectriz del primer
cuadrante, más parecidos serán ambos porcentajes
acumulados, por lo que menor será la concentración.