Download - 1_EstadisticaDescriptivaFII

Estadística y Probabilidades

2015-1

[email protected]

ESTADÍSTICA DESCRIPTIVA

Estadística Descriptiva e Inferencial. Manuel Córdova. (2003). 5ta ed.

Capítulos: 1; 2 y 3

RR 02640-R-2011

Fecha Evento

Entrega del tema Grupal: 1 de abril

30-abr Práctica 1

EAPII Examen parcial

25-jun Práctica 2

EAPII Examen final

Rol de pruebas 2015-I

Entrega física y remisión a campus

trabajo Grupal: 7 mayo

Evaluación del curso

• Laboratorio (L): 60 % asistencia al Laboratorio e informes de tareas más 40% por el trabajo grupal (Excel y SPSS). Ver ejemplo de informe de tareas.

• Dos prácticas. No se elimina ninguna.

• PP = (P1 + P2 + Bonificaciones) / 2

• En las prácticas y exámenes se evaluará todo lo tratado en el curso y solo se permitirá el uso de fórmulas y de tablas de distribución, además toda respuesta debe estar interpretada en función a los datos del problema. Faltas

ortográficas descontarán puntos (aiga, osea, pediorico, biene hacer, etcétera).

• Promedio final = (L + PP + EX1 + EX2) / 4

• En Campus_Virtual FII figuran prácticas y exámenes con solucionarios de ciclos pasados.

Imagen popular de la estadística:

"Existen medias mentiras, mentiras y estadísticas".

Dos significados:

(1) Colección de datos numéricos (una estadística).

Deuda nacional de EE. UU. US$14,56 billones (B), equivalente a: darle a cada peruano US$500 000 o pagar 4 850 meses (400 años) las importaciones peruanas totales.

Según el Instituto de Investigación Hurun en su Informe de Riqueza Hurun 2011, China tiene 960 000 millonarios con un patrimonio personal de millón y medio de $ o más, sobre un total de 1 400 millones de habitantes. Hay 60 000 billonarios. Compran artículos de lujo.

(2) Ciencia: obtener regularidades de fenómenos de masas (la estadística).

Consumo de pan por persona al año: 96 k en Chile, 28 k en el Perú

Fuente: Publimetro, Año 1Edición 40, 17-10-2011, p2.)

Consumo per cápita anual de helados: 6,5 l en Chile. 1,4 l en el Perú.

Consumo per cápita anual de café orgánico en Perú 550 g, en EE.UU.

más de 6 k (Fuente: El Comercio, Suplemento Mi Empresa, 14-10-2012)

Las primas de seguro en el Perú representan 1,5% del PBI. En Colombia

y Chile 2,5% y 4% de sus respectivos PBI.

Teletón 2013: En Perú se recaudó US$1,4 millones, en Chile US$65

millones (con mucho menos necesidades), Guatemala US$3,4 millones

(país mucho más pequeño que Perú)

Sector farmacéutico: Formato counter (40-80 m2); formato autoservicios

(81-120 m2)

¿Saturación de centros comerciales?

Colombia: El consumidor cada vez quiere más servicios en una misma

ubicación. En este sentido, hay aún espacio para crecer en Colombia, donde

–por lo demás– menos del 20% de las ventas de retail se hace en centros

comerciales versus un 50% de lo que sucede en países más desarrollados.

Al analizar la penetración de centros comerciales en el país, medida en

términos de metros cuadrados por habitante, el número de metros

comerciales es inferior a países como Chile y Argentina.

Perú: Baja penetración, 30% en Lima y tan solo 15% en provincias. En

Santiago de Chile y Sao Paulo (80%).

Un centro comercial es una construcción que consta de uno o varios

edificios, por lo general de gran tamaño, que albergan locales y oficinas

comerciales aglutinados en un espacio determinado concentrando mayor

cantidad de clientes potenciales dentro del recinto. Formatos:

Fashion Mall, Community Center, Power Center, Town Center, Online,

LifeStyle Center, Strip Mall, Mall.

Curiosidades del cabello

- Número aproximado de cabellos en una cabeza: 130 000.

- Una persona pelirroja tendrá unos 90 000 cabellos.

- Una persona con pelo negro o muy oscuro tendrá cerca de 130 000

cabellos.

- Una persona con el pelo rubio puede llegar a tener hasta 150 000

cabellos.

- Peso máximo que puede soportar un cabello: unos 100 gr.

- Un cabello con problemas y quebradizo aguantaría unos 30 gr de peso

antes de quebrarse.

- Diámetro medio del cabello: 70 micras.

- Diámetro de un cabello húmedo: 80 micras.

- Largo máximo (media) 60 cm.

- Cabello más largo del que se tiene constancia: 125 cm.

- Juntando todos los cabellos uno detrás de otro cubriríamos una

distancia de unos 20 km.

- Si juntáramos todos los cabellos y suspendiéramos de el un peso,

juntos podrían soportar un peso de más 7 tn.

- Un adulto puede llegar a tener en su cabeza más de 4 millones de

folículos pilosos.

- El número de folículos pilosos alcanza su número máximo a los 20

años, luego empieza a descender.

- Un adulto de 30 años tiene más de 450 folículos pilosos por cm2.

- El cabello crece 20 cm por año, más rápido en verano y en la noche

que en invierno o durante el día.

- Un cabello crece cerca de 1,5 cm cada mes.

- Un cabello crece medio mm diario.

- La vida media de un cabello es de 5 años.

- Un adulto normal pierde unos 100 cabellos diarios.

- Se llama cabello lo que tenemos en la cabeza.

- Al del resto del cuerpo se le llama vello corporal.

- Las primeras referencias a un cabello teñido se encuentran

dibujadas en grutas y cavernas, se usaba distintos barros para

camuflarse.

- El color del cabello depende de la melanina. La cantidad de

melanina en nuestro cuerpo viene determinada genéticamente.

- Existen estudios que indican que las personas con mayor

coeficiente intelectual presentan porcentajes superiores al normal

de zinc y de cobre en el cabello.

-El cabello esta permanentemente creciendo.

- El cabello crece más deprisa durante la noche.

- En el antiguo Egipto los sacerdotes se arrancaban cada cabello y

cada pelo, incluido cejas y pestañas.

-Fuente: http://www.color-es.net/color-y-salud/curiosidades-del-

color-del-cabello.html. Fecha de visita 13-3-2015

Si se compara el cabello europeo, asiático o africano, se observa que no

tienen las mismas propiedades biológicas ni físicas:

- Diámetro: los cabellos más anchos son los chinos.

- Sección transversal: circular para el asiático, elíptica para el africano y oval

para el europeo.

- Forma: liso en Asia, muy ensortijado en el continente africano, con ondas

en la fibra.

- Resistencia a la rotura: los más fuertes se encuentran en Asia y los más

frágiles en África.

- Suavidad y brillo son características más comunes en el cabello europeo y

asiático.

- En biología, es distinta la densidad de cabellos por centímetro cuadrado en

el cuero cabelludo; 226 para el cabello europeo, 175 para el asiático y 161

para el africano. La velocidad de crecimiento también varía: el cabello

africano crece más despacio que el europeo, que a su vez crece más despacio

que el asiático.

- Las propiedades físicas y el comportamiento biológico están íntimamente

ligados, y todo ello está siendo estudiado por los científicos de L‟Oréal para

desarrollar nuevos productos.

Definición de Estadística

La Estadística es la ciencia de la

• sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de

• deducir las leyes (Razonamiento deductivo: teoría de probabilidad) que rigen esos fenómenos.

• y poder hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones (Razonamiento inductivo).

Estadística Descriptiva

RECOLECCIÓN

DE LOS

DATOS

ANÁLISIS

DE LOS

DATOS

PRESENTACIÓN

DE LOS

DATOS

ANÁLISIS

DESCRIPTIVO

TABLAS,

GRÁFICOS

Experimento

Es un estudio en el que se manipulan intencionalmente una o más variables independientes (supuestas causas - antecedentes), para analizar las consecuencias que la manipulación tiene sobre una o más variables dependientes (supuestos efectos – consecuentes), dentro de una situación de control para el investigador.

Determina si la presencia / ausencia de una variable afecta a otra. Determina la magnitud de la influencia. Debe tener control sobre el efecto de variables extrañas.

NOTACIÓN CIENTÍFICA

• Utilizando la notación científica el número se escribe como un producto de dos partes: un número comprendido entre 1 y 10 y una potencia de 10.

• El número se representa con una cifra entera seguido de todas las cifras significativas y multiplicado por la potencia de 10. La potencia de diez recibe el nombre de exponente.

NOTACION CIENTIFICA

• El exponente positivo de la potencia de diez indica el número de lugares que la coma decimal se debe mover hacia la derecha si expresamos el número sin la potencia de diez. Un exponente negativo indica que se moverá hacia la izquierda.

• Ejemplo: 42581000000 equivale a _____________________ con 3 decimales

0,042581 equivale a _____________________ con 2 decimales

Notación científica en excel

8.88887E+11

8.89E-01

Cifras significativas

Es cualquier dígito que denota la magnitud de la

cantidad, según el lugar que ocupa en un número.

a) Cualquier dígito diferente de cero es significativo.

1234,56 6 cifras significativas

b) Ceros entre dígitos distintos de cero son

significativos.


c) Ceros a la izquierda del primer dígito distinto de

cero no son significativos.

000456 3 cifras significativas


Cifras significativas (...)

d) Si el número es mayor que uno (1), todos

los ceros a la derecha del punto decimal son

significativos.



e) Si el número es menor que uno, entonces

únicamente los ceros que están al final del

número y entre los dígitos distintos de cero

son significativos.


En los números enteros, los ceros situados después de un digito distinto de

cero, pueden ser o no cifras significativas.

Por ejemplo, 600 kg puede tener una cifra significativa (el número 6), tal vez

dos (60), o puede tener los tres (600).

Para saber en este caso cual es el número correcto de cifras significativas

necesitamos:

Más datos o más información acerca del procedimiento con que se obtuvo la

medida, por ejemplo la división de escala del instrumento de medición.

O bien, podemos utilizar la notación científica y expresarla así, por ejemplo:

6x 102 (teniendo solo una cifra significativa)

6,0 x102 (teniendo dos cifras significativas)

6,00x102 (teniendo tres cifras significativas)

Conclusión:

La cantidad de cifras significativas que se obtiene como resultado de una

medición, es la cantidad de dígitos que se conocen con cierto grado de

confianza.

Si mejoramos la sensibilidad del equipo de medición, aumentará la cantidad de

cifras significativas.



Consideraciones para el redondeo

a) Si el primer dígito a truncar es mayor

que cinco, incrementar el dígito

precedente en 1.

Redondear 1,61562 a cinco cifras

significativas

Rpta: 1,6156

Consideraciones para el redondeo

b) Si el primer dígito a truncar es cinco y hay

dígitos diferentes de cero después del cinco,

incrementa el dígito precedente en 1.

Redondear 1,61562 a 3 cifras

significativas Rpta: 1,62



c) Si el primer dígito a truncar es cinco y hay

únicamente ceros después del cinco, redondee

al número par.






3 400 = 3,400·103

Significa que si 3,400·103 lo

escribimos "normal"(sin notación

científica), la coma debe avanzar 3

lugares a la derecha, 3400.

0,00340 = 3,4·10-3

0,00340 tiene dos cifras

significativas. El exponente negativo

indica que se debe mover la coma

tres lugares a la izquierda.

120 000 000 =

1,2·108

120 000 000 puede tener 2;3 … 9

cifras significativas y si lo escribi-

mos como 1,2·108 tiene 2 c. s.


Expresar las siguientes cantidades en notación científica

con tres cifras significativas:

– 0,000059847 mg ______________________

– 203,6589 pulg ______________________

– 289 360 000 km ______________________

– 0,005474 mm ______________________


Población y muestra • Población (‘population’) es el conjunto sobre el que estamos

interesados en obtener conclusiones (hacer inferencia). Normalmente es demasiado grande para poder abarcarlo. Tipos: Finita e Infinita.

Es la recolección de todos los individuos, objetos u

observaciones que poseen al menos una característica

común. Ejemplos:

– Alumnos de la Facultad.

– Clientes con tarjeta Bonus.

– Pacientes que se atienden en un consultorio.

– Departamentos construidos con el Programa Mi Vivienda

• Muestra („sample’) es un subconjunto de la población al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones)

– Debería ser “representativo”

– Está formado por miembros “seleccionados” de la población (individuos, unidades experimentales).

Tipos: Probabilística y No Probabilística

VARIABLES

Las variables son aquellas dimensiones o aspectos

del fenómeno en cuestión susceptibles de ser

indagadas a través de los métodos de investigación

pertinentes.

Todas las variables tienen una escala de registro, es

decir, una característica medible (Talla, peso,

coeficiente de inteligencia, etc.) o una cualidad que

es no medible (nacionalidad, sexo, etc). Las

variables se clasifican según su naturaleza, el orden

de observación, el número de variables, la escala de

medición, amplitud de las unidades de medición y su

relación entre ellas.

Según su naturaleza

• Variable no métrica, cualitativa, nominal o categórica Se define cuando expresa una cualidad, característica o atributo, tienen

carácter cualitativo, es decir, sus datos se expresan mediante una palabra, como por ejemplo: Los colores, profesiones, causa de accidentes, etc. También se llaman estadísticas o de atributos.

• Variable métrica, cardinal o cuantitativa Cuando el valor de la variable se expresa en una cantidad, y el dato o

valor puede ser producto de la operación de contar o medir, por ejemplo: Ingresos, número de hijos, producción, desempleo, etc., a la vez se subdividen en discretas y continuas.

– 1. Variable discreta

Cuando el valor de la variable resulta de la actividad de contar, su valor esta representado por los números naturales. Por ejemplo: trabajadores por una empresa, hijos de una o varias familias, habitantes, etc.

– 2. Variable continua

Cuando la variable se puede medir o comparar con una unidad de medida. Las características de estas variables tienen un valor dentro de un rango o recorrido y son expresadas dentro de cualquier número real, como ejemplo: Peso, estatura, tiempo de servicios, sueldos, etc.

Escalas de medición

Conjunto de los posibles valores que una cierta

variable puede tomar.

Se tienen dos grandes tipos de escalas:

a) Escala de medidas de la información (nivel de

medidas) y

b) Escala de medidas de actitudes

Según su forma de medición

Escalas de medición son una sucesión de medidas que permiten organizar datos en

orden jerárquico. Las escalas de medición, pueden ser clasificadas de acuerdo a una

degradación de las características de las variables. Estas escalas son: nominales,

ordinales, intervalares o racionales. Según pasa de una escala a otra el atributo o la

cualidad aumenta. Las escalas de medición ofrecen información sobre la clasificación

de variables discretas o continuas, también más conocidas como escalas grandes o

pequeñas

1. Variables nominales (son cualitativas)

Se da esta variable por categorías, sin ningún orden entre ellas, se distribuye la

unidad de análisis en dos o más categorías, como por ejemplo, sexo, estado civil, lugar

de nacimiento, etc.

2. Variables ordinales (son cualitativas)

En estas variables si se requiere de orden en sus categorías, se refieren a

jerarquías, donde las categorías ofrecen una posición de orden, pero no permiten

cuantificar la distancia entre una categoría y otra, por ejemplo: ciclo académico.

EJEMPLO DE ESCALA NOMINAL

Si nos referimos a la bolsa de valores, tenemos que las acciones de las

empresas se pueden negociar en las bolsas NYSE, AMEX y OTC. Aquí

observamos que la escala de medición para la variable bolsa es nominal

porque NYSE, AMEX y OTC, son las etiquetas que se utilizan para

identificar dónde se negocian las acciones de la compañía. Con el fin de

facilitar la colección de datos prepararlos para que sean capturados en

una base de datos de computadora, podríamos usar una clave numérica

donde el número 1 denote la bolsa de NYSE, el 2 la AMEX y el 3 OTC

(ventanilla). En este caso, los valores numéricos 1, 2 y 3 son las

etiquetas que sirven para identificar el lugar donde se negocian las

acciones. La escala de medición es nominal aun cuando los datos son

mostrados como valores numéricos.

EJEMPLO DE ESCALA ORDINAL

Save Our Souls S.A. envía a sus clientes un

cuestionario diseñado para obtener datos acerca de la

calidad del servicio de reparación automotriz. Cada

cliente asigna una evaluación para el servicio de

reparación: excelente, bueno o malo. Debido a que los

datos obtenidos son las etiquetas: excelente, bueno o

malo, los datos tienen las propiedades de datos

nominales. Además, los datos se clasifican, u ordenan,

respecto a la calidad del servicio. Los datos registrados

como excelente indican el mejor servicio, seguidos por

los buenos y después los malos. Por tanto, la escala de

medición de la variable Calidad del servicio de SOS es

ordinal.

Observa que los datos ordinales también se

pueden registrar por medio de un código

numérico. Por ejemplo, podríamos usar el 1

para excelente, 2 para bueno y 3 para malo con

el fin de mantener las propiedades de los datos

ordinales. Así, los datos para una escala ordinal

podrían ser numéricos o no numéricos.

EJEMPLO DE ESCALA ORDINAL (...)

Según su forma de medición

3. Variables de intervalo (intervalar) Son las que tienen a la vez orden y grados

de distancias iguales entre las diferentes categorías, esto es convencional, pueden asumir valores negativos, como por ejemplo la temperatura, coeficiente de inteligencia, etc.

4. Variables de razón (racionales) Estas variables tienen orden, distancia y

origen único y natural, el valor se expresa en un número real, el cero significa ausencia de la variable, como la edad, el peso, número de hijos, etc.

EJEMPLO DE ESCALA DE INTERVALO

Las puntuaciones de la Prueba de Aptitud Escolar (SAT, por

sus siglas en inglés) son un ejemplo de datos con escala de

intervalo. Por ejemplo, tres estudiantes con puntuaciones SAT

de 1120, 1050 y 970 pueden ser clasificados u ordenados

desde el mejor desempeño al más deficiente. Además, las

diferencias entre las puntuaciones son importantes. Por

ejemplo, el estudiante 1 obtuvo 1120 – 1050 = 70 puntos más

que el estudiante 2, en tanto que el estudiante 2 logró obtener

1050 – 970 = 80 puntos más que el estudiante 3.

EJEMPLO DE ESCALA DE RAZÓN

Considera el costo de un automóvil. Un valor cero

indicaría que el automóvil no cuesta y es gratis.

Además, si comparamos el costo de US$3 000 para

un automóvil con el costo de US$1 500 para un

segundo automóvil, la propiedad de razón deja ver

que el primer automóvil es 3000/1500 = 2 veces, o

el doble, el costo del segundo automóvil.

Escala de medidas de actitudes • Actitud: predisposición aprendida que dirige la reacción ante un

objeto idea u organización de manera neutral, positiva o

negativa.

• Se tienen los siguientes tipos:

– Escalas no comparativas. Las personas entrevistadas puntúan

el objeto o enunciado sin tener en cuenta otros, ni tampoco,

se establecen preferencias entre alternativas. Clases:

• Escala de Likert llamada también escala de calificaciones

sumadas

• Escala de diferencial semántico

• Escala de Stapel

• Etcétera.

Escalamiento tipo Likert

•Consiste en un conjunto de ítems

presentados en forma de afirmaciones o

juicios, ante los cuales se pide la reacción de

los sujetos. Es decir, se presenta cada

afirmación y se pide al sujeto que externe su

reacción eligiendo uno de los cinco puntos de

la escala. A cada punto de la escala se le

asigna un valor, de esa manera se podrá

obtener una puntuación total por sujeto,

sumando las puntuaciones obtenidas en la

relación con todas las afirmaciones

Ejemplo:

•Objeto de actitud medido: El voto

•Afirmación: “Votar es una obligación de

todo ciudadano responsable”

FalsoCompletamente

falso

"Afirmación"

Completamente

verdaderoVerdadero Ni falso, ni verdadero

En desacuerdoTotalmente en

desacuerdo

"Afirmación"

Definitivamente

si

Probablemente

siIndeciso

Probablemente

no

Definitivamente

no

"Afirmación"

Totalmente de

acuerdoDe acuerdo Neutral

En desacuerdoMuy en

desacuerdo

Ni de acuerdo, ni en

desacuerdo

"Afirmación"

Muy de acuerdo De acuerdo

Diferencial Semántico

Consiste en una serie de adjetivos extremos

que califican al objeto de actitud con un

conjunto de adjetivos bipolares; entre cada

par de adjetivos, se presentan varias opciones

y el sujeto selecciona aquella que en mayor

medida refleje su actitud.

Diferencial Semántico

Ejemplo:

•Objeto de actitud: Candidato “A”

Justo__:__:__:__:__:__:__Injusto

•Debe observarse que los adjetivos son “extremos” y que entre ello hay siete opciones de respuesta. Cada sujeto califica al candidato “A” en términos de esta escala de adjetivos bipolares.

Escala de Stapel

Técnica de autoinforme para la medición de actitudes en que

se pide a los sujetos que indiquen el grado de exactitud con

que cada una de diversas afirmaciones describe al objeto

de interés. Ejemplo:

Seleccione un número positivo para palabras que en su

opinión, describa con precisión al objeto (por ejemplo

servicio administrativo de la Facultad). Cuanto más

exacta piense que es la descripción, tanto mayor será el

número positivo que debe elegir. De igual modo,

seleccione un número negativo para las expresiones que

en su opinión no la describa exactamente.

-5 -4 … +1 +5

El trato es cortés.

El horario es conveniente.

Escala de medidas de actitudes

– Escalas comparativas, se le pide al sujeto que

juzgue cada atributo en comparación directa

con los demás que se evalúan. Se tienen los

siguientes métodos:

• Escala de comparación par

• Escala de orden

• Escala de suma constante

• Etcétera

• Es buena idea codificar las variables como números para poder procesarlas con facilidad en un ordenador.

• Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos. – Sexo (Cualit: Códigos arbitrarios)

• 1 = Hombre

• 2 = Mujer

– Raza (Cualit: Códigos arbitrarios) • 1 = Blanca

• 2 = Negra,...

– Felicidad Ordinal: Respetar un orden al codificar.

• 1 = Muy feliz

• 2 = Bastante feliz

• 3 = No demasiado feliz

• Se pueden asignar códigos a respuestas especiales como

• 0 = No sabe

• 99 = No contesta...

• Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos („missing data‟)

Excel; SPSS; SAS, Minitab, Eviews, etc

Tabla de distribución de frecuencia

Es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia.

– Frecuencias absolutas: Contabilizan el número de individuos

de cada modalidad (clase o categoría).

– Frecuencias relativas (porcentajes unitarios): Ídem a frecuencia absoluta, pero dividido por el total de datos (N).

– Frecuencias acumuladas absolutas y relativas: Acumulan las

frecuencias absolutas y relativas. Son especialmente útiles

para calcular cuantiles.

Tabla de distribución de frecuencias absolutas y relativas

• La región de

Arequipa convocó a

un referendo sobre la

aprobación de la Ley

del Talión.

• Completa la tabla de

distribución de

frecuencias absolutas

y relativas asumiendo

los valores resultantes

que desees.

OPCIÓN

VOTOS

(000)

ni

Frecuencia

relativa %

fi = ni/N

SI

TOTAL (N) 1 200

REGLAS PARA ELABORAR DISTRIBUCIONES DE

FRECUENCIAEN INTERVALOS DE CLASES

IGUALES

1) Decidir el número de clases (m) a considerar:

m = N; m = 1+ 3,3 log N (Ley de Sturges); m = de 5 a 15

2) Determinar el recorrido o rango de los datos y la amplitud

)( del recorrido.

3) Determinar la amplitud (c) o longitud de los intervalos de clase.

mc

4) Determinar los límites de cada clase i: Y‟i-1 (Límite inferior de

la clase i) y Y‟i (Límite superior de la clase i)

Y‟i = Y‟i-1 + c

5) Determinar las marcas de clase ()

6) Hallar la frecuencias absolutas de clase (ni o fi)

7) Hallar las frecuencias relativas (hi). Función de probabilidad

Ni

f

ih

8) Hallar las frecuencias relativas acumuladas crecientes o

menor que, (Hi). Función de distribución de probabilidad.

i

jjhiH

1

9) Hallar las frecuencias relativas acumuladas decrecientes o

mayor o igual que, ( *iH )

m

ij jh

iH*

REGLAS PARA ELABORAR DISTRIBUCIONES DE FRECUENCIA (...)

Ejemplo

El contenido de nicotina para producir cáncer pulmonar, en miligramos, para una cajetilla de 40 cigarrillos marca TMata se registraron de la siguiente manera:

1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.24

1.58 2.03 1.7 2.17 2.55 2.11 1.86 1.9 1.68 1.51

1.64 0.72 1.69 1.85 1.82 1.79 2.46 1.88 2.08 1.67

1.34 1.93 1.4 1.64 2.09 1.75 1.63 2.37 1.75 1.69

Construir la tabla de distribución de frecuencias. Propuesta de solución: 1º paso: calculamos la longitud (L) o recorrido total (algunos autores recomiendan añadir la unidad)

L = 2,55 – 0,72 = 1,83 2º paso: calculamos el número de intervalos (m)

m = 1 + 3,3 * log 40 = 6,28 Truncando m = 6 (otros autores recomiendan redondear a 7) 3º paso: calculamos la amplitud o anchura del intervalo (A).

A = 1,83/6 = 0,305

Ejemplo de la nicotina (...)

4º paso: elaboramos la tabla de distribución de frecuencias. Completa la 5ta clase

Clase i fi hi hi% Hi Hi% Hi* Hi*%

[0.72-1.025> 2 0.05 5.0% 0.05 5.0% 1 100.0%

[1.025-1.33> 2 0.05 5.0% 0.1 10.0% 0.95 95.0%

[1.33-1.635> 6 0.15 15.0% 0.25 25.0% 0.9 90.0%

[1.635-1.94> 19 0.475 47.5% 0.725 72.5% 0.75 75.0%

[1.94-2.245> 6

[2.245-2.55] 5 1 0.125

Donde: [ ( o < ) incluye a… y > ( o [ ) no incluye a…

i: Representa la marca de clase

Ejercicio. Un estudio de la empresa Oh Margot S. A., encontró las distancias que recorrerían sus trabajadores desde su respectivo hogar a su lugar de trabajo.

a) ¿Cuál es la probabilidad que un trabajador seleccionado al azar tenga que viajar 11 km o más para ir al trabajo?

b) ¿Cuál es la probabilidad de que un trabajador elegido al azar tenga que viajar entre 6 y15 km para ir al trabajo?

A B C D E F

≤ 5 6-10 11-15 16-20 21-30 ≥ 31

Nro de km recorridos casa-trabajo

No, no siempre debe ser del mismo ancho, algunas

situaciones obligan a usar intervalos de distinto ancho. Por

ejemplo cuando se trata de variables como “Salarios”, a

menudo es conveniente usar ancho distinto, pues para

salarios bajos, pequeñas diferencias son importantes, pero las

mismas no lo son para salarios altos. Así por ejemplo para un

salario de S/.300; 30 unidades monetarias representa el 10%,

sin embargo para salarios de S/.6 000, esta diferencia deja de

ser importante. En este caso sería recomendable, usar

intervalos cortos al principio de la escala e ir aumentando su

tamaño.

¿Tienen que ser todos los intervalos de clase

necesariamente del mismo ancho?

Clases de desigual tamaño. Los intervalos de clase que son desiguales no son

frecuentes en el análisis estadístico, la utilización de los mismos se debe evitar;

sin embargo, en algunas investigaciones es indispensable su utilización; tal es el

caso de las investigaciones que tienen como propósito particular analizar valores

que varían en un amplio recorrido de la variable. Cuando se utiliza este tipo de

clase de los intervalos de clase deberían ser incrementados de una forma

ordenada, de ser posible. Este tipo de clases se utiliza algunas veces para

reportar datos relacionados con valuaciones de activos o ingresos personales.

La siguiente TDF contiene los ingresos mensuales en US$ de los

futbolistas mejor pagados en el mundial.

Clase Frecuencia Marca de clase

Menos de 150,000 67 ?

150,000 – 239,000 36 194500

340,000 – 429,000 10 384500

430,000 – 519,000 8 474500

520,000 – 609,000 7 564500

610,000 – 699,000 8 654500

700,000 – 789,000 7 744500

790,000 – y más 7 ?

Total 150

Ejercicio

Una distribución de frecuencia simétrica

presenta las siguientes características:

; ; y n1 = 1

Yi = Marca de clase i

Elabora la tabla de distribución de frecuencias

absolutas y relativas.

i

Respuesta: 9; 12 y 15

Gráficos para variables

cualitativas

• Diagramas de barras – Alturas proporcionales a

las frecuencias (abs. o rel.)

– Se pueden aplicar también a variables discretas

• Diagramas de sectores (tartas, polares) – El área de cada sector es

proporcional a su fre-cuencia (abs. o rel.)

0

2

4

6

8

10

60 70 80 90 100 110 120 130 S/.

f

Gráficos para variables cuantitativas

Histograma según las frecuencias absolutas

Gráficos para variables cualitativas

• Pictogramas

– Fáciles de entender.

– Cada modalidad debe ser proporcional a la frecuencia.

De los dos pictogramas,

¿cuál dirías que es incorrecto?

Gráficos diferenciales para

variables numéricas

Son diferentes en función de que las variables sean discretas o continuas.

Valen con frec. absolutas o relativas.

– Diagramas barras para v. discretas

• Se deja un hueco entre barras para indicar los valores que no son posibles

– Histogramas para v. continuas

• El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.

0 1 2 3 4 5 6 7 Ocho o más

Número de hijos

100

200

300

400

Recu

en

to

419

255

375

215

127

54

24 23 17

20 40 60 80

Edad del encuestado

50

100

150

200

250

Recu

en

to

Diagramas integrales

• Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo.

Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último dígito) y un "tallo" (los otros dígitos). Por ejemplo "32" sería dividido en "3" (tallo) y "2" (hoja). Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o izquierda) del los valores tallo. El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo.

Diagrama de hojas y tallos (gráfico de tallo

y hojas, histograma digital, Stem an Leaf).

Gráficos de tallos (o tronco) y hojas (de Tukey)

Un procedimiento semi-gráfico de presentar la información para

variables cuantitativas, útil cuando el número total es pequeño (menor

que 50), es el diagrama de tallo y hojas de Tukey. Los principios para

construirlo son:

a) Redondear los datos a dos o tres cifras significativas, expresándolas

en unidades de medidas convenientes.

b) Disponerlos en una tabla con dos columnas separadas por una línea

como sigue:

1) Para datos con dos dígitos, escribir a la izquierda de la línea los dígitos

de las decenas – que forma el tallo – y a la derecha las unidades, que

serán las hojas. Por ejemplo, 87 se escribe 87.

2) Para datos con tres dígitos el tallo estará formado por los dígitos de las

centenas y decenas, que se escribirán a la izquierda, separados de las

unidades. Por ejemplo, 127 será 127.

Cada tallo define una clase, y se escribe solo una vez. El número de

”hojas” representa la frecuencia de dicha clase.

Ejemplo tallo - hojas

Elaborar un diagrama tallo - hojas para los siguientes valores

recogidos en cm, los cuales representan los diámetros de las

fresas utilizadas en una hidro fresadora:

11,357; 12,542; 11,384; 12,431; 14,212; 15,213; 13,300;

11,300; 17,206; 12,710; 13,455; 16,143; 12,162; 12,721;

13,420 y 14,698.

Propuesta de solución:

a) Los datos redondeados, expresados en mm, son:

114; 125; 114; 124; 142; 152; 133; 113; 172; 127;

135; 161; 122; 127; 134; 147.

b) Diagrama de tallo y hoja para los datos expresados en mm:

11 4 4 3

12 5 4 7 2 7

13 3 5 4

14 2 7

15 2

16 1

17 2

decenas unidades

Ejemplo tallo – hojas (...)

Ejercicio. La empresa exportadora La Gran Fruta S.A., por

razones fitosanitarias, está experimentando un nuevo

insecticida para combatir a la mosca de la fruta. El

siguiente cuadro representa la vida en segundos de 50

Ceratitis capitata Wied . Construye el diagrama de

tallos y hojas.

17 20 10 9 23 13 12 19 18 24

12 14 6 9 13 6 7 10 13 7

16 18 8 13 3 32 9 7 10 11

13 7 18 7 10 4 27 19 16 8

7 10 5 14 15 10 9 6 7 15

Ejercicio. Reproduce los valores originales (cm) de la siguiente

tabla que representa el tamaño de las truchas de una muestra de la

piscigranja K‟Buena Trucha.

Unidad = 0,01

41 2 2

42 6 6 8

43 1 0 3 2

44 2 3

45 1

46 0

Ejemplo 41¦2 representa 4,12

Parámetro y estadístico

• Parámetro (Valores estadísticos de la pobla-

ción): Es una cantidad numérica calculada

sobre una población.

– La altura media de los individuos de un país.

– La idea es resumir toda la información que hay en

la población en unos pocos números (parámetros).

– Se simboliza por letras griegas. Solo hay un

parámetro en cada población por cada cantidad a

resumir.

μ : Media poblacional (mu)

σ2 : Varianza poblacional (sigma cuadrado)

σ : Desviación estándar poblacional (sigma)

π : Proporción poblacional (pi)

Parámetro y estadístico (...)

• Estadístico (estimador, estadígrafo): Ídem al anterior (cambiar población por muestra).

– La altura media de los que estamos en esta aula.

• Somos una muestra (¿representativa?) de la comunidad universitaria de la Facu?).

– Si un estadístico se usa para aproximarse a un parámetro, también se le suele llamar estimador

– Existen tantos estimadores como muestras se extraigan de una población.

– Se simbolizan por letras latinas:

x : Media muestral

s2 : Varianza muestral

s : Desviación estándar muestral

Pi : Proporción muestral

Ejercicios

• Identifica la población y la muestra en la siguiente

situación: En la Facultad se quiere saber la ocupación de

los egresados de la última década. Para esto se convoca a

una reunión de egresados y de los asistentes, se encuesta a

diez egresados de cada promoción. Determina la población

y la muestra.

• Justifica por qué la siguiente situación es una cualitativa

ordinal: Una fábrica de galletas saca una nueva marca al

mercado en presentaciones de diferentes sabores. Para

comercializarlas se ofrecen degustaciones de ellas a un

grupo de personas, quienes luego de degustarlas deben

clasificar en muy buenas, buenas, regulares y malas.

• http://es.scribd.com/doc/60993130/variables-poblacion-

muestra-ejercicios

Estadísticos de forma intuitiva

Medidas de posición

• Se define el cuantil (fractil) de orden k como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada determinada.

• Casos particulares de los cuantiles son los: percentiles (centiles), cuartiles, deciles, quintiles, etcétera.

• Métodos para calcular percentiles: Haverage, Waverage, Round y Empirical y Aempirical

Un cuantil o porcentil de X%, Pa% es aquel valor tal que un

X% de los datos es menor a él y un (1 - X)% de ellos es

mayor a él.

25%

50%

25%

Y1, Y2, .............. Yq, Yq+1, Yk-1, Yk , Ym , Yn-1, Yn Yr, .. ............. ....... .... Yl , ....

35%

67%

75%

25%

5%

Primer cuartil: P25%

Segundo cuartil: P50%

(mediana)

Tercer cuartil: P75%

P95%

• Percentil: Son valores que dividen una muestra ordenada en forma ascendente (o descendente) en 100 partes iguales. El percentil es el valor que ocupa la posición { I(N) / 100 }

– La mediana es el percentil 50.

– El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%.

• Cuartil: En un conjunto de N observaciones ordenadas de menor a mayor, el primer cuartil es la observación que ocupa la posición { (N + 1) / 4} y el tercer cuartil es la observación que ocupa la posición { 3(N + 1) / 4}. El segundo cuartil (la mediana) es la observación que ocupa la { (N + 1) / 2} posición.

• Cuando (N + 1) no es múltiplo de 4, los cuartiles se calculan por interpolación. Supongamos que N = 12 entonces (N + 1) /4 = 3,25 por lo tanto se toma como primer cuartil el número que está a un cuarto del camino entre la tercera y la cuarta observación.

• La diferencia entre el tercer y el primer cuartil nos da una

medida de la dispersión que se conoce con el nombre de rango

intercuartilico.

– Primer cuartil = Percentil 25 = Cuantil 0,25.

– Segundo cuartil = Percentil 50 = Cuantil 0,5 = Mediana.

– Tercer cuartil = Percentil 75 = Cuantil 0,75.

• El SPSS calcula las bisagras de Tukey, que define los

cuartiles de la distribución según una transformación realizada

por Tukey. La primera bisagra (similar al percentil 25) es el

valor que ocupa la posición intermedia entre la mediana y el

valor más pequeño de la distribución; la segunda bisagra es la

mediana; la tercera bisagra es el valor que ocupa la posición

intermedia entre la mediana y el valor más grande de la

distribución.

Ejercicios:

1) En un lote de bolsas de cemento Portland Tipo I Ecológico

(aproximadamente 42,5 kg) almacenados en la Distribuidora Nemesia

Tchevishef EIRL. ¿Qué percentil es superado solo por el 25% de las

bolsas de mayor peso?

• Percentil ________.

2) El colesterol se distribuye simétricamente en la población. Se

considera patológico los valores extremos. El 90% de los individuos

son normales.

a) ¿Entre qué percentiles se encuentran los individuos normales?

• Entre el percentil ______ y el percentil _______.

b) ¿Entre qué cuartiles y percentiles se encuentra la mitad de los

individuos “más normales” de una población?

• Entre el cuartil _______ y el cuartil _______.

• Entre el percentil _____ y el percentil __________

4) “El gobierno solo quiere financiar al primer y segundo quintil, pero lo que

nosotros sostenemos es que la clases media está también dentro de los sectores

más vulnerables. Nuestra propuesta es avanzar para los 7 primeros deciles e ir

avanzando hacia la gratuidad total …”

(Camila Vallejo, lideresa de la protesta de los estudiantes chilenos. Diario El

Comercio del 14-8-2011. Internacional, p. 10.)

Ejercicios: (...)

3) Se ha calculado el percentil 85 sobre las estadísticas de siniestralidad laboral

en el Sector Construcción durante el último año (Nº accidentes / año). Y se ha

obtenido el valor 2,5. Indica el significado de este dato.

Percentiles para datos agrupados

Cálculo para datos agrupados:

c

f

n

iK

K

P

1i

F100

*K

LP

donde:

: percentil

: el percentil buscado

: número de datos

Li : frontera de clase (Semisuma de límite inferior

clase i y límite superior clase i+1

: frecuencia acumulativa hasta la clase

anterior a la clase donde se ubica el percentil K

: frecuencia absoluta de la clase donde se ubica

el percentil K

: amplitud de clase

K

P

c

K

n

iF

K

fP

Percentiles para datos agrupados (...)

Ejemplo:

La tabla muestra la experiencia en años de los

peones de la constructora A Lo Techo Pecho.

Experiencia Peones

(años)

0 - 3 18

4 - 7 42

8 - 11 68

12 - 15 120

16 - 19 40

20 - 23 34

24 - 27 12

Total 334

Ejemplo (...). ¿Sobre cuántos años se ubica el 25% de

las peones de mayor experiencia?

Para saber en cuál clase se halla este dato, se

calcula la frecuencia acumulada.

Menor

Experiencia

Mayor

Experiencia

75 % 25 %

P75

K = 75

)ordenados años los de( 5,250100

)334(75

100

KnP del Lugar avo

75

Experiencia Nº peones Frec. Acumulada

(años)

0 - 3 18 18

4 - 7 42 60

8 - 11 68 128

12 - 15 120 248

16 - 19 40 288

20 - 23 34 322

24 - 27 12 334

334

Interpretación: Para que un peón esté comprendido dentro del 25% de mayor experiencia laboral debe tener al menos 15 años, 7 meses y 24 días de experiencia.

4*

40

1248100

(334)*75

5.1575

P

aexperienci de años 65,1575

P

iFif

En esta clase

se localizan del

249avo – 288avo

F=248

Diagrama de Caja

Es un gráfico de caja es muy útil para representar diferencias entre grupos así como mostrar los valores atípicos (discordantes, raros, outliers, aislados). Permite analizar y resumir un conjunto de datos univariante dado.

Para elaborar el diagrama solo se necesitan cinco valores estadísticos: el valor mínimo, Q1 (primer cuartil); la mediana (Q2, segundo cuartil); Q3 (tercer cuartil) y el valor máximo.

La principal desventaja es que no presenta ninguna información de las frecuencias de los datos.

Diagrama de Caja

Mucha

dispersión Aparecen

valores

extremos

Poca

dispersión

Valor atípico (Outliers)

Un valor atípico es una observación que es numéricamente distante del resto de los datos. Las estadísticas derivadas de los conjuntos de datos que incluyen valores atípicos serán frecuentemente engañosas. Por ejemplo, en el cálculo de la temperatura media de 10 objetos en una habitación, si la mayoría tienen entre 20 y 25 ºC, pero hay un horno a 350 °C, la mediana de los datos puede ser 23, pero la temperatura media será 55. En este caso, la mediana refleja mejor la temperatura de la muestra al azar de un objeto que la media. Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente del resto de la muestra establecida.

Tomando como referencia la diferencia entre el primer cuartil (Q1) y el tercer cuartil Q3, o valor intercuartil, en un diagrama de caja se considera un valor atípico el que se encuentra 1,5 veces esa distancia de uno de esos cuartiles (atípico leve) o a 3 veces esa distancia (atípico extremo). Bisagras de Tukey.

Valor atípico leve

• Siendo Q1 y Q3 el primer y tercer cuartil, y IQR el rango intercuartil (Q3 − Q1), un valor atípico leve será aquel que:

X < Q1 – 1,5 IQR

o

X > Q3 + 1,5 IQR

• Q1 y Q3 determinan, pues, los llamados limites interiores, a partir de los cuales la observación se considera un atípico leve.

Valor atípico extremo

Los atípicos extremos son observaciones más

allá de los límites externos:

X < Q1 – 3 IQR

o

X > Q3 + 3 IQR

Detección univariante de casos atípicos

Uno de los procedimientos más extendidos es considerar

atípicos los casos cuyo valor estandarizado (Zi) supere un umbral determinado. Será dato atípico si:

K = 2,5 para muestras pequeñas (menos de 80 casos)

K = 3 o 4 para muestras mayores

Otros métodos para detectar valores atípicos son: Diagrama de control, Diferencia entre los estadísticos robustos de la variable y sus estadísticos no robustos, test de Dixon, test de Grubs, etc.

xikszz

105 110 112 112 118 119 120 120 120

125 126 127 128 130 132 133 134 135

138 138 138 138 141 142 144 145 146

148 148 148 149 150 150 150 151 151

153 153 154 154 154 154 155 156 156

158 160 160 160 163 164 164 165 166

168 168 170 172 172 176 179

Presión atmosférica en 61 puntos de la Costa Nostra

Un resumen de esta serie en 5 valores

Min = 105 ; Max =179; Q1 = 132,5 ; Q3 = 158,5 ; Q2 = Md = 149

179 105 132,5 149 158,5

IQR = Q3 - Q1

Recorrido intercuartílico

Min Max

Md (Mediana de los datos superiores) Q1 Q3 (Mediana de los datos superiores)

(“Box-and-Whisker” plot)

Ejemplo. La empresa periodística La Hora de la Beldad SA tiene

las siguientes ventas de sus revistas, elabora el diagrama de caja.

Ventas en unidades físicas

Producto Mes 1 Mes 2 Mes 3

A 100 400 800

B 200 300 750

C 300 200 600

D 400 100 550

Diagrama de Caja

3333N =

Producto DProducto CProducto BProducto A

1000

800

600

400

200

0

Solución

Ejercicio

• ¿Qué porcentaje de los datos está

representado por la caja?

• ¿Qué porcentaje representa cada uno de los

bigotes?

• ¿Puede ser un bigote más largo que otro?.

¿Cuál es el significado?

• ¿Se encuentra la mediana siempre en el

centro de la caja?

Medidas de centralización • Añaden unos cuantos casos particulares a las medidas de

posición. Son medidas que buscan posiciones (valores) con

respecto a los que los datos muestran tendencia a agruparse.

• Si se calcula la media armónica (H), la media geométrica

(G) y la media aritmética (X), para los mismos datos se tiene

que: H < G < X • Se dice que un estadístico es resistente (robusto) cuando éste no se

ve afectado por la presencia de valores muy alejados del resto de

la distribución, por ejemplo los fráctiles, mediana, M-estimadores

(estimadores basados en el método de máxima verosimilitud. Se

tienen los siguientes de Hubert, de Tukey, de Andrews, de

Hampel, los cuales difieren entre sí por los pesos que asignan a

los casos. El SPSS los calcula en el procedimiento EXPLORAR).

• No es un estadístico resistente la media aritmética, como

alternativa existe la media truncada (media recortada, media

podada, trimmed mean) en la que se elimina un % de la cola

inferior y superior de la distribución o la media winsorizada

sustituye ese % de valores por valores del centro de la

distribución.

Medidas de centralización (...)

• Media („mean‟). µ. η (H, eta). Es la media

aritmética (promedio) de los valores de una

variable. Suma de los valores dividido por el

tamaño poblacional o muestral. Litros por

persona, Tercio superior, etc.

– Media de {2; 2; 3; 7} es ( 2 + 2 + 3 + 7) / 4 =

3,5

– Conveniente cuando los datos se concentran

simétricamente con respecto a ese valor. Muy

sensible a valores extremos.

– Centro de gravedad de los datos.

Propiedades de la media aritmética

-La suma de diferencias (de todos los valores)

respecto a la media es siempre 0.

-Si sumamos una constante a cada uno de los

valores, la nueva media aritmética resultante será la

original más la constante.

-Si multiplicamos cada uno de los valores por una

constante, la nueva media aritmética será la original

por la constante.

-Minimiza la suma de diferencias en términos

cuadráticos.

Cálculo de la media a partir de datos agrupados

El cálculo de la media aritmética, cuando los datos

disponibles se encuentran en tablas de distribución de

frecuencias, se realiza utilizando la fórmula siguiente:

donde:

: media muestral

: frecuencia absoluta de la clase i

: marca de la clase i

nf

nf

i

i

i

ii

x

1

1X

x

if

iX

Ejercicio. A continuación se tienen las dos distribuciones por sexo y

edad de los desocupados en el distrito de Chongos Bajos (marzo

2014). La PEA está comprendida entre 16 a 65 años.

Hombres Mujeres

Grupos de edad Frecuencia Frecuencia

< 20 años 17 654 20 902

20 – 24 años 10 943 34 448

25 – 29 años 9 322 26 834

30 – 44 años 11 106 52 854

> 44 años 14 216 41 274

Fuente: INEI

1) ¿Qué población (la de hombres o la de mujeres) presenta una edad

media mayor?

2) ¿Cuál está más envejecida en términos medios?

Medidas de centralización …

Ejercicio. Los nueve empleados de la empresa constructora

Esteban Dido viven al lado de la Av. Universitaria (Comas) en

diferentes kilómetros, tal como se muestra en el siguiente gráfico:

3 2 3 1

Km 1 4 5 6 26

Dado que cada uno de los nueve trabajadores viaja en su propio

automóvil, y si quieres minimizar el coste en gasolina, ¿en qué

lugar pondrías la empresa para minimizar tal coste?

Núm. Emp.

Propiedades de la mediana

-No utiliza todos los elementos

-Se puede calcular con datos ordinales

-Se ve menos afectada por datos atípicos que la media aritmética.

-Minimiza la suma de diferencias en valor absoluto (recordar que

la media aritmética minimizaba la suma de diferencias en térmi-

nos cuadráticos)

• Ambas sirven para estimar el valor o tamaño medio de una variable,

que debe entenderse como el “valor esperable” o “normal”.

• Si la distribución es normal, media y mediana coinciden.

• Si hay discrepancia entre ambas, es preferible la mediana.

• La razón es que la mediana es robusta, es decir, poco sensible a datos

atípicos. La media, en cambio, es muy sensible.

Media versus Mediana

En particular, en ausencia de normalidad son relevantes los contrastes no

sobre la media, sino sobre la mediana

¿Cuál elegir?

Moda

Mediana Media

Ejercicio. Se han analizado los promedios

promocionales de la asignatura Estadística y

Probabilidad, y se ha obtenido lo siguiente: la nota

modal de la Sección A es 15, la nota media 12,8 y la

mediana 13,5;en la Sección B la nota modal es 11, la

nota media 14 y la mediana 13,5. Se pide:

a) Bosquejar una curva que represente la información

dada para cada sección.

b) ¿Sería posible que en la Sección A, más de la mitad

de los estudiantes obtenga más que la nota media?

c) ¿Sería posible que en la Sección B, más de la mitad

de los estudiantes obtenga menos que la nota

media?

Estadísticos resistentes: Son aquellos que no se ven

influidos (o solo ligeramente) por pequeños cambios en los

datos.

Evidentemente, la media es un estadístico muy poco

resistente a cambios en los datos, dado que se ve influida

por todos y cada uno de ellos.

La mediana, en cambio, es un estadístico altamente

resistente.

Resistencia y robustez

Estadísticos (Estimadores) robustos: Son

aquellos estadísticos (estimadores) que

funcionan bien para varios tipos distintos de

distribuciones teóricas, aunque pueden no ser el

mejor estimador para ningún tipo concreto de

distribución. Es decir, son el “mejor

compromiso”.

La media no es un estimador robusto.

La mediana es un estimador más robusto que la

media, si bien hay otros estimadores más

robustos que veremos en el punto siguiente del

temario.

Medidas robustas de tendencia central

1. Medias Recortadas

Consiste en calcular la media aritmética sobre un subconjunto central

del conjunto de datos, no considerándose una determinada proporción p

por cada extremo. (p se expresa normalmente como porcentaje).

Por ejemplo, una media recortada al 40% en una secuencia de 10 datos

implica no tener en cuenta ni los cuatro valores menores ni los cuatro

valores mayores.

Observa que la media recortada al 0% es la media aritmética.

A la media recortada al 25% se la denomina centrimedia.


1. Medias Recortadas (cont)

Calcula la media recortada al 5% de los siguientes datos:

3, 4, 4, 5, 5, 6, 7, 8, 9, 11

El valor debe ser 6.11

Calcula la media recortada al 10% de los datos anteriores (da 6)

Calcula la centrimedia (da 5.8)


2. Media Winsorizada

Es análogo a las medias recortadas excepto en que las puntuaciones

eliminadas, ya no lo son sino que se sustituyen por los valores menor y

mayor que quedan para el cómputo de la media winsorizada.

Así, en la media recortada a nivel 2 implicaría eliminar las dos

puntuaciones mayores y las 2 menores:

3, 4, 4, 5, 5, 6, 7, 8, 9, 11

Y quedan los datos: 4, 5, 5, 6, 7, 8 y se calcula la media de los mismos

En la media winsorizada, los datos 3 y 4 (los dos menores) y el 9 y 11

(los dos mayores) se sustituyen por 4 y 8 respectivamente. Es decir,

4, 4, 4, 5, 5, 6, 7, 8, 8, 8 y se calcula la media de los mismos, que será la

media winsorizada a nivel 2 (debe de dar 5.9)


En muchas ocasiones lo que se hace es emplear un valor mínimo y uno

máximo más allá del cual se eliminan los datos que sobrepasen tales

valores.

Por ejemplo, en experimentos de tiempo de reacción para discriminar

palabras/pseudopalabras se pueden eliminar datos menores de 200

palabras y mayores de 1 500 palabras. (Menos de 200 ps. es demasiado

rápido; más de 1 500 ps. es demasiado lento.)

De esta manera, si todos los datos están en el rango 200-1500 ps. no se

elimina ningún dato

3. Otros tipos de media en la que se recortan datos


4. Trimedia

Es un índice de tendencia central que consiste en calcular una media

aritmética ponderada de tres medidas, la Mediana (con peso doble) y el

primer y tercer cuartil.

Pensemos que en un conjunto de datos, el primer cuartil es 51, la

mediana es 55 y el tercer cuartil es 63. La trimedia es:


5. Otras medidas robustas

El estimador-M de Huber, el estimador biponderado de Tukey, el

estimador M-redescendente de Hampel y el estimador en onda de

Andrew. Estos estimadores se diferencian entre sí por el tipo de

ponderación aplicada sobre los datos.

Por ejemplo, en el Estimador-M de Huber (Estimador M de

posición): Las puntuaciones típicas que sean menores que una

constante, reciben un peso de uno. Los casos que tienen los

mayores valores absolutos tienen pesos tanto más pequeños

cuanto mayor es su distancia respecto a cero. La constante es

1,339.

El cálculo se obtiene con el SPSS, por ejemplo.

Extensión del intervalo h = 390 - 375

23.3841558

8375

Mo

Clases Xi f F fr Fr

330-345 337 3 3 0,09 0,09

345-360 352 3 6 0,09 0,18

360-375 367 4 10 0,11 0,29

375-390 382 12 22 0,34 0,63

390-405 397 7 29 0,20 0,83

405-420 412 4 33 0,11 0,94

420-435 427 2 35 0,06 1,00

TOTAL 35 1,00

Clases Xi f F fr Fr

330-345 337 3 3 0,09 0,09

345-360 352 3 6 0,09 0,18

360-375 367 4 10 0,11 0,29

375-390 382 12 22 0,34 0,63

390-405 397 7 29 0,20 0,83

405-420 412 4 33 0,11 0,94

420-435 427 2 35 0,06 1,00

TOTAL 35 1,00

Càlculo de la moda para datos agrupados

1) Determina la clase que contiene la Moda

2) Realiza la interpolación para hallar el valor de la Mo

375Li

hLiMo21

1

1 = 12 – 4 = 8 2 = 12 – 7 = 5

1

2

Ejemplo para datos agrupados

Peso M. Clase Fr. Fr. ac.

40 – 50 45 5 5

50 – 60 55 10 15

60 – 70 65 21 36

70 - 80 75 11 47

80 - 90 85 5 52

90 - 100 95 3 55

100 – 130 115 3 58

58

• Moda = marca de clase de (60,70] = 65

3,6958

31151055545

n

nxx i ii

6,66)6070(21

15585,060

)(585,0

11

15,0

ii

i

ii LL

n

NLCMediana

8,76)7080(11

365,4370)(

5875,01

1175,075

ii

i

ii LL

n

NLCP

Media geométrica ( )

Se utiliza para calcular tasas medias de variación, como la tasa media de crecimiento poblacional, la tasa media de inflación mensual, la tasa media de mortalidad, entre otros.

Es útil para encontrar el promedio de porcentajes, razones, índices o tasas de crecimiento.

La media geométrica es más aconsejable que la aritmética para promedio de razones. (Las razones son recíprocas)

La siempre será menor que o igual a (nunca mayor que) la media aritmética. Cuando quiere darse importancia a valores pequeños de la variable, es aconsejable la media geométrica.

Ejemplo. Para llevar un registro del valor del dólar USA, se

crea un índice de referencia (base 100) denominado "Dollar-

Index" cuyo valor está en función de un promedio geométrico

de las monedas de los seis (6) principales socios comerciales de

EE.UU.

gx

gx

Media geométrica ( )

a) Obtención Se obtiene extrayendo la raíz enésima del producto de los n valores de una serie.

gx

ngn

x XXXX ...*3

*2

*1

Ejemplo:

La siguiente tabla muestra la tasa de aumento en los precios

de los bienes y servicios (inflación) transados en el Distrito

de Acarí durante los meses indicados. Calcula e interpreta la

tasa media mensual de la inflación.

Meses Enero Febrero Marzo Abril Mayo

Aumento de

precios2.6% 5.4% 3.8% 0.5% 1.4%

La tasa 2,6% del mes de enero también se puede

expresar como 0,026 , y puesto que se refiere a un

aumento a partir de una base de 100%, el factor de

variación Dic. a Ene. será 1,026. Para los otros datos se

opera de igual manera.

5 )014.1)(005.1( )038.1( )054.1( )026.1(

)( 0272540,1 medioocrecimientdeFactor

100)1 ( Tasa media

de variación

=

Ejemplo (...)

b) Cálculos

nnxxxx g )1...(*.)1(*) 211(

gx

gx

gx

= (1,0272540 - 1) x 100 = 2,72%

c) Interpretación

Si se selecciona al azar un mes comprendido

entre enero y mayo, se espera que los precios

en promedio se hayan incrementado en 2,72%

con respecto al mes anterior.

Ejemplo (...)

Media geométrica (...)

Otro uso de la media geométrica es determinar

el porcentaje promedio del incremento en ventas,

producción u otros negocios o series

económicas de un periodo a otro. La fórmula es:

1)(/)( 1 nn vvMG

Donde:

Vn = Valor en el periodo n (final)

V1 = Valor en el periodo 1 (inicial)

n = Número de periodos

Ejemplo: El número total de mujeres

matriculadas en el sistema universitario

aumentó de 755 000 el 31-12-04 a 835 000 el

31-12-13. ¿Cuál es la tasa de crecimiento

promedio anual? Rpta. 1,125%.

Media armónica ( )

Se usa cuando los datos están en progresiòn armónica (Cuando sus recíprocos estàn en progresión aritmética)

Se emplea la media armónica para obtener un valor representativo de un conjunto de datos expresados en forma de tasas o proporciones, por ejemplo velocidad y aceleración media, el tiempo medio para realizar el ensamblaje de motos Honda (12 minutos aproximadamente).

Permite obtener promedios de valores que están en relación inversa como la velocidad y el tiempo.

En general se utilizan para obtener promedios de un conjunto de valores expresados en forma de tasas de unidades de un tipo por unidades de otro tipo.

a) Se obtiene calculando el inverso de la media aritmética de los inversos de una serie.

hx

n

n

i i

hx

1X

1

1

Ejemplo:

Los siguientes datos registran el tiempo que utilizan cuatro médicos al realizar una operación al píloro. Calcula e interpreta el tiempo medio.

Médico A B C D

Tiempo

(minutos)45 38 52 40

Conocer el tiempo medio permite contar con una

herramienta útil en la planeación de los recursos,

como por ejemplo la productividad del trabajador.

Además de poder comparar el desempeño con los

estándares de calidad internacionales.

b) Interpretación:

Si se selecciona al azar a uno de los cuatro

médicos, se espera que realice este tipo de cirugía

en 43 minutos aproximadamente.

40

1

52

1

38

1

45

1

4h

x

minutos 117953.43h

x

peraciónsegundos/o 7 minutos 43h

x

Ejemplo. Encuentra la duración media de una hoja de

afeitar contando con los resultados de una encuesta

entre cinco personas sobre la duración media de una

hoja de afeitar y que arrojó los siguientes resultados:

Persona Duración Media (días)

A 10

B 5

C 14

D 30

E 6

Cont. … Si se hubiera calculado por la media

aritmética, el resultado hubiera sido de: (10 + 5 + 14

+ 30 + 6) /5 = 13 días, lo cual es erróneo pues:

A Consumo anual 36,5 (365/10)

B " 73,0 (365/ 5)

C " 26,07 (365/14)

D " 12,17 (365/30)

E " 60,83 (365/ 6)

Total 208,57

El consumo es: 208,57/5 = 41,71 hojas/persona,

cuya duración media es de 365/41,71 = 8,75 días,

resultado que se obtuvo al aplicar la media armónica

Asimetría, sesgo, Sknewness

• Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.

• En las distribuciones simétricas media y mediana coinciden. Si solo hay una moda también coincide.

• La asimetría es positiva (o a la derecha) o negativa (o a la izquierda) en función de a qué lado se encuentra la cola de la distribución.

• La media tiende a desplazarse hacia las valores extremos (colas).

• Las discrepancias entre las medidas de centralización son indicación de asimetría.

Simetría

Media Media

- Normalidad implica simetría; sin embargo, simetría no implica

necesariamente normalidad.

- Se mide con el coeficiente de asimetría (debe estar entre -2 y 2).

- Si hay simetría, media y mediana coinciden.

1. Índice (Coeficiente) de asimetría según Karl Pearson

s

x

X MoA

s

Está basado en la relación entre la media y la moda en

distribuciones simétricas y asimétricas:

Media:

Moda:

Mediana:

Desviación estándar:

Nota: Constituyen el primer y segundo coeficiente de asimetría de Pearson

respectivamente

Apuntamiento, curtosis, kurtosis, concentración central

Leptocúrtica

138

108

102

97

92

87

82

77

72

67

62

57

52

47

42

37

32

27

16

3

Fre

cu

en

cia

400

300

200

100

0

Platicúrtica

8481787572696663605754514845

Fre

cu

en

cia

160

140

120

100

80

60

40

Los siguientes gráficos poseen la misma μ y σ2 , pero diferente grado de

apuntamiento.

• Las curvas simétricas se caracterizan por su curtosis. La curtosis, grado

de agudeza, “apicamiento”, indica el grado de apuntamiento

(aplastamiento) de una distribución simétrica con respecto a la

distribución normal o gaussiana (distribución campaniforme y simétrica).

Es adimensional.

• Platicúrtica: curtosis < 0 (menos apuntada que la normal)

• Mesocúrtica: curtosis = 0 (igual que la normal)

• Leptocúrtica: curtosis > 0 (mas apuntada que la normal)

Mesocúrtica

99

93

89

85

81

77

73

69

65

61

57

53

49

45

41

37

32

27

Fre

cu

en

cia

300

200

100

0

Índice de curtosis de Fisher, coeficiente de exceso de curtosis

Para una distribución normal (mesocúrtica) se sabe que:

4

1

4

( )

3

n

i

i

x

X X n

s

Y esta será la referencia para el índice de curtosis:

4

1

4

( )

3

n

i

ir

x

X X n

Cs

Curtosis

Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa. Ejemplo:

Un conjunto de átomos de una sustancia con una media de velocidades 0, no cabe concluir que los miembros del sistema están quietos.

Ello implicaría que la substancia se encontraría cerca del cero absoluto. Con una media de 0 podemos tener desde un sólido cristalizado hasta un gas muy caliente.

La variable que determinará en qué estado de agitación térmica se encuentran los átomos del sistema será la dispersión de velocidades.

Medidas de dispersión (variabilidad, spread)

•Amplitud o Rango („range‟): Diferencia entre las

observaciones extremas.

– 2; 1; 4; 3; 8; 4. El rango es 8 – 1 = 7

– Es muy sensible a los valores

extremos.

•Rango intercuartílico („interquartile range‟):

– Es la distancia entre el primer y tercer cuartil.

• Rango intercuartílico = P75 - P25

– Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores.

– No es tan sensible a valores extremos.

Medidas de dispersión (variabilidad)

VARIANZA Y DESVIACIÓN ESTÁNDAR PARA UNA POBLACIÓN

Varianza σ2, desvío medio cuadrático, variance: Mide el promedio de las desviaciones (al cuadrado) de las observa-ciones con respecto a la media.

– Es sensible a valores extremos (alejados de la media).

– Sus unidades son el cuadrado de las de la variable.

i

ix

n

22

)µ(1

2

2

2

n

xi

i

Desviación típica, desvío estándar, error estándar, dispersión absoluta („standard deviation‟). Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad (unidades) que la variable.

2

VARIANZA PARA UNA MUESTRA

Esta expresión de cálculo de la varianza muestral no se utiliza mucho pues sus valores tienden a ser menores que el de la auténtica varianza de la variable (debido a que la propia media muestral tiene una varianza que vale un enésimo de la de las observaciones) Para compensar esta deficiencia y obtener valores que no subestimen la varianza poblacional (cuando estamos interesados en ella y no en la varianza muestral) utilizaremos una expresión, esencialmente igual que la anterior salvo que el denominador está disminuido en una unidad.

Para n >= 30 restar 1 de n implica muy poca diferencia.

i

ix

nS

22

)x(1

VARIANZA PARA UNA MUESTRA

• Varianza S2 („Variance‟, cuasi varianza, varianza insesgada,

estimador de la varianza de la población):

• Desviación típica modificada, desvío estándar, error

estándar, dispersión absoluta („standard deviation‟):

i

i xxn

S22

)(1

1

2SS

¿Por qué se divide entre n-1 en lugar de n en la varianza muestral?

Esto se debe a que se utilizan muestras de una población. Por lo tanto, aquí se aplica estadística inferencial, la cual trata con muestras extraídas de poblaciones que son demasiado grandes para mediar de forma directa y por lo tanto, se utilizan valores de muestras para hacer inferencias acerca de los valores correspondientes de la población.

Comúnmente se utiliza la varianza muestral como un estimado de una varianza poblacional desconocida. Si se utiliza n en el denominador de la varianza muestral tenderá a subestimar la varianza poblacional. Por lo tanto, al utilizar n-1 en la varianza muestral se obtiene una mejor estimación de la varianza poblacional.

VARIANZA PARA UNA MUESTRA (...)

Tasa de desnutrición: porcentaje de niños menores de cinco años con una

desviación estándar de talla mayor a dos por debajo de la norma internacional

ajustada correspondiente a su edad.

Varianza para datos agrupados

donde:

: media muestral

: frecuencia absoluta de la clase i

: marca de clase i

x

if

iMC

Medidas de variabilidad con respecto a la media

I) Promedios Finales Media D.S.P.

14 16 16 16 16 18 (a) 16,0 1,1547

10 12 19 20 15 20 (b) 16,0 3,95811

15 14 15 15 15 15 (c) 14,8 0,37268

70 80 80 80 80 90 (d) 80,0 5,7735

40 80 80 80 80 90 (e) 75,0 16,0728

II) Si las notas fueran una muestra Media D.S.M.

Vigesimal 14 16 16 16 16 18 (a) 16,0 1,26491

Centesimal 70 80 80 80 80 90 (d) 80,0 6,32456

Se tienen los siguientes promedios finales correspondientes

a los alumnos de las secciones: a, b, c, d y e de la

asignatura XXX. Hallar la media(X) y la desviación

estándar(S).

Sist.

vigesimal

Sist.

centesimal

Propiedades de la varianza

a) La varianza es un número no negativo.

b) Si todos los datos son iguales a una

constante c, su varianza es igual a 0. En este

caso la media es igual a c. No hay dispersión.

c) Si a cada uno de los datos x1, ... ,xn se les

suma una constante b, entonces la varianza de

los datos transformados: x1 + b, ... ,xn + b es

igual a la varianza de los datos originales.

d) Si a cada uno de los datos x1, ... ,xn se

les multiplica por una constante k, entonces

la varianza de los datos transformados: kx1,

... , kxn es igual a la varianza de los datos

originales multiplicada por el cuadrado de

la constante. Esto es, si la varianza de los

datos originales es s2 entonces la varianza

de los datos transformados es k2s2.

Propiedades de la varianza (...)

e) Si el conjunto de m datos: x1, ...,xm tiene media x

y varianza 2xs , mientras que el conjunto de n datos

y1, ... ,yn tiene media y y varianza 2ys , entonces el

conjunto de datos x1, ... xm, y1, ... ,yn tiene

varianza:

,2

)(2

)(

222

Mynm

nMx

nm

m

nm

ynsxmss

en donde M es la media del conjunto x1, ...,xm, y1,

... ,yn.

Si las medias x e y son iguales, entonces:

nm

ynsxmss

222

Propiedades de la varianza (...)

Coeficiente de variación, dispersión relativa, Coeficiente de

variabilidad de Pearson, coefficient of variation, CVx

• Es la razón entre la desviación típica y la media.

– Mide la desviación típica en forma de “qué tamaño tiene con respecto a la

media”.

– También se la denomina variabilidad relativa.

– Son poco robustos

– Es frecuente mostrarla en porcentajes:

• Si la media es 80 y la desviación típica 20 entonces

CV=20/80=0,25=25% (variabilidad relativa)

• Otros: Coeficiente de variación cuartílico

CV

x

SCV

Coeficiente de variación

• Es una cantidad adimensional. Interesante para comparar la

variabilidad de diferentes variables.

– Si el peso tiene CV=30% y la altura tiene CV=10%, los

individuos presentan más dispersión en peso que en altura.

• No debe usarse cuando la variable presenta valores negativos o

donde el valor 0 sea una cantidad fijada arbitrariamente

– Por ejemplo 0ºC ≠ 0ºF

• El coeficiente de variación elimina la dimensionalidad de las

variables y tiene en cuenta la proporción existente entre una

medida de tendencia y la desviación típica o estándar.

• El principal inconveniente, es que al ser un coeficiente

inversamente proporcional a la media aritmética, cuando está tome

valores cercanos a cero, el coeficiente tenderá a infinito

Uso de las medidas de dispersión

Si dos o más series de datos (observados en

el mismo tipo de medición) tienen medias

aritméticas iguales (o casi iguales) es más

dispersa la serie que tiene mayor medida de

variabilidad: Rango, RI, s2, s, o CV.

Si dos o más series de datos, no tienen

medias iguales (o casi iguales), o no tienen

las mismas unidades de medición, entonces

es más dispersa la serie que tenga el mayor

coeficiente de variación

Ejemplo:

Las medidas tomadas con un micrómetro al diámetro de

una producción de cojinetes, tienen una media de 3,98

mm y una desviación estándar de 0,014 mm, mientras

que las medidas tomadas a otra muestra de resortes sin

extender, tienen una media de 1,59 pulgadas y una

desviación estándar de 0,009 pulgadas. ¿Qué grupo de

objetos tiene una mayor variabilidad?

C.V.1 = (0,014 / 3,98) x 100% = 0,35%

C.V.2 = (0,009 / 1,59) x 100% = 0,57%

Covarianza Es una estadística que mide el grado de dispersión

o variabilidad conjunta de dos variables X e Y (variables bivariantes) con respecto a sus respectivas medias.

Es útil para describir el comportamiento de una variable en relación con otra.

Aporta una idea muy burda de la relación entre X y Y. Solo interesa su signo algebraico, no su magnitud, a diferencia de la varianza que solo es positiva.Las unidades son al cuadrado (Soles2)

Si Cov(X,Y) > 0 indica que valores altos de X se relacionan con valores igualmente altos de Y, y viceversa.

Si Cov(X,Y) = 0 implica que si X asume un valor más alto que su media no indica algo sobre el valor de Y en relación con su media.

INCONVENIENTE: Depende de las dimensiones de las

variables

n

xxyy

yxCov

n

i

ii

1),(

Covarianza

medida de variabilidad conjunta.

No tiene límite superior o inferior,

depende de las unidades en que se

mida

Coeficiente de

Correlación

(Pearson) )()(

),(

xVaryVar

xyCovr

Covarianza estandarizada. Varía entre -1 y +1

Ejercicio.

La acción común de la empresa Thiago (T) tiene una rentabilidad

esperada del 10% y una desviación estándar del 5% anual. La

acción común de la empresa Casas (C) tiene una rentabilidad

esperada del 20% y una desviación estándar del 60% anual.

a) ¿Cuál es la rentabilidad esperada de una cartera que se

compone de 40% del título T y 60% del título C?

b) ¿Cuál es la covarianza de las rentabilidades de T y C si el

coeficiente de correlación (ρ) entre T y C es de 0,5?

Tipificación o Transformación Z (Valor estandarizado, unidad

tipificada, variable centrada reducida, variable

estandarizada o normalizada)

Las puntuaciones típicas son el resultado de dividir las puntuaciones

diferenciales (restar la media) entre la desviación típica. Este

proceso se llama tipificación.

Dada una variable de media μ y desviación típica σ, se denomina valor tipificado z, de una observación X, a la distancia (con signo) con respecto a la media, medido en desviaciones típicas, es decir:

Xz

Cuando se necesite comparar valores observados que pertenecen

a diferentes distribuciones de datos, las que difieren en su media

aritmética o en su varianza, o difieren en el tipo de unidad de

medida, se usa el valor estándar Z.

El "puntaje Z", también llamado "puntaje estándar", es la medida

estadística de “qué tan lejos está una observación particular de la

desviación estándar".

Ejemplo. Laura Boso saca una puntuación de 85 en un examen cuyas

puntuaciones tienen una media de 79 con una desviación típica de 8. Elba

Boso saca 74 en un examen cuyas puntuaciones tienen una media de 70 y

desviación estándar de 5. ¿Cuál de las dos obtuvo una puntuación mejor?

La respuesta, desde el punto de vista de la "unidad tipificada", se obtiene así:

Las puntuaciones tipificadas de Laura y Elba son respectivamente:

Así el Elba lo hizo mejor que Laura, aunque su puntuación de 74 es inferior a

85.

La Universidad Vocé A. Buso (UVAB) quiere dar una beca a uno de dos estudiantes de sistemas educativos diferentes y se asignará al que tenga mejor expediente académico:

– El estudiante A tiene una calificación de 8 en un sistema donde la calificación se comporta como N(6,1).

– El estudiante B tiene una calificación de 80 en un sistema donde la calificación se comporta como N(70,10).

110

7080

21

68

B

xz

xz

BBB

A

AAA

–No podemos comparar directamente 8 puntos de A frente a los 80 de B, pero como ambas poblaciones se comportan de modo normal, podemos tipificar y observar las puntuaciones sobre una distribución de referencia N(0,1).

–Como zA > zB, podemos decir que el porcentaje de compañeros del mismo sistema de estudios que ha superado en calificación al estudiante A es mayor que el que ha superado B. En principio A es mejor candidato para la beca.

Ejercicio. El cuadro de pagos de dos empresas constructoras

en la semana pasada se muestra a continuación:

ParámetrosC. Manos a la

Urbe

C. La Vida

en Concreto

Salario medio S/.963 S/.972

Desviación típica S/.26 S/.28

a) ¿En cuál de las dos constructoras los salarios presentan

mayor variabilidad?

b) Si a Mamerta, egresada de la Facu le ofrecen un salario

semanal de S/.468, ¿en cuál de las constructoras tendrá

una mejor posición relativa? c) Si a Mamerta le ofrecen un salario semanal de S/.1 468, ¿en cuál de

las constructoras tendrá una mejor posición relativa?

Medidas de variabilidad con respecto a la media

I) Compara S y CV Promedios Finales Media D.S.P. CV

14 16 16 16 16 18 (a) 16.0 1.15470054 0.07217

10 12 19 20 15 20 (b) 16.0 3.95811403 0.24738

15 14 15 15 15 15 (c) 14.8 0.372678 0.02512

70 80 80 80 80 90 (d) 80.0 5.77350269 0.07217

40 80 80 80 80 90 (e) 75.0 16.0728 0.2143

II) Quién destaca más: el alumno con 18 o con 90? Z

Vigesimal 14 16 16 16 16 18 (a) 16.0 (18) 1.73205

Centesimal 40 80 80 80 80 90 (e) 75.0 (90) 0.93326

Vigesimal 14 16 16 16 16 18 (a) 16.0 (18) 1.73205

Centesimal 70 80 80 80 80 90 (d) 80.0 (90) 1.73205

III) Si las notas fueran una muestra Media D.S.M. CV Z

Vigesimal 14 16 16 16 16 18 (a) 16.0 1.26491106 0.07906 1.58114

Centesimal 70 80 80 80 80 90 (d) 80.0 6.32455532 0.07906 1.58114

Caso: Se tienen los siguientes promedios finales correspondientes a los alumnos de las secciones: a, b,

c, d y e de la asignatura XXX. Hallar la: media(X), desviación estándar(S), coeficiente de

variabilidad(CV) y variable normal estandarizada (Z). Explicar su uso.

S

e

c

c

i

ó

n

Sistema

vigesimal

Sist.

Centesimal

de 1/4 kg de 1 kg

0,92 4,52

0,98 4,35

1,04 4,60

0,90 4,70

0,99 4,50

Media Arit. 0,966 4,534

S 0,050 0,116

CV 5,22% 2,56%

Tiempos de embolsado de

Maca de la Pirinaca (en

minutos)

Teorema de Chebyshev(Tchebyshev, desigualdad de

Ch., regla de Ch…)

Para cualquier conjunto de datos con media x y desviación

estándar muestral s, la proporción de datos comprendidos

en el intervalo x - ks, x + ks, es mayor o igual a [1 –

(1/k2)]. Donde k > 1.

Por ejemplo en el intervalo x - 2s, x + 2s por lo menos

hay el 75% de los datos, en el intervalo x - 3s; x + 3s por

lo menos hay el 89% de los datos.

2

2

,0

XP

2

2

1 ,0

XP

2

1 ,1

kkXPk

Otras formas de la desigualdad de Chebyshev

Sea X una v.a. con media y varianza 2 < , ɛ >0, entonces:

Ejemplo

La media de los pesos de las bolsas de maca de la pirinaca

es igual a 15,1333 kg y la desviación estándar es 2,8952

kg.

En el intervalo 9,3429 - 20,9237, que tiene la media

como centro y dos desviaciones estándar muestrales como

radio, existe, según Chevyshev, por lo menos el 75% de

los datos.

Ejemplo.

Los N datos correspondientes a la produc-

ción diaria de gasolina de la planta “El

Perreo” tienen una media aritmética de 150

000 galones con una desviación estándar de

1 000 galones.

Hallar la proporción de días cuya produc-

ción de gasolina está comprendida entre

148 000 y 152 000.

Propuesta de Solución

El intervalo 148 000, 152 000

corresponde a x - ks, x + ks con x =

150000; s = 1000 y k = 2.

Aplicando la propiedad de Chebyshev con

k = 2, se tiene que la proporción de días

cuya producción está en el intervalo

indicado es por lo menos igual a:

1 – (1/k2) = 0,75.

Ejemplo.

Los N datos correspondientes a la producción diaria

de gasolina de la planta “El Perreo” tienen una media de 150 000 galones con una desviación

estándar de 1 000 galones.

Si se sabe que la menor producción es 147 000,

calcula un intervalo que contenga por lo menos 90%

de los datos.

Un intervalo que satisface lo pedido es

uno de la forma x - ks, x + ks donde k es

tal que 90,02

11

k

. Luego, k = 10 =3,1622 y

x - ks, x + ks.

Como la menor producción es 147 000,

un intervalo que cumple la condición es:

147 000,00; 153 162,20


Ejemplo.

Los N datos correspondientes a la producción diaria

de gasolina de la planta “El Perreo” tienen una

media de 150 000 galones con una desviación

estándar de 1 000 galones.

¿Con qué frecuencia se puede decir que la

producción será mayor que 157 000 galones

diarios? Asume que la distribución es

acampanada, por lo que se utilizarán unidades

estándar o valores de la z.

s

XXZ

La distancia entre 157 000 y la media de la producción

expresada en desviaciones estándar de la misma es:

70001

000150000157

Esto indica que 157 000 está a 7 desviaciones

estándar de la media.

Aplicando la propiedad de Chebyshev, se tiene que

la proporción de días cuya producción está en el

intervalo 150 000 – 7*(1 000); 150 000 + 7*(1 000)

= 147 000; 157 000 es por lo menos.

9796,00204,012

7

11

2

11

k

Como la menor producción es 147 000 se puede

afirmar que la producción será mayor que 157 000 en

el (1 – 0,9796) = 2,04% de los días a lo más.


Regla empírica para datos

En una distribución de probabilidad acampanada (forma de montículo) y

más o menos simétrica se cumple que:

Ejercicio. El CPC José Papaffava realizó un muestreo en el Depósito de

Materiales de Construcción sobre el número de días que permanecen en almacén

200 bolsas de cemento Portland Tipo III (Alta resistencia inicial, como cuando se

necesita que la estructura de concreto reciba carga lo antes posible o cuando es

necesario desencofrar a los pocos días del vaciado). Los datos son:

Permanencia

(en días) 1 - 3 4 - 6 7 - 9 10 - 12 13 - 15 16 - 18 19 - 21 22 - 24

N° de bolsas 24 83 52 22 11 5 2 1

a) Determina la media, moda y la desviación típica.

b) Según el teorema de Chebyshev ¿Cuántas bolsas fluctuarán entre 1 y 15

días en el almacén?¿Cuántas se hallan realmente en ese intervalo?

c) Considerando que la distribución tiene aproximadamente la forma de

campana ¿Cuántas bolsas cabe esperar que hayan permanecido en el

almacén entre 1 y 15 días?

MEDIDAS DE CONCENTRACIÓN

Las medidas de concentración tratan de poner de relieve el mayor o menor

grado de igualdad en el reparto del total de los valores de la variable, son por

tanto indicadores del grado de distribución de la variable.

Para este fin, están concebidos los estudios sobre concentración.

Denominamos concentración a la mayor o menor equidad en el reparto de la

suma total de los valores de la variable considerada (renta, salarios, etc.).

Las infinitas posibilidades que pueden adoptar los valores, se encuentran

entre los dos extremos:

1.- Concentración máxima, cuando uno solo percibe el total y los demás

nada, en este caso, nos encontraremos ante un reparto no equitativo:

x1 = x2 = x3 = ………… = xn-1 = 0 y xn.

2.- Concentración mínima, cuando el conjunto total de valores de la variable

esta repartido por igual, en este caso diremos que estamos ante un reparto

equitativo

x1 = x2 = x3 = ………… = xn-1 = xn.

Algunas medidas de concentración:

Indice de Gini, Coeficiente, por tanto será un valor numérico.

Curva de Lorenz, gráfico, por tanto será una representación en ejes

coordenados.

Pone de relieve el mayor o menor grado de

igualdad en el reparto del total de los recursos:

El índice de Gini (IG) varía entre 0 y 1, correspondiendo los

casos extremos a concentración mínima o equidistribución

(IG = 0) y concentración máxima (IG =1).

Índice de Gini

Curva de Lorenz: Es la representación gráfica de los

porcentajes acumulados de individuos (pi) y de recursos (qi).

Se colocan los pi en el eje de abscisas, los qi en el de

ordenadas, y se unen todos los puntos (pi,qi), considerando

(0,0) como el primer punto y (100,100) como el último.

Así, cuanto más próxima esté la curva a la bisectriz del primer

cuadrante, más parecidos serán ambos porcentajes

acumulados, por lo que menor será la concentración.

Download - 1_EstadisticaDescriptivaFII

Top Related